CN112750462A

CN112750462A - 一种音频处理方法、装置及设备

Info

Publication number: CN112750462A
Application number: CN202010787033.0A
Authority: CN
Inventors: 李娟娟; 朱鸿宁; 夏咸军; 王燕南; 黄�俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2021-05-04

Abstract

本申请实施例公开了一种音频处理方法、装置及设备，该音频处理方法包括：获取目标音频的音频特征；获取声学场景分类模型，声学场景分类模型包括N个音频识别模型，一个音频识别模型对应一个识别角度；N个音频识别模型用于从N个识别角度对M种声学场景进行识别，N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型，N为大于1的整数，M为正整数；分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果；对N个识别结果进行融合，得到目标音频所属的目标声学场景。可以提升声学场景分类的准确率，提高声学场景分类效果。

Description

一种音频处理方法、装置及设备

技术领域

本申请涉及计算机技术领域，具体涉及音频分类技术领域，尤其涉及一种音频处理方法、一种音频处理装置以及一种音频处理设备。

背景技术

声学场景分类在日常生活中有着较为广泛地应用，所谓声学场景分类(Ac ousticScene Classification，ASC)是指对音频中包含的声学内容进行分析，进而识别出该音频对应的声学场景的过程。

目前声学场景分类主要通过以下两种方式实现：第一种是基于传统机器学习的声学场景分类方式，具体地，采用传统的机器学习模型，例如支持向量机(Support VectorMachines，SVMs)模型、混合高斯模型(Gaussian Mixture Models，GMMs)、隐马尔可夫模型(Hidden Markov Models，HMMs)等对音频中的声学特征进行拟合，得到该音频对应的声学场景。第二种是基于深度学习的声学场景分类方式，具体地，采用深度神经网络模型，例如循环神经网络(Recurrent Neural Works，RNNs)模型，卷积神经网络(ConvolutionalNeura l Networks，CNNs)模型等对音频进行声学场景分类。实践发现，目前的声学场景分类方式更多依赖已有的模型，在声学场景分类过程中较易出现过拟合问题，并且分类角度较为单一，声学场景分类效果欠佳，准确率较低。

发明内容

本申请实施例提供了一种音频处理方法、装置及设备，可以提升声学场景分类的准确率，提高声学场景分类效果。

一方面，本申请实施例提供一种音频处理方法，该音频处理方法包括：

获取目标音频的音频特征；以及，

获取声学场景分类模型，声学场景分类模型包括N个音频识别模型，一个音频识别模型对应一个识别角度；N个音频识别模型用于从N个识别角度对M种声学场景进行识别，N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型，N为大于1的整数，M为正整数；

分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果；

对N个识别结果进行融合，得到目标音频所属的目标声学场景。

另一方面，本申请实施例提供一种音频处理装置，该音频处理装置包括：

获取单元，用于获取目标音频的音频特征；以及，用于获取声学场景分类模型，声学场景分类模型包括N个音频识别模型，一个音频识别模型对应一个识别角度；N个音频识别模型用于从N个识别角度对M种声学场景进行识别，N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型，N为大于1的整数，M为正整数；

处理单元，用于分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果；以及，用于对N个识别结果进行融合，得到目标音频所属的目标声学场景。

在一种实现方式中，N个音频识别模型中的任一个音频识别模型表示为第n个音频识别模型，n∈[1，N]；M种声学场景中的任一种声学场景表示为第m种声学场景，m∈[1，M]；

第n个音频识别模型与第m种声学场景之间存在匹配度Q_nm，匹配度Q_nm值越大，表示第n个音频识别模型对第m种声学场景的识别能力越强，并且表示第n个音频识别模型对第m种声学场景的识别结果越准确；

一个音频识别模型对应一个识别结果，第n个音频识别模型对应的识别结果包括：经第n个音频识别模型识别得到的目标音频属于每种声学场景的概率。

在一种实现方式中，处理单元，具体用于：

根据N个识别结果中的目标音频属于每种声学场景的概率，分别计算每种声学场景下的融合概率；

将M种声学场景下的融合概率中数值最大的声学场景确定为目标音频所属的目标声学场景。

在一种实现方式中，处理单元，具体用于：

按照N个音频识别模型与第m种声学场景之间的匹配度，动态设置每个音频识别模型在第m种声学场景下的权重；

采用N个音频识别模型在第m种声学场景下的权重，对第m种声学场景下的N个概率进行加权平均，得到第m种声学场景下的融合概率。

在一种实现方式中，识别角度包括以下至少一种：声学场景中的对象角度、音频特征的全局角度、音频特征的固定局部角度、音频特征的动态局部角度；

目标神经网络架构包括以下任一种：

由卷积层和规整激活层组成的架构；规整激活层包含批规整层和激活函数；卷积层的输出端与规整激活层的输入端相连接；

由卷积层、规整激活层和池化层组成的架构；规整激活层的输出端与池化层的输入端相连接；

由卷积层、规整激活层和丢弃层组成的架构，规整激活层的输出端与丢弃层的输入端相连接；

由卷积层、规整激活层、丢弃层和池化层组成的架构，丢弃层的输出端与池化层的输入端相连接。

在一种实现方式中，识别角度是音频特征的全局角度，N个音频识别模型中包括第一音频识别模型，第一音频识别模型是根据音频特征的全局角度对目标神经网络架构进行变种形成的；获取单元，具体用于：

对X组目标神经网络架构进行级联，X为正整数；

在级联的最后一层加入全局平均层及输出层激活函数，得到第一音频识别模型；

其中，级联的X组目标神经网络架构中，存在至少一组目标神经网络架构中包括丢弃层和/或池化层。

在一种实现方式中，识别角度是音频特征的动态局部角度，N个音频识别模型中包括第二音频识别模型，第二音频识别模型是根据音频特征的动态局部角度对目标神经网络架构进行变种形成的；获取单元，具体用于：

对X组目标神经网络架构进行级联，并在级联的最后一层加入注意力机制，X为正整数；

在注意力机制之后连接全局平均层及输出层激活函数，得到第二音频识别模型；

在一种实现方式中，识别角度是音频特征的固定局部角度，N个音频识别模型中包括第三音频识别模型，第三音频识别模型是根据音频特征的固定局部角度对目标神经网络架构进行变种形成的；获取单元，具体用于：

根据目标神经网络架构生成多路第一神经网络，每一路第一神经网络由X组目标神经网络架构进行级联得到，X为正整数；

将多路第一神经网络的输出层进行拼接；

在拼接之后连接至少一组目标神经网络架构及注意力机制，并在注意力机制之后连接全局平均层及输出层激活函数，得到第三音频识别模型；

其中，第一神经网络中级联的目标神经网络架构中，存在至少一组目标神经网络架构中包括丢弃层和/或池化层。

在一种实现方式中，识别角度是所述声学场景中的对象角度，N个音频识别模型中包括第四音频识别模型，所述第四音频识别模型是根据所述声学场景中的对象角度对所述目标神经网络架构进行变种形成的；获取单元，具体用于：

对X组目标神经网络架构进行级联得到一个残差网络架构，X为正整数；

根据残差网络架构生成多路第二神经网络，每一路第二神经网络由Y组残差网络架构进行级联得到，Y为正整数；

将多路第二神经网络的输出层进行拼接，在拼接之后连接至少一组目标神经网络架构，并在连接的最后一层加入全局平均层及输出层激活函数，得到第四音频识别模型。

在一种实现方式中，获取单元，还用于在P个用户参与的音视频会话中采集目标音频，并提取目标音频的音频特征，P为大于1的整数；目标音频包括以下至少一种：P个用户中任意用户的会话音频，以及音视频会话的环境音频；音频特征包括以下至少一种：梅尔频谱系数及对数梅尔能量谱；

处理单元还用于按照目标音频所属的目标声学场景对音视频会话的通信质量进行调整。

在一种实现方式中，处理单元，还用于：

若目标声学场景为嘈杂声学场景，则关闭目标音频对应的用户的会话权限；

若目标声学场景为音乐声学场景，则关闭音视频会话的降噪处理功能；

若目标声学场景为漏回声声学场景，则对目标音频进行回声消除处理。

在一种实现方式中，声学场景分类模型是采用训练样本集进行训练得到的，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；样本音频存储于第一样本集中，扩充音频存储于第二样本集中，训练样本集是对第一样本集第二样本集进行合并形成的集合；第一样本音频是第一样本集中的任一个音频；处理单元，还用于：

若第一样本音频的时长为非整数，则对第一样本音频进行随机剪裁得到第一样本音频对应的扩充音频，第一样本音频对应的扩充音频的时长为整数；

在第一样本音频的频谱图中加入随机白噪源，得到第一样本音频对应的扩充音频；

将第一样本音频的频谱进行归整处理，得到第一样本音频对应的扩充音频；

对第一样本音频添加混响效果，得到第一样本音频对应的扩充音频；

对第一样本音频进行基频平移处理，得到第一样本音频对应的扩充音频；

对第一样本音频进行加减速处理，得到第一样本音频对应的扩充音频；

在第一样本音频的时域添加随机白噪源，得到第一样本音频对应的扩充音频。

在一种实现方式中，第二样本音频是第一样本集中除第一样本音频之外的任一音频；第一样本集中还包括第一样本音频的标签和第二样本音频的标签；处理单元，还用于：

将第一样本音频和第二样本音频进行混合，以及将第一样本音频的标签和第二样本音频的标签进行混合，得到第一样本音频对应的扩充音频；

若第一样本音频与第二样本音频分别处于不同的信道，则对第一样本音频和第二样本音频进行叠加，得到第一样本音频对应的扩充音频；

若第一样本音频的标签与第二样本音频的标签相同，则对第一样本音频和第二样本音频进行时域叠加，得到第一样本音频对应的扩充音频。

另一方面，本申请实施例提供一种音频处理设备，该音频处理设备包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，该计算机可读存储介质存储有计算机指令，计算机指令适于由处理器加载并执行上述的音频处理方法。

另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述的音频处理方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的音频处理方法。

本申请实施例中，声学场景分类模型由N个音频识别模型组成，该N个音频识别模型用于从N个识别角度对M种声学场景进行识别，该N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型；通过变种方式按需对已有的网络模型架构进行改造，这使得改造得到的N个音频识别模型能够与声学场景分类过程之间的适应性和匹配度更高，从而有利于提升声学场景分类的准确率；另外，采用该N个音频识别模型分别对目标音频进行声学场景的分类识别，再融合N个识别结果得到目标音频所属的目标声学场景；由于N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种得到的N个不同类型的网络模型，该N个音频识别模型具备不同的识别处理能力，能够从不同的识别角度对音频特征进行分析得到各自的识别结果，通过对这些识别结果进行融合，可有效集成N个音频识别模型各自的识别优势，进一步提升声学场景分类的准确率，提高声学场景分类效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的一种音频处理系统的架构示意图；

图2示出了本申请一个示例性实施例提供的一种音频处理方案的流程示意图；

图3示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；

图4a示出了本申请一个示例性实施例提供的一种音频特征提取过程的流程示意图；

图4b示出了本申请一个示例性实施例提供的一种目标神经网络架构的架构示意图；

图4c示出了本申请另一个示例性实施例提供的一种目标神经网络架构的架构示意图；

图4d示出了本申请另一个示例性实施例提供的一种目标神经网络架构的架构示意图；

图4e示出了本申请另一个示例性实施例提供的一种目标神经网络架构的架构示意图；

图4f示出了本申请一个示例性实施例提供的一种音频识别模型的结构示意图；

图4g示出了本申请另一个示例性实施例提供的一种音频识别模型的结构示意图；

图4h示出了本申请另一个示例性实施例提供的一种音频识别模型的结构示意图；

图4i示出了本申请另一个示例性实施例提供的一种音频识别模型的结构示意图；

图4j示出了本申请一个示例性实施例提供的一种残差网络架构的架构示意图；

图5示出了本申请另一个示例性实施例提供的一种音频处理方法的流程示意图；

图6示出了本申请另一个示例性实施例提供的一种音频处理方法的流程示意图；

图7示出了本申请另一个示例性实施例提供的一种音频处理装置的结构示意图；

图8示出了本申请另一个示例性实施例提供的一种音频处理设备的结构示意图。

具体实施

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种音频处理方案，该音频处理方案可以应用于声学场景分类的任务中，所谓声学场景分类是指对音频中包含的声学内容进行分析处理，进而识别出该音频对应的声学场景的过程。此处的声学场景可按照多个维度进行划分，当按照声学场景中的对象维度进行划分时，声学场景可包括但不限于以下至少一类：鸟类啼叫场景、马路上警笛鸣响场景、家中婴儿哭闹场景、老师授课场景、学生读书场景等等。当按照声学场景的空间维度进行划分时，声学场景可包括但不限于以下至少一类：家庭场景、办公室场景、地铁场景、机场场景、街道场景等等。当按照声学场景中的音频的音频属性(例如音量、音调、音频类型等)维度进行划分，声学场景可包括但不限于以下至少一类：嘈杂声学场景、漏回声声学场景、音乐声学场景等等。通过对音频进行声学场景分类，确定音频所属的声学场景类别，能够达到感知周边环境的目的。

本申请实施例提出的音频处理方案涉及人工智能、云计算、人工智能云服务、机器学习等技术，其中：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作(交互)系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习(深度学习)等几大方向。

云计算(Cloud Computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取、按需使用、随时扩展、按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台)，一般称为Iaa S(Infrastructure as a Service，基础设施即服务)平台，在云计算资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分，在IaaS层上可以部署PaaS(Platform as a Service，平台即服务)层，P aaS层之上再部署SaaS(Software as a Service，软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件(例如数据库、web容器等)运行的平台。SaaS为各式各样的业务软件(例如web门户网站、短信群发器等)。一般来说，SaaS和PaaS相对于IaaS是上层。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，AI即服务)，这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城，所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习(Deep Learning，DL)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于上述描述，请参见图1，图1示出了本申请一个示例性实施例提供的一种音频处理系统的架构示意图，该音频处理系统包括P个终端(例如第一终端101、第二终端102等)和服务器103，P为大于1的整数。其中，P个终端中的任一个终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。P个终端中的任一个终端可以支持各种应用程序的安装及运行，此处的应用程序可包括但不限于社交应用程序(如微博应用程序、即时通信应用程序、音视频通信应用程序、带社交功能的地图应用程序等等)、音视频应用程序(如视频点播应用程序、音频播放器等)、游戏应用程序等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器，本申请实施例在此不作限制。终端与服务器可以通过有线通信或者无线通信方式进行直接或间接地连接，本申请在此不做限制。下面以音视频会话场景为例，对本申请实施例提供的音频处理方案进行介绍：

(1)由P个终端对目标音频进行处理。

在一种实现方式中，P个用户分别使用上述音频处理系统中的P个终端参与音视频会话，例如用户A使用第一终端参与音视频会话，用户B使用第二终端参与音视频会话等等，服务器用于对P个终端在音视频会话过程中产生的目标音频进行传输和处理；其中，目标音频可以包括但不限于以下至少一种：P个终端在音视频会话过程中产生的会话音频以及音视频会话的环境音频等等。第一终端是P个终端中的任一个终端，此处以第一终端为例详细描述第一终端对目标音频的处理过程，P个终端中除第一终端之外的其他终端对目标音频的处理过程与第一终端对目标音频的处理过程相同；第一终端对目标音频进行处理，处理完成后，第一终端将处理后的目标音频发送至服务器，服务器将第一终端处理后的目标音频传输至参与音视频会话的其他终端中，以实现P个终端参与的音视频会话。

具体地，目标音频是第一终端在音视频会话中采集到的音频，第一终端采集到的目标音频可以包括但不限于以下至少一种：第一终端的终端用户的会话音频、音视频会话过程中第一终端的环境音频等等。第一终端提取目标音频的音频特征，目标音频的音频特征包括但不限于以下至少一种：梅尔频谱系数(M el Frequency Cepstrum Coefficient，MFCC)、对数梅尔能量谱(Log mel pow er spectrum)等等。第一终端分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果，每一个音频识别模型对应一个目标音频的识别结果；第一终端对N个识别结果进行融合处理，得到目标音频所属的目标声学场景。其中，N个音频识别模型是N个不同类型的网络模型，N个音频识别模型分别从N个识别角度对目标音频的音频特征进行声学场景的识别处理；一个音频识别模型对应一个识别角度，一个音频识别模型从该音频识别模型对应的识别角度对目标音频的音频特征进行声学场景的识别处理；每一个音频识别模型对应的识别角度是该音频识别模型具有较好识别效果的识别角度，所谓音频识别模型具有较好识别效果的识别角度是指该音频识别模型从该识别角度对目标音频的音频特征进行声学场景的识别处理时的识别准确率较高、识别速度较快等。具体地，识别角度可以包括但不限于以下至少一种：声学场景中的对象角度、音频特征的全局角度、音频特征的固定局部角度、音频特征的动态局部角度；所谓声学场景中的对象角度是指关注包含对象的声学场景(即该声学场景中包含动物、人物等对象的声学内容)的角度；所谓音频特征的全局角度是指关注目标音频的全部音频特征的角度；所谓音频特征的固定局部角度是指关注目标音频的固定局部音频特征的角度，也就是说，关注目标音频的部分音频特征且关注的部分音频特征是固定不变的；所谓音频特征的动态局部角度是指关注目标音频的动态局部音频特征的角度，也就是说，关注目标音频的部分音频特征且关注的部分音频特征是动态变化的。另外，N的取值可以根据实际需要进行设定，例如N为3、4、5等等；N的值越大，则声学场景识别过程中的识别角度越丰富，声学场景分类识别的结果越准确；与此同时，N的值越大其运算的复杂度也相应较高，耗费的运算资源相对也较多；所以N的取值需要在识别精度与运算资源的合理耗费之间取得平衡。本申请实施例中，考虑到上述平衡性，以N＝4为例进行说明，如图2所示，图2示出了本申请一个示例性实施例提供的一种音频处理方案的流程示意图，第一终端提取目标音频的频谱特征后，分别采用全连接卷积神经网络模型(Fully Convolut ional NeuralNetwork，FCNN)、控制频率下采样的全卷机神经网络模型(Fre quency Sub-SamplingControlled Fully Convolutional Neural Network，fsFCN N)、按频段分割的控制频率下采样的全卷机神经网络模型(Frequency Sub-Sa mpling Controlled FullyConvolutional Neural Network with Split Frequency B ands，fsFCNN-s)、残差网络模型(Residual Network，ResNet)共4个音频识别模型从4个识别角度对目标音频的音频特征进行声学场景的识别处理，得到每个音频识别模型对应的识别结果；其中，FCNN从音频特征的全局角度对目标音频的音频特征进行声学场景的识别处理，fsFCNN从音频特征的动态局部角度对目标音频的音频特征进行声学场景的识别处理，fsFCNN-s从音频特征的固定局部角度对目标音频的音频特征进行声学场景的识别处理，ResNet从声学场景中的对象角度对目标音频的音频特征进行声学场景的识别处理；第一终端将4个识别结果进行融合处理，得到目标音频所属的目标声学场景。

在一种实现方式中，第一终端可以根据目标音频所属的目标声学场景对第一终端在音视频会话中的通信质量进行调整，具体可以包括但不限于以下至少一种情况：①若目标音频所属的目标声学场景为嘈杂声学场景(例如第一终端采集到的目标音频中包含风声、雷声、人群声等嘈杂声音)，则第一终端关闭第一终端的终端用户的会话权限(例如第一终端自动关闭第一终端的麦克风，或者第一终端向第一终端的终端用户输出麦克风关闭提示等)；②若目标音频所属的目标声学场景为音乐声学场景(例如第一终端采集到的目标音频中包含乐器声、歌声等声音)，则第一终端关闭第一终端的降噪处理功能，并采用较高的编码率将该目标音频传输至服务器；③若目标音频所属的目标声学场景为漏回声声学场景(例如第一终端采集到的目标音频中包含回声)，则第一终端对目标音频进行回声消除处理，并将消除回声后的目标音频传输至服务器。

(2)由服务器对目标音频进行处理。

在一种实现方式中，P个用户分别使用上述音频处理系统中的P个终端参与音视频会话，例如用户A使用第一终端参与音视频会话，用户B使用第二终端参与音视频会话等等，服务器用于对P个终端在音视频会话过程中产生的目标音频进行传输和处理。例如，服务器对采集到的第一终端的目标音频进行处理，并将处理后的第一终端的目标音频传输至参与音视频会话的其他终端中，以实现P个终端参与的音视频会话。

具体地，目标音频是服务器在音视频会话过程中采集到的音频，服务器采集到的目标音频可以包括但不限于以下至少一种：P个终端中任一个或多个终端的终端用户的会话音频、P个终端中任一个或多个终端的环境音频等等。服务器对采集到的任一个终端的目标音频的处理过程如下：服务器提取目标音频的音频特征，并分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果，每一个音频识别模型对应一个目标音频的识别结果；服务器对N个识别结果进行融合处理，得到目标音频所属的目标声学场景。其中，N个音频识别模型是N个不同类型的网络模型，N个音频识别模型分别从N个识别角度对目标音频的音频特征进行声学场景的识别处理。

在一种实现方式中，服务器可以根据采集到的P个终端的目标音频所属的目标声学场景对P个终端在音视频会话中的通信质量进行调整，以服务器根据采集到的第一终端的目标音频所属的目标声学场景对第一终端在音视频会话中的通信质量进行调整为例，具体可以包括但不限于以下至少一种情况：①若目标音频所属的目标声学场景为嘈杂声学场景(例如服务器采集到的第一终端的目标音频中包含风声、雷声、人群声等嘈杂声音)，则服务器关闭第一终端的终端用户的会话权限；例如服务器关闭第一终端的麦克风，或者服务器向第一终端发送麦克风关闭请求，该麦克风关闭请求用于请求第一终端关闭麦克风，或者服务器向音视频会话中具有主持权限的终端(例如发起音视频会话的终端)发送麦克风关闭请求等，该麦克风关闭请求用于请求具有主持权限的终端关闭第一终端的麦克风；②若目标音频所属的目标声学场景为音乐声学场景(例如第一终端采集到的目标音频中包含乐器声、歌声等声音)，则服务器调整第一终端传输目标音频时的频带宽度，以使第一终端可以高效高质量地将目标音频传输至服务器，服务器再将第一终端的目标音频传输至参与音视频会话的其他终端；③若目标音频所属的目标声学场景为漏回声声学场景(例如第一终端采集到的目标音频中包含回声)，则服务器对第一终端的目标音频进行回声消除处理，并将消除回声后第一终端的目标音频传输至其他终端。

本申请实施例中，参与音视频会话的各个终端或服务器可以采用N个音频识别模型的对各个终端采集到的目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果；进一步地，参与音视频会话的各个终端或服务器对N个识别结果进行融合，得到所述目标音频所属的目标声学场景，并且参与音视频会话的各个终端或服务器根据目标音频所属的目标声学场景对音视频会话的通信质量进行调整；上述过程中，参与音视频会话的各个终端或服务器采用N个不同类型的音频识别模型从N个识别角度对目标音频的音频特征进行声学场景的识别处理，从不同的角度对音频特征进行分析得到各自的识别结果，并且将N个音频识别模型对目标音频的频谱特征的识别结果进行融合处理，可以有效集成N个音频识别模型各自的识别优势，有效提升声学场景分类的准确率，提高声学场景分类效果，进而有效提升音视频会话的通信质量。

可以理解的是，本申请实施例描述的音频处理系统是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述描述，请参见图3，图3示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图，该音频方法可以由图1所示音频处理系统中的P个终端中的任一个终端或者服务器执行，本申请实施例以P个终端中的任一个终端执行该音频处理方法为例进行说明，该音频处理方法包括以下步骤S301至步骤S304：

步骤S301，获取目标音频的音频特征。

具体地，终端获取到目标音频后，从目标音频中提取目标音频的音频特征，终端从目标音频中提取目标音频的音频特征的具体实施方式如图4a所示，图4a示出了本申请一个示例性实施例提供的一种音频特征提取过程的流程示意图，终端获取到目标音频后，先对目标音频进行分帧处理和加窗处理；其中，分帧处理是指按照目标帧长(例如20毫秒或30毫秒)将目标音频分成多个音频片段，对目标音频进行分帧处理可以使得目标音频趋于稳态；加窗处理是指采用不同的截取函数(即窗函数)对目标音频进行截断处理，对目标音频进行加窗处理可以有效减少目标音频的频谱能量泄漏；窗函数可以包括但不限于以下任一种：矩形窗、三角窗、汉宁窗、海明窗、高斯窗。然后，终端对分帧处理和加窗处理后的目标音频进行快速傅立叶变换(Fast Flourier Transformation，FFT)，得到目标音频的频域离散功率谱；终端使用梅尔滤波器组对目标音频的频域离散功率谱进行处理并对其进行对数操作，得到目标音频的对数梅尔能量谱，目标音频的对数梅尔能量谱能够表征目标音频的声学信号特征；其中，梅尔滤波器组是一组非线性分布的滤波器组，梅尔滤波器组在低频部分分布密集，高频部分分布稀疏，梅尔滤波器组在高低频的分布差异能够更好地满足人耳的听觉特性；最后，终端对目标音频的对数梅尔能量谱进行归一化处理，得到目标音频的音频特征。上述过程中，目标音频的对数梅尔能量谱能够表征目标音频的声学信号特征，通过提取目标音频的对数梅尔能量谱作为目标音频的音频特征，为后续目标音频的声学场景分类过程提供了有效的数据支撑。

步骤S302，获取声学场景分类模型，声学场景分类模型包括N个音频识别模型，N个音频识别模型用于从N个识别角度对M种声学场景进行识别，N为大于1的整数，M为正整数。

具体地，一个音频识别模型对应一个识别角度，声学场景分类模型包括的N个音频识别模型用于从N个识别角度对M种声学场景进行识别，N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构分别进行N种变种形成的N个不同类型的网络模型。在一种实现方式中，目标神经网络架构可以包括卷积(Convolution)层和规整激活层，规整激活层包含批规整(Batch Normalization，BN)层和激活函数，图4b示出了本申请一个示例性实施例提供的一种目标神经网络架构的架构示意图，如图4b所示，卷积层的输出端与规整激活层的输入端相连接；在目标神经网络架构中卷积层的核数较小，保证由目标神经网络架构变种形成的网络模型具有较快地识别速度；批规整层保证由目标神经网络架构变种形成的网络模型的每一层输入具有相同的数据分布，加快网络模型的识别速度；激活函数可以包括ReLU(Rectified Linear Uni t，线性整流函数)激活函数，ReLU激活函数可以减少由目标神经网络架构变种形成的网络模型中各个网络参数的依赖关系，有效缓解过拟合问题。在另一种实现方式中，目标神经网络架构可以包括卷积层、规整激活层和池化(Pooli ng)层，图4c示出了本申请另一个示例性实施例提供的一种目标神经网络架构的架构示意图，如图4c所示，卷积层的输出端与规整激活层的输入端相连接，规整激活层的输出端与池化层的输入端相连接；池化层能够压缩由基础卷积神经网络架构变种形成的网络模型的模型参数，关注输入网络模型的目标音频的局部音频特征，缓解网络模型识别过程中的过拟合问题，提高网络模型的泛化能力。在另一种实现方式中，目标神经网络架构可以包括卷积层、规整激活层和丢弃(Dropout)层，图4d示出了本申请另一个示例性实施例提供的一种目标神经网络架构的架构示意图，如图4d所示，卷积层的输出端与规整激活层的输入端相连接，规整激活层的输出端与丢弃层的输入端相连接；丢弃层能够有效缓解由基础卷积神经网络架构变种形成的网络模型识别过程中的过拟合问题。在另一种实现方式中，目标神经网络架构可以包括卷积层、规整激活层、池化层和丢弃层，图4e示出了本申请另一个示例性实施例提供的一种目标神经网络架构的架构示意图，如图4e所示，卷积层的输出端与规整激活层的输入端相连接，规整激活层的输出端与丢弃层的输入端相连接，丢弃层的输出端与池化层的输入端相连接。

在一种实现方式中，N个音频识别模型可以包括但不限于以下至少一个：第一音频识别模型(如FCNN)、第二音频识别模型(如fsFCNN)、第三音频识别模型(如fsFCNN-s)、第四音频识别模型(如ResNet)；以上4个模型是由上述目标神经网络架构分别进行4种变种形成的4个不同类型的网络模型，网络模型的变种过程具体如下：

(1)第一音频识别模型：

第一音频识别模型是根据音频特征的全局角度对目标神经网络架构进行变种形成的。图4f示出了本申请一个示例性实施例提供的一种音频识别模型的结构示意图，如图4f所示，第一音频识别模型是对X组目标神经网络架构进行级联，并在级联的最后一层加入全局平均层及输出层激活函数形成的，X为正整数；其中，级联的X组目标神经网络架构中，存在至少一组目标神经网络架构中还包括丢弃层和/或池化层；全局平均层又称全局平均池化(Global Average Pooling，GAP)层，GAP层用于融合由目标神经网络架构变种形成的网络模型的最后一个卷积层的各个输出通道；输出层激活函数可以包括Softmax激活函数，Softmax激活函数用于生成由基础卷积神经网络架构变种形成的网络模型的识别结果。由此可见，GAP层融合了第一音频识别模型中各个卷积层的输出通道，第一音频识别模型关注目标音频的全部音频特征，即第一音频识别模型适用于从音频特征的全局角度来对目标音频进行声学场景的识别，并能达到较佳的识别效果。

(2)第二音频识别模型：

第二音频识别模型是根据音频特征的动态局部角度对目标神经网络架构进行变种形成的。图4g示出了本申请另一个示例性实施例提供的一种音频识别模型的结构示意图，如图4g所示，第二音频识别模型是对X组目标神经网络架构进行级联，在级联的最后一层加入注意力机制，并在注意力机制之后连接全局平均层及输出层激活函数形成的，X为正整数；其中，级联的X组目标神经网络架构中，存在至少一组目标神经网络架构中还包括丢弃层和/或池化层；注意力机制允许网络模型动态地关注输入网络模型的目标音频的音频特征中的关键音频特征，有效提升网络模型的识别性能；由此可见，第二音频识别模型中的注意力机制关注输入至该第二音频识别模型中的目标音频的音频特征中的关键音频特征(即局部音频特征)，并且随着注意力机制中的关注规则的变化，该第二音频识别模型关注的目标音频的音频特征中的局部音频特征是动态变化的；可见，第二音频识别模型适用于从音频特征的动态局部角度来对目标音频进行声学场景的识别，并能达到较佳的识别效果。还需要说明的是，第一音频识别模型中的所有池化层对输入的目标音频的时域特征和频域特征均进行池化处理(例如最大值池化处理)，而第二音频识别模型中的部分池化层仅对输入的目标音频的时域特征进行池化处理，保留目标音频的频域特征，第二音频识别模型减少目标音频的频域特征进行池化处理，可以在一定程度上缓解过拟合问题。

(3)第三音频识别模型：

第三音频识别模型是根据音频特征的固定局部角度对目标神经网络架构进行变种形成的。图4h示出了本申请另一个示例性实施例提供的一种音频识别模型的结构示意图，如图4h所示，第三音频识别模型包含多路第一神经网络，每一路第一神经网络是对X组目标神经网络架构进行级联得到；第三音频识别模型是将多路第一神经网络的输出层进行拼接，在拼接之后连接至少一组基础目标神经网络架构及注意力机制，并在注意力机制之后连接全局平均层及输出层激活函数形成的，X为正整数；其中，每一路第一神经网络中进行级联的X组目标神经网络架构中，存在至少一组所述基础卷积神经网络架构中还包括丢弃层和/或池化层。在一种实现方式中，若目标音频的音频特征包含D个维度，D为正整数，第三音频识别模型包含T路目标神经网络，T为正整数，那么第三音频识别模型的每一路第一神经网络中输入D/T个维度的目标音频的音频特征。由此可见，第三音频识别模型包含多路第一神经网络中，输入各路第一神经网络的目标音频的音频特征的维度是固定不变的，即第三音频识别模型中的每一路第一神经网络关注的目标音频的音频特征中的局部音频特征是固定不变的，可见，第三音频识别模型适用于从音频特征的固定局部角度来对目标音频进行声学场景的识别，并能达到较佳的识别效果。

(4)第四音频识别模型：

第四音频识别模型是根据声学场景中的对象角度对目标神经网络架构进行变种形成的。图4i示出了本申请另一个示例性实施例提供的一种音频识别模型的结构示意图，如图4i所示，第四音频识别模型包含多路第二神经网络，每一路第二神经网络是对Y组残差网络架构进行级联得到，而一个残差网络架构是由X且目标神经网络架构进行级联得到；第四音频识别模型将多路第二神经网络的输出层进行拼接，在拼接之后连接至少一组目标神经网络架构，并在连接的最后一层加入全局平均层及输出层激活函数形成的，X、Y均为正整数。图4j示出了本申请一个示例性实施例提供的一种残差网络架构的架构示意图，如图4j所示，该残差网络架构是对3组目标神经网络架构进行级联得到的，并且3组目标神经网络架构中的最后一组目标神经网络架构的输出端与3组目标神经网络架构中的第1组目标神经网络架构的输出端进行叠加。在一种实现方式中，若目标音频的音频特征包含D个维度，D为正整数，第四音频识别模型包含T路目标残差网络，T为正整数，那么第四音频识别模型的每一路第二神经网络中输入D/T个维度的目标音频的音频特征。第四音频识别模型适用于从声学场景中的对象角度来对目标音频进行声学场景的识别，并能达到较佳的识别效果。

通过上述关于模型变种过程的描述可以看出，N个音频识别模型的变种过程实际上是根据各个音频识别模型对应的识别角度按需对目标神经网络架构的组合与优化，例如在目标神经网络架构中连接多个优化层(例如池化层、丢弃层、注意力机制、全局平均层)或者将多组目标神经网络架构组成的神经网络再次进行复制组合等，从不同角度对N个音频识别模型的识别性能进行优化与完善，在采用N个音频识别模型进行声学场景分类的过程中，分类结果的准确率得到较大提升。

步骤S303，分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果。

具体地，终端分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果，一个音频识别模型对应目标音频的一个识别结果，任一个目标音频的识别结果包括目标音频所属的多种声学场景以及每个声学场景的概率。例如，任一个目标音频的识别结果包括3终声学场景以及每种声学场景的概率。

步骤S304，对N个识别结果进行融合，得到目标音频所属的目标声学场景。

本申请实施例中步骤S304的执行过程可参见图5所示实施例中步骤S504至步骤S505的具体描述，在此不再赘述。

本申请实施例中，声学场景分类模型由N个音频识别模型组成，该N个音频识别模型用于从N个识别角度对M种声学场景进行识别，该N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型；通过变种方式按需对已有的网络模型架构进行改造，这使得改造得到的N个音频识别模型能够与声学场景分类过程之间的适应性和匹配度更高，从而有利于提升声学场景分类的准确率；另外，采用该N个音频识别模型分别对目标音频进行声学场景的分类识别，再融合N个识别结果得到目标音频所属的目标声学场景；由于N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种得到的N个不同类型的网络模型，该N个音频识别模型具备不同的识别处理能力，能够从不同的识别角度对音频特征进行分析得到各自的识别结果，通过对这些识别结果进行融合，可有效集成N个音频识别模型各自的识别优势，进一步提升声学场景分类的准确率，提高声学场景分类效果。此外，目标音频的对数梅尔能量谱能够表征目标音频的声学信号特征，通过提取目标音频的对数梅尔能量谱作为目标音频的音频特征，为目标音频的声学场景分类过程提供了有效的数据支撑，进一步提升了声学场景分类的准确率；N个音频识别模型的变种过程中，根据各个音频识别模型对应的识别角度按需对目标神经网络架构的组合与优化，例如在目标神经网络架构中连接池化层、丢弃层、注意力机制、全局平均层等多个优化层，或者将多个目标神经网络架构组合形成的神经网络再次复制组合，从不同角度对N个音频识别模型的识别性能进行优化与完善，使得声学场景分类结果的准确率得到较大提升。

请参见图5，图5示出了本申请另一个示例性实施例提供的一种音频处理方法的流程示意图，该音频方法可以由图1所示音频处理系统中的P个终端中的任一个终端或者服务器执行，本申请实施例以P个终端中的任一个终端执行该音频处理方法为例进行说明，该音频处理方法包括以下步骤S501至步骤S505：

步骤S501，获取目标音频的音频特征。

步骤S502，获取声学场景分类模型，声学场景分类模型包括N个音频识别模型，N个音频识别模型用于从N个识别角度对M种声学场景进行识别，N为大于1的整数，M为正整数。

本申请实施例中，步骤S501的执行过程与图3所示实施例中步骤S301的执行过程相同，步骤S502的执行过程与图3所示实施例中步骤S302的执行过程相同，具体执行过程可参见图3所示实施例的描述，本申请实施例对此不再赘述。

步骤S503，分别采用所N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果。

在一种实现方式中，声学场景分类模型用于对M种声学场景进行分类识别，M为正整数；M种声学场景中的任一种声学场景表示为第m种声学场景，m∈[1，M]；N个音频识别模型中的任一个音频识别模型表示为第n个音频识别模型，n∈[1，N]；其中，第n个音频识别模型与第m种声学场景之间存在匹配度Q_nm，匹配度Q_nm的值越大，表示第n个音频识别模型对第m种声学场景的识别能力越强，并且表示第n个音频识别模型对第m种声学场景的识别结果越准确。例如，上述第四音频识别模型(如ResNet)适用于从声学场景中的对象角度来进行声学场景的识别，那么第四音频识别模型对包含对象的这种声学场景(例如鸟类啼叫声学场景、马路上警笛鸣响声学场景、家中婴儿哭闹声学场景、老师授课声学场景、学生读书声学场景等)的识别能力较强，识别结果较准确，即第四音频识别模型与包含对象的声学场景之间的匹配度值较大。

具体地，一个音频识别模型对应一个目标音频的识别结果，第n个音频识别模型对应的目标音频的第n个识别结果，具体地，第n个音频识别模型对应的目标音频的第n个识别结果包括：经第n个音频识别模型识别得到的目标音频属于每种声学场景的概率。

步骤S504，根据N个识别结果中的目标音频属于每种声学场景的概率，分别计算每种声学场景下的融合概率。

在一种实现方式中，M种声学场景中的任一种声学场景表示为第m种声学场景，以第m种声学场景为例，第m种声学场景下的融合概率的计算方式如下：终端按照N个音频识别模型与第m种声学场景之间的匹配度，动态设置每个音频识别模型在第m种声学场景下的权重；进一步地，终端采用N个音频识别模型在第m种声学场景下的权重，对第m种声学场景下的N个概率进行加权平均，得到第m种声学场景下的融合概率。具体地，每个音频识别模型与第m种声学场景之间的匹配度是根据经验值设定的，例如，例如，上述第四音频识别模型对包含对象的这种声学场景的识别能力较强，识别结果较准确，则将第四音频识别模型与包含对象的声学场景之间的匹配度设置一个较高的匹配度值；每个音频识别模型在第m种声学场景下的权重可以是根据经验值动态设定的，例如，上述第四音频识别模型对包含对象的这种声学场景的识别能力较强，识别结果较准确，则将第四音频识别模型在包含对象的声学场景下的权重设置一个较高的权重值；每个音频识别模型在第m种声学场景下的权重还可以是根据每个音频识别模型在第m种声学场景下的匹配度值占N个音频识别模型在第m种声学场景下的匹配度值总和的比例设定的，本申请实施例在此不做限定。

举例来说，表1示出了本申请一个示例性实施例提供的一种音频识别模型的识别结果的统计表，从表1中可以看出，声学场景分类模型包括第一音频识别模型、第二音频识别模型、第三音频识别模型和第四音频识别模型；声学场景包括音乐声学场景、嘈杂声学场景、回声声学场景。以音乐声学场景为例，经第一音频识别模型识别得到的目标音频属于音乐声学场景的概率为0.8，经第二音频识别模型识别得到的目标音频属于音乐声学场景的概率为0.9，经第三音频识别模型识别得到的目标音频属于音乐声学场景的概率为0.7，经第四音频识别模型识别得到的目标音频属于音乐声学场景的概率为0.6。

表1-识别结果

表2示出了本申请一个示例性实施例提供的一种音频识别模型与声学场景之间的匹配度的统计表，以音乐声学场景为例，第一音频识别模型与音乐声学场景之间的匹配度值为0.6，第二音频识别模型与音乐声学场景之间的匹配度值为0.8，第三音频识别模型与音乐声学场景之间的匹配度值为0.2，第四音频识别模型与音乐声学场景之间的匹配度值为0.3。表3示出了本申请一个示例性实施例提供的一种声学场景下各个音频识别模型的权重统计表，以音乐声学场景为例，终端按照4个音频识别模型中每个音频识别模型在音乐声学场景下的匹配度值(0.7，0.8，0.2，0.3)占4个音频识别模型在音乐声学场景下的匹配度值总和(0.7+0.8+0.2+0.3＝2)的比例，设定第一音频设备模型在音乐声学场景下的权重为0.7/2＝0.35，设定第二音频设备模型在音乐声学场景下的权重为0.8/2＝0.4，设定第三音频设备模型在音乐声学场景下的权重为0.2/2＝0.1，设定第四音频设备模型在音乐声学场景下的权重为0.3/2＝0.15。

表2-匹配度

表3-权重

表4示出了本申请一个示例性实施例提供的一种声学场景的融合概率的统计表，以音乐声学场景为例，终端采用4个音频识别模型在音乐声学场景下的权重，对音乐声学场景下的4个概率进行加权平均，得到音乐声学场景下的融合概率为0.8×0.35+0.9×0.4+0.7×0.1+0.6×0.15＝0.8。

表4-融合概率

声学场景	融合概率
		音乐声学场景	0.8
嘈杂声学场景	0.605
		回声声学场景	0.1405

通过这种方式，目标音频识别模型(即第n个音频识别模型)在目标声学场景(即第m种声学场景)下的权重是终端根据该目标音频识别模型与目标声学场景之间的匹配度动态设定的；若目标音频识别模型与目标声学场景之间的匹配度较高即匹配度值较大，则表明目标音频识别模型对目标声学场景识别能力较强，目标音频识别模型对目标声学场景识别的识别结果较准确，可以为目标音频识别模型设置较高的权重；若目标音频识别模型与目标声学场景之间的匹配度较低即匹配度值较小，则表明目标音频识别模型对目标声学场景识别能力较弱，目标音频识别模型对目标声学场景识别的识别结果可能存在误差，可以为目标音频识别模型设置较低的权重。通过动态设定权重，可以集成不同类型的音频识别模型在不同声学场景下的识别优势，进一步提升声学场景分类的准确率。

步骤S505，将M种声学场景下的融合概率中数值最大的声学场景确定为目标音频所属的目标声学场景。

具体地，终端根据N个识别结果中的目标音频属于每种声学场景的概率，分别计算每种声学场景下的融合概率，得到M种场景下的融合概率；进一步地，终端将M种声学场景下的融合概率中数值最大的声学场景确定为目标音频所属的目标声学场景。如表4所示，声学场景分类模型包括第一音频识别模型、第二音频识别模型、第三音频识别模型和第四音频识别模型；声学场景包括音乐声学场景、嘈杂声学场景和回声声学场景；如步骤S504所述，终端根据4个音频识别模型对应的4个识别结果中目标音频属于上述3种声学场景的概率，分别计算得到音乐声学场景下的融合概率0.8、嘈杂声学场景下的融合概率0.605和回声声学场景下的融合概率0.1405；则终端将3种声学场景下的融合概率的数值最大的音乐声学场景确定为目标音频所属的目标声学场景。

本申请实施例中，声学场景分类模型由N个音频识别模型组成，该N个音频识别模型用于从N个识别角度对M种声学场景进行识别，该N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型；通过变种方式按需对已有的网络模型架构进行改造，这使得改造得到的N个音频识别模型能够与声学场景分类过程之间的适应性和匹配度更高，从而有利于提升声学场景分类的准确率；另外，采用该N个音频识别模型分别对目标音频进行声学场景的分类识别，再融合N个识别结果得到目标音频所属的目标声学场景；由于N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种得到的N个不同类型的网络模型，该N个音频识别模型具备不同的识别处理能力，能够从不同的识别角度对音频特征进行分析得到各自的识别结果，通过对这些识别结果进行融合，可有效集成N个音频识别模型各自的识别优势，进一步提升声学场景分类的准确率，提高声学场景分类效果；此外，计算M种声学场景中任一种声学场景下的融合概率时，N个音频识别模型中的每个音频识别模型在该声学场景下的权重是根据每个音频识别模型与该声学场景之间的匹配度动态设定的，通过动态设定各个音频识别模型的权重，可以集成不同类型的N个音频识别模型在不同声学场景下的识别优势，进一步提升声学场景分类的准确率。

基于上述描述，请参见图6，图6示出了本申请另一个示例性实施例提供的一种音频处理方法的流程示意图，该音频方法可以由图1所示音频处理系统中的P个终端中的任一个终端或者服务器执行，本申请实施例以P个终端中的任一个终端执行该音频处理方法为例进行说明，该音频处理方法包括以下步骤S601至步骤S602：

步骤S601，获取训练样本集。

在一种实现方式中，训练样本集包括第一样本集和第二样本集，即训练样本集是对第一样本集和第二样本集进行合并形成的集合。样本音频存储于第一样本集中，样本音频的扩充音频存储于第二样本集中。

在一种实现方式中，第一样本音频是第一样本集中的任一个样本音频，第二样本音频是第一样本集中除第一样本音频外的任一个音频。第一样本集中还包括第一样本音频的标签和第二样本音频的标签；第二样本集中的扩充音频是采用以下至少一种方式获得的：

(1)混类增强(Mixup)方式。将第一样本音频和第二样本音频进行混合，以及将第一样本音频的标签与第二样本音频的标签进行混合，得到第一样本音频对应的扩充音频；更详细地，第一样本音频和第二样本音频，以及第一样本音频的标签和第二样本的标签均采用混合系数λ(0<λ<1)进行混合，比如混合系数λ＝0.7表示第一样本音频和第二样本音频进行混合的比例为7:3，也就是说，第一样本音频占70％，第二样本音频占30％；其中，样本音频的标签用于指示样本音频所属的声学场景。

(2)随机裁剪(Random Cropping)方式。若第一样本音频的时长为非整数，则对第一样本音频进行随机剪裁得到第一样本音频对应的扩充音频，第一样本音频对应的扩充音频的时长为整数。

(3)信道融合(Channel Fusion)方式。若第一样本音频与第二样本音频分别处于不同的信道，则对第一样本音频和第二样本音频进行叠加，得到第一样本音频对应的扩充音频。

(4)频谱增强(Spectrum Augmentation)方式。在第一样本音频的频谱图中加入随机白噪源(即所有频率具有相同能量的随机噪声)，得到第一样本音频对应的扩充音频。

(5)频谱校正(Spectrum Correction)方式。将第一样本音频的频谱进行归整处理，得到第一样本音频对应的扩充音频；其中，归整处理是指将第一样本音频的频谱调整到预设的幅度，这样当第一样本集中的样本音频采集于不同设备时，确保来自不同设备的样本音频的频谱幅度一致。

(6)混响和动态压缩(Reverberation+DRC)方式。对第一样本音频添加混响效果，得到第一样本音频对应的扩充音频；更详细地，当第一样本音频的标签为正确标签，即第一样本音频所属的声学场景与第一样本音频片段的标签指示的声学场景一致时，对第一样本音频添加混响效果，得到第一样本音频对应的扩充音频。

(7)声音变调(Pitch Shift)方式。对第一样本音频进行基频平移处理，得到第一样本音频对应的扩充音频；更详细地，当第一样本音频的标签为正确标签，即第一样本音频所属的声学场景与第一样本音频片段的标签指示的声学场景一致时，对第一样本音频进行基频平移处理，得到第一样本音频对应的扩充音频；其中，平移系数在区间(-5，5)之间。

(8)变速(Speech Change)方式。对第一样本音频进行加减速处理，得到第一样本音频对应的扩充音频。更详细地，当第一样本音频的标签为正确标签，即第一样本音频所属的声学场景与第一样本音频片段的标签指示的声学场景一致时，对第一样本音频进行加减速处理(加减速处理具体体现在音频播放时音频播放速度的快慢)，得到第一样本音频对应的扩充音频；其中，加减速处理的系数在区间(0.2，4)之间。

(9)随机噪声(Random Noise)方式。在第一样本音频的时域添加随机白噪源，得到第一样本音频对应的扩充音频。

(10)混音(Mix Audios:)方式。若第一样本音频的标签与第二样本音频的标签相同，则对第一样本音频和第二样本音频进行时域叠加，得到第一样本音频对应的扩充音频。

步骤S602，根据训练样本集对N个初始音频识别模型进行训练，得到N个音频识别模型。

在一种实现方式中，根据训练样本集中的样本音频以及样本音频的标签、扩充音频以及扩充音频的标签对N个初始音频识别模型进行训练，训练得到N个音频识别模型，声学场景分类模型由N个音频识别模型组成。采用训练得到的声学场景分类模型可以对目标音频进行声学场景分类，确定目标音频所属的目标声学场景。

本申请实施例中，包含N个音频识别模型的声学场景分类模型是采用训练样本集对N个初始音频识别模型训练得到的。通过对训练样本集中的样本音频以及样本音频的标签等声学场景训练数据进行数据扩充，将少量的样本音频以及样本音频的标签扩充为大量的扩充音频以及扩充音频的标签，为声学场景分类模型的训练过程提供了数据基础，对声学场景训练数据进行数据扩充可以在声学场景分类模型的训练过程中提高声学场景分类模型的鲁棒性，有效防止过拟合现象的发生，从而提高声学场景分类模型的泛化能力。

请参见图7，图7示出了本申请另一个示例性实施例提供的一种音频处理装置的结构示意图，该音频处理装置70可以用于执行图3、图5或图6所示的音频处理方法中的相应步骤。请参见图7，该音频处理装置70包括如下单元：

获取单元701，用于获取目标音频的音频特征；以及，用于获取声学场景分类模型，声学场景分类模型包括N个音频识别模型，一个音频识别模型对应一个识别角度；N个音频识别模型用于从N个识别角度对M种声学场景进行识别，N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型，N为大于1的整数，M为正整数；

处理单元702，用于分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理，得到目标音频的N个识别结果；以及，用于对N个识别结果进行融合，得到目标音频所属的目标声学场景。

在一种实现方式中，处理单元702，具体用于：

目标神经网络架构包括以下任一种：

在一种实现方式中，识别角度是音频特征的全局角度，N个音频识别模型中包括第一音频识别模型，第一音频识别模型是根据音频特征的全局角度对目标神经网络架构进行变种形成的；获取单元701，具体用于：

对X组目标神经网络架构进行级联，X为正整数；

在一种实现方式中，识别角度是音频特征的动态局部角度，N个音频识别模型中包括第二音频识别模型，第二音频识别模型是根据音频特征的动态局部角度对目标神经网络架构进行变种形成的；获取单元701，具体用于：

在一种实现方式中，识别角度是音频特征的固定局部角度，N个音频识别模型中包括第三音频识别模型，第三音频识别模型是根据音频特征的固定局部角度对目标神经网络架构进行变种形成的；获取单元701，具体用于：

将多路第一神经网络的输出层进行拼接；

在一种实现方式中，所述识别角度是所述声学场景中的对象角度，所述N个音频识别模型中包括第四音频识别模型，所述第四音频识别模型是根据所述声学场景中的对象角度对所述目标神经网络架构进行变种形成的；获取单元701，具体用于：

在一种实现方式中，获取单元701，还用于在P个用户参与的音视频会话中采集目标音频，并提取目标音频的音频特征，P为大于1的整数；目标音频包括以下至少一种：P个用户中任意用户的会话音频，以及音视频会话的环境音频；音频特征包括以下至少一种：梅尔频谱系数及对数梅尔能量谱；

处理单元702还用于按照目标音频所属的目标声学场景对音视频会话的通信质量进行调整。

在一种实现方式中，处理单元702，还用于：

在一种实现方式中，声学场景分类模型是采用训练样本集进行训练得到的，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；样本音频存储于第一样本集中，扩充音频存储于第二样本集中，训练样本集是对第一样本集第二样本集进行合并形成的集合；第一样本音频是第一样本集中的任一个音频；处理单元702，还用于：

在一种实现方式中，第二样本音频是第一样本集中除第一样本音频之外的任一音频；第一样本集中还包括第一样本音频的标签和第二样本音频的标签；处理单元702，还用于：

根据本申请的一个实施例，图7所示的音频处理装置70中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该音频处理装置70也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图3、图5或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的音频处理装置70，以及来实现本申请实施例的音频处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于图1所示音频处理系统的任一个终端中，并在其中运行。

请参见图8，图8示出了本申请一个示例性实施例提供的一种音频处理设备的结构示意图，该音频处理设备80至少包括处理器801以及计算机可读存储介质802。其中，处理器801以及计算机可读存储介质802可通过总线或者其它方式连接。计算机可读存储介质802可以存储在存储器中，计算机可读存储介质802用于存储计算机程序，计算机程序包括计算机指令，处理器801用于执行计算机可读存储介质802存储的计算机指令。处理器801(或称CPU(Central Processing Unit，中央处理器))是音频处理设备80的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是音频处理设备80中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质802既可以包括音频处理设备80中的内置存储介质，当然也可以包括音频处理设备80所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了音频处理设备80的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质802可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器801的计算机可读存储介质。

该音频处理设备80可以是图1所示音频处理系统中的任一个终端，例如音频处理设备80可以是第一终端101；该计算机可读存储介质802中存储有一条或多条计算机指令；由处理器801加载并执行计算机可读存储介质802中存放的一条或多条计算机指令，以实现上述音频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质802中的一条或多条计算机指令由处理器801加载并执行如下步骤：

获取目标音频的音频特征；以及，

在一种实现方式中，计算机可读存储介质802中的一条或多条计算机指令由处理器801加载并执行如下步骤：

目标神经网络架构包括以下任一种：

在一种实现方式中，识别角度是音频特征的全局角度，N个音频识别模型中包括第一音频识别模型，第一音频识别模型是根据音频特征的全局角度对目标神经网络架构进行变种形成的；计算机可读存储介质802中的一条或多条计算机指令由处理器801加载并执行如下步骤：

对X组目标神经网络架构进行级联，X为正整数；

在一种实现方式中，识别角度是音频特征的动态局部角度，N个音频识别模型中包括第二音频识别模型，第二音频识别模型是根据音频特征的动态局部角度对目标神经网络架构进行变种形成的；计算机可读存储介质802中的一条或多条计算机指令由处理器801加载并执行如下步骤：

在一种实现方式中，识别角度是音频特征的固定局部角度，N个音频识别模型中包括第三音频识别模型，第三音频识别模型是根据音频特征的固定局部角度对目标神经网络架构进行变种形成的；计算机可读存储介质802中的一条或多条计算机指令由处理器801加载并执行如下步骤：

将多路第一神经网络的输出层进行拼接；

在一种实现方式中，所述识别角度是所述声学场景中的对象角度，N个音频识别模型中包括第四音频识别模型，第四音频识别模型是根据所述声学场景中的对象角度对所述目标神经网络架构进行变种形成的；计算机可读存储介质802中的一条或多条计算机指令由处理器801加载并执行如下步骤：

在一种实现方式中，计算机可读存储介质802中的一条或多条计算机指令由处理器801加载还执行如下步骤：在P个用户参与的音视频会话中采集目标音频，并提取目标音频的音频特征，P为大于1的整数；目标音频包括以下至少一种：P个用户中任意用户的会话音频，以及音视频会话的环境音频；音频特征包括以下至少一种：梅尔频谱系数及对数梅尔能量谱；

计算机可读存储介质802中的一条或多条计算机指令由处理器801加载并执行如下步骤：按照目标音频所属的目标声学场景对音视频会话的通信质量进行调整。

在一种实现方式中，计算机可读存储介质802中的一条或多条计算机指令由处理器801加载还执行如下步骤：

在一种实现方式中，声学场景分类模型是采用训练样本集进行训练得到的，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；样本音频存储于第一样本集中，扩充音频存储于第二样本集中，训练样本集是对第一样本集第二样本集进行合并形成的集合；第一样本音频是第一样本集中的任一个音频；计算机可读存储介质802中的一条或多条计算机指令由处理器801加载还执行如下步骤：

在一种实现方式中，第二样本音频是第一样本集中除第一样本音频之外的任一音频；第一样本集中还包括第一样本音频的标签和第二样本音频的标签；计算机可读存储介质802中的一条或多条计算机指令由处理器801加载还执行如下步骤：

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选方式中提供的音频处理方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取目标音频的音频特征；以及，

获取声学场景分类模型，所述声学场景分类模型包括N个音频识别模型，一个所述音频识别模型对应一个识别角度；所述N个音频识别模型用于从N个识别角度对M种声学场景进行识别，所述N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型，N为大于1的整数，M为正整数；

分别采用所述N个音频识别模型对所述目标音频的音频特征进行声学场景的识别处理，得到所述目标音频的N个识别结果；

对所述N个识别结果进行融合，得到所述目标音频所属的目标声学场景。

2.如权利要求1所述的方法，其特征在于，所述N个音频识别模型中的任一个音频识别模型表示为第n个音频识别模型，n∈[1，N]；所述M种声学场景中的任一种声学场景表示为第m种声学场景，m∈[1，M]；

所述第n个音频识别模型与所述第m种声学场景之间存在匹配度Q_nm，所述匹配度Q_nm值越大，表示所述第n个音频识别模型对所述第m种声学场景的识别能力越强，并且表示所述第n个音频识别模型对所述第m种声学场景的识别结果越准确；

一个所述音频识别模型对应一个所述识别结果，所述第n个音频识别模型对应的识别结果包括：经所述第n个音频识别模型识别得到的所述目标音频属于每种声学场景的概率。

3.如权利要求2所述的方法，其特征在于，所述对所述N个识别结果进行融合，得到所述目标音频所属的目标声学场景，包括：

根据所述N个识别结果中的所述目标音频属于每种声学场景的概率，分别计算每种声学场景下的融合概率；

将M种声学场景下的融合概率中数值最大的声学场景确定为所述目标音频所属的目标声学场景。

4.如权利要求3所述的方法，其特征在于，所述根据所述N个识别结果中的所述目标音频属于每种声学场景的概率，分别计算每种声学场景下的融合概率，包括：

按照所述N个音频识别模型与所述第m种声学场景之间的匹配度，动态设置每个音频识别模型在所述第m种声学场景下的权重；

采用所述N个音频识别模型在所述第m种声学场景下的权重，对所述第m种声学场景下的N个概率进行加权平均，得到所述第m种声学场景下的融合概率。

5.如权利要求1-4任一项所述的方法，其特征在于，所述识别角度包括以下至少一种：声学场景中的对象角度、音频特征的全局角度、音频特征的固定局部角度、音频特征的动态局部角度；

所述目标神经网络架构包括以下任一种：

由卷积层和规整激活层组成的架构；所述规整激活层包含批规整层和激活函数；所述卷积层的输出端与所述规整激活层的输入端相连接；

由所述卷积层、所述规整激活层和池化层组成的架构；所述规整激活层的输出端与所述池化层的输入端相连接；

由所述卷积层、所述规整激活层和丢弃层组成的架构，所述规整激活层的输出端与所述丢弃层的输入端相连接；

由所述卷积层、所述规整激活层、所述丢弃层和所述池化层组成的架构，所述丢弃层的输出端与所述池化层的输入端相连接。

6.如权利要求5所述的方法，其特征在于，所述识别角度是所述音频特征的全局角度，所述N个音频识别模型中包括第一音频识别模型，所述第一音频识别模型是根据所述音频特征的全局角度对所述目标神经网络架构进行变种形成的；所述获取声学场景分类模型，包括：

对X组所述目标神经网络架构进行级联，X为正整数；

在级联的最后一层加入全局平均层及输出层激活函数，得到所述第一音频识别模型；

其中，级联的X组所述目标神经网络架构中，存在至少一组所述目标神经网络架构中包括所述丢弃层和/或所述池化层。

7.如权利要求5所述的方法，其特征在于，所述识别角度是所述音频特征的动态局部角度，所述N个音频识别模型中包括第二音频识别模型，所述第二音频识别模型是根据所述音频特征的动态局部角度对所述目标神经网络架构进行变种形成的；所述获取声学场景分类模型，包括：

对X组所述目标神经网络架构进行级联，并在级联的最后一层加入注意力机制，X为正整数；

在所述注意力机制之后连接全局平均层及输出层激活函数，得到所述第二音频识别模型；

8.如权利要求5所述的方法，其特征在于，所述识别角度是所述音频特征的固定局部角度，所述N个音频识别模型中包括第三音频识别模型，所述第三音频识别模型是根据所述音频特征的固定局部角度对所述目标神经网络架构进行变种形成的；所述获取声学场景分类模型，包括：

根据所述目标神经网络架构生成多路第一神经网络，每一路第一神经网络由X组所述目标神经网络架构进行级联得到，X为正整数；

将所述多路第一神经网络的输出层进行拼接；

在拼接之后连接至少一组所述目标神经网络架构及注意力机制，并在所述注意力机制之后连接全局平均层及输出层激活函数，得到所述第三音频识别模型；

其中，所述第一神经网络中级联的所述目标神经网络架构中，存在至少一组所述目标神经网络架构中包括所述丢弃层和/或所述池化层。

9.如权利要求5所述的方法，其特征在于，所述识别角度是所述声学场景中的对象角度，所述N个音频识别模型中包括第四音频识别模型，所述第四音频识别模型是根据所述声学场景中的对象角度对所述目标神经网络架构进行变种形成的；所述获取声学场景分类模型，包括：

对X组所述目标神经网络架构进行级联得到一个残差网络架构，X为正整数；

根据所述残差网络架构生成多路第二神经网络，每一路第二神经网络由Y组所述残差网络架构进行级联得到，Y为正整数；

将多路所述第二神经网络的输出层进行拼接，在拼接之后连接至少一组所述目标神经网络架构，并在连接的最后一层加入全局平均层及输出层激活函数，得到所述第四音频识别模型。

10.如权利要求1-4任一项所述的方法，其特征在于，所述获取目标音频的音频特征，包括：在P个用户参与的音视频会话中采集所述目标音频，并提取所述目标音频的音频特征，P为大于1的整数；所述目标音频包括以下至少一种：所述P个用户中任意用户的会话音频，以及所述音视频会话的环境音频；所述音频特征包括以下至少一种：梅尔频谱系数及对数梅尔能量谱；

所述方法还包括：按照所述目标音频所属的目标声学场景对所述音视频会话的通信质量进行调整。

11.如权利要求10所述的方法，其特征在于，所述按照所述目标音频所属的目标声学场景对所述音视频会话的通信质量进行调整，包括：

若所述目标声学场景为嘈杂声学场景，则关闭所述目标音频对应的用户的会话权限；

若所述目标声学场景为音乐声学场景，则关闭所述音视频会话的降噪处理功能；

若所述目标声学场景为漏回声声学场景，则对所述目标音频进行回声消除处理。

12.如权利要求1-4任一项所述的方法，其特征在于，所述声学场景分类模型是采用训练样本集进行训练得到的，所述训练样本集中包含样本音频及由所述样本音频扩充得到的扩充音频；所述样本音频存储于第一样本集中，所述扩充音频存储于第二样本集中，所述训练样本集是对所述第一样本集和所述第二样本集进行合并形成的集合；第一样本音频是所述第一样本集中的任一个音频；其中，所述第二样本集中的扩充音频是采用下述至少一种方式获得的：

若所述第一样本音频的时长为非整数，则对所述第一样本音频进行随机剪裁得到所述第一样本音频对应的扩充音频，所述第一样本音频对应的扩充音频的时长为整数；

在所述第一样本音频的频谱图中加入随机白噪源，得到所述第一样本音频对应的扩充音频；

将所述第一样本音频的频谱进行归整处理，得到所述第一样本音频对应的扩充音频；

对所述第一样本音频添加混响效果，得到所述第一样本音频对应的扩充音频；

对所述第一样本音频进行基频平移处理，得到所述第一样本音频对应的扩充音频；

对所述第一样本音频进行加减速处理，得到所述第一样本音频对应的扩充音频；

在所述第一样本音频的时域添加随机白噪源，得到所述第一样本音频对应的扩充音频。

13.如权利要求12所述的方法，其特征在于，第二样本音频是所述第一样本集中除所述第一样本音频之外的任一音频；所述第一样本集中还包括所述第一样本音频的标签和所述第二样本音频的标签；其中，所述第二样本集中的扩充音频是采用下述至少一种方式获得的：

将所述第一样本音频和所述第二样本音频进行混合，以及将所述第一样本音频的标签和所述第二样本音频的标签进行混合，得到所述第一样本音频对应的扩充音频；

若所述第一样本音频与所述第二样本音频分别处于不同的信道，则对所述第一样本音频和所述第二样本音频进行叠加，得到所述第一样本音频对应的扩充音频；

若所述第一样本音频的标签与所述第二样本音频的标签相同，则对所述第一样本音频和所述第二样本音频进行时域叠加，得到所述第一样本音频对应的扩充音频。

14.一种音频处理装置，其特征在于，所述音频处理装置包括：

获取单元，用于获取目标音频的音频特征；以及，获取声学场景分类模型，所述声学场景分类模型包括N个音频识别模型，一个所述音频识别模型对应一个识别角度；所述N个音频识别模型用于从N个识别角度对M种声学场景进行识别，所述N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型，N为大于1的整数，M为正整数；

处理单元，用于分别采用所述N个音频识别模型对所述目标音频的音频特征进行声学场景的识别处理，得到所述目标音频的N个识别结果；以及，用于对所述N个识别结果进行融合，得到所述目标音频所属的目标声学场景。

15.一种音频处理设备，其特征在于，所述音频处理设备包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令适于由所述处理器加载并执行如权利要求1至13任一项所述的音频处理方法。