CN111951823A

CN111951823A - 一种音频处理方法、装置、设备及介质

Info

Publication number: CN111951823A
Application number: CN202010794243.2A
Authority: CN
Inventors: 夏咸军; 鲍枫; 赵苑珺; 王燕南; 李娟娟; 黄�俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-17

Abstract

本申请实施例提供一种音频处理方法、装置、设备及介质。其中，该音频处理方法可包括：获取训练样本集，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；采用训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型基于第一音频识别模型产生；对优化的音频识别模型进行压缩处理得到目标音频识别模型，目标音频识别模型是用于识别声学场景的网络模型。采用本申请实施例能够得到泛化能力较强、鲁棒性较佳、声学场景识别的正确率较高且体积较小的音频识别模型。

Description

一种音频处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，具体涉及人工智能领域，尤其涉及一种音频处理方法、一种音频处理装置、一种音频处理设备以及一种计算机可读存储介质。

背景技术

声学场景分类在日常生活中有着较为广泛地应用，所谓声学场景分类(AcousticScene Classification，ASC)是指对音频中包含的声学内容进行分析，进而识别出音频所属的声学场景的过程。声学场景分类主要依赖于网络模型来实现。常见的，用于声学场景识别的网络模型主要包括如下模型：(1)凭借经验训练得到的简单模型，这种简单模型的训练数据是人工提取的，训练数据的种类和数量往往有限，且训练过程是简单的阈值判断，导致这种简单模型的复杂度低，不能适用于识别大量的声学场景。(2)数学统计模型(Statistical Model，SM)，如支持向量机(Support Vector Machines,SVMs)，混合高斯模型(Gaussian Mixture Models,GMMs)，隐马尔可夫模型(Hidden Markov Models,HMMs)等等；采用海量的训练数据对这些网络模型进行训练时，网络模型的性能往往有所下降，训练得到的网络模型泛化能力较弱，过拟合较严重，鲁棒性较差。(3)神经网络(NeuralNetwork,NN)模型，如深度神经网络(Deep Neural Networks,DNNs)，循环神经网络(Recurrent Neural Works，RNNs)，卷积神经网络(Convolutional Neural Networks,CNNs)等等，这类神经网络模型的体积较大，如果将网络模型搭载到设备上会占用设备较大的存储空间，且增加设备CPU消耗。

发明内容

本申请实施例提供了一种音频处理方法、装置、设备及介质，能够得到泛化能力较强、鲁棒性较佳、声学场景识别的正确率较高且体积较小的音频识别模型。

一方面，本申请实施例提供一种音频处理方法，该方法包括：

获取训练样本集，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；

采用训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型基于第一音频识别模型产生；

对优化的音频识别模型进行压缩处理得到目标音频识别模型，目标音频识别模型是用于识别声学场景的网络模型。

另一方面，本申请实施例提供一种音频处理装置，该装置包括：

接收单元，用于获取训练样本集，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；

处理单元，用于采用训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型基于第一音频识别模型产生；以及对优化的音频识别模型进行压缩处理得到目标音频识别模型，目标音频识别模型是用于识别声学场景的网络模型。

在一种实施方式中，处理单元具体用于：

获取第一样本集，第一样本集中包含多个样本音频；

对第一样本集中的各个样本音频进行数据扩充处理，得到第二样本集，第二样本集包含由各个样本音频扩充得到的扩充音频；

合并第一样本集和第二样本集形成训练样本集。

在该技术方案中，获取到第一样本集时，可对第一样本集所包含的多个样本音频进行数据扩充处理，得到的扩充音频组成第二样本集；合并第一样本集和第二样本集形成训练样本集。这样训练样本集中除包含第一样本集中的样本音频以外，还包含对第一样本集中的样本音频进行数据扩充得到的扩充音频，可丰富样本音频的数量，从而可避免音频识别模型在训练过程中的过拟合问题，可提高训练得到的音频识别模型对声学场景识别的鲁棒能力。

在一种实施方式中，第一样本集中包含第一样本音频，第一样本音频是第一样本集中的任一音频；

则对第一样本音频进行的数据扩充处理包括以下至少一种：

若第一样本音频的时长为非整数，则对第一样本音频进行随机剪裁得到第一样本音频对应的扩充音频，第一样本音频对应的扩充音频的时长为整数；

在第一样本音频的频谱图中加入随机白噪源，得到第一样本音频对应的扩充音频；

将第一样本音频的频谱进行归整处理，得到第一样本音频对应的扩充音频。

在一种实施方式中，第一样本集中包含第一样本音频和第二样本音频，第一样本音频是第一样本集中的任一音频，第二样本音频是第一样本集中除第一样本音频之外的任一音频；第一样本集中还包括第一样本音频的标注数据和第二样本音频的标注数据；

则对第一样本音频进行的数据扩充处理包括以下至少一种：

若第一样本集中包含第一样本音频的标签，以及第二样本音频的标签，则将第一样本音频和第二样本音频进行混合，得到第一样本音频对应的扩充音频，以及将第一样本音频的标签与第二样本音频的标签进行混合，得到第一样本音频对应的扩充音频的标签；

对第一样本音频添加混响效果，得到第一样本音频对应的扩充音频；

对第一样本音频进行基频平移处理，得到第一样本音频对应的扩充音频；

对第一样本音频进行加减速处理，得到第一样本音频对应的扩充音频；

在第一样本音频的时域添加随机白噪源，得到第一样本音频对应的扩充音频；

若第一样本音频与第二样本音频分别处于不同的信道，则对第一样本音频和第二样本音频进行叠加，得到第一样本音频对应的扩充音频；

若第一样本音频的标注数据与第二样本音频的标注数据相同，则对第一样本音频和第二样本音频进行时域叠加，得到第一样本音频对应的扩充音频。

在一种实施方式中，第一音频识别模型包括第一神经网络；第一神经网络被进行S次复制得到S路第二神经网络，至少部分S路第二神经网络组成第二音频识别模型；S为大于1的整数；

其中，第一神经网络的输入特征维度为D，则每一路第二神经网络的输入特征维度为D/S，D为正整数。

在该技术方案中，第一音频识别模型包含第一神经网络，基于第一神经网络可得到与第一音频识别模型属于不同类型的第二音频识别模型，第二音频识别模型包含第一神经网络被进行S次复制得到的第二神经网络；当输入第一神经网络的音频(样本音频或目标音频)的特征维度为D时，输入到每一路第二神经网络的特征维度为D/S。这样既采用第一音频识别模型对音频的全局特征进行分析，又采用第二音频识别模型对音频的局部特征进行分析；并结合音频的全局分析结果和局部分析结果对音频所属的声学场景进行识别，可提高声学场景识别的正确率。

在一种实施方式中，压缩处理包括动态范围量化处理；处理单元具体用于：

将优化的第一音频识别模型中的浮点型参数量化为整型参数，得到压缩后的第一音频识别模型；以及，

将优化的第二音频识别模型中的浮点型参数量化为整型参数，得到压缩后的第二音频识别模型；目标音频识别模型包括压缩后的第一音频识别模型及压缩后的第二音频识别模型。

在该技术方案中，将第一音频识别模型以及第二音频识别模型中的浮点型参数量化为整型参数，这能有效减小音频识别模型的体积，减少音频识别模型的运算复杂度，从而更有利于该音频识别模型相关产品的实现及推广。

在一种实施方式中，压缩处理包括参数稀疏化处理；处理单元具体用于：

确定优化的第一音频识别模型中权重值小于预设阈值的第一目标参数，将第一目标参数的权重值量化为零，得到压缩后的第一音频识别模型；

确定优化的第二音频识别模型中权重值小于预设阈值的第二目标参数，将第二目标参数的权重值量化为零，得到压缩后的第二音频识别模型；目标音频识别模型包括压缩后的第一音频识别模型及压缩后的第二音频识别模型。

在该技术方案中，将第一音频识别模型中权重值小于预设阈值的第一目标参数的权重值量化为零，以及将第二音频识别模型中权重小于预设阈值的第二目标参数的权重值量化为零，这能有效减小音频识别模型的体积，减少音频识别模型的运算复杂度，从而更有利于该音频识别模型相关产品的实现及推广。

在一种实施方式中，处理单元还用于：

采集待处理的目标音频，并提取目标音频的频谱特征；

调用目标音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频对应的目标声学场景。

在一种实施方式中，处理单元具体用于：

调用第一音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频属于目标声学场景的第一概率；

调用第二音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频属于目标声学场景的第二概率；

求取第一概率和第二概率的加权平均值；

若加权平均值大于场景阈值，则识别目标音频属于目标声学场景。

在一种实施方式中，处理单元具体用于：

在N个用户参与的音视频会话中采集目标音频，N为大于1的整数；目标音频包括以下至少一种：N个用户中任意用户的会话音频，以及音视频会话的环境音频；

处理单元还用于：

按照目标声学场景对音视频会话的通信质量进行调整。

在一种实施方式中，处理单元具体用于：

若目标声学场景为嘈杂声学场景，则关闭目标音频对应的用户的会话权限；

若目标声学场景为音乐声学场景，则关闭音视频会话的降噪处理功能；

若目标声学场景为漏回声声学场景，则对目标音频进行回声消除处理。

在该技术方案中，采用目标音频识别模型识别出目标音频的目标声学场景后，设备(或用户)按照目标声学场景对音视频会话的通信质量进行调整，这样可提高音视频会话的通信质量，提高用户体验。

另一方面，本申请实施例提供一种音频识别设备，该设备包括：

处理器，适于实现一条或多条指令；以及，

计算机可读存储介质，存储有一条或多条指令，一条或多条指令适于由处理器加载并执行如上述的音频处理方法。

另一方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行上述的音频处理方法。

本申请实施例中，首先，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；采用数据扩充的方式，可以丰富样本音频的数量，从而可避免音频识别模型在训练过程中的过拟合问题，可提高训练得到的音频识别模型对声学场景识别的鲁棒能力。其次，用于训练的音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型是基于第一音频识别模型产生的，通过对第一音频识别模型进行变种的方式能够得到与第一音频识别模型属于不同类型的第二音频识别模型，采用这两种不同类型的音频识别模型可以从不同角度对音频特征进行分析，从而提升声学场景识别的正确率。最后，对训练得到的音频识别模型进行压缩处理，这能有效减小音频识别模型的体积，减少音频识别模型的运算复杂度，从而更有利于该音频识别模型相关产品的实现及推广。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的一种音频处理系统的架构示意图；

图2示出了本申请一个示例性实施例提供的一种音视频会话的场景示意图；

图3示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；

图4示出了本申请一个示例性实施例提供的一种数据扩充的示意图；

图5示出了本申请一个示例性实施例提供的一种第一音频识别模型的结构示意图；

图6示出了本申请一个示例性实施例提供的一种第二音频识别模型的结构示意图；

图7示出了本申请一个示例性实施例提供的一种特征提取的示意图；

图8示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；

图9示出了本申请一个示例性实施例提供的一种音频处理装置的结构示意图；

图10示出了本申请一个示例性实施例提供的一种音频处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及人工智能(Artificial Intellegence，AI)，人工智能是利用数字计算机或者数据计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术，也有软件层面的技术。其中，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几个大方向。其中，本申请提供的音频处理方案主要涉及人工智能下属的云计算、语音处理技术、机器学习/深度学习等方向，下面分别对云计算、语音处理技术、机器学习/深度学习进行详细介绍。

云计算(cloud computing)是互联网技术(Internet Technology，IT)基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算是指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(UtilityComputing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。另外，基于上述提及的云计算的服务，本申请实施例还涉及人工智能云服务，所谓人工智能云服务，一般也被称作是AIaaS(AI as aService，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

语音处理技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。其中，自动语音识别技术也称为语音识别技术，语音识别技术是以语音为对象，通过语音信号处理和模式识别让机器自动识别和理解人类提供的语音所对应的文字内容。语音合成技术是指通过机械的、电子的方法产生人造语音的技术，或者，语音合成技术是一种将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。声纹识别技术也称为说话人识别技术，声纹识别技术包括说话人辨认(Speaker Identification)技术和说话人确认(Speaker Verification)技术；其中，说话人辨认技术用来判断某段语音是若干人中的哪一个人所说的，是“多选一”问题，而说话人确认技术是用来确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要说话人辨认技术，而银行交易时则需要说话人确认技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习可以被看成一项任务，这个任务的目标就是让机器(广义上的计算机)通过学习来获得类似人类的智能。例如人类会下围棋，计算机程序(AlphaGo或AlphaGoZero)被设计成掌握了围棋知识、会下围棋的程序。其中，多种方法可用来实现机器学习的任务，比如，神经网络、线性回归、决策树、支持向量机、贝叶斯分类器、强化学习、概率图模型、聚类等多种方法。其中，神经网络(Neural Network)是实现机器学习任务的一种方法，在机器学习领域谈论神经网络，一般是指“神经网络学习”。它是一种由许多简单元组成的网络结构，这种网络结构类似于生物神经系统，用来模拟生物与自然环境之间的交互，并且网络结构越多，神经网络的功能往往越丰富。神经网络是一个比较大的概念，针对语音、文本、图像等不同的学习任务，衍生出了更适用于具体学习任务的神经网络模型，如递归神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)、全连接卷积神经网络(fully convolutional neural network，FCNN)等等。

本申请实施例还涉及音频，所谓音频是指人类能够听见的所有声音。目前，通过音频实现信息交流的方式越来越丰富，除了传统借助于固定电话、移动电话实现的语音通话之外，还可以借助于各种社交客户端(如即时通信客户端、会议客户端等)来实现音(视)频会话，例如：两个或多个用户可以通过会议客户端接入至同一会议中实现音视频会话；又如，两个或多个用户可以通过即时通信客户端进行音视频会话。另外，基于音频进行信息交流的过程中通常会涉及音频处理过程；所谓音频处理过程是指对音频特征进行分析，以对音频进行分类、声学场景识别等过程，其中，音频的音频特征可包括频谱特征，频谱特征可包括但不限于以下至少一种：梅尔频谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、对数梅尔能量谱(Log mel power spectrum)等等。声学场景识别(Acoustic SceneClassification，ASC)是指利用机器学习模仿人脑，对现实生活环境中的各种声学场景进行有效判断；而音频处理过程中的声学场景识别，就是指对音频特征进行分析以确定音频所属的声学场景，换言之就是通过对音频特征的分析来确定音频来源于哪种声学场景中。此处的声学场景可按照多个维度进行划分，按照场景中物体对象维度来进行划分，声学场景可包括但不限于以下至少一类：鸟类啼叫场景、马路上警笛场景、家中婴儿哭闹场景、老师授课场景、学生读书场景等等。按照空间维度进行划分，声学场景可包括但不限于：家庭场景、办公室场景、地铁场景、机场场景、街道场景等等。按照音频属性(如音量、类型等)维度进行划分，声学场景可包括但不限于以下至少一类：嘈杂声学场景、漏回声声学场景、音乐声学场景等等。

不同的声学场景中采集到的音频，其音频特征也是不相同的。比如，声学场景为马路上警笛场景，则从马路上警笛场景中采集的音频，其音频特征可以反映警笛的音量、音色，马路上其他车辆的鸣笛声等等；又如，声学场景为老师授课场景，则从老师授课场景中采集的音频，其音频特征可以反映老师的语调、语气、音量，学生发出的零散声音等等，通过对音频特征进行分析即可识别出该音频所属的声学场景。目前，用来对音频的音频特征进行分析，以识别音频所属的声学场景的网络模型丰富多样。举例来说，一是基于数学统计模型(Statistical Model，SM)来识别音频所属的声学场景，然而，由于数据统计模型不适用于采用海量数据进行训练，导致训练得到的数据统计模型过拟合严重，性能较差；二是基于神经网络(Neural Network，NN)模型来识别音频所属的声学场景，然而，对神经网络模型训练的训练数据是通过对海量的数据进行标注得到的，标注任务重，且训练得到的神经网络模型的体积较大，计算复杂度高，如果将体积较大的神经网络模型搭载到设备上会占用设备较大的存储空间，且增加设备CPU消耗。

基于此，本申请实施例提供一种音频处理系统，该音频处理系统可搭载于终端或服务器上，由终端或服务器单独来执行音频处理方案，或者，终端和服务器采用交互的方式来执行音频处理方案，本申请实施例对此不作限定。其中，终端可以是参加音视频会话中任意用户所使用的设备，设备可包括但不限于：PC(Personal Computer，个人计算机)、PDA(平板电脑)、手机等等；终端中可安装并运行各种应用程序，各种应用程序支持音视频会话，该应用程序可包括但不限于：IM(Instant Messaging，即时通信)应用程序等等；即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序，即时通信应用程序可以包括但不限于：腾讯会议、QQ、微信、企业微信、包含社交交互功能的地图应用程序、游戏应用程序等等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

下面结合附图详细介绍本申请实施例提及的音频处理方案，其中，音频处理方案可包括以下几方面：训练音频识别模型，得到目标音频识别模型；采用目标音频识别模型对目标音频进行识别处理，得到目标音频所属的目标声学场景；按照目标声学场景对音视频会话的通信质量进行调整。

参见图1，图1示出了本申请一个示例性实施例提供的一种音频处理系统的架构示意图；如图1所示，音频处理系统包括训练子系统101和应用子系统102，其中，训练子系统101用于训练音频识别模型，得到目标音频识别模型；应用子系统102用于采用目标音频识别模型对音频进行识别处理，得到目标音频所属的目标声学场景。进一步的，

(1)训练子系统包括数据扩充单元103、特征提取单元104、训练音频识别模型单元105以及压缩处理单元106，其中：①数据扩充单元103，通过将第一样本集中的各个样本音频进行数据扩充处理，得到包含海量样本音频的训练样本集。其中，训练样本集中除包含第一样本集中的样本音频以外，还包含对第一样本集中的样本音频进行数据扩充处理得到的扩充音频，其中，数据扩充(data augmentation)又称数据增强或数据增广，用于让有限的数据产生更多的数据，增加训练样本的数量以及多样性；采用数据扩充的方式，可以丰富样本音频的数量，从而可避免音频识别模型在训练过程中的过拟合问题，可提高训练得到的音频识别模型对声学场景识别的鲁棒能力。②特征提取单元104主要用于对各个样本音频进行音频特征的提取，以实现对样本音频的预处理。③训练音频识别模型单元105，主要用于利用训练样本集中的海量样本音频对音频识别模型进行训练，得到优化的音频识别模型。其中，音频识别模型可包括至少两个子音频识别模型，至少两个子音频识别模型中包括基本音频识别模型和基于基本音频识别模型产生的其他音频识别模型；比如，音频识别模型包括第一音频识别模型和第二音频识别模型，其中，第一音频识别模型是上述提及的基本音频识别模型，第二音频识别模型是基于第一音频识别模型产生的，且第一音频识别模型与第二音频识别模型属于不同类型；采用这两种不同类型的音频识别模型可以从不同角度对音频特征进行分析，从而提升声学场景识别的正确率。④压缩处理单元106，用于将优化的音频识别模型进行压缩处理(压缩处理又称为量化处理)，得到体积较小的目标音频识别模型，将体积较小的目标音频识别模型部署到设备上，可减少设备CPU损耗，减少音频识别模型的运算复杂度。综上述，通过音频处理系统中的训练子系统可得到泛化能力较强、鲁棒性较佳、声学场景识别的正确率较高且体积较小的目标音频识别模型，从而更有利于目标音频识别模型相关产品的实现及推广。

(2)应用子系统102包括特征提取单元104，以及识别单元107。其中：①特征提取单元104主要用于对目标音频的音频特征进行提取，以实现对目标音频的预处理。②识别单元107包含目标音频识别模型，用于根据目标音频的音频特征对目标音频所属的声学场景进行识别处理，得到目标音频所属的目标声学场景。

另外，得到目标音频所属的目标声学场景后，还可按照目标声学场景对音视频会话的通信质量进行调整，以提供更好的通信质量，提升用户体验。具体地，根据目标音频识别模型部署的设备的不同，对音视频会话的通信质量进行调整的操作流程并不相同，本申请实施例以目标音频识别模型部署在终端或服务器中为例，介绍按照目标声学场景对音视频会话的通信质量进行调整的操作。

在一种实现方式中，目标音频识别模型部署在服务器中，则由服务器识别目标音频的目标声学场景，并基于目标声学场景调整音视频会话的通信质量的方式可包括：服务器接收终端发送的目标音频；采用目标音频识别模型对目标音频进行声学场景的识别，得到目标音频的目标声学场景；基于目标声学场景生成提示消息，并将提示消息发送给终端，以便于终端对音视频会话的通信质量进行调整，其中，提示消息用于指示终端调整音视频会话的通信质量；或者，服务器直接基于目标声学场景调整音视频会话的通知质量。举例来说，参见图2，图2示出了本申请一个示例性实施例提供的一种音视频会话的场景示意图；如图2所示，参见音视频会话的用户包括：终端202对应的用户、终端203对应的用户以及终端204对应的用户；终端202(或其他终端)可采集终端202所在空间的目标音频，其中，目标音频可包括参会用户中任意用户的会话音频，以及音视频会话的环境音频，比如，目标音频包括持有终端202的用户的会话音频(如口述的声音)以及终端202所属环境的环境音频(如马路上的汽车鸣笛声)；终端202将采集的目标音频发送给服务器201；相应的，服务器201采用目标音频识别模型对目标音频进行识别处理，得到目标音频的目标声学场景；如果检测到目标声学场景为嘈杂声学场景，比如，鸟类啼叫场景、马路上警笛场景、家中婴儿哭闹场景、老师授课场景、学生读书场景等等，则服务器201可基于嘈杂声学场景生成提示消息，提示消息用于提示关闭用户的会话权限(如关闭终端的麦克风等)；服务器201将提示消息发送给终端202；终端202在显示装置上显示提示消息，以提醒用户关闭麦克风。另外，服务器201还可基于目标声学场景生成通知消息，通知消息用于通知终端203以及终端204屏蔽终端202的喇叭，换言之终端203以及终端204通过屏蔽终端202传输的属于嘈杂声学场景的目标音频，实现提高音视频会话的通信质量。

在另一种实现方式中，目标音频识别模型部署在终端中，则由终端识别目标音频的目标声学场景，并基于目标声学场景调整音视频会话的通信质量的方式可包括：终端采集目标音频，并采用目标音频识别模型对目标音频进行声学场景的识别，得到目标音频的目标声学场景；基于目标声学场景调整音视频会话的通信质量。举例来说，参见图2，参见音视频会话的用户包括：终端202对应的用户、终端203对应的用户以及终端204对应的用户；终端202(或其他终端)可采集终端202所在空间的目标音频，目标音频包括持有终端202的用户的会话音频以及终端202所属的环境的环境音频；终端202采用目标音频识别模型对目标音频进行识别，得到目标音频的目标声学场景；如果检测到目标声学场景为嘈杂声学场景，则终端202可生成并显示提示消息，以提醒关闭用户的会话权限；或者，终端202直接关闭会话权限；同时，终端202将提示消息发送给终端203、终端204，以便于终端203或终端204显示提示消息，以提醒关闭用户的会话权限。另外，终端202还可接收其他终端发送的目标音频，并对目标音频进行声学场景的识别，得到目标音频的目标声学场景；如果目标音频为嘈杂声学场景，则基于目标声学场景生成提示消息，并将提示消息发送给其他终端；同时，终端202可屏蔽目标音频来源终端的喇叭，以屏蔽属于嘈杂声学场景的目标音频，这样实现提高音视频会话的通信质量。

本申请实施例中，首先，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；采用数据扩充的方式，可以丰富样本音频的数量，从而可避免音频识别模型在训练过程中的过拟合问题，可提高训练得到的音频识别模型对声学场景识别的鲁棒能力。其次，用于训练的音频识别模型包括第一音频识别模型和第二音频识别模型，该第二音频识别模型是基于第一音频识别模型产生的，通过对第一音频识别模型进行变种的方式能够得到与第一音频识别模型属于不同类型的第二音频识别模型，采用这两种不同类型的音频识别模型可以从不同角度对音频特征进行分析，从而提升声学场景识别的正确率。最后，对训练得到的音频识别模型进行压缩处理，这能有效减小音频识别模型的体积，减少音频识别模型的运算复杂度，从而更有利于该音频识别模型相关产品的实现及推广。另外，终端可基于目标音频识别模型对目标音频进行识别处理，得到目标音频的目标声学场景；如果目标音频的目标声学场景是与音视频会话不匹配的声学场景，如音视频会话为在线会议，则包含鸣笛、鸟叫声等噪音的目标音频所属的嘈杂声学场景与在线会议不匹配，则可按照目标声学场景对音视频会话的通信质量进行调整，这样可有效提升音视频会话的通信质量，提高用户的体验感。

图3示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；图3主要阐述训练音频识别模型，得到目标音频识别模型的具体实施过程，该音频处理方案可包括但不限于步骤S301-S303，其中：

S301，获取训练样本集，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频。

在一个实施例中，获取训练样本集的方法可包括：获取第一样本集，第一样本集中包含多个样本音频；对第一样本集中的各个样本音频进行数据扩充处理，得到第二样本集，第二样本集中包含由各个样本音频扩充得到的扩充音频；合并第一样本集和第二样本集形成训练样本集。参见图4，图4示出了本申请一个示例性实施例提供的一种数据扩充的示意图；如图4所示，第一样本集401中包含样本音频A、样本音频B以及样本音频C；分别对样本音频A、样本音频B以及样本音频C进行数据扩充处理，得到样本音频A对应的扩充音频a、扩充音频b，得到样本音频B对应的扩充音频c、扩充音频d，得到样本音频C对应的扩充音频e，则第二样本集402包含扩充音频a、扩充音频b、扩充音频c、扩充音频d、扩充音频e；合并第一样本集401和第二样本集402形成训练样本集403，训练样本集403中包含样本音频A、样本音频B、样本音频C、扩充音频a、扩充音频b、扩充音频c、扩充音频d以及扩充音频e。

在一种实现方式中，第一样本集中包含第一样本音频和第二样本音频，第一样本音频是第一样本集中的任一音频，第二样本音频是第一样本集中除第一样本音频之外的任一音频；第一样本集中还包括第一样本音频的标注数据和第二样本音频的标注数据；则对第一样本音频进行的数据扩充处理的方式包括以下至少一种：

(1)混类增强(Mixup)方式。若第一样本集中包含第一样本音频的标签，以及第二样本音频的标签，则将第一样本音频和第二样本音频进行混合，以及将第一样本音频的标签与第二样本音频的标签进行混合，得到第一样本音频对应的扩充音频；其中，音频的标签用于指示音频所属的声学场景。其中，第一样本音频和第二样本音频，以及第一样本音频的标签和第二样本的标签均采用混合系数λ(0<λ<1)进行混合，比如，混合系数λ＝0.7，表示第一样本音频和第二样本音频进行混合的比例为7:3，也就是说，第一样本音频占70％，第二样本音频占30％。

(2)随机剪裁(Random cropping)方式。若第一样本音频的时长为非整数，则对第一样本音频进行随机剪裁得到第一样本音频对应的扩充音频，第一样本音频对应的扩充音频的时长为整数。

(3)信道融合(Channel fusion)方式。若第一样本音频与第二样本音频分别处于不同的信道，则对第一样本音频和第二样本音频进行叠加，得到第一样本音频对应的扩充音频。

(4)频谱增强(Spectrum augmentation)方式。在第一样本音频的频谱图中加入随机白噪源(即所有频率具有相同能量的随机噪声)，得到第一样本音频对应的扩充音频。

(5)频谱校正(Spectrum correction)方式。将第一样本音频的频谱进行归整处理，得到第一样本音频对应的扩充音频，其中，归整处理是指将第一样本音频的频谱调整到预设的幅度，这样当第一样本集中的样本音频采集于不同设备时，能确保来自不同设备的样本音频的频谱幅度一致。

(6)混响和动态压缩(Reverberation+DRC)方式。对第一样本音频添加混响效果，得到第一样本音频对应的扩充音频；更详细地，当第一样本音频的标注数据为正确标注数据时，对第一样本音频添加混响效果(即声波遇到障碍会反射，会产生混响效果)，其中，样本音频的标注数据为正确标注数据的条件是，样本音频的标注数据指示的声学场景与样本音频本来的声学场景一致。

(7)声音变调(Pitch shift)方式。对第一样本音频进行基频平移处理，得到第一样本音频对应的扩充音频，其中，平移系数在(-5，5)之间；更详细地，当第一样本音频的标注数据为正确标注数据时，对第一样本音频进行基频平移处理，得到第一样本音频对应的扩充音频。

(8)变速(Speed change)方式。对第一样本音频进行加减速处理，得到第一样本音频对应的扩充音频，其中，加减速处理的系数在(0.2，4)之间；更详细地，当第一样本音频的标注数据为正确标注数据时，对第一样本音频进行加减速处理(体现在音频播放时播放速度的快慢)，得到第一样本音频对应的扩充音频。

(9)随机噪声(Random noise)方式。在第一样本音频的时域添加随机白噪源，得到第一样本音频对应的扩充音频。

(10)混音(Mix audios)方式。若第一样本音频的标注数据与第二样本音频的标注数据相同，则对第一样本音频和第二样本音频进行时域叠加，得到第一样本音频对应的扩充音频。

综上述，获取到第一样本集时，对第一样本集所包含的多个样本音频进行数据扩充处理，得到由扩充音频组成的第二样本集；合并第一样本集和第二样本集形成训练样本集。这样训练样本集中除包含第一样本集中的样本音频以外，还包含对第一样本集中的样本音频进行数据扩充得到的扩充音频，可以丰富样本音频的数量，从而可避免音频识别模型在训练过程中的过拟合问题，提高训练得到的音频识别模型对声学场景识别的鲁棒能力。

S302，采用训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型基于第一音频识别模型产生。

以第一音频识别模型包含第一神经网络为例介绍基于第一音频识别模型得到第二音频识别模型的过程，第一音频识别模型的结构示意图可参见图5，图5示出了本申请一个示例性实施例提供的一种第一音频识别模型的结构示意图；如图5所示，第一音频识别模型由X组基础卷积神经网络架构组成，X为正整数，其中，1组基础卷积神经网络可包括卷积层、规整激活层(包含批规整层+激活函数)、池化层，或者，1组基础卷积神经网络可包括卷积层、规整激活层、池化层以及丢弃层；其中，卷积层的输出端与规整激活层的输入端相连接，规整激活层的输出端与丢弃层的输入端相连接，丢弃层的输出端与池化层的输入端相连接；X组基础卷积神经网络架构进行级联，并在级联的最后一层加入全局平均层及输出层激活函数可形成第一音频识别模型。

其中，对第一神经网络进行多次复制得到多路第二神经网络，至少部分多路第二神经网络组成第二音频识别模型的方法可包括但不限于：对图5所示的音频识别模型的X组基础卷积神经网络架构复制成多路，得到多路的第二神经网络；将部分或全部多路第二神经网络进行拼接，在拼接之后连接至少一组基础卷积神经网络架构，并在基础卷积神经网络架构之后连接全局平均层及输出层激活函数，通过上述复制操作，得到第二音频识别模型，其中，包含多路第二神经网络的第二音频识别模型的结构可参见图6，图6示出了本申请一个示例性实施例提供的一种第二音频识别模型的结构示意图。

在一种实现方式中，采用训练样本对音频识别模型进行训练之前，还需要提取训练样本集中样本音频的频谱特征，采用训练样本集对音频识别模型进行训练的过程包括采用训练样本集中样本音频的频谱特征对音频识别模型进行训练。其中，提取训练样本集中样本音频的频谱特征的方式包括：针对样本音频进行分帧和加窗操作，得到音频帧信号，其中，分帧是指将样本音频的音频信号分割为短段的信号，将短段的信号称为帧信号，每一段帧信号在微观上是平稳的；加窗用于将没有周期性的音频信号调整为具有周期函数的部分特征的信号，具体地，对帧信号进行加窗操作，可使帧信号的两端的幅度渐变到零；对音频帧信号进行傅里叶变化(Fast Flourier Transformation,FFT)，得到傅里叶系数；对傅里叶系数进行取模操作，得到样本音频的离散频谱；用梅尔滤波器组作用于离散频谱，得到梅尔频谱；再采用对数梅尔能量谱对梅尔频谱进行平方操作和取对数操作，得到对数梅尔能量频谱特征。另外，在提取训练样本集中样本音频的频谱特征的过程中，可设定样本音频的采样率或特征维度，比如，设定特征维度为D，则经过提取训练样本集中样本音频的频谱特征的步骤，可得到D张关于样本音频的频谱特征图，如D为64，则经过提取训练样本集中样本音频的频谱特征的步骤，可得到64张关于样本音频的频谱特征图。

参见图7，图7示出了本申请一个示例性实施例提供的一种特征提取的示意图；如图7所示，样本音频的音频时域信号经过分帧、加窗处理后，得到音频帧信号；对音频帧信号进行傅里叶变换，得到傅里叶系数；对傅里叶系数进行取模操作，得到样本音频的离散频谱；用梅尔滤波器组作用于离散频谱，得到梅尔频谱；再采用对数梅尔能量谱对梅尔频谱进行平方操作和取对数操作，得到对数梅尔能量频谱特征。需要说明的是，除采用对数梅尔能量谱提取频谱特征(对数梅尔能量频谱特征)以外，还可采用其他方法提取样本音频的频谱特征，比如采用梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)提取频谱特征，本申请实施例对具体采用哪种方式来提取样本音频的频谱特征不作限定。

在一种实现方式中，采用训练样本集对音频识别模型进行训练包括，采用训练样本集对第一音频识别模型和第二音频识别模型进行训练。其中，采用训练样本集对第一音频识别模型和第二音频识别模型进行训练的方式可包括：将样本音频的特征维度D作为第一音频识别模型的输入，则基于特征维度D对第一音频识别模型进行训练，得到优化的第一音频识别模型；将样本音频的特征维度D/S作为第二音频识别模型的输入，则基于特征维度D/S对第二音频识别模型进行训练，得到优化的第二音频识别模型。本申请实施例中可用{Θ_fcnn}表示优化后的第一音频识别模型，用FCNN-Split{Θ_fcnn-split}表示优化后的第二音频识别模型。其中，第一音频识别模型和第二音频识别模型的输入特征可用公式1来表示。

上述公式1中，Feature代表第一音频识别模型的输入特征，f_split代表第二音频识别模型的输入特征。

详细地，举例说明上述阐述的采用训练样本集对第一音频识别模型和第二音频识别模型进行训练，得到优化的第一音频识别模型和优化的第二音频识别模型的过程，假设训练样本集中第一样本音频对应的声学场景是音乐声学场景，S为4，S路第二神经网络组成第二音频识别模型，且第一样本音频的特征维度D为32，则输入到第一音频识别模型(第一神经网络)的特征维度为32，输入到每一路第二神经网络的特征维度为D/S＝32/4＝8；第一音频识别模型输出第一样本音频属于各个声学场景的概率，第二音频识别模型输出第一样本音频属于各个声学场景的概率，其中，由于第二音频识别模型包含S路第二神经网络，则第二音频识别模型输出第一样本音频属于各个声学场景的概率之前，还将S路第二神经网络分析的特征进行融合处理，基于融合处理的结果确定第一样本音频属于各个声学场景的概率；基于第一音频识别模型输出的第一样本音频属于各个声学场景的概率以及第二音频识别模型输出的第一样本音频属于各个声学场景的概率，确定第一样本音频属于各个声学场景的最终概率；基于各个声学场景的最终概率确定第一样本音频的预测声学场景；若预测声学场景与第一样本音频本身的声学场景相同，则将训练得到的音频识别模型作为优化的音频识别模型。

其中，确定第一样本音频属于各个声学场景的最终概率的方式可包括：将第一音频识别模型输出的第一样本音频属于各个声学场景的概率和第二音频识别模型输出的第一样本音频属于各个声学场景的概率进行加权平均处理，得到第一样本属于各个声学场景的加权平均值(或称为最终概率)。其中，第一音频识别模型和第二音频识别模型的权重可以是预先设定的，或者用户即时设定的，本申请实施例对此不作限定；权重用于指示对应的音频识别模型的重要性，如第一音频识别模型的权重为0.7，第二音频识别模型的权重为0.3，表示第一音频识别模型的重要程度高于第二音频识别模型的重要程度。比如，假设第一音频识别模型输出的第一样本音频属于声学场景A的概率为a1、属于声学场景B的概率为b1、属于声学场景C的概率为c1；第二音频识别模型输出的第一样本音频属于声学场景A的概率为a2、属于声学场景B的概率为b2、属于声学场景C的概率为c2，且第一音频识别模型的权重为0.4，第二音频识别模型的权重为0.6，则第一样本音频属于声学场景A的最终概率为(0.4×a1)+(0.6×a2)，属于声学场景B的最终概率为(0.4×b1)+(0.6×b2)，属于声学场景C的最终概率为(0.4×c1)+(0.6×c2)。另外，基于各个声学场景的最终概率确定第一样本音频的预测声学场景的方式可包括但不限于：将各个声学场景的最终概率中概率值最大的最终概率所对应的声学场景作为第一样本音频的预测声学场景，或者，将各个声学场景的最终概率中概率值大于场景阈值的概率所对应的声学场景作为第一样本音频的预测声学场景。

举例来说，假设第一音频识别模型的权重为0.5，第二音频识别模型的权重为0.5，且第一音频识别模型输出的第一样本音频属于音乐声学场景的概率为70％、第一样本音频属于交通声学场景的概率为20％、第一样本音频属于教学声学场景的概率为10％；第二音频识别模型输出的第一样本音频属于音乐声学场景的概率为50％、第一样本音频属于交通声学场景的概率为30％、第一样本音频属于教学声学场景的概率为20％；具体地，第一音频识别模型和第二音频识别模型输出的第一样本音频属于各个声学场景的概率可参见表1：

表1概率表

声学场景类别	第一音频识别模型(概率)	第二音频识别模型(概率)
			音乐声学场景	70％	50％
交通声学场景	20％	30％
			教学声学场景	10％	20％

表1展示了第一音频识别模型输出的第一样本属于各个声学场景的概率，以及第二音频识别模型输出的第一样本音频属于各个声学场景的概率，基于第一音频识别模型输出的第一样本属于各个声学场景的概率和第二音频识别模型输出的第一样本音频属于各个声学场景的概率，确定第一样本音频属于各个声学场景的最终概率可参见表2：

表2最终概率表

声学场景类别	第一音频识别模型	第二音频识别模型	最终概率
				音乐声学场景	70％×0.5	50％×0.5	60％
交通声学场景	20％×0.5	30％×0.5	25％
				教学声学场景	10％×0.5	20％×0.5	15％

由表2所示，由于平均概率60％>25％>15％，则确定第一样本音频的预测声学场景为音乐声学场景，表示预测声学场景与第一样本音频本身的声学场景相同，则将此次训练后的音频识别模型作为优化的音频识别模型，或者，设定场景阈值为50％，则60％>50％，50％>25％>15％，表示预测声学场景与第一样本音频本身的声学场景相同，则将此次训练后的音频识别模型作为优化的音频识别模型。

S303，对优化的音频识别模型进行压缩处理得到目标音频识别模型，目标音频识别模型用于识别声学场景的网络模型。

在一种实现方式中，压缩处理包括动态范围量化处理；对优化的音频识别模型进行压缩处理得到目标音频识别模型的方法可包括但不限于：将优化的第一音频识别模型中的浮点型参数量化为整型参数，得到压缩后的第一音频识别模型；以及，将优化的第二音频识别模型中的浮点型参数量化为整型参数，得到压缩后的第二音频识别模型；目标音频识别模型包括压缩后的第一音频识别模型及压缩后的第二音频识别模型。其中，本申请实施例采用{Ω_fcnn}表示量化后的第一音频识别模型，采用{Ω_fcnn-split}表示量化后的第二音频识别模型。详细地，将第一音频识别模型所包含的第一神经网络浮点型M-bits大小的参数量化成N-bits大小的整型参数，以及，将第二音频识别模型所包含的第二神经网络浮点型M-bits大小的参数量化成N-bits大小的整型参数，此时，M>N(比如M＝32,N＝8)；其中，动态范围量化处理前后的音频识别模型参数可参见公式2：

在另一种实现方式中，压缩处理包括参数稀疏化处理；对优化的音频识别模型进行压缩处理得到目标音频识别模型的方法可包括但不限于：确定优化的第一音频识别模型中权重值小于预设阈值的第一目标参数，将第一目标参数的权重值量化为零，得到压缩后的第一音频识别模型；确定优化的第二音频识别模型中权重值小于预设阈值的第二目标参数，将第二目标参数的权重值量化为零，得到压缩后的第二音频识别模型；目标音频识别模型包括压缩后的第一音频识别模型及压缩后的第二音频识别模型。

需要说明的是，对优化的音频识别模型进行压缩处理的方法可包括但不限于上述描述的动态范围量化处理、参数稀疏化处理，但不管采用哪种压缩处理方式，对优化的音频识别模型进行压缩处理的目的是减少音频识别模型的参数量，本申请实施例对压缩处理方式不作限定。

本申请实施例中，首先，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；采用数据扩充的方式，可以丰富样本音频的数量，从而可避免音频识别模型在训练过程中的过拟合问题，可提高训练得到的音频识别模型对声学场景识别的鲁棒能力。其次，用于训练的音频识别模型包括第一音频识别模型和第二音频识别模型，该第二音频识别模型是基于第一音频识别模型产生的，通过对第一音频识别模型进行变种的方式能够得到与第一音频识别模型属于不同类型的第二音频识别模型，采用这两种不同类型的音频识别模型可以从不同角度对音频特征进行分析，从而提升声学场景识别的正确率。最后，对训练得到的音频识别模型进行压缩处理，这能有效减小音频识别模型的体积，减少音频识别模型的运算复杂度，从而更有利于该音频识别模型相关产品的实现及推广。

参见图8，图8示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；图8主要阐述采用目标音频识别模型对目标音频进行识别得到目标音频的目标声学场景，以及基于目标声学场景对音视频会话的通话质量进行调整的过程。该音频处理方法可包括但不限于步骤S801-S802，其中：

S801，采集待处理的目标音频，并提取目标音频的频谱特征。

通常由终端(如参会人员所持的手机)来采集待处理的目标音频，终端是指用户打开且使用的设备。在一种实现方式中，采集待处理的目标音频是指在N个用户参与的音视频会话中采集目标音频，N为大于1的整数，其中，目标音频包括以下至少一种：N个用户中任意用户的会话音频，以及音视频会话的环境音频。所谓N个用户中任意用户的会话音频是指用户的语音通话形成的音频，如用户正在讲的话等等；所谓音视频会话的环境音频是指用户所属环境产生的音频，如路过的汽车鸣笛、家人的谈话声等等。

需要说明的是，提取目标音频的频谱特征的操作可参见图3所示实施例中步骤S302所示的具体实施过程的相关描述，本申请实施例在此不作赘述。

S802，调用目标音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频对应的目标声学场景。

在一种实现方式中，调用目标音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频对应的目标声学场景的方法可包括：调用第一音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频属于目标声学场景的第一概率；调用第二音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频属于目标声学场景的第二概率；求取第一概率和第二概率的加权平均值；若加权平均值大于场景阈值，则识别目标音频属于目标声学场景。需要说明的是，调用目标音频识别模型对目标音频的频谱特征进行识别处理的操作，与图3所示实施例中步骤S302所描述的采用训练样本集对音频识别模型进行训练的具体实施过程基本一致，具体可参见图3所示实施例中步骤S302所示的具体实施过程的相关描述，本申请实施例在此不作赘述。

在一种实现方式中，调用目标音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频对应的目标声学场景之后，本申请实施例还支持按照目标声学场景对音视频会话的通信质量进行调整。具体地，①若目标声学场景为嘈杂声学场景，则关闭目标音频对应的用户的会话权限。举例来说，假设音视频会话为在线会议，且参与在线会议的用户包括用户A，如果用户A正在嘈杂的公交车上参加在线会议，则采集到的用户A对应的目标音频的声学场景为嘈杂声学场景，则关闭用户A的会话权限(如关闭用户A所持设备的麦克风)。②若目标声学场景为音乐声学场景，则关闭音视频会话的降噪处理功能。举例来说，假设音视频会话为在线会议，且参与在线会议的用户包括用户A、用户B以及用户C，如果用户B正在音乐厅参加在线会议，则采集到的用户B对应的目标音频的声学场景为音乐声学场景，若用户A和用户C正需要收听音乐，此时可关闭用户A、用户B以及用户C所持设备的降噪处理功能(如不启动降噪(AutomaticNoiseCancellation，ANC)算法)。③若目标声学场景为漏回声声学场景，则对目标音频进行回声消除处理。举例来说，假设音视频会话为在线会议，且参与在线会议的用户包括用户C，如果用户C所持设备大音量外放声音，且麦克风将外放的声音作为目标音频进行采集，则采集到的用户C对应的目标音频的声学场景为漏回声声学场景，此时可对目标音频进行回声消除处理(如开启残留回声消除(Automatic EchoCancellation)算法)。

本申请实施例中，终端可基于目标音频识别模型对目标音频进行识别处理，得到目标音频的目标声学场景；如果目标音频的目标声学场景是与音视频会话不匹配的声学场景，如音视频会话为在线会议，则包含鸣笛、鸟叫声等噪音的目标音频所属的嘈杂声学场景与在线会议不匹配，则可按照目标声学场景对音视频会话的通信质量进行调整，并且，针对不同类型的目标声学场景，对音视频会话的通信质量的调整方式不同，这样可有效提升音视频会话的通信质量，提高用户的体验感。

图9示出了本申请一个示例性实施例提供的一种音频处理装置的结构示意图；该音频处理装置可以用于是运行于终端202中的一个计算机程序(包括程序代码)，例如该音频处理装置可以是终端202中的即时通信应用程序(如微信、QQ、腾讯会议)；该音频处理装置可以用于执行图3、图8所示的方法实施例中的部分或全部步骤。请参见图9，该音频处理装置包括如下单元：

接收单元901，用于获取训练样本集，训练样本集中包含样本音频及由样本音频扩充得到的扩充音频；

处理单元902，用于采用训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型基于第一音频识别模型产生；以及对优化的音频识别模型进行压缩处理得到目标音频识别模型，目标音频识别模型是用于识别声学场景的网络模型。

在一种实施方式中，处理单元902具体用于：

获取第一样本集，第一样本集中包含多个样本音频；

合并第一样本集和第二样本集形成训练样本集。

在该技术方案中，在该技术方案中，获取到第一样本集时，可对第一样本集所包含的多个样本音频进行数据扩充处理，得到的扩充音频组成第二样本集；合并第一样本集和第二样本集形成训练样本集。这样训练样本集中除包含第一样本集中的样本音频以外，还包含对第一样本集中的样本音频进行数据扩充得到的扩充音频，可丰富样本音频的数量，从而可避免音频识别模型在训练过程中的过拟合问题，可提高训练得到的音频识别模型对声学场景识别的鲁棒能力。

则对第一样本音频进行的数据扩充处理包括以下至少一种：

若第一样本集中包含第一样本音频的标签，则将第一样本音频和第一样本音频的标签进行混合，得到第一样本音频对应的扩充音频；

则对第一样本音频进行的数据扩充处理包括以下至少一种：

在一种实施方式中，压缩处理包括动态范围量化处理；处理单元902具体用于：

在一种实施方式中，压缩处理包括参数稀疏化处理；处理单元902具体用于：

在一种实施方式中，处理单元902还用于：

采集待处理的目标音频，并提取目标音频的频谱特征；

在一种实施方式中，处理单元902具体用于：

求取第一概率和第二概率的加权平均值；

在一种实施方式中，处理单元902具体用于：

处理单元902还用于：

按照目标声学场景对音视频会话的通信质量进行调整。

在一种实施方式中，处理单元902具体用于：

根据本申请的一个实施例，图9所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3、图8所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的音频处理装置，以及来实现本申请实施例的音频处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，首先，接收单元901在获取到第一样本集后，可将第一样本集发送给处理单元902，相应的，处理单元902对第一样本集中的各个样本音频进行数据扩充，得到各个样本音频对应的扩充音频；这样用于对音频识别模型进行训练的音频数量更加丰富，且可避免采用丰富音频训练得到的目标音频识别模型过拟合，从而有效地提高了音频识别模型对声学场景识别的鲁棒能力。其次，用于训练的音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型是基于第一音频识别模型产生的，这样训练得到的第一音频识别模型用于对音频的全局特征进行分析，训练得到的第二音频识别模型用于对音频的局部特征进行分析，可实现对音频的全局特征和局部特征的全面分析，从而提高声学场景识别的正确率。最后，处理单元902还对训练得到的第一音频识别模型和第二音频识别模型进行量化处理，得到量化(或压缩)后的第一音频识别模型和第二音频识别模型，其中，量化(或压缩)后的第一音频识别模型和第二音频识别模型组成目标音频识别模型，这样相比于量化(或压缩)前的第一音频识别模型和量化(或压缩)前的第二音频识别模型，量化(或压缩)后的第一音频识别模型以及量化(或压缩)后的第二音频识别模型体积更小，使得采用目标音频识别模型来进行声学场景识别的产品更容易落地以及推广。另外，处理单元902可基于目标音频识别模型对目标音频进行识别处理，得到目标音频的目标声学场景；如果目标音频的目标声学场景是与音视频会话不匹配的声学场景，如音视频会话为在线会议，则包含鸣笛、鸟叫声等噪音的目标音频所属的嘈杂声学场景与在线会议不匹配，则处理单元902可按照目标声学场景对音视频会话的通信质量进行调整，这样可有效提升音视频会话的通信质量，提高用户的体验感。

图10示出了本申请一个示例性实施例提供的一种音频处理设备的结构示意图。请参见图10，该音频处理设备，包括处理器1001、通信接口1002以及计算机可读存储介质1003。其中，处理器1001、通信接口1002以及计算机可读存储介质1003可通过总线或者其它方式连接。其中，通信接口802用于接收和发送数据。计算机可读存储介质1003可以存储在音频处理设备的存储器中，计算机可读存储介质1003用于存储计算机程序，计算机程序包括程序指令，处理器1001用于执行计算机可读存储介质803存储的程序指令。处理器1001(或称CPU(Central Processing Unit，中央处理器))是音频处理设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是音频处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括音频处理设备中的内置存储介质，当然也可以包括音频处理设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了音频处理设备的处理系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该音频处理设备可以是图2所示的终端202或服务器201；该计算机可读存储介质中存储有一条或多条指令；由处理器1001加载并执行计算机可读存储介质中存放的一条或多条指令，以实现上述音频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条指令由处理器1001加载并执行如下步骤：

采用训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型基于第一音频识别模型产生；以及对优化的音频识别模型进行压缩处理得到目标音频识别模型，目标音频识别模型是用于识别声学场景的网络模型。

在一种实施方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行获取训练样本集时，具体执行如下步骤：

获取第一样本集，第一样本集中包含多个样本音频；

合并第一样本集和第二样本集形成训练样本集。

则对第一样本音频进行的数据扩充处理包括以下至少一种：

在一种实施方式中，压缩处理包括动态范围量化处理；计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行对优化的音频识别模型进行压缩处理得到目标音频识别模型时，具体执行如下步骤：

在一种实施方式中，压缩处理包括参数稀疏化处理；计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行对优化的音频识别模型进行压缩处理得到目标音频识别模型时，具体执行如下步骤：

在一种实施方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并且还执行如下步骤：

采集待处理的目标音频，并提取目标音频的频谱特征；

在一种实施方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行调用目标音频识别模型对目标音频的频谱特征进行识别处理，得到目标音频对应的目标声学场景时，具体执行如下步骤：

求取第一概率和第二概率的加权平均值；

在一种实施方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行采集待处理的目标音频时，具体执行如下步骤：

计算机可读存储介质中的一条或多条指令由处理器1001加载并且还执行如下步骤：

按照目标声学场景对音视频会话的通信质量进行调整。

在一种实施方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行按照目标声学场景对音视频会话的通信质量进行调整时，具体执行如下步骤：

本申请实施例中，首先，通信接口1002在获取到第一样本集后，可将第一样本集发送给处理器1001，相应的，处理器1001对第一样本集中的各个样本音频进行数据扩充，得到各个样本音频对应的扩充音频；这样用于对音频识别模型进行训练的音频数量更加丰富，且可避免采用丰富音频训练得到的目标音频识别模型过拟合，从而有效地提高了音频识别模型对声学场景识别的鲁棒能力。其次，用于训练的音频识别模型包括第一音频识别模型和第二音频识别模型，第二音频识别模型是基于第一音频识别模型产生的，这样训练得到的第一音频识别模型用于对音频的全局特征进行分析，训练得到的第二音频识别模型用于对音频的局部特征进行分析，可实现对音频的全局特征和局部特征的全面分析，从而提高声学场景识别的正确率。最后，处理器1001还对训练得到的第一音频识别模型和第二音频识别模型进行量化处理，得到量化(或压缩)后的第一音频识别模型和第二音频识别模型，其中，量化(或压缩)后的第一音频识别模型和第二音频识别模型组成目标音频识别模型，这样相比于量化(或压缩)前的第一音频识别模型和量化(或压缩)前的第二音频识别模型，量化(或压缩)后的第一音频识别模型以及量化(或压缩)后的第二音频识别模型体积更小，使得采用目标音频识别模型来进行声学场景识别的产品更容易落地以及推广。另外，处理器1001可基于目标音频识别模型对目标音频进行识别处理，得到目标音频的目标声学场景；如果目标音频的目标声学场景是与音视频会话不匹配的声学场景，如音视频会话为在线会议，则包含鸣笛、鸟叫声等噪音的目标音频所属的嘈杂声学场景与在线会议不匹配，则处理器1001可按照目标声学场景对音视频会话的通信质量进行调整，这样可有效提升音视频会话的通信质量，提高用户的体验感。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，包括：

获取训练样本集，所述训练样本集中包含样本音频及由所述样本音频扩充得到的扩充音频；

采用所述训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，所述音频识别模型包括第一音频识别模型和第二音频识别模型，所述第二音频识别模型基于所述第一音频识别模型产生；

对所述优化的音频识别模型进行压缩处理得到目标音频识别模型，所述目标音频识别模型是用于识别声学场景的网络模型。

2.如权利要求1所述的方法，其特征在于，所述获取训练样本集，包括：

获取第一样本集，所述第一样本集中包含多个样本音频；

对所述第一样本集中的各个样本音频进行数据扩充处理，得到第二样本集，所述第二样本集包含由所述各个样本音频扩充得到的扩充音频；

合并所述第一样本集和所述第二样本集形成所述训练样本集。

3.如权利要求2所述的方法，其特征在于，所述第一样本集中包含第一样本音频，所述第一样本音频是所述第一样本集中的任一音频；

则对所述第一样本音频进行的数据扩充处理包括以下至少一种：

若所述第一样本音频的时长为非整数，则对所述第一样本音频进行随机剪裁得到所述第一样本音频对应的扩充音频，所述第一样本音频对应的扩充音频的时长为整数；

在所述第一样本音频的频谱图中加入随机白噪源，得到所述第一样本音频对应的扩充音频；

将所述第一样本音频的频谱进行归整处理，得到所述第一样本音频对应的扩充音频。

4.如权利要求2所述的方法，其特征在于，所述第一样本集中包含所述第一样本音频和第二样本音频，所述第一样本音频是所述第一样本集中的任一音频，所述第二样本音频是所述第一样本集中除所述第一样本音频之外的任一音频；所述第一样本集中还包括所述第一样本音频的标注数据和所述第二样本音频的标注数据；

若所述第一样本集中包含所述第一样本音频的标签，以及所述第二样本音频的标签，则将所述第一样本音频和所述第二样本音频进行混合，得到所述第一样本音频对应的扩充音频，以及将所述第一样本音频的标签与所述第二样本音频的标签进行混合，得到所述第一样本音频对应的扩充音频的标签；

对所述第一样本音频添加混响效果，得到所述第一样本音频对应的扩充音频；

对所述第一样本音频进行基频平移处理，得到所述第一样本音频对应的扩充音频；

对所述第一样本音频进行加减速处理，得到所述第一样本音频对应的扩充音频；

在所述第一样本音频的时域添加随机白噪源，得到所述第一样本音频对应的扩充音频；

若所述第一样本音频与所述第二样本音频分别处于不同的信道，则对所述第一样本音频和所述第二样本音频进行叠加，得到所述第一样本音频对应的扩充音频；

若所述第一样本音频的标注数据与所述第二样本音频的标注数据相同，则对所述第一样本音频和所述第二样本音频进行时域叠加，得到所述第一样本音频对应的扩充音频。

5.如权利要求1所述的方法，其特征在于，所述第一音频识别模型包括第一神经网络；所述第一神经网络被进行S次复制得到S路第二神经网络，至少部分所述S路第二神经网络组成所述第二音频识别模型；S为大于1的整数；

其中，所述第一神经网络的输入特征维度为D，则所述每一路第二神经网络的输入特征维度为D/S，D为正整数。

6.如权利要求1～5任一项所述的方法，其特征在于，所述压缩处理包括动态范围量化处理；所述对优化的音频识别模型进行压缩处理得到目标音频识别模型，包括：

将优化的第二音频识别模型中的浮点型参数量化为整型参数，得到压缩后的第二音频识别模型；所述目标音频识别模型包括所述压缩后的第一音频识别模型及所述压缩后的第二音频识别模型。

7.如权利要求1～5任一项所述的方法，其特征在于，所述压缩处理包括参数稀疏化处理；所述对所述优化的音频识别模型进行压缩处理得到目标音频识别模型，包括：

确定优化的第一音频识别模型中权重值小于预设阈值的第一目标参数，将所述第一目标参数的权重值量化为零，得到压缩后的第一音频识别模型；

确定优化的第二音频识别模型中权重值小于预设阈值的第二目标参数，将所述第二目标参数的权重值量化为零，得到压缩后的第二音频识别模型；所述目标音频识别模型包括所述压缩后的第一音频识别模型及所述压缩后的第二音频识别模型。

8.如权利要求1～5任一项所述的方法，其特征在于，所述方法还包括：

采集待处理的目标音频，并提取所述目标音频的频谱特征；

调用所述目标音频识别模型对所述目标音频的频谱特征进行识别处理，得到所述目标音频对应的目标声学场景。

9.如权利要求8所述的方法，其特征在于，所述调用所述目标音频识别模型对所述目标音频的频谱特征进行识别处理，得到所述目标音频对应的目标声学场景，包括：

调用所述第一音频识别模型对所述目标音频的频谱特征进行识别处理，得到所述目标音频属于所述目标声学场景的第一概率；

调用所述第二音频识别模型对所述目标音频的频谱特征进行识别处理，得到所述目标音频属于所述目标声学场景的第二概率；

求取所述第一概率和所述第二概率的加权平均值；

若所述加权平均值大于场景阈值，则识别所述目标音频属于所述目标声学场景。

10.如权利要求8所述的方法，其特征在于，所述采集待处理的目标音频，包括：在N个用户参与的音视频会话中采集所述目标音频，N为大于1的整数；所述目标音频包括以下至少一种：所述N个用户中任意用户的会话音频，以及所述音视频会话的环境音频；

所述调用所述目标音频识别模型对所述目标音频的频谱特征进行识别处理，得到所述目标音频对应的目标声学场景之后，还包括：按照所述目标声学场景对所述音视频会话的通信质量进行调整。

11.如权利要求10所述的方法，其特征在于，所述按照所述目标声学场景对所述音视频会话的通信质量进行调整，包括：

若所述目标声学场景为嘈杂声学场景，则关闭所述目标音频对应的用户的会话权限；

若所述目标声学场景为音乐声学场景，则关闭所述音视频会话的降噪处理功能；

若所述目标声学场景为漏回声声学场景，则对所述目标音频进行回声消除处理。

12.一种音频处理装置，其特征在于，包括：

接收单元，用于获取训练样本集，所述训练样本集中包含样本音频及由所述样本音频扩充得到的扩充音频；

处理单元，用于采用所述训练样本集对音频识别模型进行训练，得到优化的音频识别模型；其中，所述音频识别模型包括第一音频识别模型和第二音频识别模型，所述第二音频识别模型基于所述第一音频识别模型产生；以及对所述优化的音频识别模型进行压缩处理得到目标音频识别模型，所述目标音频识别模型是用于识别声学场景的网络模型。

13.一种音频处理设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及，

计算机可读存储介质，存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-11任一项所述的音频处理方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-11任一项所述的音频处理方法。