CN112017690B

CN112017690B - 一种音频处理方法、装置、设备和介质

Info

Publication number: CN112017690B
Application number: CN202011081242.XA
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2023-12-12
Anticipated expiration: 2040-10-09
Also published as: CN112017690A

Abstract

本申请公开了一种音频处理方法、装置、设备和介质，所述方法包括：获取待处理的音频信息，对音频信息进行特征提取，得到发音特征信息。基于发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息。其中，发音噪声分类模型是基于具有等级标注信息的样本音频信息训练预设神经网络得到的模型，预设神经网络包括等级分类层和噪声分类层。该方法通过训练等级分类层和噪声分类层的方式，使得发音噪声分类模型本身具有抗噪性，从而减少了噪声对音频处理的干扰，提高了音频处理的质量。

Description

一种音频处理方法、装置、设备和介质

技术领域

本申请涉及人工智能领域，尤其涉及一种音频处理方法、装置、设备和介质。

背景技术

通过应用软件进行口语练习时，用户可能很难在安静的环境下录制音频，导致在音频中往往包含各种噪声，如人声，环境噪声等。这些噪声首先会对语音特征提取产生影响，随着音频噪声的增多，提取的语音特征包含的无效特征也会增多。同时，不同噪声环境下，人工打分会有不同的标准，如噪声较大时，部分、评分会考虑噪声因素。因此，噪声可能会使口语评测效果变差。在现有技术中，主要通过预处理去除噪声或者通过模拟噪声进行数据增强的方式，避免噪声对口语测评进行干扰。预处理去除噪声的方式受限于去噪声算法的准确性，当去噪声算法准确性差时，相应地会降低去噪声的效果，而模拟噪声进行数据增强则需要模拟各种环境下的噪声，依赖于数据的全面性，因此人工成本和模型训练成本都较高。

发明内容

本申请提供了一种音频处理方法、装置、设备和介质，使得发音噪声分类模型本身具有抗噪性，减少了噪声对音频处理的干扰，并提高了音频处理的质量。

一方面，本申请提供了一种音频处理方法，所述方法包括：

获取待处理的音频信息；

对所述音频信息进行特征提取，得到发音特征信息，所述发音特征信息表征所述音频信息中每个音素信息的发音置信度；

基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息，其中，所述发音噪声分类模型为基于具有等级标注信息的样本音频信息对预设神经网络进行训练得到的模型，所述预设神经网络用于对所述样本音频信息进行等级分类和噪声分类。

另一方面提供了一种音频处理装置，所述装置包括：音频信息获取模块、发音特征获取模块和音频信息分类模块；

所述音频信息获取模块用于获取待处理的音频信息；

所述发音特征获取模块用于对所述音频信息进行特征提取，得到发音特征信息，所述发音特征信息表征所述音频信息中每个音素信息的发音置信度；

所述音频信息分类模块用于基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息，其中，所述发音噪声分类模型为基于具有等级标注信息的样本音频信息对包括预设神经网络进行训练得到的模型，所述预设神经网络中设置有等级分类层和噪声分类层。

另一方面提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的一种音频处理方法。

另一方面提供了一种计算机可读存储介质，所述存储介质包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的一种音频处理方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频处理方面的各种可选实现方式中提供的方法。

本申请提供的一种音频处理方法、装置、设备和介质，所述方法包括：获取待处理的音频信息，对音频信息进行特征提取，得到发音特征信息。基于发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息。其中，发音噪声分类模型是基于具有等级标注信息的样本音频信息训练预设神经网络得到的模型，预设神经网络包括等级分类层和噪声分类层。该方法通过训练等级分类层和噪声分类层的方式，使得发音噪声分类模型本身具有抗噪性，从而减少了噪声对音频处理的干扰，提高了音频处理的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音频处理方法的应用场景示意图；

图2为本申请实施例提供的一种音频处理方法的流程图；

图3为本申请实施例提供的一种音频处理方法中确定发音特征信息的方法流程图；

图4为本申请实施例提供的一种音频处理方法中确定等级信息的方法流程图；

图5为本申请实施例提供的一种音频处理方法中对发音特征信息进行等级分类的方法流程图；

图6为本申请实施例提供的一种音频处理方法中进行模型训练的方法流程图；

图7为本申请实施例提供的一种音频处理方法发音噪声分类模型和噪声分类模型的结构示意图；

图8为本申请实施例提供的一种音频处理方法中获取待训练数据的方法流程图；

图9为本申请实施例提供的一种音频处理方法的基于噪声分类模型进行音频特征信息分类的方法流程图；

图10为本申请实施例提供的一种音频处理装置的结构示意图；

图11为本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。而且，术语“第一”、“第二”等适用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

请参见图1，其显示了本申请实施例提供的一种音频处理方法的应用场景示意图，该应用场景包括用户终端110和服务器120，该用户终端110根据应用程序上的参考文字信息，输入音频信息并发送到服务器120中，服务器120对音频信息进行特征提取，得到发音特征信息和音频特征信息，服务器120通过发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息以及等级信息对应的噪声标签，服务器120将等级信息返回给用户终端110，将噪声标签输入到噪声分类模型中，用于进行噪声分类损失的计算，从而进行模型的优化。

在本发明实施例中，该用户终端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中网络节点上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。用户终端110包括UI(User Interface，用户界面)层，该用户终端110通过该UI层对外进行参考文字信息和等级信息的显示，另外，基于API(Application Programming Interface，应用程序接口)将音频信息发送给服务器120。

在本发明实施例中，该服务器120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。具体的，该服务器120可以用于对音频信息进行特征提取，得到发音特征信息和音频特征信息，通过发音噪声分类模型对发音特征信息进行分类，得到等级信息和噪声标签，通过噪声分类模型对音频特征信息进行分类，得到参考噪声信息，基于噪声标签和参考噪声信息计算噪声分类损失，将等级信息反馈到用户终端110。

在本发明实施例中，可以通过机器学习的方法训练发音噪声分类模型，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

请参见图2，其显示了一种音频处理方法，可应用于服务器侧，该方法包括：

S210.获取待处理的音频信息；

S220.对音频信息进行特征提取，得到发音特征信息，发音特征信息表征音频信息中每个音素信息的发音置信度；

进一步地，请参见图3，对音频信息进行特征提取，得到发音特征信息包括：

S310.获取音频信息的发音帧信息和发音帧信息对应的音素信息；

S320.根据预设的参考音频信息对应的参考音素信息，确定发音帧信息对应的音素信息与参考音素信息匹配的概率；

S330.根据发音帧信息对应的音素信息与参考音素信息匹配的概率，确定音素信息的发音置信度；

S340.将音素信息的发音置信度作为发音特征信息。

具体地，服务器可以通过语音识别的方式，可以获取音频信息的发音特征信息，发音特征信息为音素信息的发音置信度。在获取音频信息的发音帧信息时，可以通过计算梅尔倒谱系数的方法获取每一帧发音帧信息的语音特征。将用户麦克风采集到的音频信息进行分帧和加窗处理后，对每一帧发音帧信息进行傅里叶变换。将傅里叶变换的结果进行堆叠，可以得到音频信息的声谱图。将音频信息的声谱图通过梅尔滤波器进行滤波，得到与人耳的听觉范围匹配的梅尔频域的语音特征信息，对梅尔频域的语音特征信息进行倒谱分析，得到梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)。梅尔倒谱系数即为每一帧发音帧信息的语音特征，使得整段的音频信息转化为由发音帧信息对应的语音特征构成的语音特征序列。每个发音帧信息可以对应一个音素信息。

服务器根据参考音频信息，可以获取参考音频信息中参考音素信息的序列。服务器可以通过隐马尔可夫模型将发音帧信息对应的音素信息与参考音素信息进行强制对齐。

若发音帧信息对应的音素信息与参考音素信息无法强制对齐，则服务器通过自由识别的方式确定最符合用户发音的音素信息。

通过条件概率的计算方式，在已知参考音频信息中的参考音素信息的条件下，计算发音帧信息对应的音素信息与参考音素信息匹配的概率，得到音素信息的发音置信度。计算过程如下述公式所示。

其中，GOP为音素信息的发音置信度，p(p|O^(p))表示参考音素信息为p的条件下音素信息的发音也为p的概率，NF(p)表示音素信息的发音帧信息。基于贝叶斯公式进行展开可以得到上述公式的后半部分，其中，P(p)表示音素信息p出现的概率，即音素信息p的先验概率。p(O^(p)|p)表示在已知音素信息为p时对应的参考音素信息为p的概率，即参考音素信息的后验概率。Q表示所有的音素信息。

通过条件概率计算各个音素的发音置信度，将发音置信度作为发音特征信息，在后续步骤中将发音特征信息输入到发音噪声分类模型中的音素级别的编码器中，可以得到每个单词的单词分数值。通过条件概率计算各个音素的发音置信度的方法可以适用于已知参考音频信息的情况下的语音识别，提高了发音特征提取的有效性。

S230.基于预设的发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息，其中，发音噪声分类模型为基于具有等级标注信息的样本音频信息对预设神经网络进行训练得到的模型，预设神经网络用于对所述样本音频信息进行等级分类和噪声分类。

进一步地，请参见图4，基于预设的发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息包括：

S410.在特征编码层中根据发音特征信息中每个音素信息的发音置信度，确定音频信息中每个单词的单词分数值；

S420.在特征编码层中将每个单词的单词分数值和参考音频信息中每个单词的单词属性信息组合成单词特征信息；

S430.在等级分类层中对单词特征信息进行等级分类，确定音频信息的等级信息。

具体地，发音噪声分类模型为在自适应噪声的条件下对发音特征信息进行分类的模型，发音噪声分类模型在进行训练时是基于具有等级标注信息的样本音频信息对预设神经网络进行训练得到的模型，预设神经网络包括等级分类层和噪声分类层，噪声分类层可以确定等级信息对应的噪声标签，并根据噪声标签和无监督算法标注的参考噪声标签，得到噪声分类损失数据，对发音噪声分类模型进行抗噪声的优化。

服务器在特征编码层中根据参考音频信息中组成每个单词的参考音素信息，可以确定与参考音素信息对应的音素信息构成的单词，从而根据音素信息的发音置信度得到每个单词的单词分数值。在一个具体的实施例中，可以将每个音素信息的发音置信度输入到音素级别的编码器中，通过音素级别的编码器对每个音素信息的发音置信度进行编码，得到每个单词的单词分数值。将每个单词的单词分数值结合参考音频信息中每个单词的单词属性信息，例如单词为名词、动词等，可以组成单词特征信息，将单词特征信息作为音素级别的编码器的输出。将单词特征信息再输入到单词级别的编码器中，对单词特征信息进行编码，输出编码后的单词特征信息。

服务器在等级分类层中可以对编码后的单词特征信息进行等级分类，得到音频信息的等级信息。在一个具体的实施例中，将编码后的单词特征信息输入到等级分类器中，可以确定单词特征信息和预设的各个等级类型匹配的概率，将与单词特征信息匹配的等级类型作为等级信息输出。

基于具有抗噪能力的发音噪声分类模型进行发音特征信息的分类，并输出音频信息的等级信息，可以将噪声任务作为模型的辅助任务，使得模型本身具有抗噪性，从而减少了噪声对应音频处理的干扰，提高了音频处理的质量。

进一步地，请参见图5，在等级分类层中对单词特征信息进行等级分类，确定音频信息的等级信息包括：

S510.对单词特征信息进行分类，确定单词特征信息与预设的各个等级类型匹配的概率；

S520.获取单词特征信息与预设的各个等级类型匹配的概率中的概率最大值；

S530.将概率最大值对应的等级类型作为音频信息的等级信息。

具体地，服务器获取预设的各个等级类型，每个等级类型包括参考音频信息包含的句子中每个单词的单词属性信息和该等级类型对应的单词分数值。单词特征信息为对应的音频信息包含的句子中每个单词的单词分数值和单词属性信息，根据单词特征信息中每个单词的单词分数值和单词属性信息，可以计算单词特征信息与各个等级类型匹配的概率。在单词特征信息与各个等级类型匹配的概率中存在概率最大值，概率最大值即单词特征信息对应的音频信息最可能符合的等级类型，服务器将概率最大值作为音频信息的等级信息输出到用户终端中。

在一个具体的实施例中，例如设置五档等级类型，分别为1分、2分、3分、4分和5分，单词特征信息与等级类型为1分匹配的概率为40％，与等级类型为2分匹配的概率为55％，与等级类型为3分匹配的概率为75％，与等级类型为4分匹配的概率为90％，与等级类型为5分匹配的概率为65％，则将等级类型为4分作为等级信息输出到用户终端。

通过计算各个等级类型的匹配的概率的方式，得到音频信息的等级信息，可以对不同的音频信息设置相对统一的评分标准，音频信息更接近某一评分标准，就将该评分标准对应等级类型作为等级信息输出，可以提高对质量参差不齐的音频信息进行分类的有效性。

进一步地，请参见图6，对发音噪声分类模型进行训练时，该方法还包括：

S610.获取第一数据集，第一数据集包括具有等级标注信息的样本音频信息；

S620.对样本音频信息进行特征提取，得到样本音频特征信息和样本发音特征信息；

S630.基于预设的发音噪声分类模型，对样本发音特征信息进行分类，得到样本音频信息的样本等级信息和样本等级信息对应的噪声标签；

S640.基于预设的噪声分类模型，对样本音频特征信息进行分类，得到噪声类型信息；

S650.根据噪声类型信息和第一数据集中发音特征信息的等级标注信息，确定等级标注信息对应的参考噪声标签；

S660.根据噪声标签和参考噪声标签，确定噪声分类损失数据；

S670.根据样本等级信息和第一数据集中发音特征信息的等级标注信息，确定发音分类损失数据；

S680.根据噪声分类损失数据和发音分类损失数据，确定目标分类损失数据；

S690.根据目标分类损失数据，对发音噪声分类模型和噪声分类模型进行训练。

具体地，在对发音噪声分类模型进行训练及优化时，还需要通过噪声分类模型以无监督算法对音频特征信息进行分类，以得到噪声分类损失数据。样本音频特征信息可以通过语音识别的方式从样本音频信息中提取。样本音频特征信息主要包括音频信息的音高、音强、信噪比等。

在对发音噪声分类模型进行训练时，服务器获取第一数据集，第一数据集包括具有等级标注信息的样本音频信息。服务器通过语音识别的方式，得到样本音频信息中的样本发音特征信息和样本音频特征信息。服务器基于发音噪声分类模型，对样本音频信息的样本发音特征信息进行等级分类和噪声分类，得到样本音频信息的样本等级信息和样本等级信息对应的噪声标签。

服务器根据样本等级信息和第一数据集中样本音频信息的等级标注信息，计算得到发音分类损失信息。具体的计算公式如下：

L＝ylog(p)

其中，y为第一数据集中样本音频信息的等级标注信息，p为发音噪声分类模型预测得到的样本等级信息，L为发音分类交叉损失熵，即发音分类损失数据。

服务器将样本音频特征信息输入到噪声分类模型中，噪声分类模型基于无监督分类算法对样本音频特征信息进行分类，得到样本等级信息对应的参考噪声标签。服务器将发音噪声分类模型输出的噪声标签输入到噪声分类模型中，根据噪声标签和参考噪声标签，计算得到噪声分类损失信息。具体的计算公式如下：

L＝ylog(p)

其中p为发音噪声分类模型输出的噪声标签，y为噪声分类模型输出的参考噪声标签，L为噪声分类交叉损失熵，即噪声分类损失数据。

基于发音分类损失数据和噪声分类损失数据，计算目标分类损失数据，根据目标分类损失数据，对发音噪声分类模型和噪声分类模型进行训练。具体公式如下：

L_total＝w*L_noise+(1-w)*L_pro

其中L_noise为噪声分类损失数据，L_pro为发音分类损失数据，w为分类损失权重值，值为0到1之间。

通过目标分类损失数据对发音噪声分类模型和噪声分类模型进行优化时，可以通过反向传播的方式对发音噪声分类模型和噪声分类模型进行优化。预设神经网络中设置对等级分类的权重值和对噪声分类权重值。在获取目标分类损失数据后，对目标分类损失数据求权重值偏导数，得到目标分类损失数据的梯度信息并可以根据梯度信息更新预设神经网络中设置的权重值，得到新的权重值，从而对发音噪声分类模型和噪声分类模型进行优化。

在一个具体的实施例中，当用户开始使用应用软件后，也可以通过和模型训练一样的方法进行模型优化。服务器基于发音噪声分类模型输出用户输入的音频信息的等级信息到用户终端之后，服务器获得人工对用户输入的音频信息进行打分的人工打分标签，服务器基于人工打分标签和等级信息，计算发音分类损失数据。服务器基于发音噪声分类模型得到音频信息的等级信息对应的噪声标签，服务器将噪声标签和音频信息的音频特征信息输入到噪声分类模块，计算噪声分类损失数据。模型优化由两个训练任务构成，等级分类任务和噪声分类任务。其中等级分类任务为主要训练任务，噪声分类任务为辅助训练任务。基于多任务学习，通过噪声分类损失数据和发音分类损失数据得到的目标分类损失数据，对发音噪声分类模型和噪声分类模型进行优化。

在一个具体的实施例中，请参见图7，如图7所示为发音噪声分类模型和噪声分类模型的结构，服务器提取样本音频信息how are you的样本发音特征信息，即各个音素的发音置信度。样本音频信息how are you包括HH、AW、AA、R、Y、UW六个音素。其中，音素HH对应的发音置信度为0.1，音素AW对应的发音置信度为0.2，音素AA对应的发音置信度为0.1，音素R对应的发音置信度为0.4，音素Y对应的发音置信度为0.5，音素UW对应的发音置信度为0.4。服务器将音素信息和对应的发音置信度输入到音素级别的编码器中，得到各个单词和单词分数值，其中how对应的单词分数值为[0.1、0.2]，are对应的单词分数值包括[0.2、0.1]，you对应的单词分数值包括[0.1、0.3]。服务器增加各个单词对应的单词属性信息，与单词分数值组合成样本单词特征信息从音素级别的编码器中输出，其中，how对应的样本单词特征信息为[0.1、0.2、0.5]，are对应的样本单词特征信息为[0.2、0.1、0.4]，you对应的样本单词特征信息为[0.1、0.3、0.1]。服务器将样本单词特征信息输入到单词级别的编码器中，并将编码后的样本单词特征信息输入到等级分类器中，得到样本音频信息对应的样本等级信息。服务器根据样本等级信息和等级标注信息，可以计算发音分类损失数据。服务器同时将编码后的样本单词特征信息输入到发音噪声分类模型的噪声分类器中，得到样本等级信息对应的噪声标签[0.1、0.5、0.3、0.1、……、0.05]。服务器将样本音频信息的样本音频特征信息输入到噪声分类模型中，得到参考噪声标签为[0、1、0、0、……、0]。服务器根据参考噪声标签和噪声标签可以计算噪声分类损失数据。服务器根据发音分类损失数据和噪声分类损失数据可以得到目标分类损失数据，根据目标分类损失数据对发音噪声分类模型和噪声分类模型进行优化。

训练具有抗噪能力的发音噪声分类模型时，将等级分类任务作为模型的主要训练任务，将噪声分类任务作为模型的辅助训练任务，对模型进行训练，使得模型本身具有抗噪性，从而减少了噪声对应音频处理的干扰，提高了音频处理的质量。

进一步地，请参见图8，基于预设的发音噪声分类模型，对样本发音特征信息进行分类，得到样本音频信息的样本等级信息和样本等级信息对应的噪声标签包括：

S810.在特征编码层根据样本发音特征信息，确定样本单词特征信息；

S820.在等级分类层对样本单词特征信息进行等级分类，确定样本音频信息的样本等级信息；

S830.在噪声分类层对样本单词特征信息进行噪声分类，确定样本等级信息对应的噪声标签。

具体地，发音噪声分类模型包括特征编码层、等级分类层和噪声分类层，在一个具体的实施例中，特征编码层包括音素级别的编码器和单词级别的编码器。在特征编码层，将样本发音特征信息输入到音素级别的编码器中，得到各个单词的单词分数值。将单词分数值与单词属性信息组合成样本单词特征信息输出音素级别的编码器。在特征编码层，将样本单词特征信息输入到单词级别的编码器中，将单词级别的编码器输出的编码后的样本单词特征信息作为等级分类层和噪声分类层的输入。在等级分类层，将编码后的样本单词特征信息进行等级分类，确定编码后的样本单词特征信息与预设的各个等级类型匹配的概率，将概率最大值对应的等级类型作为样本等级信息输出。在噪声分类层，将编码后的样本单词特征信息进行噪声分类，确定样本音频信息的样本等级信息是否具有噪声，得到样本等级信息对应的噪声标签。在一个具体的实施例中，噪声分类层可以是一个10分类器，对应5个等级类型，每个等级类型对应无噪声和有噪声两个分类。例如，当音频信息的等级信息为1，且有噪声时，则对应10分类中为[0、1、0、0、0、0、0、0、0、0]的分类结果，输出的噪声标签为[0、1、0、0、0、0、0、0、0、0]。

在发音噪声分类模型中设置等级分类层和噪声分类层，使得发音噪声分类模型可以在自适应噪声的情况下对样本发音特征信息进行分类，从而提高了模型的抗噪性。

进一步地，请参见图9，基于预设的噪声分类模型，对样本音频特征信息进行分类，得到样本音频信息对应的噪声类型信息包括：

S910.对每个样本音频特征信息进行特征变换，得到音频特征参数数据集；

S920.从音频特征参数数据集中获取任意数目个音频特征参数数据；

S930.确定任意数目个音频特征参数数据中的每个音频特征参数数据对应的初始分类簇；

S940.将任意数目个音频特征参数数据中的每个音频特征参数数据作为对应的初始分类簇的中心数据；

S950.确定每个音频特征参数数据与初始分类簇的中心数据之间的距离；

S960.根据每个音频特征参数数据与初始分类簇的中心数据之间的距离，更新初始分类簇和初始分类簇的中心数据；

S970.重复上述更新初始分类簇和初始分类簇的中心数据，至更新后的每个初始分类簇的中心数据均满足预设条件；

S980.将中心数据满足预设条件的初始分类簇作为目标分类簇；

S990.根据样本音频特征信息所在的目标分类簇对应的噪声类型信息，确定样本音频信息对应的噪声类型信息。

具体地，在噪声分类模型中，可以采用无监督算法进行噪声分类，得到参考噪声标签。在一个具体的实施例中，可以通过k-means算法进行样本音频特征信息的无监督分类。对每个样本音频信息对应的样本音频特征信息进行特征变换，提取平均音高，最大音高，平均音强，最大音强，峰值信噪比，平均信噪比等，得到音频特征参数数据集。

在音频特征参数数据集中任选预设数目个音频特征参数，分别以这些音频特征参数为中心数据设置初始分类簇，计算其他的音频特征参数与各个中心数据间的距离，根据距离的远近将其他的音频特征参数分到距离最近的初始分类簇中，并在其他的音频特征参数加入初始分类簇后，重新确定中心数据，直到重新确定的中心数据与重新确定之前的中心数据一致为止，将此时各个中心数据对应的初始分类簇作为目标分类簇，目标分类簇中具有样本音频特征信息，将目标分类簇对应的噪声类型信息作为目标分类簇中的样本音频特征信息的噪声类型信息。在一个具体的实施例中，目标分类簇包括无噪声和有噪声两种类型，则样本音频特征信息可以对应划分为无噪声和有噪声两种类型。

根据样本音频信息对应的等级标注信息和样本音频特征信息的噪声类型信息，确定等级标注信息对应的参考噪声标签。在一个具体的实施例中，等级类型可以为5个，每个等级类型对应无噪声和有噪声两个分类。则当样本音频信息的等级标注信息为1，且经过噪声分类器确定该样本音频信息的样本音频特征信息有噪声时，则输出的噪声标签为[0、1、0、0、0、0、0、0、0、0]。

通过无监督分类算法对音频信息是否具有噪声进行标注，可以自动对音频信息是否具有噪声进行分类，减少人工标注的成本。

在一个具体的实施例中，该音频处理方法可以应用于口语发音测评场景。用户根据用户终端上的应用软件显示的参考文字信息，输入音频信息，用户终端将音频信息输入到服务器中。服务器通过语音识别的方式，获取音频信息中的发音特征信息和音频特征信息。发音特征信息为音频信息中各个音素的发音置信度。服务器将发音特征信息输入到发音噪声分类模型中，发音噪声分类模型对发音特征信息进行等级分类，得到等级信息。服务器将等级信息传输到用户终端，显示给用户。

本申请提出了一种音频处理方法，该方法包括：获取待处理的音频信息，对音频信息进行特征提取，得到发音特征信息。基于发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息。其中，发音噪声分类模型是基于具有等级标注信息的样本音频信息训练预设神经网络得到的模型，预设神经网络包括等级分类层和噪声分类层。该方法通过训练等级分类层和噪声分类层的方式，使得发音噪声分类模型本身具有抗噪性，从而减少了噪声对音频处理的干扰，提高了音频处理的质量。

本申请实施例还提供了一种音频处理装置，请参见图10，该装置包括：音频信息获取模块1010、发音特征获取模块1020和音频信息分类模块1030；

音频信息获取模块1010用于获取待处理的音频信息；

发音特征获取模块1020用于对音频信息进行特征提取，得到发音特征信息，发音特征信息表征音频信息中每个音素信息的发音置信度；

音频信息分类模块1030用于基于预设的发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息，其中，发音噪声分类模型为基于具有等级标注信息的样本音频信息对包括预设神经网络进行训练得到的模型，预设神经网络用于对所述样本音频信息进行等级分类和噪声分类。

进一步地，音频信息分类模块1030包括：单词分数值确定单元、单词特征信息组合单元和等级分类单元；

单词分数值确定单元用于在特征编码层中根据发音特征信息中每个音素信息的发音置信度，确定音频信息中每个单词的单词分数值；

单词特征信息组合单元用于在特征编码层中将每个单词的单词分数值和参考音频信息中每个单词的单词属性信息组合成单词特征信息；

等级分类单元用于在等级分类层中对单词特征信息进行等级分类，确定音频信息的等级信息。

进一步地，等级分类单元包括：概率确定单元、概率最大值确定单元和等级信息确定单元；

概率确定单元用于对单词特征信息进行分类，确定单词特征信息与预设的各个等级类型匹配的概率；

概率最大值确定单元用于获取单词特征信息与预设的各个等级类型匹配的概率中的概率最大值；

等级信息确定单元用于将概率最大值对应的等级类型作为音频信息的等级信息。

进一步地，该装置还包括：训练数据获取模块、训练特征提取模块、待训练数据获取模块、音频特征分类模块、参考噪声标签获取模块、噪声分类损失确定模块、发音分类损失确定模块、目标分类损失确定模块和模型训练模块；

训练数据获取模块用于获取第一数据集，第一数据集包括具有等级标注信息的样本音频信息；

训练特征提取模块用于对样本音频信息进行特征提取，得到样本音频特征信息和样本发音特征信息；

待训练数据获取模块用于基于预设的发音噪声分类模型，对样本发音特征信息进行分类，得到样本音频信息的样本等级信息和样本等级信息对应的噪声标签；

音频特征分类模块用于基于预设的噪声分类模型，对样本音频特征信息进行分类，得到噪声类型信息；

参考噪声标签获取模块用于根据噪声类型信息和第一数据集中发音特征信息的等级标注信息，确定等级信息的参考噪声标签；

噪声分类损失确定模块用于根据噪声标签和参考噪声标签，确定噪声分类损失数据；

发音分类损失确定模块用于根据样本等级信息和第一数据集中发音特征信息的等级标注信息，确定发音分类损失数据；

目标分类损失确定模块用于根据噪声分类损失数据和发音分类损失数据，确定目标分类损失数据；

模型训练模块用于根据目标分类损失数据，对发音噪声分类模型和噪声分类模型进行训练。

进一步地，发音噪声分类模型包括特征编码层、等级分类层和噪声分类层，待训练数据获取模块包括：样本单词特征信息确定单元、样本等级信息确定单元和噪声标签确定单元；

样本单词特征信息确定单元用于在特征编码层中根据样本发音特征信息，确定样本单词特征信息；

样本等级信息确定单元用于在等级分类层中对样本单词特征信息进行等级分类，确定样本音频信息的样本等级信息；

噪声标签确定单元用于在噪声分类层中对样本单词特征信息进行噪声分类，确定样本等级信息对应的噪声标签。

进一步地，音频特征分类模块包括：特征变换单元、参数选取单元、初始分类簇确定单元、中心数据确定单元、距离确定单元、初始分类簇更新单元、目标分类簇确定单元和噪声类型确定单元；

特征变换单元用于对每个样本音频特征信息进行特征变换，得到音频特征参数数据集；

参数选取单元用于从音频特征参数数据集中获取任意数目个音频特征参数数据；

初始分类簇确定单元用于确定任意数目个音频特征参数数据中的每个音频特征参数数据对应的初始分类簇；

中心数据确定单元用于将任意数目个音频特征参数数据中的每个音频特征参数数据作为对应的初始分类簇的中心数据；

距离确定单元用于确定每个音频特征参数数据与初始分类簇的中心数据之间的距离；

初始分类簇更新单元用于根据每个音频特征参数数据与初始分类簇的中心数据之间的距离，更新初始分类簇和初始分类簇的中心数据；

目标分类簇确定单元用于重复上述更新初始分类簇和初始分类簇的中心数据，至更新后的每个初始分类簇的中心数据均满足预设条件，将中心数据满足预设条件的初始分类簇作为目标分类簇；

噪声类型确定单元用于根据样本音频特征信息所在的目标分类簇对应的噪声类型信息，确定样本音频信息对应的噪声类型信息。

上述实施例中提供的装置可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的一种音频处理方法。

本实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机可执行指令，该计算机可执行指令由处理器加载并执行本实施例上述的一种音频处理方法。

本实施例还提供了一种设备，该设备包括处理器和存储器，其中，该存储器存储有计算机程序，该计算机程序适于由该处理器加载并执行本实施例上述的一种音频处理方法。

该设备可以为计算机终端、移动终端或服务器，该设备还可以参与构成本申请实施例所提供的装置或系统。如图11所示，服务器11可以包括一个或多个(图中采用1102a、1102b，……，1102n来示出)处理器1102(处理器1102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1104、以及用于通信功能的传输装置1106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器11还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器1102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到服务器11中的其他元件中的任意一个内。

存储器1104可用于存储应用软件的软件程序以及模块，如本申请实施例中的方法对应的程序指令/数据存储装置，处理器1102通过运行存储在存储器1104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于自注意力网络的时序行为捕捉框生成方法。存储器1104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1104可进一步包括相对于处理器1102远程设置的存储器，这些远程存储器可以通过网络连接至服务器11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器11的通信供应商提供的无线网络。在一个实例中，传输装置1106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与服务器11的用户界面进行交互。

本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或中断产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。应当理解到，本实施例中所揭露的方法、装置等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元模块的间接耦合或通信连接。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到，结合本说明书所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取待处理的音频信息；

对所述音频信息进行特征提取，得到发音特征信息，所述发音特征信息表征所述音频信息中每个音素信息的发音置信度；所述发音置信度为所述音频信息的发音帧信息所对应音素信息与预设的参考音素信息匹配的概率；

基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息，其中，所述发音噪声分类模型为基于具有等级标注信息的样本音频信息对预设神经网络进行训练得到的模型，所述预设神经网络用于对所述样本音频信息进行等级分类和噪声分类；

所述训练的步骤包括：获取第一数据集，所述第一数据集包括具有等级标注信息的样本音频信息；对所述样本音频信息进行特征提取，得到样本音频特征信息和样本发音特征信息；基于预设的发音噪声分类模型，对所述样本发音特征信息进行分类，得到所述样本音频信息的样本等级信息和所述样本等级信息对应的噪声标签；基于预设的噪声分类模型，对所述样本音频特征信息进行分类，得到噪声类型信息；根据所述噪声类型信息和所述第一数据集中发音特征信息的等级标注信息，确定所述等级标注信息对应的参考噪声标签；根据所述噪声标签和参考噪声标签，确定噪声分类损失数据；根据所述样本等级信息和所述第一数据集中发音特征信息的等级标注信息，确定发音分类损失数据；根据所述噪声分类损失数据和所述发音分类损失数据，确定目标分类损失数据；根据所述目标分类损失数据，对所述发音噪声分类模型和所述噪声分类模型进行训练。

2.根据权利要求1所述的一种音频处理方法，其特征在于，所述对所述音频信息进行特征提取，得到发音特征信息包括：

获取所述音频信息的发音帧信息和所述发音帧信息对应的音素信息；

根据预设的参考音频信息对应的参考音素信息，确定所述发音帧信息对应的音素信息与所述参考音素信息匹配的概率；

根据所述发音帧信息对应的音素信息与所述参考音素信息匹配的概率，确定所述音素信息的发音置信度；

将所述音素信息的发音置信度作为所述发音特征信息。

3.根据权利要求2所述的一种音频处理方法，其特征在于，所述发音噪声分类模型包括特征编码层和等级分类层，所述基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息包括：

在所述特征编码层中根据所述发音特征信息中每个音素信息的发音置信度，确定所述音频信息中每个单词的单词分数值；

在所述特征编码层中将所述每个单词的单词分数值和所述参考音频信息中每个单词的单词属性信息组合成单词特征信息；

在所述等级分类层中对所述单词特征信息进行等级分类，确定所述音频信息的等级信息。

4.根据权利要求3所述的一种音频处理方法，其特征在于，所述在所述等级分类层中对所述单词特征信息进行等级分类，确定所述音频信息的等级信息包括：

对所述单词特征信息进行分类，确定所述单词特征信息与预设的各个等级类型匹配的概率；

获取所述单词特征信息与预设的各个等级类型匹配的概率中的概率最大值；

将所述概率最大值对应的等级类型作为所述音频信息的等级信息。

5.根据权利要求1所述的一种音频处理方法，其特征在于，所述发音噪声分类模型包括特征编码层、等级分类层和噪声分类层，所述基于预设的发音噪声分类模型，对所述样本发音特征信息进行分类，得到所述样本音频信息的样本等级信息和所述样本等级信息对应的噪声标签包括：

在所述特征编码层中根据所述样本发音特征信息，确定样本单词特征信息；

在所述等级分类层中对所述样本单词特征信息进行等级分类，确定所述样本音频信息的样本等级信息；

在所述噪声分类层中对所述样本单词特征信息进行噪声分类，确定所述样本等级信息对应的噪声标签。

6.根据权利要求1所述的一种音频处理方法，其特征在于，所述基于预设的噪声分类模型，对所述样本音频特征信息进行分类，得到所述样本音频信息对应的噪声类型信息包括：

对每个样本音频特征信息进行特征变换，得到音频特征参数数据集；

从所述音频特征参数数据集中获取任意数目个音频特征参数数据；

确定所述任意数目个音频特征参数数据中的每个音频特征参数数据对应的初始分类簇；

将所述任意数目个音频特征参数数据中的每个音频特征参数数据作为对应的初始分类簇的中心数据；

确定每个音频特征参数数据与所述初始分类簇的中心数据之间的距离；

根据所述每个音频特征参数数据与初始分类簇的中心数据之间的距离，更新所述初始分类簇和所述初始分类簇的中心数据；

重复上述更新初始分类簇和初始分类簇的中心数据，至更新后的每个初始分类簇的中心数据均满足预设条件；

将中心数据满足预设条件的初始分类簇作为目标分类簇；

根据所述样本音频特征信息所在的目标分类簇对应的噪声类型信息，确定所述样本音频信息对应的噪声类型信息。

7.一种音频处理装置，其特征在于，所述装置包括：音频信息获取模块、发音特征获取模块和音频信息分类模块；

所述音频信息获取模块用于获取待处理的音频信息；

所述发音特征获取模块用于对所述音频信息进行特征提取，得到发音特征信息，所述发音特征信息表征所述音频信息中每个音素信息的发音置信度；所述发音置信度为所述音频信息的发音帧信息所对应音素信息与预设的参考音素信息匹配的概率；

所述音频信息分类模块用于基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息，其中，所述发音噪声分类模型为基于具有等级标注信息的样本音频信息对包括预设神经网络进行训练得到的模型，所述预设神经网络用于对所述样本音频信息进行等级分类和噪声分类；

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-6任一项所述的一种音频处理方法。

9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6任一项所述的一种音频处理方法。