CN111968670A

CN111968670A - 音频识别方法及装置

Info

Publication number: CN111968670A
Application number: CN202010836970.0A
Authority: CN
Inventors: 郑炜乔; 邓冬瑞; 朱孔洋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-20

Abstract

本申请实施例公开了一种音频识别方法及装置，该方法包括：获取待识别音频包括的多个音频片段对应的多张音频频谱图。将各张音频频谱图分别输入音频识别模型包括的卷积神经网络和递归神经网络中，以获取卷积神经网络输出的每张音频频谱图对应的第一特征向量，以及递归神经网络输出的每张音频频谱图对应的第二特征向量。将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。根据多个音频识别结果确定待识别音频的最终识别结果。采用本申请实施例，可提高音频识别的准确度和效率。

Description

音频识别方法及装置

技术领域

本申请涉及音频识别领域，尤其涉及一种音频识别方法及装置。

背景技术

随着互联网技术的发展，信息传播的方式和渠道发生了显著变化。当前，网络上传播的信息良莠不齐，为了净化网络环境，通常需要对用户上传的信息进行审核。现有技术中，针对用户上传的音视频作品或直播实时音视频，通过抽取出音频后，一方面可通过人耳辨别该音频是否为娇喘音频，另一方面可通过深度学习的方法进行音频识别。通常而言，采用人工判断的方法在音视频数据库较小且更新频率低的场景下可以实现较好的审核效果，但在互联网产品平台上，海量和多样化的音视频环境下，由于都要认真听一个个音频才能进行判断，该方法效率低下且成本高，不适应于面向互联网产品的娇喘音频识别需求。采用深度学习的方法则需要人工构造多种特征，其在一定程度上会损失部分代表娇喘音频特性的原始信息，从而影响娇喘音频识别的分类结果。

发明内容

本申请实施例提供一种音频识别方法及装置，可提高音频识别的准确性和效率。

第一方面，本申请实施例提供了一种音频识别方法，该方法包括：

接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，其中一个音频片段对应一张音频频谱图；

将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中，以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量；

将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中，以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量；

将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量，并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果，其中，所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到；

根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。

结合第一方面，在一种可能的实施方式中，所述音频识别模型还包括池化层，所述将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络包括：

将所述各音频片段对应的各张音频频谱图输入所述池化层，经过所述池化层后输入所述递归神经网络。

结合第一方面，在一种可能的实施方式中，所述输出层包括全连接层和softmax层，所述将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量，并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果，包括：

将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量；

将所述每张音频频谱图对应的联合特征向量输入所述音频识别模型包括的全连接层，经过所述全连接层后输入softmax层以获取所述softmax层输出的对所述每个音频片段的音频识别结果，其中，所述全连接层用于学习所述联合特征向量中具有类别区分性的局部信息，所述softmax层用于将所述全连接层输出映射为k个音频类别的音频类别置信度分布，其中，k等于2。

结合第一方面，在一种可能的实施方式中，所述每个音频片段对应的音频识别结果包括目标音频类别和所述目标音频类别对应的音频类别置信度，其中，所述目标音频类别为正常音频或异常音频；

所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果包括：

确定所述多个音频片段对应的多个音频识别结果中包括的异常音频对应的第一数量，以及属于异常音频的音频片段对应的异常置信度的异常平均置信度；

获取预设异常音频数量阈值和预设异常置信度阈值，当所述第一数量不小于所述预设异常音频数量阈值且所述异常平均置信度不小于所述预设异常置信度阈值时，确定所述待识别音频的最终识别结果为异常音频。

结合第一方面，在一种可能的实施方式中，所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果之后，所述方法还包括：

若所述待识别音频的最终识别结果为异常音频，则向所述待识别音频的上传账号发送警告信息或对所述待识别音频的上传账号进行封号处理。

结合第一方面，在一种可能的实施方式中，所述方法还包括：

获取训练样本集合，所述训练样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度；

获取初始卷积循环神经网络模型，根据所述训练样本集合中包括的每个样本音频对应的样本音频频谱图以及所述每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数；

当调整后的所述初始卷积循环神经网络模型满足目标收敛条件时，将调整后的初始卷积循环神经网络模型确定为音频识别模型，所述音频识别模型用于根据输入的音频频谱图输出音频识别结果。

结合第一方面，在一种可能的实施方式中，所述音频类别置信度包括异常音频对应的异常置信度和正常音频对应的正常置信度，所述异常置信度与所述正常置信度之和等于1，所述根据所述训练样本集合中包括的每个样本音频对应的样本音频频谱图以及所述每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数包括：

将所述训练样本集合中包括的每个样本音频对应的样本音频频谱图输入初始卷积循环神经网络模型，以得到所述初始卷积循环神经网络模型输出的所述每个样本音频为异常音频的输出异常置信度，以及所述每个样本音频为正常音频的输出正常置信度，其中所述每个样本音频的输出异常置信度和输出正常置信度之和等于1；

基于所述每个样本音频的异常置信度、正常置信度、输出异常置信度和输出正常置信度调整所述初始卷积循环神经网络模型的模型参数。

获取测试样本集合，所述测试样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度；

将所述测试样本集合中包括每个样本音频对应的每张样本音频频谱图输入调整后的所述初始卷积循环神经网络模型，获取调整后的所述初始卷积循环神经网络模型输出的每个样本音频对应的音频识别结果；

当根据调整后的所述初始卷积循环神经网络模型输出的各音频识别结果所确定出的识别准确率不小于预设准确率时，则确定调整后的所述初始卷积循环神经网络模型满足目标收敛条件。

第二方面，本申请实施例提供了一种音频识别装置，该装置包括：

音频获取模块，用于接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，其中一个音频片段对应一张音频频谱图；

特征提取模块，用于将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中，以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量；

所述特征提取模块，还用于将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中，以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量；

音频识别模块，用于将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量，并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果，其中，所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到；

识别结果确定模块，用于根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。

结合第二方面，在一种可能的实施方式中，所述音频识别模型还包括池化层，所述特征提取模块包括第一提取单元和第二提取单元，其中所述第二提取单元用于：

结合第二方面，在一种可能的实施方式中，所述输出层包括全连接层和softmax层，所述音频识别模块具体用于：

结合第二方面，在一种可能的实施方式中，所述每个音频片段对应的音频识别结果包括目标音频类别和所述目标音频类别对应的音频类别置信度，其中，所述目标音频类别为正常音频或异常音频；

所述识别结果确定模块包括：

第一处理单元，用于确定所述多个音频片段对应的多个音频识别结果中包括的异常音频对应的第一数量，以及属于异常音频的音频片段对应的异常置信度的异常平均置信度；

第二处理单元，用于获取预设异常音频数量阈值和预设异常置信度阈值，当所述第一数量不小于所述预设异常音频数量阈值且所述异常平均置信度不小于所述预设异常置信度阈值时，确定所述待识别音频的最终识别结果为异常音频。

结合第二方面，在一种可能的实施方式中，所述装置还包括异常处理模块，所述异常处理模型用于：

结合第二方面，在一种可能的实施方式中，所述装置还包括：

训练样本集合获取模块，用于获取训练样本集合，所述训练样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度；

模型参数调整模块，用于获取初始卷积循环神经网络模型，根据所述训练样本集合中包括的每个样本音频对应的样本音频频谱图以及所述每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数；

音频识别模型确定模块，用于当调整后的所述初始卷积循环神经网络模型满足目标收敛条件时，将调整后的初始卷积循环神经网络模型确定为音频识别模型，所述音频识别模型用于根据输入的音频频谱图输出音频识别结果。

结合第二方面，在一种可能的实施方式中，所述音频类别置信度包括异常音频对应的异常置信度和正常音频对应的正常置信度，所述异常置信度与所述正常置信度之和等于1，所述模型参数调整模块具体用于：

结合第二方面，在一种可能的实施方式中，所述装置还包括模型测试模块，所述模型测试模块具体用于：

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

在本申请实施例中，通过接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，可将各音频片段对应的各张音频频谱图分别输入音频识别模型包括的卷积神经网络和音频识别模型包括的递归神经网络中，并获取卷积神经网络输出的每张音频频谱图对应的第一特征向量，以及递归神经网络输出的每张音频频谱图对应的第二特征向量。将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。根据多个音频片段对应的多个音频识别结果可确定出待识别音频的最终识别结果。采用本申请实施例，可提高音频识别的准确性和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频识别方法的一流程示意图；

图1a是本申请实施例提供的音频识别模型的一结构示意图；

图1b是本申请实施例提供的音频识别模型的另一结构示意图；

图2是本申请实施例提供的音频识别方法的另一流程示意图；

图3是本申请实施例提供的音频识别装置的一结构示意图；

图4是本申请实施例提供的音频识别装置的另一结构示意图；

图5是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的音频识别方法，可广泛适用于能够进行音频识别的终端设备。其中，音频识别可以是对娇喘音频的识别，或者也可以是对其他类型的音频的识别，例如，还可以是对包含脏话的音频的识别等，在此不做限制。上述终端设备包括但不限于服务器、智能手机、平板电脑、笔记本电脑和台式计算机等，在此不做限制。为方便描述，下面将以终端设备为例进行说明。本申请实施例中的方法，通过接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，可将各音频片段对应的各张音频频谱图分别输入音频识别模型包括的卷积神经网络和音频识别模型包括的递归神经网络中，并获取卷积神经网络输出的每张音频频谱图对应的第一特征向量，以及递归神经网络输出的每张音频频谱图对应的第二特征向量。将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。根据多个音频片段对应的多个音频识别结果可确定出待识别音频的最终识别结果。采用本申请实施例，可提高音频识别的准确性和效率。

下面将结合图1至图5分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括用于获取待识别音频、获取组成待识别音频的音频片段对应的音频频谱图、获取各张音频频谱图对应的第一特征向量和第二特征向量、根据第一特征向量和第二特征向量确定联合特征向量、根据每张音频频谱图对应的联合特征向量确定每个音频片段的音频识别结果，根据多个音频识别结果确定待识别音频的最终识别结果等数据处理阶段。其中，上述各个数据处理阶段的实现方式可参见如下图1至图2所示的实现方式。

请参见图1，图1为本申请实施例提供的音频识别方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S101至S104：

S101、接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图。

在一些可行的实施方式中，可将接收到的用户上传的音频作为待识别音频，或者，也可以从用户上传的音视频或者用户直播时的音视频中提取出音频，以作为待识别音频。其中，通过对获取到的待识别音频按时长进行分段，可得到组成待识别音频的多个音频片段。例如，假设接收到一段音频时长为60s的待识别音频，并按照每连续5s为一个音频片段进行划分，则上述60s待识别音频可共划分得到12个音频片段，其中第0s～5s为音频片段1，第5s～10s为音频片段2，第10s～15s为音频片段3，…，以此类推，第55s～第60s为音频片段12。进一步地，通过对每个音频片段进行短时傅里叶变换，可得到每个音频片段对应的一张音频频谱图。

可选的，在一些可行的实施方式中，为确保音频质量，当获取到待识别音频后，还可以先对待识别音频进行转码处理，以得到未压缩无损wave格式的待识别音频。通过将wave格式的待识别音频进行分帧加窗处理，并进行短时傅里叶变换后，可得到待识别音频完整的音频频谱图。其中，上述分帧加窗处理所使用的窗函数可选择汉宁窗或海明窗等，具体根据实际应用场景确定，在此不做限制。不难理解的是，在音频频谱图中，横轴表示时间，纵轴表示频率，颜色的深浅程度表示在对应时间和频率上信号的能量。其中，通过沿频率轴(y轴)对音频频谱图进行离散化，沿时间轴(x轴)对音频频谱图进行音频片段的划分，可得到多个音频片段对应的多张音频频谱图。其中，一个音频片段对应一张音频频谱图。例如，假设沿频率轴(y轴)的129个频率点进行离散化，沿时间轴(x轴)设置为每秒50个像素，同时，按照每5s划分为一个音频片段，则每个音频片段可对应一张频谱图尺寸为250×129的音频频谱图。

S102、将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中，以获取卷积神经网络输出的每张音频频谱图对应的第一特征向量。

音频识别模型包括卷积神经网络，在一些可行的实施方式中，通过将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中，可获取卷积神经网络输出的每张音频频谱图对应的第一特征向量。不难理解的是，所述音频识别模型可根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到。上述卷积神经网络可由多个卷积层和多个池化层组成，其中，每个卷积层后面连接一个池化层，每个卷积层的卷积核大小可根据频谱图尺寸大小进行设置。上述池化层可以是最大池化层或者平均池化层等，在此不做限制。

S104、将各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中，以获取递归神经网络输出的每张音频频谱图对应的第二特征向量。

音频识别模型还包括递归神经网络，在一些可行的实施方式中，通过将各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中，可获取递归神经网络输出的每张音频频谱图对应的第二特征向量。其中，上述递归神经网络可以是长短期记忆网络(Long Short-Term Memory，LSTM)，或者也可以是门控循环单元(Gate RecurrentUnit，GRU)等，在此不做限制。可选的，在一些可行的实施方式中，为加快音频处理速度，上述音频识别模型还可以包括一个池化层。然后，在该池化层后连接上述递归神经网络。因此，通过将上述各音频片段对应的各张音频频谱图输入上述池化层，经过上述池化层后，可将该池化层的输出作为上述递归神经网络的输入，进而获取上述递归神经网络输出的各种音频频谱图对应的第二特征向量。不难理解的是，这里的池化层包括最大池化层等，在此不做限制。

S105、将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。

在一些可行的实施方式中，通过将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接，可得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。其中，上述音频识别模型的输出层包括全连接层和softmax层。具体地，通过将每张音频频谱图对应的联合特征向量输入音频识别模型包括的全连接层，经过全连接层后输入音频识别模型包括的softmax层，可获取到softmax层输出的对每个音频片段的音频识别结果。应当理解的是，全连接层用于学习联合特征向量中具有类别区分性的局部信息，softmax层用于将全连接层输出映射为k个音频类别的音频类别置信度分布，其中，k等于2。也就是说，本申请实施例中的音频识别为二分类任务，其中音频类别包括正常音频和异常音频。

举例来说，请参见图1a，图1a是本申请实施例提供的音频识别模型的一结构示意图。如图1a所示，该音频识别模型包括卷积神经网络、循环神经网络、全连接层和softmax层。其中，卷积神经网络和循环神经网络并行连接。如图1a所示，该卷积神经网络由多个卷积层和多个池化层交错连接组成，且每个卷积层后连接一个池化层。通过将任一音频片段对应的音频频谱图分别输入卷积神经网络和循环神经网络，可得到卷积神经网络输出的第一特征向量，以及循环神经网络输出的第二特征向量。其中，通过将第一特征向量和第二特征向量进行特征拼接，可得到该音频片段对应的联合特征向量。进一步地，通过将该联合特征向量输入全连接层，经过全连接层后输入softmax层，可得到softmax层输出的对该音频片段的音频识别结果。

又举例来说，请参见图1b，图1b是本申请实施例提供的音频识别模型的另一结构示意图。如图1b所示，该音频识别模型包括卷积神经网络、池化层、循环神经网络、全连接层和softmax层。其中，上述池化层与循环神经网络串行连接后，与上述卷积神经网络再并行连接。如图1b所示，该卷积神经网络由多个卷积层和多个池化层交错连接组成，且每个卷积层后连接一个池化层。通过将任一音频片段对应的音频频谱图分别输入卷积神经网络和池化层，可得到卷积神经网络输出的第一特征向量，以及经过上述池化层，再输入循环神经网络后输出的第二特征向量。其中，通过将第一特征向量和第二特征向量进行特征拼接，可得到该音频片段对应的联合特征向量。进一步地，通过将该联合特征向量输入全连接层，经过全连接层后输入softmax层，可得到softmax层输出的对该音频片段的音频识别结果。

S106、根据多个音频片段对应的多个音频识别结果确定待识别音频的最终识别结果。

在一些可行的实施方式中，上述每个音频片段对应的音频识别结果包括该音频片段所属的目标音频类别和目标音频类别对应的音频类别置信度。其中，上述目标音频类别包括正常音频或异常音频。应当理解的是，在本申请实施例中，异常音频即为娇喘音频，或者异常音频也可以是脏话音频等，在此不做限制。其中，根据多个音频片段对应的多个音频识别结果可确定出待识别音频的最终识别结果。具体地，可从多个音频片段对应的多个音频识别结果中确定出属于异常音频的音频片段的数量，即第一数量。进而，可计算出所有属于异常音频的音频片段对应的异常置信度的异常平均置信度。例如，假设待识别音频包括5个音频片段，其中，音频片段1的音频识别结果为正常音频，且其为正常音频的置信度为58％,即音频片段1的正常置信度为58％。音频片段2为异常音频，且其异常置信度为70％，音频片段3为异常音频，且其异常音频置信度为64％，音频片段4为异常音频，且其异常音频置信度为76％，音频片段5为正常音频，且其正常音频置信度为60％。因此，可确定出上述5个音频片段中属于异常音频的音频片段的数量为3，即第一数量等于3。上述5个音频片段中所有属于异常音频的音频片段对应的异常置信度的异常平均置信度为70％。

在一些可行的实施方式中，通过获取预设异常音频数量阈值和预设异常置信度阈值，当第一数量不小于预设异常音频数量阈值且异常平均置信度不小于预设异常置信度阈值时，可确定待识别音频的最终识别结果为异常音频，否则，确定待识别音频的最终识别结果为正常音频。或者，当第一数量不小于预设异常音频数量阈值，确定待识别音频的最终识别结果为异常音频。或者，当异常平均置信度不小于预设异常置信度阈值时，确定待识别音频的最终识别结果为异常音频。

举例来说，假设待识别音频包括5个音频片段，其中，属于异常音频的音频片段的第一数量为3，所有属于异常音频的音频片段对应的异常置信度的异常平均置信度为70％，其中，假设预设异常音频数量阈值为2，预设异常置信度阈值为60％，由于第一数量3＞预设异常音频数量阈值为2，且异常平均置信度70％＞预设异常置信度阈值为60％，因此，可确定该待识别音频的最终识别结果为异常音频。

可选的，在一些可行的实施方式中，当确定出上述每个音频片段对应的音频识别结果中包括该音频片段所属的目标音频类别和目标音频类别对应的音频类别置信度后，还可以通过统计异常音频占比，以及所有属于异常音频的音频片段对应的异常置信度的异常平均置信度来确定待识别音频的最终识别结果。例如，可通过判断异常音频占比与第一权重值的乘积与异常平均置信度与第二权重值的乘积之和与预设异常阈值间的大小关系确定待识别音频的最终识别结果。其中，第一权重值与第二权重值之和等于1。举例来说，假设异常音频占比为3/5，异常平均置信度为70％，假设第一权重值为0.6，第二权重值为0.4，则可计算出异常音频占比与第一权重值的乘积与异常平均置信度与第二权重值的乘积之和等于0.64。假设预设异常阈值为0.6，显而易见，0.64＞0.6，因此，可确定待识别音频的最终识别结果为异常音频。

可选的，还可以获取预设异常音频占比阈值和预设异常置信度阈值分别与统计出的异常音频占比和异常平均置信度进行比较，以确定待识别音频的最终识别结果。例如，当异常音频占比不小于预设异常音频占比阈值且异常平均置信度不小于预设异常置信度阈值时，则确定待识别音频为异常音频。

请参见图2，图2是本申请实施例提供的音频识别方法的另一流程示意图。本申请实施例提供的音频识别可通过如下步骤S201至S206提供的实现方式进行说明：

S201、获取初始卷积循环神经网络模型，根据训练样本集合中包括的每个样本音频对应的样本音频频谱图以及每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数，当调整后的初始卷积循环神经网络模型满足目标收敛条件时，将调整后的初始卷积循环神经网络模型确定为音频识别模型。

在一些可行的实施方式中，通过获取训练样本集合，可得到训练样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度。通过获取初始卷积循环神经网络模型，并将训练样本集合中包括的每个样本音频对应的样本音频频谱图以及每个样本音频对应的音频类别置信度输入该卷积循环神经网络模型，可对上述循环神经网络模型进行训练，即对循环神经网络模型的模型参数进行调整。不难理解的是，当调整后的初始卷积循环神经网络模型满足目标收敛条件时，则可将调整后的初始卷积循环神经网络模型确定为音频识别模型。其中，该音频识别模型用于根据输入的音频频谱图输出音频识别结果。

其中，训练样本集合中每个样本音频对应的音频类别置信度包括异常音频对应的异常置信度和正常音频对应的正常置信度，且异常置信度与正常置信度之和等于1。因此，在进行模型训练时，通过将训练样本集合中包括的每个样本音频对应的样本音频频谱图输入初始卷积循环神经网络模型，可得到初始卷积循环神经网络模型输出的每个样本音频为异常音频的输出异常置信度，以及每个样本音频为正常音频的输出正常置信度，其中每个样本音频的输出异常置信度和输出正常置信度之和等于1。进一步地，可基于每个样本音频的异常置信度、正常置信度、输出异常置信度和输出正常置信度调整初始卷积循环神经网络模型的模型参数，直到调整后的初始卷积循环神经网络模型满足目标收敛条件时，即可将调整后的初始卷积循环神经网络模型确定为音频识别模型。

不难理解的是，可基于测试样本对调整后的初始卷积循环神经网络模型进行测试，以判断调整后的初始卷积循环神经网络是否满足目标收敛条件。具体地，通过获取测试样本集合，可得到测试样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度。其中，通过将测试样本集合中包括每个样本音频对应的每张样本音频频谱图输入调整后的初始卷积循环神经网络模型，可获取调整后的初始卷积循环神经网络模型输出的每个样本音频对应的音频识别结果。其中，当根据调整后的初始卷积循环神经网络模型输出的各音频识别结果所确定出的识别准确率不小于预设准确率时，则可确定调整后的初始卷积循环神经网络模型满足目标收敛条件。或者，当对初始卷积循环神经网络模型的训练次数达到预先设定的迭代次数阈值时，可确定调整后的初始卷积循环神经网络模型满足目标收敛条件。或者当调整后的初始卷积循环神经网络模型的损失函数的值小于预设阈值时，可确定调整后的初始卷积循环神经网络模型满足目标收敛条件。其中，上述损失函数可以是交叉熵损失函数、或均方差损失函数等，在此不做限制。

S202、接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图。

S203、将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中，以获取卷积神经网络输出的每张音频频谱图对应的第一特征向量。

S204、将各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中，以获取递归神经网络输出的每张音频频谱图对应的第二特征向量。

S205、将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。

S206、根据多个音频片段对应的多个音频识别结果确定待识别音频的最终识别结果。

其中，所述步骤S202至步骤S206的具体实现方式可以参见图1对应的实施例中对步骤S101至步骤S105的描述，这里不再进行赘述。

S207、若待识别音频的最终识别结果为异常音频，则向待识别音频的上传账号发送警告信息或对待识别音频的上传账号进行封号处理。

在一些可行的实施方式中，若待识别音频的最终识别结果为异常音频，则向待识别音频的上传账号发送警告信息或对待识别音频的上传账号进行封号处理。具体地，可根据其恶意情况分级处理，如删除音视频内容并警告、禁止发布相似内容、封号处理等。

举例来说，可通过获取预设置信度等级范围来确定其恶意情况。假设预设置信度等级范围包括第一等级范围0.5＜x≤0.7，第二等级范围0.7＜x≤0.9，第三等级范围0.9＜x≤1.0。其中，异常平均置信度落在第一等级范围的音频，其恶意情况属于轻度范围，异常平均置信度落在第二等级范围的音频，其恶意情况属于中度范围，异常平均置信度落在第三等级范围的音频，其恶意情况属于重度范围。因此，对于恶意情况为轻度范围的音频，可删除该音频内容并对该音频的上传者发出警告，对于恶意情况为中度范围的音频，可删除该音频内容并永久禁止该音频的上传者发布相似内容或者永久关闭该上传者的音频发布功能，对于恶意情况为重度范围的音频，可对该音频的上传者永久封号处理。

可选的，在一些可行的实施方式中，当确定出待识别音频对应的最终识别结果后，还可以将上述待识别音频及其对应的最终识别结果添加至训练样本集合中，以不断丰富训练样本集合，实现数据的有效利用和算法模型的数据闭环，模型得以优化。

在本申请实施例中，通过获取初始卷积循环神经网络模型，可根据训练样本集合中包括的每个样本音频对应的样本音频频谱图以及每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数。当调整后的初始卷积循环神经网络模型满足目标收敛条件时，将调整后的初始卷积循环神经网络模型确定为音频识别模型。通过接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，可将各音频片段对应的各张音频频谱图分别输入音频识别模型包括的卷积神经网络和音频识别模型包括的递归神经网络中，并获取卷积神经网络输出的每张音频频谱图对应的第一特征向量，以及递归神经网络输出的每张音频频谱图对应的第二特征向量。将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。根据多个音频片段对应的多个音频识别结果可确定出待识别音频的最终识别结果。进一步地，若待识别音频的最终识别结果为异常音频，则可向待识别音频的上传账号发送警告信息或对待识别音频的上传账号进行封号处理。采用本申请实施例，可提高音频识别的准确性和效率。

请参见图3，图3是本申请实施例提供的音频识别装置的一结构示意图。本申请实施例提供的音频识别装置包括：

音频获取模块31，用于接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，其中一个音频片段对应一张音频频谱图；

特征提取模块32，用于将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中，以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量；

特征提取模块32，还用于将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中，以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量；

音频识别模块33，用于将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量，并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果，其中，所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到；

识别结果确定模块34，用于根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。

请一并参见图4，图4是本申请实施例提供的音频识别装置的另一结构示意图。其中：

在一些可行的实施方式中，所述音频识别模型还包括池化层，所述特征提取模块32包括第一提取单元321和第二提取单元322，其中所述第二提取单元322用于：

在一些可行的实施方式中，所述输出层包括全连接层和softmax层，所述音频识别模块具体用于：

在一些可行的实施方式中，所述每个音频片段对应的音频识别结果包括目标音频类别和所述目标音频类别对应的音频类别置信度，其中，所述目标音频类别为正常音频或异常音频；

所述识别结果确定模块34包括：

第一处理单元341，用于确定所述多个音频片段对应的多个音频识别结果中包括的异常音频对应的第一数量，以及属于异常音频的音频片段对应的异常置信度的异常平均置信度；

第二处理单元342，用于获取预设异常音频数量阈值和预设异常置信度阈值，当所述第一数量不小于所述预设异常音频数量阈值且所述异常平均置信度不小于所述预设异常置信度阈值时，确定所述待识别音频的最终识别结果为异常音频。

在一些可行的实施方式中，所述装置还包括异常处理模块35，所述异常处理模型35用于：

若所述待识别音频的最终识别结果为异常音频，则向所述待识别音频的上传账号发送警告信息或对所述待识别音频的上传账号封号处理。

在一些可行的实施方式中，所述装置还包括：

训练样本集合获取模块36，用于获取训练样本集合，所述训练样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度；

模型参数调整模块37，用于获取初始卷积循环神经网络模型，根据所述训练样本集合中包括的每个样本音频对应的样本音频频谱图以及所述每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数；

音频识别模型确定模块38，用于当调整后的所述初始卷积循环神经网络模型满足目标收敛条件时，将调整后的初始卷积循环神经网络模型确定为音频识别模型，所述音频识别模型用于根据输入的音频频谱图输出音频识别结果。

在一些可行的实施方式中，所述音频类别置信度包括异常音频对应的异常置信度和正常音频对应的正常置信度，所述异常置信度与所述正常置信度之和等于1，所述模型参数调整模块37具体用于：

在一些可行的实施方式中，所述装置还包括模型测试模块39，所述模型测试模块39具体用于：

具体实现中，上述音频识别装置可通过其内置的各个功能模块执行如上述图1至图2中各个步骤所提供的实现方式。例如，上述音频获取模块31可用于执行上述各个步骤中接收待识别音频，以及获取待识别音频包括的多个音频片段对应的多张音频频谱图等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述特征提取模块32可用于执行上述各个步骤中获取第一特征向量和第二特征向量等相关步骤所描述的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述音频识别模块33可用于执行上述各个步骤中获取每个音频片段对应的音频识别结果等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述识别结果确定模块34可用于执行上述各个步骤中根据多个音频片段对应的多个音频识别结果确定待识别音频的最终识别结果等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，音频识别装置通过获取初始卷积循环神经网络模型，可根据训练样本集合中包括的每个样本音频对应的样本音频频谱图以及每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数。当调整后的初始卷积循环神经网络模型满足目标收敛条件时，将调整后的初始卷积循环神经网络模型确定为音频识别模型。通过接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，可将各音频片段对应的各张音频频谱图分别输入音频识别模型包括的卷积神经网络和音频识别模型包括的递归神经网络中，并获取卷积神经网络输出的每张音频频谱图对应的第一特征向量，以及递归神经网络输出的每张音频频谱图对应的第二特征向量。将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。根据多个音频片段对应的多个音频识别结果可确定出待识别音频的最终识别结果。进一步地，若待识别音频的最终识别结果为异常音频，则可向待识别音频的上传账号发送警告信息或对待识别音频的上传账号进行封号处理。采用本申请实施例，可提高音频识别的准确性和效率。参见图4，图4是本申请实施例提供的终端设备的结构示意图。如图4所示，本实施例中的终端设备可以包括：一个或多个处理器401、存储器402和收发器403。上述处理器401、存储器402和收发器403通过总线404连接。存储器402用于存储计算机程序，该计算机程序包括程序指令，处理器401用于执行存储器402存储的程序指令，执行如下操作：

所述收发器403，用于接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，其中一个音频片段对应一张音频频谱图；

所述处理器401，用于将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中，以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量；

所述处理器401，用于将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中，以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量；

所述处理器401，用于将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量，并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果，其中，所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到；

所述处理器401，用于根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。

在一些可行的实施方式中，所述音频识别模型还包括池化层，上述处理器401用于：

在一些可行的实施方式中，所述输出层包括全连接层和softmax层，上述处理器401用于：

上述处理器401用于：

在一些可行的实施方式中，上述处理器401用于：

在一些可行的实施方式中，所述音频类别置信度包括异常音频对应的异常置信度和正常音频对应的正常置信度，所述异常置信度与所述正常置信度之和等于1，上述处理器401用于：

在一些可行的实施方式中，上述处理器401用于：

应当理解，在一些可行的实施方式中，上述处理器401可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如，存储器402还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1至图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，终端设备通过获取初始卷积循环神经网络模型，可根据训练样本集合中包括的每个样本音频对应的样本音频频谱图以及每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数。当调整后的初始卷积循环神经网络模型满足目标收敛条件时，将调整后的初始卷积循环神经网络模型确定为音频识别模型。通过接收待识别音频，获取待识别音频包括的多个音频片段对应的多张音频频谱图，可将各音频片段对应的各张音频频谱图分别输入音频识别模型包括的卷积神经网络和音频识别模型包括的递归神经网络中，并获取卷积神经网络输出的每张音频频谱图对应的第一特征向量，以及递归神经网络输出的每张音频频谱图对应的第二特征向量。将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量，并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。根据多个音频片段对应的多个音频识别结果可确定出待识别音频的最终识别结果。进一步地，若待识别音频的最终识别结果为异常音频，则可向待识别音频的上传账号发送警告信息或对待识别音频的上传账号进行封号处理。采用本申请实施例，可提高音频识别的准确性和效率。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1至图2中各个步骤所提供的音频识别方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的音频识别装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述音频识别模型还包括池化层，所述将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络包括：

3.根据权利要求1所述的方法，其特征在于，所述输出层包括全连接层和softmax层，所述将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量，并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述每个音频片段对应的音频识别结果包括目标音频类别和所述目标音频类别对应的音频类别置信度，其中，所述目标音频类别为正常音频或异常音频；

5.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果之后，所述方法还包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述音频类别置信度包括异常音频对应的异常置信度和正常音频对应的正常置信度，所述异常置信度与所述正常置信度之和等于1，所述根据所述训练样本集合中包括的每个样本音频对应的样本音频频谱图以及所述每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数包括：

8.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

9.一种音频识别装置，其特征在于，所述装置包括：

10.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。