CN111816170B

CN111816170B - 一种音频分类模型的训练和垃圾音频识别方法和装置

Info

Publication number: CN111816170B
Application number: CN202010746077.9A
Authority: CN
Inventors: 周立峰; 姚泽平; 李雨珂; 杨卫强; 朱浩齐
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2024-01-19
Anticipated expiration: 2040-07-29
Also published as: CN111816170A

Abstract

本申请公开了一种音频分类模型的训练和垃圾音频识别方法和装置，属于人工智能技术领域，该方法包括，获取多个音频样本片段和相应的音频类别标签，以及基于卷积神经网络，门控递归单元和注意力机制构建的音频分类模型；分别提取每一音频样本片段的音频特征向量；基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型。接收针对待识别音频的识别请求；根据识别请求，将待识别音频进行切分，获得多个音频片段；采用音频分类模型，分别识别出每一音频片段的第一音频类别；基于各音频片段的第一音频类别，获得待识别音频的识别结果。这样，降低了人力成本和时间成本，提高了音频审核效率。

Description

一种音频分类模型的训练和垃圾音频识别方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种音频分类模型的训练和垃圾音频识别方法和装置。

背景技术

随着多媒体技术的发展，音频的数量和时长呈指数型增长。音频在被上传至网络中时，通常需要对音频进行审核，以避免色情以及自发性知觉经络反应(AutonomousSensory Meridian Response，ASMR)等垃圾音频在网络中传播。

传统技术中，通常采用人工审核的方式，将整个音频听完，才能判断音频是否为垃圾音频，音频审核效率较低，这会耗费大量的人力成本和时间成本，难以对海量的音频进行审核。

由此，需要一个可以降低耗费的人力成本和时间成本，提高音频审核效率的垃圾音频识别的技术方案。

发明内容

本申请实施例提供一种音频分类模型的训练和垃圾音频识别方法和装置，用以在对音频进行垃圾音频识别时，降低耗费的人力成本和时间成本，提高音频审核效率。

一方面，提供一种音频分类模型的训练方法，包括：

获取多个音频样本片段和相应的音频类别标签，以及基于卷积神经网络，门控递归单元和注意力机制构建的音频分类模型；

分别提取每一音频样本片段的音频特征向量；

基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型；

其中，各音频样本片段是按照指定音频时长对音频样本划分后获得的，音频类别标签至少包括：垃圾语音和正常语音。

较佳的，基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型，包括：

分别针对每一音频样本片段，执行以下操作：基于卷积神经网络，对音频样本片段的音频特征向量进行卷积运算处理，输出第一向量；基于门控递归单元，对第一向量进行收敛处理，输出门控递归向量；基于卷积神经网络，对门控递归向量进行卷积运算处理，输出第二向量；基于注意力机制，对第二向量进行聚焦处理，输出音频卷积特征向量；通过全连接层对音频卷积特征向量进行处理，输出音频分类向量，音频分类向量表示各音频类别对应的置信度；根据音频分类向量，将各置信度中的最大置信度对应的音频类别，作为音频样本片段的第一音频类别；

基于各音频样本片段对应的第一音频类别和音频类别标签，确定损失；

根据损失，对音频分类模型的参数进行调整，获得调整后的音频分类模型。

较佳的，在基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练之前，进一步包括：

根据各音频样本片段对应的音频特征向量，对各音频样本片段进行静音检测；

筛选出检测结果表示非静音的音频样本片段和相应的音频特征向量。

较佳的，根据各音频样本片段对应的音频特征向量，对各音频样本片段进行静音检测之前，进一步包括：

对各音频特征向量进行数据增强处理，获得数据增强处理后的音频特征向量；

对数据增强处理后的音频特征向量，进行随机采样；

将随机采样后的音频特征向量，作为各音频样本片段对应的音频特征向量。

较佳的，对各音频特征向量进行数据增强处理，获得数据增强处理后的音频特征向量，包括：

将各音频特征向量，作为各第一音频特征向量；

对各第一音频特征向量进行频域增强处理，获得各第二音频特征向量；

对各音频样本片段进行时域增强处理，得到各时域增强音频；

对各时域增强音频进行特征提取，获得各第三音频特征向量；

对各第三音频特征向量进行频域增强处理，获得各第四音频特征向量；

将各第一音频特征向量、各第二音频特征向量、各第三音频特征向量以及各第四音频特征向量，作为数据增强处理后的音频特征向量。

一方面，提供一种垃圾音频识别方法，采用上述任一种音频分类模型的训练的方法获得的音频分类模型，包括：

接收针对待识别音频的识别请求；

根据识别请求，将待识别音频进行切分，获得多个音频片段；

采用音频分类模型，分别识别出每一音频片段的第一音频类别；

基于各音频片段的第一音频类别，获得待识别音频的识别结果。

较佳的，在基于各音频片段的第一音频类别，获得待识别音频的识别结果之前，进一步包括：

通过音频分类模型，分别提取每一音频片段的音频卷积特征向量；

获取包含指定类型的多个音频样本片段对应的音频卷积特征向量和音频类别标签的音频库，其中每一音频片段对应一音频类别标签；

分别针对每一音频片段，根据音频片段的音频卷积特征向量与音频库中包含的各音频样本片段的音频卷积特征向量之间的相似度，确定音频片段匹配的音频样本片段，并将匹配的音频样本片段对应的音频类别标签，确定为音频片段的第二音频类别；

基于各音频片段的第一音频类别，获得待识别音频的识别结果，包括：

根据各音频片段对应的第一音频类别和第二音频类别，确定待识别音频的识别结果。

较佳的，音频库包括多个音频样本集合，以及每一音频样本集合对应的标识信息和音频中心向量；

音频样本集合是将音频库中的各音频样本片段对应的音频卷积特征向量聚类划分后获得的；

一个音频样本集合对应的音频中心向量是根据一个音频样本集合中包含的各音频样本片段的音频卷积特征向量确定的；

各音频中心向量和标识信息存储于内存中。

较佳的，根据音频片段的音频卷积特征向量与音频库中包含的各音频样本片段的音频卷积特征向量之间的相似度，确定音频片段匹配的音频样本片段，包括：

根据音频片段的音频卷积特征向量与各音频中心向量之间的相似度，确定音频片段的音频卷积特征向量匹配的音频中心向量；

确定匹配的音频中心向量对应设置的标识信息；

将确定出的标识信息对应设置的音频样本集合，确定为音频片段匹配的音频样本集合；

根据音频片段的音频卷积特征向量，与匹配的音频样本集合中包含的各音频样本片段的音频卷积特征向量之间的相似度，确定音频片段匹配的音频样本片段。

较佳的，音频库是按照以下步骤构建的：

获取指定类别的各音频样本片段的音频特征向量，以及对应设置的音频类别标签；

采用音频分类模型，分别对每一音频样本片段的音频特征向量进行卷积运算处理，获得相应的音频卷积特征向量；

对各音频样本片段的音频卷积特征向量进行量化处理，获得量化处理后的音频卷积特征向量；

分别确定每两个音频样本片段对应的音频卷积特征向量之间的相似度；

根据各相似度，将各音频样本片段对应的音频卷积特征向量进行聚类划分，获得各包含多个音频卷积特征向量和相应音频类别标签的音频样本集合；

分别对每一音频样本集合中的各音频卷积特征向量进行均值处理，获得相应的音频中心向量；

分别针对每一音频样本集合，设置相应的标识信息；

建立包含各音频样本集合、各音频中心向量以及各标识信息的音频库。

较佳的，进一步包括：

获取待识别音频的实际音频类别；

根据待识别音频的实际音频类别和识别结果，确定待识别音频符合预设入库条件时，对待识别音频进行切分，获得多个音频片段，将实际音频类别，作为待识别音频的各音频片段的音频类别标签；

分别针对每一音频片段，执行以下步骤：将音频片段的音频卷积特征向量和音频类别标签，添加到匹配的音频样本集合中，并根据更新后的音频样本集合中的各音频卷积特征向量，更新相应的音频中心向量。

较佳的，采用音频分类模型，分别识别出每一音频片段的第一音频类别，包括：

分别提取每一音频片段的音频特征向量；

根据各音频片段对应的音频特征向量，对各音频片段进行静音检测；

筛选出检测结果表示非静音的音频特征向量；

分别将筛选出的每一音频特征向量，输入至音频分类模型，获得各音频片段的音频卷积特征向量和音频分类向量；

分别将每一音频分类向量中的最大置信度对应的音频类别，作为相应音频片段的第一音频类别。

较佳的，在根据音频片段的音频卷积特征向量与各音频中心向量之间的相似度，确定音频片段的音频卷积特征向量匹配的音频中心向量之前，包括：

对各音频片段的音频卷积特征向量进行量化处理，获得量化处理后的音频卷积特征向量。

较佳的，根据各音频片段对应的第一音频类别和第二音频类别，确定待识别音频的识别结果，包括：

按照预设的加权系数，分别对每一音频片段对应的第一音频类别和第二音频类别进行加权平均处理，获得相应的目标音频类别；

根据各音频片段对应的目标音频类别，分别确定每一种音频类别对应的音频片段的数量；

分别根据每一种音频类别对应的音频片段的数量以及各音频片段的总数量，确定相应音频类别的占比；

确定各音频类别的占比中的最大占比；

将最大占比对应的音频类别，确定为待识别音频的识别结果。

一方面，提供一种音频分类模型的训练装置，包括：

获取单元，用于获取多个音频样本片段和相应的音频类别标签，以及基于卷积神经网络，门控递归单元和注意力机制构建的音频分类模型；

提取单元，用于分别提取每一音频样本片段的音频特征向量；

训练单元，用于基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型；

较佳的，训练单元用于：

较佳的，训练单元还用于：

对数据增强处理后的音频特征向量，进行随机采样；

较佳的，训练单元还用于：

将各音频特征向量，作为各第一音频特征向量；

一方面，提供一种垃圾音频识别装置，采用上述任一种音频分类模型的训练方法获得的音频分类模型，包括：

接收单元，用于接收针对待识别音频的识别请求；

切分单元，用于根据识别请求，将待识别音频进行切分，获得多个音频片段；

识别单元，用于采用音频分类模型，分别识别出每一音频片段的第一音频类别；

获得单元，用于基于各音频片段的第一音频类别，获得待识别音频的识别结果。

较佳的，获得单元还用于：

各音频中心向量和标识信息存储于内存中。

较佳的，获得单元还用于：

确定匹配的音频中心向量对应设置的标识信息；

较佳的，音频库是按照以下步骤构建的：

分别针对每一音频样本集合，设置相应的标识信息；

较佳的，获得单元还用于：获取待识别音频的实际音频类别；

较佳的，识别单元用于：

分别提取每一音频片段的音频特征向量；

筛选出检测结果表示非静音的音频特征向量；

较佳的，获得单元还用于：

确定各音频类别的占比中的最大占比；

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述任一种音频分类模型的训练或垃圾音频识别方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种音频分类模型的训练或垃圾音频识别方法的步骤。

本申请实施例提供的一种音频分类模型的训练和垃圾音频识别方法和装置中，获取多个音频样本片段和相应的音频类别标签，以及基于卷积神经网络，门控递归单元和注意力机制构建的音频分类模型；分别提取每一音频样本片段的音频特征向量；基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型。接收针对待识别音频的识别请求；根据识别请求，将待识别音频进行切分，获得多个音频片段；采用音频分类模型，分别识别出每一音频片段的第一音频类别；基于各音频片段的第一音频类别，获得待识别音频的识别结果。这样，基于卷积神经网络，门控递归单元和注意力机制获得训练好的音频分类模型，并采用训练好的音频分类模型识别音频是否为垃圾音频，不需要人工审核，降低了人力成本和时间成本，提高了音频审核效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例方式中一种音频分类模型的训练方法的实施流程图；

图2为本申请实施例方式中一种第一音频类别确定的方法的实施流程图；

图3为本申请实施例方式中一种音频库创建方法的实施流程图；

图4为本申请实施例方式中一种音频库构建流程的示例图；

图5为本申请实施例方式中一种垃圾音频识别方法的实施流程图；

图6a为本申请实施例方式中一种匹配向量检索流程的示意图；

图6b为本申请实施例方式中一种音频片段匹配的方法的实施流程图；

图7a为本申请实施例方式中一种音频分类模型的训练装置的结构示意图；

图7b为本申请实施例方式中一种垃圾音频识别装置的结构示意图；

图8为本申请实施例方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了在对音频进行审核时，降低耗费的人力成本和时间成本，提高音频审核效率，本申请实施例提供了一种音频分类模型的训练和垃圾音频识别方法和装置。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

ASMR音频：自发性知觉经络反应，是指人体通过视、听、触、嗅等感知上的刺激，在颅内、头皮、背部或身体其他部位产生的令人愉悦的独特刺激感，又名耳音、颅内高潮等，在音调和音色等声音特征上和正常的语音区别加大。

卷积神经网络(Convolutional Neural Network，CNN)：在机器学习中，是一种前馈神经网络，人工神经元可以响应周围单元。卷积神经网络包括卷积层和池化层。

重置门：决定了到底有多少过去的信息需要遗忘，如何将新的输入信息与前面的记忆相结合。

更新门：定义了前面记忆保存到当前时间步的量。

门控递归单元：包括重置门和更新门，用于通过门控机制控制输入、记忆等信息在当前时间步做出预测，不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。其中，重置门和更新门决定了哪些信息最终能作为门控循环单元的输出。这两个门控机制的特殊之处在于，它们能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除。

注意力机制：通常指模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对其从而增加部分区域的观察精细度的机制。

置信度：也称为可靠度，或置信水平、置信系数，即在抽样对总体参数作出估计时，由于样本的随机性，其结论总是不确定的。因此，采用数理统计中的区间估计法，即估计值与总体参数在一定允许的误差范围以内，其相应的概率有多大，这个相应的概率称作置信度。

聚类：指根据一定的准则，把一份事物按照这个准则归纳成互不重合的几份。机器学习中，聚类指按照一个标准，这个标准通常是相似性，把样本分成几份，使得相似程度高的聚在一起，相似程度低的互相分开。

本申请实施例中，执行主体可以为控制设备，主要应用于训练音频分类模型以及垃圾音频识别。可选的，控制设备可以为终端设备，也可以为服务器。待识别音频可以为单独的音频，也可以为视频中包含的音频，在此不作限制。

本申请实施例中，在对音频进行识别之前，控制设备预先对用于识别音频的音频分类模型进行训练。参阅图1所示，为本申请提供的一种音频分类模型的训练方法的实施流程图。该方法的具体实施流程如下：

步骤100：控制设备获取多个音频样本片段和相应的音频类别标签。

具体的，控制设备将不同的音频作为音频样本，并从音频样本中划分出指定音频时长的音频样本片段，以及分别按照每一音频样本片段的音频类别，设置相应的音频类别标签。

需要说明的是，一段音频中可能同时包含不同音频类别的音频内容，因此，在对音频样本进行划分时，可以按照音频样本中各时间段的音频内容的音频类别，确定划分的音频时间点，或者也可以按指定音频时长对音频进行固定时长切分。

例如，假设音频A的总时长为15分钟，预先设置指定音频时长为5分钟，其0-3分钟内的音频内容为正常内容，而3-9分钟内的音频内容为垃圾内容，9-15分钟内的音频内容为正常内容，则控制设备将音频A中3-8分钟内的音频内容划分为一个音频样本片段，并将音频样本中9-14分钟内的音频内容划分为一个音频样本片段。

由于在对音频分类模型进行训练时，需要输入指定音频时长的音频数据，因此，本申请实施例中，各音频样本片段是按照指定音频时长对音频样本划分后获得的，实际应用中，指定音频时长可以根据实际应用场景进行设置，在此不作限制。

其中，音频类别和音频类别标签均至少包括：垃圾语音和正常语音。其中，垃圾语音为会引起听者的不良反应的语音，还可以划分为色情音频和ASMR音频。可选的，音频类别和音频类别标签还可以包含其他音频类别的语音，如，游戏语音，在此不作限制。

这样，就可以获取模型训练的样本数据。

步骤101：控制设备分别提取每一音频样本片段的音频特征向量。

具体的，控制设备分别提取每一音频样本片段的特征，获得相应的音频特征向量。

一种实施方式中，音频特征向量为音频样本片段的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征。

其中，MFCC特征是指将音频样本片段进行编码运算得到的一组特征向量。MFCC提取包含两个关键步骤：转化到梅尔频率，以及倒谱分析。

这样，就可以提取音频样本片段的音频特征向量，每一音频样本片段通过一个音频特征向量表示。

步骤102：控制设备对各音频特征向量进行数据增强处理，获得数据增强处理后的音频特征向量。

具体的，控制设备可以对音频特征向量进行频域增强处理，获得数据增强处理后的音频特征向量。控制设备还可以先对音频样本片段进行时域增强处理，获得时域增强音频，并提取时域增强音频的音频特征向量，以及对上述音频特征向量进行频域增强处理，获得数据增强处理后的音频特征向量。

一种实施方式中，执行步骤102时，可以采用以下步骤：

S1021：控制设备将各音频特征向量，作为各第一音频特征向量。

本申请实施例中，为便于区分数据增强处理前的音频特征向量和数据增强处理后的音频特征向量，则将提取的各音频特征向量，称为第一音频特征向量。

S1022：控制设备对各第一音频特征向量进行频域增强处理，获得各第二音频特征向量。

其中，频域就是频率域，是描述信号对频率的关系。频域增强可以通过频域滤波实现，频域低通滤波器滤除高频噪声，频域高通滤波器滤除低频噪声，相同类型的滤波器的截止频率不同，滤除效果也会不同。

实际应用中，也可以采用其它方式进行频域增强处理，在此不作限制。

S1023：控制设备对各音频样本片段进行时域增强处理，获得各时域增强音频。

其中，时域是描述数学函数或物理信号对时间的关系。例如，一个信号的时域波形可以表达信号随着时间的变化。又如，时域增强可以采用增加随机噪声的方式实现。

S1024：控制设备各时域增强音频进行特征提取，获得各第三音频特征向量。

S1025：控制设备对各第三音频特征向量进行频域增强处理，获得各第四音频特征向量。

S1026：控制设备将各第一音频特征向量、各第二音频特征向量、各第三音频特征向量以及各第四音频特征向量，作为数据增强处理后的音频特征向量。

这是由于在进行模型训练时，通常需要大量的样本数据，但是，实际情况中获取的样本数据通常是不够的，因此，采用时域增强和/或频域增强的方式，增加训练的数据量，进而可以提高后续训练的模型的泛化能力。再者，传统方式中，数据增强时，通常是对原始音频进行数据增强，而本申请实施例中，分别在音频的时间维度以及音频特征向量的频率维度上做随机增强，通过增加噪声数据，提升了后续训练的模型的稳定性和鲁棒性。

需要说明的是，若样本数据足够，步骤102也可以不执行。

步骤103：控制设备筛选出符合预设静音筛选条件的音频特征向量。

具体的，控制设备根据各音频样本片段对应的音频特征向量，对各音频样本片段进行静音检测，并筛选出检测结果表示非静音的音频样本片段以及相应的音频特征向量。

一种实施方式中，分别针对每一音频样本片段，当音频样本片段中最高音量低于第一预设音量阈值时，控制设备判定该音频样本片段为静音的音频样本片段。

一种实施方式中，分别针对每一音频样本片段，控制设备确定音频样本片段中的各时间点的音量的平均值，若该平均值低于第二预设音量阈值时，控制设备判定该音频样本片段为静音的音频样本片段。

一种实施方式中，分别针对每一音频样本片段，控制设备确定音频样本片段中存在指定非静音类型的片段，则判定该音频样本片段为非静音的音频样本片段。

其中，指定非静音类型的片段的长度为预设时长，且其各时间点的音量均高于第三预设音量阈值，或者，该指定非静音类型的片段中的各时间点的音量的平均值高于第四预设音量阈值。

第一预设音量阈值、第二预设音量阈值、第三预设音量阈值、第四预设音量阈值以及预设时长均可以根据实际应用场景进行设置，如，第一预设音量阈值、第二预设音量阈值、第三预设音量阈值和第四预设音量阈值均可以为10分贝，预设时长可以为10s，在此不作限制。

实际应用中，也可以通过其它方式，判断音频样本片段是否为静音的片段，在此不作限制。

若音频样本片段是静音的片段，则就不需要识别其类别，因此，将静音的音频样本片段进行删除，以提高后续模型训练的效率，降低耗费的计算资源和时间成本。

需要说明的是，本申请实施例中，步骤102和步骤103之间的执行顺序，不做限制，也可以先执行步骤103，后执行步骤102。

步骤104：控制设备对音频特征向量进行随机采样，获得随机采样后的音频特征向量。

具体的，控制设备对数据增强处理后的音频特征向量，进行随机采样，获得随机采样后的音频特征向量。

需要说明的是，同一音频特征向量可以被重复采样。

例如，各音频特征向量为：T1，T2，T3，T4和T5。控制设备对各音频特征向量进行多次随机采样，随机采样后的音频特征向量依次为：T5，T2，T3和T2。

这是由于在通过各音频特征向量进行模型训练时，相邻的多个音频特征向量可能是相似向量，而大量相似向量集中对音频分类模型进行训练，会导致训练后的模型存在分类效果较差的问题，因此，本申请实施例中，采用随机采样的方式，选取用于训练的音频特征向量，以提高模型识别的准确度。

需要说明的是，本申请实施例中，仅以步骤102、步骤103和步骤104的顺执行为例进行说明，实际应用中，步骤102、步骤103和步骤104三者之间可以采用任意顺序执行，在此不作限制。

步骤105：控制设备基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型。

具体的，控制设备将各音频特征向量输入至音频分类模型，获得每一音频特征向量的第一音频类别，并基于各音频样本片段对应的第一音频类别和音频类别标签，确定损失，以及根据该损失，对音频分类模型的参数进行调整，获得调整后的音频分类模型。

其中，音频分类模型是基于卷积神经网络、门控递归单元和注意力机制搭建的。

参阅图2所示，为一种第一音频类别确定的方法的实施流程图，确定一个音频样本片段的音频特征向量对应的第一音频类别时，控制设备可以采用以下步骤：该方法的具体流程如下：

步骤201：控制设备基于卷积神经网络，对音频样本片段的音频特征向量进行卷积运算处理，输出第一向量。

具体的，控制设备采用卷积神经网络，通过卷积核对音频特征向量进行卷积运算处理，获得CNN向量，并将获得的CNN向量，作为第一向量。

步骤202：控制设备基于门控递归单元，对第一向量进行收敛处理，输出门控递归向量。

其中，门控递归单元可以有效避免梯度爆炸和梯度消失的问题，从而提高模型训练的效率，加速模型的收敛。

步骤203：控制设备基于卷积神经网络，对门控递归向量进行卷积运算处理，输出第二向量。

步骤204：控制设备基于注意力机制，对第二向量进行聚焦处理，输出音频卷积特征向量。

其中，注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力。在计算能力有限情况下，注意力机制是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务，从而可以让模型更好的捕获上下文信息。

步骤205：控制设备通过全连接层，对音频卷积特征向量进行处理，输出音频分类向量。

其中，音频分类向量表示各音频类别对应的置信度。

步骤206：控制设备根据音频分类向量，将各置信度中的最大置信度对应的音频类别，作为音频样本片段的第一音频类别。

例如，假设音频类别包括：色情音频，ASMR音频以及正常语音。控制设备确定音频样本片段的音频分类向量为{0.1，0.2，0.7}，即其色情音频，ASMR音频以及正常语音对应的置信度依次为：0.1，0.2，0.7。则将正常语音作为识别出的第一音频类别。

本申请实施例中，仅以确定一个音频样本片段的第一音频类别为例进行说明，同理，也可以确定其它各音频样本片段的第一音频类别，在此不再赘述。

这样，就可以确定音频样本片段分别为每一音频类别的概率，并将可能性最大的音频类别，作为识别结果。

在获取多个音频样本片段对应的第一音频类别之后，就可以根据各音频样本片段对应的第一音频类别和音频类别标签，确定损失，进而循环根据确定出的损失对音频分类模型的参数进行调整，并基于调整后的音频分类模型，再次执行步骤201-步骤206，直至确定出的损失符合指定损失指标。

实际应用中，指定损失指标可以根据实际应用场景进行具体设置，不同的指定损失指标，可以训练获得不同准确度的音频分类模型。

这样，就可以获得训练好的音频分类模型，从而可以在后续的步骤中，通过训练好的音频分类模型，进行音频识别。

由于音频分类模型进行音频识别时，存在一定的漏判和误判，因此，本申请实施例中，还可以根据误判或漏判的音频片段，创建音频库，从而可以在后续的步骤中，采用基于音频库的音频匹配的方式，对音频分类模型的漏判或者误判的识别结果进行纠正，以提高垃圾音频识别的准确度。

参阅图3所示，为本申请提供的一种音频库创建方法的实施流程图。该方法的具体实施流程如下：

步骤300：控制设备获取指定类别的各音频样本片段的音频特征向量和对应设置的音频类别标签。

具体的，指定类别的音频样本片段可以为误判或漏判的音频中包含的各音频片段，也可以为音频分类模型误判或漏判的音频片段，也可以为误判或漏判的音频中包含的垃圾音频片段，也可以为音频分类模型误判或漏判的垃圾音频片段。

其中，垃圾音频片段包括：色情音频片段以及ASMR音频片段，还可以包括游戏音频片段、直播音频片段以及广告音频片段等。音频类别标签是根据音频特征向量的实际音频类别设置的。

进一步地，指定类别还可以根据垃圾音频片段的最大置信度确定，在此不作限制。例如，若置信度最大的值对应的类别与实际类别不同，则将该垃圾音频片段确定为指定类别的音频样本片段。

一种实施方式中，若垃圾音频片段对应的最大置信度低于预设置信度阈值，则将该垃圾音频片段确定为指定类别的音频样本片段。

例如，假设预设置信度阈值为0.7，音频片段的实际音频类别为色情音频。控制设备通过音频分类模型，对音频片段进行识别，获得音频分类向量中的最大置信度为0.6，对应的音频类别为色情音频，则确定音频分类模型的识别结果是正确的，但是，最大置信度0.6低于0.7，因此，也将该音频片段作为指定类别的音频样本片段。

这样，就可以获取难以通过音频分类模型进行准确识别的音频样本片段。

步骤301：控制设备采用音频分类模型，分别对每一音频样本片段的音频特征向量进行卷积运算处理，获得相应的音频卷积特征向量。

具体的，执行步骤301时，具体步骤，参见上述步骤201-步骤204。

这样，就可以获取各音频样本片段的CNN向量。

步骤302：控制设备对各音频样本片段的音频卷积特征向量进行量化处理，获得量化处理后的音频卷积特征向量。

其中，量化是指把经过抽样得到的瞬时值将其幅度离散，即用一组规定的电平，把瞬时抽样值用最接近的电平值来表示。

这样，就可以将各CNN向量进行量化处理，以便提高音频匹配效率。

步骤303：控制设备分别确定每两个音频样本片段对应的音频卷积特征向量之间的相似度。

具体的，控制设备采用预设的相似度算法，确定每两个音频卷积特征向量之间的相似度。

其中，CNN向量之间的相似度通常是根据向量距离或者余弦相似度确定的。

可选的，相似度算法可以为：皮尔逊相关系数，欧几里德距离，曼哈顿距离，马氏距离以及兰氏距离等。实际应用中，相似度算法还可以根据实际应用场景进行设置，在此不作限制。

这样，就可以确定CNN向量之间的相似度。CNN向量之间的相似度越高，对应的音频类别也会越相近。

步骤304：控制设备根据各相似度，将各音频样本片段对应的音频卷积特征向量进行聚类划分，获得各包含多个音频卷积特征向量和相应音频类别标签的音频样本集合。

具体的，控制设备按照相似度，将音频库中的各音频卷积特征向量划分为不同的音频样本集合，并将相应的音频类别标签添加到音频样本集合中。

其中，每一音频样本集合中包含的各音频卷积特征向量是聚类划分后获得的，同一个音频样本集合中的每两个音频卷积特征向量之间是相似的。

这样，就可以将音频库中的各音频卷积特征向量分为多份，使得相似程度高的聚在一起，相似程度低的互相分开。

进一步地，控制设备还可以将每一音频特征向量，音频类别标签以及相应的音频片段三者关联存储后，添加到相应的音频样本集合中。

步骤305：控制设备分别对每一音频样本集合中的各音频卷积特征向量进行均值处理，获得相应的音频中心向量。

具体的，均值处理可以采用平均值，均差或者方差等处理方式。也就是说，分别针对各向量中的每一元素位置，执行以下步骤：计算各向量中的同一元素位置的元素的平均值，均差或者方差。

这样，就可以根据每一元素位置对应的计算结果，组成音频中心向量。

例如，假设音频样本集合中包含向量1和向量2，向量1为{1，9，3}，向量2为{9，1，7}，则采用平均值的方式，获得音频中心向量为{5，5，5}。

步骤306：控制设备分别针对每一音频样本集合，设置相应的标识信息。

其中，标识信息表示音频样本集合的身份，可以采用编号或者文字等方式表示。

例如，各音频样本集合对应设置的标识信息依次为：集合001，集合002以及集合003。

这样，控制设备就可以通过标识信息快速查找到相应的音频样本集合。

步骤307：控制设备建立包含各音频样本集合、各音频中心向量以及各标识信息的音频库。

具体的，控制设备建立各音频样本集合、各音频中心向量以及各标识信息三者之间的关联关系，并将各音频样本集合、各音频中心向量以及各标识信息关联存储在音频库中。

一种实施方式中，控制设备将各音频中心向量以及各标识信息关联存储至内存，并将音频库存储控制设备中外存中，从而减少占用的内存空间，同时还可以提高后续的音频匹配效率。

传统方式中，通常基于整段音频的MFCC特征构建音频库，以便后续音频匹配，但是，这会耗费大量的存储资源，匹配效率较低，而本申请实施例中，基于音频样本片段量化后的CNN向量构建音频库，以便后续音频匹配，可以节省大量的存储资源，匹配速度更快，CNN向量具有更好的鲁棒性，匹配效果更好。

例如，参阅图4所示，为一种音频库构建流程的示例图。图4中，指定类别的音频片段包括：色情音频片段、ASMR音频片段和正常音频片段，控制设备分别对每一指定类别的音频片段进行CNN特征提取，获得的对应的CNN向量依次为：色情CNN向量、ASMR CNN向量以及正常CNN向量。控制设备将获得的CNN向量进行聚类划分，获得包含多个CNN向量的各音频库。

这样，就可以基于误判或者漏判的音频样本片段分组后存储至数据库中，使得后续音频匹配时，可以通过内存中的音频中心向量，迅速检索到相应的标识信息对应的音频样本集合，进而只需要在确定出的音频样本集合中检索匹配的音频样本片段，以提高音频匹配速度。

参阅图5所示，为本申请提供的一种垃圾音频识别方法的实施流程图。该方法的具体实施流程如下：

步骤500：控制设备接收针对待识别音频的识别请求。

具体的，待识别音频可以是控制设备本地生成或存储的音频，也可以为其设备发送的音频。待识别音频还可以是视频中包含的音频。

步骤501：控制设备根据识别请求，将待识别音频进行切分，获得多个音频片段。

具体的，控制设备按照指定音频时长，将待识别音频进行切分，获得多个音频片段。

例如，假设待识别音频为歌曲x，控制设备将歌曲x进行切分，获得各音频片段x1，x2，x3，x4，x5，x6……xn。n为音频片段的数量。

步骤502：控制设备采用音频分类模型，分别识别出每一音频片段的第一音频类别。

具体的，执行步骤502时，可以采用以下步骤：

S5021：控制设备分别提取每一音频片段的音频特征向量。

具体的，控制设备分别提取每一音频片段的特征，获得相应的音频特征向量。

一种实施方式中，控制设备分别提取每一音频片段的MFCC特征。

S5022：控制设备根据各音频片段对应的音频特征向量，对各音频片段进行静音检测，并筛选出检测结果表示非静音的音频特征向量。

具体的，执行S5022时，具体步骤，参见上述步骤103。

S5023：控制设备分别将筛选出的每一音频特征向量，输入至音频分类模型，获得各音频片段的音频卷积特征向量和音频分类向量。

具体的，控制设备确定每一音频片段的音频卷积特征向量时，具体步骤，参见上述步骤201-步骤204，控制设备确定每一音频片段的音频分类向量，具体步骤，参见上述步骤201-步骤205。

S5024：控制设备分别将每一音频分类向量中的最大置信度对应的音频类别，作为相应音频片段的第一音频类别。

具体的，控制设备分别确定每一音频片段的音频分类向量中包含的各置信度中的最大置信度，并将每一音频片段的最大置信度对应的音频类别，确定为相应的第一音频类别。

这样，就可以通过音频分类模型对音频片段进行识别，获得相应的第一音频类别。

步骤503：控制设备获取包含指定类型的多个音频样本片段对应的音频卷积特征向量和音频类别标签的音频库。

其中，每一音频片段对应一个音频类别标签。

步骤504：控制设备从音频库中，确定音频片段匹配的音频样本片段。

具体的，控制设备分别针对每一音频片段，根据音频片段的音频卷积特征向量与音频库中包含的各音频样本片段的音频卷积特征向量之间的相似度，确定音频片段匹配的音频样本片段。

参阅图6a所示，为一种匹配向量检索流程的示意图。内存中存储有各音频中心向量，即音频中心向量1、音频中心向量2……音频中心向量m，外存的音频库中存储有各音频中心向量对应设置的音频样本集合，即音频样本集合1……音频样本集合m，每一音频样本集合中包含多个音频卷积特征向量，即音频卷积特征向量1……音频卷积特征向量n。其中，m和n为正整数。控制设备先确定匹配的音频中心向量，然后，检索到音频库中相应的一个音频样本集合，以及从确定出的一个音频样本集合中，检索到匹配的音频卷积特征向量，进而确定匹配的音频样本片段。

参阅图6b所示，为一种音频片段匹配的方法的实施流程图，控制设备确定音频片段匹配的音频样本片段时，可以采用以下步骤：

S5040：控制设备获取音频片段的音频卷积向量。

S5041：控制设备根据音频片段的音频卷积特征向量与各音频中心向量之间的相似度，判断是否存在音频片段的音频卷积特征向量匹配的音频中心向量，若是，则执行S5042，否则，执行S5045。

具体的，控制设备确定音频片段的音频卷积特征向量，分别与每一音频中心向量之间的相似度，并确定各相似度中的最大相似度。若最大相似度高于预设中心阈值，则将最大相似度对应音频中心向量，确定为音频片段的音频卷积特征向量匹配的音频中心向量，否则，确定不存在匹配的音频中心向量。

其中，一个音频样本集合对应的音频中心向量是根据一个音频样本集合中包含的各音频样本片段的音频卷积特征向量确定的。

实际应用中，预设中心阈值可以根据实际应用场景进行设置，如，0.7，在此不作限制。

其中，确定相似度时，具体步骤参见上述步骤303。

S5042：控制设备获得确定出的音频向量中心向量对应的音频样本集合。

具体的，控制设备确定匹配的音频中心向量对应设置的标识信息，并将确定出的标识信息对应设置的音频样本集合，确定为音频片段匹配的音频样本集合。

由于各音频中心向量和标识信息存储于内存中，因此，控制设备可以快速的检索出音频卷积特征向量匹配的音频中心向量，以及获取相应的标识信息，并从数据库或存储器中获取确定出的标识信息对应设置的音频样本集合，以及将该音频样本集合，确定为音频片段匹配的音频样本集合。

其中，音频样本集合是将音频库中的各音频样本片段对应的音频卷积特征向量聚类划分后获得的。

这样，控制设备就可以预先将各音频样本集合存储于外存中，并根据标识信息，检索出相应的音频样本集合。

S5043：控制设备判断匹配的音频样本集合中是否存在匹配的音频卷积特征向量，若是，则执行S5044，否则，执行S5045。

具体的，控制设备根据音频片段的音频卷积特征向量，与匹配的音频样本集合中包含的各音频样本片段的音频卷积特征向量之间的相似度，判断是否存在匹配的音频卷积特征向量。

也就是说，控制设备确定音频片段的音频卷积特征向量，分别与匹配的音频样本集合中包含的每一音频样本片段的音频卷积特征向量之间的相似度，并确定各相似度中的最大相似度。若最大相似度高于预设集合阈值，则确定存在匹配的音频卷积特征向量，否则，确定不存在匹配的音频卷积特征向量。

实际应用中，预设集合阈值可以根据实际应用场景进行设置，如，0.7，在此不作限制。

其中，确定相似度时，具体步骤参见上述步骤303。

S5044：控制设备确定存在匹配的音频卷积特征向量，并将最大相似度对应的音频样本片段作为音频片段匹配的音频样本片段。

S5045：控制设备确定不存在匹配的音频卷积特征向量。

这样，就可以通过匹配的音频中心向量，检索，相比于直接从音频库中进行音频匹配，减少了匹配量，提高了匹配效率。

步骤505：控制设备将匹配的音频样本片段对应的音频类别标签，确定为音频片段的第二音频类别。

具体的，控制设备从音频样本集合中，获取匹配的音频样本片段对应的音频类别标签，并根据确定出的音频类别标签，确定音频片段的第二音频类别。

需要说明的是，本申请实施例中，仅以确定一个音频片段的第二音频类别为例进行说明，同理，可以确定其它各音频片段的第二音频类别，在此不做赘述。

这样，根据音频库中包含的各音频样本片段相应的音频类别标签，分别确定每一音频片段的第二音频类别。

需要说明的是，传统方式中，通常采用线性搜索的方式，确定音频片段匹配的音频样本片段，但是，由于音频样本片段是海量的，且线性搜索的算法的复杂度非常高，因此，匹配速率较低，还会耗费大量的系统处理资源，再者，为满足音频匹配的实时性，通常将音频库中的所有样本数据存储在内存中，这样，不能满足大规模检索系统的需求。而本申请实施例中，采用非线性检索的方式，进行音频匹配，通过内存中的匹配音频中心向量，确定相应的音频样本集合，进而从音频样本集合中检索到匹配的音频样本片段，这样，减少了音频匹配时间，内存中仅需要存储音频中心向量和标识信息即可，不需要存储音频库中的样本数据，减少了耗费的内存空间。

步骤506：控制设备基于各音频片段的第一音频类别和第二音频类别，获得待识别音频的识别结果。

具体的，执行步骤506时，可以采用以下步骤：

S5061：控制设备分别将每一音频片段对应的第一音频类别和第二音频类别输入至训练好的加权模型，输出相应的目标音频类别。

具体的，控制设备基于训练好的加权模型，按照预设的加权系数，分别对每一音频片段对应的第一音频类别和第二音频类别进行加权平均处理，获得相应的目标音频类别。

其中，加权系数为加权模型中的参数。加权系数包括第一加权系数和第二加权系数。

一种实施方式中，控制设备基于训练好的加权模型确定音频片段的目标音频类别时，分别针对每一音频片段，执行以下步骤：

控制设备获取第一音频类别对应设置的第一加权系数，以及第二音频类别对应设置的第二加权系数，并确定第一音频类别对应的置信度与第一加权系数之间的第一乘积，以及获取音频片段与匹配的音频样本片段之间的相似度，并确定该相似度与第二加权系数之间的第二乘积，若第一乘积大于第二乘积，则将第一音频类别确定为目标音频类别，否则将第二音频类别确定为目标音频类别。

其中，确定第一乘积时，可以采用以下公式：

Y1＝W1*P1；

其中，Y1表示第一乘积，W1表示第一加权系数，P1表示第一音频类别对应的置信度。

需要说明的是，第一音频类别对应的置信度为：根据音频分类模型输出的音频分类向量中包含的各置信度中的最大置信度。

其中，确定第二乘积时，可以采用以下公式：

Y2＝W2*P2；

其中，Y2表示第二乘积，W2表示第二加权系数，P2为音频片段与匹配的音频样本片段之间的相似度。

实际应用中，预设的加权系数可以根据实际应用场景进行设置，如，第一加权系数和第二加权系数均为0.5。

这样，就可以确定每一音频片段的目标音频类别。

进一步地，在执行S5061之前，控制设备基于公式Y1＝W1*P1和公式Y1＝W1*P1，创建加权模型，并对加权模型进行训练。其中，第一加权系数和第二加权系数的初始值可以是随机设置的。

其中，控制设备对加权模型进行训练时，采用以下步骤：

获得各音频样本片段对应的第一音频类别、第二音频类别以及实际音频类别，并将音频片段对应的第一音频类别和第二音频类别输入至加权模型，输出目标音频类别。控制设备根据各音频样本片段的实际音频类别和目标音频类别，确定相应的损失，并根据确定出的损失，对加权模型中的第一加权系数和第二加权系数进行调整，直至获得符合目标要求的加权模型。

同理，在基于加权模型确定音频片段的目标音频类别后，还可以根据该音频片段的目标音频类别和实际音频类别，对加权模型中的第一加权系数和第二加权系数进行调整，从而通过模型学习的方式实现加权系数的进一步优化。

S5062：控制设备根据各音频片段对应的目标音频类别，分别确定每一种音频类别对应的音频片段的数量。

例如，假设音频片段的总数量为10，其中，有4个音频片段的目标音频类别为垃圾音频，6个音频片段的目标音频类别为正常音频。

S5063：控制设备分别根据每一种音频类别对应的音频片段的数量以及各音频片段的总数量，确定相应音频类别的占比。

具体的，控制设备分别针对每一音频类别，执行以下步骤：

根据音频类别对应的音频片段的数量与总数量之间的比值，获得相应的占比。

S5064：控制设备确定各音频类别的占比中的最大占比。

S5065：控制设备将最大占比对应的音频类别，确定为待识别音频的识别结果。

一种实施方式中，若最大占比高于预设占比阈值，则控制设备将最大占比对应的音频类别，确定为待识别音频的识别结果，否则，识别失败。

一种实施方式中，控制设备获取各音频片段的总数量，若最大占比与该总数量的乘积高于预设数量阈值，则控制设备将最大占比对应的音频类别，确定为待识别音频的识别结果，否则，识别失败。

实际应用中，预设占比阈值和预设数量阈值均可以根据实际应用场景进行设置，如，预设占比阈值为0.8，又如，预设数量阈值为10，在此不作限制。

这样，就可以根据各音频类别的占比，确定待识别音频的音频类别。

由于音频分类模型可能存在误判或漏判的问题，因此，本申请实施例中，根据各音频片段对应的第一音频类别和第二音频类别，确定待识别音频的识别结果，这样，将模型识别和音频匹配两者相结合，确定待识别音频的识别结果，可以纠正模型识别的误判或漏判，进一步提高了音频识别的准确度。

进一步地，还可以根据识别后的待识别音频，对音频库进行更新。

一种实施方式中，对音频库进行更新时，可以采用以下步骤：

步骤a：控制设备获取待识别音频的实际音频类别。

其中，实际音频类别通常为人工对待识别音频进行审核后确定的。

步骤b：控制设备根据待识别音频的实际音频类别和识别结果，确定待识别音频符合预设入库条件时，对待识别音频进行切分，获得多个音频片段，将实际音频类别，作为待识别音频的各音频片段的音频类别标签。

其中，确定待识别音频符合预设入库条件时，可以采用以下两种方式：

第一种方式为：若待识别音频的实际音频类别和识别结果不一致，则控制设备判定待识别音频符合预设入库条件。

也就是说，误判的音频符合预设入库条件。

第二种方式为：若待识别音频的实际音频类别和识别结果不一致，且实际音频类别为垃圾音频，则控制设备判定待识别音频符合预设入库条件。

也就是说，误判的垃圾音频符合预设入库条件。

其中，设置待识别音频的各音频片段的音频类别标签时，可以采用以下两种方式：

第一种方式为：将待识别音频切分为多个音频片段，以及将实际音频类别，设置为各音频片段的音频类别标签。

也就是说，将所有音频片段设置相应的音频类别标签。

第二种方式为：控制设备待识别音频切分为多个音频片段，获取各音频片段的实际音频类别，并筛选出实际音频类别为垃圾音频的音频片段，以及根据筛选出的各音频片段的实际音频类别，设置相应的音频类别标签。

也就是说，仅设置垃圾音频片段的音频类别标签。

进一步地，还可以针对符合预设入库条件的音频片段，设置相应的音频类别标签。

其中，针对符合预设入库条件的音频片段，设置相应的音频类别标签时，可以采用以下两种方式：

第一种方式为：控制设备获取音频片段的实际音频类别和目标音频类别。若实际音频类别和目标音频类别不一致，则控制设备根据音频片段的实际音频类别，设置相应的音频类别标签。

这样，针对误判的音频片段，设置音频类别标签。

第二种方式为：控制设备音频片段的实际音频类别和目标音频类别。若实际音频类别和目标音频类别不一致，且实际音频类别为垃圾音频，则控制设备根据音频片段的实际音频类别，设置相应的音频类别标签。

这样，针对误判的垃圾音频片段，设置音频类别标签。

步骤c：控制设备分别针对每一音频片段，执行以下步骤：将音频片段的音频卷积特征向量和音频类别标签，添加到匹配的音频样本集合中，并根据更新后的音频样本集合中的各音频卷积特征向量，更新相应的音频中心向量。

其中，音频片段匹配的音频样本集合，是根据上述步骤304确定的。

其中，确定音频中心向量时，具体步骤参见上述步骤305。

进一步地，还可以根据识别出的各待识别音频的实际音频类别和识别结果，对音频分类模型进行进一步调整，以获得更好的音频分类模型。

本申请实施例中，根据垃圾音频的特性，采用卷积神经网络、门控递归单元以及注意力机制，定制用于垃圾音频识别的音频分类模型，以及通过频域增强和时域增强的方式，增加了样本数量，提高了训练处的音频分类模型的鲁棒性以及抗干扰能力；再者，将音频库中的样本数据进行聚类划分的方式，减少了占用的内存空间，提高了音频匹配效率，以及基于CNN向量的非线性的搜索的方式，提高了音频匹配速度以及音频匹配效果；将模型识别方式与音频匹配方式相结合，提高垃圾音频识别的准确度。最后，相比于传统方式中人工审核的方式，可以节省大量的人力成本和时间成本，并且识别海量的音频数据时，实用性更强。

本申请实施例主要应用于对上传至互联网的音频的审核，拦截识别出的垃圾音频，净化网络环境，可以解放大量的审核人员，通过机器的智能过滤，使得可以过滤海量的音频。

基于同一发明构思，本申请实施例中还提供了一种垃圾音频识别装置，由于上述装置及设备解决问题的原理与一种垃圾音频识别方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图7a所示，其为本申请实施例提供的一种音频分类模型的训练装置的结构示意图，包括：

获取单元711，用于获取多个音频样本片段和相应的音频类别标签，以及基于卷积神经网络，门控递归单元和注意力机制构建的音频分类模型；

提取单元712，用于分别提取每一音频样本片段的音频特征向量；

训练单元713，用于基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型；

较佳的，训练单元713用于：

较佳的，训练单元713还用于：

对数据增强处理后的音频特征向量，进行随机采样；

较佳的，训练单元713还用于：

将各音频特征向量，作为各第一音频特征向量；

如图7b所示，其为本申请实施例提供的一种垃圾音频识别装置的结构示意图，包括：

接收单元721，用于接收针对待识别音频的识别请求；

切分单元722，用于根据识别请求，将待识别音频进行切分，获得多个音频片段；

识别单元723，用于采用音频分类模型，分别识别出每一音频片段的第一音频类别；

获得单元724，用于基于各音频片段的第一音频类别，获得待识别音频的识别结果。

较佳的，获得单元724还用于：

各音频中心向量和标识信息存储于内存中。

较佳的，获得单元724还用于：

确定匹配的音频中心向量对应设置的标识信息；

较佳的，音频库是按照以下步骤构建的：

分别针对每一音频样本集合，设置相应的标识信息；

较佳的，获得单元724还用于：

获取待识别音频的实际音频类别；

较佳的，识别单元723用于：

分别提取每一音频片段的音频特征向量；

筛选出检测结果表示非静音的音频特征向量；

较佳的，获得单元724还用于：

确定各音频类别的占比中的最大占比；

本申请实施例提供的一种音频分类模型的训练和垃圾音频识别方法和装置中，获取多个音频样本片段和相应的音频类别标签，以及基于卷积神经网络，门控递归单元和注意力机制构建的音频分类模型；分别提取每一音频样本片段的音频特征向量；基于各音频特征向量和相应的音频类别标签，对音频分类模型进行训练，获得训练好的音频分类模型。接收针对待识别音频的识别请求；根据识别请求，将待识别音频进行切分，获得多个音频片段；采用音频分类模型，分别识别出每一音频片段的第一音频类别；基于各音频片段的第一音频类别，获得待识别音频的识别结果。这样，基于卷积神经网络，门控递归单元和注意力机制获得训练好的音频分类模型，并采用训练好的音频分类模型识别音频的类别，不需要人工审核，降低了人力成本，提高了音频审核效率，降低了时间成本。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

基于上述实施例，参阅图8所示，本申请实施例中，一种控制设备的结构示意图。

本申请实施例提供了一种控制设备，该控制设备可以包括处理器8010(CenterProcessing Unit，CPU)、存储器8020，还可以包括输入设备8030和输出设备8040等，输入设备8030可以包括键盘、鼠标、触摸屏等，输出设备8040可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器8020可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器8010提供存储器8020中存储的程序指令和数据。在本申请实施例中，存储器8020可以用于存储本申请实施例中垃圾音频识别的程序。

处理器8010通过调用存储器8020存储的程序指令，处理器8010用于执行图1所示的实施例提供的一种音频分类模型的训练方法，或图5所示的实施例提供的一种垃圾音频识别方法。

本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的音频分类模型的训练方法和垃圾音频识别方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种垃圾音频识别的方法，其特征在于，包括：

接收针对待识别音频的识别请求；

根据所述识别请求，将所述待识别音频进行切分，获得多个音频片段；

采用音频分类模型，分别识别出每一音频片段的第一音频类别，其中，所述音频分类模型是基于各音频样本片段的音频特征向量和相应的音频类别标签，对构建的音频分类模型进行训练获得的，所述音频类别标签至少包括：垃圾语音和正常语音；

通过所述音频分类模型，分别提取每一音频片段的音频卷积特征向量；

分别针对每一音频片段，根据所述音频片段的音频卷积特征向量与所述音频库中包含的各音频样本片段的音频卷积特征向量之间的相似度，确定所述音频片段匹配的音频样本片段，并将所述匹配的音频样本片段对应的音频类别标签，确定为所述音频片段的第二音频类别；

根据各音频片段对应的第一音频类别和第二音频类别，确定所述待识别音频的识别结果。

2.如权利要求1所述的方法，其特征在于，所述音频库包括多个音频样本集合，以及每一音频样本集合对应的标识信息和音频中心向量；

所述音频样本集合是将音频库中的各音频样本片段对应的音频卷积特征向量聚类划分后获得的；

一个音频样本集合对应的音频中心向量是根据所述一个音频样本集合中包含的各音频样本片段的音频卷积特征向量确定的；

各音频中心向量和标识信息存储于内存中。

3.如权利要求2所述的方法，其特征在于，根据所述音频片段的音频卷积特征向量与所述音频库中包含的各音频样本片段的音频卷积特征向量之间的相似度，确定所述音频片段匹配的音频样本片段，包括：

根据所述音频片段的音频卷积特征向量与各音频中心向量之间的相似度，确定所述音频片段的音频卷积特征向量匹配的音频中心向量；

确定所述匹配的音频中心向量对应设置的标识信息；

将确定出的标识信息对应设置的音频样本集合，确定为所述音频片段匹配的音频样本集合；

根据所述音频片段的音频卷积特征向量，与匹配的音频样本集合中包含的各音频样本片段的音频卷积特征向量之间的相似度，确定所述音频片段匹配的音频样本片段。

4.如权利要求2所述的方法，其特征在于，所述音频库是按照以下步骤构建的：

采用所述音频分类模型，分别对每一音频样本片段的音频特征向量进行卷积运算处理，获得相应的音频卷积特征向量；

分别针对每一音频样本集合，设置相应的标识信息；

5.如权利要求3所述的方法，其特征在于，进一步包括：

获取所述待识别音频的实际音频类别；

根据所述待识别音频的实际音频类别和识别结果，确定所述待识别音频符合预设入库条件时，对所述待识别音频进行切分，获得多个音频片段，将所述实际音频类别，作为所述待识别音频的各音频片段的音频类别标签；

分别针对每一音频片段，执行以下步骤：将所述音频片段的音频卷积特征向量和音频类别标签，添加到匹配的音频样本集合中，并根据更新后的音频样本集合中的各音频卷积特征向量，更新相应的音频中心向量。

6.如权利要求1所述的方法，其特征在于，采用所述音频分类模型，分别识别出每一音频片段的第一音频类别，包括：

分别提取每一音频片段的音频特征向量；

筛选出检测结果表示非静音的音频特征向量；

分别将筛选出的每一音频特征向量，输入至所述音频分类模型，获得各音频片段的音频卷积特征向量和音频分类向量；

7.如权利要求3所述的方法，其特征在于，在根据所述音频片段的音频卷积特征向量与各音频中心向量之间的相似度，确定所述音频片段的音频卷积特征向量匹配的音频中心向量之前，包括：

8.如权利要求1-7任一项所述的方法，其特征在于，根据各音频片段对应的第一音频类别和第二音频类别，确定所述待识别音频的识别结果，包括：

确定各音频类别的占比中的最大占比；

将所述最大占比对应的音频类别，确定为所述待识别音频的识别结果。

9.如权利要求1所述的方法，其特征在于，所述音频分类模型是通过以下方式训练获得的：

分别提取每一音频样本片段的音频特征向量；

基于各音频特征向量和相应的音频类别标签，对所述音频分类模型进行训练，获得训练好的音频分类模型；

其中，各音频样本片段是按照指定音频时长对音频样本划分后获得的。

10.如权利要求9所述的方法，其特征在于，基于各音频特征向量和相应的音频类别标签，对所述音频分类模型进行训练，获得训练好的音频分类模型，包括：

分别针对每一音频样本片段，执行以下操作：基于卷积神经网络，对所述音频样本片段的音频特征向量进行卷积运算处理，输出第一向量；基于门控递归单元，对所述第一向量进行收敛处理，输出门控递归向量；基于卷积神经网络，对所述门控递归向量进行卷积运算处理，输出第二向量；基于注意力机制，对所述第二向量进行聚焦处理，输出音频卷积特征向量；通过全连接层对所述音频卷积特征向量进行处理，输出音频分类向量，所述音频分类向量表示各音频类别对应的置信度；根据所述音频分类向量，将各置信度中的最大置信度对应的音频类别，作为所述音频样本片段的第一音频类别；

根据所述损失，对所述音频分类模型的参数进行调整，获得调整后的音频分类模型。

11.如权利要求9所述的方法，其特征在于，在基于各音频特征向量和相应的音频类别标签，对所述音频分类模型进行训练之前，进一步包括：

12.如权利要求11所述的方法，其特征在于，根据各音频样本片段对应的音频特征向量，对各音频样本片段进行静音检测之前，进一步包括：

对数据增强处理后的音频特征向量，进行随机采样；

13.如权利要求12所述的方法，其特征在于，对各音频特征向量进行数据增强处理，获得数据增强处理后的音频特征向量，包括：

将各音频特征向量，作为各第一音频特征向量；

14.一种垃圾音频识别的装置，其特征在于，包括：

接收单元，用于接收针对待识别音频的识别请求；

切分单元，用于根据所述识别请求，将所述待识别音频进行切分，获得多个音频片段；

识别单元，用于采用音频分类模型，分别识别出每一音频片段的第一音频类别，其中，所述音频分类模型是基于各音频样本片段的音频特征向量和相应的音频类别标签，对构建的音频分类模型进行训练获得的，所述音频类别标签至少包括：垃圾语音和正常语音；

获得单元，用于基于各音频片段的第一音频类别，获得所述待识别音频的识别结果；

所述获得单元还用于：

所述基于各音频片段的第一音频类别，获得所述待识别音频的识别结果，包括：

15.如权利要求14所述的装置，其特征在于，所述音频库包括多个音频样本集合，以及每一音频样本集合对应的标识信息和音频中心向量；

各音频中心向量和标识信息存储于内存中。

16.如权利要求15所述的装置，其特征在于，所述获得单元用于：

确定所述匹配的音频中心向量对应设置的标识信息；

17.如权利要求15所述的装置，其特征在于，所述音频库是按照以下步骤构建的：

分别针对每一音频样本集合，设置相应的标识信息；

18.如权利要求16所述的装置，其特征在于，所述获得单元还用于：

获取所述待识别音频的实际音频类别；

19.如权利要求14所述的装置，其特征在于，所述识别单元用于：

分别提取每一音频片段的音频特征向量；

筛选出检测结果表示非静音的音频特征向量；

20.如权利要求16所述的装置，其特征在于，所述获得单元还用于：

21.如权利要求14-20任一项所述的装置，其特征在于，所述获得单元用于：

确定各音频类别的占比中的最大占比；

22.如权利要求14所述的装置，其特征在于，还包括：

训练单元，用于基于各音频特征向量和相应的音频类别标签，对所述音频分类模型进行训练，获得训练好的音频分类模型；

23.如权利要求22所述的装置，其特征在于，所述训练单元用于：

24.如权利要求22所述的装置，其特征在于，所述训练单元还用于：

25.如权利要求24所述的装置，其特征在于，所述训练单元还用于：

对数据增强处理后的音频特征向量，进行随机采样；

26.如权利要求25所述的装置，其特征在于，所述训练单元还用于：

将各音频特征向量，作为各第一音频特征向量；

27.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-13任一项所述的方法的步骤。

28.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-13任一所述方法的步骤。