CN114168788A

CN114168788A - 音频审核的处理方法、装置、设备及存储介质

Info

Publication number: CN114168788A
Application number: CN202010840734.6A
Authority: CN
Inventors: 付立
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-03-11

Abstract

本发明实施例提供一种音频审核的处理方法、装置、设备及存储介质，该方法包括：获取待处理音频数据；对所述待处理音频数据进行特征提取，获得所述待处理音频数据对应的频谱特征数据；将所述频谱特征数据输入到预先训练获得的音频审核模型，获得所述待处理音频数据的识别结果，所述音频审核模型至少包括卷积神经网络模块和自注意力模块；根据所述识别结果确定并输出所述待处理音频数据的审核结果。由于音频审核模型是基于卷积神经网络并结合自注意力机制，卷积神经网络可以实现对浅层特征的提取，自注意力模块可以进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

Description

音频审核的处理方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种音频审核的处理方法、装置、设备及存储介质。

背景技术

随着互联网应用的快速发展，网络用户已经成为互联网内容的主要创造者。网络用户生成内容(User Generated Content，简称UGC)主要包括文本、图像、视频、音频，等等。然而，由于UGC中可能存在一些网络违规内容，网络应用平台通常需要对UGC进行内容审核，以便及时对违规内容进行拦截、屏蔽等相应的处理。

现有技术中，内容审核主要采用机器审核与人工审核双重审核的方式来完成。相比于文本、图像等UGC的审核，音频人工审核需要人工听取至少一遍，人工审核成本往往更高，且效率低，现有音频机器审核通常采用相似度匹配的方式来实现。

但是，现有的机器审核方法，审核准确率较低，因此，如何进一步提高机器对音频审核的准确率，成为亟需解决的技术问题。

发明内容

本发明实施例提供一种音频审核的处理方法、装置、设备及存储介质，以解决现有技术音频审核准确率低等缺陷。

第一个方面，本发明实施例提供一种音频审核的处理方法，包括：

获取待处理音频数据；

对所述待处理音频数据进行特征提取，获得所述待处理音频数据对应的频谱特征数据；

将所述频谱特征数据输入到预先训练获得的音频审核模型，获得所述待处理音频数据的识别结果，所述音频审核模型至少包括卷积神经网络模块和自注意力模块；

根据所述识别结果确定并输出所述待处理音频数据的审核结果。

可选地，所述音频审核模型通过以下方式训练获得：

获取训练样本数据，所述训练样本数据包括频谱特征样本及每个样本对应的分类标签；

将所述频谱特征样本输入到预先建立的音频审核神经网络，获得训练识别结果；

基于所述频谱特征样本对应的分类标签，采用预设损失函数判断训练结果是否满足预设要求；

重复上述步骤，直至训练结果满足预设要求，结束训练。

可选地，所述方法还包括：

获取测试样本数据，所述测试样本数据包括频谱特征样本及每个测试样本对应的分类标签；

基于所述测试样本数据，采用所述音频审核模型，确定各测试样本的审核结果；

基于各测试样本的审核结果及各测试样本对应的分类标签，确定准确率和虚警率；

若所述准确率和所述虚警率满足预设需求，则最终获得所述音频审核模型。

可选地，所述音频审核模型包括：至少一层卷积神经网络层、至少一层自注意力层、全连接层、池化层和输出层。

可选地，所述对所述待处理音频数据进行特征提取，获得所述待处理音频数据对应的频谱特征数据，包括：

采用短时傅立叶变换对所述待处理音频数据进行特征提取，获得所述待处理音频数据对应的频谱特征数据。

可选地，所述识别结果包括所述待处理音频数据属于普通音频的第一概率及属于违规音频的第二概率；

所述根据所述识别结果确定所述待处理音频数据的审核结果，包括：

若所述第二概率大于预设阈值，则确定所述待处理音频数据属于违规音频。

可选地，若所述待处理音频数据的审核结果为属于违规音频，则对所述待处理音频数据进行拦截或屏蔽处理。

第二个方面，本发明实施例提供一种音频审核的处理装置，包括：

获取模块，用于获取待处理音频数据；

提取模块，用于对所述待处理音频数据进行特征提取，获得所述待处理音频数据对应的频谱特征数据；

处理模块，用于将所述频谱特征数据输入到预先训练获得的音频审核模型，获得所述待处理音频数据的识别结果，所述音频审核模型至少包括卷积神经网络模块和自注意力模块；

确定模块，用于根据所述识别结果确定并输出所述待处理音频数据的审核结果。

可选地，所述获取模块，还用于获取训练样本数据，所述训练样本数据包括频谱特征样本及每个样本对应的分类标签；

所述处理模块，还用于将所述频谱特征样本输入到预先建立的音频审核神经网络，获得训练识别结果；

所述确定模块，还用于基于所述频谱特征样本对应的分类标签，采用预设损失函数判断训练结果是否满足预设要求，若训练结果满足预设要求，结束训练。

可选地，所述获取模块，还用于获取测试样本数据，所述测试样本数据包括频谱特征样本及每个测试样本对应的分类标签；

所述处理模块，还用于基于所述测试样本数据，采用所述音频审核模型，确定各测试样本的审核结果；

所述确定模块，还用于基于各测试样本的审核结果及各测试样本对应的分类标签，确定准确率和虚警率，若所述准确率和所述虚警率满足预设需求，则获得所述音频审核模型。

可选地，所述提取模块，具体用于：

所述确定模块，具体用于若所述第二概率大于预设阈值，则确定所述待处理音频数据属于违规音频。

可选地，所述处理模块，还用于若所述待处理音频数据的审核结果为属于违规音频，则对所述待处理音频数据进行拦截或屏蔽处理。

第三个方面，本发明实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。

第四个方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一个方面以及第一个方面各种可能的设计所述的方法。

本发明实施例提供的音频审核的处理方法、装置、设备及存储介质，通过对待处理音频数据进行特征提取获得对应的频谱特征数据，将频谱特征数据输入到音频审核模型，获得识别结果，根据识别结果确定待处理音频数据的审核结果，由于音频审核模型是基于卷积神经网络并结合自注意力机制，卷积神经网络可以实现对浅层特征的提取，自注意力模块可以进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于的处理系统的架构示意图；

图2为本发明一实施例提供的音频审核的处理方法的流程示意图；

图3为本发明另一实施例提供的音频审核的处理方法的流程示意图；

图4为本发明一实施例提供的音频审核模型的结构示意图；

图5为本发明一实施例提供的音频审核的处理装置的结构示意图；

图6为本发明一实施例提供的电子设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对本发明所涉及的名词进行解释：

用户生成内容(User Generated Content，简称UGC)：是指由用户产生的网络内容。

基于动态时间规整(Dynamic Time Warping，简称DTW)：是指一种用于序列数据匹配的计算方法

深度神经网络(Deep Neural Network，简称DNN)：是指包含3层甚至多层的神经网络模型。

卷积神经网络(Convolutional Neural Network，简称CNN)：是指包含卷积或相关计算的神经网络结构。

短时傅里叶变换(Short-Time Fourier Transform，简称STFT)：是用以确定时变信号其局部区域正弦波的频率与相位的傅里叶变换方法。

自注意力模块(Self-Attention Block,简称SAB)：是一种基于自注意力机制构建的网络模型结构。

全连接层(Fully Connected，简称FC)：是一种通过将每个结点都与上一层的所有结点相连，用来把前边提取的特征综合起来的神经网络结构。

时间最大池化层(Time Max-Pooling,简称TMP)：是指对于时序矢量，取不同时间维度上最大值组成最终的矢量结果。

ADAM优化算法：是对SGD(Stochastic Gradient Descent，随机梯度下降)的扩展，可以代替经典的随机梯度下降法来更有效地更新网络权重。

随着互联网应用的快速发展，网络用户已经成为互联网内容的主要创造者。网络用户生成内容(User Generated Content，简称UGC)主要包括文本、图像、视频、音频，等等。然而，由于UGC中可能存在一些网络违规内容，网络应用平台通常需要对UGC进行内容审核，以便及时对违规内容进行拦截、屏蔽等相应的处理。现有技术中，内容审核主要采用机器审核与人工审核双重审核的方式来完成。相比于文本、图像等UGC的审核，音频人工审核需要人工听取至少一遍，人工审核成本往往更高，且效率低。若能进一步提高机器对音频审核的准确率，将对降低网络应用平台的运营成本具有重要作用。现有音频机器审核通常采用相似度匹配或模型分类的方式来实现。比如，一类方法是基于动态时间规整(Dynamic TimeWarping，简称DTW)的技术，该技术主要采用给定违规案例音频，在待检测音频内容上滑动，并逐一计算待检测音频片段和违规案例音频的相似度，最终和预设的门限进行比较，以便判断是否进行相应的违规告警。另一类方法是基于特征提取的技术，该技术通过训练音频特征提取器，然后利用该特征提取器分别计算违规案例音频和待检测音频的特征矢量，并计算这两类特征矢量相似度或直接对待检测音频的特征矢量进行模型分类，以便判断是否进行相应的违规告警。因此，特征提取器的性能是影响最终判断结果的关键。现有特征提取器主要包括采用传统ivector模型和深度神经网络(Deep Neural Network，简称DNN)模型等技术。

然而，采用DTW在音频信号上进行相似度计算的结果，很容易受语速、背景噪音的影响，鲁棒性往往较差；传统i-vector模型基于线性高斯假设，与实际应用中的非线性非高斯场景存在差异，导致模型在实际应用中的效果往往较差；采用深度神经网络模型的性能，取决于网络的特征提取能力，而现有方法主要包括使用DNN方式，网络结构简单，审核准确率较低。

针对现有技术存在的上述问题，发明人进行了创造性的研究，在研究中发现，现有技术不能有效对音频的时序特征进行提取，为了能够解决上述问题，发明人创造性地发现基于自注意力机制的网络模型能够对音频时序特征进行有效提取，因此本发明实施例提供一种音频审核的处理方法，采用基于卷积神经网络和自注意力机制的音频审核模型，其中，卷积神经网络模块可以对音频数据进行浅层特征提取，自注意力模块进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

本发明实施例提供的音频审核的处理方法，适用于需要对音频内容是否违规进行审核的应用场景。如图1所示，为本发明实施例基于的处理系统的架构示意图。该处理系统可以包括终端和服务器，还可以包括其他服务器，用户可以通过终端输入待处理音频数据或者训练样本数据，并发送给服务器。服务器接收终端发送的数据进行存储或者进行相应的处理。可选地，服务器也可以是从其他服务器获取待处理音频数据。比如网络应用平台为用户提供发布服务的服务器，在发布前将待发布的音频数据发送给审核的服务器，作为待处理音频数据。具体可以根据实际需求设置。具体来说，服务器获取待处理音频数据，对待处理音频数据进行特征提取获得对应的频谱特征数据，将频谱特征数据输入到预先训练获得的音频审核模型，获得识别结果，音频审核模型是基于卷积神经网络和自注意力机制的网络模型，识别结果包括违规和不违规两个概率，根据识别结果即可确定待处理音频的审核结果，审核结果即该待处理音频数据是否违规的结果。审核结果可以发送给相应的处理设备进行拦截或屏蔽等处理，也可以是服务器直接进行拦截或屏蔽等处理，具体可以根据实际需求设置。由于音频审核模型基于卷积神经网络和自注意力机制，实现了基于卷积神经网络模块可以对音频数据进行浅层特征提取，自注意力模块进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明一实施例提供一种音频审核的处理方法，用于对音频数据内容进行审核。本实施例的执行主体为音频审核的处理装置，该装置可以设置在电子设备中，该电子设备可以是服务器、台式电脑、笔记本电脑等设备。

如图2所示，为本实施例提供的音频审核的处理方法的流程示意图，该方法包括：

步骤101，获取待处理音频数据。

具体的，待处理音频数据是需要进行审核的音频数据，比如网络用户产生的音频数据，网络应用平台在为用户提供发布服务前需要对音频数据内容进行审核，审核该音频数据内容是否违规，比如涉黄、违法等，若违规则审核不通过，对于审核通过的音频数据才允许发布，否则不允许发布。待处理音频数据可以是从终端接收的用户输入的数据，也可以是从其他服务器接收，比如网络应用平台为用户提供发布服务的是第一服务器，用于审核音频数据的称第二服务器，则第一服务器在发布前将音频数据发送给第二服务器进行审核，第二服务器将审核结果输出，发送给第一服务器，第一服务器可以根据审核结果确定该音频数据是发布还是拦截或屏蔽。具体可以根据实际需求设置。

步骤102，对待处理音频数据进行特征提取，获得待处理音频数据对应的频谱特征数据。

在获取到待处理音频数据后，需要对待处理音频数据进行特征提取，获得待处理音频数据对应的频谱特征数据。

示例性地，可以采用短时傅立叶变换来提取频谱特征，也可以采用其他任意可实施的方式来提取，具体可以根据实际需求选择。

步骤103，将频谱特征数据输入到预先训练获得的音频审核模型，获得待处理音频数据的识别结果，音频审核模型至少包括卷积神经网络模块和自注意力模块。

在获得待处理音频数据对应的频谱特征数据后，则可以将频谱特征数据输入到预先训练获得的音频审核模型，获得待处理音频数据的识别结果。音频审核模型是基于卷积神经网络和自注意力机制的网络模型，具体是包括卷积神经网络模块和自注意力模块，卷积神经网络模块可以包括至少一层卷积层，比如可以包括3层、4层等，具体可以根据实际需求设置。同理，自注意力模块也可以包括至少一次自注意力层，具体可以根据实际需求设置。可以理解地，音频审核模型还可以包括其他层，比如输入层、全连接层、池化层、输出层等等。识别结果包括待处理音频数据属于违规音频的概率及属于正常音频(不违规音频)的概率两个概率，用于作为确定该待处理音频数据审核结果的依据。

需要说明的是，音频审核模型需要预先训练获得，具体来说，可以获取大量训练样本，每个训练样本可以包括频谱特征样本及对应的分类标签。分类标签可以1和0表示，1表示该样本是正常音频，0表示该样本是违规音频，或者也可以是0表示正常样本，1表示违规样本，具体可以根据实际需求设置。训练样本需要涉及一批正常音频的样本和一批违规音频的样本。建立音频审核神经网络并初始化，采用训练样本对音频审核神经网络的网络参数进行训练，设置相应的损失函数作为优化目标函数，来判断训练是否结束，在一轮训练结束后，还可以通过测试样本对训练获得的音频审核模型进行测试，根据测试结果判断是否得到最终的音频审核模型。在训练好获得音频审核模型后，即可用于对上述的待处理音频的审核。

可选地，训练样本也可以是包括音频样本及对应的分类标签，则需要先对音频样本进行特征提取，获得音频样本对应的频谱特征样本。

步骤104，根据识别结果确定并输出待处理音频数据的审核结果。

具体的，审核结果即待处理音频数据是否违规的结果。在获得识别结果后，可以根据识别结果包括的分类概率来确定待处理音频数据是否违规。

示例性的，若识别结果中违规的概率大于正常的概率，则确定待处理音频数据违规。

示例性的，还可以设置一定的阈值，当违规的概率大于阈值，则确定待处理音频数据违规。具体的判断规则可以根据实际需求设置，本实施例不做限定。

在确定了待处理音频数据的审核结果后可以输出该审核结果，具体可以是输出到终端进行显示，也可以是发出告警提示，还可以是输出到其他服务器，比如为用户提供发布服务的服务器，使得其他服务器可以基于审核结果对待处理音频数据进行发布或拦截等相应的处理，具体可以根据实际需求设置。

本实施例提供的音频审核的处理方法，通过对待处理音频数据进行特征提取获得对应的频谱特征数据，将频谱特征数据输入到音频审核模型，获得识别结果，根据识别结果确定待处理音频数据的审核结果，由于音频审核模型是基于卷积神经网络并结合自注意力机制，卷积神经网络可以实现对浅层特征的提取，自注意力模块可以进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

本发明另一实施例对上述实施例提供的方法做进一步补充说明。

如图3所示，为本实施例提供的音频审核的处理方法的流程示意图。

作为一种可实施的方式，在上述实施例的基础上，可选地，音频审核模型通过以下方式训练获得：

步骤2011，获取训练样本数据，训练样本数据包括频谱特征样本及每个样本对应的分类标签。

步骤2012，将频谱特征样本输入到预先建立的音频审核神经网络，获得训练识别结果。

步骤2013，基于频谱特征样本对应的分类标签，采用预设损失函数判断训练结果是否满足预设要求。

步骤2014，重复上述步骤，直至训练结果满足预设要求，结束训练。

具体的，可以获取大量训练样本，每个训练样本可以包括频谱特征样本及对应的分类标签。分类标签可以1和0表示，1表示该样本是正常音频，0表示该样本是违规音频，或者也可以是0表示正常样本，1表示违规样本，具体可以根据实际需求设置。训练样本需要涉及一批正常音频的样本和一批违规音频的样本。建立音频审核神经网络并初始化，采用训练样本对音频审核神经网络的网络参数进行训练，设置相应的损失函数作为优化目标函数，来判断训练是否结束。

可选地，损失函数可以为交叉熵损失函数，作为优化目标函数。

可选地，可以采用反向传播算法进行神经网络模型训练，比如具体可以是采用ADAM优化算法，ADAM的初始值可以设为1×10^-4。

可选地，该方法还可以包括：

步骤2021，获取测试样本数据，测试样本数据包括频谱特征样本及每个测试样本对应的分类标签。

步骤2022，基于测试样本数据，采用音频审核模型，确定各测试样本的审核结果。

步骤2023，基于各测试样本的审核结果及各测试样本对应的分类标签，确定准确率和虚警率。

步骤2024，若准确率和虚警率满足预设需求，则最终获得音频审核模型；若准确率和虚警率不能满足预设需求，则继续进行训练。

具体的，在训练过程中，在一轮训练结束后，还可以通过测试样本对训练获得的音频审核模型进行测试，根据测试结果判断是否得到最终的音频审核模型。具体来说，可以基于各测试样本的审核结果及各测试样本对应的分类标签，确定准确率和虚警率，根据准确率和虚警率来判断训练获得的模型是否满足要求。比如可以设置准确率阈值和虚警率阈值，要求条件可以根据实际需求设置为准确率大于等于准确率阈值，和/或，虚警率小于等于虚警率阈值。具体要求可以根据实际需求设置。

作为另一种可实施的方式，在上述实施例的基础上，可选地，音频审核模型包括：至少一层卷积神经网络层、至少一层自注意力层、全连接层、池化层和输出层。

示例性的，如图4所示，为本实施例提供的一种音频审核模型的结构示意图。音频审核模型可以包括3层卷积神经网络层(CNN)、5层自注意力模块层(SAB)、1层全连接层(FC)、1层时间最大池化层(TMP)、再1层全连接层(FC)和一层softmax层。实际应用中，音频审核模型不限于上述这些层数，比如卷积神经网络层可以是4层，具体可以根据实际需求设置。

作为另一种可实施的方式，在上述实施例的基础上，可选地，对待处理音频数据进行特征提取，获得待处理音频数据对应的频谱特征数据，包括：

步骤2031，采用短时傅立叶变换对待处理音频数据进行特征提取，获得待处理音频数据对应的频谱特征数据。

示例性的，频谱特征矢量采用传统短时傅立叶变换获得，其中窗口大小为20ms，窗口滑动步长为10ms。通过STFT可以获得每一段音频数据的81维频谱信息序列。每一条音频数据的时长可以固定为10s。这里具体参数可以根据实际需求设置，不限于上述数值。

作为另一种可实施的方式，在上述实施例的基础上，可选地，识别结果包括待处理音频数据属于普通音频的第一概率及属于违规音频的第二概率；

根据识别结果确定待处理音频数据的审核结果，包括：

步骤2041，若第二概率大于预设阈值，则确定待处理音频数据属于违规音频。

具体的，可以预先获得预设阈值，在进行审核时，若属于违规音频的概率大于预设阈值，则确定待处理音频数据属于违规音频，否则属于普通音频。预设阈值的具体确定见后续实施例。

作为另一种可实施的方式，在上述实施例的基础上，可选地，若待处理音频数据的审核结果为属于违规音频，则对待处理音频数据进行拦截或屏蔽处理。

具体的，用于审核的服务器也可以是为用户提供发布服务的服务器，服务器在发布前可以直接自行进行上述审核处理过程，获得审核结果，并根据审核结果对待处理音频数据进行发布或拦截。若审核结果为通过，则可以发布，若审核结果为违规，则进行拦截或屏蔽处理。

作为一种示例性的实施方式，该方法具体可以包括以下内容：

1)音频审核训练样本数据准备

以音频审核中典型的音频鉴黄为例，进行详细说明。

记任意一个音频训练数据的样本为s_i＝{x_i,y_i}，其中i∈[1,N]，N为数据集中训练样本数量。x_i为每一条音频数据的频谱特征，y_i为该样本的类别标注结果(即分类标签)，其中y_i＝1代表音频为违规音频，y_i＝0代表音频为正常音频。其中，频谱特征矢量可以采用传统短时傅立叶变换获得，其中窗口大小为20ms，窗口滑动步长为10ms。通过STFT可以获得每一段音频数据的81维频谱信息序列。本实施例中，每一条音频样本的时长固定为10s，其中违规音频总时长共100小时，正常音频总时长共500小时。

2)音频审核模型结构

本发明实施例提出的音频审核网络模型(即上述的音频审核模型)旨在利用训练样本数据构造样本数据到类别标注结果的的非线性映射函数F_s。在本发明实施例中中，F_s依次包括3层CNN，5层自注意力模块(Self-Attention Block,简称SAB)，1层全连接层(FullyConnected，简称FC)，1层时间最大池化层(Time Max-Pooling,简称TMP)，1层FC和1层softmax组成，具体网络结构如上图4所示。

记模型输入为频谱特征x_i，则模型输出为o_i：

o_i＝F_s(x_i,w_i)

其中w_i为模型训练参数，o_i＝[o_i,1,o_i,2]为二维输出矢量，o_i,1和o_i,2分别为模型输出o_i的两个元素，且满足o_i,1+o_i,2＝1，分别指代将该音频识别为普通音频和违规音频的概率。

3)网络模型损失函数构建

利用音频数据，对模型进行预训练。在此过程中，首先需要设计优化目标函数。模型在训练过程中，通过调整模型参数，降低目标函数至收敛，从而实现模型对音频的审核分类。在本实施例中，可以采用交叉熵作为优化目标函数，具体如下

其中，N_b为训练中每一个批次的数量，在本发明实施例中N_b＝32。

4)模型参数训练

利用训练音频数据，对模型进行训练。在本发明实施例中，可以采用反向传播算法进行神经网络模型训练，具体可以采用ADAM优化算法，ADAM的初始值设为1×10^-4。

5)门限参数设计

在获得训练后的模型

其中

模型收敛后的模型参数。对测试集样本进行计算，获得输出分类矢量，对每一个样本，输出结果：

给定阈值T，记测试集中实际违规音频为N₁条，普通音频为N₂条，对于所有测试样本输出结果，统计

的数量为N₀，记N₀中违规音频为N₃条，普通音频为N₄＝N₀-N₃条。由此，可分别计算检测率(即准确率)和虚警率如下：

计算检测率

计算虚警率

以0.01为步长，遍历0到1之间值作为阈值，使得1-p_d(T)和p_f(T)结果最接近，记录此时的阈值为

作为最终的音频审核模型阈值结果，也即满足

在最终的音频审核模型中，给定固定长度为10s的音频x_t，通过音频审核模型计算获得输出o_t，当

判断该音频为违规音频，否则，判断为普通音频。在本发明实施例中，音频审核模型能够准确区分出违规音频和普通音频，在测试集上错误率

且虚警率

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。

本发明再一实施例提供一种音频审核的处理装置，用于执行上述实施例的方法。

如图5所示，为本实施例提供的音频审核的处理装置的结构示意图。该音频审核的处理装置30包括获取模块31、提取模块32、处理模块33和确定模块34。

其中，获取模块，用于获取待处理音频数据；提取模块，用于对待处理音频数据进行特征提取，获得待处理音频数据对应的频谱特征数据；处理模块，用于将频谱特征数据输入到预先训练获得的音频审核模型，获得待处理音频数据的识别结果，音频审核模型至少包括卷积神经网络模块和自注意力模块；确定模块，用于根据识别结果确定并输出待处理音频数据的审核结果。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本实施例提供的音频审核的处理装置，通过对待处理音频数据进行特征提取获得对应的频谱特征数据，将频谱特征数据输入到音频审核模型，获得识别结果，根据识别结果确定待处理音频数据的审核结果，由于音频审核模型是基于卷积神经网络并结合自注意力机制，卷积神经网络可以实现对浅层特征的提取，自注意力模块可以进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

本发明又一实施例对上述实施例提供的装置做进一步补充说明。

作为一种可实施的方式，在上述实施例的基础上，可选地，获取模块，还用于获取训练样本数据，训练样本数据包括频谱特征样本及每个样本对应的分类标签；

处理模块，还用于将频谱特征样本输入到预先建立的音频审核神经网络，获得训练识别结果；

确定模块，还用于基于频谱特征样本对应的分类标签，采用预设损失函数判断训练结果是否满足预设要求，若训练结果满足预设要求，结束训练。

作为另一种可实施的方式，在上述实施例的基础上，可选地，获取模块，还用于获取测试样本数据，测试样本数据包括频谱特征样本及每个测试样本对应的分类标签；

处理模块，还用于基于测试样本数据，采用音频审核模型，确定各测试样本的审核结果；

确定模块，还用于基于各测试样本的审核结果及各测试样本对应的分类标签，确定准确率和虚警率，若准确率和虚警率满足预设需求，则获得音频审核模型。

作为另一种可实施的方式，在上述实施例的基础上，可选地，提取模块，具体用于：

采用短时傅立叶变换对待处理音频数据进行特征提取，获得待处理音频数据对应的频谱特征数据。

确定模块，具体用于若第二概率大于预设阈值，则确定待处理音频数据属于违规音频。

作为另一种可实施的方式，在上述实施例的基础上，可选地，处理模块，还用于若待处理音频数据的审核结果为属于违规音频，则对待处理音频数据进行拦截或屏蔽处理。

根据本实施例的音频审核的处理装置，通过对待处理音频数据进行特征提取获得对应的频谱特征数据，将频谱特征数据输入到音频审核模型，获得识别结果，根据识别结果确定待处理音频数据的审核结果，由于音频审核模型是基于卷积神经网络并结合自注意力机制，卷积神经网络可以实现对浅层特征的提取，自注意力模块可以进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

本发明再一实施例提供一种电子设备，用于执行上述实施例提供的方法。

如图6所示，为本实施例提供的电子设备的结构示意图。该电子设备50包括：至少一个处理器51和存储器52；

存储器存储计算机执行指令；至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如上任一实施例提供的方法。

根据本实施例的电子设备，通过对待处理音频数据进行特征提取获得对应的频谱特征数据，将频谱特征数据输入到音频审核模型，获得识别结果，根据识别结果确定待处理音频数据的审核结果，由于音频审核模型是基于卷积神经网络并结合自注意力机制，卷积神经网络可以实现对浅层特征的提取，自注意力模块可以进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

本发明又一实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上任一实施例提供的方法。

根据本实施例的计算机可读存储介质，通过对待处理音频数据进行特征提取获得对应的频谱特征数据，将频谱特征数据输入到音频审核模型，获得识别结果，根据识别结果确定待处理音频数据的审核结果，由于音频审核模型是基于卷积神经网络并结合自注意力机制，卷积神经网络可以实现对浅层特征的提取，自注意力模块可以进行音频时序特征提取，从而有效提高音频特征的提取性能，进而提高音频审核模型的审核准确率。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种音频审核的处理方法，其特征在于，包括：

获取待处理音频数据；

2.根据权利要求1所述的方法，其特征在于，所述音频审核模型通过以下方式训练获得：

重复上述步骤，直至训练结果满足预设要求，结束训练。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述音频审核模型包括：至少一层卷积神经网络层、至少一层自注意力层、全连接层、池化层和输出层。

5.根据权利要求1所述的方法，其特征在于，所述对所述待处理音频数据进行特征提取，获得所述待处理音频数据对应的频谱特征数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述识别结果包括所述待处理音频数据属于普通音频的第一概率及属于违规音频的第二概率；

7.根据权利要求1-6任一项所述的方法，其特征在于，若所述待处理音频数据的审核结果为属于违规音频，则对所述待处理音频数据进行拦截或屏蔽处理。

8.一种音频审核的处理装置，其特征在于，包括：

获取模块，用于获取待处理音频数据；

9.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-7任一项所述的方法。