CN114582360A

CN114582360A - 音频敏感内容的识别方法、设备和计算机程序产品

Info

Publication number: CN114582360A
Application number: CN202210169698.4A
Authority: CN
Inventors: 郑炜乔
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-06-03

Abstract

本申请涉及音频识别领域，提供了一种音频敏感内容的识别方法、计算机设备和计算机程序产品。本申请能够提高对音频敏感内容识别的准确性。该方法包括：首先提取待识别音频的时频谱图，将时频谱图切分为多个时频谱图块，通过块嵌入层获取该多个时频谱图块分别对应的多个块嵌入特征，然后将多个块嵌入特征及其切分顺序信息输入至位置嵌入层，得到位置嵌入层输出的位置嵌入特征序列，该位置嵌入特征序列包含各块嵌入特征及其在时频谱图中的位置特征，接着将该位置嵌入特征序列输入到自注意力模型的编码器获得时频谱图的特征表示，最后基于该时频谱图的特征表示识别待识别音频是否包含敏感内容。

Description

音频敏感内容的识别方法、设备和计算机程序产品

技术领域

本申请涉及音频识别技术领域，特别是涉及一种音频敏感内容的识别方法、计算机设备和计算机程序产品。

背景技术

随着互联网技术的发展，通过上传、发布和传播音视频作品或直播实时音视频丰富了内容传播形式，为使优质内容具有良好传播环境，需对包含敏感内容的音频进行准确识别。

目前的技术主要依赖于人工构造多种音频特征融合而成的人工构造特征进行音频敏感内容识别，如梅尔频率倒谱系数、能量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、音色偏差等作为特征向量输入到神经网络中进行分类识别。但这种技术对音频敏感内容的识别准确率容易受到人工构造特征的制约，还会带来一些信息的损失，使其对音频敏感内容的识别准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种音频敏感内容的识别方法、计算机设备和计算机程序产品。

第一方面，本申请提供了一种音频敏感内容的识别方法。所述方法包括：

获得待识别音频的时频谱图，并将所述时频谱图切分为多个时频谱图块；

通过经训练的块嵌入层获取所述多个时频谱图块各自对应的块嵌入特征，得到多个块嵌入特征；

将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层，得到所述位置嵌入层输出的位置嵌入特征序列；所述位置嵌入特征序列中的位置嵌入特征包含块嵌入特征，及该块嵌入特征对应的时频谱图块在所述时频谱图中的位置特征；

将所述位置嵌入特征序列输入经训练的自注意力模型的编码器，得到所述编码器输出的所述时频谱图的特征表示；

基于所述时频谱图的特征表示，识别所述待识别音频是否包含敏感内容。

在一个实施例中，所述将所述时频谱图切分为多个时频谱图块，包括：

按照预设切分顺序及预设重叠维度数切分所述时频谱图得到所述多个时频谱图块；所述预设重叠维度数包括时间维度和/或频率维度上的重叠维度数。

在一个实施例中，所述将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层，包括：根据所述多个时频谱图块的切分顺序生成多个切分顺序标识，并将所述多个切分顺序标识对应携带在所述多个块嵌入特征中；将携带所述多个切分顺序标识的多个块嵌入特征输入至所述位置嵌入层。

在一个实施例中，所述位置嵌入层，用于根据所述多个块嵌入特征中携带的多个切分顺序标识，得到所述多个块嵌入特征分别对应的多个位置特征，将相对应的块嵌入特征及位置特征进行组合得到位置嵌入特征，根据组合得到的多个位置嵌入特征形成所述位置嵌入特征序列。

在一个实施例中，所述基于所述时频谱图的特征表示，识别所述待识别音频是否包含敏感内容，包括：将所述时频谱图的特征表示输入经训练的音频敏感内容分类器，得到所述音频敏感内容分类器输出的敏感内容分类标签；根据所述敏感内容分类标签，确定所述待识别音频是否包含敏感内容。

在一个实施例中，所述方法还包括：获取预先经过训练的音频分类模型，所述音频分类模型包括块嵌入层、位置嵌入层及自注意力模型的编码器；获取音频样本的时频谱图样本以及获取所述音频样本对应的敏感内容分类标签；利用所述时频谱图样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练。

在一个实施例中，所述获取所述音频样本对应的敏感内容分类标签，包括：根据所述音频样本是否包含敏感内容，得到所述音频样本的第一标签；根据所述音频样本中敏感内容占比，得到所述音频样本的第二标签；将所述第一标签和第二标签作为所述音频样本对应的敏感内容分类标签。

在一个实施例中，所述利用所述时频谱图样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练，包括：对所述时频谱图样本进行时间维度和/或频率维度的掩膜处理，得到所述时频谱图样本的第一干扰样本；对所述时频谱图样本进行时间维度和/或频率维度的混合处理，得到所述时频谱图样本的第二干扰样本；利用所述时频谱图样本、第一干扰样本、第二干扰样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练。

第二方面，本申请还提供了一种音频敏感内容的识别方法。所述方法包括：

获取原始音频；

将所述原始音频输入至第一音频敏感内容识别模型，得到所述第一音频敏感内容识别模型输出的所述原始音频中包含敏感内容的多个音频片段；将所述多个音频片段作为待识别音频输入至第二音频敏感内容识别模型，得到所述第二音频敏感内容识别模型输出的针对每一音频片段的敏感内容识别结果；根据所述每一音频片段的敏感内容识别结果，确定所述原始音频是否为敏感音频；或者，

将所述原始音频作为待识别音频输入至第二音频敏感内容识别模型，得到所述第二音频敏感内容识别模型输出的针对所述原始音频的敏感内容识别结果；所述第二音频敏感内容识别模型输出的敏感内容识别结果表征所述原始音频为包含敏感内容的音频时，将所述原始音频输入至第一音频敏感内容识别模型，得到所述第一音频敏感内容识别模型输出的针对所述原始音频的敏感内容识别结果；根据所述第一音频敏感内容识别模型输出的敏感内容识别结果，确定所述原始音频是否为敏感音频；或者，

将所述原始音频输入至第一音频敏感内容识别模型，得到所述第一音频敏感内容识别模型输出的针对所述原始音频的敏感内容识别结果；将所述原始音频作为待识别音频输入至第二音频敏感内容识别模型，得到所述第二音频敏感内容识别模型输出的针对所述原始音频的敏感内容识别结果；根据所述第一音频敏感内容识别模型输出的敏感内容识别结果，以及所述第二音频敏感内容识别模型输出的敏感内容识别结果，确定所述原始音频是否为敏感音频；

其中，所述第二音频敏感内容识别模型，用于根据如上所述的方法识别待识别音频是否包含敏感内容。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获得待识别音频的时频谱图，并将所述时频谱图切分为多个时频谱图块；通过经训练的块嵌入层获取所述多个时频谱图块各自对应的块嵌入特征，得到多个块嵌入特征；将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层，得到所述位置嵌入层输出的位置嵌入特征序列；所述位置嵌入特征序列中的位置嵌入特征包含块嵌入特征，及该块嵌入特征对应的时频谱图块在所述时频谱图中的位置特征；将所述位置嵌入特征序列输入经训练的自注意力模型的编码器，得到所述编码器输出的所述时频谱图的特征表示；基于所述时频谱图的特征表示，识别所述待识别音频是否包含敏感内容。

第四方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述音频敏感内容的识别方法、计算机设备和计算机程序产品，首先提取待识别音频的时频谱图，将时频谱图切分为多个时频谱图块，通过经训练的块嵌入层获取该多个时频谱图块分别对应的多个块嵌入特征，然后将多个块嵌入特征及其切分顺序信息输入至经训练的位置嵌入层，得到位置嵌入层输出的位置嵌入特征序列，该位置嵌入特征序列包含各块嵌入特征及其在时频谱图中的位置特征，接着将该位置嵌入特征序列输入到经训练的自注意力模型的编码器获得时频谱图的特征表示，最后基于该时频谱图的特征表示识别待识别音频是否包含敏感内容。该方案通过块嵌入层及位置嵌入层自学习提取时频谱图的局部特征信息及空间结构信息以避免人工特征选择带来信息损失，然后通过自注意力模型的编码器进行时频谱图的全局特征学习得到该时频谱图的特征表示并最终根据该特征表示识别待识别音频是否为包含敏感内容的音频，提高对音频敏感内容识别的准确性。该方案可应用于对互联网产品产生的海量音视频数据中音频敏感内容的识别，大幅度降低审核人力成本，在提高识别准确性的同时提高识别效率。

附图说明

图1为一个实施例中音频敏感内容的识别方法的流程示意图；

图2为一个实施例中处理待识别音频的流程示意图；

图3为一个实施例中训练步骤的流程示意图；

图4为另一个实施例中音频敏感内容的识别方法的流程示意图；

图5为另一个实施例中处理待识别音频的流程示意图；

图6为又一个实施例中音频敏感内容的识别方法的流程示意图；

图7为再一个实施例中音频敏感内容的识别方法的流程示意图；

图8为一应用示例中音频敏感内容识别结果界面的示意图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的音频敏感内容的识别方法，可以由终端、服务器等计算机设备执行。其中，终端可以但不限于是各种个人计算机、笔记本电脑、平板电脑；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在应用场景上，本申请提供的音频敏感内容的识别方法可具体应用在音乐应用、K歌应用、短视频应用等产品中，对产品中上传、发布和传播的音视频作品或直播实时音视频进行音频敏感内容准确识别，由此也便于相关人员对涉及音频敏感内容上传、发布和传播的用户进行处理，减少对产品中海量的音频进行敏感内容识别的人力成本，在提高识别准确性的同时提高识别效率，使优质内容具有良好传播环境。

以下结合各实施例及相应附图对本申请提供的音频敏感内容的识别方法进行说明。

在一个实施例中，提供了一种音频敏感内容的识别方法，结合图1和2，该方法可以包括以下步骤：

步骤S101，获得待识别音频的时频谱图。

其中，待识别音频可以是用户上传、发布和传播的音频数据，该音频数据的具体形式可以是用户上传、发布和传播的纯音频数据，也可以是用户上传、发布和传播的视频中的音频数据，且该待识别音频的时长可以为任意时长，即本申请提供的音频敏感内容的识别方法可对不同时长的音频进行敏感内容识别。本步骤中，获取待识别音频后，提取该待识别音频的时频谱图。在具体实现中，参考图2，对于输入的待识别音频可进行如128维的fbank特征提取，采用25ms汉明窗及10ms帧移并对时频特征进行归一化处理得到时频谱图，该时频谱图包含音频时域信号经过短时傅里叶变换后在时频域上的特征，横轴表示时间，纵轴表示频率，颜色的深浅程度表示在对应时间和频率上信号的能量/强度，本步骤提取待识别音频的原始特征信息，保留代表音频特征的全部信息，在源头上不损失任何信息。

步骤S102，将时频谱图切分为多个时频谱图块。

如图2所述，本步骤将待识别音频的时频谱图进行切分，得到多个时频谱图块。在具体实现中，可按照设定块大小对待识别音频的时频谱图进行切分，如将待识别音频的时频谱图切成每个大小为16×16的N个时频谱图块。

在一个实施例中，步骤S102具体包括：按照预设切分顺序及预设重叠维度数切分时频谱图得到多个时频谱图块；预设重叠维度数包括时间维度和/或频率维度上的重叠维度数。

本实施例中，预设切分顺序可以采用针对时频谱图的行优先顺序，即逐行对时频谱图进行切分，且在切分时按照预设重叠维度数进行切分以保持相邻时频谱图块的音频特征连续性从而提高音频敏感内容识别的准确性。其中，预设重叠维度数包括时间维度和/或频率维度上的重叠维度数，时频谱图中，行方向表示时间维度，列方向表示频率维度，故在行方向对时频谱图进行块切分时需使邻切分的两个时频谱图块间具有预设重叠维度数，在列方向对时频谱图进行块切分时(即切分完一行进入下一行切分时)也需使相邻行的时频谱图块间具有预设重叠维度数。在实际应用中，对时频谱图进行切分时，可将时频谱图切成每个大小为16×16的N个时频谱图块，且在时间维度和频率维度上具有预设重叠维度数6，即时间和频率都是6个维度的重叠。

步骤S103，通过经训练的块嵌入层获取多个时频谱图块各自对应的块嵌入特征，得到多个块嵌入特征。

本步骤主要是将各时频谱图块进行特征向量的表示。具体的，参考图2，经训练的块嵌入层的作用在于将每个时频谱图块分别进行特征向量的表示，该块嵌入层可采用线性投射层，线性投射层可以是具有大的卷积核及卷积步长的卷积层。在具体实现中，本步骤将每个16×16的时频谱图块输入到经训练的块嵌入层，块嵌入层可将每个16×16的时频谱图块对应转化为1维768大小的块嵌入特征，得到多个块嵌入特征，如图2所示的块嵌入特征E。

步骤S104，将多个块嵌入特征及多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层，得到位置嵌入层输出的位置嵌入特征序列。

具体的，后续步骤中自注意力模型无法自行捕获所输入特征的顺序信息，而前述多个块嵌入特征也不是按时间顺序排列。由此，本步骤中，经训练的位置嵌入层的主要作用是获得包含有时频谱图的局部信息及空间结构信息的特征序列，其中的时频谱图的局部信息已包含在前述步骤的各块嵌入特征中，空间结构信息则需结合时频谱图块的切分顺序信息进行获取。本步骤中的位置嵌入层可采用卷积层，将多个块嵌入特征及多个时频谱图块的切分顺序信息输入至位置嵌入层，位置嵌入层结合每一块嵌入特征及其切分顺序信息相应得到多个位置嵌入特征，该多个位置嵌入特征组成位置嵌入特征序列。其中，该位置嵌入特征序列中的位置嵌入特征包含相应的块嵌入特征，及该块嵌入特征对应的时频谱图块在时频谱图中的位置特征，该位置特征表征的是相应时频谱图块在时频谱图中的相对位置信息，由此位置嵌入层捕获二维的音频时频谱图的空间结构信息，故位置嵌入特征序列中依序包含了时频谱图中每个时频谱图块的块嵌入特征及每个时频谱图块在时频谱图中的位置特征，使该位置嵌入特征序列包含有时频谱图的局部信息及空间结构信息。

在一些实施例中，步骤S104中的将多个块嵌入特征及多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层，具体包括：

根据多个时频谱图块的切分顺序生成多个切分顺序标识，并将多个切分顺序标识对应携带在多个块嵌入特征中；将携带多个切分顺序标识的多个块嵌入特征输入至位置嵌入层。

本实施例中，根据多个时频谱图块的切分顺序生成多个切分顺序标识，以将切分顺序信息用切分顺序标识进行表示。具体的，如图2所示，首个切分可表示为CLS，第二个切分可表示为1，以此类推，最后一个切分可表示为N，该CLS、1、……、N为多个切分顺序标识；在得到多个切分顺序标识后，相应地，将该多个切分顺序标识对应携带在多个块嵌入特征中，得到携带多个切分顺序标识的多个块嵌入特征E[CLS]、E[1]、……、E[N]，然后将该携带多个切分顺序标识的多个块嵌入特征E[CLS]、E[1]、……、E[N]输入位置嵌入层。其中每个块嵌入特征可以携带一个切分顺序标识。

进一步的，位置嵌入层，用于根据所输入的多个块嵌入特征中携带的多个切分顺序标识，得到多个块嵌入特征分别对应的多个位置特征(位置特征可以是切分顺序标识进行特征向量表示得到的)，将相对应的块嵌入特征及位置特征进行组合得到位置嵌入特征，根据组合得到的多个位置嵌入特征形成位置嵌入特征序列。具体的，如图2所示，位置嵌入层可将多个块嵌入特征中携带的多个切分顺序标识进行特征向量表示得到多个块嵌入特征分别对应的多个位置特征P[0]、P[1]、……、P[N]，然后将该多个块嵌入特征E及位置特征P进行组合得到位置嵌入特征，其中，若块嵌入特征为1维768大小，则位置特征也是1维768大小，然后可将每一块嵌入特征E与其对应的位置特征P相加得到多个位置嵌入特征(E+P)，从而该多个位置嵌入特征依序形成位置嵌入特征序列。

步骤S105，将位置嵌入特征序列输入经训练的自注意力模型的编码器，得到编码器输出的时频谱图的特征表示。

本步骤主要是根据所获得的位置嵌入特征序列生成时频谱图的总的特征表示。如图2所示，具体的，本步骤通过经训练的自注意力模型的编码器将位置嵌入特征序列转化为时频谱图的特征表示，该自注意力模型的编码器可采用Transformer模型的编码器，即在具体应用中可通过Transformer模型的编码器将位置嵌入特征序列转化为时频谱图的特征表示，该特征表示可为该时频谱图对应的1维特征向量，从而充分利用Transformer对音频全局特征的表达能力，能实现具有更高鲁棒性的敏感内容识别性能。

步骤S106，基于时频谱图的特征表示，识别待识别音频是否包含敏感内容。

本步骤主要是根据时频谱图的总的特征表示判断待识别音频是否包含敏感内容，最终的判断结果可以包括该待识别音频为包含敏感内容的音频或为不包含敏感内容的音频，还可以进一步为包含某类敏感内容的音频等。具体实现中，时频谱图的总的特征表示可以是1维特征向量，本步骤可通过Sigmoid激活函数的线性层将该1维特征向量映射成敏感内容分类标签，该敏感内容分类标签(标签具体形式可以是0和1)可表示该待识别音频是否为包含敏感内容的音频。

上述音频敏感内容的识别方法，通过块嵌入层及位置嵌入层自学习提取时频谱图的局部特征信息及空间结构信息以避免人工特征选择带来信息损失，然后通过自注意力模型的编码器进行时频谱图的全局特征学习得到该时频谱图的特征表示并最终根据该特征表示识别待识别音频是否为包含敏感内容的音频，提高对音频敏感内容识别的准确性。该方案可应用于对互联网产品产生的海量音视频数据中音频敏感内容的识别，大幅度降低审核人力成本，在提高识别准确性的同时提高识别效率。

在一些实施例中，上述步骤S106中的基于时频谱图的特征表示，识别待识别音频是否包含敏感内容，具体包括：

将时频谱图的特征表示输入经训练的音频敏感内容分类器，得到音频敏感内容分类器输出的敏感内容分类标签；根据敏感内容分类标签，确定待识别音频是否包含敏感内容。

如图2所示，本实施例可在块嵌入层、位置嵌入层及自注意力模型的编码器的基础上结合音频敏感内容分类器进行音频敏感内容分类识别。其中，音频敏感内容分类器可以采用Sigmoid激活函数的线性层，将时频谱图的特征表示映射至敏感内容分类标签，该敏感内容分类标签的具体形式可以是0和1，分别表示为包含敏感内容和不包含敏感内容，其具体形式还可以是更多的数值，以表示包含敏感内容的具体类型，如包含敏感内容A、敏感内容B等等，从而根据音频敏感内容分类器输出的敏感内容分类标签可确定待识别音频是否为包含敏感内容的音频及包含哪些类型的敏感内容，丰富音频敏感内容识别的种类也便于对音频敏感内容识别种类作进一步扩展。

进一步的，如图3所示，在一些实施例中，还可以包括以下步骤：

步骤S301，获取预先经过训练的音频分类模型。

本步骤中，预先经过训练的音频分类模型包括块嵌入层、位置嵌入层、自注意力模型的编码器。其中，该音频分类模型中包含的块嵌入层、位置嵌入层、自注意力模型的编码器对音频的处理流程与前述实施例中的块嵌入层、位置嵌入层、自注意力模型的编码器及音频敏感内容分类器相同，不同的是，该音频分类预训练模型不是针对敏感内容识别的模型，是针对更大的音频分类的识别模型，如识别是否包含男声、女声、某类乐器等音频分类，该音频分类预训练模型可采用AudioSet数据集进行训练。

步骤S302，将预训练的块嵌入层、位置嵌入层、自注意力模型的编码器作为待训练的嵌入层、位置嵌入层及自注意力模型的编码器。

本步骤是将预先经过训练的音频分类模型中的预训练的块嵌入层、位置嵌入层、自注意力模型的编码器迁移过来作为待训练的嵌入层、位置嵌入层及自注意力模型的编码器。这是因为基于自注意力模型的识别相比CNN需要更多的训练数据，而针对音频敏感内容识别的训练数据量并不大，而音频分类预训练模型可采用AudioSet数据集进行训练，故引入预训练机制，基于AudioSet数据集训练一个大的音频分类预训练模型，从而利用迁移学习，将音频分类预训练模型中的预训练的块嵌入层、位置嵌入层、自注意力模型的编码器作为待训练的嵌入层、位置嵌入层及自注意力模型的编码器，在此基础上利用音频敏感内容识别的训练数据进行训练，降低过拟合概率以提高普适性。

步骤S303，获取音频样本及获取音频样本对应的敏感内容分类标签。

本步骤中，音频样本的数量可以是多个，包括包含敏感内容的音频样本及不包含敏感内容的音频样本，音频样本对应的敏感内容分类标签可以包括包含敏感内容及不包含敏感内容，还可以包括包含何种类型的敏感内容等。

步骤S304，提取音频样本的时频谱图作为时频谱图样本。

该步骤S303和S304可归纳为获取音频样本的时频谱图样本以及获取该音频样本对应的敏感内容分类标签。

步骤S305，利用时频谱图样本及敏感内容分类标签对音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及音频敏感内容分类器进行训练。

步骤S304和S305主要是提取音频样本的时频谱图作为时频谱图样本，根据该时频谱图样本及对应的敏感内容分类标签统一对迁移过来的待训练的嵌入层、位置嵌入层、自注意力模型的编码器以及待训练的音频敏感内容分类器进行训练。训练过程中，音频敏感内容分类器输出敏感内容分类预测标签，将该敏感内容分类预测标签与敏感内容分类标签进行比对，根据比对结果调整该待训练的嵌入层、位置嵌入层、自注意力模型的编码器以及待训练的音频敏感内容分类器中的参数，直至比对结果表明敏感内容分类预测标签与敏感内容分类标签之间的误差低于设定误差阈值，得到训练好的嵌入层、位置嵌入层、自注意力模型的编码器及音频敏感内容分类器。

上述实施例通过预训练机制及迁移学习，可在音频敏感内容的训练数据量不足的情况下，避免过拟合的概率以提高普适性，且训练过程具有快速收敛的优点。

进一步的，在一些实施例中，上述步骤S303中的获取音频样本对应的敏感内容分类标签，具体包括：

根据音频样本是否包含敏感内容，得到音频样本的第一标签；根据音频样本中敏感内容占比，得到音频样本的第二标签；将该第一标签和第二标签作为音频样本对应的敏感内容分类标签。

本实施例主要是在标签层面提高对音频敏感内容识别的鲁棒性。具体的，由于每个音频都具有一定时间的音频内容，其有时是敏感内容与非敏感内容混杂在一起的，故本实施例在根据音频样本是否包含敏感内容得到音频样本的第一标签(即表示是否含有敏感内容)的基础上，进一步增加第二标签与该第一标签一并作为敏感内容分类标签。其中，该第二标签根据音频样本中敏感内容占比得到，敏感内容占比可以表示为该音频中敏感内容与非敏感内容的比例，将该比例作为第二标签，然后将第一标签和第二标签一并作为音频样本对应的敏感内容分类标签，本实施例基于该包含第一标签和第二标签的敏感内容分类标签可改善模糊样本预测错误的问题，提高音频敏感内容识别的鲁棒性。

进一步的，在一些实施例中，上述步骤S305中的利用时频谱图样本及敏感内容分类标签对音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及音频敏感内容分类器进行训练，具体包括：

对时频谱图样本进行时间维度和/或频率维度的掩膜处理，得到时频谱图样本的第一干扰样本；对时频谱图样本进行时间维度和/或频率维度的混合处理，得到时频谱图样本的第二干扰样本；利用时频谱图样本、第一干扰样本、第二干扰样本及敏感内容分类标签对音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及音频敏感内容分类器进行训练。

本实施例主要是在样本层面提高对音频敏感内容识别的鲁棒性，其中，对音频敏感内容的识别具有样本量少、样本分布不均衡的特点，本实施例可通过掩膜、混合等处理以形成时频谱图样本的干扰样本，以丰富训练样本，提高音频敏感内容识别的鲁棒性。具体的，对于掩膜处理，可以包括时间维度和频率维度的掩膜处理，如图2所示，时间维度的掩膜处理可以是将某一时间对应的所有频率的强度设为0或1，频率维度的掩膜处理可以是将某一频率对应的所有时间的强度设为0或1，由此可对时频谱图样本进行时间维度和/或频率维度的掩膜处理，得到时频谱图样本的第一干扰样本。对于混合处理，可以包括时间维度和频率维度的混合处理，如图2所示，时间维度的混合处理可以是将某段时间对应的所有频率的强度与另一段时间对应的所有频率的强度进行叠加或置换等处理以达到混合的效果，频率维度的混合处理可以是将某段频率对应的所有时间的强度与另一段频率对应的所有时间的强度进行叠加或置换等处理以达到混合的效果，由此可对时频谱图样本进行时间维度和/或频率维度的混合处理，得到时频谱图样本的第二干扰样本。第一干扰样本及第二干扰样本的获得使训练样本得到丰富，然后利用时频谱图样本、第一干扰样本、第二干扰样本及敏感内容分类标签对待训练的嵌入层、位置嵌入层、自注意力模型的编码器以及待训练的音频敏感内容分类器进行训练，提高其对音频内容识别的抗干扰和鲁棒性。

在一个实施例中，还提供了一种音频敏感内容的识别方法，如图4所示，该方法包括以下步骤：

步骤S401，获取原始音频。

步骤S402，将原始音频输入至第一音频敏感内容识别模型，得到第一音频敏感内容识别模型输出的原始音频中包含敏感内容的多个音频片段。

步骤S403，将多个音频片段作为待识别音频输入至第二音频敏感内容识别模型，得到第二音频敏感内容识别模型输出的针对每一音频片段的敏感内容识别结果。

步骤S404，根据每一音频片段的敏感内容识别结果，确定原始音频是否为敏感音频。

本实施例主要是采用第一音频敏感内容识别模型及第二音频敏感内容识别模型串联识别的方式确定原始音频是否为敏感音频。其中，第一音频敏感内容识别模型可以采用CRNN模型，第二音频敏感内容识别模型则根据本申请上述各实施例提供的音频敏感内容的识别方法识别待识别音频是否为包含敏感内容的音频。第一音频敏感内容识别模型用于定位音频中包含敏感内容的音频片段，第二音频敏感内容识别模型用于对输入的音频进行识别，以确定音频是否包含敏感内容。

参考图5，具体的，原始音频可先输入到第一音频敏感内容识别模型中，由第一音频敏感内容识别模型进行初步的敏感内容识别，并在原始音频中定位和输出原始音频中包含敏感内容的多个音频片段，该每一音频片段被第一音频敏感内容识别模型识别为疑似含有敏感内容，然后将该每一音频片段分别作为待识别音频输入到第二音频敏感内容识别模型进行二次识别与确认，该第二音频敏感内容识别模型根据本申请上述各实施例提供的音频敏感内容的识别方法识别每一音频片段是否为包含敏感内容的音频，得到针对每一音频片段的敏感内容识别结果，最后根据该每一音频片段的敏感内容识别结果确定原始音频是否为敏感音频，在具体应用中，若第二音频敏感内容识别模型确定该多个音频片段中具有至少一个包含敏感内容的音频片段(如第二音频敏感内容识别模型识别该音频片段含有敏感内容的概率高于设定概率阈值)时，可将原始音频确定为敏感音频。

本实施例的方案提供先粗后细的音频敏感内容识别方式，先基于第一音频敏感内容识别模型对整段原始音频包含的疑似音频片段进行粗定位，从而在该环节对疑似敏感音频具有更高的召回率，然后再利用第二音频敏感内容识别模型进行更精细的二次识别与确认，在该环节提高音频内容识别的准确性，以提升整体的音频敏感内容识别性能，尤其是在长音频中存在多段的敏感内容片段的情况下具有更好的识别性能。

在另一实施例中，还提供了一种音频敏感内容的识别方法，如图6所示，该方法包括：

步骤S601，获取原始音频。

步骤S602，将原始音频作为待识别音频输入至第二音频敏感内容识别模型，得到第二音频敏感内容识别模型输出的针对原始音频的敏感内容识别结果。

步骤S603，第二音频敏感内容识别模型输出的敏感内容识别结果表征原始音频为包含敏感内容的音频时，将原始音频输入至第一音频敏感内容识别模型，得到第一音频敏感内容识别模型输出的针对原始音频的敏感内容识别结果。

步骤S604，根据第一音频敏感内容识别模型输出的敏感内容识别结果，确定原始音频是否为敏感音频。

本实施例中，与前一实施例不同之处在于本实施例通过第二音频敏感内容识别模型进行初筛，通过第一音频敏感内容识别模型进行二次识别。具体的，先将原始音频作为待识别音频输入至第二音频敏感内容识别模型，得到第二音频敏感内容识别模型输出的针对原始音频的敏感内容识别结果，该敏感内容识别结果可以是该原始音频是否属于包含敏感内容的音频，若是，则进一步将原始音频输入至第一音频敏感内容识别模型，该第一音频敏感内容识别模型可进一步判断该原始音频中是否包含有敏感内容以及输出包含有敏感内容的音频片段，这些都可以作为第一音频敏感内容识别模型输出的敏感内容识别结果，从而当第一音频敏感内容识别模型识别并输出至少一个音频片段时，可确定原始音频为敏感音频，达到精确识别并快速定位原始音频中包含敏感内容的音频片段的效果。

在又一实施例中，还提供了一种音频敏感内容的识别方法，如图7所示，该方法包括：

步骤S701，获取原始音频。

步骤S702，将原始音频输入至第一音频敏感内容识别模型，得到第一音频敏感内容识别模型输出的针对原始音频的敏感内容识别结果。

步骤S703，将原始音频作为待识别音频输入至第二音频敏感内容识别模型，得到第二音频敏感内容识别模型输出的针对原始音频的敏感内容识别结果。

步骤S704，根据第一音频敏感内容识别模型输出的敏感内容识别结果，以及第二音频敏感内容识别模型输出的敏感内容识别结果，确定原始音频是否为敏感音频。

本实施例中，与前述实施例不同的是，本实施例通过第一音频敏感内容识别模型和第二音频敏感内容识别模型并联的方式对原始音频进行敏感内容识别。具体的，获取原始音频后，一方面将原始音频输入第一音频敏感内容识别模型得到第一音频敏感内容识别模型输出的敏感内容识别结果，另一方面将原始音频输入第二音频敏感内容识别模型得到第二音频敏感内容识别模型输出的敏感内容识别结果，然后综合该两个结果确定原始音频是否为敏感音频。示例性的，若两个模型的识别结果均为原始音频不是敏感音频，则综合确定原始音频不是敏感音频；若两个模型的识别结果均为原始音频是敏感音频，则综合确定原始音频是敏感音频；若两个模型的识别结果不一致，如其中一个模型的识别结果为原始音频属于敏感音频的概率为P1，另一模型给出的概率为P2，则可根据为两个模型分别赋予的权重将两个概率进行加权得到综合概率P，根据该综合概率判断原始音频是否为敏感音频。例如，若该综合概率P大于或等于设定概率阈值，则判断原始音频为敏感音频，若否则判断其不是敏感音频。本实施例的方案可在不同的音频识别场景(如长音视频、短音视频场景)为两个模型赋予相应的权重，以体现不同模型在不同音频识别场景的识别优势，提高识别准确性。

本申请提供的音频敏感内容的识别方法可应用于对K歌等产品的音频作品片段审核，还可应用于影视作品或音视频节目内容审核中，针对如用户上传的音频片段(短音视频、直播实时音频)进行音频敏感内容识别，识别结果可展示在相关人员的终端设备上，如图8所示，所展示的具体信息可以包括所识别的音频片段和识别结果及其置信度(即属于敏感内容A的概率)，以供进一步的人工复审等处理。本申请可在海量音视频数据中实现音频敏感内容的智能识别，大大降低了音频敏感内容审核的人工成本，极大地提高了审核的效率和及时性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别音频等数据。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频敏感内容的识别方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory，MRAM)、铁电存储器(Ferroelectric RandomAccess Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static RandomAccess Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccessMemory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频敏感内容的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述时频谱图切分为多个时频谱图块，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层，包括：

根据所述多个时频谱图块的切分顺序生成多个切分顺序标识，并将所述多个切分顺序标识对应携带在所述多个块嵌入特征中；

将携带所述多个切分顺序标识的多个块嵌入特征输入至所述位置嵌入层。

4.根据权利要求3所述的方法，其特征在于，所述位置嵌入层，用于根据所述多个块嵌入特征中携带的多个切分顺序标识，得到所述多个块嵌入特征分别对应的多个位置特征，将相对应的块嵌入特征及位置特征进行组合得到位置嵌入特征，根据组合得到的多个位置嵌入特征形成所述位置嵌入特征序列。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述时频谱图的特征表示，识别所述待识别音频是否包含敏感内容，包括：

将所述时频谱图的特征表示输入经训练的音频敏感内容分类器，得到所述音频敏感内容分类器输出的敏感内容分类标签；

根据所述敏感内容分类标签，确定所述待识别音频是否包含敏感内容。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取预先经过训练的音频分类模型，所述音频分类模型包括块嵌入层、位置嵌入层及自注意力模型的编码器；

获取音频样本的时频谱图样本以及获取所述音频样本对应的敏感内容分类标签；

利用所述时频谱图样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练。

7.根据权利要求6所述的方法，其特征在于，所述获取所述音频样本对应的敏感内容分类标签，包括：

根据所述音频样本是否包含敏感内容，得到所述音频样本的第一标签；

根据所述音频样本中敏感内容占比，得到所述音频样本的第二标签；

将所述第一标签和第二标签作为所述音频样本对应的敏感内容分类标签。

8.根据权利要求6所述的方法，其特征在于，所述利用所述时频谱图样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练，包括：

对所述时频谱图样本进行时间维度和/或频率维度的掩膜处理，得到所述时频谱图样本的第一干扰样本；

对所述时频谱图样本进行时间维度和/或频率维度的混合处理，得到所述时频谱图样本的第二干扰样本；

利用所述时频谱图样本、第一干扰样本、第二干扰样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练。

9.一种音频敏感内容的识别方法，其特征在于，包括：

获取原始音频；

其中，所述第二音频敏感内容识别模型，用于根据权利要求1至8中任一项所述的方法识别待识别音频是否包含敏感内容。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。