CN115148211A

CN115148211A - 音频敏感内容检测方法、计算机设备和计算机程序产品

Info

Publication number: CN115148211A
Application number: CN202210736939.9A
Authority: CN
Inventors: 郑炜乔
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-04

Abstract

本申请涉及一种音频敏感内容检测方法、计算机设备和计算机程序产品。本申请能实现在海量直播音频视频中对音频内容进行快速检测，提高音频内容检测效率。该方法包括：获取待检测音频片段；提取待检测音频片段的待检测音频特征向量；将待检测音频特征向量输入关键词音素检测模型进行检测，得到词格网络；基于关键词音素的关键词音素转移概率，针对词格网络进行路径搜索，得到输出概率高于预设概率阈值的多条候选词格路径；针对多条候选词格路径对应的待检测音频片段进行语音识别，得到多个音频文本识别结果；针对多个音频文本识别结果进行关键词文本检测，得到命中预设关键词文本的音频文本；将音频文本对应的音频片段部分作为包含敏感内容的音频。

Description

音频敏感内容检测方法、计算机设备和计算机程序产品

技术领域

本申请涉及语音识别技术领域，特别是涉及一种音频敏感内容检测方法、计算机设备和计算机程序产品。

背景技术

随着互联网技术的发展，直播也得到越来越广泛的应用。直播可应用到各行业以促进各行业发展，如直播+电商、直播+娱乐、直播+培训等，对其中音频内容进行检测，有利于促进各行业良性发展。

目前，对音频内容检测方法主要包括音频关键词检测和语音识别检测。其中，音频关键词检测主要是计算关键词音频与待检测音频之间的声学特征相似度，语音识别检测的主要是将待检测音频精准识别为文本后从中检测出是否包含预设关键词文本。但在实时、大量的音频场景下，该类技术存在对音频内容检测效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种音频敏感内容检测方法、计算机设备和计算机程序产品。

第一方面，本申请提供了一种音频敏感内容检测方法。所述方法包括：

获取待检测音频片段；

提取所述待检测音频片段的待检测音频特征向量；

将所述待检测音频特征向量输入经训练的关键词音素检测模型进行检测，得到词格网络；

基于关键词音素的关键词音素转移概率，针对所述词格网络进行路径搜索，得到输出概率高于预设概率阈值的多条候选词格路径；其中，所述关键词音素是由预设关键词分解得到的；

针对所述多条候选词格路径对应的待检测音频片段进行语音识别，得到多个音频文本识别结果；

针对所述多个音频文本识别结果进行关键词文本检测，得到命中预设关键词文本的音频文本；将所述音频文本在所述待检测音频片段中对应的音频片段部分作为包含敏感内容的音频。

第二方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述音频敏感内容检测方法实施例中的各步骤。

第三方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述音频敏感内容检测方法实施例中的各步骤。

上述音频敏感内容检测方法、计算机设备和计算机程序产品，通过获取待检测音频片段；提取待检测音频片段的待检测音频特征向量；将待检测音频特征向量输入经训练的关键词音素检测模型进行检测，得到词格网络；基于关键词音素的关键词音素转移概率，针对词格网络进行路径搜索，得到输出概率高于预设概率阈值的多条候选词格路径；其中，关键词音素是由预设关键词分解得到的；针对多条候选词格路径对应的待检测音频片段进行语音识别，得到多个音频文本识别结果；针对多个音频文本识别结果进行关键词文本检测，得到命中预设关键词文本的音频文本；将音频文本在待检测音频片段中对应的音频片段部分作为包含敏感内容的音频。本申请通过多模型级联的方式对音频进行检测，能够实现在海量直播音频视频中对音频内容进行精准快速的检测，提高音频内容检测效率并保证音频内容检测及时性和精准率，降低误召回，节省人工审核成本。

附图说明

图1为一个实施例中音频敏感内容检测方法的应用环境图；

图2为一个实施例中音频敏感内容检测方法的流程示意图；

图3为另一个实施例中音频敏感内容检测方法的流程示意图；

图4为另一个实施例中关键词检测步骤的流程示意图；

图5为一个实施例中音频敏感内容检测方法的流程示意图；

图6为一个实施例中关键词音素转移概率的计算流程示意图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的音频敏感内容检测方法，可以应用于如图1所示的应用环境中。其中，终端101通过网络与服务器102进行通信。数据存储系统可以存储服务器102需要处理的数据。数据存储系统可以集成在服务器102上，也可以放在云上或其他网络服务器上。其中，终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种音频敏感内容检测方法，以该方法应用于图1中的服务器102为例进行说明，包括以下步骤：

步骤S201，获取待检测音频片段。

其中，待检测音频片段是指原始语音信号经过预处理后得到的有效语音片段，原始语音信号是指原始视频，例如可以是直播音频数据流或直播视频数据流。预处理可以是语音端点检测等预处理技术，通过预处理去除原始语音信号中的静音部分或噪声部分，得到易于后续处理的有效语音片段。

具体地，通过直播软件后台获取原始语音信号，包括音频流或视频流，由于直播作品发布者较多，因此可批量获取音视频流。例如，可在直播软件后台接收作品发布者上报的直播流链接，实时下载或拉取直播流。为了提高音频检测的效率，还需要对直播流抽取音频通道信号、对音频进行统一编码格式转换、归一化和预加重等预处理操作，得到有效语音片段，即上述待检测音频片段。

步骤S202，提取待检测音频片段的待检测音频特征向量；

其中，待检测音频特征向量是对待检测音频片段的计算机语言描述，由于声音这种物理波形无法直接被计算机识别，因此需要对波形进行变换得到可以描述语音特征的数字信号。

具体地，需要提取待检测音频片段中的待检测音频特征向量X＝[x₁,x₂…x_t]，其中，x_t表示第t帧的音频特征向量；具体来说，将待检测音频片段进行分帧处理，即将待检测音频片段切开成一小段，一小段，每小段称为一帧，每一帧约10ms。分帧后，语音就变成了很多小段，即多帧语音信号。但波形在时域上几乎没有描述能力，因此必须将波形作变换。本实施例使用的变换方法为通过短时傅里叶变换(STFT，short-time Fourier transform，或short-term Fourier transform)进行声学特征提取，得到待检测音频特征向量，该待检测音频特征向量可以选择梅尔对数倒谱、Fbank(FilterBank)和MFCC(Mel FrequencyCepstral Coefficent，梅尔频率倒谱系数)中的一种或多种来描述。

步骤S203，将所述待检测音频特征向量输入经训练的关键词音素检测模型进行检测，得到词格网络；

其中，关键词音素检测模型是一种语音识别神经网络模型，能够基于预设关键词在待检测音频中识别出与预设关键词的构成音素相似的待检测音素。词格网络(Lattices)是语音识别中用于表示识别结果的表示形式。

如图3所示，图3为上述音频敏感内容检测方法的另一流程示意图；将待检测音频特征向量X＝[x₁,x₂…x_t]输入经训练的关键词音素检测模型，得到待检测音频片段对应的词格网络。词格网络中包含多个待检测音素以及各个待检测音素对应的权重，例如(wo，0.5)、(shi，0.3)、(shui，0.2)。

步骤S204，基于关键词音素的关键词音素转移概率，针对所述词格网络进行路径搜索，得到输出概率高于预设概率阈值的多条候选词格路径；其中，所述关键词音素是由预设关键词分解得到的；

其中，预设关键词是指人为设定的敏感词，由于在直播过程中，有些主播为了吸引粉丝或发泄情绪而使用了一些违规的内容，例如辱骂、欺诈等。音素是构成声音的基本单元，单词的发音由音素构成。如英语，可由39个音素构成的音素集，如汉语可直接用全部声母和韵母作为音素集。一个或多个音素组合成一个单词。因此，上述预设关键词是由特定的关键词音素构成的，例如构成“小明”这个词的音素为“x”、“iao”、“m”、“ing”；对于关键词音素转移概率，在语音识别模型中，常用HMM(Hidden Markov Model，隐马尔科夫模型)构建语音识别模型，模型中包括多个状态构成的链式结构，在链式结构中，内部状态的转移与上一状态有关，关键词音素转移概率是指两个音素之间的转移概率，例如上述“小明”中，从“x”到“iao”之间按照汉语语法规则可统计出一定的概率，这个概率称为关键词音素转移概率。输出概率是指最终得到的字的概率，例如上述得到“小”的概率即为输出概率。

具体地，如图3所示，将上述检测得到的词格网络输入经训练的分类器，以使分类器基于预设关键词音素的关键词音素转移概率，在上述词格网络中进行路径搜索，得到输出概率高于预设概率阈值的多条候选词格路径，例如若预设关键词为“小明”，则基于“小明”的关键词音素转移概率在上述词格网络中搜索与“小明”相似的词格路径(音素路径)，得到多条候选歌词路径(N best lattices)，例如可能得到“xiao’ming”(小明)或“xian’ming”(鲜明)等。

步骤S205，针对多条候选词格路径对应的待检测音频片段进行语音识别，得到多个音频文本识别结果。

其中，语音识别是是一般的语音识别模型，即将语音识别为文字的模型。

具体地，如图3所示，将上述多条候选词格路径(N best lattices)对应的待检测音频片段输入语音识别模型中进行语音识别，得到各条候选词格路径对应的文本结果例如上述“小明”和“鲜明”。

步骤S206，针对多个音频文本识别结果进行关键词文本检测，得到命中预设关键词文本的音频文本；将音频文本在待检测音频片段中对应的音频片段部分作为包含敏感内容的音频。

具体地，识别上述文本结果后，虽然对于人类来讲已经能够一目了然的知道哪些是命中了关键词哪些并非命中关键词，但对于机器(计算机)来讲，计算机并不能在这些文本知道其内在含义，所以也不能知道哪些是真正命中了关键词，因此还需要对上述不同的文本检测结果进行关键词文本检测，如图3所示，针对上述不同的文本结果进行文本检测，以检测出与预设关键词的文本相同的结果，将该结果对应的音频片段作为包含敏感内容的音频。将上述文本识别结果输入经训练的字符识别模型，例如CTC(Connectionisttemporal classification，联接时间分类器)模型，得到字符识别模型输出的疑似命中音频对应的字符；针对字符进行关键词匹配，即输出的文字再经过关键词匹配判断是否命中预设关键词，当命中关键词且概率得分超过设定阈值时，将上述疑似命中音频召回，并进入人工审核通道。例如对上述“小明”和“鲜明”进行检测，得到与预设关键词文本“小明”相同的文本，从而找到对应的待检测音频片段，将该片段作为包含敏感内容的音频，并将该音频片段召回进入人工审核通道。

上述实施例，通过获取待检测音频片段；提取待检测音频片段的待检测音频特征向量；将待检测音频特征向量输入经训练的关键词音素检测模型进行检测，得到词格网络；基于关键词音素的关键词音素转移概率，针对词格网络进行路径搜索，得到输出概率高于预设概率阈值的多条候选词格路径；其中，关键词音素是由预设关键词分解得到的；针对多条候选词格路径对应的待检测音频片段进行语音识别，得到多个音频文本识别结果；针对多个音频文本识别结果进行关键词文本检测，得到命中预设关键词文本的音频文本；将音频文本在待检测音频片段中对应的音频片段部分作为包含敏感内容的音频。本实施例通过关键词音素检测模型、语音识别模型、文本检测模型等多模型级联的方式对音频内容进行检测，能够实现在海量直播音频视频中对音频内容进行精准快速的检测，与传统的全量语音识别相比，本实施例仅需要对少量命中关键词音素的候选词格路径进行语音识别和文本检测，大大减少了后台计算量，节约后台计算资源，提高音频内容检测效率并保证音频内容检测及时性和精准率，降低误召回，节省人工审核成本。

在一实施例中，上述步骤S204包括：基于关键词音素的关键词音素转移概率，在词格网络中计算各个词格路径的输出概率；将各个词格路径的输出概率输入分类器中，得到高于预设概率阈值的多条候选词格路径。

具体地，如图3所示，将上述检测得到的词格网络输入经训练的分类器，以使分类器基于预设关键词音素的关键词音素转移概率，在上述词格网络中进行路径搜索，由于词格网络中包含了各个音素的概率，这些音素经过转换得到相应的字，输出字的概率(即输出概率)与组成该字的音素概率(转移概率)直接相关，为了检测音频片段中是否包含预设关键词，首先需要在上述词格网络中计算各个词格路径的输出概率，然后计算输出概率高于预设概率阈值的多条候选词格路径，例如若预设关键词为“小明”，则基于“小明”的关键词音素转移概率在上述词格网络中搜索与“小明”相似的词格路径(音素路径)，得到多条候选歌词路径(N best lattices)，例如可能得到“xiao’ming”(小明)，输出概率为0.8，或“xian’ming”(鲜明)，输出概率为0.2；将这些输出概率输入分类器中，得到高于预设概率阈值(例如0.7)的输出概率，例如得到上述输出概率为0.8的“xiao’ming”(小明)。进一步地，此时可将输出概率为0.8的“xiao’ming”(小明)对应的音频片段作为疑似命中音频进行召回，而将低于预设概率阈值的音频片段作为正常音频内容。

上述实施例，通过设置分类器过滤掉低于预设概率阈值的词格路径，并得到高于预设概率阈值的词格路径，并将高于预设概率阈值的词格路径对应的音频作为疑似命中音频进行召回，以便进入后台做进一步检测，该步骤能够过滤掉大部分正常音频内容，避免将正常音频内容也拉入后台进行识别检测，浪费过多的计算资源。

在一实施例中，上述经训练的关键词音素检测模型包括第一编码器和联合网络；如图4所示，上述步骤S203包括：

步骤S401，将待检测音频特征向量通过第一编码器进行编码，得到待检测音频片段的高层嵌入音频特征；

其中，如图5所示，关键词检测模型包括第一编码器和联合网络；联合网络主要是一些前馈层组成的深度网络。

第一编码器，为Conformer(异构，或者称为混合)结构的深度神经网络编码器，用于计算声学特征的高层声学表示，在本申请中，用于计算上述待检测音频特征向量的高层向量；第一编码器也可以是其他深度神经网络结构，包括但不限于CNN(ConvolutionalNeural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆循环神经网络)、Transformer等。上述待检测音频特征向量经第一编码器处理后得到高层嵌入音频特征

其中，

为第t帧的高层嵌入音频特征，如图5中所示。

可选地，上述第一编码器主要是在模型中引入更多卷积层提升特征表达能力，该第一编码器还可以是其他类型的深度神经网络结构，例如还可以是CNN(ConvolutionalNeural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆循环神经网络)、Transformer等。

步骤S402，基于注意力机制对预设关键词的关键词音素进行计算的，得到各个关键词音素的关键词音素转移概率。

其中，关键词音素转移概率是指构成预设关键词的关键词音素之间的转移概率，如图5中的P_u所示。注意力机制可在某个特定时刻，将注意力集中在某个焦点部分(赋予更多的权重)而对其它部分视而不见。本实施例中，使用注意力机制能够计算得到预设关键词音素的关键词音素转移概率。

具体地，通过注意力机制对预设关键词的关键词音素进行计算，得到各个关键词音素的关键词音素转移概率P_u，P_u表示第u个关键词音素的转移概率。

步骤S403，通过联合网络结合各个关键词音素的关键词音素转移概率，对上述待检测音频片段的高层嵌入音频特征进行解码识别，得到待检测音频片段对应的词格网络。

其中，联合网络为解码器网络，主要是一些前馈层组成的深度神经网络。该联合网络能够融合上述第一编码器的输出以及上述预设关键词编码后的输出，联合网络的输出Z_t,u表示第t帧音频特征与第u个音素之间的映射关系。

具体地，将上述高层嵌入音频特征

和上述关键词音素转移概率向量P_u输入联合网络，得到待检测音频片段对应的词格网络Z_t,u，其中，Z_t,u表示第t帧高层嵌入音频特征与第u个音素之间的映射关系，这些映射关系可通过权重来表示，其中，与预设关键词音素相关的映射关系被赋予了更高的权重。

上述实施例，通过关键词检测模型结合预设关键词对上述高层嵌入音频特征进行解码识别，得到待检测音频片段的词格网络，为后续分类器分类提供数据基础。

在一实施例中，上述经训练的关键词音素检测模型还包括第二编码器、注意力编码模块和预测网络；如图6所示，上述步骤S402包括：

步骤S601，将上述预设关键词对应的多个关键词音素输入第二编码器，得到第二编码器输出的关键词音素嵌入特征；

具体地，如图5所示，将预设关键词(Key)转换为关键词音素序列Y＝[y₁,y₂…y_u]。其中，y_u为第u个关键词音素(label)。第二编码器使用关键词偏移算法，通过该第二编码器提取得到关键词音素序列Y的关键词音素序列嵌入特征k^enc。

步骤S602，将关键词音素嵌入特征k^enc输入注意力编码模块，使得注意力编码模块基于关键词音素之间的时间序列关系进行编码，得到每一个关键词音素的上下文特征向量C_u；

其中，上下文特征向量C_u是指基于关键词音素的时间序列关系得到的特征，例如“小明”(xiaoming)中，检测“iao”后，紧接着得到“m”的概率是最大的，不太可能其他音素。因此，可根据这些时间或位置序列关系得到预设关键词的关键词音素的上下文特征向量C_u。注意力编码模块能关注关键词音素的位置关系，输出反映关键词音素序列之间的关系的上下文特征向量C_u。

具体地，将关键词音素嵌入特征k^enc输入注意力编码模块，注意力编码模块可基于所述关键词音素之间的时间序列关系进行编码，得到每一个关键词音素的上下文特征向量C_u。

步骤S603，将多个关键词音素中的每个关键词音素作为当前关键词音素，针对当前关键词音素，通过预测网络基于当前关键词音素的上下文特征向量C_u和当前关键词音素的前序音素序列，预测得到当前关键词音素的关键词音素转移概率P_u；

具体地，预测网络是一个基于音素的语言模型，计算关键词音素label之间的转移概率，输入前u-1个音素y_u-1和上述注意力模型输出的反映关键词音素序列上下文信息的音素上下文特征向量C_u，经过预测网络后输出第u个音素的关键词音素转移概率向量P_u。该关键词音素转移概率向量P_u依赖于上述预设关键词的音素上下文特征向量C_u以及前序关键词音素(即前u-1个关键词音素y₁…y_u-1)。预测网络通过深度神经网络(该深度神经网络包括但不限于RNN、LSTM、Transformer、Bert等)或者N-gram模型学习音素的上下文信息的关联关系，实现当前输出音素标签的预测，同时，由于输入包括了上述注意力模型的输出，使得预测网络的输出偏向于预设关键词的音素识别结果。

上述实施例，通过使用第二编码器和利用了注意力机制的注意力模型，能够提高预设关键词的关注权重，引导在关键词预测和搜索过程中更偏向预设关键词的匹配，提升了关键词检测的准确率和实时性。

进一步地，上述实施例支持关键词灵活新增或删除时快速进行模型更新，而不用重新训练模型，简化了音频内容检测的流程，降低了模型复杂度。

在一实施例中，上述步骤S602包括：将多个关键词音素中的每个关键词音素作为当前关键词音素，针对当前关键词音素，通过注意力编码模块基于当前关键词音素的前序音素序列的隐藏层节点状态

和当前关键词音素的关键词音素嵌入特征k^enc，编码得到当前关键词音素的上下文特征向量。

具体地，如图5所示，针对每个关键词音素，计算其上下文特征向量。例如，针对第u个关键词音素y_u，通过注意力编码模块基于其前序音素序列(即前u-1个音素序列)的隐藏层节点状态

和当前关键词音素y_u的关键词音素嵌入特征k^enc，编码得到当前关键词音素y_u的上下文特征向量C_u。

上述实施例，通过注意力编码模块计算每个关键词音素的上下文特征向量，为后续识别出待检测音频片段的词格网络提供数据基础。

在一实施例中，上述步骤S205包括：将多条候选词格路径对应的待检测音频片段输入语音识别模型中，使得语音识别模型基于单词序列关系对待检测音频片段进行解码，得到多个音频文本识别结果。

具体地，将上述多条候选词格路径(N best lattices)对应的待检测音频片段输入语音识别模型中基于单词序列关系进行解码，得到多个音频文本识别结果。

上述实施例，通过语音识别模型识别出多个文本，有利于后续检测出与关键词文本一致的文本。

在一实施例中，上述步骤S201包括：获取原始语音信号；针对原始语音信号进行音频端点检测，得到待检测音频片段。

具体地，首先对上述原始语音信号进行音频端点检测，音频端点检测也称语音边界检测即VAD(Voice Activity Detection，语音活动检测/语音端点检测)，是指在正式开始语音识别之前，需要将语音音频中的首尾端的静音或背景噪音切除，降低对后续步骤的干扰，最终得到的音频片段称为待检测音频片段。具体来说，可以针对原始语音信号的幅度、能量、过零率和基频等信息进行检测，去除静音段和噪声段，截取有效语音片段，减小静音段和噪声段对识别结果的影响。

上述实施例通过音频端点检测能够使得后续语音识别更准确和快速。

在一实施例中，上述方法还包括：将各个词格路径的输出概率输入分类器中，得到低于或等于预设概率阈值的词格路径；将低于或等于预设概率阈值的词格路径对应的待检测音频片段作为正常音频片段。

其中，分类器为补白模型的分类器，该分类器能够判断待检测音频帧的声学特征向量是否命中关键词并输出其概率得到关键词识别结果，如果命中关键词且概率得到超过预设阈值，则将此音频帧作为疑似命中音频进行下一步处理。

具体地，分类器能够针对高层嵌入音频特征

和上述关键词音素转移概率向量P_u之间的映射关系进行分类，通过预设阈值将命中预设关键词的音频特征向量区别出来，并将其对应的音频片段作为疑似命中音频，而将低于预设阈值的音频片段作为正常音频内容。

上述实施例，通过检测出正常音频内容，并放行正常音频内容，减少了后台检测工作量，节省算力。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设关键词以及音频敏感内容检测结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频敏感内容检测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述音频敏感内容检测方法实施例中的各步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述音频敏感内容检测方法实施例中的各步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频敏感内容检测方法，其特征在于，所述方法包括：

获取待检测音频片段；

提取所述待检测音频片段的待检测音频特征向量；

2.根据权利要求1所述的方法，其特征在于，所述基于关键词音素的关键词音素转移概率，针对所述词格网络进行路径搜索，得到输出概率高于预设概率阈值的多条候选词格路径，包括：

基于所述关键词音素的关键词音素转移概率，在所述词格网络中计算各个词格路径的输出概率；

将所述各个词格路径的输出概率输入分类器中，得到高于所述预设概率阈值的所述多条候选词格路径。

3.根据权利要求1所述的方法，其特征在于，所述经训练的关键词音素检测模型包括第一编码器和联合网络；所述将所述待检测音频特征向量输入经训练的关键词音素检测模型进行检测，得到词格网络，包括：

将所述待检测音频特征向量通过所述第一编码器进行编码，得到所述待检测音频片段的高层嵌入音频特征；

基于注意力机制对预设关键词的关键词音素进行计算，得到各个所述关键词音素的关键词音素转移概率；

通过所述联合网络结合各个所述关键词音素的关键词音素转移概率，对所述待检测音频片段的高层嵌入音频特征进行解码识别，得到所述待检测音频片段对应的词格网络。

4.根据权利要求3所述的方法，其特征在于，所述经训练的关键词音素检测模型还包括第二编码器、注意力编码模块和预测网络；所述基于注意力机制对预设关键词的关键词音素进行计算，得到各个所述关键词音素的关键词音素转移概率，包括：

将所述预设关键词对应的多个关键词音素输入所述第二编码器，得到所述第二编码器输出的关键词音素嵌入特征；

将所述关键词音素嵌入特征输入所述注意力编码模块，使得所述注意力编码模块基于所述关键词音素之间的时间序列关系进行编码，得到每一个关键词音素的上下文特征向量；

将所述多个关键词音素中的每个关键词音素作为当前关键词音素，针对当前关键词音素，通过所述预测网络基于所述当前关键词音素的上下文特征向量和所述当前关键词音素的前序音素序列，预测得到所述当前关键词音素的关键词音素转移概率。

5.根据权利要求4所述的方法，其特征在于，所述将所述关键词音素嵌入特征输入注意力编码模块，使得所述注意力编码模块基于所述关键词音素之间的时间序列关系进行编码，得到每一个关键词音素的上下文特征向量，包括：

将所述多个关键词音素中的每个关键词音素作为当前关键词音素，针对当前关键词音素，通过所述注意力编码模块基于所述当前关键词音素的前序音素序列的隐藏层节点状态和所述当前关键词音素的关键词音素嵌入特征，编码得到所述当前关键词音素的上下文特征向量。

6.根据权利要求1所述的方法，其特征在于，所述针对所述多条候选词格路径对应的待检测音频片段进行语音识别，得到多个音频文本识别结果，包括：

将所述多条候选词格路径对应的待检测音频片段输入语音识别模型中，使得所述语音识别模型基于单词序列关系对所述待检测音频片段进行解码，得到所述多个音频文本识别结果。

7.根据权利要求1所述的方法，其特征在于，所述获取待检测音频片段，包括：

获取原始语音信号；

针对所述原始语音信号进行音频端点检测，得到所述待检测音频片段。

8.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述各个词格路径的输出概率输入所述分类器中，得到低于或等于所述预设概率阈值的词格路径；

将低于或等于所述预设概率阈值的词格路径对应的待检测音频片段作为正常音频片段。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。