CN111462735A

CN111462735A - 语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN111462735A
Application number: CN202010278576.XA
Authority: CN
Inventors: 姚泽平; 杜彬彬; 李雨珂; 杨卫强; 朱浩齐
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-07-28
Anticipated expiration: 2040-04-10
Also published as: CN111462735B

Abstract

本申请公开了一种语音检测方法、装置、电子设备及存储介质，能够理解语音表达式的深层语义，从而检测出语音中包含的隐性违规内容，降低漏判概率，提高识别精度和识别效率。所述方法包括：对待检测语音进行语音识别，获得目标文本；基于已训练的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量获得所述目标文本对应的违禁类别，其中，训练所述文本分类模型的第一训练样本集中的每个训练样本包括文本样本和文本样本对应的违禁类别。

Description

语音检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音检测方法、装置、电子设备及存储介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着科学技术的发展，特别是信息技术的发展，记录信息的载体发生了天翻地覆的变化，从开始的格式化的书籍文本，到现在半格式化的语音视频，数据的种类还在不断的拓展进化。同时，随着互联网技术的发展和技术革新，信息传播的速度大幅度增快，数据量呈指数级暴增，同时数据质量参差不齐，给用户带来不好的影响。为了保证正常运营，内容平台需要对通过平台发布的内容进行审核。现有的语音审核技术主要是通过对语音识别技术将语音转换为文本，然后基于关键词匹配技术确定文本中是否包含预设违禁词，进而确定语音是否违规。

发明内容

但是，只使用关键词匹配技术语音审核方法，缺少对语音的高层次理解，忽略了语音的上下文信息，容易发生漏判。针对上述技术问题，非常需要一种改进的方法，能够理解语音表达式的深层语义，从而检测出语音中包含的隐性违规内容，降低漏判概率，提高识别精度和识别效率。

一方面，本申请一实施例提供了一种语音检测方法，包括：

对待检测语音进行语音识别，获得目标文本；

基于已训练的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量获得所述目标文本对应的违禁类别，其中，训练所述文本分类模型的第一训练样本集中的每个训练样本包括文本样本和文本样本对应的违禁类别。

可选地，所述文本分类模型包括：字嵌入模块、多层基于自注意力机制的深度编码器、以及分类器；

所述基于已训练的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量输出所述目标文本对应的违禁类别，具体包括：

所述字嵌入模块将所述目标文本转换为目标向量；

各层深度编码器分别对输入数据进行N次特征提取操作，获得文本特征向量并输出，其中，第一层深度编码器的输入数据为所述目标向量，其他各层深度编码器的输入数据为上一层深度编码器的输出；

所述分类器基于最后一层深度编码器输出的文本特征向量，输出所述目标文本对应的违禁类别。

可选地，所述方法还包括：

对所述目标文本进行关键词匹配，识别所述目标文本中包含的违禁词；

基于关键词匹配结果和所述文本分类模型的输出，确定所述目标文本对应的违禁类别。

可选地，所述对待检测语音进行语音识别，获得目标文本，具体包括：

获得待检测语音的音频特征向量；

基于已训练的语音识别模型，获得所述音频特征向量对应的目标文本。

可选地，所述语音识别模型包括：M个卷积层、M个第一自注意力模块、第二自注意力模块，所述M个第一自注意力模块中的每个第一自注意力模块之前设置一个卷积层，所述第二自注意力模块位于最后一个第一自注意力模块之后；

所述基于已训练的语音识别模型，获得所述音频特征向量对应的目标文本，具体包括：

各个卷积层对输入数据进行降采样处理后输出，其中，第一个卷积层的输入数据为所述音频特征向量，其他各个卷积层的输入数据为上一个第一自注意力模块的输出；

各个第一自注意力模块中的任一自注意力模块从位于所述任一自注意力模块之前的卷积层输出的数据中提取音频特征并输出；

所述第二自注意力模块对最后一个第一自注意力模块输出的音频特征进行解码，获得所述目标文本。

可选地，所述语音识别模型是基于联合损失函数训练得到的，所述联合损失函数是基于CTC损失函数和交叉熵损失函数确定的。

可选地，用于训练所述语音识别模型的第二训练样本集中的每个训练样本包括音频样本和音频样本对应的标注序列，所述标注序列是根据音频样本中各个音频帧对应的文字确定的；

在训练所述语音识别模型时，所述方法还包括：

删除所述音频样本的音频特征向量中的部分特征，获得第一音频特征向量，将所述音频样本对应的标注序列和所述第一音频特征向量作为一个对抗样本添加到所述第二训练样本集中。

可选地，所述获得待检测语音的音频特征向量，具体包括：

基于已训练的静音检测模型，获取待检测语音的音频特征中的静音片段；

将去除静音片段的音频特征确定为所述待检测语音的音频特征向量；

其中，所述静音检测模型包括卷积层、长短时记忆网络、深度神经网络和输出层，所述卷积层用于从所述待检测语音的音频特征中提取包含局部特征的第一特征向量，所述长短时记忆网络用于从所述第一特征向量中提取包含时序特征的第二特征向量，所述深度神经网络用于从所述第二特征向量中提取包含深度信息的第三特征向量，所述输出层输出基于所述第三特征向量获得所述静音片段在所述待检测语音的音频特征中对应的时间区间。

可选地，用于训练所述静音检测模型的第三训练样本集中的每个训练样本包括：音频样本和音频样本对应的标注标签，所述标注标签包括音频样本中静音片段和非静音片段对应的时间区间；

所述静音检测模型是基于如下损失函数训练得到的：

其中，X_i，j为所述第三训练样本集中的第i个音频样本的第j个音频帧，Y_i，j为根据第i个音频样本确定的表征X_i，j是否为静音片段的标注信息，W_i，j+k为第i个音频样本的第j+k个音频帧权重参数，f₃表示所述静音检测模型。

可选地，所述基于已训练的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量获得所述目标文本对应的违禁类别之前，所述方法还包括：

识别所述待检测语音对应的目标语种；

所述基于已训练的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量获得所述目标文本对应的违禁类别，具体包括：

基于所述目标语种对应的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量获得所述目标文本对应的违禁类别。

一方面，本申请一实施例提供了一种语音检测装置，包括：

语音识别单元，用于对待检测语音进行语音识别，获得目标文本；

分类识别单元，用于基于已训练的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量获得所述目标文本对应的违禁类别，其中，训练所述文本分类模型的第一训练样本集中的每个训练样本包括文本样本和文本样本对应的违禁类别。

所述分类识别单元具体用于：

所述字嵌入模块将所述目标文本转换为目标向量；

可选地，所述分类识别单元，还用于：

可选地，所述语音识别单元，具体用于：

获得待检测语音的音频特征向量；

所述语音识别单元，具体用于：

可选地，所述语音识别模型是通过训练单元训练获得的，用于训练所述语音识别模型的第二训练样本集中的每个训练样本包括音频样本和音频样本对应的标注序列，所述标注序列是根据音频样本中各个音频帧对应的文字确定的；

所述训练单元，还用于在训练所述语音识别模型时，删除所述音频样本的音频特征向量中的部分特征，获得第一音频特征向量，将所述音频样本对应的标注序列和所述第一音频特征向量作为一个对抗样本添加到所述第二训练样本集中。

可选地，所述语音识别单元，具体用于：

所述静音检测模型是基于如下损失函数训练得到的：

其中，X_i,j为所述第三训练样本集中的第i个音频样本的第j个音频帧，Y_i,j为根据第i个音频样本确定的表征X_i,j是否为静音片段的标注信息，W_i,j+k为第i个音频样本的第j+k个音频帧权重参数，f表示所述静音检测模型。

可选地，所述装置还包括语种识别单元，用于识别所述待检测语音对应的目标语种；

所述分类识别单元，具体用于：基于所述目标语种对应的文本分类模型，提取所述目标文本的文本特征向量，并根据所述文本特征向量获得所述目标文本对应的违禁类别。

一方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一种方法的步骤。

本申请实施例提供的语音检测方法、装置、电子设备及存储介质，通过基于大量训练样本训练获得的文本分类模型，对待检测语音对应的目标文本进行违禁内容识别，确定该语音对应的违禁类别，该文本分类模型能够从目标文本中提取出表征深层语义的文本特征向量，基于表征深层语义的文本特征向量，获得待检测语音对应的违禁类别，降低漏判概率，提高识别精度。与基于关键词匹配技术的语音审核方法相比，本申请实施例提供的语音检测方法，能够理解语音表达式的深层语义，从而检测出语音中包含的隐性违规内容，降低漏判概率，同时提高识别精度和识别效率，有效打击网络黑、灰色产业链，维护网络安全。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1为本申请实施例提供的语音检测方法的应用场景示意图；

图2为本申请一实施例提供的语音检测方法的流程示意图；

图3A为本申请一实施例提供的一种文本分类模型的结构示意图；

图3B为本申请一实施例提供的另一种文本分类模型的结构示意图；

图4为本申请一实施例提供的第一层深度编码器的工作方式的流程图；

图5为本申请一实施例提供的一种语音识别模型的结构示意图；

图6为本申请一实施例提供的一种静音检测模型的结构示意图；

图7为本申请一实施例提供的一种语种识别模型的结构示意图；

图8为本申请一实施例提供的一种语音检测方法的流程示意图；

图9为本申请一实施例提供的语音检测装置的结构示意图；

图10为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本申请可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

多媒体内容：是指多种媒体的综合，一般包括文本、声音和图像等多种媒体形式。本申请实施例中的多媒体内容，包括但不限于；视频、音频(如广播剧)、电子书等。

深度学习：深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，通过模仿人脑的机制来解释数据，例如图像，声音和文本等。常用的深度学习模型包括：卷积神经网络(Convolutional NeuralNetworks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、是长短期记忆网络(Long Short-Term Memory，LSTM)、深度神经网络(Deep Neural Network，DNN)、深度置信网(Deep Belief Nets，DBNs)等神经网络。数据在神经网络中的传播有两种方式，一种是沿着输入到输出的路径，被称为前向传播(Forward propagation)，另一种是从输出返回到输入，被成为反向传播(Back propagation)。在正向传播过程中，输入信息通过神经网络逐层处理并传向输出层，通过损失函数描述输出值与期望之间的误差，转入反向传播，逐层求出损失函数对各神经元的权重的偏导数，构成损失函数对权值向量的权重梯度数据，作为更新权重参数的依据，在不断更新权重参数的过程中完成神经网络的训练。

损失函数(loss function)：是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。例如，在机器学习中，损失函数被用于模型的参数估计(parameteric estimation)，基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度。常见的损失函数有均方误差损失函数、SVM(Support Vector Machine，支持向量机)合页损失函数、交叉熵损失函数等。

批大小(称为mini-batch或batch)：就是每次调整模型的参数前所选取的样本数量。

注意力机制(Attention Mechanism)：源于对人类视觉的研究，在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。注意力机制最成功的应用是机器翻译，一般的神经机器翻译模型采用“编码-解码”的方式进行序列到序列的转换，这种方式有两个问题：一是编码向量的容量瓶颈问题，即源语言所有的信息都需要保存在编码向量中，才能进行有效地解码；二是长距离依赖问题，即编码和解码过程中在长距离信息传递中的信息丢失问题。通过引入注意力机制，将源语言中每个位置的信息都保存下来，在解码过程中生成每一个目标语言的单词时，都通过注意力机制直接从源语言的信息中选择相关的信息作为辅助。这样的方式就可以有效地解决上面的两个问题。一是无需让所有的源语言信息都通过编码向量进行传递，在解码的每一步都可以直接访问源语言的所有位置上的信息；二是源语言的信息可以直接传递到解码过程中的每一步，缩短了信息传递的距离。简单来说，注意力机制就是指模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对其从而增加部分区域的观察精细度的机制。

自注意力模块：一种深度模型中的组成模块，其对注意力机制进行改进，减少了外部信息依赖，擅长捕捉内部数据或特征的内部相关性。

语音活动检测(Voice Activity Detection，VAD)，又称语音端点检测、语音边界检测或静音检测，目的是从声音信号流里识别和消除长时间的静音期，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。早先具有代表性的VAD方法有ITU-T的G.729Annex B。目前，VAD技术已广泛应用到语音识别过程中，通过语音活动检测技术检测出一段语音数据中真正包含用户语音的部分，从而消除语音数据中静音的部分，仅对包含用户语音的部分进行识别处理。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

发明概述

本申请的发明人发现，现有的语音审核技术主要是通过对语音识别技术将语音转换为文本，然后基于关键词匹配技术确定文本中是否包含预设违禁词，进而确定语音是否违规。但是，只使用关键词匹配技术语音审核方法，缺少对语音的高层次理解，忽略了语音的上下文信息，只能识别出显性的违禁内容，而互联网应用中的黑灰产业者往往会用一些隐性的词语或者句子来传播违禁的内容，这些隐性的违禁内容无法通过关键词匹配技术识别，容易发生漏判。此外，关键词匹配的方式还存在处理效率低的问题。

为了解决上述问题，本申请提供了一种语音检测方法，具体包括如下步骤：对待检测语音进行语音识别，获得目标文本；基于已训练的文本分类模型，提取目标文本的文本特征向量，并根据文本特征向量获得目标文本对应的违禁类别，其中，训练文本分类模型的第一训练样本集中的每个训练样本包括文本样本和文本样本对应的违禁类别。上述语音检测方法，通过基于大量训练样本训练获得的文本分类模型，对待检测语音对应的目标文本进行违禁内容识别，确定该语音对应的违禁类别，该文本分类模型能够从目标文本中提取出表征深层语义的文本特征向量，基于表征深层语义的文本特征向量，获得待检测语音对应的违禁类别，降低漏判概率，提高识别精度。为此，本申请实施例提供的语音检测方法，能够理解语音表达式的深层语义，从而检测出语音中包含的隐性违规内容，降低漏判概率，提高识别精度和识别效率。

在介绍了本申请的基本原理之后，下面具体介绍本申请的各种非限制性实施方式。

应用场景总览

参考图1，其为本申请实施例提供的语音检测方法的应用场景示意图。该应用场景包括用户终端101(包括用户终端101-1、用户终端101-2、……用户终端101-n)、应用服务器102和审核服务器103。其中，用户终端101和应用服务器102之间可通过有线或无线的通信网络连接，应用服务器102和审核服务器103之间可通过有线或无线的通信网络连接。用户终端101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personal digital assistant，PDA)等电子设备。应用服务器102和审核服务器103均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。当然，图1所示的应用服务器102和审核服务器103也可以布设在同一个服务器或服务器集群中。

用户可通过用户终端101向内容平台对应的应用服务器102上传多媒体内容，以在内容平台上发布多媒体内容，用户也可以通过用户终端101观看内容平台上发布的多媒体内容。在应用服务器102接收到用户终端101上传的多媒体内容后，由审核服务器103对多媒体内容进行审核，确定审核通过后再允许应用服务器102在内容平台上发布该多媒体内容。针对音频类的多媒体内容，审核服务器103先对音频数据进行语音识别获得目标文本，然后对目标文本进行审核。针对音视频类的多媒体内容，审核服务器103可从音视频数据中分离出音频数据和视频数据，对音频数据对应的文本进行审核，同时对视频数据进行审核，结合音频数据的审核结果和视频数据的审核结果，确定音视频数据对应的最终审核结果。

当然，对于实时直播的多媒体内容，如直播音频或直播视频，由于观众端(即观众使用的用户终端)可实时观看主播端(即主播使用的用户终端)上传到应用服务器102的直播音频或直播视频，因此应用服务器102将直播端实时上传的直播音频或直播视频同步发送到审核服务器103，由审核服务器103实时审核直播音频或直播视频是否存在违规的情况，当违规等级较低时，可通过应用服务器102向主播端发送警告信息或提示信息等，以提醒主播不要违规；当违规等级较高或主播屡次违规不改正时，可通过应用服务器102直接对主播端进行断流操作，即禁止主播端进行直播。

示例性方法

下面结合图1的应用场景，来描述根据本申请示例性实施方式的语音检测方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

参考图2，本申请实施例提供了的一种语音检测方法，可应用于图1所示的审核服务器，具体可包括以下步骤：

S201、对待检测语音进行语音识别，获得目标文本。

其中，待检测语音可以是单独的音频数据，也可以是从音视频数据中分离出的音频数据，本申请实施例不作限定。

具体实施时，可基于现有的任一种语音识别技术，将待检测语音转换为目标文本。例如，可基于深度卷积神经网络框架实现的实时语音转写(Real-time ASR)技术，将语音数据实时转换成文本数据。

S202、基于已训练的文本分类模型，提取目标文本的文本特征向量，并根据文本特征向量获得目标文本对应的违禁类别，其中，训练文本分类模型的第一训练样本集中的每个训练样本包括文本样本和文本样本对应的违禁类别。

其中，文本分类模型可以是基于卷积神经网络等网络架构实现的模型，并基于第一训练样本集中大量已标注的训练样本对文本分类模型进行训练，不断调整文本分类模型内部的网络参数，使得文本分类模型从训练样本中学习到各种违禁类别的文本样本所包含的深层语义特征，以及各种深层语义特征和各种违禁类别之间的内在对应关系，从而获得能够准确识别输入文本所属违禁类别的文本分类模型。

其中，文本分类模型提取的文本特征向量是表达目标文本所包含的深层语义特征的向量。

其中，违禁类别可根据应用场景设定，本申请实施例不作限定。例如，违禁类别可以包括：色情、广告、暴恐、涉政、不文明等。

具体实施时，对于一个目标文本，文本分类模型可从该目标文本中提取文本特征向量，并基于文本特征向量获得各种违禁类别对应的分类置信度，每个分类置信度表征文本特征向量属于对应的违禁类别的概率；若最高分类置信度大于分类阈值，则文本分类模型输出分类置信度最高的违禁类别，该分类置信度最高的违禁类别即为目标文本对应的违禁类别；若最高分类置信度不大于分类阈值，则确定目标文本不包含违禁内容。

具体实施时，也可以将不包含违禁内容的文本单独作为的一个类别。为此，第一训练样本集中还可以包含不属于任一违禁类别的训练样本，这类训练样本包括不包含违禁内容的正常文本和正常文本对应的标签。其中，正常文本的标签与其他任一违禁类别对应的标签不同即可，例如，正常文本的标签为“0”，色情文本的标签为“1”，广告文本的标签为“2”，暴恐文本的标签为“3”，涉政文本的标签为“4”、不文明文本的标签为“5”等。当文本分类模型输出的标签为“0”时，表示输入的目标文本为不包含违禁内容的正常文本，当文本分类模型输出的标签为“1”时，表示输入的目标文本中包含色情内容。

本申请实施例提供的语音检测方法，通过基于大量训练样本训练获得的文本分类模型，对待检测语音对应的目标文本进行违禁内容识别，确定该语音对应的违禁类别，该文本分类模型能够从目标文本中提取出表征深层语义的文本特征向量，基于表征深层语义的文本特征向量，获得待检测语音对应的违禁类别，降低漏判概率，提高识别精度。与基于关键词匹配技术的语音审核方法相比，本申请实施例提供的语音检测方法，能够理解语音表达式的深层语义，从而检测出语音中包含的隐性违规内容，降低漏判概率，同时提高识别精度和识别效率，有效打击网络黑灰色产业链，维护网络安全。

进一步地，本申请实施例提供的文本分类模型可包括：字嵌入模块、多层基于自注意力机制的深度编码器、以及分类器。其中，整个文本分类模型的输入即为字嵌入模块的输入，字嵌入模块的输出与第一层深度编码器的输入连接，各层深度编码器的输出与下一层深度编码器的输入连接，最后一层深度编码器的输出与分类器的输入连接，分类器的输出即为整个文本分类模型的输出。文本分类模型中使用的深度编码器的层数可根据实际应用需求设定，此处不作限定。

基于此，步骤S202具体包括如下步骤：字嵌入模块将目标文本转换为目标向量；各层深度编码器分别对输入数据进行特征提取操作，获得文本特征向量并输出，其中，第一层深度编码器的输入数据为目标向量，其他各层深度编码器的输入数据为上一层深度编码器的输出；分类器基于最后一层深度编码器输出的文本特征向量，输出目标文本对应的违禁类别。

参考图3A，其给出了采用3层深度编码器的文本分类模型的结构示意图。其中，字嵌入模块的输出与第一层深度编码器的输入连接，第一层深度编码器的输出与第二层深度编码器的输入连接，第二层深度编码器的输出与第三层深度编码器的输入连接，第三层深度编码器的输出与分类器的输入连接。该文本分类模型内部的处理过程包括：字嵌入模块将输入的目标文本转换为目标向量，并输入第一层深度编码器；第一层深度编码器对目标向量进行特征提取操作，获得第一文本特征向量并输入至第二层深度编码器；第二层深度编码器对第一文本特征向量进行特征提取操作，获得第二文本特征向量并输入至第三层深度编码器；第三层深度编码器对第二文本特征向量进行特征提取操作，获得第三文本特征向量并输入至分类器；分类器基于第三文本特征向量，输出目标文本对应的违禁类别。

上述实施方式中提供的文本分类模型，通过多层基于自注意力机制的深度编码器，可从输入文本分类模型的目标文本中逐层捕获不同层级和不同深度的语义特征，基于提取的语义特征能够识别出一些隐式的、难以识别的违禁内容，进一步提高针对违禁内容的识别精度和识别效率。

进一步地，文本分类模型中，每一层深度编码器内可重复执行N次特征提取操作，即每一层深度编码器对其对应的输入数据进行N次特征提取操作，获得文本特征向量并输出。其中，N为不小于2的整数，N的取值可由本领域技术人员根据应用需求结合实际经验确定，此处不作限定。

参考图3B，其给出了采用3层深度编码器的文本分类模型的结构示意图。在图3A所示的连接方式的基础上，图3B中的每一层深度编码器的输出与输入连接，使得深度编码器可重复执行N次特征提取操作。在此基础上，参考图4，以第一层深度编码器为例，说明每一层深度编码器的工作方式：

S401、第一层深度编码器对输入数据T_n进行一次特征提取操作，获得文本特征向量T_n+1。

其中，n为自然数，n的初始值为0，T₀为字嵌入模块输出的目标向量。

S402、判断n+1是否小于N，若是，则执行步骤S403，否则执行步骤S404。

S403、将文本特征向量T_n+1作为输入数据输入第一层深度编码器，并返回步骤S401。

S404、将文本特征向量T_n+1输入第二层深度编码器。

每层深度编码器的输出与输入连接，使得每层深度编码器可循环执行N次特征提取操作，从而增加提取到的特征的深度，进而提高针对违禁内容的识别精度和识别效率。此外，每层深度编码器重复执行N次特征提取操作的方式，可起到参数共享的作用，以3层深度编码器为例，只需要训练3个深度编码器的参数，即可实现了3N次特征提取操作，降低了整个模型的参数量，有助于提高了模型运行效率。

上述任一实施方式中的文本分类模型均可通过如下步骤训练得到：

第一步：采集并标注第一训练样本集S1，第一训练样本集S1中的每个训练样本包括文本样本和文本样本对应的违禁类别，例如，第i个文本样本X_i的标注为违禁类别Y_i。

第二步：用第一训练样本集S1中的训练样本对初始的文本分类模型进行训练。

上述训练过程中使用的损失函数可以是L(X_i,Y_i)＝Y_i log(f₁(X_i))，其中，f₁指代训练的文本分类模型。

具体实施时，可采用mini batch(批大小)的方法训练文本分类模型，即不断用随机的batch训练文本分类模型，直到收敛，得到最终的文本分类模型。

在上述任一实施方式的基础上，本申请实施例的语音检测方法还包括如下步骤：对目标文本进行关键词匹配，识别目标文本中包含的违禁词；基于关键词匹配结果和文本分类模型的输出，确定目标文本对应的违禁类别。

具体实施时，可采用精准匹配和模糊匹配的混合模式，识别目标文本中包含的违禁词。其中，精准匹配可采用AC自动机(Aho-Corasick automaton)的数据结构来匹配预设的违禁词列表，而模糊匹配可采用正则表达式匹配的方法去匹配预设的违禁词列表。其中，预设的违禁词列表中可包含多种违禁类别分别对应的违禁词，这样可根据目标文本与违禁词列表的匹配结果，识别出目标文本中包含的违禁词以及违禁词所属的违禁类别。

具体实施时，文本分类模型可被设置为：按照分类置信度从大到小的排序，输出排序靠前的m个分类置信度以及m个分类置信度分别对应的违禁类别，其中，m是不小于1的整数，m的具体取值可根据实际应用需求设定，此处不作限定。

基于关键词匹配的识别方式，可确定出一个或多个违禁类别，也可能无法确定出违禁类别。此时，结合文本分类模型输出的m个违禁类别以及对应的分类置信度，进一步确定出目标文本对应的违禁类别，以提高识别准确度。具体地结合方式可以是：

(1)当基于关键词匹配的识别方式无法确定出违禁类别时，可将文本分类模型输出的m个违禁类别中，最高分类置信度的违禁类别确定为目标文本对应的违禁类别。

(2)当基于关键词匹配的识别方式确定出唯一一个违禁类别Y₁时，若文本分类模型输出的m个违禁类别中包含违禁类别Y₁，则可以将该违禁类别Y₁确定为目标文本对应的违禁类别；或者，若m个违禁类别中包含违禁类别Y₁，且最高分类置信度和违禁类别Y₁对应的分类置信度的差值小于预设阈值，则将违禁类别Y₁确定为目标文本对应的违禁类别，否则，将最高分类置信度的违禁类别确定为目标文本对应的违禁类别；等等。

(3)当基于关键词匹配的识别方式确定出多个违禁类别时，可分别统计这多个违禁类别中每个违禁类别在目标文件中匹配到的违禁词数量，基于违禁词数量为各个违禁类别打分，结合文本分类模型输出的m个违禁类别的分类置信度，确定各个违禁类别的总分值，将总分值最高的违禁类别确定为目标文本对应的违禁类别。

例如，基于关键词匹配的识别方式确定出的违禁类别包括色情、暴恐，其中色情词汇较少，暴恐汇较多，具体确定出色情违禁类别对应的分值为0.2，暴恐违禁类别对应的分值为0.3；文本分类模型输出的色情违禁类别的分类置信度为0.8，暴恐违禁类别对应的分类置信度为0.5，广告违禁类别的分类置信度为0.3；将相同违禁类别的分值和分类置信度相加，得到色情违禁类别的总分值为0.2+0.8＝1.0，暴恐违禁类别的总分值为0.3+0.5＝0.8，广告违禁类别的总分值为0.3，则最终确定目标文本对应的违禁类别为色情。

实际应用中，不限于上述列举的结合方式。

关键词匹配的识别方式可识别出目标文本中显性的违禁内容，而基于文本分类模型可识别出目标文本中隐性的违禁内容，因此，上述实施方式结合了关键词匹配和文本分类模型，来识别目标文本对应的违禁类别，可同时提高针对显性和隐性违禁内容的召回能力和识别精度。

具体实施时，步骤S201具体包括：获得待检测语音的音频特征向量；基于已训练的语音识别模型，获得音频特征向量对应的目标文本。

具体实施时，可对待检测语音进行分帧处理，得到若干个音频帧，对各个音频帧进行音频特征提取，得到各个音频帧对应的音频特征。其中，分帧处理即是将不定长的音频切分成固定长度的小段，一般取10-30ms为一帧，可使用移动窗口函数实现分帧，相邻音频帧之间有重叠部分，以避免窗边界对信号的遗漏。其中，提取的音频特征可以Fbank特征、MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)特征或语谱图特征等。音频特征的维度可以根据具体需要设定，例如，音频特征可以是80维的Fbank特征。

本申请实施例中的语音识别模型可包括：M个卷积层、M个第一自注意力模块、第二自注意力模块，其中，M个第一自注意力模块中的每个第一自注意力模块之前设置一个卷积层，第二自注意力模块位于最后一个第一自注意力模块之后。其中，卷积层是基于卷积神经网络实现的网络层，第一自注意力模块和第二自注意力模块均是基于自注意力机制实现的模块，M的取值可根据实际应用需求设定，此处不作限定。语音识别模型中的各个卷积层对输入数据进行降采样处理，并输出降采样处理结果，其中，第一个卷积层的输入数据为音频特征向量，其他各个卷积层的输入数据为上一个第一自注意力模块的输出。语音识别模型中的各个第一自注意力模块中的任一自注意力模块从位于该自注意力模块之前的卷积层输出的数据中提取音频特征并输出。第二自注意力模块对最后一个第一自注意力模块输出的音频特征进行解码，获得目标文本。

参考图5，其给出了M＝2时语音识别模型的结构示意图。其中，每个第一自注意力模块之前设置了一个卷积层，通过该卷积层对输入第一自注意力模块的特征向量进行降采样处理，降低模型处理的数据量，同时卷积层在降采样处理的过程中能够提取深层的特征信息。

本申请实施例中，将卷积神经网络和自注意力机制的混合结构应用于语音识别，其中自注意力机制是对注意力机制的改进，能够更好地从内部挖掘上下文信息，更好地对时序类的音频数据进行建模，而卷积神经网络在实现降采样处理的同时提取深层的特征信息。因此，上述语音识别模型结合了卷积神经网络和自注意力机制各自的优点，相较于现有的语音识别模型具有运行效率高，识别精度高的优点。

具体实施时，可通过如下步骤训练本申请实施例提供的语音识别模型：

第一步：采集并标注第二训练样本集S2，第二训练样本集S2中的每个训练样本包括音频样本U_i和音频样本U_i对应的标注序列V_i。

其中，标注序列V_i是根据音频样本U_i中各个音频帧对应的文字确定的。例如，音频样本U_i对应的文本为“我是张三”，假设文字“我”、“是”、“张”、“三”分别对应的标注为“1”、“12”、“89”和“20”，则对应的标注序列V_i为{1,12,89,20}。

第二步：提取每个音频样本U_i的音频特征向量。

第三步：将音频样本U_i的音频特征向量输入语音识别模型，获得最后一个第一自注意力模块输出的音频特征f₂(U_i)，以及第二自注意力模块输出的目标文本F(U_i)。

第四步：基于音频特征f₂(U_i)、目标文本F(U_i)和音频样本U_i对应的标注序列V_i构造损失函数，基于损失函数更新语音识别模型的网络参数。

具体实施时，可基于CTC(Connectionist Temporal Classification，基于神经网络的时序分类)损失函数和交叉熵(Cross Entropy)损失函数确定的联合损失函数，更新语音识别模型的网络参数。其中，CTC损失函数为：L_ctc＝-log(P(V_i|f₂(U_i)))，CTC损失函数具有收敛快的优势，用于训练语音识别模型中的编码器部分，即卷积层和第一自注意力模块组成的部分。其中，交叉熵损失函数为：L_att＝-V_ilog(f₂(U_i))，用于训练语音识别模型中的解码器部分，即第二自注意力模块。

采用多任务的训练方法对语音识别模型进行训练，而不是用单一的损失函数进行训练，使得训练得到的语音识别模型具有较好的抗噪声能力，且能够提高模型收敛速度。

具体实施时，可采用mini batch的方法训练文本分类模型，即不断用随机的batch训练语音识别模型，直到收敛，得到最终的语音识别模型。

进一步地，在训练语音识别模型时，还可以基于第二训练样本集S2中的训练样本构造对抗样本，并添加到第二训练样本集S2中，其中，对抗样本是缺失部分特征的音频样本。

具体地，可通过如下方式构造对抗样本：删除音频样本的音频特征向量中的部分特征，获得第一音频特征向量，将音频样本对应的标注序列和第一音频特征向量作为一个对抗样本添加到第二训练样本集中。其中，可从音频特征向量中随机确定出需要删除的音频特征。

例如，某一音频样本U_i的音频特征向量为(W₁,W₂,…W₁₀,W₁₁,…W_n)，可删除其中的特征W₁₀和W₁₁，得到第一音频特征向量(W₁,W₂,…W₉,W₁₂,…W_n)，将第一音频特征向量(W₁,W₂,…W₉,W₁₂,…W_n)和音频样本U_i对应的标注序列V_i作为一个对抗样本添加到第二训练样本集中。

基于缺失部分特征的对抗样本，对语音识别模型进行训练，可提高语音识别模型的泛化能力，这样，即便待检测语音因为环境原因或特征提取等算法的缺陷导致部分音频特征丢失，语音识别模型也可以准确识别出待检测语音对应的文本。

实际应用中，待检测语音中往往包含一些静音或者噪声片段，如果直接对待检测语音进行语音识别，会得到空白内容，降低审核的效率。

为此，在上述任一实施方式的基础上，可先滤除待检测语音中的静音片段，再对滤除静音片段后的待检测语音进行语音识别，以降低空白内容的输出比例，提高审核效率。

具体地，可通过如下步骤获得待检测语音的音频特征向量：基于已训练的静音检测模型，获取待检测语音的音频特征中的静音片段；将去除静音片段的音频特征确定为待检测语音的音频特征向量。

其中，静音检测模型是基于包含大量训练样本的第三训练样本集训练得到的，第三训练样本集中的每个训练样本包括：音频样本和音频样本对应的标注标签，标注标签包括音频样本中静音片段和非静音片段对应的时间区间。为此，静音检测模型可识别待检测语音中的静音片段对应的时间区间。

基于静音检测模型可删除待检测语音中的静音片段，仅对待检测语音中的非静音片段进行语音识别，减少语音识别过程所需处理的数据量，提高处理效率。此外，删除静音片段后，使得输入语音识别模型中的语音更加连贯，有助于提高语音识别的准确率。

参考图6，其给出了一种静音检测模型的结构示意图。其中，静音检测模型可包括：卷积层、长短时记忆网络、深度神经网络和输出层，卷积层用于从待检测语音的音频特征中提取包含局部特征的第一特征向量，长短时记忆网络用于从第一特征向量中提取包含时序特征的第二特征向量，深度神经网络用于从第二特征向量中提取包含深度信息的第三特征向量，输出层输出基于第三特征向量获得静音片段在待检测语音的音频特征中对应的时间区间。静音检测模型中可包括一层深度神经网络或多层深度神经网络，通过多层深度神经网络逐层提取更深层的特征，提高检测精度。

上述静音检测模型中的卷积层是基于卷积神经网络实现的，卷积神经网络可以层次化地提取局部特征，长短时记忆网络可以较好地提取时序特征，两者相结合可以较好地提取语音数据中的上下文信息，而深度神经网络可以提取单个音频帧中的深度信息。因此，将卷积神经网络、长短时记忆网络、深度神经网络的混合结构应用于静音检测，可提高静音检测模型的检测精度和召回能力，同时控制了静音检测模型征提的网络深度，保证检测效率的同时提高了检测精度。

具体实施时，可通过如下步骤训练本申请实施例提供的静音检测模型：

第一步：采集并标注第三训练样本集S3，第三训练样本集S3中的每个训练样本包括：音频样本和音频样本对应的标注标签，标注标签包括音频样本中静音片段和非静音片段对应的时间区间。

其中，第三训练样本集S3中的第i个音频样本的长度为T_i。

第二步：提取每个音频样本的音频特征向量。

其中，第i个音频样本中的第j个音频帧对应的音频特征表示为X_i，j，第i个音频样本中的各个音频帧对应的音频特征组成第i个音频样本的音频特征向量，可表示为{X_i,1,X_i，2,……}。

第三步：基于音频样本的音频特征向量和标注标签，训练静音检测模型。

具体实施时，训练静音检测模型时使用的损失函数可以是：

其中，X_i,j为第三训练样本集中的第i个音频样本的第j个音频帧，Y_i，j为根据第i个音频样本确定的表征X_i，j是否为静音片段的标注信息，W_i，j+k为第i个音频样本的第j+k个音频帧权重参数，f₃表示静音检测模型。

基于上述提供的训练静音检测模型时使用的损失函数可知，该损失函数在处理第j个音频帧时考虑了第j个音频帧前后2w个音频帧，充分结合待检测语音中上下文的监督信息，对静音检测模型进行训练，而不是简单地采用交叉熵或均方误差的损失函数，可以提高模型训练的稳定性和准确性。

进一步地，可采用mini batch的方法训练静音检测模型，即不断用随机的batch训练静音检测模型，直到收敛，得到最终的静音检测模型。

实际应用中，直接对待检测语音进行语音识别，会有各种各样的问题，例如一段日文的音频用中文语音识别模型进行识别，出来的内容会是一些杂乱无章的内容，非常容易被误召回，增加审核负担。

为此，在上述任一实施方式的基础上，本申请实施例的语音检测方法，在执行步骤S202之前还包括如下步骤：识别待检测语音对应的目标语种。

为此，实际应用中，可基于不同语种对应的第一训练样本集，训练获得不同语种分别对应的文本分类模型。可基于不同语种对应的第二训练样本集，训练获得不同语种分别对应的语音识别模型。

相应地，步骤S201具体包括：基于目标语种对应的语音识别模型，对待检测语音进行语音识别，获得对应的目标文本。步骤S202具体包括：基于目标语种对应的文本分类模型，提取目标文本的文本特征向量，并根据文本特征向量获得目标文本对应的违禁类别。

具体实施时，可基于语种识别模型识别待检测语音对应的目标语种。其中，语种识别模型可包括：卷积神经网络、门控递归单元(gated recurrent unit,GRU)、基于自注意力机制的自注意力模块等。卷积神经网络能够通过卷积核和待检测语音的音频特征做卷积运算，从而提取到待检测语音中的局部特征，并通过若干个堆叠的卷积神经网络，逐层提取语义表达更加丰富的深度特征。与RNN模型相比，门控递归单元能够有效避免梯度爆炸和梯度消失的问题，提高模型训练的效率，加速模型的收敛。而自注意力模块可以更好地捕获全局的语义信息，使得语种识别模型的输出结果更加精准。因此，将卷积神经网络、门控递归单元、自注意力模块的混合结构应用于语种识别模型，可提高语种识别模型的识别精度和召回能力。

参考图7，其给出了一种语种识别模型的结构示意图。其中，语种识别模型包括6层卷积神经网络、3层最大池化、2层门控递归单元和1个自注意力模块。

具体实施时，可通过如下步骤训练本申请实施例提供的语种识别模型：

第一步：采集并标注第四训练样本集S4，第四训练样本集S4中的每个训练样本包括：音频样本p_i和音频样本p_i对应的语言类别Q_i。

第二步：提取每个音频样本p_i的音频特征向量P_i。

第三步：基于音频样本的音频特征向量和语言类别Q_i，训练语种识别模型。

具体实施时，训练语种识别模型时使用的损失函数可以是：L(P_i，Q_i)＝Q_ilog(f₄(P_i))，其中，f₄用于指代语种识别模型。

具体实施时，可采用mini batch的方法训练语种识别模型，即不断用随机的batch训练语种识别模型，直到收敛，得到最终的语种识别模型。

进一步地，可对训练好的语种识别模型进行参数剪枝，并将语种识别模型进行量化，以提高语种识别模型的识别效率。

在上述实施方式的基础上，参考图8，本申请实施例还提供了的一种语音检测方法，具体包括如下步骤：

S801、获取待检测语音中各个音频帧的音频特征。

S802、基于已训练的静音检测模型，识别音频特征序列中属于静音片段的音频特征，其中，音频特征序列是由待检测语音中各个音频帧的音频特征按序组成的。

S803、去除音频特征序列中属于静音片段的音频特征，获得音频特征向量。

S804、将音频特征向量输入已训练的语种识别模型，确定待检测语音对应的目标语种。

S805、基于目标语种对应的语音识别模型，获得音频特征向量对应的目标文本。

S806、基于目标语种对应的文本分类模型，提取目标文本的文本特征向量，并根据文本特征向量输出违禁类别以及对应的分类置信度。

S807、对目标文本进行关键词匹配，识别目标文本中包含的违禁词。

其中，步骤S806和步骤S807可同时执行，也可以先执行步骤S806再执行步骤S807，或者先执行步骤S807再执行步骤S806，此处不作限定。

S808、基于关键词匹配结果和文本分类模型的输出，确定目标文本对应的违禁类别。

上述实施方式中提供的语音检测方法，先通过静音检测模型去除对待检测语音中的静音片段，再对去除静音片段后的待检测语音进行语种识别，获得待检测语音对应的目标语种，利用目标语种对应的语音识别模型进行语音识别，在利用目标语种对应的文本分类模型识别语音识别结果对应的违禁类别，并结合关键词匹配结果，最终确定待检测语音所对应的违禁类别。利用静音检测模块减少不必要的数据处理量，利用语种识别模型对待检测语音进行语种分类，并基于对应语种的语音识别模型进行语音识别，提高语音识别准确度，并结合关键词匹配技术和文本分类模型，对语音识结果进行检测，得到待检测语音对应的违禁类别，提高了针对显性违禁内容和隐性违禁内容的识别精度。

示例性设备

在介绍了本申请示例性实施方式的方法之后，接下来对本申请示例性实施方式的语音检测装置进行介绍。

如图9所示，为本申请实施例提供的语音检测装置的结构示意图。在一个实施例中，语音检测装置90包括：语音识别单元901和分类识别单元902。

语音识别单元901，用于对待检测语音进行语音识别，获得目标文本；

分类识别单元902，用于基于已训练的文本分类模型，提取目标文本的文本特征向量，并根据文本特征向量获得目标文本对应的违禁类别，其中，训练文本分类模型的第一训练样本集中的每个训练样本包括文本样本和文本样本对应的违禁类别。

可选地，文本分类模型包括：字嵌入模块、多层基于自注意力机制的深度编码器、以及分类器。

相应地，分类识别单元902具体用于：

字嵌入模块将目标文本转换为目标向量；

各层深度编码器分别对输入数据进行N次特征提取操作，获得文本特征向量并输出，其中，第一层深度编码器的输入数据为目标向量，其他各层深度编码器的输入数据为上一层深度编码器的输出；

分类器基于最后一层深度编码器输出的文本特征向量，输出目标文本对应的违禁类别。

可选地，分类识别单元902，还用于：对目标文本进行关键词匹配，识别目标文本中包含的违禁词；基于关键词匹配结果和文本分类模型的输出，确定目标文本对应的违禁类别。

可选地，语音识别单元901，具体用于：获得待检测语音的音频特征向量；基于已训练的语音识别模型，获得音频特征向量对应的目标文本。

可选地，语音识别模型可包括：M个卷积层、M个第一自注意力模块、第二自注意力模块，M个第一自注意力模块中的每个第一自注意力模块之前设置一个卷积层，第二自注意力模块位于最后一个第一自注意力模块之后。

相应地，语音识别单元901，具体用于：

各个卷积层对输入数据进行降采样处理后输出，其中，第一个卷积层的输入数据为音频特征向量，其他各个卷积层的输入数据为上一个第一自注意力模块的输出；

各个第一自注意力模块中的任一自注意力模块从位于任一自注意力模块之前的卷积层输出的数据中提取音频特征并输出；

第二自注意力模块对最后一个第一自注意力模块输出的音频特征进行解码，获得目标文本。

可选地，语音识别模型是基于联合损失函数训练得到的，联合损失函数是基于CTC损失函数和交叉熵损失函数确定的。

可选地，语音识别模型是通过训练单元训练获得的，用于训练语音识别模型的第二训练样本集中的每个训练样本包括音频样本和音频样本对应的标注序列，标注序列是根据音频样本中各个音频帧对应的文字确定的。

训练单元，还用于在训练语音识别模型时，删除音频样本的音频特征向量中的部分特征，获得第一音频特征向量，将音频样本对应的标注序列和第一音频特征向量作为一个对抗样本添加到第二训练样本集中。

可选地，语音识别单元901，具体用于：

将去除静音片段的音频特征确定为待检测语音的音频特征向量；

其中，静音检测模型包括卷积层、长短时记忆网络、深度神经网络和输出层，卷积层用于从待检测语音的音频特征中提取包含局部特征的第一特征向量，长短时记忆网络用于从第一特征向量中提取包含时序特征的第二特征向量，深度神经网络用于从第二特征向量中提取包含深度信息的第三特征向量，输出层输出基于第三特征向量获得静音片段在待检测语音的音频特征中对应的时间区间。

可选地，用于训练静音检测模型的第三训练样本集中的每个训练样本包括：音频样本和音频样本对应的标注标签，标注标签包括音频样本中静音片段和非静音片段对应的时间区间；

静音检测模型是基于如下损失函数训练得到的：

其中，X_i,j为第三训练样本集中的第i个音频样本的第j个音频帧，Y_i,j为根据第i个音频样本确定的表征X_i,j是否为静音片段的标注信息，W_i,j+k为第i个音频样本的第j+k个音频帧权重参数，f₃表示静音检测模型。

可选地，语音检测装置90还包括语种识别单元，用于识别待检测语音对应的目标语种。

相应地，分类识别单元902，具体用于：基于目标语种对应的文本分类模型，提取目标文本的文本特征向量，并根据文本特征向量获得目标文本对应的违禁类别。

本申请实施例提供的语音检测装置，与上述语音检测方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述语音检测方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备具体可以为图1中的审核终端。如图10所示，该电子设备100可以包括处理器1001和存储器1002。

处理器1001可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1002作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static RandomAccess Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1002还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

示例性程序产品

本申请实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行本申请任一示例性实施方式中的语音检测方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

在一些可能的实施方式中，本申请的各个方面还可以实现为一种计算机程序产品，其包括程序代码，当该计算机程序产品在服务器设备上运行时，该计算机程序产品用于使服务器设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的语音检测方法中的步骤。

所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

根据本申请的实施方式的用于即时通信应用的计算机程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在服务器设备上运行。然而，本申请的程序产品不限于此，在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音检测方法，其特征在于，包括：

对待检测语音进行语音识别，获得目标文本；

2.根据权利要求1所述的方法，其特征在于，所述文本分类模型包括：字嵌入模块、多层基于自注意力机制的深度编码器、以及分类器；

所述字嵌入模块将所述目标文本转换为目标向量；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对待检测语音进行语音识别，获得目标文本，具体包括：

获得待检测语音的音频特征向量；

5.根据权利要求4所述的方法，其特征在于，所述语音识别模型包括：M个卷积层、M个第一自注意力模块、第二自注意力模块，所述M个第一自注意力模块中的每个第一自注意力模块之前设置一个卷积层，所述第二自注意力模块位于最后一个第一自注意力模块之后；

6.根据权利要求5所述的方法，其特征在于，所述语音识别模型是基于联合损失函数训练得到的，所述联合损失函数是基于CTC损失函数和交叉熵损失函数确定的。

7.根据权利要求5所述的方法，其特征在于，用于训练所述语音识别模型的第二训练样本集中的每个训练样本包括音频样本和音频样本对应的标注序列，所述标注序列是根据音频样本中各个音频帧对应的文字确定的；

在训练所述语音识别模型时，所述方法还包括：

8.一种语音检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。