CN111951807A

CN111951807A - 语音内容检测方法及其装置、介质和系统

Info

Publication number: CN111951807A
Application number: CN202010849549.3A
Authority: CN
Inventors: 汪俊; 李索恒; 张志齐
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-11-17

Abstract

本申请涉及语音处理技术领域，公开了一种语音内容检测方法及其装置、介质和系统。本申请的语音内容检测方法包括：获取第一语音单元，第一语音单元为语音流中的部分语音信号，确定第一语音单元的第一文本信息，判断第一文本信息中是否存在预设文本信息，若第一文本信息中存在部分预设文本信息，则确定与第一语音单元相邻的第二语音单元的第二文本信息，第二语音单元为语音流中的部分语音信号，根据第一文本信息中存在的部分预设文本信息与第二文本信息确定语音流中是否包含完整的预设文本信息的判断结果。通过实时对语音流进行文本内容识别并结合后一时刻的内容检测结果，进而实现及时准确的语音内容检测。

Description

语音内容检测方法及其装置、介质和系统

技术领域

本申请涉及语音处理技术领域，特别涉及一种语音内容检测方法及其装置、介质和系统。

背景技术

随着互联网和多媒体技术的发展，语音通话或者通过聊天软件的语音、视频通话在生活中的应用非常普遍，如何快速并准确的识别语音内容并判定语音内容是否违规是非常重要的。

现有的语音内容检测一般采用的方案是先语音识别，即把音频内容转化为文本内容，再对识别出来的文本做文本内容检测。其中，现有的语音内容检测技术主要通过先对音频流做固定时长的音频切片，然后再对固定时长的音频切片做语音识别，再对识别出的文本做文本内容检查。但是由于只对切片后的固定时长的音频片段做语音内容检测，导致内容检测不准确。而且，由于只能达到固定时长的切片长度才能做内容检测，导致内容检测的实时性也比较差。

发明内容

本申请实施例提供了一种语音内容检测方法及其装置、介质和系统，能够避免语音内容检测实时性差以及内容检测不准确的问题，通过实时对语音流进行文本内容识别并结合后一时刻的内容检测结果，进而实现及时准确的语音内容检测。

第一方面，本申请实施例提供了一种语音内容检测方法，包括：获取第一语音单元，第一语音单元为语音流中的部分语音信号，确定第一语音单元的第一文本信息，判断第一文本信息中是否存在预设文本信息，若第一文本信息中存在部分预设文本信息，则确定与第一语音单元相邻的第二语音单元的第二文本信息，第二语音单元为语音流中的部分语音信号，根据第一文本信息中存在的部分预设文本信息与第二文本信息确定语音流中是否包含完整的预设文本信息的判断结果。

在上述第一方面的一种可能的实现中，上述方法还包括：确定第一文本信息是否包含部分预设文本信息的第一检测结果和第一权重值；

确定第二文本信息是否包含部分预设文本信息的第二检测结果和第二权重值；

根据第一检测结果、第一权重值、第二检测结果和第二权重值确定判断结果。

在上述第一方面的一种可能的实现中，上述方法还包括：确定第一语音单元的第一文本信息，包括：对第一语音单元做预处理得到第一文本信息，其中，预处理包括加窗处理、分帧处理、端点检测处理、预加重处理。

在上述第一方面的一种可能的实现中，上述方法还包括：获取包括预设文本信息的语音流相关的发布时间信息、发布平台信息和发布者账号信息。

在上述第一方面的一种可能的实现中，上述方法还包括：预设文本信息包括词汇或者句子。

在上述第一方面的一种可能的实现中，上述方法还包括：判断第一文本信息中是否存在预设文本信息包括：利用预先设置的文本分类模型以及关键词匹配模型，对第一文本信息进行预设文本信息内容的检测。

第二方面，本申请实施例提供了一种语音内容检测装置，包括：

语音获取模块，用于获取第一语音单元，其中，第一语音单元为语音流中的部分语音信号；

文本信息确定模块，用于确定第一语音单元的第一文本信息；

第一判断模块，用于判断第一文本信息中是否存在预设文本信息；

文本信息确定模块，还用于确定若第一文本信息中存在部分预设文本信息，则确定与所述第一语音单元相邻的第二语音单元的第二文本信息，第二语音单元为语音流中的部分语音信号；

第二判断模块，用于根据第一文本信息中存在的部分预设文本信息与第二文本信息确定语音流中是否包含完整的预设文本信息的判断结果。

在上述第二方面的一种可能的实现中，上述方法还包括：第二判断模块还用于确定第一文本信息是否包含部分预设文本信息的第一检测结果和第一权重值；

在上述第二方面的一种可能的实现中，上述方法还包括：文本信息确定模块还用于对第一语音单元做预处理得到第一文本信息，其中，预处理包括加窗处理、分帧处理、端点检测处理、预加重处理。

在上述第二方面的一种可能的实现中，上述方法还包括：语音流信息确定模块，语音流信息确定模块用于获取包括预设文本信息的语音流相关的发布时间信息、发布平台信息和发布者账号信息。

在上述第二方面的一种可能的实现中，上述方法还包括：配置模块，配置模块用于将预设文本信息设置为词汇或者句子。

在上述第二方面的一种可能的实现中，上述方法还包括：第一判断模块用于利用预先设置的文本分类模型以及关键词匹配模型，对第一文本信息进行预设文本信息内容的检测。

第三方面，本申请实施例提供了一种机器可读介质，机器可读介质上存储有指令，该指令在机器上执行时使机器执行第一方面以及第一方面可能的各实现中的语音内容检测方法。

第四方面，本申请实施例提供了一种系统，包括：

存储器，用于存储由系统的一个或多个处理器执行的指令，以及

处理器，是系统的处理器之一，用于执行第一方面以及第一方面可能的各实现中的语音内容检测方法。

附图说明

图1根据本申请的一些实施例，示出了一种语音内容检测场景；

图2根据本申请的一些实施例，示出了一种语音内容检测方法的流程图；

图3根据本申请的一些实施例，示出了一种语音内容检测装置的结构框图；

图4根据本申请的一些实施例，示出了一种系统的框图；

图5根据本申请一些实施例，示出了一种片上系统(SoC)的框图。

具体实施方式

本申请的说明性实施例包括但不限于语音内容检测方法及其装置、介质和系统。

下面将结合附图对本申请的实施例作进一步地详细描述。

根据本申请的一些实施例公开了一种语音内容检测场景。图1示出了该场景的示意图。在图1所示的场景中，包括第一电子设备100，第二电子设备200和服务器300，其中，第一电子设备100和第二电子设备200可以通过电子设备的即时聊天软件建立语音通话连接。服务器300对第一电子设备100和第二电子设备200通过即时聊天软件生成的语音通话做内容检测，并判定语音通话内容是否有预设文本信息内容，其中预设文本信息内容可以是敏感词汇，敏感句子等。此外，可以理解，除了即时聊天软件，还可以为其他平台，例如，浏览器、新闻应用程序等，但不限于此。该场景中除了第一电子设备100，第二电子设备200和服务器300，还可以为服务器或者电子设备实时检测用户在电子设备上发布的语音。

可以理解，语音通话内容可以是任意一种语种，例如语音内容可以是中文或者外文(英文、日文、法文、俄文等)的语音，也可以是普通话的语音通话内容，或者一段方言(闽南语、东北语、陕西话、粤语等)的语音通话内容。

可以理解，图1所示的第一电子设备100和第二电子设备200包括但不限于手机、平板电脑、膝上型计算机、台式计算机、智能手表、其中嵌入或耦接有一个或多个处理器的电视机等电子设备等。图1所示的服务器300可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，可以是提供云数据库、云存储和CDN等基础云计算服务的云服务器。其中，第一电子设备100与服务器300可以通过网络等通讯连接方式进行连接，第二电子设备200与服务器300可以通过网络等通讯连接方式进行连接，本申请在此不做限制。为了便于说明，第一电子设备100以手机100为例、第二电子设备200以手机200为例说明本申请的技术方案。

可以理解，图1所示的语音内容检测场景只是实现本申请实施例的一个场景示例，本申请实施例并不限于图1所示的场景。在另一些实施例中，图1所示的场景可以包括比图示实施例更多或更少的设备或部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一检测结果称为第二检测结果，且类似地，可将第二检测结果称为第一检测结果。

图2根据本申请的一些实施例，示出了一种语音内容检测方法的流程图。下面结合图1至2，对本申请提供的语音内容检测方法进行详细介绍。如图2所示，具体地，包括：

1)获取第一语音单元，第一语音单元为语音流中的部分语音信号(202)。

如图1所示，手机100或手机200分别通过即时聊天软件建立语音通话连接，再分别通过电子设备的麦克风获取用户的语音信号。可以理解，服务器300每隔较短时间获取手机100或手机200经过处理器处理后的语音信号，其中，具体较短时间可以是100ms，也可以是50ms。服务器300对获取的实时语音流的部分语音信号进行预处理，其中，预处理包括预加重、加窗和分帧、端点检测等，滤除掉其中的不重要的信息以及背景噪声，按照预设帧长或者帧移对实时获取的语音数据进行分帧加窗处理。例如，帧长可以设为18ms，帧移设为10ms，获得第一语音单元。其中，在预处理的过程中，通过对时域下的波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，最后通过拼接每帧的特征向量得到语音特征序列。

2)确定第一语音单元的第一文本信息(204)。

在一些实施例中，预处理后的第一语音单元通过特征提取模型，语音识别模型确定第一语音单元对应的第一文本信息，其中，语音提取模型和识别模型可以是预先训练得到的模型，可以是联合训练的，也可以是单独训练得到的。也可以是单独对每个模型进行训练，再联合进行训练。例如，模型可以是神经网络模型，例如卷积神经网络(ConvolutionalNeural Network，CNN)模型、深度神经网络(Deep Neural Network，DNN)模型或者循环神经网络(Recurrent Neural Network，RNN)模型,双向编码器(Bidirectional EncoderRepresentations from Transformers，BERT)的语音处理深度学习模型。循环神经网络可以是LSTM(Long Short-Term Memory Neural Network，长短时记忆神经网络)模型或BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆神经网络)。

在一些实施例中，第一语音单元可以包括多个训练音频帧，可以将一个训练音频帧的编码特征与上下文窗口中的音频帧的编码特征进行拼接，再输入到解码模型中，例如上下文窗口的大小为5k+1帧。因此能够获取得到获得反映上下文信息的编码特征，从而提高语音识别网络模型的精确性。可以理解，语音识别的目标是将连续语音信号转化为文字序列，获得第一文本信息。

3)判断第一文本信息中是否存在预设文本信息(206)。

获取第一文本信息的语义内容，第一文本信息的语义内容是否存在预设文本信息。将第一文本信息输入至语义内容识别模型进行识别，以得到待识别文本信息对应的语义内容，本申请的实施例提供的语义内容识别方法，可基于预先构建并训练完成的语义内容识别模型对待识别第一文本信息进行识别，从而得到对应的第一文本信息的语义内容，同时通过对语义内容识别模型的算法构建进行设计，构建语义内容识别模型的算法可包含卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)及全连接网络。通过卷积神经网络(Convolutional Neural Networks,CNN)对第一文本信息进行特征抽取，能够更好的表达文本特征在时间上的关系，通过长短期记忆网络(Long Short-Term Memory，LSTM)对当前内容以及CNN输出的中间输出特征进行特征抽取，能够捕捉更长的时长，从而获得的目标特征可以更好的体现文本的语义识别，提升文本内容识别的准确性。其中，卷积神经网络-长短期记忆网络可以包含多层卷积神经网络和多层长短期记忆网络，例如，可以是包含七层CNN和三层LSTM，其排布可以依次是三层CNN、一层LSTM、两层CNN、一层LSTM、两层CNN、一层LSTM，最后的一层LSTM连接归一化层。可以理解，通过文本信息识别模型可以结合前文信息对词汇或句子做文本内容检测。

在一些实施例中，建立预设文本信息数据库，不同的应用场景预设文本信息数据库的预设文本信息内容不同，在即时聊天软件的语音通话的场景中，预设文本信息数据库中的预设文本信息包括敏感词汇、敏感句子等。在短视频场景中，预设文本信息数据库中的预设文本信息内容包含违规词汇，敏感词汇，违规句子等。

例如，预设文本信息是Ab，数据库中包含A、b和Ab数据，若第一文本信息包含Abcde数据，则基于预设文本信息和第一文本信息查询数据库，得到包含预设文本信息的概率为1，若第一文本信息包含cdeeA数据，则包含预设文本信息的概率为0.5；因为A的位置在第一文本信息的尾端，很有可能会跟接下来的第二文本信息中首端的字或者词组成预设文本信息，因此第一权重系数为1。若第一文本信息包含cbeee数据，则包含预设文本信息的概率为0.5；因为b的位置在第一文本信息的中间，与前面和后面的字或者词组成预设文本信息，因此，第一权重系数为0。若第一文本信息包含cdeee数据，则包含预设文本信息的概率为0。如此，可以及时找到包含全部或部分违规词汇，敏感词汇，违规句子等预设文本信息。

在一些实施例中，判断第一文本信息中是否包含预设文本信息内容数据库中的预设文本信息内容，其中，预设文本信息内容可以是敏感词汇或者违规词汇。则确定第一文本信息的语义内容中是否包含预设文本信息内容数据库中的预设文本信息内容的操作包括：利用预先设置的文本分类模型以及关键词匹配模型，对第一文本信息的语义内容进行预设文本信息内容的检测。文本分类模型是将第一文本信息的语义内容通过一个基于Bert构建的文本分类模型，判断输入的第一文本信息的语义内容是否为预设文本信息类别。关键词匹配模型指的是将第一文本信息的语义内容与已经建立的预设文本信息内容数据库中的预设文本信息内容进行匹配，判断第一文本信息中是否存在部分预设文本信息，若第一文本信息中存在部分预设文本信息，则将第一文本信息检测到的部分预设文本信息的结果作为第一检测结果。

4)若第一文本信息中存在部分预设文本信息，则确定与第一语音单元相邻的第二语音单元的第二文本信息，第二语音单元为语音流中的部分语音信号(208)。

本申请实施例中，第一文本信息为第二文本信息的长程前文信息。

在一些实施例中，若第一文本信息中存在部分预设文本信息，则确定与第一语音单元相邻的第二语音单元的第二文本信息，第二语音单元为语音流中的部分语音信号。可以理解，服务器300下一时刻获取手机100或手机200经过处理器处理后的较短时间的语音流，其中，较短时间可以是100ms，也可以是50ms。获取下一时刻语音流中的部分语音信号，对下一时刻语音流中的部分语音信号做预处理，获得第二语音单元，第二语音单元通过特征提取模型，语音识别模型得到第二文本信息，获取第二文本信息的语义内容，第二文本信息的语义内容是否存在预设文本信息。将第二文本信息输入至语义内容识别模型进行识别，以得到待识别文本信息对应的语义内容，其中，构建语义内容识别模型的算法可包含卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-TermMemory，LSTM)及全连接网络。

在一些实施例中，判断第二文本信息中是否包含预设文本信息内容数据库中的预设文本信息内容，其中，预设文本信息内容可以是敏感词汇或者违规词汇，若第二文本信息中存在部分预设文本信息，则将第二文本信息检测到的部分预设文本信息的结果作为第二检测结果。

5)根据第一文本信息中存在的部分预设文本信息与第二文本信息确定语音流中是否包含完整的预设文本信息的判断结果(210)。

在一些实施例中，若第一文本信息中存在部分预设文本信息，则将第一文本信息检测到的部分预设文本信息的结果作为第一检测结果，若第二文本信息中存在部分预设文本信息，则将第二文本信息检测到的部分预设文本信息的结果作为第二检测结果。第一检测结果的权重值为第一权重，第二检测结果的权重值为第二权重。根据第一检测结果、第二检测结果、第一权重以及第二权重，确定语音流中是否包含完整的预设文本信息。

例如，a为第一权重；R1为第一检测结果，用于表示第一文本信息包含预设文本信息的概率。b为第二权重；R2为第二检测结果，用于表示第二文本信息包含预设文本信息的概率。确定语音流中是否包含完整的预设文本信息，计算是否包含完整预设文本信息的判断结果的R公式为：R＝a*R1+b*R2，若R最终结果大于等于判断阈值，例如最终结果等于1，则为得到了完整的预设文本信息。

例如，以预设文本信息是Ab为例，数据库中包含A、b和Ab数据为例，继续阐述，若第一文本信息包含Abcde数据，则包含预设文本信息的概率为1，即第一检测结果为1。若第一文本信息包含cdeeA数据，则包含预设文本信息的概率为0.5；第一权重系数为1。若第二文本信息包含beee数据，则包含预设文本信息的概率为0.5，第二权重系数为1，用判断公式得到的最终概率为1，确定为最终得到了包含完整的预设文本信息的判断结果。若第二文本信息包含ebeee数据，则包含预设文本信息的概率为0.5，第二权重系数为0，用判断公式得到的最终概率为0.5，确定为最终未得到包含完整的预设文本信息的判断结果。

如此，往往不需要识别完整的音频流就可以及时找到包含敏感词汇或者不当言论、关键词等预设文本信息。

在一些实施例中，第一检测结果、第二检测结果及其权重通过多模态预测融合模型确定待检测语音流中是否包含完整的预设文本信息。通过多模态融合模型综合来自两个或多个模态的信息以进行预测的过程。在预测的过程中，单个模态通常不能包含产生精确预测结果所需的全部有效信息，多模态融合过程结合了来自两个或多个模态的信息，实现信息补充，拓宽输入数据所包含信息的覆盖范围，提升预测结果的精度，提高预测模型的鲁棒性。可以理解，通过利用权重值对各个检测结果的影响力进行协调，从而能够更准确地对语音流中是否包含完整的预设文本信息进行检测，确定语音流中是否包含完整的预设文本信息。

在一些实施例中，可以检测是否说了敏感词汇、关键词、不当言论等预设文本信息，确定语音发出时间等发出信息，具体的，包括：检测出语音发出者的身份信息根据第一文本信息中存在的部分预设文本信息与第二文本信息确定语音流中包含完整的预设文本信息，则输出语音流中的预设文本信息及发出信息，其中，发出信息包括预设文本信息的语音流的发布时间信息、发布平台信息和发布者账号信息等。

图3根据本申请的一些实施例，示出了一种语音内容检测装置300的结构框图。如图3所示，具体地，包括：

语音获取模块(302)，用于获取第一语音单元，其中，第一语音单元为语音流中的部分语音信号；

文本信息确定模块(304)，用于确定第一语音单元的第一文本信息；

第一判断模块(306)，用于判断第一文本信息中是否存在预设文本信息；

文本信息确定模块(308)，还用于确定若第一文本信息中存在部分预设文本信息，则确定与第一语音单元相邻的第二语音单元的第二文本信息，第二语音单元为语音流中的部分语音信号；

第二判断模块(310)，用于根据第一文本信息中存在的部分预设文本信息与第二文本信息确定语音流中是否包含完整的预设文本信息的判断结果。

在一些实施例中，第二判断模块还用于确定第一文本信息是否包含部分预设文本信息的第一检测结果和第一权重值；确定第二文本信息是否包含部分预设文本信息的第二检测结果和第二权重值；根据第一检测结果、第一权重值、第二检测结果和第二权重值确定判断结果。文本信息确定模块还用于对第一语音单元做预处理得到第一文本信息，其中，预处理包括加窗处理、分帧处理、端点检测处理、预加重处理。还包括语音流信息确定模块，语音流信息确定模块用于获取包括预设文本信息的语音流相关的发布时间信息、发布平台信息和发布者账号信息。语音内容检测装置还包括配置模块，配置模块用于将预设文本信息设置为词汇或者句子。第一判断模块用于利用预先设置的文本分类模型以及关键词匹配模型，对第一文本信息进行预设文本信息内容的检测。

可以理解，图3所示的语音内容检测装置300与本申请提供的语音内容检测方法相对应，以上关于本申请提供的语音内容检测方法的具体描述中的技术细节依然适用于图3所示的语音内容检测装置300，具体描述请参见上文，在此不再赘述。

图4所示为根据本申请的一些实施例的系统400的框图。图4示意性地示出了根据多个实施例的示例系统400。在一些实施例中，系统400可以包括一个或多个处理器404，与处理器404中的至少一个连接的系统控制逻辑408，与系统控制逻辑408连接的系统内存412，与系统控制逻辑408连接的非易失性存储器(NVM)416，以及与系统控制逻辑408连接的网络接口420。

在一些实施例中，处理器404可以包括一个或多个单核或多核处理器。在一些实施例中，处理器404可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。

在一些实施例中，系统控制逻辑408可以包括任意合适的接口控制器，以向处理器404中的至少一个和/或与系统控制逻辑408通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑408可以包括一个或多个存储器控制器，以提供连接到系统内存412的接口。系统内存412可以用于加载以及存储数据和/或指令。在一些实施例中系统400的内存412可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM/存储器416可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器416可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。

NVM/存储器416可以包括安装系统400的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口420通过网络访问NVM/存储416。

特别地，系统内存412和NVM/存储器416可以分别包括：指令424的暂时副本和永久副本。指令424可以包括：由处理器404中的至少一个执行时导致系统400实施如图3-4所示的方法的指令。在一些实施例中，指令424、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑408，网络接口420和/或处理器404中。

网络接口420可以包括收发器，用于为系统400提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口420可以集成于系统400的其他组件。例如，网络接口420可以集成于处理器404，系统内存412，NVM/存储器416，和具有指令的固件设备(未示出)中的至少一种，当处理器404中的至少一个执行指令时，系统400实现如图2所示的语音内容检测方法。

网络接口420可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口420可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器404中的至少一个可以与用于系统控制逻辑408的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一个实施例中，处理器404中的至少一个可以与用于系统控制逻辑408的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

系统400可以进一步包括：输入/输出(I/O)设备432。I/O设备432可以包括用户界面，使得用户能够与系统400进行交互；外围组件接口的设计使得外围组件也能够与系统400交互。在一些实施例中，系统400还包括传感器，用于确定与系统400相关的环境条件和位置信息的至少一种。

根据本申请的实施例，图5示出了一种SoC(System on Chip，片上系统)500的框图。在图5中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图5中，SoC 500包括：互连单元550，其被耦合至应用处理器510；系统代理单元570；总线控制器单元580；集成存储器控制器单元540；一组或一个或多个协处理器520，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元530；直接存储器存取(DMA)单元560。在一个实施例中，协处理器520包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息，例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种语音内容检测方法，其特征在于，所述方法包括：

获取第一语音单元，所述第一语音单元为语音流中的部分语音信号；

确定所述第一语音单元的第一文本信息；

判断所述第一文本信息中是否存在预设文本信息；

若所述第一文本信息中存在部分预设文本信息，则确定与所述第一语音单元相邻的第二语音单元的第二文本信息，所述第二语音单元为所述语音流中的部分语音信号；

根据所述第一文本信息中存在的部分预设文本信息与所述第二文本信息确定所述语音流中是否包含完整的预设文本信息的判断结果。

2.根据权利要求1所述的语音内容检测方法，其特征在于，所述根据所述第一文本信息中存在的部分预设文本信息与所述第二文本信息确定所述语音流中是否包含完整的预设文本信息的判断结果，包括：

确定所述第一文本信息是否包含部分预设文本信息的第一检测结果和第一权重值；

确定所述第二文本信息是否包含部分预设文本信息的第二检测结果和第二权重值；

3.根据权利要求1所述的语音内容检测方法，其特征在于，所述确定所述第一语音单元的第一文本信息，包括：对所述第一语音单元做预处理得到第一文本信息，其中，所述预处理包括加窗处理、分帧处理、端点检测处理、预加重处理。

4.根据权利要求1所述的语音内容检测方法，其特征在于，还包括：获取包括预设文本信息的所述语音流相关的发布时间信息、发布平台信息和发布者账号信息。

5.根据权利要求1所述的语音内容检测方法，其特征在于，所述预设文本信息包括词汇或者句子。

6.根据权利要求1所述的语音内容检测方法，其特征在于，判断所述第一文本信息中是否存在预设文本信息包括：利用预先设置的文本分类模型以及关键词匹配模型，对所述第一文本信息进行预设文本信息内容的检测。

7.一种语音内容检测装置，其特征在于，所述装置包括：

语音获取模块，用于获取第一语音单元，其中，所述第一语音单元为语音流中的部分语音信号；

文本信息确定模块，用于确定所述第一语音单元的第一文本信息；

第一判断模块，用于判断所述第一文本信息中是否存在预设文本信息；

文本信息确定模块，还用于确定若所述第一文本信息中存在部分预设文本信息，则确定与所述第一语音单元相邻的第二语音单元的第二文本信息，所述第二语音单元为所述语音流中的部分语音信号；

第二判断模块，用于根据所述第一文本信息中存在的部分预设文本信息与所述第二文本信息确定所述语音流中是否包含完整的预设文本信息的判断结果。

8.根据权利要求7所述的语音内容检测装置，其特征在于，所述第二判断模块还用于确定所述第一文本信息是否包含部分预设文本信息的第一检测结果和第一权重值；

9.一种机器可读介质，其特征在于，所述机器可读介质上存储有指令，该指令在机器上执行时使机器执行权利要求1至6中任一项所述的语音内容检测方法。

10.一种系统，包括：

处理器，是系统的处理器之一，用于执行权利要求1至6中任一项所述的语音内容检测方法。