CN112201249B

CN112201249B - 一种语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN112201249B
Application number: CN202011053209.6A
Authority: CN
Inventors: 陶斐; 孙瑞娜; 杨森
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-05-17
Anticipated expiration: 2040-09-29
Also published as: CN112201249A

Abstract

本公开关于一种语音处理方法、装置、电子设备及存储介质，该方法包括：获取目标语音；将所述目标语音输入至语音处理模型的语音识别网络，根据所述语音识别网络的隐藏层的输出得到语音特征提取结果；所述语音特征提取结果包括所述目标语音的文本特征和高级语义特征；将所述语音特征提取结果输入至所述语音处理模型的语义理解网络，得到所述目标语音的语义理解结果。本公开提高了对输入语音内容理解的准确性，当应用于直播视频内容的异常检测时，可以提高对直播视频内容异常检测的准确性。

Description

一种语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

语音内容理解是一种基于语音识别技术和自然语言理解技术来对语音中表述的内容进行理解的技术。相关技术中，一般先使用语音识别模型将输入语音转化为纯文本，然后以该纯文本作为后续自然语言理解模型的输入，从该纯文本中提取有用信息进行语音内容的理解，但是直接基于该纯文本得到的理解结果往往不够准确，导致相关技术中对于语音内容理解存在准确性差的问题。

发明内容

本公开提供一种语音处理方法、装置、电子设备及存储介质，以至少解决相关技术中对于语音内容理解的准确性差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音处理方法，包括：

获取目标语音；

将所述目标语音输入至语音处理模型的语音识别网络，根据所述语音识别网络的隐藏层的输出得到语音特征提取结果；所述语音特征提取结果包括所述目标语音的文本特征和高级语义特征；

将所述语音特征提取结果输入至所述语音处理模型的语义理解网络，得到所述目标语音的语义理解结果。

在一示例性的实施方式中，所述语音处理模型包括多个语音识别网络，所述多个语音识别网络具有不同的网络结构；

相应的，所述将所述目标语音输入至语音处理模型的语音识别网络，根据所述语音识别网络的隐藏层的输出得到语音特征提取结果，包括：

将所述目标语音分别输入至所述语音处理模型的各个语音识别网络，获取每个语音识别网络的隐藏层输出的特征向量；

对所述每个语音识别网络的隐藏层输出的特征向量进行融合，得到融合特征向量；

将所述融合特征向量作为所述语音特征提取结果。

在一示例性的实施方式中，所述语音识别网络的隐藏层包括依次连接的多个中间隐藏层；

相应的，所述获取每个语音识别网络的隐藏层输出的特征向量，包括：

针对每个语音识别网络的隐藏层，获取所述隐藏层包括的多个中间隐藏层中的最后一层中间隐藏层所输出的特征向量。

在一示例性的实施方式中，所述获取目标语音，包括：

获取直播视频数据流；

提取所述直播视频数据流中的语音数据，并将所述语音数据作为所述目标语音。

在一示例性的实施方式中，所述方法还包括：

获取预训练的语音识别网络，根据所述语音识别网络和初始语义理解网络构建初始语音处理模型；

获取训练样本，所述训练样本包括样本语音和所述样本语音对应的样本语义信息；

将所述样本语音输入至所述初始语音处理模型的语音识别网络，根据所述语音识别网络的隐藏层的输出得到样本语音特征提取结果，所述样本语音特征提取结果包括所述样本语音的文本特征和高级语义特征；

将所述样本语音特征提取结果输入至所述初始语音处理模型的初始语义理解网络，得到所述样本语音的语义理解结果；

根据所述样本语音的语义理解结果和所述样本语音对应的样本语义信息确定所述初始语音处理模型的损失值；

根据所述损失值调整所述初始语义理解网络的参数直至满足训练结束条件，得到所述语音处理模型。

根据本公开实施例的第二方面，提供一种语音处理装置，包括：

语音获取单元，被配置为执行获取目标语音；

特征提取单元，被配置为执行将所述目标语音输入至语音处理模型的语音识别网络，根据所述语音识别网络的隐藏层的输出得到语音特征提取结果；所述语音特征提取结果包括所述目标语音的文本特征和高级语义特征；

语义理解单元，被配置为执行将所述语音特征提取结果输入至所述语音处理模型的语义理解网络，得到所述目标语音的语义理解结果。

相应的，所述特征提取单元，包括：

特征向量获取单元，被配置为执行将所述目标语音分别输入至所述语音处理模型的各个语音识别网络，获取每个语音识别网络的隐藏层输出的特征向量；

融合单元，被配置为执行对所述每个语音识别网络的隐藏层输出的特征向量进行融合，得到融合特征向量；将所述融合特征向量作为所述语音特征提取结果。

在一示例性的实施方式中，所述语音识别网络的隐藏层包括依次连接的多个中间隐藏层；相应的，所述特征向量获取单元在获取每个语音识别网络的隐藏层输出的特征向量时，具体用于：

在一示例性的实施方式中，所述语音获取单元，包括：

第一获取单元，被配置为执行获取直播视频数据流；

提取单元，被配置为执行提取所述直播视频数据流中的语音数据，并将所述语音数据作为所述目标语音。

在一示例性的实施方式中，所述装置还包括：

构建单元，被配置为执行获取预训练的语音识别网络，根据所述语音识别网络和初始语义理解网络构建初始语音处理模型；

第二获取单元，被配置为执行获取训练样本，所述训练样本包括样本语音和所述样本语音对应的样本语义信息；

第一输入单元，被配置为执行将所述样本语音输入至所述初始语音处理模型的语音识别网络，根据所述语音识别网络的隐藏层的输出得到样本语音特征提取结果，所述样本语音特征提取结果包括所述样本语音的文本特征和高级语义特征；

第二输入单元，被配置为执行将所述样本语音特征提取结果输入至所述初始语音处理模型的初始语义理解网络，得到所述样本语音的语义理解结果；

损失确定单元，被配置为执行根据所述样本语音的语义理解结果和所述样本语音对应的样本语义信息确定所述初始语音处理模型的损失值；

参数调整单元，被配置为执行根据所述损失值调整所述初始语义理解网络的参数直至满足训练结束条件，得到所述语义处理模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述第一方面所述的语音处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的语音处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述第一方面提供的语音处理方法；

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取目标语音，将该目标语音输入至语音处理模型的语音识别网络，根据该语音识别网络的隐藏层的输出得到语音特征提取结果，并将该语音特征提取结果输入至语音处理模型的语义理解网络，进而得到目标语音的语义理解结果，由于语音特征提取结果包括文本特征和高级语义特征，该高级语义特征包含了目标语音中的语气信息、态度信息、情感信息以及语调信息等等一些原始的语音信息，从而相较于直接以目标语音对应的纯文本作为后续语义理解网络的输入，上述技术方案可以避免转化的纯文本与输入语音之间的差异对后续语义理解结果准确性的影响，提高了对输入语音内容理解的准确性。当上述技术方案应用于对直播视频内容的异常检测时，可以提高对于直播视频内容异常检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音处理方法的应用环境图；

图2是根据一示例性实施例示出的一种语音处理方法的流程图；

图3是根据一示例性实施例示出的语音处理模型的结构框图；

图4是根据一示例性实施例示出的另一种语音处理方法的流程图；

图5是根据一示例性实施例示出的训练语音处理模型的流程图；

图6是根据另一示例性实施例示出的另一种语音处理方法的流程图；

图7是根据一示例性实施例示出的一种语音处理装置的框图；

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，在对输入语音进行语音内容理解时一般先使用语音识别模型将输入语音转化为纯文本，然后以该纯文本作为后续自然语言理解模型的输入，从该纯文本中提取有用信息进行语音内容的理解得到理解结果，然而语音识别模型在将输入语音转化为纯文本时，输入语音中的语气信息、态度信息、语调信息、情感信息等一些原始的语音信息会被语音识别模型丢弃，从而使得转化得到的纯文本与输入语音之间存在差异，该差异将会累积到后续的自然语言理解模型中，进而使得直接基于纯文本得到的理解结果不够准确，导致对于输入语音内容理解的准确性差。例如原始语音为“好嘛！”，若丢弃用户在说出该原始语音时所携带的感叹语气等语音信息进行理解，那么理解到的可能就是“好吗”，显然，该理解结果与原始语音内容存在很大的差异，不够准确。

本公开的实施例针对上述问题提供了一种语音处理方法，该语音处理方法可以应用于本公开实施例的语音处理装置，该语音处理装置可以配置于电子设备中，该电子设备可以是终端或者服务器。本公开的实施例将以该语音处理装置配置于服务器为例进行说明。

请参阅图1，其所示为根据一示例性实施例示出的一种语音处理方法的应用环境图，该应用环境可以包括终端110、应用服务器120和语音处理服务器130。

其中，终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110中可以运行有由应用服务器120提供后台服务的客户端，该客户端可以获取终端110对应用户的音视频等信息，并将该音视频等信息上传给应用服务器120，由应用服务器120提供相关服务。例如，该客户端可以是用于实现直播的直播应用程序(Application，简称为App)，相应的，该应用服务器120可以是直播服务器，终端110对应的用户可以为直播用户，该直播用户可以通过终端110中的直播APP进行音视频的实时录制形成音视频数据流，该音视频数据流可以由终端110上传到直播服务器，由直播服务器将该音视频数据流发送给需要观看该直播的其它终端。

语音处理服务器130中存储有已训练好的语音处理模型，该语音处理模型可以包括语音识别网络和语义理解网络，其中，语音识别网络可以对输入语音进行特征提取得到包括输入语音的文本特征和该输入语音中高级语义特征的语音特征提取结果，该高级语义特征可以包含输入语音中的语气、态度、语调、情感等一些原始的语音信息；语义理解网络以该语音特征提取结果作为输入，输出该输入语音的语义理解结果。

本公开的实施例由于语音特征提取结果包括输入语音的文本特征和高级语义特征，从而相较于直接以输入语音对应的纯文本作为后续语义理解网络的输入，可以避免转化的纯文本与输入语音之间的差异对后续语义理解结果准确性的影响，提高了对输入语音内容理解的准确性。

图1中所示的应用服务器120和语音处理服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，该应用服务器120和语音处理服务器130可以是同一个服务器，也可以是不同的服务器。终端和服务器之间可以通过有线网络或者无线网络连接。

图2是根据一示例性实施例示出的一种语音处理方法的流程图，如图2所示，以语音处理方法应用于图1所示的语音处理服务器130中进行说明，包括以下步骤。

在步骤S210中，获取目标语音。

其中，目标语音为需要进行处理也即内容理解的语音，该目标语音可以是用户实时上传至应用服务器的，也可以是用户在历史时间段内上传至应用服务器的，语音处理服务器可以从应用服务器获取用户实时上传的语音进行处理，也可以从应用服务器获取用户在历史时间段内上传的语音进行处理。

当语音处理服务器对用户实时上传的目标语音进行处理时，该目标语音可以是直播语音。例如，直播语音可以是直播终端在语音直播过程中上传的直播音频数据，也可以是在视频直播过程中从直播终端上传的直播视频数据流中分离出来的语音数据。

基于此，在一示例性的实施方式中，步骤S210在获取目标语音时，可以获取直播视频数据流，提取该直播视频数据流中的语音数据，并将该语音数据作为目标语音。

在步骤S220中，将上述目标语音输入至语音处理模型的语音识别网络，根据语音识别网络的隐藏层的输出得到语音特征提取结果。

其中，语音特征提取结果包括目标语音的文本特征和高级语义特征，文本特征表征目标语音的字符信息，该字符信息可以用于生成目标语音对应的纯文本，因此也可以称之为文本信息；高级语义特征不同于文本特征，该高级语义特征包含目标语音中的语气、态度、语调、情感等一些原始的语音信息。

本公开的实施例中，语音处理模型为预先训练好的，语音处理模型包括语音识别网络和语义理解网络。其中，语音识别网络包括输入层和隐藏层，输入层用于接收目标语音的输入，隐藏层是对神经网络模型中除输入层和输出层之外的中间神经网络层的统称，中间神经网络层可以包括多个神经网络层，也即该隐藏层还可以包括多个中间隐藏层，隐藏层用于对从输入层传入的目标语音进行特征提取得到特征向量。语义理解网络用于基于上述语音特征提取结果实现对目标语音的语义理解，该语义理解网络可以是深度神经网络，如可以是两层循环神经网络(Recurrent Neural Network)。

对于上述语音处理模型的训练将在本公开实施例的后续部分进行详细介绍。

通常情况下，在将语音识别为文本的过程中，语音中的语气、态度、语调、情感等一些原始的语音信息会被逐渐丢弃，最极端的丢弃是输出文本，此时语音中的语气、态度、语调、情感等一些原始的语音信息都丧失了。而本公开的实施例基于语音识别网络的隐藏层的输出得到语音特征提取结果，由于语音识别网络的隐藏层所输出的特征向量保留有目标语音中的语气、态度、语调、情感等一些原始的语音信息，从而基于语音识别网络的隐藏层的输出得到的语音特征提取结果在包含目标语音的文本特征的基础上还包含了目标语音中的语气、态度、语调、情感等高级语义特征。

在步骤S230中，将语音特征提取结果输入至上述语音处理模型的语义理解网络，得到目标语音的语义理解结果。

在一示例性的实施方式中，语音处理模型可以只包括一个语音识别网络，该语音识别网络的隐藏层的输出端与语义理解网络相连接，语音识别网络的隐藏层所输出的特征向量直接作为语音特征提取结果输入至语音处理模型的语义理解网络中，得到语义理解网络输出的语义理解结果。

由于语音特征提取结果包括目标语音的文本特征和高级语义特征，从而相较于直接以纯文本作为后续语义理解网络的输入，以该语音特征提取结果作为后续语义理解网络的输入可以避免转化的纯文本与目标语音之间的差异对后续语义理解结果准确性的影响，提高了对目标语音内容理解的准确性。

为了进一步提高对输入语音内容理解的准确性，在另一示例性的实施方式中，如图3所示的语音处理模型的结构框图，该语音识别模型可以包括多个语音识别网络，多个语音识别网络具有不同的网络结构，各语音识别网络的隐藏层的输出端与一融合层相连，该融合层的输出端与语义理解网络连接。相应的，上述步骤S220在将目标语音输入至语音处理模型的语音识别网络，根据语音识别网络的隐藏层的输出得到语音特征提取结果时，可以包括图4中的以下步骤：

在步骤S410中，将目标语音分别输入至语音处理模型的各个语音识别网络，获取每个语音识别网络的隐藏层输出的特征向量。

在步骤S420中，对每个语音识别网络的隐藏层输出的特征向量进行融合，得到融合特征向量，将该融合特征向量作为上述语音特征提取结果。

本公开的实施例中，语音处理模型包括的多个语音识别网络具有不同的网络结构，由于不同的网络结构对同一输入语音中高级语义特征的保留程度不同，从而基于多个具有不同网络结构的语音识别网络对于同一目标语音中的高级语义特征可以得到不同层次的向量表达，进而可以得到目标语音的多层次信息。以语音处理模型包括两个语音识别网络为例，其中一个语音识别网络可以为基于CTC(Connectionist TemporalClassification，联结时序分类)和注意力(Attention)机制联合的多任务语音识别框架，另一个可以为基于Transformer的语音识别模型结构。

可以理解的，语音处理模型中语音识别网络的数量并不限于上述示例中的两个，还可以包括更多个网络结构不同的语音识别网络；此外，各语音识别网络的网络结构也不限于上述示例中的两种，还可以包括其他的基于深度学习的语音识别框架。

在一个具体的实施方式中，多个语音识别网络中各语音识别网络的隐藏层包括依次连接的多个中间隐藏层，步骤S410在获取每个语音识别网络的隐藏层输出的特征向量时，针对每个语音识别网络的隐藏层，可以获取该隐藏层包括的多个中间隐藏层中的最后一层中间隐藏层所输出的特征向量。仍以语音处理模型包括两个语音识别网络分别为语音识别网络A和语音识别网络B为例，假设语音识别网络A包括输入层和隐藏层，其隐藏层包括4层中间隐藏层，语音识别网络B包括输入层和隐藏层，其隐藏层包括6层中间隐藏层，则在步骤S410的实施中可以获取语音识别网络A的第4层中间隐藏层所输出的特征向量并获取语音识别网络B的第6层中间隐藏层所输出的特征向量。基于各语音识别网络的最后一层中间隐藏层所输出的特征向量进行语义理解可以提高对于目标语音语义理解的准确性。

在一个具体的实施方式中，步骤S420在对每个语音识别网络的隐藏层输出的特征向量进行融合时可以直接将各语音识别网络的隐藏层输出的特征向量进行拼接，将拼接后的向量作为融合特征向量，拼接时各特征向量的先后顺序可以不受限制。例如，语音识别网络A的隐藏层输出的特征向量为1x50维的语音识别网络B的隐藏层输出的特征向量为1x80维/>则拼接后得到的向量为1x130维，该拼接后的向量可以是/>也可以是/>

可以理解的，上述对于每个语音识别网络的隐藏层输出的特征向量进行拼接得到融合特征向量只是融合方式的一个具体示例，实际应用中还可以采用其他的融合方式，本发明对此不作具体限定。

本公开的实施例通过将多个特征向量进行融合不仅使得不同语音识别网络的识别误差进行互补，而且融合特征向量中具有更加全面、完整的多层次输入语音信息，那么在后续基于该融合特征向量进行语义理解时可以进一步提高理解结果的准确性。

本公开的实施例在将目标语音输入至语音处理模型之前还可以包括对语音处理模型的训练步骤，图5是根据一示例性实施例示出的训练语音处理模型的流程图，如图5所示，该训练步骤可以包括：

在步骤S510中，获取预训练的语音识别网络，根据该语音识别网络和初始语义理解网络构建初始语音处理模型。

在一个具体的实施方式中，可以预训练多个具有不同网络结构的语音识别网络，具体的，可以先选取多个不同网络结构的初始语音识别模型，该初始语音识别模型可以是基于注意力机制的Encode-Decode框架结构，可以实现直接将输入的语音特征序列X＝{x₁,x₂,……,x_T}映射为文本序列Y＝{y₁,y₂,……,y_U}输出也即实现端到端的语音识别，其中，编码结构Encode和解码结构Decode均可以是循环神经网络RNN。例如，多个初始语音识别模型可以包括单独基于注意力机制的Transformer语音识别框架，以及基于CTC和注意力机制联合的多任务语音识别框架。其中，单独基于注意力机制的Transformer语音识别框架其解码过程与输入语音的帧的顺序无关，每个解码单元通过前一单元的解码结果与整体语音特征来生成当前的结果，解码过程不考虑语音的单调时序性；基于CTC和注意力机制联合的多任务语音识别框架在注意力机制的语音识别框架的基础上引入了CTC损失函数对模型进行优化，CTC通过引入空白元素来解决输入语音特征序列与输出文本序列长度不一致的问题。

然后采用训练语音数据和该训练语音数据对应的参考文本对上述多个初始语音识别模型进行语音识别训练，得到训练好的多个语音识别模型，进而可以对该多个语音识别模型中每个语音识别模型进行输入层和隐藏层的提取，并将从每个语音识别模型中提取的输入层和隐藏层作为相应网络结构的语音识别网络。其中，在从语音识别模型中提取隐藏层时可以提取至少部分隐藏层，具体提取的隐藏层的多少可以根据实际应用中的经验进行选取。

初始语义理解网络可以是深度神经网络，如可以是两层循环神经网络(RecurrentNeural Network)。

在构建初始语音处理模型时，可以构建包括上述多个具有不同网络结构的语音识别网络的初始语音处理模型，具体的，可以在多个语音识别网络与初始语义理解网络之间设置一融合层，该融合层的输入端连接多个语音识别网络的隐藏层，该融合层的输出端连接初始语义理解网络。

在步骤S520中，获取训练样本，该训练样本包括样本语音和样本语音对应的样本语义信息。

其中，样本语义信息表征样本语音的真实意图，可以由标注人员根据样本语音的内容进行标注，以语音处理模型应用于对语音内容的异常检测为例，该样本语义信息可以为表征异常或者不异常的标签。

在步骤S530中，将样本语音输入至初始语音处理模型的语音识别网络，根据语音识别网络的隐藏层的输出得到样本语音特征提取结果。

在步骤S540中，将样本语音特征提取结果输入至初始语音处理模型的初始语义理解网络，得到样本语音的语义理解结果。

其中，样本语音特征提取结果包括样本语音的文本特征和高级语义特征，该高级语义特征包含样本语音中的语气、态度、语调、情感等一些原始的语音信息。具体的，当初始语音处理模型包括多个语音识别网络时，可以将样本语音分别输入至各语音识别网络，获取每个语音识别网络的隐藏输出的特征向量，对每个语音识别网络的隐藏层输出的特征向量进行融合得到融合特征向量，将该融合特征向量作为语音特征提取结果，并将该语音特征提取结果作为初始语义理解网络的输入，通过初始语义理解网络基于上述的样本语音特征提取结果进行语义理解，得到样本语音的语义理解结果。

在步骤S550中，根据样本语音的语义理解结果和该样本语音对应的样本语义信息确定初始语音处理模型的损失值。

在步骤S560中，根据上述损失值调整初始语义理解网络的参数直至满足训练结束条件，得到语音处理模型。

具体的，初始语音处理模型的损失值可以是预设损失函数基于语义理解结果和样本语义信息得到，该预设损失函数可以是交叉熵损失函数，通过交叉熵作为预设损失函数来衡量样本语音的语义理解结果与样本语义信息之间的差异，在保持多个语音识别网络的网络参数不变的情况下，通过在初始语义理解网络中进行反向传播来更新初始语义理解网络中的参数。

其中，训练结束条件可以是样本语音的语义理解结果与该样本语音的样本语义信息之间的差异的变化率趋近于某一较低值(比如趋近于0)。当然，训练结束条件还可以是迭代次数达到预设迭代次数，例如，当迭代次数达到100次时可以结束当前的训练。

本公开的实施例中在语音处理模型的训练过程中，外界的输入仅为样本语音和该样本语音对应的样本语义信息，其中语义理解网络的输入来源于其前端多个语音识别网络的隐藏层的输出，使得对于语音处理模型的训练不再依赖对输入语音的文本内容的标注，从而在降低模型训练成本、提高模型训练效率的同时还提高了训练得到的语音处理模型的准确性。

由上述技术方案可见，本公开的实施例根据语音处理模型的语音识别网络的隐藏层的输出得到语音特征提取结果，并将该语音特征提取结果作为后续语义理解网络的输入进行输入语音内容的理解，由于该语音特征提取结果包括输入语音的文本特征和高级语义特征，从而相较于直接以纯文本作为后续语义理解网络的输入，可以避免转化的纯文本与输入语音之间的差异对后续语义理解结果准确性的影响，提高了对输入语音内容理解的准确性。

此外，本公开的实施例中基于多个具有不同网络结构的语音识别网络的隐藏层所输出的特征向量进行融合，以融合特征向量作为后续语义理解网络的输入，由于融合特征向量比任何单一特征向量具有更加全面、完整的多层次输入语音信息，进一步提高了对输入语音内容理解的准确性。

下面以应用于直播视频内容的异常检测这一场景为例，来介绍本公开实施例的上述语音处理方法。其中，异常是指直播视频内容不符合预设规定，该预设规定可以是内容符合法律、法规要求。

直播视频内容包括视频内容和语音内容，本公开的实施例中以直播视频的语音内容为异常检测的检测对象，由于语音内容的数据量相对于视频内容的数据量要小很多，通过对直播视频中语音内容的异常检测可以提高对于直播视频内容异常检测的效率。

具体的，在该应用场景中通过对直播视频数据流中语音数据的语音内容的异常检测来实现对直播视频内容的异常检测，进而可以根据异常检测结果对直播视频进行相应的管控，例如，若异常检测结果为违法语音，则可以向应用服务器返回针对相应直播视频的禁止推送指令，应用服务器在接收到该禁止推送指令后可以暂停对相应直播终端所上传的直播视频流的继续推送。

基于此，请参阅图6，其所示为根据本公开一示例性实施例示出的另一种语音处理方法的流程图，如图6所示，该方法可以包括：

在步骤S610中，获取直播视频数据流，提取该直播视频数据流中的语音数据，得到目标语音。

在一具体的实施方式中，语音处理服务器可以每隔预设时间间隔获取一次各直播用户的直播视频数据流，提取该直播视频数据流中的语音数据，得到目标语音，其中，各直播用户对应的预设时间间隔可以相同也可以不同。为了提高对于直播视频内容的异常检测的效率，语音处理服务器可以根据各直播用户的历史异常检测结果，为不同的直播用户设置不同的预设时间间隔，例如，历史异常检测结果为异常的总次数超过预设次数阈值的可以设置相对较小的预设时间间隔，而对于历史异常检测结果为异常的总次数未超过预设次数阈值的可以设置相对较大的预设时间间隔。具体的实施中，语音处理服务器可以维护一个历史异常检测结果记录表，该记录表中可以记录每个直播用户在预设历史时间段内直播视频内容的异常检测结果为异常的总次数，从而在步骤S610中可以根据该记录表中各直播用户的异常总次数确定预设时间间隔，进而可以每隔该预设时间间隔对其直播视频数据流进行异常检测。

在步骤S620中，将上述目标语音分别输入至语音处理模型的各个语音识别网络，获取每个语音识别网络的隐藏层输出的特征向量。

其中，语音处理模型的具体结构可以参见前述图3所示的结构框图，在此不再赘述。

该实施例中，在训练上述语音处理模型时样本语音所对应的样本语义信息可以是表征样本语音内容是否异常的标注标签，例如，样本语音内容为异常时，其相应的标注标签可以为“1”，反之，样本语音内非异常时，其相应的标注标签可以为“0”。训练用的样本语音可以从直播平台爬取，该样本语音可以但不限于为中文语音。

对于语音处理模型的具体训练过程可以参见本公开实施例中前述图5所示的方法实施例中的相关内容，在此不再赘述。

在步骤S630中，对每个语音识别网络的隐藏层输出的特征向量进行融合，得到融合特征向量，将该融合特征向量作为语音特征提取结果。

其中，语音特征提取结果包括目标语音中的文本特征和高级语义特征，该高级语义特征包含目标语音中的语气、态度、语调、情感等一些原始的语音信息。

在步骤S640中，将语音特征提取结果输入至上述语音处理模型的语义理解网络，得到异常检测结果。

其中，异常检测结果是语义理解网络基于语音特征提取结果对目标语音的语音内容是否异常的预测，该异常检测结果可以包括异常或者不异常，例如，语义理解网络输出标签“1”时，表明对于目标语音内容的异常检测结果为异常，进而得到相应直播视频内容为异常；语义理解网络输出标签“0”时，表明对于目标语音内容的异常检测结果为非异常，进而得到相应直播视频内容为非异常。

本公开的实施例由于语音特征提取结果包括直播视频中语音的文本特征和高级语义特征，从而相较于直接以语音对应的纯文本作为后续语义理解网络的输入，可以避免转化的纯文本与输入语音之间的差异对后续异常检测结果准确性的影响，提高了对直播视频内容异常检测的准确性；此外，作为后续语义理解网络的输入的语音特征提取结果由于来自多个具有不同网络结构的语音识别网络，从而使得该语音特征提取结果比任何单一特征具有更加全面、完整的多层次语音信息，进一步提高了对直播视频内容异常检测的准确性。

图7根据一示例性实施例示出的一种语音处理装置的框图。参照图8，该装置包括语音获取单元701，特征提取单元702，语义理解单元703。

该语音获取单元701，被配置为执行获取目标语音；

该特征提取单元702，被配置为执行将目标语音输入至语音处理模型的语音识别网络，根据语音识别网络的隐藏层的输出得到语音特征提取结果；该语音特征提取结果包括目标语音的文本特征和高级语义特征。

该语义理解单元703，被配置为执行将语音特征提取结果输入至语音处理模型的语义理解网络，得到目标语音的语义理解结果。

在一示例性的实施方式中，语音处理模型包括多个语音识别网络，多个语音识别网络具有不同的网络结构；

相应的，特征提取单元702，可以包括：

特征向量获取单元，被配置为执行将目标语音分别输入至语音处理模型的各个语音识别网络，获取每个语音识别网络的隐藏层输出的特征向量；

融合单元，被配置为执行对每个语音识别网络的隐藏层输出的特征向量进行融合，得到融合特征向量；将该融合特征向量作为语音特征提取结果。

在一示例性的实施方式中，语音识别网络的隐藏层包括依次连接的多个中间隐藏层；相应的，特征向量获取单元在获取每个语音识别网络的隐藏层输出的特征向量时，具体用于：

针对每个语音识别网络的隐藏层，获取该隐藏层包括的多个中间隐藏层中的最后一层中间隐藏层所输出的特征向量。

在一示例性的实施方式中，语音获取单元701，可以包括：

第一获取单元，被配置为执行获取直播视频数据流；

提取单元，被配置为执行提取直播视频数据流中的语音数据，并将该语音数据作为目标语音。

在一示例性的实施方式中，该装置还可以包括：

构建单元，被配置为执行获取预训练的语音识别网络，根据该语音识别网络和初始语义理解网络构建初始语音处理模型；

第二获取单元，被配置为执行获取训练样本，该训练样本包括样本语音和该样本语音对应的样本语义信息；

第一输入单元，被配置为执行将样本语音输入至初始语音处理模型的语音识别网络，根据语音识别网络的隐藏层的输出得到样本语音特征提取结果，该样本语音特征提取结果包括样本语音的文本特征和高级语义特征；

第二输入单元，被配置为执行将样本语音特征提取结果输入至初始语音处理模型的初始语义理解网络，得到样本语音的语义理解结果；

损失确定单元，被配置为执行根据样本语音的语义理解结果和该样本语音对应的样本语义信息确定初始语音处理模型的损失值；

参数调整单元，被配置为执行根据损失值调整初始语义理解网络的参数直至满足训练结束条件，得到所述语义处理模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的实施例的语音处理装置通过获取目标语音，将该目标语音输入至语音处理模型的语音识别网络，根据该语音识别网络的隐藏层的输出得到语音特征提取结果，并将该语音特征提取结果输入至语音处理模型的语义理解网络，进而得到目标语音的语义理解结果，由于语音特征提取结果包括文本特征和高级语义特征，该高级语义特征包含了目标语音中的语气信息、态度信息、情感信息以及语调信息等等一些原始的语音信息，从而相较于直接以目标语音对应的纯文本作为后续语义理解网络的输入，上述技术方案可以避免转化的纯文本与输入语音之间的差异对后续语义理解结果准确性的影响，提高了对输入语音内容理解的准确性。

在示例性实施例中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一语音处理方法的步骤。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图8是根据一示例性实施例示出的一种用于语音处理的电子设备的框图，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)810(处理器810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器830，一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中，存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器810可以设置为与存储介质820通信，在电子设备800上执行存储介质820中的一系列指令操作。电子设备800还可以包括一个或一个以上电源860，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口840，和/或，一个或一个以上操作系统821，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备800的通信供应商提供的无线网络。在一个实例中，输入输出接口840包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口840可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图8所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备800还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。

在示例性实施例中，还提供了一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一语音处理方法的步骤。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一种实施方式中提供的语音处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取目标语音；

将所述目标语音分别输入至语音处理模型的多个语音识别网络，获取每个语音识别网络的隐藏层输出的特征向量；所述多个语音识别网络具有不同的网络结构；

对所述每个语音识别网络的隐藏层输出的特征向量进行融合得到融合特征向量，将所述融合特征向量作为语音特征提取结果；所述语音特征提取结果包括所述目标语音的文本特征和高级语义特征；

2.根据权利要求1所述的语音处理方法，其特征在于，所述语音识别网络的隐藏层包括依次连接的多个中间隐藏层；

相应的，所述获取每个语音识别网络的隐藏层输出的特征向量，包括：针对每个语音识别网络的隐藏层，获取所述隐藏层包括的多个中间隐藏层中的最后一层中间隐藏层所输出的特征向量。

3.根据权利要求1所述的语音处理方法，其特征在于，所述获取目标语音，包括：

获取直播视频数据流；

4.根据权利要求1所述的语音处理方法，其特征在于，所述方法还包括：

5.一种语音处理装置，其特征在于，包括：

语音获取单元，被配置为执行获取目标语音；

特征提取单元，被配置为执行将所述目标语音分别输入至语音处理模型的多个语音识别网络，获取每个语音识别网络的隐藏层输出的特征向量，所述多个语音识别网络具有不同的网络结构；对所述每个语音识别网络的隐藏层输出的特征向量进行融合得到融合特征向量，将所述融合特征向量作为语音特征提取结果；所述语音特征提取结果包括所述目标语音的文本特征和高级语义特征；

6.根据权利要求5所述的语音处理装置，其特征在于，所述语音识别网络的隐藏层包括依次连接的多个中间隐藏层；相应的，所述特征向量获取单元在获取每个语音识别网络的隐藏层输出的特征向量时，具体用于：

7.根据权利要求5所述的语音处理装置，其特征在于，所述语音获取单元，包括：

第一获取单元，被配置为执行获取直播视频数据流；

8.根据权利要求5所述的语音处理装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的语音处理方法。

10.一种计算可读存储介质，当所述计算可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至4中任一项所述的语音处理方法。

11.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至4中任一项所述的语音处理方法。