CN112767928B

CN112767928B - 一种语音理解方法、装置、设备及介质

Info

Publication number: CN112767928B
Application number: CN202110199543.0A
Authority: CN
Inventors: 唐浩雨
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2024-04-16
Anticipated expiration: 2041-02-22
Also published as: CN112767928A

Abstract

本发明公开了一种语音理解方法、装置、设备及介质，用以解决现有无法快捷且准确地获取语音数据的语义识别结果的问题。由于预先训练有语音理解网络，且该语音理解网络是基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络确定的，后续在语音理解的过程中，获取到了待处理的语音数据后，通过训练完成的语音理解网络，直接基于该语音数据，即可获取到该语音数据的语义识别结果，且该语义识别结果是结合语音识别网络中的编码层输出的结果确定的，提高了语义识别结果的准确性，也实现了快速地获取语音数据的语义识别结果。

Description

一种语音理解方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音理解方法、装置、设备及介质。

背景技术

随着生活的发展，直播俨然成为人们日常生活中的一项比较常见的娱乐方式。在直播过程中，一般需要对数量繁杂的直播间主播的内容进行监管，包括图像和声音。其中，对于声音的监管，其主要是对直播中主播说出的语音内容的监管，通过对主播发出的语音数据进行语音识别，将语音数据转换成文字内容，基于该文字内容进行甄别，确定是否需要对该主播的直播间进行管制。因此，如何实现快捷且准确地获取语音数据的语义识别结果是近几年来人们日益关注的问题。

发明内容

本发明实施例提供了一种语音理解方法、装置、设备及介质，用以解决现有无法快捷且准确地获取语音数据的语义识别结果的问题。

本发明实施例提供了一种语音理解方法，所述方法包括：

获取待处理的语音数据；

通过预先训练完成的语音理解网络，确定所述语音数据的语义识别结果，其中，所述语音理解网络是基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络确定的。

本发明实施例提供了一种语音理解装置，所述装置包括：

获取模块，用于获取待处理的语音数据；

确定模块，用于通过预先训练完成的语音理解网络，基于所述语音数据，确定所述语音数据的语义识别结果，其中，所述语音理解网络是基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络确定的。

本发明实施例提供了一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述所述语音理解方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述语音理解方法的步骤。

由于预先训练有语音理解网络，且该语音理解网络是基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络确定的，后续在语音理解的过程中，获取到了待处理的语音数据后，通过训练完成的语音理解网络，直接基于该语音数据，即可获取到该语音数据的语义识别结果，且该语义识别结果是结合语音识别网络中的编码层输出的结果确定的，提高了语义识别结果的准确性，也实现了快速地获取语音数据的语义识别结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音识别网络的结构示意图；

图2为本发明实施例提供的一种语音理解过程示意图；

图3为本发明实施例提供的具体的语音理解流程示意图；

图4为本发明实施例提供的一种语音理解网络的结构示意图；

图5为本发明实施例提供的一种语音理解装置的结构示意图；

图6为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员知道，本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本申请可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

现有技术中，一般通过两个网络实现语音理解的，即通过语音识别网络和语义识别网络实现语音理解的。具体的，首先通过语音识别网络，获取语音数据对应的文字序列，然后通过语义识别网络，获取该文字序列对应的语义识别结果。

图1为本发明实施例提供的一种语音识别网络的结构示意图。在语音识别中，会采用端到端的声学深度神经网络进行语音识别，如编码解码网络(seq2seq)和它的各种改进网络，一般情况下会具有如图1的结构，其包括有编码层，对齐(Connectionist TemporalClassification，CTC)输出层，以及注意力解码(attention-decoder)输出层。其中o_n为输入的语音数据，编码层中的方块表征编码器(encoder)的深度神经网络，该编码层输出隐含特征h_n。这个隐含特征可以作为对齐输出层的输入，以计算CTC损失函数和文字y_n，亦可以作为注意力解码输出层的输入，首先根据编码层输出的所有h_n通过注意力解码输出层中的注意力(attention)神经网络(如图1中H所在的方框所示)先计算出一个注意力权重(attention weight)a_m,n，具体计算过程可通过如下公式确定：

其中，N表示输入的语音数据所包含的隐含特征总数量，h_1-N表示第1-N个隐含特征，a_m,n为第m时刻时第n个隐含特征所对应的注意力权重，S_m-1为注意力解码输出层中的第m-1时刻的一个状态量。

然后根据每个隐含特征分别对应的权重值以及各个隐含特征h_n，对各隐含特征h_n进行更新，更新后的隐含特征为加权隐含特征c_n。具体的，通过如下公式根据每个隐含特征分别对应的权重值以及各个隐含特征h_n，对各隐含特征h_n进行更新：

其中，c_n为第n个加权隐含特征，即为更新后的隐含特征h_n，a_m,n为第m时刻时第n个隐含特征所对应的注意力权重，h_n表示第n个隐含特征。

加权隐含特征c_n结合注意力解码输出层中解码器的状态量S_n计算出需要的文字y_n，同时更新状态量S_n：

y_n＝Generate(c_n,S_n-1)

S_n＝Recurrency(S_n-1,c_n,y_n)

公式中的Generate和Recurrency都是注意力解码输出层中的一部分网络。根据第n-1个状态量S_n-1，更新第m时刻第n个隐含特征h_n的权重值a_m,n。最后注意力解码输出层中解码器计算出来的文字y_n也用来计算注意力解码输出层的损失函数。

同理，对于语义识别网络，其与语音识别网络的结构类似，只是把图1中的encoder换成预训练的基于转换器的双向编码表征(Bidirectional Encoder Representationsfrom Transformers，Bert)，o_n为输入的文字序列，注意力解码输出层中的解码器换成意图分类器，同时删除对齐输出层。

其中，BERT运行自监督学习方法为字符或单词学习一个特征表示，然后意图分类器在基于这个特征值再分类。

对于该种方法，主要存在以下弊端：

一、由于语音识别网络和语义识别网络均可能存在一定的误差，如果语音识别网络的识别结果存在误差，则该误差会进一步影响到语义识别网络的识别结果的精确度，降低获取语音理解的效率以及语义识别结果的精确度。

二、通过语音识别网络获取语音识别结果时，该获取的语音识别结果所丢弃的一些信息，语义识别网络将无法再继续利用，影响了语义识别结果的精确度。比如，艾伯特.梅拉比安研究认为语义理解的大多数信息已经丢失在面部表情中了，但是更多的非文字的表达信息还是蕴藏在声音信号中，如情绪和语速等，但是这部分信息已经在语音识别过程中被丢弃了。

为了避免上述的情况，本发明实施例提供了一种语音理解方法、装置、设备及介质。由于预先训练有语音理解网络，且该语音理解网络是基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络确定的，后续在语音理解的过程中，获取到了待处理的语音数据后，通过训练完成的语音理解网络，直接基于该语音数据，即可获取到该语音数据的语义识别结果，且该语义识别结果是结合语音识别网络中的编码层输出的结果确定的，提高了语义识别结果的准确性，也实现了快速地获取语音数据的语义识别结果。

实施例1：

图2为本发明实施例提供的一种语音理解过程示意图，该过程包括：

S201：获取待处理的语音数据。

本发明实施例提供的语音理解方法应用于电子设备，该电子设备可以为智能设备，也可以为服务器。

其中，进行语音理解的电子设备获取的待处理的语音数据，可以是自身采集的，也可以是接收其他智能设备发送的语音数据。

在一种可能的应用场景中，在直播过程中，为了维护良好的网络文明环境，一般需要对主播的语音数据的内容进行监管，而如果要获取主播的语音数据的内容，可以通过智能设备采集到主播的语音数据。智能设备采集到主播的语音数据后，将该语音数据确定为待处理的语音数据并发送至进行语音理解的电子设备。基于获取到的待处理的语音数据，进行语音理解的电子设备进行后续的设备，以确定该语音数据的语义识别结果，根据该语音数据的语义识别结果确定该主播是否需要进行监管。

需要说明的是，上述实施例中所举出的应用场景仅是为了方便说明所提出的示例性的场景，并不是对本发明实施例所提供的一种语音理解方法、装置、设备及介质的应用场景的一种限定。本领域技术人员应当知道，本发明实施例所提供的一种语音理解方法、装置、设备及介质可以应用到所有需要进行语音理解的应用场景中，比如，人机交互应用场景等。

S202：通过预先训练完成的语音理解网络，确定所述语音数据的语义识别结果，其中，所述语音理解网络是基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络确定的。

为了快捷且准确地确定语音数据的语义识别结果，在本发明实施例中，将语义识别网络中的输入层与语音识别网络中的编码层以及输出层连接，对连接后的网络进行相应的训练，获取训练完成的语音理解网络，以使后续通过该语音理解网络对语音数据进行语义识别时，语义识别网络可以充分利用语音识别网络的编码层所输出的结果，即充分利用语音识别网络的编码层所获取的该语音数据在各个维度上的特征信息，确定语音数据的语义识别结果。

当基于上述实施例获取到待处理的语音数据之后，将该语音数据输入到预先训练完成的语音理解模型。通过该语音理解模型，直接基于该语音数据，确定该语音数据的语义识别结果。

在一种可能的实施方式中，由于语音理解网络是根据语义识别网络以及语音识别网络确定的，因此，通过该语音理解网络，也可以获取到语音数据的语音识别结果。具体的，所述方法还包括：

通过预先训练完成的语音理解网络，基于所述语音数据，确定所述语音数据的语音识别结果。

当获取到了语音数据的语义识别结果之后，可以根据不同的应用场景，对该语义结果进行不同的处理。比如，如果希望获取语音数据的语义识别结果，则可以控制智能设备输出该语义识别结果；如果希望对该语音数据进行内容监管，则可以对该语义识别结果进行后续的处理，确定该语义识别结果是否为预设的违规意图；如果希望进行人机交互，则可以根据该语义识别结果，进行相应的处理，确定该语音数据对应的响应信息。

实施例2：

为了快捷且准确地确定语音数据的语义识别结果，在上述实施例的基础上，在本发明实施例中，基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络，确定语音理解模型包括如下方式：

方式一、可以直接将原始语义识别网络中的输入层，分别与原始语音识别网络中的编码层以及输出层连接，将连接后的网络直接确定为原始语音理解网络。

为了提高语音理解网络的精确度，需要预先收集用于训练原始语音理解网络的语音样本集(为了方便说明，记为第一语音样本集)，该第一语音样本集中包含有大量的语音数据(为了方便说明，记为第一语音数据)，基于该第一语音样本集中的第一语音数据，对原始语音理解网络进行训练。其中，任一第一语音数据对应有第一标签，该第一标签用于标识该第一语音数据对应的第一语义识别结果。

需要说明的是，可以通过人工的方式确定每个第一语音数据分别对应的第一标签，也可以通过预先训练完成的通用语义识别网络，分别确定每个第一语音数据分别对应的第一标签。具体实施过程中，可以根据实际需求进行灵活设置，在此不做具体限定。

在本发明实施例中，第一语音数据可以是在智能设备的工作环境中采集到的，也可以是从专业的语音样本录制环境中采集到的，即第一语音数据包括从智能设备的工作环境中采集到的语音数据，和/或，从专业的语音样本录制环境中采集到的语音数据。

具体实施过程中，获取第一语音样本集中的任一第一语音数据，将该第一语音数据输入到原始语音理解网络。通过原始语音理解网络，获取该第一语音数据的语音识别结果(为了方便描述，记为第三语义识别结果)。后续基于该第一语音数据的第三语义识别结果以及对应的第一标签，对该原始语音理解网络进行训练，以对该原始语音理解网络包含的每个参数的参数值进行调整。

由于第一语音样本集中包含有若干个第一语音数据，针对每个第一语音数据，均执行上述的步骤，当满足预设的收敛条件时，该语音理解网络训练完成。

其中，满足预设的收敛条件可以为第一语音样本集中的第一语音数据的第三语义识别结果以及分别对应的第一标签所确定的损失值，小于预设的损失阈值时，或对原始语音理解网络进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

作为一种可能的实施方式，在进行语音理解网络训练时，可以把第一语音样本集中的第一语音数据分为训练样本和测试样本，先基于训练样本对原始语音理解网络进行训练，再基于测试样本对上述已训练的语音理解网络的可靠程度进行验证。

方式二、在实际应用场景中，很少标注语音数据的样本所对应的语义识别结果，一般是标注语音数据所对应的语音识别结果，或者是文本数据所对应的语义识别结果。如果为了保证训练的语音理解网络的精确度，则需要收集大量的第一语音数据，并标注第一语音数据所对应的第一标签，即第一语音数据所对应的第三语义识别结果，使得前期需要耗费大量的资源获取到用于训练语音理解网络的第一语音样本集。为了减少第一语音样本集中第一语音数据的数量，在本发明实施例中，可以预先对原始语音识别网络或原始语义识别网络进行训练，保证训练完成的语音识别网络和训练完成的语义识别网络的精度，以及后续所确定的原始语音理解中部分参数的准确性。

其中，对原始语音识别网络的过程属于现有技术，在此不作具体赘述。

在一种可能的实施方式中，当基于上述实施例获取到训练完成的语音识别网络，可以将原始语义识别网络中的输入层，分别与训练完成的语音识别网络中的编码层以及输出层连接，获取原始语音理解网络。并基于该原始语音理解网络，进行进一步地训练。

在一种可能的实施方式中，通过如下方式获取所述训练完成的语义识别网络：

基于预先配置的编码向量、文本样本集中的样本文本数据以及所述样本文本数据对应的第二标签，对原始语义识别网络进行训练；其中，所述第二标签用于标识所述样本文本数据对应的第二语义识别结果。

由于后续要将训练完成的语义识别网络的输入层与语音识别网络的编码层连接，从而使训练完成的语义识别网络可以获取到通过语音识别网络的编码层所获取到的语音数据的特征信息，并基于该特征信息以及语音识别网络输出的语音识别结果，准确地确定语音数据的语义识别结果。因此，在本发明实施例中，预先配置有编码向量(为了方便描述，记为初始编码向量)、预先收集的用于语义识别网络的训练的文本样本集。在对语义识别网络进行训练时，基于预先配置的初始编码向量、文本样本集中的样本文本数据以及样本文本数据所对应的标签(为了方便描述，记为第二标签)，对原始语义识别网络进行训练。其中，预先配置的初始编码向量所包含元素的数量与语义识别网络的编码层输出的任一编码向量所包含的元素的数量相同，均为预设数量。该预先配置的初始编码向量可以是由设定数量的预设数值确定，比如，设定数量为5，预设数值为0，则该初始编码向量为[0 0 0 00]，也可以是通过预设的数值范围内设定数量的随机值确定，任意两个随机值可以相同也可以不同，比如，设定数量为5，预设的数值范围为[0 100]，依次从该预设的数值范围[0100]内随机抽取5个随机值分别为9、81、7、31、69，则该初始编码向量为[9 81 7 31 69]。任一样本文本数据所对应的第二标签用于标识该样本文本数据对应的语义识别结果(为了方便描述，记为第二语义识别结果)。

在一种可能的实施方式中，该文本样本集中的样本文本数据可以根据从智能设备的工作环境中的语音数据的语义识别结果，和/或，从专业的语音样本录制环境中采集到的语音数据的语义识别结果。

具体实施过程中，获取文本样本集中的任一样本文本数据，将该样本文本数据以及预先配置的初始编码向量同时输入到原始语义识别网络。通过原始语义识别网络，基于该样本文本数据以及初始编码向量，获取该样本文本数据的语义识别结果(为了方便描述，记为中间态语义识别结果)。通过该样本文本数据的中间态语义识别结果以及对应的第二标签，对该原始语义识别网络进行训练。

由于文本样本集中包含有若干个样本文本数据，针对每个样本文本数据，均执行上述的步骤，当满足预设的收敛条件时，该语义识别网络训练完成。

其中，满足预设的收敛条件可以为文本样本集中的样本文本数据的中间态语义识别结果以及分别对应的第二标签所确定的损失值，小于预设的损失阈值时，或对原始语义识别网络进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

作为一种可能的实施方式，在进行语义识别网络训练时，可以把文本样本集中的样本文本数据分为训练样本和测试样本，先基于训练样本对原始语义识别网络进行训练，再基于测试样本对上述已训练的语义识别网络的可靠程度进行验证。

在一种可能的实施方式中，当基于上述实施例获取到训练完成的语义识别网络，可以将预先训练完成的语义识别网络中的输入层，分别与原始语音识别网络中的编码层以及输出层连接，获取原始语音理解网络。并基于该原始语音理解网络，进行进一步地训练。

当获取到原始语音理解网络之后，可以基于预先收集的第一语音样本集中的第一语音数据以及第一语音数据所对应的第一标签，对原始语音理解网络进行进一步地训练。

在一种可能的实施方式中，由于预先对语义识别网络或语音识别网络进行训练，保证了原始语音理解网络中包含的部分参数的准确性。因此，在基于预先收集的第一语音样本集中的第一语音数据以及第一语音数据所对应的第一标签，对原始语音理解网络进行进一步地训练时，可以对原始语音理解网络中包含的参数的参数值进行微调，具体包括如下三种方式：

方式A、预先设置小学习率。在基于第一语音数据的第三语义识别结果以及对应的第一标签所确定的损失值，通过反向传播的方法，对原始语音理解网络中包含的参数的参数值进行调整时，可以按照该小学习率，对参数的参数值进行微调。具体的调整过程，相信本领域技术人员可以根据本发明实施例中的描述确定，在此不做赘述。

方式B、在获取到原始语音理解网络之后，可以将该原始语音理解网络中的参数分为第一类参数和第二类参数，其中，第一类参数的参数值可能不会因为样本文本数据的不同而变化，或者变化幅度很小(第一类参数也称为固定参数或底层参数)，第二类参数的参数值会因为样本文本数据的不同而发生变化且变化幅度较大(第二类参数也称为可调参数或顶层参数)，即将该原始语音理解网络包含的每个参数中，除第一类参数之外的其他参数确定为第二类参数。其中，该第一类参数的参数量一般非常的大，而第二类参数的参数量则相对较少，可以减少后续对原始语音理解网络训练时所需调整的参数的数量。

当确定了原始语音理解网络中的每个第一类参数之后，将原始语音理解网络中的各第一类参数的参数值，分别确定为语音理解网络中的与各第一类参数对应的参数的参数值。后续在该原始语音理解网络的基础上，采用迁移学习的思想训练得到语音理解网络，即在原始语音理解网络确定的各第一类参数的参数值的基础上，对各第二类参数的参数值进行调优。在基于第一语音数据的第三语义识别结果以及对应的第一标签所确定的损失值，通过反向传播的方法，对原始语音理解网络中包含的参数的参数值进行调整时，只对该原始语音理解网络中包含的可调参数的参数值进行调整。具体的调整过程，相信本领域技术人员可以根据本发明实施例中的描述确定，在此不做赘述。

方式C、还可以将上述方式A和方式B进行结合，即预先配置有小学习率，并在获取到了原始语音理解网络之后，确定该原始语音理解网络中包含的第一类参数以及第二类参数。在基于第一语音数据的第三语义识别结果以及对应的第一标签所确定的损失值，通过反向传播的方法，对原始语音理解网络中包含的参数的参数值进行调整时，按照预设的小学习率，只对该原始语音理解网络中包含的可调参数的参数值进行调整。具体的调整过程，相信本领域技术人员可以根据本发明实施例中的描述确定，在此不做赘述。

方式三、为了进一步减少用于训练原始语音理解网络所需的第一语音数据的数量，还可以预先训练原始语义识别网络以及原始语音识别网络。获取到训练完成的原始语义识别网络以及原始语音识别网络之后，将原始语义识别网络中的输入层，分别与原始语音识别网络中的编码层以及输出层连接，获取原始语音理解网络。然后基于第一语音样本集中的第一语音数据以及第一语音数据对应的第一标签，对该原始语音理解网络进行训练。

其中，用于训练语义识别网络的样本文本数据还可以是通过训练完成的语音识别网络确定的。具体的，通过训练完成的语音识别网络，分别对用于训练该语音识别网络的语音样本进行处理，获取每个语音样本分别对应的语音识别结果，将每个语音样本分别对应的语音识别结果确定为样本文本数据。

在一种可能的实施方式中，可以基于第一语音样本集中的第一语音数据以及第一语音数据对应的第一标签，对该原始语音理解网络包含的参数的参数值进行微调，即若所述原始语音理解网络是基于预先训练完成的语义识别网络，和/或，预先训练完成的语音识别网络确定的，所述基于第一语音样本集中的第一语音数据以及所述第一语音数据对应的第一标签，对所述原始语音理解网络进行训练包括：

获取任一所述第一语音数据；

通过所述原始语音理解网络，获取所述第一语音数据的第三语义识别结果；

基于所述第三语义识别结果以及所述对应的第一标签，对所述原始语音理解网络包含的参数的参数值进行微调。

需要说明的是，具体的微调的方式已在上述实施例进行说明，具体参见上述方式A-C，重复之处不做赘述。

在一种可能的实施方式中，所述通过所述原始语音理解网络，获取所述第一语音数据的第三语义识别结果，包括：

通过所述原始语音理解网络的编码层，获取所述第一语音数据对应的至少一个编码向量；

通过所述原始语音理解网络的语音解码层，基于所述至少一个编码向量，获取所述第一语音数据的语音识别结果；

通过所述原始语音理解网络的语义解码层，基于所述至少一个编码向量以及所述语音识别结果，获取所述第一语音数据的第三语义识别结果。

在本发明实施例中，原始语音理解网络中主要包括有编码层、语音解码层以及语义解码层。其中，编码层分别与语音解码层以及语义解码层连接，语音解码层还与语义解码层连接。

当基于上述实施例获取到原始语音理解网络之后，获取第一语音样本集中的任一第一语音数据，将该第一语音数据输入到原始语音理解网络。通过原始语音理解网络中的编码层，可以对接收到的第一语音数据进行相应的处理，提取第一语音数据的特征信息，从而获取该第一语音数据对应的至少一个编码向量。

原始语音理解网络中与编码层连接的语音解码层，接收编码层输出的至少一个编码向量，基于该至少一个编码向量，进行相应的处理，获取该第一语音数据的语音识别结果并输出至语义解码层。

原始语音理解网络中的语义解码层获取到语音解码层输出的语音识别结果以及编码层输出的至少一个编码向量之后，基于该语音识别结果以及至少一个编码向量，进行相应的处理，确定第一语音数据的第三语义识别结果。

后续基于该第一语音数据的第三语义识别结果以及对应的第一标签，确定损失值。根据损失值，对原始语音理解网络包含的参数的参数值进行微调。

实施例3：

为了更准确地获取语音数据的语音识别结果，在上述各实施例的基础上，在本发明实施例中，获取到训练完成的语音识别网络之后，所述获取原始语音理解网络之前，所述方法还包括：

获取第二语音样本集中的任一第二语音数据，所述第二语音数据对应有第三标签，所述第三标签用于标识所述第二语音数据对应的第一情感信息；

通过原始情感分类网络，获取所述第二语音数据对应的第二情感信息；所述原始情感分类网络是根据情感分类器以及所述训练完成的语音识别网络中的编码层确定的；

基于所述第二情感信息以及所述第三标签，对所述原始情感分类网络进行训练，以根据训练完成的情感分类网络中的编码层，对所述训练完成的语音识别网络中的编码层进行更新。

在实际应用场景中，情感信息也会对获取语音数据的语音识别结果的精确度有影响。因此，在本发明实施例中，还需要语音识别网络的编码层可以提取语音数据对应的情感信息，以方便后续语义识别网络可以基于语音识别网络的编码层提取到的情感信息、以及语音识别网络的输出层输出的语音识别结果，确定语音数据的语义识别结果。基于此，可以基于训练完成的语音识别网络中包含的编码层以及情感分类器，确定原始情感分类网络。具体的，在基于上述的实施例获取到训练完成的语音识别网络之后，将该训练完成的语音识别网络中编码层与情感分类器连接，根据连接后的网络，确定原始情感分类网络，后续对该原始情感分类网络进行训练，从而实现对语音识别网络中包含的编码层提取语音数据对应的情感信息的能力进行训练。

为了方便对原始情感分类网络进行训练，在本发明实施例中，预先收集有用于训练原始情感分类网络的语音样本集(为了方便描述，记为第二语音样本集)，该第二语音样本集中包含有大量的语音数据(为了方便说明，记为第二语音数据)，基于该第二语音样本集中的第二语音数据，对原始情感分类网络进行训练。其中，任一第二语音数据对应有第二标签，该第二标签用于标识该第二语音数据对应的第一情感信息。

需要说明的是，可以通过人工的方式确定每个第二语音数据分别对应的第二标签，也可以通过预先训练完成的通用情感分类网络，分别确定每个第二语音数据分别对应的第二标签。具体实施过程中，可以根据实际需求进行灵活设置，在此不做具体限定。

在本发明实施例中，第二语音数据可以是在智能设备的工作环境中采集到的，也可以是从专业的语音样本录制环境中采集到的，即第二语音数据包括从智能设备的工作环境中采集到的语音数据，和/或，从专业的语音样本录制环境中采集到的语音数据。

需要说明的是，该第二语音样本集中包含的第二语音数据可以与第一语音样本集中包含的第一语音数据部分或完全相同，也可以是完全不同。

具体实施过程中，获取第二语音样本集中的任一第二语音数据，将该第二语音数据输入到原始情感分类网络。通过原始情感分类网络，获取该第二语音数据的情感信息(为了方便描述，记为第二情感信息)。后续基于该第二语音数据的第二情感信息以及对应的第二标签，对该原始情感分类网络进行训练，以对该原始情感分类网络包含的每个参数的参数值进行调整。

由于第二语音样本集中包含有若干个第二语音数据，针对每个第二语音数据，均执行上述的步骤，当满足预设的收敛条件时，该情感分类网络训练完成。

其中，满足预设的收敛条件可以为第二语音样本集中的第二语音数据的第二情感信息以及分别对应的第二标签所确定的损失值，小于预设的损失阈值时，或对原始情感分类网络进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

作为一种可能的实施方式，在进行情感分类网络训练时，可以把第二语音样本集中的第二语音数据分为训练样本和测试样本，先基于训练样本对原始情感分类网络进行训练，再基于测试样本对上述已训练的情感分类网络的可靠程度进行验证。

实施例4：

由于语音数据的情感信息对识别该语音数据的语义识别结果的准确度的影响很大，因此，为了准确地获取到语音数据的语义识别结果，在上述实施例的基础上，在本发明实施例中，原始语音理解网络的语义解码层中包含有情感解码网络以及语义解码网络，以根据情感解码网络以及语义解码网络的输出结果，确定语音数据的语义识别结果。具体的，所述通过所述原始语音理解网络的语义解码层，基于所述至少一个编码向量以及所述语音识别结果，获取所述第一语音数据的第三语义识别结果，包括：

在所述语义解码层中，通过情感解码网络，基于所述至少一个编码向量，获取所述第一语音数据的第三情感信息；并通过语义解码网络，基于所述语音识别结果，获取所述第一语音数据的中间态语义识别结果；根据所述第三情感信息及其对应的第一权重值，所述中间态语义识别结果及其对应的第二权重值，确定所述第一语音数据的第三语义识别结果。

基于上述实施例的描述，原始语音理解网络中的语义解码层可以获取到原始语音理解网络中的编码层输出的至少一个编码向量、以及原始语音理解网络中的语音解码层输出的语音识别结果，在该语义解码层中，将获取到的至少一个编码向量以及语音识别结果分别输入到情感解码网络以及语义解码网络中，即将至少一个编码向量输入到情感解码网络，将语音识别结果输入到语义解码网络。通过该情感解码网络，基于输入的至少一个编码向量，进行相应的处理，确定第一语音数据的情感信息(为了方便描述，记为第三情感信息)；并通过语义解码网络，基于输入的语音识别结果，进行相应的处理，确定第一语音数据的中间态语义识别结果。后续基于该中间态语义识别结果以及第三情感信息，进行相应的处理，确定第一语音数据的第三语义识别结果。

为了准确地获取到第三语义识别结果，在本发明实施例中，预先在原始语音理解网络中的语义解码层中，配置了情感解码网络输出的结果所对应的权重参数(为了方便描述，记为第一权重参数)，以及语义解码网络输出的结果所对应的权重参数(为了方便描述，记为第二权重参数)。其中，第一权重参数的参数值与第二权重参数的参数值均可随着原始语音理解网络的训练进行调整，且该第一权重参数和第二权重参数的初始参数值可以是根据预先配置的数值确定的，也可以在预设的数值范围内随机确定的，第一权重参数和第二权重参数的初始参数值可以相同，也可以不同。当基于上述的实施例获取到了第三情感信息以及中间态语义识别结果之后，根据该第三情感信息以及情感解码网络输出的结果所对应的第一权重参数的参数值，即情感解码网络输出的结果所对应的权重值(为了方便描述，记为第一权重值)，中间态语义识别结果以及语义解码网络输出的结果所对应的第二权重参数的参数值，即语义解码网络输出的结果所对应的权重值(为了方便描述，记为第二权重值)，进行相应的处理，确定该第一语音数据的第三语义识别结果。

在一种可能的实施方式中，首先，根据该第三情感信息以及对应的第一权重值，确定第一乘积，并根据中间态语义识别结果以及对应的第二权重值，确定第二乘积，然后根据第一乘积以及第二乘积的和，确定该第一语音数据的第三语义识别结果。

实施例5：

下面通过具体的实施方式对本发明实施例提供的语音理解方法进行详细的说明，图3为本发明实施例提供的具体的语音理解流程示意图，该流程包括：

S301：第一电子设备获取训练完成的语音识别网络。

S302：第一电子设备获取训练完成的语义识别网络。

其中，获取训练完成的语义识别网络具体包括：基于预先配置的编码向量、文本样本集中的样本文本数据以及样本文本数据对应的第二标签，对原始语义识别网络进行训练。其中，第二标签用于标识样本文本数据对应的第二语义识别结果。

需要说明的是，S301和S302的执行顺序部分先后，可以先执行S302，然后执行S301，也可以先执行S301，然后执行S302，当然还可以同时执行S301和S302。具体的，可以根据实际需求进行灵活设置，在此不作具体赘述。

S303：第一电子设备对训练完成的语音识别网络中的编码层进行更新。

具体的，获取第二语音样本集中的任一第二语音数据，第二语音数据对应的第三标签，第三标签用于标识第二语音数据对应的第一情感信息；通过原始情感分类网络，获取第二语音数据对应的第二情感信息；原始情感分类网络是根据情感分类器以及训练完成的语音识别网络中的编码层确定的；基于第二情感信息以及第三标签，对原始情感分类网络进行训练，以根据训练完成的情感分类网络中的编码层，对训练完成的语音识别网络中的编码层进行更新。

S304：第一电子设备将预先训练完成的语义识别网络中的输入层，分别与预先训练完成的语音识别网络中的编码层以及输出层连接，获取原始语音理解网络。

图4为本发明实施例提供的一种语音理解网络的结构示意图。如图4所示，语音理解网络包括语义识别网络以及语音识别网络(Understand attention decoder)，语义识别网络的输入层分别与语音识别网络的注意力解码(Automatic Speech Recognitionattention decoder，AAD)输出层、以及编码层连接，使得后续语义识别网络可以对编码层输出的至少一个编码向量、以及注意力解码输出层输出的语音识别结果进行进一步地处理，从而获取输入到语音识别网络的语音数据的语义识别结果。通过语义识别网络中的注意力(attention)神经网络(如图4中H方框所示)，基于语音识别网络的编码层输出的所有的隐含特征h_n和语音识别网络的注意力解码输出层识别的语音识别结果，先计算出一个注意力权重attention weight，计算记为：

其中cat表示Concatenates，即是一个拼接操作，N表示输入的语音数据所包含的隐含特征总数量，h_1-N表示第1-N个隐含特征，L表示输入的语音数据的语音识别结果所包含的字符的数量，,y_1-L表示第1-L个文字，为第m时刻时第n个隐含特征所对应的注意力权重，/>为语义识别网络中的注意力解码输出层中的第m时刻的一个状态量。

S305：第一电子设备对原始语音理解网络进行训练，获取训练完成的语音理解网络。

具体的，获取任一第一语音数据；通过原始语音理解网络的编码层，获取第一语音数据对应的至少一个编码向量；过原始语音理解网络的语音解码层，基于至少一个编码向量，获取第一语音数据的语音识别结果；通过原始语音理解网络的语义解码层，基于至少一个编码向量以及语音识别结果，获取第一语音数据的第三语义识别结果；基于第三语义识别结果以及对应的第一标签，对原始语音理解网络包含的参数的参数值进行微调。

其中，通过原始语音理解网络的语义解码层，基于至少一个编码向量以及语音识别结果，获取第一语音数据的第三语义识别结果，包括：在语义解码层中，通过情感解码网络，基于至少一个编码向量，获取第一语音数据的第三情感信息；并通过语义解码网络，基于语音识别结果，获取第一语音数据的中间态语义识别结果；根据第三情感信息及其对应的第一权重值，中间态语义识别结果及其对应的第二权重值，确定第一语音数据的第三语义识别结果。

由于语音理解网络的训练过程一般是离线的，进行语音理解网络训练的电子设备通过上述实施例中的方法训练语音理解网络，可以直接将训练完成的语音理解网络保存在后续进行语音理解的第二电子设备中，以便后第二电子设备，直接通过该训练完成的语音理解网络进行相应的处理。

在本发明实施例提供的第一电子设备与第二电子设备可以相同，也可以不同。

S306：第二电子设备获取待处理的语音数据。

S307：第二电子设备通过预先训练完成的语音理解网络，确定语音数据的语义识别结果以及语音识别结果。

实施例6：

图5为本发明实施例提供的一种语音理解装置的结构示意图，本发明实施例提供了一种语音理解装置，所述装置包括：

获取模块51，用于获取待处理的语音数据；

确定模块52，用于通过预先训练完成的语音理解网络，基于所述语音数据，确定所述语音数据的语义识别结果，其中，所述语音理解网络是基于语义识别网络中的输入层分别与语音识别网络中的编码层以及输出层连接后的网络确定的。

在一种可能的实施方式中，所述装置还包括：训练模块；

所述训练模块，用于通过如下任一种方式获取所述语音理解网络：

将预先训练完成的语义识别网络中的输入层，分别与预先训练完成的语音识别网络中的编码层以及输出层连接，获取原始语音理解网络；基于第一语音样本集中的第一语音数据以及所述第一语音数据对应的第一标签，对所述原始语音理解网络进行训练，其中，所述第一标签用于标识所述第一语音数据对应的第一语义识别结果；

将原始语义识别网络中的输入层，分别与原始语音识别网络中的编码层以及输出层连接，获取原始语音理解网络；基于第一语音样本集中的第一语音数据以及所述第一语音数据对应的第一标签，对所述原始语音理解网络进行训练，其中，所述第一标签用于标识所述第一语音数据对应的第一语义识别结果；

将预先训练完成的语义识别网络中的输入层，分别与原始语音识别网络中的编码层以及输出层连接，获取原始语音理解网络；基于第一语音样本集中的第一语音数据以及所述第一语音数据对应的第一标签，对所述原始语音理解网络进行训练，其中，所述第一标签用于标识所述第一语音数据对应的第一语义识别结果；

将原始语义识别网络中的输入层，分别与预先训练完成的语音识别网络中的编码层以及输出层连接，获取原始语音理解网络；基于第一语音样本集中的第一语音数据以及所述第一语音数据对应的第一标签，对所述原始语音理解网络进行训练，其中，所述第一标签用于标识所述第一语音数据对应的第一语义识别结果。

在一种可能的实施方式中，所述训练模块，具体用于通过如下方式获取所述训练完成的语义识别网络：

在一种可能的实施方式中，所述训练模块，还用于获取到训练完成的语音识别网络之后，所述获取原始语音理解网络之前，获取第二语音样本集中的任一第二语音数据，所述第二语音数据对应有第三标签，所述第三标签用于标识所述第二语音数据对应的第一情感信息；通过原始情感分类网络，获取所述第二语音数据对应的第二情感信息；所述原始情感分类网络是根据情感分类器以及所述训练完成的语音识别网络中的编码层确定的；基于所述第二情感信息以及所述第三标签，对所述原始情感分类网络进行训练，以根据训练完成的情感分类网络中的编码层，对所述训练完成的语音识别网络中的编码层进行更新。

在一种可能的实施方式中，所述训练模块，具体用于若所述原始语音理解网络是基于预先训练完成的语义识别网络，和/或，预先训练完成的语音识别网络确定的，获取任一所述第一语音数据；通过所述原始语音理解网络，获取所述第一语音数据的第三语义识别结果；基于所述第三语义识别结果以及所述对应的第一标签，对所述原始语音理解网络包含的参数的参数值进行微调。

在一种可能的实施方式中，所述训练模块，具体用于通过所述原始语音理解网络的编码层，获取所述第一语音数据对应的至少一个编码向量；通过所述原始语音理解网络的语音解码层，基于所述至少一个编码向量，获取所述第一语音数据的语音识别结果；通过所述原始语音理解网络的语义解码层，基于所述至少一个编码向量以及所述语音识别结果，获取所述第一语音数据的第三语义识别结果。

在一种可能的实施方式中，所述训练模块，具体用于在所述语义解码层中，通过情感解码网络，基于所述至少一个编码向量，获取所述第一语音数据的第三情感信息；并通过语义解码网络，基于所述语音识别结果，获取所述第一语音数据的中间态语义识别结果；根据所述第三情感信息及其对应的第一权重值，所述中间态语义识别结果及其对应的第二权重值，确定所述第一语音数据的第三语义识别结果。

在一种可能的实施方式中，所述确定模块52，还用于通过预先训练完成的语音理解网络，基于所述语音数据，确定所述语音数据的语音识别结果。

实施例7：

图6为本发明实施例提供的一种电子设备结构示意图，该电子设备，包括：处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信；

所述存储器63中存储有计算机程序，当所述程序被所述处理器61执行时，使得所述处理器61执行如下步骤：

获取待处理的语音数据；

由于上述电子设备解决问题的原理与语音理解方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口62用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例8：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

获取待处理的语音数据；

由于计算机可读存储介质解决问题的原理与上述实施例中的语音理解方法相似，因此具体实施可以参见语音理解方法的实施。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音理解方法，其特征在于，所述方法包括：

获取待处理的语音数据；

通过预先训练完成的语音理解网络，确定所述语音数据的语义识别结果，其中，所述语音理解网络是基于对连接后的网络进行训练获取的，其中，所述连接后的网络为语义识别网络中的输入层分别与语音识别网络中的编码层以及注意力解码输出层连接后的网络。

2.根据权利要求1所述的方法，其特征在于，通过如下任一种方式获取所述语音理解网络：

3.根据权利要求2所述的方法，其特征在于，通过如下方式获取所述训练完成的语义识别网络：

4.根据权利要求2所述的方法，其特征在于，获取到训练完成的语音识别网络之后，所述获取原始语音理解网络之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，若所述原始语音理解网络是基于预先训练完成的语义识别网络，和/或，预先训练完成的语音识别网络确定的，所述基于第一语音样本集中的第一语音数据以及所述第一语音数据对应的第一标签，对所述原始语音理解网络进行训练包括：

获取任一所述第一语音数据；

6.根据权利要求5所述的方法，其特征在于，所述通过所述原始语音理解网络，获取所述第一语音数据的第三语义识别结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述通过所述原始语音理解网络的语义解码层，基于所述至少一个编码向量以及所述语音识别结果，获取所述第一语音数据的第三语义识别结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种语音理解装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的语音数据；

确定模块，用于通过预先训练完成的语音理解网络，基于所述语音数据，确定所述语音数据的语义识别结果，其中，所述语音理解网络是基于对连接后的网络进行训练获取的，其中，所述连接后的网络为语义识别网络中的输入层分别与语音识别网络中的编码层以及注意力解码输出层连接后的网络。

10.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8中任一所述语音理解方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8中任一所述语音理解方法的步骤。