CN115269774A

CN115269774A - 文本意图的识别方法和装置、存储介质和电子装置

Info

Publication number: CN115269774A
Application number: CN202210764389.1A
Authority: CN
Inventors: 邓邱伟; 窦方正; 刘朝振; 张旭; 区波; 翟建光
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-11-01
Also published as: WO2024001101A1

Abstract

本申请公开了一种文本意图的识别方法和装置、存储介质和电子装置，涉及智能家居技术领域，该文本意图的识别方法包括：获取待识别的文本信息；对文本信息进行文本特征提取，得到文本特征向量集；对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图。本申请解决了现有的文本意图的识别方法的识别准确率较低的技术问题。

Description

文本意图的识别方法和装置、存储介质和电子装置

技术领域

本发明涉及智能家居技术领域，具体而言，涉及一种文本意图的识别方法和装置、存储介质和电子装置。

背景技术

在智能家居场景中，用户通常可以以语音指令的方式对智能家居设备进行控制。由于用户的语音指令有时并不规范，不能直接依据用户的语音指令进行设备控制，而需要对用户的语音指令的意图进行准确识别后再生成准确的控制指令。因此，在智能家居控制场景中，对用户的语音指令进行准确的意图识别是实现设备精准控制的关键。

现有方法通常会根据用户当前的指令、行为来识别用户真实意图。但目前基于用户的语音指令进行真实意图方法通常比较单一，仅仅是利用槽填充网络和意图识别网络对语音指令分别进行识别，无法对语音指令中的文本信息进行有效利用，因此意图识别的结果较差。也就是说，现有的文本意图的识别方法存在识别结果准确率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本意图的识别方法和装置、存储介质和电子装置，以至少解决现有文本意图的识别方法的识别准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种文本意图的识别方法，包括：获取待识别的文本信息；对文本信息进行文本特征提取，得到文本特征向量集；对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图。

根据本发明实施例的又一方面，还提供了一种文本意图的识别装置，包括：获取单元，用于获取待识别的文本信息；特征提取单元，用于对文本信息进行文本特征提取，得到文本特征向量集；语义解析单元，用于对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；意图解析单元，用于对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述文本意图的识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的文本意图的识别方法。

在本发明实施例中，获取待识别的文本信息；对文本信息进行文本特征提取，得到文本特征向量集；对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图，从而根据槽填充处理得到的文本信息中的各个字符的语义类别信息，进一步实现准确确定出用于文本信息中的意图类别，进而解决了现有文本意图的识别方法存在的识别准确率较低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的文本意图的识别方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的文本意图的识别方法的流程图；

图3是根据本发明实施例的另一种可选的文本意图的识别方法的示意图；

图4是根据本发明实施例的一种可选的文本意图的识别装置的结构示意图；

图5是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种文本意图的识别方法。该物联网设备的交互方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述物联网设备的交互方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的一个方面，如图2所示，上述文本意图的识别方法包括以下步骤：

S202，获取待识别的文本信息；

可以理解的是，上述待识别的文本信息可以是用户的对智能设备语音指令转化得到的文本信息，通过对上述文本信息进行意图识别，可以得到用户的语音指令的准确控制意图。

比如，用户的语音指令可以是“樱桃洗干净”，该指令由于缺乏具体的动作执行主体，即无法从该语音指令中直接获取待控制的设备对象，即该语音指令中的控制意图比较模糊，无法直接基于该语音指令获取控制指令。进而将上述语音指令“樱桃洗干净”转化为文本信息后，进一步进行文本意图识别。

S204，对文本信息进行文本特征提取，得到文本特征向量集；

可以理解的是，在本实施例中，可以将上述文本信息进行初步特征提取，以得到对应于各个文本字符的多个文本特征向量，将对应于各个文本字符的多个文本特征向量作为上述文本特征向量集。在一种可选的方式中，上述多个文本特征向量可以是各自对应于一个文本字符；在另一种方式中，上述文本特征向量可以是对应于文本信息整体的多个文本特征向量。

S206，对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；

以下对上述槽填充处理的结果进行说明。在本实施例中，可以通过槽填充处理得到对应于各个字符的语义类别向量。语义类别向量用于指示各个字符对应的语义类别。比如对于文本信息“樱桃洗干净”中的五个字符，“樱”字对应的语义类别为“水果”，“桃”字对应的语义类别为“水果”，“洗”字对应的语义类别为“清洗动作”，“干”字对应的语义类别为“清洁程度”，“净”字对应的语义类别为“清洁程度”。

可选地，可以预先获取类别标签集合，其中包括了多个语义类别标签。可以理解的是，上述语义类别向量用于指示对应于文本信息中的目标字符，该目标字符与类别标签集合中的多个类别标签的匹配程度，并将匹配程度最高的标签作为该字符的语义类别。比如，预先获取的类别标签集合中包括的类别标签有(“水果”、“清洗动作”、“动物”、“模式”)，那么对于字符“桃”，其对应的语义类别向量可以是(90％，10％，30％，20％)，该语义类别向量用于指示字符桃“桃”为水果类的概率为90％，为清洗动作类的概率为10％、为动物类的概率为30％、为模式类的概率为20％。进而确定概率最高的类别标签“水果”作为字符“桃”的槽填充结果。

在另一种可选的方式中，上述语义类别向量还可以用于指示基于文本字符的整体语义后确定出的整体类别标签匹配程度最高的语义类别组合中，各个字符对应的语义类别。

S208，对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图。

需要说明的是，在本实施例中，通过对槽填充处理得到的语义类别向量和指示文本信息整体语义的文本特征向量进行意图解析，可以在语义解析的过程中，将槽填充处理得到的语义类别向量通过注意力机制引入意图识别解析过程，进而充分利用联合信息，提升意图识别的准确率。

具体地，继续以“樱桃洗干净”为例对上述方法进行说明，在获取到字符“樱”、“桃”、“洗”、“干”、“净”各自对应的语义类别向量的情况下，基于各个向量所指示的字符语义类别，对“樱桃洗干净”进行意图解析。比如，意图解析的结果可以是“控制清洗机器对樱桃进行清洗”。进而进一步触发后续的控制操作。

通过本申请的上述实施方式，获取待识别的文本信息；对文本信息进行文本特征提取，得到文本特征向量集；对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图，从而根据槽填充处理得到的文本信息中的各个字符的语义类别信息，进一步实现准确确定出用于文本信息中的意图类别，进而解决了现有文本意图的识别方法存在的识别准确率较低的技术问题。

作为一种可选的实施方式，上述对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图，包括：

S1，获取文本特征向量集中位于起始标志位的参考特征向量以及各个语义类别向量，其中，文本特征向量集包括参考特征向量以及与文本信息中包含的各个字符各自对应的字符特征向量；

S2，将参考特征向量和各个语义类别向量输入第一注意力网络，以得到第一输出向量，其中，第一注意力网络用于利用与语义类别向量匹配的注意力权重，对文本特征向量集进行意图解析；

S3，将第一输出向量和参考特征向量联合输入第一意图识别网络，以得到识别出的意图类别向量，其中，意图类别向量用于指示文本信息的操作意图。

以下结合图3对上述方法进行说明。如图3所示，图中预训练语言模型输出的多个特征向量可以是上述文本特征向量集的一种示例，其中，[CLS]标识位对应的输出向量(图中以包括了两个灰色虚线圆圈的方框表示)可以是上述参考特征向量的一种示例。槽填充处理得到的输出向量可以是上述各个语义类别向量的一个示例，图中的槽-意图注意力网络及上述第一注意力网络的一种示例。如图中所示，将[CLS]标识位对应的输出向量和槽填充处理得到的输出向量共同作为槽-意图注意网络的输入，以得到第一输出向量，即图中意图识别模块中的黑色实心圆圈。将第一输出向量与参考特征向量进行拼接后输入第一意图识别前向网络，以得到最终的意图识别类别向量，并用意图识别类别向量指示文本信息的操作意图。需要说明的是，意图识别类别向量可以是一个1*N的向量，N为意图类别数。该向量的物理意义是表示每个意图类别的概率值。

通过本申请的上述实施方式，获取文本特征向量集中位于起始标志位的参考特征向量以及各个语义类别向量；将参考特征向量和各个语义类别向量输入第一注意力网络，以得到第一输出向量；将第一输出向量和参考特征向量联合输入第一意图识别网络，以得到识别出的意图类别向量，从而引入槽填充的结果信息作为注意力，再对文本进行意图识别，提高了意图识别的准确率，解决了现有文本意图的识别方法的识别结果不准确的技术问题。

作为一种可选的实施方式，上述将参考特征向量和各个语义类别向量输入第一注意力网络，以得到第一输出向量包括：

S1，获取与所述第一注意力网络匹配的第一权重矩阵、第二权重矩阵和第三权重矩阵；

S2，获取对第一特征向量和各个参考语义类别向量分别进行点积计算的点积值，其中，所述第一特征向量由所述参考特征向量和所述第一权重矩阵确定，所述参考语义类别向量由所述语义类别向量和所述第二权重矩阵确定；

S3，对各个所述点积值各自进行归一化处理得到多个第一参考值；

S4，将每个所述第一参考值与全部的第二特征向量进行加权求和计算，得到所述第一输出向量，其中，所述第二特征向量由所述参考特征向量和所述第三权重矩阵确定。

可选地，上述步骤的输出结果可以通过以下公式表示：

i_i＝β_iv₀

其中，v₀为预训练模型输出特征向量与权重矩阵W_v(即第三权重矩阵)的乘积；β_i＝softmax(w·v₀′)，其中，v₀′是预训练模型输出特征向量与权重矩阵W_k(即第一权重矩阵)的乘积，w为槽向量，为标签权重矩阵W_q(即第二权重矩阵)与上述各个语义类别向量组成的语义类别向量集的乘积，i_i即为槽-意图注意力模块最终的输出，即上述第一输出向量。

通过本申请的上述实施方式，以获取对参考特征向量和各个语义类别向量分别进行点积计算的点积值；对各个点积值各自进行归一化处理得到多个第一参考值；将每个第一参考值与全部的语义类别向量进行加权求和计算，得到第一输出向量

作为另一种可选的实施方式，上述对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量包括：

S1，将参考特征向量输入第二意图识别网络，以得到意图参考向量；

S2，利用与意图参考向量匹配的注意力权重，对文本特征向量集进行槽填充解析，得到语义类别向量。

继续结合图3对上述方法进行说明，如图3所示，通过第二意图识别前向网络(即上述第二意图识别网络)对[CLS]标识位对应的特征向量进行处理，并将得到的意图参考向量作为意图-槽注意网络的输入以进行后续的槽填充解析操作。

需要说明的是，此处第二意图识别前向网络输出的意图信息是不含槽填充输出交互信息的，以免出现输出结果互相依赖的问题。因此，此处意图信息是取自单独的一个分支。

通过本申请的上述实施方式，将参考特征向量输入第二意图识别网络，以得到意图参考向量；利用与意图参考向量匹配的注意力权重，对文本特征向量集进行槽填充解析，得到语义类别向量，从而在槽填充的结果中包含初步意图识别的结果，提升槽填充结果的准确性。

作为一种可选的实施方式，上述利用与意图参考向量匹配的注意力权重，对文本特征向量集进行槽填充解析，得到语义类别向量包括：

S1，将意图参考向量和文本特征向量集输入第二注意力网络，得到多个第二输出向量，其中，第二注意力网络用于利用与意图参考向量匹配的注意力权重，对文本特征向量集进行槽填充解析，第二输出向量与文本特征向量集中的每一个文本特征向量一一对应；

S2，将各个第二输出向量与各自对应的文本特征向量进行拼接，得到多个拼接向量；

S3，利用与第二注意力网络相连的多个槽填充网络对多个拼接向量分别进行解析，以得到各自对应的语义类别向量。

继续结合图3对上述方法进行说明。如图3所示，将第二意图识别前向网络输出的意图参考向量和预训练语言模型输出的文本特征向量作为意图-槽注意力网络(即上述第二注意力网络)的输入。在本步骤中，将第二意图识别前向网络输出的意图信息以注意力形式融入每一个槽填充特征向量中，利用融合后产出的特征拼接原始特征，输入到槽填充单层前向网络中，得到最终的槽填充输出结果。需要说明的是，在接收意图参考向量时，需要先通过一个维度转换层，实现维度对齐。

本步骤中得到上述各个第二输出向量的方式可以通过如下公式表示：

S_i＝α_iv

其中，v为预训练模型输出特征向量与权重矩阵W_v乘积；α_i＝softmax(w·v′)，v′是预训练模型输出特征向量与权重矩阵W_k的乘积，w为意图向量，为标签权重矩阵W_q与上述意图类别向量的乘积，s_i即为第i个位置注意力模块最终的输出。

进一步地，在得到各个第二输出向量后，将各个第二输出向量(即黑色实心圆圈)与各自对应的文本特征向量(虚线空心圆圈)进行拼接，得到多个拼接向量，并将多个拼接向量各自输入图3中示出的槽填充前向网络中，以得到最终解析得到的语义类别向量。

通过本申请的上述实施方式，以将意图参考向量和文本特征向量集输入第二注意力网络，得到多个第二输出向量；利用将各个第二输出向量与各自对应的文本特征向量进行拼接，得到多个拼接向量；利用与第二注意力网络相连的多个槽填充网络对多个拼接向量分别进行解析，以得到各自对应的语义类别向量，从而在槽填充的结果中包含初步意图识别的结果，提升槽填充结果的准确性。

作为一种可选的实施方式，上述获取待识别的文本信息之前，还包括：

S1，获取多条训练样本文本信息以及各自对应的意图类别标签；

S2，利用训练样本文本信息以及对应的意图类别标签对初始第一注意力网络、初始第一意图识别网络、初始第二注意力网络、初始第二意图识别网络以及多个初始槽填充网络进行联合训练，直至第一意图识别网络连续输出的多个损失值均小于目标阈值，其中，初始第二意图识别网络与初始第二注意力网络连接，初始第二注意力网络与多个初始槽填充网络连接，多个初始槽填充网络与初始第一注意力网络连接，初始第一注意力网络与初始第一意图识别网络连接。

以下对上述多个网络与图3中的多个网络的对应关系进行说明。上述第一注意力网络的可以为图3中的槽-意图注意力网络，第一意图识别网络可以为图3中的第一意图识别前向网络，上述第二注意力网络可以是图3中的意图-槽注意力网络、上述第二意图识别网络可以是图3中的第二意图识别前向网络、上述多个槽填充网络可以是图3中的槽填充前向网络。

需要说明的是，上述槽-意图注意力网络和意图-槽注意力网络中的结构可以相同，但最终训练得到的网络参数可以不同；上述第一意图识别前向网络和第二意图识别前向网络中的结构可以相同，但最终训练得到的网络参数可以不同。

通过本申请的上述实施方式，通过多个样本对多个初始网络的联合训练，得到最终用于意图识别的网络结构，从而提升了意图识别网络结构的识别准确性。

作为一种可选的方式，上述利用训练样本文本信息以及对应的意图类别标签对初始第一注意力网络、初始第一意图识别网络、初始第二注意力网络、初始第二意图识别网络以及多个初始槽填充网络进行联合训练，包括：

S1，获取训练中的第一意图识别网络在当前训练回合输出的分类概率值，其中，分类概率值用于指示基于当前训练样本文本信息识别出的意图类别与意图类别标签所指示的类别是否一致；

S2，利用分类概率值的对数值和基于分类概率值所确定出的调制因子，确定损失值，其中，调制因子由数值1和分类概率值的差值的γ次方确定，γ为常数。

在本实施例中，槽填充使用CRF损失函数进行训练，能够有效解决数据稀疏问题。本实施例中，还引入了Focal Loss作为意图识别损失函数，有效的控制类别不均衡的问题。在利用样本集合以及各个样本对应的意图标签对图3中的网络进行训练的过程中，采用Focal Loss损失函数对上述各个网络进行约束。

Focal Loss损失函数公式如下：

Loss_fl＝-(1-p_t)^γlog(p_t)

其中，p_t为分类概率值，(1-p_t)^γ相当于学习一个调制因子，当样本被正确分类时p_t≈1，调制因子越接近0，损失减小；而当样本未被准确分类时，p_t≈0，调制因子月接近于1，损失不变。因此，该损失函数相当于弱化分类正确样本的影响，增加误分类样本或难例样本的关注度。当样本类别分布不均衡时，样本少的类别分类难度会很高，因此关注难例样本，能够关注样本少的类别，从而解决样本不均衡时样本少的类别准确率不高的技术问题。

通过本申请上述实施方式，首先，将槽填充的结果通过注意力机制引入意图识别的网络层中，用于提升意图识别效果，从而间接提升槽填充效果。在训练阶段，双向注意力信息流组成一个循环，通过一次次迭代充分利用联合信息，在测试阶段，意图识别网络层也能够通过槽填充的结果对意图识别产生影响。另外，为了解决意图识别样本不均衡时存在的问题，在意图识别中引入Focal Loss损失函数，提升样本较少的类别的识别效果。

以下结合图3对上述方法的一个完整过程进行说明。

S1，将控制文本对应的文本信息向量输入预训练语言模型，得到文本特征向量集；

如图3中右下角，示出了四个方框，每个方框中示出了三个空心圆形，每个方框用于指示一个字符对应的文本信息向量。其中第一个文本信息向量为字符标识“CLS”对应的文本信息向量。经过预训练语言模型处理后，得到各个字符对应的文本特征向量，在图3中以四个方框表示。其中，第一个方框中示出了两个灰色虚线圆形，指示该输出向量为字符标识“CLS”对应的文本信息向量对应的文本特征向量，后三个方框中示出了三个虚线圆形，指示分别对应于各个文本信息向量的文本特征向量。

在本实施例中的预训练语言模型可以根据实际需要进行选择对应语言、大小、性能的预训练模型作为基础编码器。作为一种优选的方式，可以使用的是BERT及其先关变体，如PhoBERT/Albert/Roberta等模型作为预训练语言模型。

通过预训练语言模型得到文本特征向量的方式可以通过如下公式表示：

v_i＝P_model(ω,i)

其中，i用于标识第i个文本特征向量，v₀用于[CLS]标志位对应的参考特征向量。

S2，将[CLS]标志位对应的参考特征向量输入第二意图识别前向网络得到结果向量，并将结果向量和各个字符各自对应的文本特征向量输入意图-槽注意力网络，得到第二输出向量集；

需要说明的是，此处的结果向量对应于上述意图参考向量，此处的意图-槽注意力网络对应于上文中的第二注意力网络，在图3中，黑色实心圆圈指示各个字符各自对应的第二输出向量。

在上述实施方式中，第二意图识别前向网络用于接收[CLS]位置的参考特征向量v₀，将其映射为意图结果向量，通过注意力机制融入槽填充前向网络的输入特征向量中。其中，意图结果向量(即前文中的意图参考向量)是一个1*N的向量，N为意图类别数。该向量的物理意义是表示每个意图类别的概率值。

在本步骤中，将意图信息以注意力形式融入每一个槽填充特征向量中，利用融合后产出的特征拼接原始特征，输入到槽填充单层前向网络中，得到最终的槽填充输出结果。此处意图信息不含槽填充输出交互信息的，此处意图信息是取自单独的一个分支。此外，在接收意图结果向量时，需要先通过一个维度转换层，实现维度对齐。

s_i＝α_iv

S3，将各个字符对应的第二输出向量与对应的文本特征向量进行拼接，得到拼接向量集，并在多个槽填充前向网络中输入上述拼接向量集，得到语义类别向量集；

如图3中，首先将各个第二输出向量(黑色实心圆圈)与文本特征向量(虚线圆圈)分别拼接，并分别输入多个槽填充前向网络中。该网络接收预训练模型输出的特征向量以及意图-槽注意力模块输出，将拼接后特征向量映射为槽填充输出。

其中，每个位置的槽结果向量均为1*P的向量，其中P表示槽类别数，其物理意义是当前位置每个槽类别的概率值。所有位置结果向量整合为Q*P向量，Q为输入数据长度，然后经过维度转换层融合到意图识别中。

S4，将经过维度转换后的语义类别向量集以及[CLS]标志位对应的参考特征向量输入槽-意图注意力网络中，得到第一参考向量集；

需要说明的是，该步骤中的槽-意图注意力网络对应于前文中的第一注意力网络。

在该步骤中，将槽填充信息以注意力形式融入意图识别特征向量中，利用融合后产出的特征拼接原始特征，输入到意图识别单层前向网络中，得到最终的意图识别输出结果。需要说明的是，意图识别输出分支区别于意图-槽注意力的意图信息分支。

该步骤的输出结果可以通过以下公式表示：

i_i＝β_iv₀

其中，v₀为预训练模型输出特征向量与权重矩阵W_v的乘积；β_i＝softmax(w·v₀′)，其中，v₀′是预训练模型输出特征向量与权重矩阵W_k的乘积，w为槽向量，为标签权重矩阵W_q与上述各个语义类别向量组成的语义类别向量集的乘积，i_i即为注意力模块最终的输出，即上述第一输出向量集。

S5，将第一输出向量集和[CLS]标志位对应的文本特征向量拼接后输入第一意图识别网络，得到意图结果向量；

需要说明的是，上述意图结果向量即上述意图类别向量，是一个1*N的向量，N为意图类别数，该向量的物理意义是表示每个意图类别的概率值。

Focal Loss损失函数公式如下：

Loss_fl＝-(1-p_t)^γlog(p_t)

其中，p_t为分类概率值，(1-p_t)^γ相当于学习一个调制因子，当样本被正确分类时p_t≈1，调制因子越接近0，损失减小；而当样本未被准确分类时，p_t≈0，调制因子月接近于1，损失不变。因此，该损失函数相当于弱化分类正确样本的影响，增加误分类样本或难例样本的关注度。当样本类别分布不均衡时，样本少的类别分类难度会很高，因此关注难例样本，能够关注样本少的类别，从而解决样本不均衡时样本少的类别准确率不高的问题。

通过本申请的上述实施方式，采用双向注意力机制，在已有槽-意图注意力基础上，将槽填充输出信息通过注意力机制融入意图识别特征中，用槽结果信息指导意图识别，提升意图识别效果，并间接影响槽填充结果。此外，使用Focal Loss损失函数解决意图识别中的样本不均衡问题，提升样本少的类别的识别准确率。采用两个意图分支，一个用于给槽填充提供意图信息，一个用于意图识别，避免因信息交互过程中的相互依赖问题，解决导致模型无法训练和使用的技术问题。

根据本发明实施例的另一个方面，还提供了一种用于实施上述文本意图的识别方法的文本意图的识别装置。如图4所示，该装置包括：

获取单元402，用于获取待识别的文本信息；

特征提取单元404，用于对文本信息进行文本特征提取，得到文本特征向量集；

语义解析单元406，用于对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；

意图解析单元408，用于对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图。

可选地，在本实施例中，上述各个单元模块所要实现的实施例，可以参考上述各个方法实施例，这里不再赘述。

根据本发明实施例的又一个方面，还提供了一种用于实施上述文本意图的识别方法的电子装置，该电子装置可以是图5所示的终端设备或服务器。本实施例以该电子装置为终端设备为例来说明。如图5所示，该电子装置包括存储器502和处理器504，该存储器502中存储有计算机程序，该处理器504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待识别的文本信息；

S2，用于对文本信息进行文本特征提取，得到文本特征向量集；

S3，对文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，语义类别向量集用于指示文本信息中每个字符各自对应的语义类别；

S4，对文本特征向量集和各个语义类别向量进行意图解析，以识别出文本信息所携带的操作意图。

可选地，本领域普通技术人员可以理解，图5所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图5中所示更多或者更少的组件(如网络接口等)，或者具有与图5所示不同的配置。

其中，存储器502可用于存储软件程序以及模块，如本发明实施例中的文本意图的识别方法和装置对应的程序指令/模块，处理器504通过运行存储在存储器502内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本意图的识别方法。存储器502可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器502可进一步包括相对于处理器504远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器502具体可以但不限于用于存储设备控制信息等信息。作为一种示例，如图5所示，上述存储器502中可以但不限于包括上述文本意图的识别装置中的获取单元402、特征提取单元404、语义解析单元406以及意图解析单元408。此外，还可以包括但不限于上述文本意图的识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置506包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置506为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器508，用于在显示界面设备控制操作界面；和连接总线510，用于连接上述电子装置中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，PeerToPeer)网络，任意形式的计算设备，比如服务器、终端等电子装置都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述设备控制方方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待识别的文本信息；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-OnlyMemory，ROM)、随机存取器(RandomAccessMemory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本意图的识别方法，其特征在于，包括：

获取待识别的文本信息；

对所述文本信息进行文本特征提取，得到文本特征向量集；

对所述文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，所述语义类别向量集用于指示所述文本信息中每个字符各自对应的语义类别；

对所述文本特征向量集和各个所述语义类别向量进行意图解析，以识别出所述文本信息所携带的操作意图。

2.根据权利要求1所述的方法，其特征在于，对所述文本特征向量集和各个所述语义类别向量进行意图解析，以识别出所述文本信息所携带的操作意图，包括：

获取所述文本特征向量集中位于起始标志位的参考特征向量以及各个所述语义类别向量，其中，所述文本特征向量集包括所述参考特征向量以及与所述文本信息中包含的各个字符各自对应的字符特征向量；

将所述参考特征向量和各个所述语义类别向量输入第一注意力网络，以得到第一输出向量，其中，所述第一注意力网络用于利用与所述语义类别向量匹配的注意力权重，对所述文本特征向量集进行意图解析；

将所述第一输出向量和所述参考特征向量联合输入第一意图识别网络，以得到识别出的意图类别向量，其中，所述意图类别向量用于指示所述文本信息的所述操作意图。

3.根据权利要求2所述的方法，其特征在于，所述将所述参考特征向量和各个所述语义类别向量输入第一注意力网络，以得到第一输出向量包括：

获取与所述第一注意力网络匹配的第一权重矩阵、第二权重矩阵和第三权重矩阵；

获取对第一特征向量和各个参考语义类别向量分别进行点积计算的点积值，其中，所述第一特征向量由所述参考特征向量和所述第一权重矩阵确定，所述参考语义类别向量由所述语义类别向量和所述第二权重矩阵确定；

对各个所述点积值各自进行归一化处理得到多个第一参考值；

将每个所述第一参考值与全部的第二特征向量进行加权求和计算，得到所述第一输出向量，其中，所述第二特征向量由所述参考特征向量和所述第三权重矩阵确定。

4.根据权利要求2所述的方法，其特征在于，所述对所述文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量包括：

将所述参考特征向量输入第二意图识别网络，以得到意图参考向量；

利用与所述意图参考向量匹配的注意力权重，对所述文本特征向量集进行槽填充解析，得到所述语义类别向量。

5.根据权利要求4所述的方法，其特征在于，所述利用与所述意图参考向量匹配的注意力权重，对所述文本特征向量集进行槽填充解析，得到所述语义类别向量包括：

将所述意图参考向量和所述文本特征向量集输入第二注意力网络，得到多个第二输出向量，其中，所述第二注意力网络用于利用与所述意图参考向量匹配的注意力权重，对所述文本特征向量集进行槽填充解析，所述第二输出向量与所述文本特征向量集中的每一个文本特征向量一一对应；

将各个所述第二输出向量与各自对应的所述文本特征向量进行拼接，得到多个拼接向量；

利用与所述第二注意力网络相连的多个槽填充网络对所述多个拼接向量分别进行解析，以得到各自对应的所述语义类别向量。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述获取待识别的文本信息之前，还包括：

获取多条训练样本文本信息以及各自对应的意图类别标签；

利用所述训练样本文本信息以及对应的意图类别标签对初始第一注意力网络、初始第一意图识别网络、初始第二注意力网络、初始第二意图识别网络以及多个初始槽填充网络进行联合训练，直至第一意图识别网络连续输出的多个损失值均小于目标阈值，其中，所述初始第二意图识别网络与所述初始第二注意力网络连接，所述初始第二注意力网络与所述多个初始槽填充网络连接，所述多个初始槽填充网络与所述初始第一注意力网络连接，所述初始第一注意力网络与所述初始第一意图识别网络连接。

7.根据权利要求6所述的方法，其特征在于，所述利用所述训练样本文本信息以及对应的意图类别标签对初始第一注意力网络、初始第一意图识别网络、初始第二注意力网络、初始第二意图识别网络以及多个初始槽填充网络进行联合训练，包括：

获取训练中的第一意图识别网络在当前训练回合输出的分类概率值，其中，所述分类概率值用于指示基于当前训练样本文本信息识别出的意图类别与意图类别标签所指示的类别是否一致；

利用所述分类概率值的对数值和基于所述分类概率值所确定出的调制因子，确定所述损失值，其中，所述调制因子由数值1和所述分类概率值的差值的γ次方确定，γ为常数。

8.一种文本意图的识别装置，其特征在于，包括：

获取单元，用于获取待识别的文本信息；

特征提取单元，用于对所述文本信息进行文本特征提取，得到文本特征向量集；

语义解析单元，用于对所述文本特征向量集中的每个文本特征向量分别进行槽填充处理，得到各自对应的语义类别向量，其中，所述语义类别向量集用于指示所述文本信息中每个字符各自对应的语义类别；

意图解析单元，用于对所述文本特征向量集和各个所述语义类别向量进行意图解析，以识别出所述文本信息所携带的操作意图。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。