CN116415595A

CN116415595A - 对话意图识别方法、系统和存储介质

Info

Publication number: CN116415595A
Application number: CN202210004554.3A
Authority: CN
Inventors: 王逸凡
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2023-07-11

Abstract

本申请实施例提供对话意图识别方法、系统和存储介质，该方法包括：获取与第一账户对话中产生的第一对话信息；将第一对话信息、第二对话信息以及第二对应关系输入意图预测模型；利用意图预测模型获取第一对话信息中相较于第二对话信息状态发生变化的意图类别，并利用意图预测模型生成意图类别对应的意图值，输出第一对应关系，第一对应关系包括第一对话信息对应的意图类别以及对应的意图值，意图预测模型的输入包括第二对话信息、第一对话信息以及第二对应关系，意图预测模型可以根据对话信息的上下文信息获取需要更新的意图类别对应的意图值，再预测需要更新的意图类别对应的新的意图值，有助于提高识别用户的目标意图的准确性。

Description

对话意图识别方法、系统和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及对话意图识别方法、系统和存储介质。

背景技术

随着人工智能技术的发展，一些对话形态的人工智能产品，可以实现与用户对话的功能。例如：对话机器人可以通过自然语言理解(natural language understanding，NLU)识别用户的语音，根据识别的用户语音进行对话状态追踪(dialog state tracking，DST)以确定用户的目标意图，对话机器人根据对话策略(dialog policy，DP)模块以及用户的目标意图确定回复用户的内容，并根据自然语言生成(natural language generation，DLG)模块将回复用户的内容转换成用户语言，从而实现与用户对话功能。

当前，对话机器人与用户对话过程中可能出现对话机器人回复用户的内容与用户的目标意图不符合的问题。

发明内容

本申请实施例提供对话意图识别方法、系统和存储介质，应用于终端设备，有助于提高意图识别的准确性。

第一方面，本申请实施例提供一种对话意图识别方法，该方法包括：获取与第一账户对话中产生的第一对话信息；将第一对话信息、第二对话信息以及第二对应关系输入意图预测模型；其中，第二对话信息为与第一账户对话中早于第一对话信息的信息，第二对应关系为意图预测模型处理第二对话信息时得到的输出；利用意图预测模型获取第一对话信息中相较于第二对话信息状态发生变化的意图类别，并利用意图预测模型生成意图类别对应的意图值，输出第一对应关系，第一对应关系包括第一对话信息对应的意图类别以及对应的意图值。

本申请实施例中，意图预测模型的输入包括第二对话信息、第一对话信息以及第二对应关系，意图预测模型可以根据对话信息的上下文信息获取需要更新的意图类别对应的意图值，再预测需要更新的意图类别对应的新的意图值，有助于提高识别用户的目标意图的准确性。

可能的实现方式中，意图预测模型包括编码网络和解码网络；上述利用意图预测模型输出第一对应关系，包括：利用编码网络提取第一对话信息中意图类别对应的第一意图特征值以及第二对话信息中意图类别对应的第二意图特征值；第一意图特征值用于表征第一对话信息中意图类别所对应的意图值的特征；第二意图特征值用于表征第二对话信息中意图类别所对应的意图值的特征；利用解码网络确定在第一意图特征值与第二意图特征值不同的情况下，输出意图类别以及第一意图值；第一意图值为第一意图特征值所对应的意图值；第二对应关系中意图类别对应第二意图值。

可能的实现方式中，编码网络为双向的BERT网络；解码网络为单向的BERT网络。

可能的实现方式中，编码网络包括多个神经网络层，利用解码网络确定在第一意图特征值与第二意图特征值不同的情况下，输出意图类别以及第一意图值，包括：利用解码网络连接多个神经网络层的输出结果，获取意图类别对应的第一意图值，并输出意图类别以及第一意图值。

这样，解码网络不仅连接编码网络的顶层还连接了中间神经网络层的输出结果，使得输出的第一意图值更趋近于用户的真实意图值。

可能的实现方式中，该方法还包括：获取多个样本数据；样本数据包括上文对话信息、下文对话信息、第三对应关系、意图类别状态标注信息以及第四对应关系；上文对话信息为早于下文对话信息的对话信息；第三对应关系包括上文对话信息中意图类别对应的第一标注意图值；第四对应关系包括下文对话信息中意图类别对应的第二标注意图值；意图类别状态标注信息包括第一状态；第一状态用于表征意图类别对应的意图值在下文对话信息中更新；对于任一样本数据将样本数据输入神经网络模型得到意图类别的状态预测信息以及意图类别对应的预测意图值；获取意图类别的状态预测信息与意图类别状态标注信息的第一损失，第二标注意图值与预测意图值的第二损失；将第一损失与第二损失进行加权汇总，得到样本数据对应的总损失；使用多个样本数据以及样本数据对应的总损失迭代训练神经网络模型，得到意图预测模型。

这样，训练得到的意图预测模型不仅参考了用于表征意图类别的预测意图值的第二损失，还参考了意图类别的状态预测信息的第一损失，有助于提高训练得到的意图预测模型预测意图值的准确度。

可能的实现方式中，该方法还包括：根据第一对应关系，生成针对第一账户中第一对话信息的回复信息；向第一账户所对应用户设备发送回复信息。

第二方面，本申请实施例提供一种对话意图识别装置，包括：存储模块，用于存储意图预测模型；处理模块，用于获取与第一账户对话中产生的第一对话信息；将第一对话信息、第二对话信息以及第二对应关系输入意图预测模型；其中，第二对话信息为与第一账户对话中早于第一对话信息的信息，第二对应关系为意图预测模型处理第二对话信息时得到的输出；利用意图预测模型获取第一对话信息中相较于第二对话信息状态发生变化的意图类别，并利用意图预测模型生成意图类别对应的意图值，输出第一对应关系，第一对应关系包括第一对话信息对应的意图类别以及对应的意图值。

可选的，意图预测模型包括编码网络和解码网络；处理模块具体用于：利用编码网络提取第一对话信息中意图类别对应的第一意图特征值以及第二对话信息中意图类别对应的第二意图特征值；第一意图特征值用于表征第一对话信息中意图类别所对应的意图值的特征；第二意图特征值用于表征第二对话信息中意图类别所对应的意图值的特征；利用解码网络确定在第一意图特征值与第二意图特征值不同的情况下，输出意图类别以及第一意图值；第一意图值为第一意图特征值所对应的意图值；第二对应关系中意图类别对应第二意图值。

可选的，编码网络为双向的BERT网络；解码网络为单向的BERT网络。

可选的，编码网络包括多个神经网络层，处理模块具体用于：利用解码网络连接多个神经网络层的输出结果，获取意图类别对应的第一意图值，并输出意图类别以及第一意图值。

可选的，处理模块还用于获取多个样本数据；样本数据包括上文对话信息、下文对话信息、第三对应关系、意图类别状态标注信息以及第四对应关系；上文对话信息为早于下文对话信息的对话信息；第三对应关系包括上文对话信息中意图类别对应的第一标注意图值；第四对应关系包括下文对话信息中意图类别对应的第二标注意图值；意图类别状态标注信息包括第一状态；第一状态用于表征意图类别对应的意图值在下文对话信息中更新；对于任一样本数据将样本数据输入神经网络模型得到意图类别的状态预测信息以及意图类别对应的预测意图值；获取意图类别的状态预测信息与意图类别状态标注信息的第一损失，第二标注意图值与预测意图值的第二损失；将第一损失与第二损失进行加权汇总，得到样本数据对应的总损失；使用多个样本数据以及样本数据对应的总损失迭代训练神经网络模型，得到意图预测模型。

可选的，处理模块还用于：从数据库中获取第一对应关系中意图值对应的关联信息，并根据关联信息生成针对第一账户中第一对话信息的回复信息；对话意图识别装置还包括通信模块，用于向第一账户所对应用户设备发送回复信息。

第三方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，当计算机指令在终端设备上运行时，使得终端设备执行如第一方面或第一方面的任一中可能的实现方式所述的方法中第一设备所执行的方法。

第四方面，本申请实施例提供了一种芯片，芯片包括处理器，处理器用于调用存储器中的计算机程序，以执行如第一方面或第一方面的任一中可能的实现方式所述的方法中第一设备所执行的方法。

第五方面，本申请实施例提供一种电子设备，包括存储器和处理器，处理器用于调用存储器中的计算机程序，以执行如第一方面或第一方面的任一中可能的实现方式所述的方法中第一设备所执行的方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的对话意图识别方法所适用的场景示意图；

图2为本申请实施例提供的对话意图识别方法所适用的电子设备的结构示意图；

图3为本申请实施例提供的一种对话意图识别方法中意图预测模型的训练过程的的流程示意图；

图4为本申请实施例提供的一种对话意图识别方法的流程示意图；

图5为本申请实施例提供的终端设备的结构示意图；

图6为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一芯片和第二芯片仅仅是为了区分不同的芯片，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

目前，随着人工智能、自然语言处理等技术的发展，对话状态的识别技术也得到了广泛的应用，给人们生活带来很多便利。例如，对话机器人可以实现与用户对话的功能。然而，对话机器人与用户对话过程中可能出现对话机器人回复用户的内容与用户的目标意图不符合的问题。

那是因为，对话机器人与用户对话过程中，对话机器人进行对话状态追踪主要依赖于人工前期定义好的意图类别与意图值组成的意图值对，对话机器人从这些定义好的意图值对中进行分类选择以确定用户的目标意图值，然而，在待追踪对话中不存在人工定义好的意图值对中意图类别的情况下，对话机器人则无法准确确定用户的目标意图值，从而导致对话机器人确定的回复用户的内容不符合用户的目标意图值的问题。

有鉴于此，本申请实施例提供对话意图识别方法，该方法中将对话信息的上下文信息以及对上文信息进行预测处理得到的输出均输入意图预测模型以得到当前对话信息的预测结果。预测结果中包括用户的意图类别以及意图值。这样，利用上次预测的结果，进行本次对话信息的预测处理，缩小了需要预测的意图值的范围，有助于提高识别用户的目标意图的准确性。

为了更好的理解本申请实施例，下面对本申请实施例提供的对话意图识别方法所适用系统架构进行说明。

如图1所示为本申请实施例适用的场景示意图。图1所示场景包括第一设备101以及用户终端102。第一设备101与用户终端102可以通过互联网建立连接，第一设备101与用户终端102也可以通过拨号建立通话连接。第一设备101与用户终端102通过拨号建立通话连接时，用户终端102可以用于接收用户的拨号操作，向第一设备101发送拨号请求，该拨号请求用于请求第一设备101与用户终端102建立通话连接。第一设备101应答用户终端102的拨号请求，并与用户终端102建立通话连接。

其中，第一设备101可以为配备了对话机器人的服务器、服务器集群或智能终端等。用户终端102可以为手机、平板电脑、掌上电脑、笔记本电脑、车载终端或台式电脑等。对话机器人基于意图预测模型识别用户意图。

本申请实施例中，第一设备101的功能以及用户终端102的功能均可以由图2所示的电子设备实现。如图2所示为本申请实施例所适用的电子设备的结构示意图。图2所示电子设备20可以包括处理组件210，存储器220，电源组件230，多媒体组件240，音频组件250，输入/输出(I/O)接口260，传感器组件270，以及通信组件280。

处理组件210通常控制电子设备20的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件210可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件210可以包括一个或多个模块，便于处理组件210和其他组件之间的交互。例如，处理组件210可以包括多媒体模块，以方便多媒体组件240和处理组件210之间的交互。

存储器220被配置为存储各种类型的数据以支持在电子设备20的操作。这些数据的示例包括用于在电子设备20上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。示例性的，存储器220可以用于存储本申请实施例所提供的意图预测模型。存储器220可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件230为电子设备20的各种组件提供电力。电源组件230可以包括电源管理系统，一个或多个电源，及其他与为电子设备20生成、管理和分配电力相关联的组件。

多媒体组件240包括在所述电子设备20和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件240包括一个前置摄像头和/或后置摄像头。当电子设备20处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件250被配置为输出和/或输入音频信号。例如，音频组件250包括一个麦克风(MIC)，当电子设备20处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器220或经由通信组件280发送。在一些实施例中，音频组件250还包括一个扬声器，用于输出音频信号。

I/O接口260为处理组件210和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件270包括一个或多个传感器，用于为电子设备20提供各个方面的状态评估。例如，传感器组件270可以检测到电子设备20的打开/关闭状态，组件的相对定位，例如所述组件为电子设备20的显示器和小键盘，传感器组件270还可以检测电子设备20或电子设备20一个组件的位置改变，用户与电子设备20接触的存在或不存在，电子设备20方位或加速/减速和电子设备20的温度变化。传感器组件270可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件270还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件270还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件280被配置为便于电子设备20和其他设备之间有线或无线方式的通信。电子设备20可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件280经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件280还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

可以理解的是，本申请实施例示意的结构并不构成对电子设备20的具体限定。在本申请另一些实施例中，电子设备20可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是，在使用本申请实施例所提供的对话意图识别方法需要先获取训练好的意图预测模型。以下首先对本申请实施例中意图预测模型的训练过程进行说明。示例性的，如图3所示，为本申请实施例所提供的一种训练意图预测模型的方法的流程示意图。图3所示意图预测模型的训练方法包括如下步骤：

S300：终端设备获取多个样本数据。样本数据包括上文对话信息、下文对话信息、意图类别状态标注信息以及意图类别对应的标注意图值。

本申请实施例中，意图类别状态标注信息包括第一状态。第一状态用于表征意图类别对应的意图值在下文对话信息中更新。

示例性的，样本数据中上文对话信息为“我想购买一个A品牌的空调扇”，下文对话信息为“帮我看看A品牌的空调的价格”。上文对话信息对应的意图类别的标注意图值包括“品牌：A品牌；商品：空调扇”。下文对话信息对应的意图类别的标注意图值包括“品牌：A品牌；商品：空调”。意图类别状态标注信息包括：“品牌：0”；“商品：1”。0用于表征从上文对话信息至下文对话信息中意图类别为品牌时，该意图类别对应的意图值未更新，1用于表征意图类别为商品时该意图类别对应的意图值更新。

S301：终端设备利用多个样本数据迭代训练神经网络模型，得到意图预测模型。

本申请实施例中，神经网络模型包括编码网络和解码网络，该编码网络可以为双向的转换编码器(bidirectional encoder representations from transformers，BERT)网络，解码网络可以为单项的BERT网络。

可能的实现方式中，对于本申请实施例中的任一样本数据执行：获取状态预测信息与状态标注信息的第一损失。其中，状态预测信息与状态标注信息均对应同一样本数据，并获取标注意图值与预测意图值的第二损失。其中，预测意图值与标注意图值均对应同一样本数据。对第一损失与第二损失加权汇总，得到该样本数据的总损失，反向传递该总损失以更新神经网络模型的参数。状态预测信息以及预测意图值为将样本数据输入当前神经网络模型得到的输出。

下面结合附图对本申请实施例所提供的对话意图识别方法进行说明，示例性的，如图4所示为本申请实施例提供的一种对话意图识别方法的流程示意图。图4所示对话意图识别方法包括如下步骤：

S400：用户终端接收第一用户输入。

本申请实施例中，第一用户输入可以是文字输入也可以是语音输入，本申请实施例对此不进行限定。

示例性的，用户终端接收的第一用户输入的输入信息包括“我想购买一个A品牌的空调扇”。

S401：用户终端响应于该第一用户输入，向服务器发送第一对话信息。

本申请实施例中，第一对话信息包括第一用户输入的输入信息。

基于S400中的示例，用户终端向服务器发送的第一对话信息包括“我想购买一个A品牌的空调扇”。

S402：服务器将第一对话信息输入意图预测模型，得到第一对应关系。

本申请实施例中，第一对应关系为意图预测模型处理第一对话信息时得到的输出。第一对应关系包括第一对话信息对应的意图类别以及意图值。

示例性的，第一对应关系如下表1所示：

表1

意图类别	意图值
		商品品牌	A品牌
商品名称	空调扇

表1中意图类别包括商品品牌和商品名称，意图类别为商品品牌时，该意图类别对应的意图值为A品牌，意图类别为商品名称时，该意图类别对应的意图值为空调扇。

S403：服务器从数据库中获取第一对应关系中意图值对应的第一关联信息，并根据第一关联信息生成第一应答信息。

本申请实施例中，第一应答信息可以为语音信息也可以为字符信息。本申请实施例对此不进行限定。

基于S402的示例，第一对应关系中意图值对应的信息包括关键字包括A品牌以及空调扇的商品链接。服务器生成的第一应答信息包括A品牌的空调扇的商品链接。

S404：服务器向用户终端发送第一应答信息。

S405：用户终端接收第二用户输入。

示例性的，用户终端接收的第二用户输入的信息为“我想看一下A品牌的空调”。

S406：用户终端响应于该第二用户输入，向服务器发送第二对话信息。

本申请实施例中，第二对话信息包括第二用户输入所输入的信息。

基于S405中的示例，用户终端向服务器发送的第二对话信息包括“我想看一下A品牌的空调”。

S407：服务器将第一对话信息、第二对话信息以及第一对应关系输入意图预测模型，得到第二对应关系。

可能的实现方式中，服务器利用编码网络提取第一对话信息中意图类别对应的第一意图特征值以及第二对话信息中意图类别对应的第二意图特征值；第一意图特征值用于表征第一对话信息中意图类别所对应的意图值的特征，第二意图特征值用于表征第二对话信息中该意图类别所对应的意图值的特征。服务器利用解码网络确定在第一意图特征值与第二意图特征值不同的情况下，输出的第二对应关系包括意图类别以及第二意图值，该意图类别在第一对应关系中对应的意图值为第一意图值。

这样，意图预测模型利用对第一对话信息中用户意图预测的结果、第一对话信息以及第二对话信息，确定第二对话信息中意图类别所对应意图值相对第一对话信息中意图类别所对应意图值发生更新的情况下，生成该第二对话信息中该意图类别所对应意图值。缩小了需要预测的意图值的范围，有助于提高识别用户意图的准确性。

示例性的，服务器利用编码网络提取第一对话信息中意图类别对应的第一意图特征值以及第二对话信息中意图类别对应的第二意图特征值，确定意图类别为商品名称时，第一意图特征值与第二意图特征值不同，即意图类别为商品名称时，该意图类别对应的意图特征值在第二对话信息中更新。服务器根据解码网络生成意图类别为商品名称时，该意图类别对应的第二意图值，得到第二对应关系。第二对应关系如下表2所示：

表2

意图类别	意图值
		商品品牌	A品牌
商品名称	空调

表2中意图类别包括商品品牌和商品名称，意图类别为商品品牌时，该意图类别对应的意图值为A品牌，意图类别为商品名称时，该意图类别对应的意图值为空调。

可以理解的是，服务器可以将意图类别对应的意图值的改变定义为保持、更新或删除等。其中，保持用于表征意图类别对应的意图值不变，例如：表1中商品品牌对应的意图值与表2中商品品牌对应的意图值相同，都为A品牌。更新用于表征意图类别对应的意图值发生改变。删除用于表征意图类别以及该意图类别对应的意图值被删除。

可能的实现方式中，将第一对话信息、第二对话信息以及第一对应关系输入意图预测模型，其中，第一对应关系中意图类别与意图值之间用预设占位符进行间隔，在预设占位符输出意图类别的状态预测信息，意图预测模型中的一些神经网络层根据该状态预测信息对该意图类别对应的意图状态进行分类，分类类别可以对应保持、更新和删除。这样，完成意图预测模型利用对第一对话信息中用户意图预测的结果、第一对话信息以及第二对话信息，确定第二对话信息中意图类别所对应意图值相对第一对话信息中意图类别所对应意图值发生更新。

对于分类为保持的意图类别对应的意图值不变；对于分类为删除的意图类别，删除该意图类别以及该意图类别对应的意图值。

对于分类为更新的意图类别，意图预测模型生成该意图类别对应的新的意图值。可能的实现方式中，本申请实施例中的意图预测模型包括基于双向的BERT模型的编码网络以及基于单向BERT模型的解码网络。将该意图预测模型中输入矩阵的预设数量个字符作为编码网络，输入矩阵的剩余字符作为解码网络以生成意图类别的意图值。

示例性的，意图预测模型的输入可以为512个字符，其中，前500个字符用于编码网络使用，后12个字符用于解码网络使用。该后12个字符对应的BERT模型的双向该为单向，这样，在生成意图类别的意图值的情况下，意图预测模型可以感知上文对话信息，解码网络逐字符生成意图类别对应的意图值。例如：商品名称这个意图类别，在解码网络确定该意图类别的状态预测信息表征更新的情况下，解码网络依次生成“空”，“调”，然后拼接为该意图类别对应的新的意图值。

进一步的，解码网络连接多个神经网络层的输出结果，获取意图类别对应的第二意图值。并输出意图类别以及第二意图值。这样，在进行意图值生成的过程中，意图预测模型中解码网络连接编码网络中各层以感知各层的输出结果，进一步提高了生成的意图值的准确性。

S408：服务器从数据库中获取第二对应关系中意图值对应的第二关联信息，并根据第二关联信息生成第二应答信息。

基于S407中的示例，第二关联信息为以A品牌以及空调为关键字获取的商品链接。服务器生成的第二应答信息包括A品牌的空调的商品链接。

S409：服务器向用户终端发送第二应答信息。

本申请实施例中，意图预测模型的输入包括第二对话信息、第一对话信息以及第二对应关系，意图预测模型可以根据对话信息的上下文信息获取需要更新的意图类别对应的意图值，然后，预测需要更新的意图类别对应的新的意图值，有助于提高识别用户的目标意图的准确性。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的方法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对实现视频会议控制方法的终端设备或服务器进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图5所示为本申请实施例提供的一种终端设备的结构示意图，该终端设备50包括存储模块501和处理模块502。存储模块501用于：存储意图预测模型；处理模块502用于：用于获取与第一账户对话中产生的第一对话信息；将第一对话信息、第二对话信息以及第二对应关系输入意图预测模型；其中，第二对话信息为与第一账户对话中早于第一对话信息的信息，第二对应关系为意图预测模型处理第二对话信息时得到的输出；利用意图预测模型获取第一对话信息中相较于第二对话信息状态发生变化的意图类别，并利用意图预测模型生成意图类别对应的意图值，输出第一对应关系，第一对应关系包括第一对话信息对应的意图类别以及对应的意图值。例如，结合图3，处理模块502可以用于执行S300～S301，存储模块501可以用于存储训练好的意图预测模型。结合图4，处理模块502可以用于执行S402、S403、S407以及S408。

可选的，意图预测模型包括编码网络和解码网络；处理模块502具体用于：利用编码网络提取第一对话信息中意图类别对应的第一意图特征值以及第二对话信息中意图类别对应的第二意图特征值；第一意图特征值用于表征第一对话信息中意图类别所对应的意图值的特征；第二意图特征值用于表征第二对话信息中意图类别所对应的意图值的特征；利用解码网络确定在第一意图特征值与第二意图特征值不同的情况下，输出意图类别以及第一意图值；第一意图值为第一意图特征值所对应的意图值；第二对应关系中意图类别对应第二意图值。

可选的，编码网络包括多个神经网络层，处理模块502具体用于：利用解码网络连接多个神经网络层的输出结果，获取意图类别对应的第一意图值，并输出意图类别以及第一意图值。

可选的，处理模块502还用于获取多个样本数据；样本数据包括上文对话信息、下文对话信息、第三对应关系、意图类别状态标注信息以及第四对应关系；上文对话信息为早于下文对话信息的对话信息；第三对应关系包括上文对话信息中意图类别对应的第一标注意图值；第四对应关系包括下文对话信息中意图类别对应的第二标注意图值；意图类别状态标注信息包括第一状态；第一状态用于表征意图类别对应的意图值在下文对话信息中更新；对于任一样本数据将样本数据输入神经网络模型得到意图类别的状态预测信息以及意图类别对应的预测意图值；获取意图类别的状态预测信息与意图类别状态标注信息的第一损失，第二标注意图值与预测意图值的第二损失；将第一损失与第二损失进行加权汇总，得到样本数据对应的总损失；使用多个样本数据以及样本数据对应的总损失迭代训练神经网络模型，得到意图预测模型。

可选的，处理模块502还用于：从数据库中获取第一对应关系中意图值对应的关联信息，并根据关联信息生成针对第一账户中第一对话信息的回复信息；终端设备50还包括通信模块503，用于向第一账户所对应用户设备发送回复信息。示例性的，结合图4，通信模块503可以用于执行S404以及S409。

在一个例子中，图5所示终端设备50中的通信模块503的功能可以由图2所示电子设备20中的通信组件280实现。处理模块502的功能可以由图2所示电子设备20中的处理器210调用存储器220中的计算机程序实现。存储模块501的功能可以由图2所示电子设备20中的存储器220实现。

如图6所示为本申请实施例提供的一种芯片的结构示意图。芯片120包括一个或两个以上(包括两个)处理器1201、通信线路1202和通信接口1203，可选的，芯片120还包括存储器1204。

在一些实施方式中，存储器1204存储了如下的元素：可执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

上述本申请实施例描述的方法可以应用于处理器1201中，或者由处理器1201实现。处理器1201可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1201可以是通用处理器(例如，微处理器或常规处理器)、数字信号处理器(digitalsignal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件，处理器1201可以实现或者执行本申请实施例中的公开的各方法中控制器所执行的方法。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。其中，软件模块可以位于随机存储器、只读存储器、可编程只读存储器或带电可擦写可编程存储器(electricallyerasable programmable read only memory，EEPROM)等本领域成熟的存储介质中。该存储介质位于存储器1204，处理器1201读取存储器1204中的信息，结合其硬件完成上述方法中控制器所执行的步骤。

处理器1201、存储器1204以及通信接口1203之间可以通过通信线路1202进行通信。

在上述实施例中，存储器存储的供处理器执行的指令可以以计算机程序产品的形式实现。其中，计算机程序产品可以是事先写入在存储器中，也可以是以软件形式下载并安装在存储器中。

本申请实施例还提供一种电子设备。该电子设备包括存储器和处理器。处理器调用存储器中的计算机程序可以实现上述方法实施例中服务器所执行的方法。

本申请实施例还提供一种计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如，可用介质可以包括磁性介质(例如，软盘、硬盘或磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本申请实施例还提供一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可能的设计，计算机可读介质可以包括紧凑型光盘只读储存器(compactdisc read-only memory，CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器；计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且，任何连接线也可以被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，DSL或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(digital versatile disc，DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。

上述的组合也应包括在计算机可读介质的范围内。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种对话意图识别方法，其特征在于，所述方法包括：

获取与所述第一账户对话中产生的第一对话信息；

将所述第一对话信息、第二对话信息以及第二对应关系输入意图预测模型；其中，所述第二对话信息为与所述第一账户对话中早于所述第一对话信息的信息，所述第二对应关系为所述意图预测模型处理所述第二对话信息时得到的输出；

利用所述意图预测模型获取所述第一对话信息中相较于所述第二对话信息状态发生变化的意图类别，并利用所述意图预测模型生成所述意图类别对应的意图值，输出第一对应关系，所述第一对应关系包括所述第一对话信息对应的所述意图类别以及对应的意图值。

2.根据权利要求1所述的对话意图识别方法，其特征在于，所述意图预测模型包括编码网络和解码网络；所述利用所述意图预测模型获取所述第一对话信息中相较于所述第二对话信息状态发生变化的意图类别，并利用所述意图预测模型生成所述意图类别对应的意图值，输出第一对应关系，包括：

利用所述编码网络提取所述第一对话信息中所述意图类别对应的第一意图特征值以及所述第二对话信息中所述意图类别对应的第二意图特征值；所述第一意图特征值用于表征所述第一对话信息中所述意图类别所对应的意图值的特征；所述第二意图特征值用于表征所述第二对话信息中所述意图类别所对应的意图值的特征；

利用所述解码网络确定在所述第一意图特征值与所述第二意图特征值不同的情况下，输出所述意图类别以及第一意图值；所述第一意图值为所述第一意图特征值所对应的意图值；所述第二对应关系中所述意图类别对应第二意图值。

3.根据权利要求2所述的对话意图识别方法，其特征在于，所述编码网络为双向的BERT网络；所述解码网络为单向的BERT网络。

4.根据权利要求3所述的对话意图识别方法，其特征在于，所述编码网络包括多个神经网络层，所述解码网络确定在所述第一意图特征值与所述第二意图特征值不同的情况下，输出所述意图类别以及第一意图值，包括：

所述解码网络连接所述多个神经网络层的输出结果，获取所述意图类别对应的所述第一意图值，并输出所述意图类别以及所述第一意图值。

5.根据权利要求1-4任一项所述的对话意图识别方法，其特征在于，所述方法还包括：

获取多个样本数据；所述样本数据包括上文对话信息、下文对话信息、第三对应关系、意图类别状态标注信息以及第四对应关系；所述上文对话信息为早于所述下文对话信息的对话信息；所述第三对应关系包括所述上文对话信息中所述意图类别对应的第一标注意图值；所述第四对应关系包括所述下文对话信息中所述意图类别对应的第二标注意图值；所述意图类别状态标注信息包括第一状态；所述第一状态用于表征所述意图类别对应的意图值在所述下文对话信息中更新；

对于任一样本数据将所述样本数据输入神经网络模型得到所述意图类别的状态预测信息以及所述意图类别对应的预测意图值；获取所述意图类别的状态预测信息与所述意图类别状态标注信息的第一损失，所述第二标注意图值与所述预测意图值的第二损失；将所述第一损失与所述第二损失进行加权汇总，得到所述样本数据对应的总损失；

使用所述多个样本数据以及所述样本数据对应的所述总损失迭代训练所述神经网络模型，得到所述意图预测模型。

6.根据权利要求5所述的对话意图识别方法，其特征在于，所述方法还包括：

从数据库中获取所述第一对应关系中意图值对应的关联信息，并根据所述关联信息生成针对所述第一账户中所述第一对话信息的回复信息；

向所述第一账户所对应用户设备发送所述回复信息。

7.一种对话意图识别装置，其特征在于，包括：

存储模块，用于存储所述意图预测模型；

处理模块，用于获取与所述第一账户对话中产生的第一对话信息；将所述第一对话信息、第二对话信息以及第二对应关系输入意图预测模型；其中，所述第二对话信息为与所述第一账户对话中早于所述第一对话信息的信息，所述第二对应关系为所述意图预测模型处理所述第二对话信息时得到的输出；利用所述意图预测模型获取所述第一对话信息中相较于所述第二对话信息状态发生变化的意图类别，并利用所述意图预测模型生成所述意图类别对应的意图值，输出第一对应关系，所述第一对应关系包括所述第一对话信息对应的所述意图类别以及对应的意图值。

8.根据权利要求7所述的对话意图识别装置，其特征在于，所述意图预测模型包括编码网络和解码网络；所述处理模块具体用于：

9.根据权利要求8所述的对话意图识别装置，其特征在于，所述编码网络为双向的BERT网络；所述解码网络为单向的BERT网络。

10.根据权利要求9所述的对话意图识别装置，其特征在于，所述编码网络包括多个神经网络层，所述处理模块具体用于：利用所述解码网络连接所述多个神经网络层的输出结果，获取所述意图类别对应的所述第一意图值，并输出所述意图类别以及所述第一意图值。

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于调用所述存储器中的计算机程序，以执行如权利要求1-6中任一项所述的对话意图识别方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在终端设备上运行时，使得所述终端设备执行如权利要求1-6中任一项所述的对话意图识别方法。

13.一种芯片，其特征在于，所述芯片包括处理器，所述处理器用于调用存储器中的计算机程序，以执行如权利要求1-6中任一项所述的对话意图识别方法。