WO2020151017A1

WO2020151017A1 - 一种可扩展的领域人机对话系统状态跟踪方法及设备

Info

Publication number: WO2020151017A1
Application number: PCT/CN2019/073477
Authority: WO
Inventors: 程国艮; 李欣杰
Original assignee: 中译语通科技股份有限公司
Priority date: 2019-01-25
Filing date: 2019-01-28
Publication date: 2020-07-30
Also published as: CN109885668A

Abstract

本发明提供一种可扩展的领域人机对话系统状态跟踪方法和设备，所述方法包括建立状态跟踪模型，采用slot-value模型确定当前对话状态；训练数据特征集拆分，采集每一轮对话，并对其中的特征项进行采集，对每个特征项进行拆分；准备上下文信息；基于机器学习方法的模型训练。由于该方法中的状态跟踪模型对每个特征进行独立预测，而不对特征取值范围进行限定，可以支持特征取值范围的动态改变，从而在业务升级过程中不需要重新进行语言理解模型的训练，使得领域人机对话系统扩展性更强。

Description

一种可扩展的领域人机对话系统状态跟踪方法及设备

技术领域

本发明涉及人工智能领域，具体而言，涉及人机对话系统领域。

背景技术

随着机器学习尤其是语音识别与理解技术的发展，很多人工对话系统逐渐被人机对话系统取代。现有的人机对话系统主要分为两大类，一类是小度智能音箱之类，基于聊天模式的系统，这类系统通过对人类日常对话的学习，达到和人进行正常对话的目的；另外一类是语音客服类似的系统，通过人机对话，达到对用户某种类型的业务服务。两类人机对话系统的设计目的不同，所使用的模型以及面临的限制也不一样。聊天模式的人机对话系统，可以以社交网络中的大量对话素材为训练数据，且目的只是维护顺畅的对话上下文，不关联具体业务；特定领域的人机对话系统在某个特定领域对语音识别模型进行训练，适用于某个领域的训练数据集数量并不多，而且这类系统后台关联业务，需要对用户的意愿做出明确的判定。

目前的领域人机对话系统所使用的语言理解模型一般使用语音识别-语言理解-状态跟踪-对策选择的方式进行，其中的状态跟踪步骤按照所对应的领域业务将每个状态的取值都固定几个可选值，这样就根据业务场景进行了状态跟踪过程的定制化。为了提高领域人机对话系统中识别准确率，人们一般在语言理解模型中提高语言理解的准确，比如专利CN108334496A《用于特定领域的人机对话理解方法与系统及相关设备》在模型训练时，引入了额外的词性信息，使用词性预测层预测下一个输入词的词性，通过对语义标注、意图识别、词性预测三个任务进行联合处理，利用三个任务间共享的语义信息，达到了识别准确率的提升。然而现有研究对状态跟踪的实现，仍然是依据领域场景人为指定特征固定取值的方式。在实际系统应用中，由于业务升级或者新业务功能的加入，经常需要造成领域人机对话系统中状态跟踪中特征取值可选值进行改变。由于现有领域人机对话系统中对状态跟踪中特征值的使用是联合使用，相互影响的，为了应对状态跟踪中特征取值的改变，现有的领域人机对话系统需要对状态跟踪之前的语言理解模型进行重新训练，这显然会造成系统升级上的复杂和扩展性变差。

发明内容

为了实现上述目的，本发明提供如下技术方案：一种可扩展的领域人机对话系统状态跟踪方法，其特征在于：

建立状态跟踪模型，采用slot-value模型确定当前对话状态；具体地，设定value取值范围为C _i 1......C，其中i表示一个特定slot中value的取值可能数量，slot取值范围为T _k 1......N，其中k表示slot个数，对话上下文为D，则对话状态跟踪可表示为给定一个<slot,value>组合值，使得如下公式所指示的交叉熵值最小：

其中P(y)表示训练数据集中的分布函数，

表示预测结果的分布函数，y表示预测的slot-value组合值。

训练数据特征集拆分，采集每一轮对话，并对其中的特征项进行采集，对每个特征项进行拆分；采用DSTC2数据集自带的SLU特征集生成方法对每一轮对话的特征项进行采集；对于拆分后的特征项，分别对特征项中的每个slot组织训练数据集，进行特征项单独训练。在对特征项进行单独训练前，对<slot,value>组合值进行逻辑判别，如若该对<slot,value>组合值为真，则进行训练，如若不为真，则放弃该对<slot,value>组合值。

准备上下文信息；采用LSTM和层次LSTM模型，使用不同的LSTM分别处理词、句子和段落级别输入，并使用自动编码器检测LSTM的文档特征抽取和重建能力。

对每一轮对话，采用如下方法采集上下文信息：

使用LSTM根据当前句子进行特征编码：Es LSTM ^sentence(Sent _j)，j表示当前句子个数；

使用层次LSTM根据当前句子的上下文进行特征编码：Ed LSTM ^dialogue[LSTM ^sentence _1...j ₁(Sent _j)]；

使用LSTM根据当前句子的上下文以及对应的业务动作进行特征编码：Ea LSTM ^DialogueAct _1...K(DA _K)，其中K表示业务动作数量，DA _K为第K个Dialogue Action；

则根据上述方法，得到上下文信息的描述为D[Es,Ed,Ea]。基于所述<slot,value>训练数据集和所述上下文信息的准备，利用机器学习模型进行对话状态的跟踪训练，该训练可抽象为：

从而实现人机对话系统的可扩展性支持。

基于机器学习方法的模型训练，根据进行拆分后的训练数据集，并对每个特征进行基于LSTM和层次LSTM的上下文信息描述，对每个特征形成训练数据集，进而对每个特征单独进行预测，则所有状态的组合，记为当前时刻的状态跟踪结果。

同时，本发明还提供一种应用上述可扩展的领域人机对话系统状态跟踪方法的电子设备。

与现有技术相比，本发明实施例的有益效果是：本发明提供的状态跟踪模型对每个特征进行独立预测，不对特征取值范围做限定，因此可以支持特征取值的范围的动态改变。这种不限定特征取值的状态跟踪模型，在业务升级的时候不需要重新进行语言理解模型的训练，使得领域人机对话系统扩展性更强。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明slot-value状态跟踪模型示意图。

图2是本发明实施例提供的具有A、B两个特征的训练过程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

下面结合附图详细说明本发明的优选实施例。

本发明根据现有技术中由于业务系统升级时，改变了状态跟踪中特征取值的范围，从而需要重新对语言理解模型进行训练的问题，提供一种可扩展的领域人机状态跟踪模型及方法，对每个特征进行独立预测，而不对特征取值范围进行限定，因此可以支持特征取值范围的动态改变。

状态跟踪的实质是维护会话过程中的状态slot-value组合，每一种slot-value组合都可以作为后期决策选择的输入参数。如图1所示，所有slot的一种value组合可以唯一确定一种会话状态。

对于特定领域，slot-value模型可以确定当前对话状态，假设value取值范围为C _i 1......C，其中i表示一个特定slot中value的取值可能数量，slot取值范围为T _k 1......N，其中k表示slot个数，对话上下文为D，则对话状态跟踪可表示为给定一个<slot,value>组合值，使得如下公式所指示的交叉熵值最小：

其中P(y)表示训练数据集中的分布函数，

表示预测结果的分布函数，y表示预测的slot-value组合值。

训练数据采集用户每一轮对话，并对其中的特征项进行采集。这里可以采用常规会话特征搜集方法，比如使用DSTC2数据集自带的SLU特征集生成方法(词语理解或者口语理解方法)。

特征项搜集完成之后，对每个特征项进行拆分，分别对特征项中的每个slot组织训练数据集。这种每个特征项单独训练的方式，不同于原有会话跟踪系统中，将所有特征项组织为一个特征向量，进行联合预测的方式。原有方式中，由于进行联合训练，需要将每一项取值限制在几个特定取值范围之内，而现有方式对每个特征进行单独训练，只需要判别某个<slot,value>组合是否为真即可。这种训练数据集拆分的方式，使得训练数据集规模成倍增大，但是却不再对输出结果的取值范围进行限定。

本专利上下文信息采用LSTM模型，LSTM的全称是Long Short-Term Memory，它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，从而更好的捕捉到较长距离的依赖关系。层次的LSTM使用不同的LSTM分别处理词、句子和段落级别输入，并使用自动编码器(autoencoder)来检测LSTM的文档特征抽取和重建能力。对每轮用户会话，都采集以下上下文信息：

根据上述上下文信息的准备，可以得到上下文信息的描述为D[Es,Ed,Ea]，则基于上述<slot,value>训练数据集的准备，和上下文信息的准备，可以利用已有的机器学习模型，进行会话状态的跟踪训练，该过程抽象为下式：

由于上述训练过程中，并不限定会话状态特征的取值范围，会话状态特征取值范围的变化，只是体现在后续机器学习过程的训练数据集中，不需要进行后续机器学习模型的更新，从而可以提供会话状态跟踪系统所在领域人机对话系统的可扩展性支持。

根据上述步骤，将训练数据集根据特征进行拆分，并对每个特征进行基于LSTM和层次LSTM的上下文信息描述，从而对每个特征形成训练数据集，进而对每个特征单独进行预测。

对每个特征进行单独预测之后，所有状态的组合，即为当前时刻的状态跟踪结果。图2中，示例了有A、B两个特征的训练过程：将训练数据集按每个特征进行分割；对每个特征，用Es、Ed、Ea三个LSTM模型描述，从而组件每个特征的训练数据集，之后用全连接神经网络对每个特征分别训练，得到每个特征的预测值，所有特征的预测值组合起来，即为对话状态跟踪的结果。

本发明使用会话特征单独学习的方法，避免了领域人机对话系统中会话跟踪过程需要提前定义会话特征取值这个问题，从而给领域人机对话系统带来更大扩展性。为了验证算法性能，我们在DSTC2数据集中，分别使用结合词语理解与口语理解生成的测试数据集，使用全连接神经网络学习模型，结合Adam模型训练优化方法，得到会话状态菜系、地点、价位、综合预测准确率如下所示：

测试集生成模型	菜系	地点	价位	综合
词语理解	84.0	88.8	91.7	70.7
口语理解	78.7	90.3	91.6	67.5

从对比结果可以看出，本专利提出的可扩展的领域人机对话系统会话状态跟踪模型与方法可以在特征取值可扩展的基础上，提供很高的会话跟踪准确率。

为了更加清晰解释本专利，举例进行说明。

在“餐厅推荐业务”所涉及领域人机对话系统中，有<菜系,地点,价位>三个slot，这三个slot对应的value如果是<北京菜,五道口,200>，业务系统的对策选择方案就会推荐用户“华联购物中心六层的局气”。

假设现有训练数据集为：

“我想去五道口吃人均200元的北京菜”，状态跟踪结果为<北京菜,五道口,200>

“我想去五道口吃人均50元的快餐”，状态跟踪结果为<快餐，五道口，50>

“我想去五道口吃烤鱼”，状态跟踪结果为<川菜,五道口,none>

对训练数据集进行拆分，对每个slot-value组合预测，比如对第一条训练数据：

“我想去五道口吃人均200元的北京菜”，<菜系，北京菜>结果为1；<菜系,川菜>结果为0；<菜系,陕西面食>结果为0

对其他训练数据及其他特征也做同样处理。

再采用LSTM模型和层次LSTM模型对对话上下文信息进行建模，结合上述生成的训练数据集合，对每个特征维度生成最终的训练数据集。使用现有机器学习模型(比如全连接神经网络+Adam模型训练优化方法)，就可以对会话状态进行预测。

当新的用户输入“我想去丰台科技园吃biangbiang面”，对于“菜系”slot的预测值为“陕西面食”，对于“地点”slot的预测值为“丰台科技园”，对于“价位”slot的预测值是“none”，因此预测出来的会话状态为<陕西面食,丰台科技园,none>。

同时，本发明还同时提供一种应用上述可扩展的领域人机对话系统状态跟踪模型与方法的电子设备。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种可扩展的领域人机对话系统状态跟踪方法，其特征在于：

建立状态跟踪模型，采用slot-value模型确定当前对话状态；

训练数据特征集拆分，采集每一轮对话，并对其中的特征项进行采集，对每个特征项进行拆分；

准备上下文信息；

基于机器学习方法的模型训练。
根据权利要求1所述的方法，其特征在于：

所述建立状态跟踪模型步骤中，设定value取值范围为C _i 1......C，其中i表示一个特定slot中value的取值可能数量，slot取值范围为T _k 1......N，其中k表示slot个数，对话上下文为D，则对话状态跟踪可表示为给定一个<slot,value>组合值，使得如下公式所指示的交叉熵值最小：

其中P(y)表示训练数据集中的分布函数，
表示预测结果的分布函数，y表示预测的slot-value组合值。
根据权利要求1所述的方法，其特征在于，采用DSTC2数据集自带的SLU特征集生成方法对每一轮对话的特征项进行采集。
根据权利要求1或3中任一项所述的方法，其特征在于，对于拆分后的特征项，分别对特征项中的每个slot组织训练数据集，进行特征项单独训练。
根据权利要求4所述的方法，其特征在于，在对特征项进行单独训练前，对<slot,value>组合值进行逻辑判断，如若该对<slot,value>组合值为真，则进行训练，如若不为真，则放弃该对<slot,value>组合值。
根据权利要求1所述的方法，其特征在于，上下文信息采用LSTM 和层次LSTM模型，使用不同的LSTM分别处理词、句子和段落级别输入，并使用自动编码器检测LSTM的文档特征抽取和重建能力。
根据权利要求6所述的方法，其特征在于，对每一轮对话，采用如下方法采集上下文信息：

使用LSTM根据当前句子进行特征编码：Es LSTM ^sentence(Sent _j)，j表示当前句子个数；

使用层次LSTM根据当前句子的上下文进行特征编码：Ed LSTM ^dialogue[LSTM ^sentence _1...j 1(Sent _j)]；

使用LSTM根据当前句子的上下文以及对应的业务动作进行特征编码：Ea LSTM ^DialogueAct _1...K(DA _K)，其中K表示业务动作数量，DA _K为第K个Dialogue Action；

则根据上述方法，得到上下文信息的描述为D[Es,Ed,Ea]。
根据权利要求1-7中任一项所述的方法，其特征在于，基于所述<slot,value>训练数据集和所述上下文信息的准备，利用机器学习模型进行对话状态的跟踪训练，该训练可表示为：

从而实现人机对话系统的可扩展性支持。
根据权利要求1和7中任一项所述的方法，根据进行拆分后的训练数据集，并对每个特征进行基于LSTM和层次LSTM的上下文信息描述，对每个特征形成训练数据集，进而对每个特征单独进行预测，则所有状态的组合，记为当前时刻的状态跟踪结果。
一种应用如权利要求1-9中任一项所述的方法的电子设备。