CN113705652A

CN113705652A - 一种基于指针生成网络的任务型对话状态追踪系统及方法

Info

Publication number: CN113705652A
Application number: CN202110969540.0A
Authority: CN
Inventors: 饶元; 杨帆; 吴连伟; 丁毅; 兰玉乾; 贺王卜
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-26
Anticipated expiration: 2041-08-23
Also published as: CN113705652B

Abstract

本发明公开了一种基于指针生成网络的任务型对话状态追踪系统及方法，通过GRU‑Self Attention机制有效的编码了长序列文本，并基于指针生成网络结合源序列信息生成对话状态。本发明首次提出了一种针对对话状态追踪算法长序列编码能力不足特点提出的BiGRU‑Self Attention编码器，该编码器可以更有效地编码长序列文本。本发明的算法相比于其他相关研究表现出了更高的联合目标准确率。在迁移性能实验中验证了该算法的迁移能力。

Description

一种基于指针生成网络的任务型对话状态追踪系统及方法

技术领域

本发明属于对话状态追踪技术领域，涉及一种基于指针生成网络的任务型对话状态追踪系统及方法。

背景技术

任务型对话系统是一种面向单领域或多领域问题，以完成任务为导向，以最短轮数完成用户查询或对话任务为目的的一种人机对话系统。从使用场景上来说，从车载语音助手到自动电话客服都属于任务型对话系统。为了支持多轮对话的场景，任务型对话系统需要对话状态追踪算法在整个对话历程中持续记录用户的各种意图，来辅助系统为用户提供正确的回复。从定义上来说，对话状态通常由一组请求和联合目标共同组成，其中请求分为目标(information，即表示用户希望实现的目标)和请求(request，表示用户希望获取的信息)，例如，用户希望吃中餐(以槽-值对的形式体现，槽指一种意图类别，如在餐厅领域下就指订餐时间、食物风格等；值指槽对应的值，食物风格可以对应中餐、西餐，订餐时间可以对应早餐、午餐等。)是一个目标，而用户希望获得地址(address)则是一个请求。将当前轮为止的每一对话轮中的目标和请求加在一起，其中的每一轮的目标和请求分别称为回合目标和回合请求，而所有轮的目标构成联合目标。

现有的对话状态追踪算法分为分类式和生成式两种，前者基于二分类的方式将所有的槽-值对进行True/False的判断，生成最终的对话状态；后者则基于生成的方式，或是基于Seq2Seq的方式直接生成对话状态序列，或基于槽的输入生成对应的值。基于生成式的算法相比于基于分类式的算法，在鲁棒性和模型的拓展性上更好，因此逐渐成为大多数研究者的研究思路。现有的大多数对话状态追踪算法还存在以下两个关键性问题：1)迁移能力差。在新领域上，以往的相关研究较难基于以往的经验进行有效迁移，常需要在新的数据集上重新训练；2)难以从源序列获取有效信息。由于该研究的特殊性，基于命名实体识别的方式往往无法达到较好的性能，因此大多数研究都是基于编码器的句向量进行后续计算的，这种方式无法有效从源序列中获取足够的语义信息。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于指针生成网络的任务型对话状态追踪系统及方法

针对目前对话状态追踪算法的两个缺陷，本发明提出了MBPST(Multi-Head-Attention Based Point-network State Tracker)模型，该模型，基于指针生成网络，以Seq2Seq的方式，根据输入的领域-槽进行对话状态的生成。

基于上述原因，本发明的主要任务是通过相关算法从源序列中获取足够的语义信息，并通过生成式算法来提高模型的迁移能力。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于指针生成网络的任务型对话状态追踪方法，包括以下步骤：

以整个对话历史文本作为输入，通过Embedding、Bi-GRU和Self-Attention层对对话的历史文本信息进行编码，获取整个对话历史文本的句向量和各个词的词向量；

对“don’tcare”和“None”这两个特殊值先进行分类，如果一个槽对应的值是这两个值中的一个，则直接输出结果；

将对话状态作为本文序列，以生成的方式输出对话状态中每个“领域-槽”对应的值；

从源序列中提取单词，在生成阶段将有效信息的权重直接加入最终的词分布中。

上述方法进一步的改进在于：

所述对对话的历史文本信息进行编码的具体方法如下：

步骤0：令对话的历史记录中，当前的时刻为t，用户话语历史集合为U＝{U₀,U₁,…,U_t}，系统回复历史集合为A＝{A₀,A₁,…,A_t-1}，则编码器的输入为D＝{U₀,A₀,U₁,A₁,…,U_t}；

步骤1：基于Glove预训练向量将对话历史D编码为对应的向量，再利用Bi-GRU算法编码对话历史，得到句向量输出h_context和词向量输出H＝{h₀,h₁,…,h_L}，其中L为整个对话历史词的序列长度；

步骤2：基于自注意力机制进行对话历史的长序列编码，令注意力计算方式为：

其中，softmax表示softmax函数，该函数能够形式化为：

其中，V_i表示向量中的第i个参数，

表示向量中所有参数的指数之和；

步骤3：基于LayerNormalization机制对自注意力层的输出与Bi-GRU层的输出进行加和运算后并进行归一化，并将该归一化后的结果作为编码器的序列向量输出；令一个Batch的三维数据中，BatchSize为第一个维度B，序列长度为第二个维度L，特征维度为第三个维度Hidden_Size，针对第三个维度计算均值和方差；对于第b个Batch，第s个序列，其均值μ_b,s和方差σ_b,s为：

式中，∈为一个接近0的偏置项，x_b,s,k为对应三个维度的第b行、第s列的第k个元素；然后计算归一化后的值，对于每个特征对应的值x_ijk，其对应的新值

为：

其中g_b,s是可学习的参数；归一化后的向量将作为编码器的最终输出。

所述对“don’tcare”和“None”这两个特殊值先进行分类的具体方法如下：

步骤4：基于GRU算法进行对话状态生成任务；GRU层0时刻的输入为领域与槽的Embedding之和：x₀＝E_domain+E_slot，首先经过GRU层计算，得到的结果为h₀；

步骤5：用h₀和对话历史的词向量seq＝{seq₀,seq₁,…,seq_L}做注意力，得到对话历史的上下文向量h_context；以第l个词向量为例：

att_l＝seq_l*h_l (6)

则每个词向量占整个句向量的权重score为：

score＝(score₁,score₂,…,score_L)＝softmax(att₁,att₂,…,att_L) (7)

其中，seq_l为该步第l个词的向量，h_l为该时刻GRU的隐向量，L为整个序列的长度；

步骤6：基于得到的上下文向量进行三分类，3种分类代表的意义分别为：继续计算对话状态、“don’tcare”和“None”：

p_classifier＝softmax(dropout(W_g(h_context))) (9)

其中，W_g为可训练的前馈神经网络，dropout为随机将W_g中某些参数设为0的随机化算法。

所述对话状态的计算方式为每一轮对话均针对每个“领域-槽”对计算一次。

所述基于指针生成网络机制，从源序列中提取单词，在生成阶段将有效信息的权重直接加入最终的词分布中的具体方法如下：

步骤7：令第t步对话状态生成器的输入为x_t，首先计算该步从全词表中取词的权重p_gen：

p_gen＝sigmoid(W_gen(concat(h_t,h_context,x_t))) (10)

其中，W_gen为可训练的单层前馈神经网络，h_t表示第t步的GRU输出，h_context为之前计算得到的上下文向量；

步骤8：再全词表中任意一个词作为输出的概率分布：

attn_t,e＝h_t*E_e (11)

p_vocab＝softmax(attn_t,e) (12)其中，E_e为全词表中的第e个词的Embedding向量，“*”表示向量的点乘；

步骤9：再取之前计算得到的与输入序列计算的权重score，得到该轮的输出p：

p＝p_gen*p_vocab+(1-p_gen)*score (13)

步骤10：当序列生成“<EOS>”标签时停止生成，输出对话状态。

一种基于指针生成网络的任务型对话状态追踪系统，包括：

输入嵌入与编码模块，所述输入嵌入与编码模块用于以整个对话历史文本作为输入，通过Embedding、Bi-GRU和Self-Attention层对对话的历史文本信息进行编码，获取整个对话历史文本的句向量和各个词的词向量；

特殊槽分类模块，所述特殊槽分类模块用于对“don’tcare”和“None”这两个特殊值先进行分类，如果一个槽对应的值是这两个值中的一个，则直接输出结果；

对话状态生成模块，所述对话状态生成模块用于将对话状态作为本文序列，以生成的方式输出对话状态中每个“领域-槽”对应的值；

指针生成网络模块，所述指针生成网络模块用于从源序列中提取单词，在生成阶段将有效信息的权重直接加入最终的词分布中。

一种基于指针生成网络的任务型对话状态追踪装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明提出了一种基于任务型对话系统的对话状态追踪算法，通过GRU-SelfAttention机制有效的编码了长序列文本，并基于指针生成网络结合源序列信息生成对话状态。本发明首次提出了一种针对对话状态追踪算法长序列编码能力不足特点提出的BiGRU-Self Attention编码器，该编码器可以更有效地编码长序列文本。本发明的算法相比于其他相关研究表现出了更高的联合目标准确率。在迁移性能实验中验证了该算法的迁移能力。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的整体模型结构图；

图2为本发明的整体工作流程示意图；

图3为本发明的编码器结构；

图4为本发明的迁移实验。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明实施例公开了一种基于指针生成网络的任务型对话状态追踪方法，包括以下步骤：

阶段0：对话历史编码

步骤0：令对话的历史记录中，当前的时刻为t，用户话语历史集合为U＝{U₀,U₁,…,U_t}，系统回复历史集合为A＝{A₀,A₁,…,A_t-1}，则编码器的输入为D＝{U₀,A₀,U₁,A₁,…,U_t}。

步骤1：首先基于Glove预训练向量将对话历史D编码为对应的向量，再利用Bi-GRU算法编码对话历史，得到句向量输出h_context和词向量输出H＝{h₀,h₁,…,h_L}，其中L为整个对话历史词的序列长度。

其中，softmax表示softmax函数，该函数可形式化为：

其中，V_i表示向量中的第i个参数，

表示向量中所有参数的指数之和。

步骤3：基于LayerNormalization机制对自注意力层的输出与Bi-GRU层的输出进行加和运算后并进行归一化，并将该归一化后的结果作为编码器的序列向量输出。令一个Batch的三维数据中，BatchSize为第一个维度B，序列长度为第二个维度L，特征维度为第三个维度Hidden_Size，本发明针对第三个维度计算均值和方差。对于第b个Batch，第s个序列，其均值为(μ_b,s)和方差(σ_b,s)为：

式中，∈为一个接近0的偏置项，x_b,s,k为对应三个维度的第b行、第s列的第k个元素。然后计算归一化后的值，对于每个特征对应的值x_ijk，其对应的新值

为：

其中g_b,s是可学习的参数。归一化后的向量将作为编码器的最终输出。

阶段1：特殊值分类器

本发明对于对话状态的计算方式为每一轮对话均针对每个“领域-槽”对计算一次。

步骤4：本发明基于GRU算法进行对话状态生成任务。GRU层0时刻的输入为领域与槽的Embedding之和：x₀＝E_domain+E_slot，首先经过GRU层计算，得到的结果为h₀。

步骤5：用h₀和对话历史的词向量seq＝{seq₀,seq₁,…,seq_L}做注意力，得到对话历史的上下文向量h_context。以第l个词向量为例：

att_l＝seq_l*h_l (6)

则每个词向量占整个句向量的权重score为：

score＝(score₁,score₂,…,score_L)＝softmax(att₁,att₂,…,att_L) (7)

其中，seq_l为该步第l个词的向量，h_l为该时刻GRU的隐向量，L为整个序列的长度。

p_classifier＝softmax(dropout(W_g(h_context))) (9)

阶段2：基于指针生成网络的对话状态生成器

本部分首先描述指针生成网络的工作机制

p_gen＝sigmoid(W_gen(concat(h_t,h_context,x_t))) (10)

其中，W_gen为可训练的单层前馈神经网络，h_t表示第t步的GRU输出，h_context为之前计算得到的上下文向量。

步骤8：再全词表中任意一个词作为输出的概率分布：

attn_t,e＝h_t*E_e (11)

p_vocab＝softmax(attn_t,e) (12)

其中，E_e为全词表中的第e个词的Embedding向量，“*”表示向量的点乘。

p＝p_gen*p_vocab+(1-p_gen)*score (13)

步骤10：在测试阶段，当序列生成“<EOS>”标签时停止生成，输出对话状态。

如图2所示，本发明实施例公开了一种基于指针生成网络的任务型对话状态追踪系统，包括：

模块1.输入嵌入与编码模块：以整个对话历史文本作为输入，通过Embedding，Bi-GRU和Self-Attention层对对话的历史文本信息进行编码，获取整个对话历史文本的句向量和各个词的词向量。

模块2.特殊槽分类模块：由于“don’tcare”和“None”两个值在语义中的特征和其他值相差较大，因此对这两个特殊的值先进行分类，如果一个槽对应的值是这两个值中的一个，则算法不需要进行额外计算，直接输出结果。

模块3.对话状态生成模块：本发明将对话状态作为一种本文序列，以生成的方式输出对话状态中每个“领域-槽”对应的值。这种做法可以有效提高模型的拓展性和鲁棒性，同时随着槽-值对数目的增多，训练参数量不变，训练和测试速度不会随之线性提高。

模块4.指针生成网络模块：为了提高传统的RNN类模型在序列生成上的性能缺陷，本文引入了指针生成网络机制，该机制可以直接从源序列中提取单词，在生成阶段将有效信息的权重直接加入最终的词分布中。

本发明适用于以WoZ格式标注的任务型对话系统中，例如智能客服、车载语音助手等，且能够有效的利用源序列信息对新领域数据进行有效迁移。

如图4所示，图4为本发明的迁移实验，实验结果表明在zero-shot(在某个领域上只进行测试，模型并不在其之上进行训练)和few-shot(在某个领域只用很少的样本进行训练，然后进行测试)条件下均表现出了一定的迁移能力。

表1

表1为本发明在Multi-WoZ数据集下的实验性能图，本算法在联合目标准确率上高出其他相关算法。对比的相关算法有：GLAD“ZHONG V,XIONG C,SOCHER R.Global-locallyself-attentive encoder for dialogue state tracking[C].Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers),2018:1458-1467.”，GCE“Nouri E,Hosseini-Asl E.Toward scalable neuraldialogue state tracking model[J].arXiv preprint arXiv:1812.00899,2018.”，Neural Reading“[3]Gao S,Sethi A,Agarwal S,et al.Dialog State Tracking:ANeural Reading Comprehension Approach[C]//Proceedings of the 20th annualmeeting of the special interest group on discourse and dialogue(SIGDIAL).2019:264-273.”，Hyst“Goel R,Paul S,Hakkani-Tür D.Hyst:A hybrid approach forflexible and accurate dialogue state tracking[J].arXiv preprint arXiv:1907.00883,2019.”，SUMBT“Lee H,Lee J,Kim T Y.SUMBT:Slot-Utterance Matching forUniversal and Scalable Belief Tracking[C]//Proceedings of the 57th AnnualMeeting of the Association for Computational Linguistics.2019:5478-5483.”和COMER“Ren L,Ni J,McAuley J.Scalable and Accurate Dialogue State Tracking viaHierarchical Sequence Generation[C]//Proceedings of the 2019Conference onEmpirical Methods in Natural Language Processing and the 9th InternationalJoint Conference on Natural Language Processing(EMNLP-IJCNLP).2019:1876-1885.”等，本模型名称定义为MBPST(Multi-Head-Attention Based Point-network StateTracker)。

表2

表2为本发明的不同模块在Multi-WoZ数据集下的分离性能对比图，可以看到对于本算法，引入的每个模块都可以有效提高算法的整体性能。

本发明一实施例提供的基于指针生成网络的任务型对话状态追踪装置。该实施例的基于指针生成网络的任务型对话状态追踪装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述基于指针生成网络的任务型对话状态追踪装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述**装置/终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于指针生成网络的任务型对话状态追踪装置的各种功能。

所述基于指针生成网络的任务型对话状态追踪装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于指针生成网络的任务型对话状态追踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所示的基于指针生成网络的任务型对话状态追踪方法，其特征在于，所述对对话的历史文本信息进行编码的具体方法如下：

步骤0：令对话的历史记录中，当前的时刻为t，用户话语历史集合为U＝{U₀，U₁，...，U_t}，系统回复历史集合为A＝{A₀，A₁，...，A_t-1}，则编码器的输入为D＝{U₀，A₀，U₁，A₁，...，U_t}；

步骤1：基于Glove预训练向量将对话历史D编码为对应的向量，再利用Bi-GRU算法编码对话历史，得到句向量输出h_context和词向量输出H＝{h₀，h₁，...，h_L}，其中L为整个对话历史词的序列长度；

其中，softmax表示softmax函数，该函数能够形式化为：

其中，V_i表示向量中的第i个参数，

表示向量中所有参数的指数之和；

步骤3：基于LayerNormalization机制对自注意力层的输出与Bi-GRU层的输出进行加和运算后并进行归一化，并将该归一化后的结果作为编码器的序列向量输出；令一个Batch的三维数据中，BatchSize为第一个维度B，序列长度为第二个维度L，特征维度为第三个维度Hidden_Size，针对第三个维度计算均值和方差；对于第b个Batch，第s个序列，其均值μ_b，s和方差σ_b，s为：