CN112182191B

CN112182191B - 多轮口语理解的结构化记忆图网络模型

Info

Publication number: CN112182191B
Application number: CN202011108567.2A
Authority: CN
Inventors: 张志昌; 于沛霖; 庞雅丽; 曾扬扬
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-08-30
Anticipated expiration: 2040-10-16
Also published as: CN112182191A

Abstract

本发明公开了一种多轮口语理解的结构化记忆图网络模型，由输入编码层、记忆编码层、特征聚合层和输出分类层组成，使用由口语理解任务产生的对话行为代替文本作为记忆节点进行编码，对话行为是包含语义框架信息的格式化表示，将非结构化的文字转化为结构化的三元组。使用图注意力网络代替循环神经网络和注意力机制实现特征聚合，保留了注意力机制和对话节点间的顺序信息，有助于模型学习如何有效利用结构化记忆节点。该网络模型用编码对话行为代替历史对话文本作为记忆单元，最大程度保留语义框架原始信息，解决了现有技术中上文信息依赖模型在复杂场合会产生噪音以及运算效率低下的问题。

Description

多轮口语理解的结构化记忆图网络模型

技术领域

本发明属于人机对话技术领域，涉及一种多轮口语理解的结构化记忆图网络模型。

背景技术

随着各种智能设备的快速发展，人机对话近年来引起了学术界和产业界的广泛关注。任务型对话系统相关技术已经在许多产品中得到运用，例如微软公司的“小娜”(Cortana)，苹果公司的智能语音助手Siri等。在任务型对话系统中，一个重要的模块是口语理解(Spoken Language Understanding,SLU)，该模块会将用户以自然语言形式输入的话语识别为特定结构的语义表示，包括领域、意图、槽位等，之后再由下游的其他模块进行处理。

以往对口语理解任务的研究大多关注单轮对话场景。在单轮SLU任务中，系统仅接收并处理当前时刻用户输入的话语，忽略上下文的对话环境。然而在实际应用中，任务型对话系统大多都需要进行多轮连续的对话才能完成目标。与单轮SLU相比，多轮SLU任务更加复杂，如果仅依靠当前用户输入的话语容易引起歧义，需要上文对话中的信息作为补充。

图1展示了一个多轮SLU任务示例，示例中“明天”一词既可以代表预定酒店时用户提供的入住日期，也可以代表预定机票时用户提供的出发日期。在此轮对话中，系统仅依靠句子u2或u3无法进行判断，需要借助上文语境进行区分。已有研究也证明使用上文对话信息有助于解决歧义问题，例如，Hori C, Hori T, Watanabe S, et al. Contextsensitive spoken language uhderstanding using role dependent LSTM layers[C]//Proceedings of the NIPS 2015 Workshop on Machine Learning for Spoken LanguageUnderstanding and Interaction,Montreal,QC,Canada.2015,11. 中提出了一种对话角色相关的长短期记忆网络(Long Short Term Memory,LSTM)，通过Seq2Seq模型对上文进行建模以完成多轮SLU任务。Chen Y N, Hakkani-Tür D, Tür G,et al. End-to-end memorynetworks with knowledge carryover for multi-turn spoken languageunderstanding[C]//Interspeech.2016:3245-3249.提出一种基于上下文知识的记忆网络，通过编码历史对话文本获得记忆嵌入，再利用注意力机制帮助完成SLU任务。Bapna A,Tür G, Hakkani-Tür D, et al. Sequential dialogue context modeling for spokenlanguage understanding[J]arXivpreprintarXiv:1705.03455,2017.提出了序列对话编码网络，通过添加一个结合当前话语编码与历史存储向量的双向循环神经网络(Bidirectional Recurrent Neural Network,BiRNN)对话编码器来增强记忆网络。

尽管现有技术中公开的上文信息依赖模型有效地提高了多轮SLU任务的性能，但是这类直接使用上文对话文本编码信息的模型带来了新的问题。首先，在进行当前轮SLU任务时，模型需要处理过去每一时刻的对话文本来生成上文信息，带来了大量的时间和空间成本；其次，多轮任务型对话系统中经常出现用户意图跳转的场景。在这种复杂场景下上文文本信息往往会带来噪音。如图1例子所示，用户第一轮对话的意图是预定酒店，下一轮对话时用户意图跳转至预订机票，在这种场景中上文对话信息会误导模型判断，对当前SLU任务产生负面影响。

发明内容

本发明的目的是提供一种多轮口语理解的结构化记忆图网络模型，解决上文信息依赖模型运算效率过低以及在复杂场景产生噪音的问题，降低模型运算的时间与空间成本。

为实现上述目的，本发明所采用的技术方案是：一种多轮口语理解的结构化记忆图网络模型，由输入编码层、记忆编码层、特征聚合层和输出分类层组成，

所述的输入编码层采用BERT作为编码器；在对话的起始位置添加标记符[USR]或[SYS]，将话语u ^t按BERT要求拼接，输入BERT模型得到编码后的向量

；其中，h表示话语u ^t经过BERT编码后获得的上下文向量，

表示u ^t中第n个字，

表示第n个字对应的上下文向量，d代表在使用BERT进行编码时上下文向量的维度；

话语u ^t经过编码后的长度为n+2；

所述的记忆编码层，将不同数据集口语理解任务结果转化为多个行为类型-槽-值三元组构成的对话行为集合A；对话行为集合A分为有实值的对话行为组G _v和值为null的对话行为组G _n；

对于k时刻的对话行为集合

，

其对应记忆节点的具体运算过程如下：

式中，e _i表示对话行为a _i值对应的词嵌入向量；

表示对话行为的嵌入矩阵；h _i表示有实值对话行为所对应的记忆向量；

是向量h_i通过线性层产生的隐向量，用于对向量长度进行对齐；

表示k时刻对话行为的联合记忆向量；W ¹ 、b ¹ 、W ²和b ²均为可训练参数；n ^k是k时刻对话行为构成的记忆节点；α ₁ ^k表示k时刻中的一条对话行为三元组，i表示任意有实值对话行为；通过记忆编码层，每一个历史时刻k的话语都得到了唯一的记忆节点n ^k；

特征聚合层，通过SMGN模型将过去每个时刻的记忆节点与当前时刻的话语向量进行特征聚合；

输出分类层，使用角色标记符位置对应的特征向量对无实值对话行为组G _n进行分类；因为不同数据集中无实值对话行为个数不同，所以采用一种多标签分类法：

式中，y ⁿ表示不同无实值对话行为的输出分布。

在分类过程中，分类结果由y ⁿ与一个阈值参数p进行对比来确定；若当前y ⁿ对应的概率输出分布大于阈值p；则，该话语属于当前分类；若y ⁿ中所有的值都小于阈值p，则取概率分布中最大的类别作为当前分类；

对特征向量Y ^t进行切片操作，保留索引从1到n的部分，通过切片操作删去了输入编码层所添加的特殊标记符以及图注意力网络中添加的对话行为节点，保留下来的部分与原始输入u ^t为一一对应关系，可直接利用切片后特征向量对有实值对话行为组G _v进行序列标注：

在训练过程中，通过联合损失函数实现联合训练；无实值组损失计算如式（10）；有实值组损失函数计算如式（11）；最终的联合损失计算如式（12）：

其中，α ₁和α ₂是通过开发集结果微调的超参数。

本发明结构化记忆图网络(Structured Memory Graph Network,SMGN)模型使用由口语理解任务产生的对话行为代替文本作为记忆节点进行编码，对话行为(DialogueAct)是包含语义框架信息的格式化表示，将非结构化的文字转化为结构化的三元组，使用对话行为进行记忆编码可以有效提升模型的运算效率。使用图注意力网络(GraphAttention Networks,GAT)代替现有技术中使用的循环神经网络和注意力机制来实现特征聚合，不仅保留了注意力机制，也保留了对话节点间的顺序信息，在模型学习如何利用结构化记忆节点过程中，可以最大程度发挥其优势，有助于模型学习如何有效利用结构化记忆节点。本发明结构化记忆图网络模型用编码对话行为代替历史对话文本作为记忆单元，最大程度保留语义框架原始信息，解决了现有技术中上文信息依赖模型在复杂场合会产生噪音以及运算效率低下的问题。

附图说明

图1是现有技术中多轮口语理解任务实例示意图。

图2是本发明结构化记忆图网络模型的示意图。

图3是本发明结构化记忆图网络模型与现有技术中模型的计算效率对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明记忆图网络由输入编码层、记忆编码层、特征聚合层以及输出分类层四部分组成，如图2所示。其中，

输入编码层，采用BERT作为输入编码层的编码器。BERT是一种多层双向Transformer编码器，可以更好地编码上下文信息。因为在复杂对话中角色信息对多轮SLU任务有帮助，所以，并不按照BERT方法在起始位置添加分类标记[CLS]，而是添加一对特殊的标记符[USR]或[SYS]（[USR]代表当前话语来自用户输入，[SYS]代表当前话语是由系统自动生成），旨在让模型学习区分当前话语是来自于用户输入还是系统生成。另外在句尾添加分割标记符[SEP]，帮助模型区分话语边界。将话语u ^t按BERT要求拼接为

。其中h表示话语u ^t经过BERT编码后获得的上下文向量，

表示u ^t中第n个字，

表示第n个字对应的上下文向量，d代表在使用BERT进行编码时上下文向量的维度。由于在编码过程中，向句子首尾各添加了一个特殊标记符（角色标记符[USR]/[SYS]以及分隔符[SEP])，所以话语u ^t经过编码后长度将增加为n+2。

记忆编码层，其作用是根据上文对话行为编码生成记忆节点。记忆节点可以代替上文对话的文本向量与当前对话进行特征交互，但是与文本向量相比记忆节点所占用的存储空间更小，同时剔除了历史文本中的冗余信息。虽然不同数据集口语理解任务结果表示形式不同，但都可以转化为多个行为类型-槽-值三元组构成的对话行为集合A。针对意图识别或领域识别这类任务，将识别结果转化为一个值为null的三元组。例如图1中，“预定-酒店-null”是话语u1意图转化得到的对话行为。为了最大程度的保留原始信息，对话行为集合A可分为代表有实值的对话行为组G _v和代表值为null的对话行为组G _n。在编码有实值组时添加了词嵌入信息。对于k时刻的对话行为集合

,

，其对应记忆节点的具体运算过程如下：

式中，e _i表示对话行为a _i值对应的词嵌入向量；

表示对话行为的嵌入矩阵；hi表示有实值对话行为所对应的记忆向量；

表示k时刻对话行为的联合记忆向量；W ¹ 、b ¹ 、W ²和b ²均为可训练参数；n ^k是k时刻对话行为构成的记忆节点。α ₁ ^k表示k时刻中的一条对话行为三元组，i表示任意有实值对话行为（即类型-槽-值三元组中的值不为null）。通过记忆编码层，每一个历史时刻k的话语都得到了唯一的记忆节点n ^k。

特征聚合层，通过SMGN模型（使用图注意力网络(Graph Attention Network,GAT)将过去每个时刻的记忆节点与当前时刻的话语向量进行特征聚合。由于记忆节点与话语向量不具备顺序相连关系，所以引入图网络机制，对记忆节点和话语向量构建图关系来实现特征聚合：

图注意力网络：对于一个拥有N个节点的图，单层GAT采用初始节点

作为输入，旨在产生节点间抽象表示

作为输出，其中，

表示记忆节点n ⁱ对应的表示向量。

节点的图注意力具体可表示为：

例如，对于上文所获得的记忆节点i，N _i是节点i的所有一阶邻节点，j是N中其他节点的枚举，W _h和a是可训练权重矩阵，a是每个h _j对h _i的归一化注意力权重，σ是非线性激活函数，(.)^T代表转置，‖表示拼接操作。

特征聚合：在t时刻，GAT的初始节点由输入话语的词向量H ^t与记忆节点集合拼接而成，拼接后得到图注意力网络的输入向量，即图网络的初始节点，可表示为

；d表示初始节点的向量维度。由于经过BERT编码后文本长度变为n+2，过去共经历t-1时刻，获得了t-1个记忆节点，所以图注意力网络的初始节点长度为n+2+t-1=n+t+1。

为了稳定自注意力学习的过程，将GAT扩展为多头注意力，

其中，K表示多头注意力的个数。在特征聚合层之后通过切片操作（本质是一种对齐方法，目标是使编码向量和话语保持同样长度）保留当前时刻对话对应长度的向量表示

。

图注意力网络只能捕获节点间的一种特征关系，但是节点间关系往往是多元的，所以，本发明记忆图网络模型中使用多头注意力机制，将图注意力网络在不同初始化参数情境下重复多次，由于初始化参数的不同，模型在不同的头中提取不同维度的特征信息。

输出分类层，使用角色标记符（ [USR]或[SYS] ）位置对应的特征向量对无实值对话行为组G _n进行分类。因为不同数据集中无实值对话行为个数不同，所以采用一种多标签分类法：

式中，y ⁿ表示不同无实值对话行为的输出分布。

在分类过程中，分类结果由y ⁿ与一个阈值参数p(0＜p＜1)进行对比来确定。若当前y ⁿ对应的概率输出分布大于阈值p；则，该话语属于当前分类。例如，当y ⁿ=｛0.7,0.9,0.1,0.2,0.8｝，p=0.5时，最终的无实值对话行为分类结果为O _n=｛0,1,4｝(索引从0开始)。若y ⁿ中所有的值都小于阈值p，则取概率分布中最大的类别作为当前分类。

在训练过程中，通过联合损失函数实现联合训练。无实值组损失计算如式（10）；有实值组损失函数计算如式（11）；最终的联合损失计算如式（12）：

其中，α ₁和α ₂是通过开发集结果微调的超参数。

本发明结构化记忆图网络模型受对话系统中对话状态跟踪(Dialogue StateTracking,DST)模块的启发，使用由口语理解任务产生的对话行为代替文本作为记忆节点进行编码。对话行为(Dialogue Act)是包含语义框架信息的格式化表示，如图1中DialogueAct部分所示，系统将非结构化的文字转化为结构化的三元组，使用对话行为进行记忆编码可以有效提升模型的运算效率。同时还探究了如何编码不同类型的对话行为才能最大程度保留语义框架原始信息。其次，使用图注意力网络代替现有技术中使用的循环神经网络和注意力机制来实现特征聚合，主要原因是循环神经网络在序列过长时性能不佳，注意力机制虽然可以有效利用上下文信息，但是由于注意力分数计算过程是无序的，上文对话间的先后顺序会在注意力分数计算过程中遗失。图注意力网络不仅保留了注意力机制，也保留了对话顺序信息，在模型学习如何利用结构化记忆节点过程中，可以最大程度发挥其优势。

为了证明本发明结构化记忆图网络的有效性，在两个公开的任务型多轮对话数据集(中文数据集CrossWoz和英文数据集Google Simulated Dialogues,GSD)上进行实验：

CrossWoz是一个大规模跨领域中文任务导向对话数据集，包含6000个对话和102000个句子，涉及景点、酒店、餐馆、地铁和出租5个领域。每个对话平均涉及3.2个领域。SGD是Google发布的模拟对话数据集，数据来源于虚拟用户与系统的模拟对话，涉及餐馆和电影2个领域，包含22种意图，12种槽位。表1展示了该两个数据集的具体统计。

表1 数据集的具体统计

参数设置

针对CrossWoz数据集，使用文献（Cui Y, Che W, Liu T, et al. Pre-trainingwith whole word masking for chinesebert[J]. arXiv preprint arXiv:1906.08101,2019.）发布的BERT-wwm版本作为预训练模型；针对GSD数据集，使用BERT-large-uncased作为预训练模型。初始学习率设为5e-5，学习率热身系数设为0.1，即在前10%的训练中，学习率从0递增至预设值，并在之后线性衰减。模型的优化算法使用Adam（Kingma D P, Ba J.Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.），在CrossWoz数据集上进行多分类时阈值参数p设为0.5。对于其他参数，选择在开发集上效果最好的模型，然后在测试集上进行评估。实验结果如表2和表3。

表2 CrossWoz数据集的实验结果

表3 GSD数据集的实验结果

对于CrossWoz数据集，表2给出了该数据集不同类型对话行为上的F1值。F1值是一种用于分类系统的评价指标，它综合了准确率与召回率两项指标，可以有效衡量任务性能，避免收到类别不平衡对指标带来的影响。由于CrossWoz数据集发布时间较短，已有的工作较少，并且基线方法已是当前最新技术，我们仅与原文提供的两种方法进行对比。其中General、Request、NoOffer三种对话行为构成无实值对话行为组，Inform、Recom、Select构成有实值对话行为组。BERTNLU是一种使用BERT模型进行SLU任务的方法，具体做法是将前三轮历史对话文本与当前轮次对话进行拼接，利用[SEP]标记符分割，在开头插入[CLS]标记后进行SLU任务。-context表示在BERTNLU方法基础上不利用前三轮对话文本，仅使用当前对话进行SLU任务。如表2所示，本发明SMGN模型在Inform类型上提升了0.77%，在Recom类型上提升了0.53%，在Select类型上提升了2.46%，可以看出SMGN模型可以有效提升有实值对话行为组的性能，在Select类型上尤为明显。Select类型代表当前对话需要根据上文对话的信息进行范围选择，仅依赖当前对话非常容易出错，这一类型可以有效地衡量上文信息的利用程度。对于无实值对话行为组，本发明SMGN模型性能提升并不明显，原因在于CrossWoz数据集中Request、General和NoOffer类型多数都仅依赖当前对话信息，上文信息此时并没有明显帮助。

表3是在GSD数据集上的实验结果。由于GSD数据集SLU任务格式是以“意图+槽位+框架”构建，将SMGN的输出转化为相同的格式以进行比较。用于对比的上文信息依赖模型描述如下：

RNN-NoContext（Gupta R, Rastogi A, Hakkani-Tur D. An efficientapproach to encoding context for spoken language understanding[J].arXivpreprint arXiv:1807.00267, 2018.）：使用具有GRU和LSTM单元的两层堆叠BiRNN，不利用上下文信息；

RNN-PreviousTurn（Gupta R, Rastogi A, Hakkani-Tur D. An efficientapproach to encoding context for spoken language understanding[J]. arXivpreprint arXiv:1807.00267, 2018.）：模型结构与RNN-NoContext类似，但是在槽填充时使用BiGRU编码上一轮的对话信息；

MemNet-20（Chen Y N, Hakkani-Tür D, Tür G, et al. End-to-end memorynetworks with knowledge carryover for multi-turn spoken languageunderstanding[C]//Interspeech. 2016: 3245-3249.）：使用记忆网络对来自用户和系统的对话历史文本进行编码，"-20"表示模型记忆单元大小为20；

SDEN-20（Bapna A, Tur G, Hakkani-Tur D, et al. Sequential dialoguecontext modeling for spoken language understanding[J]. arXiv preprint arXiv:1705.03455, 2017.）：通过BiGRU使用来自用户和系统的对话历史文本来组合得到记忆嵌入，"-20"表示模型记忆单元大小为20；

HRNN-SystemAct（Gupta R, Rastogi A, Hakkani-Tur D. An efficientapproach to encoding context for spoken language understanding[J]. arXivpreprint arXiv:1807.00267, 2018.）：是现在的最新技术(State-of-the-art,SOTA)，使用分层RNN来编码先前轮次的对话行为作为上下文信息。

从表3可以看出，本发明SMGN模型在餐厅领域中槽位F1值提升了1.44%，框架正确率提升了5.23%；在电影领域中槽位F1值提升了3.21%，框架正确率提升了9.85%；总体槽位F1值提升了1.72%，框架正确率提升了6.39%。说明，本发明结构化记忆图网络可以大幅提升槽填充任务的性能，这得益于模型在对有实值对话行为组进行记忆编码时保留了词义信息，而其他的记忆网络使用文本编码记忆节点时无法区分意图信息和槽位信息。

总体来说，本发明结构化记忆图网络的优势主要包含以下三个方面：1）在输入编码层使用BERT作为编码器，预训练模型可以更有效地编码输入文本；2）在记忆编码层中，对于有实值对话行为组进行编码时引入了词义信息，从而保留了槽位词的特殊性；3）在特征聚合层使用图注意力网络GAT代替RNN和Attention机制，携带位置信息的GAT网络可以更有效地学习如何利用上文信息。

下面通过消融实验进一步验证本发明结构化记忆图网络中各部分的有效性。在GSD数据集上进行消融实验，实验结果如表4。

表4 消融实验结果

实验共分为三部分，第一部分是在记忆编码层中取消编码词义信息，该方式会明显降低槽位F1值和框架正确率；第二部分是在特征聚合层使用Attention机制或RNN代替GAT网络，当使用RNN时模型三个子任务的性能都会明显降低，使用Attention机制时意图识别任务影响不明显，但是在槽填充任务上性能有所下降；第三部分是使用编码文本的方式代替编码对话行为作为记忆节点，该方式会大幅降低性能，性能与之前的记忆网络没有明显区别。通过对比我们可以得出编码对话行为代替文本是模型性能提升的主要原因，在记忆编码层中，对有实值对话行为组引入词义信息的编码方式可以提升槽填充任务性能，使用GAT作为聚合层也会提升性能但是相比Attention机制并不明显。

相比现有技术中的上文信息依赖模型，本发明结构化记忆图网络不仅可以提高任务性能，而且能够提高计算效率。由于本发明结构化记忆图网络使用对话行为代替文本进行编码，每一句对话经过编码只会得到一个记忆节点。另外由于编码节点过程对于新输入对话具有独立性，不需要反复进行运算，只需在构建图网络时添加新的顺序信息即可。

本发明结构化记忆图网络与现有技术中几种上文信息依赖模型在GSD数据集上的运算效率对比图，如图3。图3中，横坐标代表模型每一轮训练所需时间，纵坐标代表在GSD总体领域上语义框架的正确率。在四种模型上分别进行25轮训练，对比每轮训练过程中的模型性能与所需时间。由图3可以看出，SDEN-20模型与MemNet-20模型每一轮训练所需时间最长，这是因为这两个模型都是利用上文文本编码信息的模型，这种模型的运算负荷不仅与对话轮数成正比，也会受到上文对话文本长度的影响；HRNN-SystemAct模型相比前两种上文信息依赖模型训练时间有所降低，因为该模型与本发明结构化记忆图网络一样尝试利用对话行为代替文本来编码记忆单元。但是HRNN-SystemAct模型在处理每一轮对话时都需要对上文全部对话行为重新计算以得到记忆节点，记忆信息的可复用性差，而本发明结构化记忆图网络模型只需要将新一轮对话通过编码后得到的记忆节点与上文记忆节点通过图网络进行连接，将整个对话过程以有向图的形式进行特征提取，相比传统序列型的多轮对话模型避免了重复运算，对于每轮对话只需要进行一次记忆编码过程，进一步减少了运算时间。

为了证明本发明结构化记忆图网络模型可以有效避免在意图跳转的复杂场景受到噪音影响，使用CrossWoz数据集中的样例作进一步说明。如表5所示。

表5 意图跳转场景样例分析

在样例中，对话u5中“那附近”一词存在语义缺失的现象，若不结合上文信息无法准确判断意图。BERTNLU方法虽然利用了上文文本信息，但是由于上文对话主要谈论领域是“餐馆”，模型没有正确理解用户意图是询问景点附近的酒店而非餐馆附近的酒店。由于对话过程中用户意图产生了多次跳转，这种复杂场景下BERTNLU方法在利用上文信息时忽略了对话的顺序性，上文信息对当前对话产生了噪音，而本发明结构化记忆图网络（SMGN）由于在图注意力网络中保留了记忆节点的顺序性，在意图发生多次跳转时模型会尝试寻找最相关的上文节点，而非出现次数最多或距离最近的节点，从而正确理解用户意图。

实验结果表明，本发明结构化记忆图网络与现有技术中的上文信息依赖模型相比不仅可以提高运算效率，还提升了模型性能。