CN112182191B - 多轮口语理解的结构化记忆图网络模型 - Google Patents

多轮口语理解的结构化记忆图网络模型 Download PDF

Info

Publication number
CN112182191B
CN112182191B CN202011108567.2A CN202011108567A CN112182191B CN 112182191 B CN112182191 B CN 112182191B CN 202011108567 A CN202011108567 A CN 202011108567A CN 112182191 B CN112182191 B CN 112182191B
Authority
CN
China
Prior art keywords
memory
vector
dialogue
node
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011108567.2A
Other languages
English (en)
Other versions
CN112182191A (zh
Inventor
张志昌
于沛霖
庞雅丽
曾扬扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN202011108567.2A priority Critical patent/CN112182191B/zh
Publication of CN112182191A publication Critical patent/CN112182191A/zh
Application granted granted Critical
Publication of CN112182191B publication Critical patent/CN112182191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多轮口语理解的结构化记忆图网络模型,由输入编码层、记忆编码层、特征聚合层和输出分类层组成,使用由口语理解任务产生的对话行为代替文本作为记忆节点进行编码,对话行为是包含语义框架信息的格式化表示,将非结构化的文字转化为结构化的三元组。使用图注意力网络代替循环神经网络和注意力机制实现特征聚合,保留了注意力机制和对话节点间的顺序信息,有助于模型学习如何有效利用结构化记忆节点。该网络模型用编码对话行为代替历史对话文本作为记忆单元,最大程度保留语义框架原始信息,解决了现有技术中上文信息依赖模型在复杂场合会产生噪音以及运算效率低下的问题。

Description

多轮口语理解的结构化记忆图网络模型
技术领域
本发明属于人机对话技术领域,涉及一种多轮口语理解的结构化记忆图网络模型。
背景技术
随着各种智能设备的快速发展,人机对话近年来引起了学术界和产业界的广泛关注。任务型对话系统相关技术已经在许多产品中得到运用,例如微软公司的“小娜”(Cortana),苹果公司的智能语音助手Siri等。在任务型对话系统中,一个重要的模块是口语理解(Spoken Language Understanding,SLU),该模块会将用户以自然语言形式输入的话语识别为特定结构的语义表示,包括领域、意图、槽位等,之后再由下游的其他模块进行处理。
以往对口语理解任务的研究大多关注单轮对话场景。在单轮SLU任务中,系统仅接收并处理当前时刻用户输入的话语,忽略上下文的对话环境。然而在实际应用中,任务型对话系统大多都需要进行多轮连续的对话才能完成目标。与单轮SLU相比,多轮SLU任务更加复杂,如果仅依靠当前用户输入的话语容易引起歧义,需要上文对话中的信息作为补充。
图1展示了一个多轮SLU任务示例,示例中“明天”一词既可以代表预定酒店时用户提供的入住日期,也可以代表预定机票时用户提供的出发日期。在此轮对话中,系统仅依靠句子u2或u3无法进行判断,需要借助上文语境进行区分。已有研究也证明使用上文对话信息有助于解决歧义问题,例如,Hori C, Hori T, Watanabe S, et al. Contextsensitive spoken language uhderstanding using role dependent LSTM layers[C]//Proceedings of the NIPS 2015 Workshop on Machine Learning for Spoken LanguageUnderstanding and Interaction,Montreal,QC,Canada.2015,11. 中提出了一种对话角色相关的长短期记忆网络(Long Short Term Memory,LSTM),通过Seq2Seq模型对上文进行建模以完成多轮SLU任务。Chen Y N, Hakkani-Tür D, Tür G,et al. End-to-end memorynetworks with knowledge carryover for multi-turn spoken languageunderstanding[C]//Interspeech.2016:3245-3249.提出一种基于上下文知识的记忆网络,通过编码历史对话文本获得记忆嵌入,再利用注意力机制帮助完成SLU任务。Bapna A,Tür G, Hakkani-Tür D, et al. Sequential dialogue context modeling for spokenlanguage understanding[J]arXivpreprintarXiv:1705.03455,2017.提出了序列对话编码网络,通过添加一个结合当前话语编码与历史存储向量的双向循环神经网络(Bidirectional Recurrent Neural Network,BiRNN)对话编码器来增强记忆网络。
尽管现有技术中公开的上文信息依赖模型有效地提高了多轮SLU任务的性能,但是这类直接使用上文对话文本编码信息的模型带来了新的问题。首先,在进行当前轮SLU任务时,模型需要处理过去每一时刻的对话文本来生成上文信息,带来了大量的时间和空间成本;其次,多轮任务型对话系统中经常出现用户意图跳转的场景。在这种复杂场景下上文文本信息往往会带来噪音。如图1例子所示,用户第一轮对话的意图是预定酒店,下一轮对话时用户意图跳转至预订机票,在这种场景中上文对话信息会误导模型判断,对当前SLU任务产生负面影响。
发明内容
本发明的目的是提供一种多轮口语理解的结构化记忆图网络模型,解决上文信息依赖模型运算效率过低以及在复杂场景产生噪音的问题,降低模型运算的时间与空间成本。
为实现上述目的,本发明所采用的技术方案是:一种多轮口语理解的结构化记忆图网络模型,由输入编码层、记忆编码层、特征聚合层和输出分类层组成,
所述的输入编码层采用BERT作为编码器;在对话的起始位置添加标记符[USR]或[SYS],将话语u t 按BERT要求拼接,输入BERT模型得到编码后的向量
Figure 375918DEST_PATH_IMAGE001
;其中,h表示话语u t 经过BERT编码后获得的上下文向量,
Figure 148702DEST_PATH_IMAGE002
表示u t 中第n个字,
Figure 95929DEST_PATH_IMAGE003
表示第n个字对应的上下文向量,d代表在使用BERT进行编码时上下文向量的维度;
话语u t 经过编码后的长度为n+2;
所述的记忆编码层,将不同数据集口语理解任务结果转化为多个行为类型-槽-值三元组构成的对话行为集合A;对话行为集合A分为有实值的对话行为组G v 和值为null的对话行为组G n
对于k时刻的对话行为集合
Figure 473821DEST_PATH_IMAGE004
Figure 605725DEST_PATH_IMAGE005
其对应记忆节点的具体运算过程如下:
Figure 69067DEST_PATH_IMAGE006
式中,e i 表示对话行为a i 值对应的词嵌入向量;
Figure 55871DEST_PATH_IMAGE007
表示对话行为的嵌入矩阵;h i 表示有实值对话行为所对应的记忆向量;
Figure 350586DEST_PATH_IMAGE008
是向量hi通过线性层产生的隐向量,用于对向量长度进行对齐;
Figure 263179DEST_PATH_IMAGE009
表示k时刻对话行为的联合记忆向量;W 1 、b 1 、W 2b 2均为可训练参数;n k 是k时刻对话行为构成的记忆节点;α 1 k 表示k时刻中的一条对话行为三元组,i表示任意有实值对话行为;通过记忆编码层,每一个历史时刻k的话语都得到了唯一的记忆节点n k
特征聚合层,通过SMGN模型将过去每个时刻的记忆节点与当前时刻的话语向量进行特征聚合;
输出分类层,使用角色标记符位置对应的特征向量对无实值对话行为组G n 进行分类;因为不同数据集中无实值对话行为个数不同,所以采用一种多标签分类法:
Figure 10555DEST_PATH_IMAGE010
式中,y n 表示不同无实值对话行为的输出分布。
在分类过程中,分类结果由y n 与一个阈值参数p进行对比来确定;若当前y n 对应的概率输出分布大于阈值p;则,该话语属于当前分类;若y n 中所有的值都小于阈值p,则取概率分布中最大的类别作为当前分类;
对特征向量Y t 进行切片操作,保留索引从1到n的部分,通过切片操作删去了输入编码层所添加的特殊标记符以及图注意力网络中添加的对话行为节点,保留下来的部分与原始输入u t 为一一对应关系,可直接利用切片后特征向量对有实值对话行为组G v 进行序列标注:
Figure 627481DEST_PATH_IMAGE011
在训练过程中,通过联合损失函数实现联合训练;无实值组损失计算如式(10);有实值组损失函数计算如式(11);最终的联合损失计算如式(12):
Figure 386490DEST_PATH_IMAGE012
其中,α 1α 2是通过开发集结果微调的超参数。
本发明结构化记忆图网络(Structured Memory Graph Network,SMGN)模型使用由口语理解任务产生的对话行为代替文本作为记忆节点进行编码,对话行为(DialogueAct)是包含语义框架信息的格式化表示,将非结构化的文字转化为结构化的三元组,使用对话行为进行记忆编码可以有效提升模型的运算效率。使用图注意力网络(GraphAttention Networks,GAT)代替现有技术中使用的循环神经网络和注意力机制来实现特征聚合,不仅保留了注意力机制,也保留了对话节点间的顺序信息,在模型学习如何利用结构化记忆节点过程中,可以最大程度发挥其优势,有助于模型学习如何有效利用结构化记忆节点。本发明结构化记忆图网络模型用编码对话行为代替历史对话文本作为记忆单元,最大程度保留语义框架原始信息,解决了现有技术中上文信息依赖模型在复杂场合会产生噪音以及运算效率低下的问题。
附图说明
图1是现有技术中多轮口语理解任务实例示意图。
图2是本发明结构化记忆图网络模型的示意图。
图3是本发明结构化记忆图网络模型与现有技术中模型的计算效率对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明记忆图网络由输入编码层、记忆编码层、特征聚合层以及输出分类层四部分组成,如图2所示。其中,
输入编码层,采用BERT作为输入编码层的编码器。BERT是一种多层双向Transformer编码器,可以更好地编码上下文信息。因为在复杂对话中角色信息对多轮SLU任务有帮助,所以,并不按照BERT方法在起始位置添加分类标记[CLS],而是添加一对特殊的标记符[USR]或[SYS]([USR]代表当前话语来自用户输入,[SYS]代表当前话语是由系统自动生成),旨在让模型学习区分当前话语是来自于用户输入还是系统生成。另外在句尾添加分割标记符[SEP],帮助模型区分话语边界。将话语u t 按BERT要求拼接为
Figure 125775DEST_PATH_IMAGE013
。其中h表示话语u t 经过BERT编码后获得的上下文向量,
Figure 970235DEST_PATH_IMAGE002
表示u t 中第n个字,
Figure 125273DEST_PATH_IMAGE003
表示第n个字对应的上下文向量,d代表在使用BERT进行编码时上下文向量的维度。由于在编码过程中,向句子首尾各添加了一个特殊标记符(角色标记符[USR]/[SYS]以及分隔符[SEP]),所以话语u t 经过编码后长度将增加为n+2。
记忆编码层,其作用是根据上文对话行为编码生成记忆节点。记忆节点可以代替上文对话的文本向量与当前对话进行特征交互,但是与文本向量相比记忆节点所占用的存储空间更小,同时剔除了历史文本中的冗余信息。虽然不同数据集口语理解任务结果表示形式不同,但都可以转化为多个行为类型-槽-值三元组构成的对话行为集合A。针对意图识别或领域识别这类任务,将识别结果转化为一个值为null的三元组。例如图1中,“预定-酒店-null”是话语u1意图转化得到的对话行为。为了最大程度的保留原始信息,对话行为集合A可分为代表有实值的对话行为组G v 和代表值为null的对话行为组G n 。在编码有实值组时添加了词嵌入信息。对于k时刻的对话行为集合
Figure 394580DEST_PATH_IMAGE004
,
Figure 147510DEST_PATH_IMAGE005
,其对应记忆节点的具体运算过程如下:
Figure 807161DEST_PATH_IMAGE006
式中,e i 表示对话行为a i 值对应的词嵌入向量;
Figure 828207DEST_PATH_IMAGE007
表示对话行为的嵌入矩阵;hi表示有实值对话行为所对应的记忆向量;
Figure 889704DEST_PATH_IMAGE008
是向量hi通过线性层产生的隐向量,用于对向量长度进行对齐;
Figure 846159DEST_PATH_IMAGE009
表示k时刻对话行为的联合记忆向量;W 1 、b 1 、W 2b 2均为可训练参数;n k 是k时刻对话行为构成的记忆节点。α 1 k 表示k时刻中的一条对话行为三元组,i表示任意有实值对话行为(即类型-槽-值三元组中的值不为null)。通过记忆编码层,每一个历史时刻k的话语都得到了唯一的记忆节点n k
特征聚合层,通过SMGN模型(使用图注意力网络(Graph Attention Network,GAT)将过去每个时刻的记忆节点与当前时刻的话语向量进行特征聚合。由于记忆节点与话语向量不具备顺序相连关系,所以引入图网络机制,对记忆节点和话语向量构建图关系来实现特征聚合:
图注意力网络:对于一个拥有N个节点的图,单层GAT采用初始节点
Figure 789844DEST_PATH_IMAGE014
作为输入,旨在产生节点间抽象表示
Figure 286684DEST_PATH_IMAGE014
作为输出,其中,
Figure 874792DEST_PATH_IMAGE015
表示记忆节点n i 对应的表示向量。
节点的图注意力具体可表示为:
Figure 126781DEST_PATH_IMAGE016
例如,对于上文所获得的记忆节点iN i 是节点i的所有一阶邻节点,jN中其他节点的枚举,W h a是可训练权重矩阵,a是每个h j h i 的归一化注意力权重,σ是非线性激活函数,(.)T代表转置,‖表示拼接操作。
特征聚合:在t时刻,GAT的初始节点由输入话语的词向量H t 与记忆节点集合拼接而成,拼接后得到图注意力网络的输入向量,即图网络的初始节点,可表示为
Figure 433129DEST_PATH_IMAGE017
d表示初始节点的向量维度。由于经过BERT编码后文本长度变为n+2,过去共经历t-1时刻,获得了t-1个记忆节点,所以图注意力网络的初始节点长度为n+2+t-1=n+t+1。
为了稳定自注意力学习的过程,将GAT扩展为多头注意力,
Figure 733660DEST_PATH_IMAGE018
其中,K表示多头注意力的个数。在特征聚合层之后通过切片操作(本质是一种对齐方法,目标是使编码向量和话语保持同样长度)保留当前时刻对话对应长度的向量表示
Figure 566487DEST_PATH_IMAGE019
图注意力网络只能捕获节点间的一种特征关系,但是节点间关系往往是多元的,所以,本发明记忆图网络模型中使用多头注意力机制,将图注意力网络在不同初始化参数情境下重复多次,由于初始化参数的不同,模型在不同的头中提取不同维度的特征信息。
输出分类层,使用角色标记符( [USR]或[SYS] )位置对应的特征向量对无实值对话行为组G n 进行分类。因为不同数据集中无实值对话行为个数不同,所以采用一种多标签分类法:
Figure 94771DEST_PATH_IMAGE010
式中,y n 表示不同无实值对话行为的输出分布。
在分类过程中,分类结果由y n 与一个阈值参数p(0<p<1)进行对比来确定。若当前y n 对应的概率输出分布大于阈值p;则,该话语属于当前分类。例如,当y n ={0.7,0.9,0.1,0.2,0.8},p=0.5时,最终的无实值对话行为分类结果为O n ={0,1,4}(索引从0开始)。若y n 中所有的值都小于阈值p,则取概率分布中最大的类别作为当前分类。
对特征向量Y t 进行切片操作,保留索引从1到n的部分,通过切片操作删去了输入编码层所添加的特殊标记符以及图注意力网络中添加的对话行为节点,保留下来的部分与原始输入u t 为一一对应关系,可直接利用切片后特征向量对有实值对话行为组G v 进行序列标注:
Figure 13048DEST_PATH_IMAGE011
在训练过程中,通过联合损失函数实现联合训练。无实值组损失计算如式(10);有实值组损失函数计算如式(11);最终的联合损失计算如式(12):
Figure 851691DEST_PATH_IMAGE012
其中,α 1α 2是通过开发集结果微调的超参数。
本发明结构化记忆图网络模型受对话系统中对话状态跟踪(Dialogue StateTracking,DST)模块的启发,使用由口语理解任务产生的对话行为代替文本作为记忆节点进行编码。对话行为(Dialogue Act)是包含语义框架信息的格式化表示,如图1中DialogueAct部分所示,系统将非结构化的文字转化为结构化的三元组,使用对话行为进行记忆编码可以有效提升模型的运算效率。同时还探究了如何编码不同类型的对话行为才能最大程度保留语义框架原始信息。其次,使用图注意力网络代替现有技术中使用的循环神经网络和注意力机制来实现特征聚合,主要原因是循环神经网络在序列过长时性能不佳,注意力机制虽然可以有效利用上下文信息,但是由于注意力分数计算过程是无序的,上文对话间的先后顺序会在注意力分数计算过程中遗失。图注意力网络不仅保留了注意力机制,也保留了对话顺序信息,在模型学习如何利用结构化记忆节点过程中,可以最大程度发挥其优势。
为了证明本发明结构化记忆图网络的有效性,在两个公开的任务型多轮对话数据集(中文数据集CrossWoz和英文数据集Google Simulated Dialogues,GSD)上进行实验:
CrossWoz是一个大规模跨领域中文任务导向对话数据集,包含6000个对话和102000个句子,涉及景点、酒店、餐馆、地铁和出租5个领域。每个对话平均涉及3.2个领域。SGD是Google发布的模拟对话数据集,数据来源于虚拟用户与系统的模拟对话,涉及餐馆和电影2个领域,包含22种意图,12种槽位。表1展示了该两个数据集的具体统计。
表1 数据集的具体统计
Figure 414391DEST_PATH_IMAGE020
参数设置
针对CrossWoz数据集,使用文献(Cui Y, Che W, Liu T, et al. Pre-trainingwith whole word masking for chinesebert[J]. arXiv preprint arXiv:1906.08101,2019.)发布的BERT-wwm版本作为预训练模型;针对GSD数据集,使用BERT-large-uncased作为预训练模型。初始学习率设为5e-5,学习率热身系数设为0.1,即在前10%的训练中,学习率从0递增至预设值,并在之后线性衰减。模型的优化算法使用Adam(Kingma D P, Ba J.Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.),在CrossWoz数据集上进行多分类时阈值参数p设为0.5。对于其他参数,选择在开发集上效果最好的模型,然后在测试集上进行评估。实验结果如表2和表3。
表2 CrossWoz数据集的实验结果
Figure 8183DEST_PATH_IMAGE021
表3 GSD数据集的实验结果
Figure 351440DEST_PATH_IMAGE022
对于CrossWoz数据集,表2给出了该数据集不同类型对话行为上的F1值。F1值是一种用于分类系统的评价指标,它综合了准确率与召回率两项指标,可以有效衡量任务性能,避免收到类别不平衡对指标带来的影响。由于CrossWoz数据集发布时间较短,已有的工作较少,并且基线方法已是当前最新技术,我们仅与原文提供的两种方法进行对比。其中General、Request、NoOffer三种对话行为构成无实值对话行为组,Inform、Recom、Select构成有实值对话行为组。BERTNLU是一种使用BERT模型进行SLU任务的方法,具体做法是将前三轮历史对话文本与当前轮次对话进行拼接,利用[SEP]标记符分割,在开头插入[CLS]标记后进行SLU任务。-context表示在BERTNLU方法基础上不利用前三轮对话文本,仅使用当前对话进行SLU任务。如表2所示,本发明SMGN模型在Inform类型上提升了0.77%,在Recom类型上提升了0.53%,在Select类型上提升了2.46%,可以看出SMGN模型可以有效提升有实值对话行为组的性能,在Select类型上尤为明显。Select类型代表当前对话需要根据上文对话的信息进行范围选择,仅依赖当前对话非常容易出错,这一类型可以有效地衡量上文信息的利用程度。对于无实值对话行为组,本发明SMGN模型性能提升并不明显,原因在于CrossWoz数据集中Request、General和NoOffer类型多数都仅依赖当前对话信息,上文信息此时并没有明显帮助。
表3是在GSD数据集上的实验结果。由于GSD数据集SLU任务格式是以“意图+槽位+框架”构建,将SMGN的输出转化为相同的格式以进行比较。用于对比的上文信息依赖模型描述如下:
RNN-NoContext(Gupta R, Rastogi A, Hakkani-Tur D. An efficientapproach to encoding context for spoken language understanding[J].arXivpreprint arXiv:1807.00267, 2018.):使用具有GRU和LSTM单元的两层堆叠BiRNN,不利用上下文信息;
RNN-PreviousTurn(Gupta R, Rastogi A, Hakkani-Tur D. An efficientapproach to encoding context for spoken language understanding[J]. arXivpreprint arXiv:1807.00267, 2018.):模型结构与RNN-NoContext类似,但是在槽填充时使用BiGRU编码上一轮的对话信息;
MemNet-20(Chen Y N, Hakkani-Tür D, Tür G, et al. End-to-end memorynetworks with knowledge carryover for multi-turn spoken languageunderstanding[C]//Interspeech. 2016: 3245-3249.):使用记忆网络对来自用户和系统的对话历史文本进行编码,"-20"表示模型记忆单元大小为20;
SDEN-20(Bapna A, Tur G, Hakkani-Tur D, et al. Sequential dialoguecontext modeling for spoken language understanding[J]. arXiv preprint arXiv:1705.03455, 2017.):通过BiGRU使用来自用户和系统的对话历史文本来组合得到记忆嵌入,"-20"表示模型记忆单元大小为20;
HRNN-SystemAct(Gupta R, Rastogi A, Hakkani-Tur D. An efficientapproach to encoding context for spoken language understanding[J]. arXivpreprint arXiv:1807.00267, 2018.):是现在的最新技术(State-of-the-art,SOTA),使用分层RNN来编码先前轮次的对话行为作为上下文信息。
从表3可以看出,本发明SMGN模型在餐厅领域中槽位F1值提升了1.44%,框架正确率提升了5.23%;在电影领域中槽位F1值提升了3.21%,框架正确率提升了9.85%;总体槽位F1值提升了1.72%,框架正确率提升了6.39%。说明,本发明结构化记忆图网络可以大幅提升槽填充任务的性能,这得益于模型在对有实值对话行为组进行记忆编码时保留了词义信息,而其他的记忆网络使用文本编码记忆节点时无法区分意图信息和槽位信息。
总体来说,本发明结构化记忆图网络的优势主要包含以下三个方面:1)在输入编码层使用BERT作为编码器,预训练模型可以更有效地编码输入文本;2)在记忆编码层中,对于有实值对话行为组进行编码时引入了词义信息,从而保留了槽位词的特殊性;3)在特征聚合层使用图注意力网络GAT代替RNN和Attention机制,携带位置信息的GAT网络可以更有效地学习如何利用上文信息。
下面通过消融实验进一步验证本发明结构化记忆图网络中各部分的有效性。在GSD数据集上进行消融实验,实验结果如表4。
表4 消融实验结果
Figure 197036DEST_PATH_IMAGE023
实验共分为三部分,第一部分是在记忆编码层中取消编码词义信息,该方式会明显降低槽位F1值和框架正确率;第二部分是在特征聚合层使用Attention机制或RNN代替GAT网络,当使用RNN时模型三个子任务的性能都会明显降低,使用Attention机制时意图识别任务影响不明显,但是在槽填充任务上性能有所下降;第三部分是使用编码文本的方式代替编码对话行为作为记忆节点,该方式会大幅降低性能,性能与之前的记忆网络没有明显区别。通过对比我们可以得出编码对话行为代替文本是模型性能提升的主要原因,在记忆编码层中,对有实值对话行为组引入词义信息的编码方式可以提升槽填充任务性能,使用GAT作为聚合层也会提升性能但是相比Attention机制并不明显。
相比现有技术中的上文信息依赖模型,本发明结构化记忆图网络不仅可以提高任务性能,而且能够提高计算效率。由于本发明结构化记忆图网络使用对话行为代替文本进行编码,每一句对话经过编码只会得到一个记忆节点。另外由于编码节点过程对于新输入对话具有独立性,不需要反复进行运算,只需在构建图网络时添加新的顺序信息即可。
本发明结构化记忆图网络与现有技术中几种上文信息依赖模型在GSD数据集上的运算效率对比图,如图3。图3中,横坐标代表模型每一轮训练所需时间,纵坐标代表在GSD总体领域上语义框架的正确率。在四种模型上分别进行25轮训练,对比每轮训练过程中的模型性能与所需时间。由图3可以看出,SDEN-20模型与MemNet-20模型每一轮训练所需时间最长,这是因为这两个模型都是利用上文文本编码信息的模型,这种模型的运算负荷不仅与对话轮数成正比,也会受到上文对话文本长度的影响;HRNN-SystemAct模型相比前两种上文信息依赖模型训练时间有所降低,因为该模型与本发明结构化记忆图网络一样尝试利用对话行为代替文本来编码记忆单元。但是HRNN-SystemAct模型在处理每一轮对话时都需要对上文全部对话行为重新计算以得到记忆节点,记忆信息的可复用性差,而本发明结构化记忆图网络模型只需要将新一轮对话通过编码后得到的记忆节点与上文记忆节点通过图网络进行连接,将整个对话过程以有向图的形式进行特征提取,相比传统序列型的多轮对话模型避免了重复运算,对于每轮对话只需要进行一次记忆编码过程,进一步减少了运算时间。
为了证明本发明结构化记忆图网络模型可以有效避免在意图跳转的复杂场景受到噪音影响,使用CrossWoz数据集中的样例作进一步说明。如表5所示。
表5 意图跳转场景样例分析
Figure 738876DEST_PATH_IMAGE024
在样例中,对话u5中“那附近”一词存在语义缺失的现象,若不结合上文信息无法准确判断意图。BERTNLU方法虽然利用了上文文本信息,但是由于上文对话主要谈论领域是“餐馆”,模型没有正确理解用户意图是询问景点附近的酒店而非餐馆附近的酒店。由于对话过程中用户意图产生了多次跳转,这种复杂场景下BERTNLU方法在利用上文信息时忽略了对话的顺序性,上文信息对当前对话产生了噪音,而本发明结构化记忆图网络(SMGN)由于在图注意力网络中保留了记忆节点的顺序性,在意图发生多次跳转时模型会尝试寻找最相关的上文节点,而非出现次数最多或距离最近的节点,从而正确理解用户意图。
实验结果表明,本发明结构化记忆图网络与现有技术中的上文信息依赖模型相比不仅可以提高运算效率,还提升了模型性能。

Claims (2)

1.一种多轮口语理解的结构化记忆图网络模型,其特征在于,该结构化记忆图网络模型由输入编码层、记忆编码层、特征聚合层和输出分类层组成,
所述的输入编码层采用BERT作为编码器;在对话的起始位置添加标记符[USR]或[SYS],将话语u t 按BERT要求拼接,输入BERT模型得到编码后的向量
Figure 805883DEST_PATH_IMAGE001
;其中,h表示话语u t 经过BERT编码后获得的上下文向量,
Figure 835019DEST_PATH_IMAGE002
表示第n个字对应的上下文向量,d代表在使用BERT进行编码时上下文向量的维度;
话语u t 经过编码后的长度为n+2;
所述的记忆编码层,将不同数据集口语理解任务结果转化为多个行为类型-槽-值三元组构成的对话行为集合A;对话行为集合A分为有实值的对话行为组G v 和值为null的对话行为组G n
对于k时刻的对话行为集合
Figure 627570DEST_PATH_IMAGE003
Figure 109367DEST_PATH_IMAGE004
,其对应记忆节点的具体运算过程如下:
Figure 523031DEST_PATH_IMAGE005
式中,e i 表示对话行为a i 值对应的词嵌入向量;
Figure 406673DEST_PATH_IMAGE006
表示对话行为的嵌入矩阵;h i 表示有实值对话行为所对应的记忆向量;
Figure 880380DEST_PATH_IMAGE007
是向量h i 通过线性层产生的隐向量,用于对向量长度进行对齐;
Figure 583894DEST_PATH_IMAGE008
表示k时刻对话行为的联合记忆向量;W 1 、b 1 、W 2b 2均为可训练参数;n k 是k时刻对话行为构成的记忆节点;α 1 k 表示k时刻中的一条对话行为三元组,i表示任意有实值对话行为;通过记忆编码层,每一个历史时刻k的话语都得到了唯一的记忆节点n k
特征聚合层,通过SMGN模型将过去每个时刻的记忆节点与当前时刻的话语向量进行特征聚合;
输出分类层,使用角色标记符位置对应的特征向量对无实值对话行为组G n 进行分类;因为不同数据集中无实值对话行为个数不同,所以采用一种多标签分类法:
Figure 801248DEST_PATH_IMAGE009
式中,y n 表示不同无实值对话行为的输出分布;
在分类过程中,分类结果由y n 与一个阈值参数p进行对比来确定;若当前y n 对应的概率输出分布大于阈值p;则,该话语属于当前分类;若y n 中所有的值都小于阈值p,则取概率分布中最大的类别作为当前分类;
对特征向量Y t 进行切片操作,保留索引从1到n的部分,通过切片操作删去了输入编码层所添加的特殊标记符以及图注意力网络中添加的对话行为节点,保留下来的部分与原始输入u t 为一一对应关系,可直接利用切片后特征向量对有实值对话行为组G v 进行序列标注:
Figure 804976DEST_PATH_IMAGE010
在训练过程中,通过联合损失函数实现联合训练;无实值组损失计算如式(10);有实值组损失函数计算如式(11);最终的联合损失计算如式(12):
Figure 184005DEST_PATH_IMAGE011
其中,α 1α 2是通过开发集结果微调的超参数;
所述的SMGN模型是使用图注意力网络将过去每个时刻的记忆节点与当前时刻的话语向量进行特征聚合;
图注意力网络:对于一个拥有N个节点的图,单层GAT采用初始节点
Figure 141859DEST_PATH_IMAGE012
作为输入,旨在产生节点间抽象表示
Figure 428484DEST_PATH_IMAGE012
作为输出,其中,
Figure 21139DEST_PATH_IMAGE013
表示记忆节点n i 对应的表示向量;
节点的图注意力具体可表示为:
Figure 836649DEST_PATH_IMAGE014
对于记忆节点iN i 是节点i的所有一阶邻节点,jN中其他节点的枚举,W h a是可训练权重矩阵,a是每个h j h i 的归一化注意力权重,σ是非线性激活函数,(.)T代表转置,‖表示拼接操作;
t时刻,GAT的初始节点由输入话语的词向量H t 与记忆节点集合拼接而成,拼接后得到图注意力网络的输入向量,即图网络的初始节点,可表示为
Figure 780334DEST_PATH_IMAGE015
d表示初始节点的向量维度;由于经过BERT编码后文本长度变为n+2,过去共经历t-1时刻,获得了t-1个记忆节点,所以图注意力网络的初始节点长度为n+2+t-1=n+t+1;
为了稳定自注意力学习的过程,将GAT扩展为多头注意力,
Figure 339491DEST_PATH_IMAGE016
其中,K表示多头注意力的个数;
特征聚合层后通过切片操作保留当前时刻对话对应长度的特征向量表示
Figure 786653DEST_PATH_IMAGE017
2.如权利要求1所述的多轮口语理解的结构化记忆图网络模型,其特征在于,所述的阈值参数p的取值范围为0<p<1。
CN202011108567.2A 2020-10-16 2020-10-16 多轮口语理解的结构化记忆图网络模型 Active CN112182191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011108567.2A CN112182191B (zh) 2020-10-16 2020-10-16 多轮口语理解的结构化记忆图网络模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011108567.2A CN112182191B (zh) 2020-10-16 2020-10-16 多轮口语理解的结构化记忆图网络模型

Publications (2)

Publication Number Publication Date
CN112182191A CN112182191A (zh) 2021-01-05
CN112182191B true CN112182191B (zh) 2022-08-30

Family

ID=73950520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011108567.2A Active CN112182191B (zh) 2020-10-16 2020-10-16 多轮口语理解的结构化记忆图网络模型

Country Status (1)

Country Link
CN (1) CN112182191B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240127796A1 (en) * 2021-02-18 2024-04-18 Nippon Telegraph And Telephone Corporation Learning apparatus, estimation apparatus, methods and programs for the same
CN113377933B (zh) * 2021-04-27 2023-05-30 中国联合网络通信集团有限公司 多轮对话的意图分类方法及装置
CN113297385B (zh) * 2021-07-28 2021-09-28 西南石油大学 基于改进GraphRNN的多标签文本分类系统及分类方法
US20230056680A1 (en) * 2021-08-18 2023-02-23 International Business Machines Corporation Integrating dialog history into end-to-end spoken language understanding systems
CN113642674A (zh) * 2021-09-03 2021-11-12 贵州电网有限责任公司 一种基于图卷积神经网络的多轮对话分类方法
CN116245139B (zh) * 2023-04-23 2023-07-07 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN116824277B (zh) * 2023-08-29 2023-11-14 城云科技(中国)有限公司 用于道路病害检测的视觉目标检测模型、构建方法及应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN109637527A (zh) * 2018-12-13 2019-04-16 苏州思必驰信息科技有限公司 对话语句的语义解析方法及系统
CN110413752A (zh) * 2019-07-22 2019-11-05 中国科学院自动化研究所 基于对话逻辑的多轮口语理解方法、系统、装置
GB201916307D0 (en) * 2019-11-08 2019-12-25 Polyal Ltd A dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
CN110704588A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 基于长短期记忆网络的多轮对话语义分析方法和系统
CN111522925A (zh) * 2020-04-09 2020-08-11 苏州思必驰信息科技有限公司 对话状态生成方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210613A1 (en) * 2016-06-03 2017-12-07 Maluuba Inc. Natural language generation in a spoken dialogue system
US11544535B2 (en) * 2019-03-08 2023-01-03 Adobe Inc. Graph convolutional networks with motif-based attention

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN109637527A (zh) * 2018-12-13 2019-04-16 苏州思必驰信息科技有限公司 对话语句的语义解析方法及系统
CN110413752A (zh) * 2019-07-22 2019-11-05 中国科学院自动化研究所 基于对话逻辑的多轮口语理解方法、系统、装置
CN110704588A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 基于长短期记忆网络的多轮对话语义分析方法和系统
GB201916307D0 (en) * 2019-11-08 2019-12-25 Polyal Ltd A dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
CN111522925A (zh) * 2020-04-09 2020-08-11 苏州思必驰信息科技有限公司 对话状态生成方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Integration Model Based on Graph Convolutional Network for Text Classification;Hengliang Tang等;《IEEE Access》;20200811;第148865-148876页 *
Attention-Based CNN-BLSTM Networks for Joint Intent Detection and Slot Filling;Yufan Wang等;《NLP-NABD 2018: Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data》;20181007;第250–261页 *
Memory-Augmented Dialogue Management for Task-Oriented Dialogue Systems;ZHENG ZHANG等;《ACM Trans. Inf. Syst.》;20190731;第1-30页 *
基于注意力机制与高层语义的视觉问答研究;于东飞;《中国博士学位论文全文数据库 信息科技辑》;20190815;I138-44 *

Also Published As

Publication number Publication date
CN112182191A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112182191B (zh) 多轮口语理解的结构化记忆图网络模型
CN111324744B (zh) 一种基于目标情感分析数据集的数据增强方法
Liu et al. Joint online spoken language understanding and language modeling with recurrent neural networks
Chen et al. Knowledge as a teacher: Knowledge-guided structural attention networks
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN108829722A (zh) 一种远程监督的Dual-Attention关系分类方法及系统
Shewalkar Comparison of rnn, lstm and gru on speech recognition data
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN110428823A (zh) 口语理解装置和使用该装置的口语理解方法
Hori et al. Dialog state tracking with attention-based sequence-to-sequence learning
Makhija et al. Transfer learning for punctuation prediction
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN112116907A (zh) 语音识别模型建立、语音识别方法、装置、设备和介质
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
CN110992943A (zh) 基于词混淆网络的语义理解方法及系统
Williams Zero Shot Intent Classification Using Long-Short Term Memory Networks.
CN114003700A (zh) 一种对话信息的处理方法、系统、电子设备及存储介质
Dang et al. End-to-end speech-to-dialog-act recognition
CN114333762B (zh) 基于表现力的语音合成方法、系统、电子设备及存储介质
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN115376547A (zh) 发音评测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant