CN113377907B - 基于记忆掩码自注意力网络的端到端任务型对话系统 - Google Patents

基于记忆掩码自注意力网络的端到端任务型对话系统 Download PDF

Info

Publication number
CN113377907B
CN113377907B CN202110638874.XA CN202110638874A CN113377907B CN 113377907 B CN113377907 B CN 113377907B CN 202110638874 A CN202110638874 A CN 202110638874A CN 113377907 B CN113377907 B CN 113377907B
Authority
CN
China
Prior art keywords
entity
dialogue
knowledge base
representation
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110638874.XA
Other languages
English (en)
Other versions
CN113377907A (zh
Inventor
雷印杰
苟延杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110638874.XA priority Critical patent/CN113377907B/zh
Publication of CN113377907A publication Critical patent/CN113377907A/zh
Application granted granted Critical
Publication of CN113377907B publication Critical patent/CN113377907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于记忆掩码自注意力网络的端到端任务型对话系统,属于自然语言处理领域,通过将对话历史转换为对应的词向量序列,输出层得到对应的编码后的对话历史表征;再将知识库中的实体及对应实体类型分别转换为实体向量及实体类型向量,并将对应向量进行加和,根据知识库结构创建记忆掩码;将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;使用损失函数端到端训练模型;保存训练模型,即得任务型对话系统,基于记忆掩码的自注意力网络以利用知识库中实体间丰富的关系信息,以及实体和对话历史间的协同信息,实现更有效的知识库实体表征,以提升网络的回复生成以及实体链接的性能。

Description

基于记忆掩码自注意力网络的端到端任务型对话系统
技术领域
本发明涉及自然语言处理领域,特别涉及基于记忆掩码自注意力网络的端到端任务型对话系统。
背景技术
端到端任务型对话系统指给定特定领域的知识库,对话系统可以根据与用户的对话历史及领域知识库自动生成相关回复。
近年来,随着人工智能的不断发展,任务型对话系统被广泛提出并使用在酒店预订、车载助手、天气查询等领域。其中,基于深度学习的任务型对话系统是工业界与学术界的研究热点。该研究内容可大致分为基于流水线式的任务型对话系统以及基于端到端式的任务型对话系统。端到端式任务型对话系统由于不需要标注大量的中间监督信号(如对话状态和对话动作),仅仅需要给定知识库,对话历史以及回复信息即可进行深度学习模型的端到端训练。
然而,由于现有工作对知识库的表征方式仍然很粗浅:绝大多数工作将知识库的实体信息表征为三元组形式,导致实体表征信息不够充分。因此,基于端到端的任务型对话系统的性能没有被全部挖掘。
发明内容
本发明的主要目的在于提供一种基于记忆掩码自注意力网络的端到端任务型对话系统,目的更有效的表征知识库内的实体信息,通过基于记忆掩码自注意力网络提升端到端任务型对话模型性能。
为实现上述目的,本发明采取的技术方案为:
基于记忆掩码自注意力网络的端到端任务型对话系统,该系统架构主要包括对话历史编码器、实体表征编码器以及回复生成解码器三部份;其中:
对话历史编码器以用户对话历史作为输入,经词向量编码、位置向量编码后经过Transformer编码后输出对话历史表征;
实体表征编码器以实体、实体类型以及记忆掩码为输入,经过Transformer编码后输出实体表征;
回复生成解码器以实体表征、对话历史表征为输入,经Transformer解码器,输出相应回复内容;
该对话系统具体包括以下步骤:
S1、将对话历史头部插入一特殊字符“[SUM]”,然后将该对话历史转换为对应的词向量序列,送入一自注意力编码器,在输出层得到对应的编码后的对话历史表征;
S2、将知识库中的实体及对应实体类型表示为序列,分别转换为实体向量及实体类型向量,并将对应向量进行加和,然后将“[SUM]”对应的编码向量与之拼接;
S3、根据知识库结构创建二维二值矩阵式的记忆掩码;
S4、将S2中拼接后的向量序列以及S3中的记忆掩码送入另一自注意力编码器,输出知识库实体表征向量;
S5、将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;
S6、使用损失函数端到端训练模型;
S7、保存训练模型,即可应用于任务型对话系统。
优选的,所述S1中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息。
优选的,所述S3中:若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一,否则置零。
与现有技术相比,本发明具有如下有益效果:
1.泛化性好,本发明可以在无任何额外操作的情况下,对任何内容的知识库进行编码,而无需像三元组表征方法人为地创建三元组。
2.实体表征精确,通过使用基于记忆掩码的自注意力网络,我们的实体表征可以感知到对话历史以及知识库中的有益信息。
3.效果高,在使用本方法后,模型在SMD、Multi-WOZ 2.1数据集上分别达到了BLUE:17.3、8.3;Entity-F1:63.6、18.6。
附图说明
图1为本发明的流程示意图;
图2为本发明的模型结构示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1-2所示:基于记忆掩码自注意力网络的端到端任务型对话系统,系统架构主要包括以下步骤:
S1、将对话历史头部插入一特殊字符“[SUM]”,然后将该对话历史转换为对应的词向量序列,送入一自注意力编码器,在输出层得到对应的编码后的对话历史表征。其中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息;
S2、将知识库中的实体及对应实体类型表示为序列,分别转换为实体向量及实体类型向量,并将对应向量进行加和。然后将“[SUM]”对应的编码向量与之拼接;
S3、根据知识库结构创建二维二值矩阵式的记忆掩码:若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一,否则置零;
S4、将S2中拼接后的向量序列以及S3中的记忆掩码送入另一自注意力编码器,输出知识库实体表征向量;
S5、将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;
S6、使用损失函数端到端训练模型;
S7、保存训练模型,即可得应用于任务型对话系统。
在本实施例中,步骤S2对知识库表示形式进行变换,由B=[{b11,…,b1c},…,{br1,…,brc}]转换为S=[b11,b12,…,b1c,…,brc]的序列形式,其中bij代表第i行的第j个实体。r,c分别代表该知识库对应的行列数目。进行此转换的目的是方便将知识库作为输入送入深度自注意力网络中。
在本实例中,步骤S3根据具体知识库结构创建记忆掩码,以便深度自注意力网络仅仅关注到与每个实体有关的部分内容,并减少其他无关信息对实体表征进行干扰。
具体地,以上功能全部通过一记忆掩码M实现:
Figure GDA0004201846380000041
其中,条件Si-1,Sj-1∈bk代表Mij对应的实体对是否属于知识库的同一行,如果是,则该位设为一。条件i=0or j=0对应“[SUM]”的编码向量,置为一使得实体表征生成过程可以感知到对话历史信息,进而使得实体表征可以更好的对已知对话信息利用并推理。除此两个条件外,其余位置全部置零,以消除噪声对实体表征生成的影响。
在本实施例中,步骤S7对模型进行损失计算。损失函数共有三项:①用于计算生成回复与真实回复的交叉熵损失函数。②计算链接到实体的概率分布与真实的实体链接的交叉熵损失函数。③额外针对实体链接概率的L2,1-norm正则项,形式化表示为
Figure GDA0004201846380000042
其中p为实体链接的概率分布。最后,三项损失函数相加并进行反向传播,更新优化模型参数。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.基于记忆掩码自注意力网络的端到端任务型对话系统,其特征在于:该系统架构主要包括对话历史编码器、实体表征编码器以及回复生成解码器三部份;其中:
对话历史编码器以用户对话历史作为输入,经词向量编码、位置向量编码后经过Transformer编码后输出对话历史表征;
实体表征编码器以实体、实体类型以及记忆掩码为输入,经过Transformer编码后输出实体表征;
回复生成解码器以实体表征、对话历史表征为输入,经Transformer解码器,输出相应回复内容;
该对话系统具体包括以下步骤:
S1、将对话历史头部插入一特殊字符“[SUM]”,然后将该对话历史转换为对应的词向量序列,送入一自注意力编码器,在输出层得到对应的编码后的对话历史表征;
S2、将知识库中的实体及对应实体类型表示为序列,分别转换为实体向量及实体类型向量,并将对应向量进行加和,然后将“[SUM]”对应的编码向量与之拼接;对知识库表示形式进行变换,由B=[{b11,…,b1c},…,{br1,…,brc}]转换为S=[b11,b12,…,b1c,…,brc]的序列形式,其中bij代表第i行的第j个实体;r,c分别代表该知识库对应的行列数目;
S3、根据知识库结构创建二维二值矩阵式的记忆掩码;具体地,一记忆掩码M:
Figure FDA0004201846370000011
其中,条件Si-1,Sj-1∈bk代表Mij对应的实体对是否属于知识库的同一行,如果是,则该位设为一;条件i=0or j=0对应“[SUM]”的编码向量,置为一使得实体表征生成过程可以感知到对话历史信息,进而使得实体表征可以更好的对已知对话信息利用并推理;
S4、将S2中拼接后的向量序列以及S3中的记忆掩码送入另一自注意力编码器,输出知识库实体表征向量;
S5、将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;
S6、使用损失函数端到端训练模型;
S7、保存训练模型,即可应用于任务型对话系统。
2.根据权利要求1所述的基于记忆掩码自注意力网络的端到端任务型对话系统,其特征在于:所述S1中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息。
3.根据权利要求1所述的基于记忆掩码自注意力网络的端到端任务型对话系统,其特征在于:所述S3中:若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一,否则置零。
CN202110638874.XA 2021-06-08 2021-06-08 基于记忆掩码自注意力网络的端到端任务型对话系统 Active CN113377907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110638874.XA CN113377907B (zh) 2021-06-08 2021-06-08 基于记忆掩码自注意力网络的端到端任务型对话系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110638874.XA CN113377907B (zh) 2021-06-08 2021-06-08 基于记忆掩码自注意力网络的端到端任务型对话系统

Publications (2)

Publication Number Publication Date
CN113377907A CN113377907A (zh) 2021-09-10
CN113377907B true CN113377907B (zh) 2023-06-09

Family

ID=77572900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110638874.XA Active CN113377907B (zh) 2021-06-08 2021-06-08 基于记忆掩码自注意力网络的端到端任务型对话系统

Country Status (1)

Country Link
CN (1) CN113377907B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114625861B (zh) * 2022-05-11 2022-09-06 之江实验室 改进Transformer融入知识的端到端对话方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及系统
CN110413752A (zh) * 2019-07-22 2019-11-05 中国科学院自动化研究所 基于对话逻辑的多轮口语理解方法、系统、装置
CN111462750A (zh) * 2020-03-20 2020-07-28 北京邮电大学 语义与知识增强的端到端任务型对话系统及方法
CN111462749A (zh) * 2020-03-20 2020-07-28 北京邮电大学 基于对话状态导向和知识库检索的端到端对话系统及方法
CN111966800A (zh) * 2020-07-27 2020-11-20 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188182B (zh) * 2019-05-31 2023-10-27 中国科学院深圳先进技术研究院 模型训练方法、对话生成方法、装置、设备及介质
US11636438B1 (en) * 2019-10-18 2023-04-25 Meta Platforms Technologies, Llc Generating smart reminders by assistant systems
CN111475658B (zh) * 2020-06-12 2020-12-25 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN112364148B (zh) * 2020-12-08 2022-05-24 吉林大学 一种基于深度学习方法的生成型聊天机器人

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及系统
CN110413752A (zh) * 2019-07-22 2019-11-05 中国科学院自动化研究所 基于对话逻辑的多轮口语理解方法、系统、装置
CN111462750A (zh) * 2020-03-20 2020-07-28 北京邮电大学 语义与知识增强的端到端任务型对话系统及方法
CN111462749A (zh) * 2020-03-20 2020-07-28 北京邮电大学 基于对话状态导向和知识库检索的端到端对话系统及方法
CN111966800A (zh) * 2020-07-27 2020-11-20 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bowen Zhang 等.A memory network based end-to-end personalized task-oriented dialogue generation.《Knowledge-Based Systems》.2020,第207卷1-11. *
张文静.端到端面向任务对话系统的研究与实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,(第05期),I138-1595. *

Also Published As

Publication number Publication date
CN113377907A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110188167B (zh) 一种融入外部知识的端到端对话方法及系统
CN111382582B (zh) 一种基于非自回归的神经机器翻译解码加速方法
CN111625276B (zh) 基于语义与语法信息融合的代码摘要生成方法及系统
CN111901024B (zh) 基于抗拟合深度学习的mimo信道状态信息反馈方法
CN112560456B (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN115273464A (zh) 一种基于改进的时空Transformer的交通流量预测方法
CN115307780B (zh) 基于时空信息交互融合的海表温度预测方法、系统及应用
CN113988449A (zh) 基于Transformer模型的风电功率预测方法
CN114662788A (zh) 一种海水水质三维时空序列多参数精准预测方法及系统
CN113377907B (zh) 基于记忆掩码自注意力网络的端到端任务型对话系统
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN114817773A (zh) 一种基于多级分解和融合的时序预测系统及方法
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN116596033A (zh) 一种基于窗口注意力和生成器的Transformer臭氧浓度预测方法
CN115331073A (zh) 一种基于TransUnet架构的影像自监督学习方法
CN113836319B (zh) 融合实体邻居的知识补全方法及系统
CN113297374B (zh) 一种基于bert和字词特征融合的文本分类方法
CN112231461B (zh) 一种融合知识的对话生成方法
CN113535999A (zh) 一种基于深度学习的多样化图像描述语句生成技术
CN113535902A (zh) 一种融合对抗训练的生成式对话系统
CN112988967A (zh) 基于两阶段解码的对话生成方法及装置、介质和计算设备
CN110069756B (zh) 一种考虑用户评价的资源或服务推荐方法
CN111666950A (zh) 一种基于流模型的字体家族生成方法
CN111243578A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant