CN113377907B - 基于记忆掩码自注意力网络的端到端任务型对话系统 - Google Patents
基于记忆掩码自注意力网络的端到端任务型对话系统 Download PDFInfo
- Publication number
- CN113377907B CN113377907B CN202110638874.XA CN202110638874A CN113377907B CN 113377907 B CN113377907 B CN 113377907B CN 202110638874 A CN202110638874 A CN 202110638874A CN 113377907 B CN113377907 B CN 113377907B
- Authority
- CN
- China
- Prior art keywords
- entity
- dialogue
- knowledge base
- representation
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供基于记忆掩码自注意力网络的端到端任务型对话系统,属于自然语言处理领域,通过将对话历史转换为对应的词向量序列,输出层得到对应的编码后的对话历史表征;再将知识库中的实体及对应实体类型分别转换为实体向量及实体类型向量,并将对应向量进行加和,根据知识库结构创建记忆掩码;将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;使用损失函数端到端训练模型;保存训练模型,即得任务型对话系统,基于记忆掩码的自注意力网络以利用知识库中实体间丰富的关系信息,以及实体和对话历史间的协同信息,实现更有效的知识库实体表征,以提升网络的回复生成以及实体链接的性能。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及基于记忆掩码自注意力网络的端到端任务型对话系统。
背景技术
端到端任务型对话系统指给定特定领域的知识库,对话系统可以根据与用户的对话历史及领域知识库自动生成相关回复。
近年来,随着人工智能的不断发展,任务型对话系统被广泛提出并使用在酒店预订、车载助手、天气查询等领域。其中,基于深度学习的任务型对话系统是工业界与学术界的研究热点。该研究内容可大致分为基于流水线式的任务型对话系统以及基于端到端式的任务型对话系统。端到端式任务型对话系统由于不需要标注大量的中间监督信号(如对话状态和对话动作),仅仅需要给定知识库,对话历史以及回复信息即可进行深度学习模型的端到端训练。
然而,由于现有工作对知识库的表征方式仍然很粗浅:绝大多数工作将知识库的实体信息表征为三元组形式,导致实体表征信息不够充分。因此,基于端到端的任务型对话系统的性能没有被全部挖掘。
发明内容
本发明的主要目的在于提供一种基于记忆掩码自注意力网络的端到端任务型对话系统,目的更有效的表征知识库内的实体信息,通过基于记忆掩码自注意力网络提升端到端任务型对话模型性能。
为实现上述目的,本发明采取的技术方案为:
基于记忆掩码自注意力网络的端到端任务型对话系统,该系统架构主要包括对话历史编码器、实体表征编码器以及回复生成解码器三部份;其中:
对话历史编码器以用户对话历史作为输入,经词向量编码、位置向量编码后经过Transformer编码后输出对话历史表征;
实体表征编码器以实体、实体类型以及记忆掩码为输入,经过Transformer编码后输出实体表征;
回复生成解码器以实体表征、对话历史表征为输入,经Transformer解码器,输出相应回复内容;
该对话系统具体包括以下步骤:
S1、将对话历史头部插入一特殊字符“[SUM]”,然后将该对话历史转换为对应的词向量序列,送入一自注意力编码器,在输出层得到对应的编码后的对话历史表征;
S2、将知识库中的实体及对应实体类型表示为序列,分别转换为实体向量及实体类型向量,并将对应向量进行加和,然后将“[SUM]”对应的编码向量与之拼接;
S3、根据知识库结构创建二维二值矩阵式的记忆掩码;
S4、将S2中拼接后的向量序列以及S3中的记忆掩码送入另一自注意力编码器,输出知识库实体表征向量;
S5、将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;
S6、使用损失函数端到端训练模型;
S7、保存训练模型,即可应用于任务型对话系统。
优选的,所述S1中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息。
优选的,所述S3中:若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一,否则置零。
与现有技术相比,本发明具有如下有益效果:
1.泛化性好,本发明可以在无任何额外操作的情况下,对任何内容的知识库进行编码,而无需像三元组表征方法人为地创建三元组。
2.实体表征精确,通过使用基于记忆掩码的自注意力网络,我们的实体表征可以感知到对话历史以及知识库中的有益信息。
3.效果高,在使用本方法后,模型在SMD、Multi-WOZ 2.1数据集上分别达到了BLUE:17.3、8.3;Entity-F1:63.6、18.6。
附图说明
图1为本发明的流程示意图;
图2为本发明的模型结构示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1-2所示:基于记忆掩码自注意力网络的端到端任务型对话系统,系统架构主要包括以下步骤:
S1、将对话历史头部插入一特殊字符“[SUM]”,然后将该对话历史转换为对应的词向量序列,送入一自注意力编码器,在输出层得到对应的编码后的对话历史表征。其中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息;
S2、将知识库中的实体及对应实体类型表示为序列,分别转换为实体向量及实体类型向量,并将对应向量进行加和。然后将“[SUM]”对应的编码向量与之拼接;
S3、根据知识库结构创建二维二值矩阵式的记忆掩码:若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一,否则置零;
S4、将S2中拼接后的向量序列以及S3中的记忆掩码送入另一自注意力编码器,输出知识库实体表征向量;
S5、将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;
S6、使用损失函数端到端训练模型;
S7、保存训练模型,即可得应用于任务型对话系统。
在本实施例中,步骤S2对知识库表示形式进行变换,由B=[{b11,…,b1c},…,{br1,…,brc}]转换为S=[b11,b12,…,b1c,…,brc]的序列形式,其中bij代表第i行的第j个实体。r,c分别代表该知识库对应的行列数目。进行此转换的目的是方便将知识库作为输入送入深度自注意力网络中。
在本实例中,步骤S3根据具体知识库结构创建记忆掩码,以便深度自注意力网络仅仅关注到与每个实体有关的部分内容,并减少其他无关信息对实体表征进行干扰。
具体地,以上功能全部通过一记忆掩码M实现:
其中,条件Si-1,Sj-1∈bk代表Mij对应的实体对是否属于知识库的同一行,如果是,则该位设为一。条件i=0or j=0对应“[SUM]”的编码向量,置为一使得实体表征生成过程可以感知到对话历史信息,进而使得实体表征可以更好的对已知对话信息利用并推理。除此两个条件外,其余位置全部置零,以消除噪声对实体表征生成的影响。
在本实施例中,步骤S7对模型进行损失计算。损失函数共有三项:①用于计算生成回复与真实回复的交叉熵损失函数。②计算链接到实体的概率分布与真实的实体链接的交叉熵损失函数。③额外针对实体链接概率的L2,1-norm正则项,形式化表示为其中p为实体链接的概率分布。最后,三项损失函数相加并进行反向传播,更新优化模型参数。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (3)
1.基于记忆掩码自注意力网络的端到端任务型对话系统,其特征在于:该系统架构主要包括对话历史编码器、实体表征编码器以及回复生成解码器三部份;其中:
对话历史编码器以用户对话历史作为输入,经词向量编码、位置向量编码后经过Transformer编码后输出对话历史表征;
实体表征编码器以实体、实体类型以及记忆掩码为输入,经过Transformer编码后输出实体表征;
回复生成解码器以实体表征、对话历史表征为输入,经Transformer解码器,输出相应回复内容;
该对话系统具体包括以下步骤:
S1、将对话历史头部插入一特殊字符“[SUM]”,然后将该对话历史转换为对应的词向量序列,送入一自注意力编码器,在输出层得到对应的编码后的对话历史表征;
S2、将知识库中的实体及对应实体类型表示为序列,分别转换为实体向量及实体类型向量,并将对应向量进行加和,然后将“[SUM]”对应的编码向量与之拼接;对知识库表示形式进行变换,由B=[{b11,…,b1c},…,{br1,…,brc}]转换为S=[b11,b12,…,b1c,…,brc]的序列形式,其中bij代表第i行的第j个实体;r,c分别代表该知识库对应的行列数目;
S3、根据知识库结构创建二维二值矩阵式的记忆掩码;具体地,一记忆掩码M:
其中,条件Si-1,Sj-1∈bk代表Mij对应的实体对是否属于知识库的同一行,如果是,则该位设为一;条件i=0or j=0对应“[SUM]”的编码向量,置为一使得实体表征生成过程可以感知到对话历史信息,进而使得实体表征可以更好的对已知对话信息利用并推理;
S4、将S2中拼接后的向量序列以及S3中的记忆掩码送入另一自注意力编码器,输出知识库实体表征向量;
S5、将对话历史表征以及知识库实体表征送入一自注意力解码器网络,进行回复生成以及实体链接;
S6、使用损失函数端到端训练模型;
S7、保存训练模型,即可应用于任务型对话系统。
2.根据权利要求1所述的基于记忆掩码自注意力网络的端到端任务型对话系统,其特征在于:所述S1中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息。
3.根据权利要求1所述的基于记忆掩码自注意力网络的端到端任务型对话系统,其特征在于:所述S3中:若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一,否则置零。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638874.XA CN113377907B (zh) | 2021-06-08 | 2021-06-08 | 基于记忆掩码自注意力网络的端到端任务型对话系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638874.XA CN113377907B (zh) | 2021-06-08 | 2021-06-08 | 基于记忆掩码自注意力网络的端到端任务型对话系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377907A CN113377907A (zh) | 2021-09-10 |
CN113377907B true CN113377907B (zh) | 2023-06-09 |
Family
ID=77572900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110638874.XA Active CN113377907B (zh) | 2021-06-08 | 2021-06-08 | 基于记忆掩码自注意力网络的端到端任务型对话系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377907B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114625861B (zh) * | 2022-05-11 | 2022-09-06 | 之江实验室 | 改进Transformer融入知识的端到端对话方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188167A (zh) * | 2019-05-17 | 2019-08-30 | 北京邮电大学 | 一种融入外部知识的端到端对话方法及系统 |
CN110413752A (zh) * | 2019-07-22 | 2019-11-05 | 中国科学院自动化研究所 | 基于对话逻辑的多轮口语理解方法、系统、装置 |
CN111462750A (zh) * | 2020-03-20 | 2020-07-28 | 北京邮电大学 | 语义与知识增强的端到端任务型对话系统及方法 |
CN111462749A (zh) * | 2020-03-20 | 2020-07-28 | 北京邮电大学 | 基于对话状态导向和知识库检索的端到端对话系统及方法 |
CN111966800A (zh) * | 2020-07-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 情感对话生成方法、装置及情感对话模型训练方法、装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188182B (zh) * | 2019-05-31 | 2023-10-27 | 中国科学院深圳先进技术研究院 | 模型训练方法、对话生成方法、装置、设备及介质 |
US11636438B1 (en) * | 2019-10-18 | 2023-04-25 | Meta Platforms Technologies, Llc | Generating smart reminders by assistant systems |
CN111475658B (zh) * | 2020-06-12 | 2020-12-25 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
CN112364148B (zh) * | 2020-12-08 | 2022-05-24 | 吉林大学 | 一种基于深度学习方法的生成型聊天机器人 |
-
2021
- 2021-06-08 CN CN202110638874.XA patent/CN113377907B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188167A (zh) * | 2019-05-17 | 2019-08-30 | 北京邮电大学 | 一种融入外部知识的端到端对话方法及系统 |
CN110413752A (zh) * | 2019-07-22 | 2019-11-05 | 中国科学院自动化研究所 | 基于对话逻辑的多轮口语理解方法、系统、装置 |
CN111462750A (zh) * | 2020-03-20 | 2020-07-28 | 北京邮电大学 | 语义与知识增强的端到端任务型对话系统及方法 |
CN111462749A (zh) * | 2020-03-20 | 2020-07-28 | 北京邮电大学 | 基于对话状态导向和知识库检索的端到端对话系统及方法 |
CN111966800A (zh) * | 2020-07-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 情感对话生成方法、装置及情感对话模型训练方法、装置 |
Non-Patent Citations (2)
Title |
---|
Bowen Zhang 等.A memory network based end-to-end personalized task-oriented dialogue generation.《Knowledge-Based Systems》.2020,第207卷1-11. * |
张文静.端到端面向任务对话系统的研究与实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,(第05期),I138-1595. * |
Also Published As
Publication number | Publication date |
---|---|
CN113377907A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188167B (zh) | 一种融入外部知识的端到端对话方法及系统 | |
CN111382582B (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN111625276B (zh) | 基于语义与语法信息融合的代码摘要生成方法及系统 | |
CN111901024B (zh) | 基于抗拟合深度学习的mimo信道状态信息反馈方法 | |
CN112560456B (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
CN115273464A (zh) | 一种基于改进的时空Transformer的交通流量预测方法 | |
CN115307780B (zh) | 基于时空信息交互融合的海表温度预测方法、系统及应用 | |
CN113988449A (zh) | 基于Transformer模型的风电功率预测方法 | |
CN114662788A (zh) | 一种海水水质三维时空序列多参数精准预测方法及系统 | |
CN113377907B (zh) | 基于记忆掩码自注意力网络的端到端任务型对话系统 | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN114817773A (zh) | 一种基于多级分解和融合的时序预测系统及方法 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN116596033A (zh) | 一种基于窗口注意力和生成器的Transformer臭氧浓度预测方法 | |
CN115331073A (zh) | 一种基于TransUnet架构的影像自监督学习方法 | |
CN113836319B (zh) | 融合实体邻居的知识补全方法及系统 | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN112231461B (zh) | 一种融合知识的对话生成方法 | |
CN113535999A (zh) | 一种基于深度学习的多样化图像描述语句生成技术 | |
CN113535902A (zh) | 一种融合对抗训练的生成式对话系统 | |
CN112988967A (zh) | 基于两阶段解码的对话生成方法及装置、介质和计算设备 | |
CN110069756B (zh) | 一种考虑用户评价的资源或服务推荐方法 | |
CN111666950A (zh) | 一种基于流模型的字体家族生成方法 | |
CN111243578A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |