CN112256857A - 一种基于图注意力机制的对话历史建模方法 - Google Patents

一种基于图注意力机制的对话历史建模方法 Download PDF

Info

Publication number
CN112256857A
CN112256857A CN202011286773.2A CN202011286773A CN112256857A CN 112256857 A CN112256857 A CN 112256857A CN 202011286773 A CN202011286773 A CN 202011286773A CN 112256857 A CN112256857 A CN 112256857A
Authority
CN
China
Prior art keywords
vector
history
similarity
dialog
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011286773.2A
Other languages
English (en)
Other versions
CN112256857B (zh
Inventor
孙忆南
李思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011286773.2A priority Critical patent/CN112256857B/zh
Publication of CN112256857A publication Critical patent/CN112256857A/zh
Application granted granted Critical
Publication of CN112256857B publication Critical patent/CN112256857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图注意力机制的对话历史建模方法,属于自然语言处理领域。该方法的基本思想是通过注意力机制对对话历史信息进行筛选。该方法的步骤包括:对对话历史,知识图谱和当前用户输入进行编码;基于用户输入计算知识图谱节点的注意力权重,结合节点表示向量加权求和获得知识表示向量;基于知识表示向量和用户输入表示向量计算对话历史中每轮对话的注意力权重,结合对话历史中的每轮对话的表示向量获得对话历史表示向量。利用本发明实施例,能够针对不同的用户输入结合知识图谱自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量,从而能够提升下游对话生成模型的效果,具有很大的实用价值。

Description

一种基于图注意力机制的对话历史建模方法
技术领域
本发明涉及自然语言处理领域,特别是指一种基于图注意力机制的对话历史建模方法。
背景技术
随着大数据和深度学习技术的发展,创建一个自动人机对话系统成为了可能。该系统不仅可以帮助人们实现一些简单的打车、订票任务。也可以针对用户的兴趣进行电影、购物推荐。对话的人机交互系统可以基于结构化的知识,以对话的方式向用户进行推荐,从而实现商家的盈利转化。在未来的电子商务领域有着很大的发展空间。
由于对话往往是多轮对话,所以涉及到对话历史的建模问题。传统的方法将当前轮次之前的对话历史拼接为一个长句子,输入到深度模型进行建模。但是人类对话的话题是动态多样的,并不是历史对话中的所有信息都与当前轮对话相关。因此不进行选择的使用所有对话历史中的信息会引入噪音,影响对话生成模型的效果。
因此,本专利提出一种基于图注意力机制的对话历史建模方法,利用用户当前输入和知识图谱的信息,通过图注意力机制从对话历史中筛选出对当前轮次对话有用的信息。使模型能够针对不同的用户输入结合知识图谱自适应的生成与当前轮对话信息最相关的对话历史表示向量,减少噪音的引入,从而提升对话生成模型的效果。
发明内容
本专利提出一种基于图注意力机制的对话历史建模方法。系统利用用户当前输入和知识图谱的信息,通过图注意力机制从对话历史中筛选出对当前轮次对话有用的信息,获得信息更准确噪音更少的对话历史向量表示,从而提升下游对话生成模型的效果。本发明的技术方案如下:
一种基于图注意力机制的对话历史建模方法,包括以下步骤:
步骤S1:使用预训练语言模型分别对用户输入,历史对话进行语义编码,获得用户输入表示向量和历史对话表示矩阵。
步骤S2:使用图神经网络对知识图谱进行编码,获得知识图谱中每个节点的表示向量。
步骤S3:计算用户输入表示向量和每个节点表示向量的相似度,作为基于用户输入的注意力权重,将相似度和节点表示向量加权求和得到知识表示向量。
步骤S4:将用户表示向量和知识表示向量进行向量拼接操作,获得对话信息向量。
步骤S5:计算对话信息向量和对话历史表示矩阵中每个向量的相似度,作为基于对话信息的注意力权重,将相似度和对话历史表示矩阵中的向量加权求和得到对话历史表示向量。
本发明的有益效果在于:通过引入图注意力机制,充分发挥当前对话和知识图谱在对话历史的信息筛选中的指导作用,能够根据用户的输入自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量,从而能够提升下游对话生成模型的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于图注意力机制的对话历史建模方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开了一种基于图注意力机制的对话历史建模方法,该方法包括以下步骤:
步骤S1:使用预训练语言模型分别对用户输入X={x1,x2,…,xm}(xi表示第i个词),历史对话H={h1,h2,…,hl}(hi表示对话历史中第i轮对话的句子)进行语义编码,获得用户输入表示向量VX和历史对话表示矩阵
Figure BDA0002782652220000021
(
Figure BDA0002782652220000022
表示对话历史中第i轮对话的句子的表示向量)。
(1.1)在大量无监督文本语料上预训练语言模型,其中语言模型可以使用BERT(Bidirectional Encoder Representations from Transformers)模型或其他BERT衍生模型;
(1.2)将用户输入X输入到预训练语言模型,输出用户输入的表示向量VX
(1.3)将对话历史H中的每轮对话hi分别输入到预训练语言模型,输出每句话的表示向量
Figure BDA0002782652220000023
从而获得对话历史表示矩阵MH
步骤S2:使用图神经网络对知识图谱进行编码,获得知识图谱中每个节点的表示向量
Figure BDA0002782652220000024
Figure BDA0002782652220000025
(
Figure BDA0002782652220000026
表示知识图谱第i个节点的表示向量)。
步骤S3:计算用户输入表示向量VX和每个节点表示向量
Figure BDA0002782652220000027
的相似度si,作为基于用户输入的注意力权重,将相似度和节点表示向量加权求和得到知识表示向量。
(3.1)对每个节点表示向量
Figure BDA0002782652220000028
计算与用户输入表示向量VX的相似度si,其中i=1,2,…,n。计算相似度的方法可以是引入全连接网络:
Figure BDA0002782652220000029
其中W表示全连接网络的参数,
Figure BDA00027826522200000210
表示向量
Figure BDA00027826522200000211
与向量VX的拼接操作。如果向量
Figure BDA00027826522200000212
和VX维度相同,全连接网络也可以使用向量点积操作代替;
(3.2)根据步骤(3.1)计算得到的相似度si与节点表示向量
Figure BDA00027826522200000213
进行加权求和获得知识表示向量
Figure BDA00027826522200000214
Figure BDA00027826522200000215
步骤S4:将用户表示向量VX和知识表示向量VE进行向量拼接操作,获得对话信息向量VD=[VX;VE]。
步骤S5:计算对话信息向量VD和对话历史表示矩阵MH中每个向量
Figure BDA00027826522200000216
的相似度ai,作为基于对话信息的注意力权重,将相似度ai和对话历史表示矩阵中的向量
Figure BDA00027826522200000217
加权求和得到对话历史表示向量VH
(5.1)对对话历史表示矩阵MH中的每轮对话的表示向量
Figure BDA00027826522200000218
计算与对话信息向量VD的相似度ai,其中i=1,2,…,l,两个向量相似度计算方法与步骤(3.1)相同;
(5.2)根据步骤(5.1)计算得到的相似度与每轮对话的表示向量
Figure BDA00027826522200000219
进行加权求和获得对话历史表示向量
Figure BDA00027826522200000220
以上结合附图对所提出的一种基于图注意力机制的对话历史建模方法及各模块的具体实施方式进行了阐述。本发明的有益效果在于,通过引入图注意力机制,充分发挥当前对话和知识图谱在对话历史的信息筛选中的指导作用,能够根据用户的输入自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量,从而能够提升下游对话生成模型的效果。上述技术方案公开了本发明的改进点,未详细公开的技术内容,可由本领域技术人员通过现有技术实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

Claims (3)

1.一种基于图注意力机制的对话历史建模方法,其特征在于,包括以下步骤:
步骤1:使用预训练语言模型分别对用户输入,历史对话进行语义编码,获得用户输入表示向量和历史对话表示矩阵;
步骤2:使用图神经网络对知识图谱进行编码,获得知识图谱中每个节点的表示向量;
步骤3:计算用户输入表示向量和每个节点表示向量的相似度,作为基于用户输入的注意力权重,将相似度和节点表示向量加权求和得到知识表示向量;
步骤4:将用户表示向量和知识表示向量进行向量拼接操作,获得对话信息向量;
步骤5:计算对话信息向量和对话历史表示矩阵中每个向量的相似度,作为基于对话信息的注意力权重,将相似度和对话历史表示矩阵中的向量加权求和得到对话历史表示向量。
2.如权利要求1所述的一种基于图注意力机制的对话历史建模方法,其特征在于,所述步骤3具体包括:
(3.1)对每个节点表示向量,计算与用户输入表示向量的相似度,计算相似度的方法可以是引入全连接网络,如果向量维度相同,全连接网络也可以使用向量点积操作代替;
(3.2)根据步骤(3.1)计算得到的相似度与节点表示向量进行加权求和获得知识表示向量。
3.如权利要求1所述的一种基于图注意力机制的对话历史建模方法,其特征在于,所述步骤5具体包括:
(5.1)对对话历史表示矩阵中的每轮对话的语义表示向量,计算与对话信息向量的相似度,其中向量相似度计算方法与步骤(3.1)相同;
(5.2)根据步骤(5.1)计算得到的相似度与每轮对话的语义表示向量进行加权求和获得对话历史表示向量。
CN202011286773.2A 2020-11-17 2020-11-17 一种基于图注意力机制的对话历史建模方法 Active CN112256857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011286773.2A CN112256857B (zh) 2020-11-17 2020-11-17 一种基于图注意力机制的对话历史建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011286773.2A CN112256857B (zh) 2020-11-17 2020-11-17 一种基于图注意力机制的对话历史建模方法

Publications (2)

Publication Number Publication Date
CN112256857A true CN112256857A (zh) 2021-01-22
CN112256857B CN112256857B (zh) 2023-02-03

Family

ID=74265899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011286773.2A Active CN112256857B (zh) 2020-11-17 2020-11-17 一种基于图注意力机制的对话历史建模方法

Country Status (1)

Country Link
CN (1) CN112256857B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632961A (zh) * 2021-03-04 2021-04-09 支付宝(杭州)信息技术有限公司 基于上下文推理的自然语言理解处理方法、装置以及设备
CN114153996A (zh) * 2022-02-10 2022-03-08 北京帝测科技股份有限公司 多图注意力协同的地学知识图谱更新方法和装置
CN116306317A (zh) * 2023-05-12 2023-06-23 环球数科集团有限公司 一种基于人工智能的aigc自动建模系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442700A (zh) * 2019-08-12 2019-11-12 珠海格力电器股份有限公司 用于人机交互的人机多轮对话方法及系统、智能设备
US20200090651A1 (en) * 2018-09-17 2020-03-19 Adobe Inc. Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network
CN111309883A (zh) * 2020-02-13 2020-06-19 腾讯科技(深圳)有限公司 基于人工智能的人机对话方法、模型训练方法及装置
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及系统
CN111897941A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 对话生成方法、网络训练方法、装置、存储介质及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090651A1 (en) * 2018-09-17 2020-03-19 Adobe Inc. Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network
CN110442700A (zh) * 2019-08-12 2019-11-12 珠海格力电器股份有限公司 用于人机交互的人机多轮对话方法及系统、智能设备
CN111309883A (zh) * 2020-02-13 2020-06-19 腾讯科技(深圳)有限公司 基于人工智能的人机对话方法、模型训练方法及装置
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及系统
CN111897941A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 对话生成方法、网络训练方法、装置、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632961A (zh) * 2021-03-04 2021-04-09 支付宝(杭州)信息技术有限公司 基于上下文推理的自然语言理解处理方法、装置以及设备
CN114153996A (zh) * 2022-02-10 2022-03-08 北京帝测科技股份有限公司 多图注意力协同的地学知识图谱更新方法和装置
CN114153996B (zh) * 2022-02-10 2022-04-12 北京帝测科技股份有限公司 多图注意力协同的地学知识图谱更新方法和装置
CN116306317A (zh) * 2023-05-12 2023-06-23 环球数科集团有限公司 一种基于人工智能的aigc自动建模系统

Also Published As

Publication number Publication date
CN112256857B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN112256857B (zh) 一种基于图注意力机制的对话历史建模方法
US20200042596A1 (en) On-Device Neural Networks for Natural Language Understanding
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
CN112214591B (zh) 一种对话预测的方法及装置
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN113254625B (zh) 一种基于交互融合的情感对话生成方法及系统
CN111382257A (zh) 一种生成对话下文的方法和系统
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN112131367A (zh) 自审核的人机对话方法、系统及可读存储介质
CN114625842A (zh) 一种基于结构注意力增强机制的虚假评论识别模型
Chizhik et al. Challenges of Building an Intelligent Chatbot.
Mathur et al. A scaled‐down neural conversational model for chatbots
Zhu et al. GANCoder: an automatic natural language-to-programming language translation approach based on GAN
Liu et al. Incorporating causal analysis into diversified and logical response generation
Hsueh et al. A Task-oriented Chatbot Based on LSTM and Reinforcement Learning
CN110851580B (zh) 一种基于结构化用户属性描述的个性化任务型对话系统
Pardeshi et al. A survey on Different Algorithms used in Chatbot
CN111046157A (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统
CN116701580A (zh) 一种对话情感强度一致性控制方法
CN115526149A (zh) 一种融合双注意力和生成对抗网络的文本摘要方法
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant