CN112231461B - 一种融合知识的对话生成方法 - Google Patents

一种融合知识的对话生成方法 Download PDF

Info

Publication number
CN112231461B
CN112231461B CN202011182518.3A CN202011182518A CN112231461B CN 112231461 B CN112231461 B CN 112231461B CN 202011182518 A CN202011182518 A CN 202011182518A CN 112231461 B CN112231461 B CN 112231461B
Authority
CN
China
Prior art keywords
knowledge
hop
entity
word
double
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011182518.3A
Other languages
English (en)
Other versions
CN112231461A (zh
Inventor
倪斌
庄福振
安竹林
程坦
徐勇军
陆晓蕾
马涛
童逸琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Xiamen Data Intelligence Research Institute
Original Assignee
Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN202011182518.3A priority Critical patent/CN112231461B/zh
Publication of CN112231461A publication Critical patent/CN112231461A/zh
Application granted granted Critical
Publication of CN112231461B publication Critical patent/CN112231461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种融合知识的对话生成方法,包括如下步骤:S1、构建知识图谱;S2、构建对话模型,所述对话模型由编码器和解码器组成,构建过程包括词编码、知识编码、双跳实体编码、加权合并和解码。本发明引入图编码和图注意力机制进行双跳实体编码,基于相邻实体之间的关系,更好地捕捉对话中的实体语义;同时结合知识图谱围绕对话涉及的概念知识,从而给出更合理的富有信息量的回复,解决当前对话过程中话题概念飘移和扩展的问题。

Description

一种融合知识的对话生成方法
技术领域
本发明涉及计算机技术领域,特别涉及一种融合知识的对话生成方法。
背景技术
随着语言模型和自然语言生成技术的发展,基于数据驱动的端到端对话生成技术成了可能。而端到端生成的对话常常会产生一些毫无意义、无用和脱离话题的回复,例如产生一些安全回答:“我还不清楚”,以及话题概念飘移和扩展的现象,给对话带来了不好的体验。由于语言的理解与表达和知识是密切联系的,对于此类问题,通常的做法是在模型的输入中添加外部知识信息。现有的做法是将外部知识文本直接嵌入到向量空间中,获得外部知识的词向量表示后输入对话模型中。然而,这种简单粗暴的处理方式并不能很好地解决对话系统所面对的问题。因此,如何围绕知识、概念产生对话,是开发高质量对话系统、提高对话有效性的关键环节。
发明内容
为解决上述问题,本发明提供了一种融合知识的对话生成方法。
本发明采用以下技术方案:
一种融合知识的对话生成方法,包括如下步骤:
S1、构建知识图谱;
S2、构建对话模型,所述对话模型由编码器和解码器组成,具体为步骤为:
S21、词编码:所述词编码是利用google开源的Bert模型提取对话的词向量表示,即词编码X_Bert;
S22、知识编码:所述知识编码是利用TransE算法获取实体的知识向量表示,即知识编码X_transe;
S23、双跳实体编码:所述双跳实体编码是使用GAT图注意力机制对双跳实体进行编码,得到双跳实体编码X_2hop;
S24、加权合并:将得到的所述词编码X_Bert、所述知识编码X_transe和所述双跳实体编码X_2hop的结果加权相加后,经过一层前馈神经网络后作为解码器的输入;
S25、解码:所述解码器的主体架构采用循环神经网络RNN,并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder,即单跳词编码,将X_transe_decoder和RNN的隐变量hi相加后输入到下一个神经元中进行处理。
进一步地,所述双跳实体编码是对于节点Ai,逐个计算它的相邻节点集合N(Ai)={B1,B2,B3,…Bn}的单跳实体编码后,在通过同样的方法迭代计算Ai的实体编码,具体步骤如下:
S231、计算B1与周围实体N(B1)={C11,C12,…C1n}的注意力系数αj
Figure GDA0003547324260000021
其中,hB1和hj表示节点B1和节点j的词表示即TransE知识编码,W为共享的可学习参数,
Figure GDA0003547324260000022
将(WhB1||Whj)的结果映射到一个实数eb1j上,计算出相似系数后,利用softmax公式得到各个节点的加权系数,即注意力系数αj
S232、将B1周围的节点的词表示加权求和作为节点B1新的表示,权重为上述得出的注意力系数αj
h'B1=σ(∑αB1jUhj),j∈N(B1);
其中,h'B1为节点B1新的词表示,σ为激活函数,αB1j为B1和C1j的注意力系数,U为共享的可学习参数;
S233、通过与上述步骤S231和步骤S232同样的方法,依次计算出B1,B2,B3,…Bn的单跳节点词表示,最后迭代计算出Ai的双跳实体编码。
进一步地,步骤S24中所述加权相加的公式为:α*X_bert+β*X_transe+γ*X_2hop,其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数,α、β、γ的取值范围均为0~1。
进一步地,所述知识图谱采用开源的知识图谱或基于业务场景构建的领域知识图谱。
进一步地,所述开源的知识图谱包括OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明摒弃过去将知识三元组分开使用的方法,设计了图编码和引入图注意力机制进行双跳实体编码,基于相邻实体之间的关系,更好地捕捉对话中的实体语义;
2、在对话生成神经系统中,使用大规模知识图谱是的模型能够更好地理解对话,围绕当前对话涉及的概念知识,从而给出更合理的富有信息量的回复,解决当前对话过程中话题概念飘移和扩展的问题。
附图说明
图1为本发明实施例的模型框架图;
图2为本发明实施例的双跳注意力机制示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
一种融合知识的对话生成方法,包括如下步骤:
S1、构建知识图谱;
本实施例的知识图谱采用开源的知识图谱Freebase,可以选择开源的知识图谱如OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种,或基于业务场景构建的领域知识图谱,构建的方法采用常规的建立知识图谱的手段,如命名实体识别、实体消歧和实体统一。
S2、构建对话模型,所述对话模型由编码器和解码器组成,所述编码器包括词编码、知识编码和双跳实体编码;
如图1所示,构建对话模型的具体为步骤如下:
S21、词编码:所述词编码是利用google开源的Bert模型提取对话的词向量表示,即词编码X_Bert;
S22、知识编码:所述知识编码是利用TransE算法获取实体的知识向量表示,即知识编码X_transe;
TransE是基于实体和关系的分布式向量表示,基本原理是:将每个三元组实例(h,r,t)中的关系r看做从实体h到实体t的翻译,通过不断调整向量h、r和t,使(h+r)尽可能与t相等,即h+r=t;
S23、双跳实体编码:所述双跳实体编码是使用GAT图注意力机制对双跳实体进行编码,得到双跳实体编码X_2hop;
在大规模图谱中由于节点较多,双跳相比单跳节点具备更多的噪声,复杂的背景噪声会对图神经网络性能产生不良影响。因此,在设计该环节时引入图注意力机制GAT。在图注意力机制的作用下,训练的模型会关注到图中与目标节点联系密切的相邻节点,获取节点中最重要的信息从而提高信噪比;
S24、加权合并:将得到的所述词编码X_Bert、所述知识编码X_transe和所述双跳实体编码X_2hop的结果加权相加后,经过一层前馈神经网络后作为解码器的输入;
加权相加的公式为:α*X_bert+β*X_transe+γ*X_2hop,其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数,α、β、γ的取值范围为0~1,通过误差反向传播算法(BP)自动学习。
S25、解码:所述解码器的主体架构采用循环神经网络RNN,并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder,即单跳词编码,将X_transe_decoder和RNN的隐变量hi相加后得到相加结果yi输入到下一个神经元中进行处理。
如图2所示,所述双跳实体编码是对于节点Ai,逐个计算它的相邻节点集合N(Ai)={B1,B2,B3}的单跳实体编码后,在通过同样的方法迭代计算Ai的实体编码,具体步骤如下:
S231、计算B1与周围实体N(B1)={C11,C12}的注意力系数αj
Figure GDA0003547324260000051
其中,hB1和hj表示节点B1和节点j的词表示即TransE知识编码,W为共享的可学习参数,
Figure GDA0003547324260000052
将(WhB1||Whj)的结果映射到一个实数eb1j上,计算出相似系数后,利用softmax公式得到各个节点的加权系数,即注意力系数αj
S232、将B1周围的节点的词表示加权求和作为节点B1新的表示,权重为上述得出的注意力系数αj
h'B1=σ(∑αB1jUhj),j∈N(B1);
其中,h'B1为节点B1新的词表示,σ为激活函数,αB1j为B1和C1j的注意力系数,U为共享的可学习参数;
S233、通过与上述步骤S231和步骤S232同样的方法,依次计算出B1,B2,B3的单跳节点词表示,最后迭代计算出Ai的双跳实体编码。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种融合知识的对话生成方法,其特征在于:包括如下步骤:
S1、构建知识图谱;
S2、构建对话模型,所述对话模型由编码器和解码器组成,具体为步骤为:
S21、词编码:所述词编码是利用google开源的Bert模型提取对话的词向量表示,即词编码X_Bert;
S22、知识编码:所述知识编码是利用TransE算法获取实体的知识向量表示,即知识编码X_transe;
S23、双跳实体编码:所述双跳实体编码是使用GAT图注意力机制对双跳实体进行编码,得到双跳实体编码X_2hop;
所述双跳实体编码是对于节点Ai,逐个计算它的相邻节点集合N(Ai)={B1,B2,B3,…Bn}的单跳实体编码后,再 通过同样的方法迭代计算Ai的实体编码,具体步骤如下:
S231、计算B1与周围实体N(B1)={C11,C12,…C1n}的注意力系数αj
Figure FDA0003547324250000011
其中,hB1和hj表示节点B1和节点j的词表示即TransE知识编码,W为共享的可学习参数,
Figure FDA0003547324250000012
将(WhB1||Whj)的结果映射到一个实数eb1j上,计算出相似系数后,利用softmax公式得到各个节点的加权系数,即注意力系数αj
S232、将B1周围的节点的词表示加权求和作为节点B1新的表示,权重为上述得出的注意力系数αj
h'B1=σ(∑αB1jUhj),j∈N(B1);
其中,h'B1为节点B1新的词表示,σ为激活函数,αB1j为B1和C1j的注意力系数,U为共享的可学习参数;
S233、通过与上述步骤S231和步骤S232同样的方法,依次计算出B1,B2,B3,…Bn的单跳节点词表示,最后迭代计算出Ai的双跳实体编码;
S24、加权合并:将得到的所述词编码X_Bert、所述知识编码X_transe和所述双跳实体编码X_2hop的结果加权相加后,经过一层前馈神经网络后作为解码器的输入;所述加权相加的公式为:α*X_bert+β*X_transe+γ*X_2hop,其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数,α、β、γ的取值范围均为0~1;
S25、解码:所述解码器的主体架构采用循环神经网络RNN,并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder,即单跳词编码,将X_transe_decoder和RNN的隐变量hi相加后输入到下一个神经元中进行处理。
2.如权利要求1所述的一种融合知识的对话生成方法,其特征在于:所述知识图谱采用开源的知识图谱或基于业务场景构建的领域知识图谱。
3.如权利要求2所述的一种融合知识的对话生成方法,其特征在于:所述开源的知识图谱包括OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种。
CN202011182518.3A 2020-10-29 2020-10-29 一种融合知识的对话生成方法 Active CN112231461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011182518.3A CN112231461B (zh) 2020-10-29 2020-10-29 一种融合知识的对话生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011182518.3A CN112231461B (zh) 2020-10-29 2020-10-29 一种融合知识的对话生成方法

Publications (2)

Publication Number Publication Date
CN112231461A CN112231461A (zh) 2021-01-15
CN112231461B true CN112231461B (zh) 2022-05-17

Family

ID=74122171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011182518.3A Active CN112231461B (zh) 2020-10-29 2020-10-29 一种融合知识的对话生成方法

Country Status (1)

Country Link
CN (1) CN112231461B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863278B (zh) * 2021-02-09 2022-07-01 柳州智视科技有限公司 一种题目条件替换后的解题方法
CN113255918B (zh) * 2021-04-13 2023-04-25 国家计算机网络与信息安全管理中心 强化聚合知识指导的生成常识推理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763284B (zh) * 2018-04-13 2021-07-20 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
JP7110929B2 (ja) * 2018-11-16 2022-08-02 富士通株式会社 知識補完プログラム、知識補完方法および知識補完装置
CN110032633B (zh) * 2019-04-17 2021-03-23 腾讯科技(深圳)有限公司 多轮对话处理方法、装置和设备
CN111538848B (zh) * 2020-04-29 2023-09-01 华中科技大学 一种融合多源信息的知识表示学习方法
CN111738226B (zh) * 2020-07-31 2020-11-20 中国人民解放军国防科技大学 一种基于cnn和rcnn模型的文本识别方法及装置

Also Published As

Publication number Publication date
CN112231461A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN110377686B (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
CN111382582B (zh) 一种基于非自回归的神经机器翻译解码加速方法
CN110334339B (zh) 一种基于位置感知自注意力机制的序列标注模型与标注方法
Jørgensen et al. Deep generative models for molecular science
CN112231461B (zh) 一种融合知识的对话生成方法
WO2022222037A1 (zh) 一种基于图神经网络推理的可解释推荐方法
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN113722510B (zh) 一种基于图神经网络的知识图谱复杂问题生成方法及系统
CN112863180A (zh) 交通速度预测方法、装置、电子设备及计算机可读介质
Eldar et al. Challenges and open problems in signal processing: Panel discussion summary from ICASSP 2017 [panel and forum]
CN113486665B (zh) 隐私保护文本命名实体识别方法、装置、设备及存储介质
Zhou et al. Learning with annotation of various degrees
Chen et al. Group-aware graph neural network for nationwide city air quality forecasting
CN114118375A (zh) 一种基于时序图Transformer的连续动态网络表征学习方法
Wang et al. Modeling spatio-temporal dynamical systems with neural discrete learning and levels-of-experts
Zheng et al. Kernelized deep learning for matrix factorization recommendation system using explicit and implicit information
CN116957048A (zh) 一种基于对比学习的无监督鲁棒图结构学习方法及系统
WO2022148087A1 (zh) 编程语言翻译模型的训练方法、装置、设备及存储介质
CN113158045B (zh) 一种基于图神经网络推理的可解释推荐方法
Zhang et al. Topic scene graphs for image captioning
Xu et al. Knowledge graph-based reinforcement federated learning for chinese question and answering
CN112115637B (zh) Noma系统模型构建、优化方法、电子设备、存储介质
CN114185595A (zh) 基于代码结构引导的方法名生成方法
CN113377907A (zh) 基于记忆掩码自注意力网络的端到端任务型对话系统
Kappel et al. Block-local learning with probabilistic latent representations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Patentee after: Zhongke (Xiamen) data Intelligence Research Institute

Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Patentee before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences