CN112231461A - 一种融合知识的对话生成方法 - Google Patents
一种融合知识的对话生成方法 Download PDFInfo
- Publication number
- CN112231461A CN112231461A CN202011182518.3A CN202011182518A CN112231461A CN 112231461 A CN112231461 A CN 112231461A CN 202011182518 A CN202011182518 A CN 202011182518A CN 112231461 A CN112231461 A CN 112231461A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- hop
- entity
- word
- double
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合知识的对话生成方法,包括如下步骤:S1、构建知识图谱;S2、构建对话模型,所述对话模型由编码器和解码器组成,构建过程包括词编码、知识编码、双跳实体编码、加权合并和解码。本发明引入图编码和图注意力机制进行双跳实体编码,基于相邻实体之间的关系,更好地捕捉对话中的实体语义;同时结合知识图谱围绕对话涉及的概念知识,从而给出更合理的富有信息量的回复,解决当前对话过程中话题概念飘移和扩展的问题。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种融合知识的对话生成方法。
背景技术
随着语言模型和自然语言生成技术的发展,基于数据驱动的端到端对话生成技术成了可能。而端到端生成的对话常常会产生一些毫无意义、无用和脱离话题的回复,例如产生一些安全回答:“我还不清楚”,以及话题概念飘移和扩展的现象,给对话带来了不好的体验。由于语言的理解与表达和知识是密切联系的,对于此类问题,通常的做法是在模型的输入中添加外部知识信息。现有的做法是将外部知识文本直接嵌入到向量空间中,获得外部知识的词向量表示后输入对话模型中。然而,这种简单粗暴的处理方式并不能很好地解决对话系统所面对的问题。因此,如何围绕知识、概念产生对话,是开发高质量对话系统、提高对话有效性的关键环节。
发明内容
为解决上述问题,本发明提供了一种融合知识的对话生成方法。
本发明采用以下技术方案:
一种融合知识的对话生成方法,包括如下步骤:
S1、构建知识图谱;
S2、构建对话模型,所述对话模型由编码器和解码器组成,具体为步骤为:
S21、词编码:所述词编码是利用google开源的Bert模型提取对话的词向量表示,即词编码X_Bert;
S22、知识编码:所述知识编码是利用TransE算法获取实体的知识向量表示,即知识编码X_transe;
S23、双跳实体编码:所述双跳实体编码是使用GAM图注意力机制对双跳实体进行编码,得到双跳实体编码X_2hop;
S24、加权合并:将得到的所述词编码X_Bert、所述知识编码X_transe和所述双跳实体编码X_2hop的结果加权相加后,经过一层前馈神经网络后作为解码器的输入;
S25、解码:所述解码器的主体架构采用循环神经网络RNN,并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder,即单跳词编码,将X_transe_decoder和RNN的隐变量hi相加后输入到下一个神经元中进行处理。
进一步地,所述双跳实体编码是对于节点Ai,逐个计算它的相邻节点集合N(Ai)={B1,B2,B3,…Bn}的单跳实体编码后,在通过同样的方法迭代计算Ai的实体编码,具体步骤如下:
S231、计算B1与周围实体N(B1)={C11,C12,…C1n}的注意力系数αj:
其中,hB1和hj表示节点B1和节点j的词表示即TransE知识编码,W为共享的可学习参数,将(WhB1||Whj)的结果映射到一个实数eb1j上,计算出相似系数后,利用softmax公式得到各个节点的加权系数,即注意力系数αj;
S232、将B1周围的节点的词表示加权求和作为节点B1新的表示,权重为上述得出的注意力系数αj,
h'B1=σ(∑αB1jUhj),j∈N(B1);
其中,h'B1为节点B1新的词表示,σ为激活函数,αB1j为B1和C1j的注意力系数,U为共享的可学习参数;
S233、通过与上述步骤S231和步骤S232同样的方法,依次计算出B1,B2,B3,…Bn的单跳节点词表示,最后迭代计算出Ai的双跳实体编码。
进一步地,步骤S24中所述加权相加的公式为:α*X_bert+β*X_transe+γ*X_2hop,其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数,α、β、γ的取值范围均为0~1。
进一步地,所述知识图谱采用开源的知识图谱或基于业务场景构建的领域知识图谱。
进一步地,所述开源的知识图谱包括OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明摒弃过去将知识三元组分开使用的方法,设计了图编码和引入图注意力机制进行双跳实体编码,基于相邻实体之间的关系,更好地捕捉对话中的实体语义;
2、在对话生成神经系统中,使用大规模知识图谱是的模型能够更好地理解对话,围绕当前对话涉及的概念知识,从而给出更合理的富有信息量的回复,解决当前对话过程中话题概念飘移和扩展的问题。
附图说明
图1为本发明实施例的模型框架图;
图2为本发明实施例的双跳注意力机制示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
一种融合知识的对话生成方法,包括如下步骤:
S1、构建知识图谱;
本实施例的知识图谱采用开源的知识图谱Freebase,可以选择开源的知识图谱如OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种,或基于业务场景构建的领域知识图谱,构建的方法采用常规的建立知识图谱的手段,如命名实体识别、实体消歧和实体统一。
S2、构建对话模型,所述对话模型由编码器和解码器组成,所述编码器包括词编码、知识编码和双跳实体编码;
如图1所示,构建对话模型的具体为步骤如下:
S21、词编码:所述词编码是利用google开源的Bert模型提取对话的词向量表示,即词编码X_Bert;
S22、知识编码:所述知识编码是利用TransE算法获取实体的知识向量表示,即知识编码X_transe;
TransE是基于实体和关系的分布式向量表示,基本原理是:将每个三元组实例(h,r,t)中的关系r看做从实体h到实体t的翻译,通过不断调整向量h、r和t,使(h+r)尽可能与t相等,即h+r=t;
S23、双跳实体编码:所述双跳实体编码是使用GAM图注意力机制对双跳实体进行编码,得到双跳实体编码X_2hop;
在大规模图谱中由于节点较多,双跳相比单跳节点具备更多的噪声,复杂的背景噪声会对图神经网络性能产生不良影响。因此,在设计该环节时引入图注意力机制GAM。在图注意力机制的作用下,训练的模型会关注到图中与目标节点联系密切的相邻节点,获取节点中最重要的信息从而提高信噪比;
S24、加权合并:将得到的所述词编码X_Bert、所述知识编码X_transe和所述双跳实体编码X_2hop的结果加权相加后,经过一层前馈神经网络后作为解码器的输入;
加权相加的公式为:α*X_bert+β*X_transe+γ*X_2hop,其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数,α、β、γ的取值范围为0~1,通过误差反向传播算法(BP)自动学习。
S25、解码:所述解码器的主体架构采用循环神经网络RNN,并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder,即单跳词编码,将X_transe_decoder和RNN的隐变量hi相加后得到相加结果yi输入到下一个神经元中进行处理。
如图2所示,所述双跳实体编码是对于节点Ai,逐个计算它的相邻节点集合N(Ai)={B1,B2,B3}的单跳实体编码后,在通过同样的方法迭代计算Ai的实体编码,具体步骤如下:
S231、计算B1与周围实体N(B1)={C11,C12}的注意力系数αj:
其中,hB1和hj表示节点B1和节点j的词表示即TransE知识编码,W为共享的可学习参数,将(WhB1||Whj)的结果映射到一个实数eb1j上,计算出相似系数后,利用softmax公式得到各个节点的加权系数,即注意力系数αj;
S232、将B1周围的节点的词表示加权求和作为节点B1新的表示,权重为上述得出的注意力系数αj,
h'B1=σ(∑αB1jUhj),j∈N(B1);
其中,h'B1为节点B1新的词表示,σ为激活函数,αB1j为B1和C1j的注意力系数,U为共享的可学习参数;
S233、通过与上述步骤S231和步骤S232同样的方法,依次计算出B1,B2,B3的单跳节点词表示,最后迭代计算出Ai的双跳实体编码。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (5)
1.一种融合知识的对话生成方法,其特征在于:包括如下步骤:
S1、构建知识图谱;
S2、构建对话模型,所述对话模型由编码器和解码器组成,具体为步骤为:
S21、词编码:所述词编码是利用google开源的Bert模型提取对话的词向量表示,即词编码X_Bert;
S22、知识编码:所述知识编码是利用TransE算法获取实体的知识向量表示,即知识编码X_transe;
S23、双跳实体编码:所述双跳实体编码是使用GAM图注意力机制对双跳实体进行编码,得到双跳实体编码X_2hop;
S24、加权合并:将得到的所述词编码X_Bert、所述知识编码X_transe和所述双跳实体编码X_2hop的结果加权相加后,经过一层前馈神经网络后作为解码器的输入;
S25、解码:所述解码器的主体架构采用循环神经网络RNN,并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder,即单跳词编码,将X_transe_decoder和RNN的隐变量hi相加后输入到下一个神经元中进行处理。
2.如权利要求1所述的一种融合知识的对话生成方法,其特征在于:所述双跳实体编码是对于节点Ai,逐个计算它的相邻节点集合N(Ai)={B1,B2,B3,…Bn}的单跳实体编码后,在通过同样的方法迭代计算Ai的实体编码,具体步骤如下:
S231、计算B1与周围实体N(B1)={C11,C12,…C1n}的注意力系数αj:
其中,hB1和hj表示节点B1和节点j的词表示即TransE知识编码,W为共享的可学习参数,将(WhB1||Whj)的结果映射到一个实数上,计算出相似系数后,利用softmax公式得到各个节点的加权系数,即注意力系数αj;
S232、将B1周围的节点的词表示加权求和作为节点B1新的表示,权重为上述得出的注意力系数αj,
h'B1=σ(∑αB1jUhj),j∈N(B1);
其中,h'B1为节点B1新的词表示,σ为激活函数,αB1j为B1和C1j的注意力系数,U为共享的可学习参数;
S233、通过与上述步骤S231和步骤S232同样的方法,依次计算出B1,B2,B3,…Bn的单跳节点词表示,最后迭代计算出Ai的双跳实体编码。
3.如权利要求1所述的一种融合知识的对话生成方法,其特征在于:步骤S24中所述加权相加的公式为:α*X_bert+β*X_transe+γ*X_2hop,其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数,α、β、γ的取值范围均为0~1。
4.如权利要求1所述的一种融合知识的对话生成方法,其特征在于:所述知识图谱采用开源的知识图谱或基于业务场景构建的领域知识图谱。
5.如权利要求4所述的一种融合知识的对话生成方法,其特征在于:所述开源的知识图谱包括OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182518.3A CN112231461B (zh) | 2020-10-29 | 2020-10-29 | 一种融合知识的对话生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182518.3A CN112231461B (zh) | 2020-10-29 | 2020-10-29 | 一种融合知识的对话生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231461A true CN112231461A (zh) | 2021-01-15 |
CN112231461B CN112231461B (zh) | 2022-05-17 |
Family
ID=74122171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011182518.3A Active CN112231461B (zh) | 2020-10-29 | 2020-10-29 | 一种融合知识的对话生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231461B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863278A (zh) * | 2021-02-09 | 2021-05-28 | 柳州智视科技有限公司 | 一种题目条件替换后的解题方法 |
CN113255918A (zh) * | 2021-04-13 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 强化聚合知识指导的生成常识推理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
CN110032633A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 多轮对话处理方法、装置和设备 |
US20200160149A1 (en) * | 2018-11-16 | 2020-05-21 | Fujitsu Limited | Knowledge completion method and information processing apparatus |
CN111538848A (zh) * | 2020-04-29 | 2020-08-14 | 华中科技大学 | 一种融合多源信息的知识表示学习方法 |
CN111738226A (zh) * | 2020-07-31 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
-
2020
- 2020-10-29 CN CN202011182518.3A patent/CN112231461B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
US20200160149A1 (en) * | 2018-11-16 | 2020-05-21 | Fujitsu Limited | Knowledge completion method and information processing apparatus |
CN110032633A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 多轮对话处理方法、装置和设备 |
CN111538848A (zh) * | 2020-04-29 | 2020-08-14 | 华中科技大学 | 一种融合多源信息的知识表示学习方法 |
CN111738226A (zh) * | 2020-07-31 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
RUIJIE WANG: "Graph Embedding based Query Construction over", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIG KNOWLEDGE》 * |
张莹莹: "基于多模态知识感知注意力机制的问答方法", 《计算机研究与发展》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863278A (zh) * | 2021-02-09 | 2021-05-28 | 柳州智视科技有限公司 | 一种题目条件替换后的解题方法 |
CN113255918A (zh) * | 2021-04-13 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 强化聚合知识指导的生成常识推理方法 |
CN113255918B (zh) * | 2021-04-13 | 2023-04-25 | 国家计算机网络与信息安全管理中心 | 强化聚合知识指导的生成常识推理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112231461B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377686B (zh) | 一种基于深度神经网络模型的地址信息特征抽取方法 | |
CN110334339B (zh) | 一种基于位置感知自注意力机制的序列标注模型与标注方法 | |
CN108734276B (zh) | 一种基于对抗生成网络的模仿学习对话生成方法 | |
CN112231461B (zh) | 一种融合知识的对话生成方法 | |
CN112863180B (zh) | 交通速度预测方法、装置、电子设备及计算机可读介质 | |
CN111382582A (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN107729329A (zh) | 一种基于词向量连接技术的神经机器翻译方法及装置 | |
CN113722510B (zh) | 一种基于图神经网络的知识图谱复杂问题生成方法及系统 | |
Eldar et al. | Challenges and open problems in signal processing: Panel discussion summary from ICASSP 2017 [panel and forum] | |
CN113486665B (zh) | 隐私保护文本命名实体识别方法、装置、设备及存储介质 | |
Zhou et al. | Learning with annotation of various degrees | |
CN114118375A (zh) | 一种基于时序图Transformer的连续动态网络表征学习方法 | |
CN116402133B (zh) | 一种基于结构聚合图卷积网络的知识图谱补全方法及系统 | |
KR102656365B1 (ko) | 신경망의 인과 학습에 대한 프레임워크 | |
CN116136870A (zh) | 基于增强实体表示的智能社交对话方法、对话系统 | |
Wang et al. | Modeling label dependencies for audio tagging with graph convolutional network | |
CN113868451B (zh) | 基于上下文级联感知的社交网络跨模态对话方法及装置 | |
Wang et al. | Modeling spatio-temporal dynamical systems with neural discrete learning and levels-of-experts | |
Zheng et al. | Kernelized deep learning for matrix factorization recommendation system using explicit and implicit information | |
Gong | Multilevel large language models for everyone | |
CN116843830A (zh) | 一种基于自监督学习的掩码图像建模算法 | |
Xu et al. | Knowledge graph-based reinforcement federated learning for chinese question and answering | |
WO2022148087A1 (zh) | 编程语言翻译模型的训练方法、装置、设备及存储介质 | |
Zhu et al. | A hybrid model for nonlinear regression with missing data using quasilinear kernel | |
CN115271207A (zh) | 一种基于门控图神经网络的序列关系预测方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Patentee after: Zhongke (Xiamen) data Intelligence Research Institute Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Patentee before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences |