CN112115687B - 一种结合知识库中的三元组和实体类型的生成问题方法 - Google Patents

一种结合知识库中的三元组和实体类型的生成问题方法 Download PDF

Info

Publication number
CN112115687B
CN112115687B CN202010872496.7A CN202010872496A CN112115687B CN 112115687 B CN112115687 B CN 112115687B CN 202010872496 A CN202010872496 A CN 202010872496A CN 112115687 B CN112115687 B CN 112115687B
Authority
CN
China
Prior art keywords
entity
triplet
word
vector
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010872496.7A
Other languages
English (en)
Other versions
CN112115687A (zh
Inventor
蔡毅
徐静云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010872496.7A priority Critical patent/CN112115687B/zh
Priority to PCT/CN2020/112924 priority patent/WO2022041294A1/zh
Publication of CN112115687A publication Critical patent/CN112115687A/zh
Application granted granted Critical
Publication of CN112115687B publication Critical patent/CN112115687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合知识库中的三元组和实体类型的生成问题方法,所述方法一种基于注意力机制的神经网络模型:所述神经网络模型的输入为表示重构过的三元组的词向量序列,输出是通过处理词向量序列得到的一组用来表示问题的词向量序列。首先,利用三元组中的头实体和尾实体对应的实体类型对三元组进行重构,然后利用预训练好的Glove词嵌入获得表示重构得到的新三元组的词向量序列,之后利用一个基于注意力机制的门机制循环神经网络编码输入的词向量序列,再利用另一个基于注意力机制的门机制循环神经网络解码通过编码器得到的三元组的表示,最后处理解码器输出的词向量序列得到生成的问题。本发明结合了知识库中的三元组及三元组中的头实体和尾实体对应的实体类型的信息,通过一种基于注意力机制的神经网络模型得到一个语法上更流畅、与输入的三元组更相关的问题。

Description

一种结合知识库中的三元组和实体类型的生成问题方法
技术领域
本发明涉及自然语言处理技术中自然语言文本生成领域,具体涉及一种结合知识库中的三元组和实体类型的生成问题方法。
背景技术
问题生成是自然语言处理领域极一项重要的任务,近年来关于文本生成中的问题生成的的研究越来越多,根据数据源的不同,现有的方法可以分为基于知识库的问题生成,基于文本的问题生成,基于图像和文本的问题生成。
目前长短时记忆网络模型(Serban I V,Garcia-Duran A,Gulcehre C,etal.Generating Factoid Questions With Recurrent Neural Networks:The 30MFactoid Question-Answer Corpus[C]//Proceedings of the 54th Annual Meeting ofthe Association for Computational Linguistics(Volume 1:Long Papers).2016:588-598.)和注意力机制模型(Liu C,Liu K,He S,etal.Generating Questions forKnowledge Bases via Incorporating Diversified Contexts and Answer-Aware Loss[C]//Proceedings of the 2019Conference on Empirical Methods in NaturalLanguage Processing and the 9th International Joint Conference on NaturalLanguage Processing(EMNLP-IJCNLP).2019:2431-2441.)也在广泛使用。使用在自然语言文本生成的神经模型是基于序列到序列(seq2seq)模型,大部分研究也都是基于seq2seq模型进行修改。其主要思路是利用序列到序列模型来捕捉上下文的情节走向,对上下文的内容进行建模,在对上下文建模时会加入额外的知识信息来捕捉一些隐藏的有用信息,以期能够生成符合上下文情节的问题。Serban等人首次提出利用循环神经网络来生成事实性的问题(Serban I V,Garcia-Duran A,Gulcehre C,et al.Generating Factoid QuestionsWith Recurrent Neural Networks:The 30MFactoid Question-Answer Corpus[C]//Proceedings of the 54th Annual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers).2016:588-598.),基于此,Indurthi等人提出利用循环神经网络来生成问题-答案对(Indurthi S R,Raghu D,Khapra M M,etal.Generating natural language question-answer pairs from a knowledge graphusing a RNN based question generation model[C]//Proceedings of the 15thConference of the European Chapter of the Association for ComputationalLinguistics:Volume 1,Long Papers.2017:376-385.),Liu等人提出了现有的基于知识库的问题生成领域(Liu C,Liu K,He S,et al.Generating Questions for KnowledgeBases via Incorporating Diversified Contexts and Answer-Aware Loss[C]//Proceedings of the 2019Conference on Empirical Methods in Natural LanguageProcessing and the 9th International Joint Conference on Natural LanguageProcessing(EMNLP-IJCNLP).2019:2431-2441.)。
然而,现有现有技术都没有考虑捕捉概念层面的信息,比如说《卧虎藏龙》和《踏雪寻梅》这2部都是电影,虽然模型没有见过《踏雪寻梅》这个词语,但是因为捕捉到《卧虎藏龙》和《踏雪寻梅》都是电影的信息。模型如果能够捕捉到概念层面的信息,就可能可以通过电影这个实体类型,正确地生成和《踏雪寻梅》相关的问题,而本发明方法首次提出通过考虑输入的三元组中的实体类型的信息来辅助模型进行问题生成任务。
发明内容
本发明的目的是针对现有技术的不足,考虑通过词性标注的方法对每个上下文进行词性标注,从而得到每个上下文中包含的实体词,然后对于上下文的词通过ConceptNet网获得每个词的三元组信息,然后通过预训练好的Glove词嵌入方法将上下文词,上下文实体词和知识进行词的预序列得到对应的词向量。在编码一段上下文的时候先对第一句和其对应的知识进行编码,输出得到隐藏状态信息,将这个输出作为输入加入到第二局和气对应的知识编码中,得到这一时刻的隐藏状态信息,以此类推以这种累计式增强的方法直到编码完所有的上下文信息,输出得到最后的隐藏状态信息,最后再和通过词性标注得到的实体词进行拼接,从而得到输出最终的隐藏状态信息,将这个拼接好的隐藏状态信息输入到所述的增强型注意力序列到序列的模型中,最后再通过解码得到合乎上下文一组序列。
本发明至少通过如下技术方案之一实现。
一种结合知识库中的三元组和实体类型的生成问题方法,所述方法包括以下步骤:
1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型:所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量;训练集可采用公开的问题生成数据集,如SQuAD数据集;
3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码新三元组的表示;
4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列;
5)、利用步骤4)中得到的词向量序列获得向量表示的词语,词向量序列是1个矩阵,这个矩阵中的每一列是1个向量,每个向量表示1个词语,每一个向量的长度等于整个词汇表中的词语个数,向量中最大维度对应的词语就是该向量表示的词语,最终将所有对应的词语组合起来就是生成的问题,将在生成的问题中出现的实体类型用对应的输入中的三元组中具体的实体替换掉,最终得到一个新的问题作为输出。
进一步地,所述步骤1)重构三元组模型的步骤包括:
1.1)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的的实体类型;
1.2)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体,用E1和E2所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
1.3)、在原始的输入数据中迭代执行步骤1.1)和步骤1.2),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集。
进一步地,所述步骤2)包括:
2.1)、设输入到词向量模型的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
2.2)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。
进一步地,所述步骤3)包括:
3.1)、给定一个三元组,问题是和三元组中的头实体和关系相关的,而问题的答案是三元组中的尾实体,将该三元组的向量输入到注意力机制网络中,通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性,三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素;
3.2)、通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和,在生成问题的每个时刻都获得一个新的三元组的表示:
Vs,t=αs,tVe1p,tVe2o,tVe3
其中Ve1、Ve2、Ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
进一步地,当生成问题中每一个词语时,基于生成的前一个词语的表示,利用注意力机制网络获得输入的三元组中实体、头实体和尾实体的关系、尾实体的权重,具体包括:
S1)、在生成问题中当前词语的t时刻,将所述的头实体或尾实体或头实体和尾实体的关系结合生成的问题前一时刻的词语的表示,得到新的考虑了前一时刻生成的词语的新的头实体、或尾实体、或关系的向量表示:
其中st-1表示的是在t-1时刻生成的词语的表示,va、Wa、Ua分别表示在生成注意力机制网络中可训练的权重矩阵;其中Ve1、Ve2、Ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,hp,t表示新的表示关系的向量,hs,t表示新的表示头实体的向量,ho,t表示新的表示尾实体的向量;
S2)、在生成问题中当前词语的t时刻,基于得到的新的表示头实体、尾实体或头实体和尾实体关系的向量,注意力机制网络计算出三个标量权重分别表示头实体、尾实体和关系的重要性:
其中αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
进一步地,所述步骤4)包括:
4.1)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,从而得到输出的词语的表示:
其中和zt分别表示t时刻将三元组的表示结合t-1时刻得到的词语的词向量word embedding表示和独热编码one-hot向量表示通过全连接网络得到的向量,St表示t时刻生成的问题中的词语;
4.2)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,通过门机制循环神经网络得到输出的词语的表示:
Zt=σ(wzEwyt-1-UzSt-1-Azvs,t)
rt=σ(wrEwyt-1+Urst-1+Arvs,t)
其中W、Ew、U、rt、A、[rt,st-1]、vs,t、σ、wz、Uz、Az、wr、Ur、Ar都表示门机制循环神经网络通过训练获得的参数,yt-1则是指上时刻输出的词语对应的向量表示。
进一步地,所述步骤5)包括:
5.1)、设得到的问题为Y={Y1,Y2,Y3,...,Yt}序列,Yt表示问题中的每一个词语,三元组E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的关系,E4和E5分别表示E1和E3所对应的的实体类型;
5.2)、将所述问题Y中出现的实体类型词,即E4或E5分别用E1和E3替换,得到新的问题Y’作为最终的输出
本发明与现有技术相比,具有如下优点和有益效果:
本发明不仅仅是考虑了单方面的信息,同时考虑了三方面的重要信息:上下文内容;上下文实体词和每个词对应得三元组知识信息。并且通过一种合理的累计式的编码方式将这三者信息进行结合。其有益效果:相较于现有的技术得到的结果,本发明能够生成更加符合上下文情节趋势的结局语句。
附图说明
图1为本发明实施例一种结合上下文实体词和知识的故事结局生成的方法的流程图;
图2为本发明实施例采用整体模型设计图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种结合知识库中的三元组和实体类型的生成问题方法,模型图如图2所示,包括以下步骤:
1)、构建增强型注意力序列到序列的重构三元组模型,利用三元组中头实体和尾实体对应的实体类型重构三元组模型,所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
重构三元组模型的步骤包括:
11)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的的实体类型;
12)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体,用E1和E2所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
13)、在原始的输入数据中迭代执行步骤11)和步骤12),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集。
所述深度学习联合模型的输入是由分别表示上下文,实体词和常识知识的向量拼接在一起的词向量,输出是与上下文的有关的一组序列,构建深度学习联合模型的具体步骤包括:
1.1)、设上下文为X={X1,X2,…,Xi}的序列,其中表示第i个句子的第li个词,通过词性标注得到上下文实体词Ccontext和通过知识库得到的知识Kg,图2中的Xt表示句子中第t个词语)
1.2)、将所述上下文词、上下文实体词和知识Kg进行词嵌入预处理,有一个原始的向量表,里面存储了所有词语的表示,预处理即是从向量表中获得上下文词、上下文实体词和知识Kg对应的向量表示,得到相对应的词向量;
1.3)、将步骤1.2)得到的词向量以逐步迭代增强的方式输入长短时记忆网络模型;
1.4)、将所述长短时记忆网络模型的输出向量输入所述注意力机制模型;
1.5)、将所述注意力机制模型的输出参数与上下文实体词向量进行比较;
1.6)、迭代执行步骤1.5),当长短时记忆网络模型和所述注意力机制模型参数的准确度的差值稳定,即波动范围小于某个范围时(一般为一个很小的值,如10e-5),得到最终的注意力序列到序列的深度学习联合模型。
2)、对上下文的词进行词性标注,得到相应的词性词,本实施例主要筛选出的是名词和名词复数,具体步骤为:
2.1)、利用词性标注工具将上下文的词进行词性分类,得到其中所包含的名词和名词复数词;
2.2)、将得到的这些名词在输入到长短时记忆网络模型时,与当前的输入向量进行拼接得到新的拼接向量,因为模型在生成问题的时候,由于一些副词的、地出现的次数比较多,模型会倾向于生成这些比较宽泛的词语,而忽略了更具信息含量的一些名词,通过拼接表示词语的词性的向量,能够在一定程度上引导模型捕捉到词语的词性,有望提高模型对名词的关注度,从而在生成问题时生成一些更具信息含量的名词;
3)、通过常识知识获取概念图谱(Speer R,Chin J,Havasi C.Conceptnet 5.5:Anopen multilingual graph of general knowledge[C]//Thirty-First AAAI Conferenceon Artificial Intelligence.2017.)上得到每一个词三元组的常识知识信息,用知识图的形式进行表示具体步骤为:
3.1)、将上下文的词输入到ConceptNet知识库网上,得到每个词对应的三元组信息,并且通过知识图的表示方法得到对应的知识图向量;
3.2)、将得到的知识图向量结合上下文实体词通过注意力机制模型选择比较重要的词的三元组的信息,选择具体过程为:
其中g(x)表示的是知识图向量,hi、ri、ti分别表示的是每个词的头实体、关系、尾实体,表示的是三元组的权重,用于区别哪些三元组权重更大,Wr,Wh,Wt表示的是可学习的用于训练关系实体、头实体、尾实体的参数,tanh是作为激活函数的双曲正切函数,βRi指的是头实体、尾实体、关系实体的表示,/>等是通过归一化的方式得到新的表示。
4)、通过预训练好的Glove词嵌入方法(Pennington,Jeffrey,Richard Socher,and Christopher D.Manning."Glove:Global vectors for word representation."Proceedings of the 2014conference on empirical methods in natural languageprocessing(EMNLP).2014.)将步骤2)和步骤3)中得到词和上下文中的词进行词向量的表示,同时将这三者通过一个由基于注意力机制的门控制循环神经单元构成的编码器得到其隐含的状态信息,具体步骤为:
4.1)、将上下文的名词实体词,三元组,通过预训练Glove词嵌入方法得到对应的词向量表示,具体如下:
a)、设输入到词向量模型的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
b)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。
4.2)、将上下文通过一种逐步增强的的编码方式进行编码,将第一句的输出当作是第二句的输入,以此类推直到最后一句结束,最后模型输出的隐藏层状态向量涵盖所有上下文的信息。其中在编码每一句时利用基于注意力机制的门机制循环神经网络来学习上下文的能力,最终模型输出上下文隐藏隐藏层状态向量,将上下文隐藏层状态向量和上下文名词实体词的词向量进行拼接得到最终的输入向量,具体如下:
给定一个三元组,问题是和三元组中的头实体和关系相关的,而问题的答案是三元组中的尾实体,将该三元组的向量输入到注意力机制网络中,通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性,三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素;
通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和,在生成问题的每个时刻都获得一个新的三元组的表示:
Vs,t=αs,tVe1p,tVe2o,tVe3
其中Ve1、Ve2、Ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,αs,t、αp,t、=o,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列,具体包括:
在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,从而得到输出的词语的表示:
其中和zt分别表示t时刻将三元组的表示结合t-1时刻得到的词语的词向量word embedding表示和独热编码one-hot向量表示通过全连接网络得到的向量,St表示t时刻生成的问题中的词语;
在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,通过门机制循环神经网络得到输出的词语的表示:
zt=σ(wzEwyt-1+UzSt-1+Azvs,t)
rt=σ(wrEwyt-1+UrSt-1+Arvs,t)
其中W、Ew、U、rt、A、[rt,st-1]、vs,t、σ、wz、Uz、Az、wr、Ur、Ar都表示门机制循环神经网络通过训练获得的参数,yt-1则是指上时刻输出的词语对应的向量表示。
5)、将步骤4)中的隐藏层状态向量输入到基于注意力机制的门机制循环神经网络中,并通过负对数似然作为损失函数对编码解码阶段进行跟踪,从而最终得到的输出是一组合乎上下文的序列,步骤5)包括以下步骤:
5.1)、将最终的输入向量输入到注意力序列到序列的深度学力联合模型中;
5.2)、分别输出每1次所述注意力序列到序列深度学习联合模型的输出;
5.3)、把负对数似然作为损失函数,当Φ=Φende最小时(Φen表示把编码器的输出作为损失函数的输入得到的值,Φde表示把解码器的输出作为损失函数的输入得到的值),将当前的注意力序列到序列深度学习联合模型作为最佳的注意力序列到序列深度学习联合模型,其具体公式为:
其中表示的是t时刻,第i个句子中第j个词语的表示,而
表示的是t时刻标签的表示,X表示句子。
5.4)、通过最佳的注意力序列到序列深度学习联合模型得到符合上下文的一组序列语句。
设得到的问题为Y={Y1,Y2,Y3,...,Yt}序列,Yt表示问题中的每一个词语,三元组E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的关系,E4和E5分别表示E1和E3所对应的的实体类型;
将所述问题Y中出现的实体类型词,即E4或E5分别用E1和E3替换,得到新的问题Y’作为最终的输出。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。

Claims (5)

1.一种结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述方法包括以下步骤:
1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型:所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
重构三元组模型的步骤包括:
1.1)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的实体类型;
1.2)、将实体E1和E3组成二元组实体对(E1,E3),E1和E3表示数据集中每一条标注好的实体,用E1和E3所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5
1.3)、在原始的输入数据中迭代执行步骤1.1)和步骤1.2),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集;
2)、利用预训练好的词向量模型Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量;
3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码步骤2)中获得的词向量获得新的三元组的表示;
4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列,包括以下步骤:
4.1)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,从而得到输出的词语的表示:
其中和zt分别表示t时刻将三元组的表示结合t-1时刻得到的词语的词向量wordembedding表示和独热编码one-hot向量表示通过全连接网络得到的向量,St表示t时刻生成的问题中的词语;
4.2)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,通过门机制循环神经网络得到输出的词语的表示:
ztσ(wzEwyt-1+Uzst-1+Azvs,t)
rt=σ(wrEwyt-1+Urst-1+Arvs,t)
其中W、Ew、U、rt、A、[rt,st-1]、σ、wz、Uz、Az、wr、Ur、Ar都表示门机制循环神经网络通过训练获得的参数,yt-1则是指上时刻输出的词语对应的向量表示,vs,t是所述新的三元组的表示;
5)、利用步骤4)中得到的词向量序列获得向量表示的词语,词向量序列是1个矩阵,这个矩阵中的每一列是1个向量,每个向量表示1个词语,每一个向量的长度等于整个词汇表中的词语个数,向量中最大维度对应的词语就是该向量表示的词语,最终将所有对应的词语组合起来就是生成的问题,将在生成的问题中出现的实体类型用对应的输入中的三元组中具体的实体替换掉,最终得到一个新的问题作为输出。
2.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤2)具体的步骤包括:
2.1)、设输入到词向量模型Glove的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
2.2)、在词向量模型Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。
3.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤3)包括:
3.1)、给定一个三元组,问题是和三元组中的头实体和关系相关的,而问题的答案是三元组中的尾实体,将该三元组的向量输入到注意力机制网络中,通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性,三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素;
3.2)、通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和,在生成问题的每个时刻都获得一个新的三元组的表示:
Vs,t=αs,tVe1p,tVe2αo,tVe3
其中ve1、ve2、ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
4.根据权利要求3所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,当生成问题中每一个词语时,基于生成的前一个词语的表示,利用注意力机制网络获得输入的三元组中实体、头实体和尾实体的关系、尾实体的权重,具体包括:
S1)、在生成问题中当前词语的t时刻,将所述的头实体或尾实体或头实体和尾实体的关系结合生成的问题前一时刻的词语的表示,得到新的考虑了前一时刻生成的词语的新的头实体、或尾实体、或关系的向量表示:
其中st-1表示的是在t-1时刻生成的词语的表示,va、Wa、Ua分别表示在生成注意力机制网络中可训练的权重矩阵;其中ve1、ve2、ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,hp,t表示新的表示关系的向量,hs,t表示新的表示头实体的向量,ho,t表示新的表示尾实体的向量;
S2)、在生成问题中当前词语的t时刻,基于得到的新的表示头实体、尾实体或头实体和尾实体关系的向量,注意力机制网络计算出三个标量权重分别表示头实体、尾实体和关系的重要性:
其中αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
5.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤5)包括:
5.1)、设得到的问题为Y={Y1,Y2,Y3,...,Yt}序列,Yt表示问题中的每一个词语;
5.2)、将所述问题Y中出现的实体类型词,即E4或E5分别用E1和E3替换,得到新的问题Y’作为最终的输出。
CN202010872496.7A 2020-08-26 2020-08-26 一种结合知识库中的三元组和实体类型的生成问题方法 Active CN112115687B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010872496.7A CN112115687B (zh) 2020-08-26 2020-08-26 一种结合知识库中的三元组和实体类型的生成问题方法
PCT/CN2020/112924 WO2022041294A1 (zh) 2020-08-26 2020-09-02 一种结合知识库中的三元组和实体类型的生成问题方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010872496.7A CN112115687B (zh) 2020-08-26 2020-08-26 一种结合知识库中的三元组和实体类型的生成问题方法

Publications (2)

Publication Number Publication Date
CN112115687A CN112115687A (zh) 2020-12-22
CN112115687B true CN112115687B (zh) 2024-04-26

Family

ID=73804357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010872496.7A Active CN112115687B (zh) 2020-08-26 2020-08-26 一种结合知识库中的三元组和实体类型的生成问题方法

Country Status (2)

Country Link
CN (1) CN112115687B (zh)
WO (1) WO2022041294A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113221571B (zh) * 2021-05-31 2022-07-01 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN114764566B (zh) * 2022-04-11 2024-01-23 中国航空综合技术研究所 用于航空领域的知识元抽取方法
CN114942998B (zh) * 2022-04-25 2024-02-13 西北工业大学 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN115936737B (zh) * 2023-03-10 2023-06-23 云筑信息科技(成都)有限公司 一种确定建材真伪的方法和系统
CN116432750B (zh) * 2023-04-13 2023-10-27 华中师范大学 一种基于盒嵌入的少样本知识图谱补全方法
CN117540035B (zh) * 2024-01-09 2024-05-14 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308316A (zh) * 2018-07-25 2019-02-05 华南理工大学 一种基于主题聚类的自适应对话生成系统
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110647620A (zh) * 2019-09-23 2020-01-03 中国农业大学 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN111159368A (zh) * 2019-12-12 2020-05-15 华南理工大学 一种个性化对话的回复生成方法
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111488440A (zh) * 2020-03-30 2020-08-04 华南理工大学 一种基于多任务联合的问题生成方法
CN111563146A (zh) * 2020-04-02 2020-08-21 华南理工大学 一种基于推理的难度可控问题生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018060450A1 (en) * 2016-09-29 2018-04-05 Koninklijke Philips N.V. Question generation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308316A (zh) * 2018-07-25 2019-02-05 华南理工大学 一种基于主题聚类的自适应对话生成系统
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110647620A (zh) * 2019-09-23 2020-01-03 中国农业大学 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN111159368A (zh) * 2019-12-12 2020-05-15 华南理工大学 一种个性化对话的回复生成方法
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111488440A (zh) * 2020-03-30 2020-08-04 华南理工大学 一种基于多任务联合的问题生成方法
CN111563146A (zh) * 2020-04-02 2020-08-21 华南理工大学 一种基于推理的难度可控问题生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多源协同注意力网络的复合型问题生成;宋泽瀚;中国优秀硕士学位论文全文数据库;4-5、24-35、40 *

Also Published As

Publication number Publication date
CN112115687A (zh) 2020-12-22
WO2022041294A1 (zh) 2022-03-03

Similar Documents

Publication Publication Date Title
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
Amritkar et al. Image caption generation using deep learning technique
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN111916067A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
Xie et al. Attention-based dense LSTM for speech emotion recognition
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN111767718A (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111859954A (zh) 目标对象识别方法、装置、设备及计算机可读存储介质
CN115329779A (zh) 一种多人对话情感识别方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN113536804A (zh) 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
Mathur et al. A scaled‐down neural conversational model for chatbots
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
CN114048290A (zh) 一种文本分类方法及装置
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法
CN116484885A (zh) 基于对比学习和词粒度权重的视觉语言翻译方法和系统
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant