CN112115687A - 一种结合知识库中的三元组和实体类型的生成问题方法 - Google Patents
一种结合知识库中的三元组和实体类型的生成问题方法 Download PDFInfo
- Publication number
- CN112115687A CN112115687A CN202010872496.7A CN202010872496A CN112115687A CN 112115687 A CN112115687 A CN 112115687A CN 202010872496 A CN202010872496 A CN 202010872496A CN 112115687 A CN112115687 A CN 112115687A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- new
- vector
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 106
- 230000007246 mechanism Effects 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 6
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000001537 neural effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract 3
- 238000013135 deep learning Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 241000282376 Panthera tigris Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004836 empirical method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 208000031968 Cadaver Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结合知识库中的三元组和实体类型的生成问题方法,所述方法一种基于注意力机制的神经网络模型:所述神经网络模型的输入为表示重构过的三元组的词向量序列,输出是通过处理词向量序列得到的一组用来表示问题的词向量序列。首先,利用三元组中的头实体和尾实体对应的实体类型对三元组进行重构,然后利用预训练好的Glove词嵌入获得表示重构得到的新三元组的词向量序列,之后利用一个基于注意力机制的门机制循环神经网络编码输入的词向量序列,再利用另一个基于注意力机制的门机制循环神经网络解码通过编码器得到的三元组的表示,最后处理解码器输出的词向量序列得到生成的问题。本发明结合了知识库中的三元组及三元组中的头实体和尾实体对应的实体类型的信息,通过一种基于注意力机制的神经网络模型得到一个语法上更流畅、与输入的三元组更相关的问题。
Description
技术领域
本发明涉及自然语言处理技术中自然语言文本生成领域,具体涉及一种结合知识库中的三元组和实体类型的生成问题方法。
背景技术
问题生成是自然语言处理领域极一项重要的任务,近年来关于文本生成中的问题生成的的研究越来越多,根据数据源的不同,现有的方法可以分为基于知识库的问题生成,基于文本的问题生成,基于图像和文本的问题生成。
目前长短时记忆网络模型(Serban I V,Garcia-Duran A,Gulcehre C,etal.Generating Factoid Questions With Recurrent Neural Networks:The 30MFactoid Question-Answer Corpus[C]//Proceedings of the 54th Annual Meeting ofthe Association for Computational Linguistics(Volume 1:Long Papers).2016:588-598.)和注意力机制模型(Liu C,Liu K,He S,et al.Generating Questions forKnowledge Bases via Incorporating Diversified Contexts and Answer-Aware Loss[C]//Proceedings of the 2019Conference on Empirical Methods in NaturalLanguage Processing and the 9th International Joint Conference on NaturalLanguage Processing(EMNLP-IJCNLP).2019:2431-2441.)也在广泛使用。使用在自然语言文本生成的神经模型是基于序列到序列(seq2seq)模型,大部分研究也都是基于seq2seq模型进行修改。其主要思路是利用序列到序列模型来捕捉上下文的情节走向,对上下文的内容进行建模,在对上下文建模时会加入额外的知识信息来捕捉一些隐藏的有用信息,以期能够生成符合上下文情节的问题。Serban等人首次提出利用循环神经网络来生成事实性的问题(Serban I V,Garcia-Duran A,Gulcehre C,et al.Generating Factoid QuestionsWith Recurrent Neural Networks:The 30M Factoid Question-Answer Corpus[C]//Proceedings of the 54th Annual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers).2016:588-598.),基于此,Indurthi等人提出利用循环神经网络来生成问题-答案对(Indurthi S R,Raghu D,Khapra M M,etal.Generating natural language question-answer pairs from a knowledge graphusing a RNN based question generation model[C]//Proceedings of the 15thConference of the European Chapter of the Association for ComputationalLinguistics:Volume 1,Long Papers.2017:376-385.),Liu等人提出了现有的基于知识库的问题生成领域(Liu C,Liu K,He S,et al.Generating Questions for KnowledgeBases via Incorporating Diversified Contexts and Answer-Aware Loss[C]//Proceedings of the 2019Conference on Empirical Methods in Natural LanguageProcessing and the 9th International Joint Conference on Natural LanguageProcessing(EMNLP-IJCNLP).2019:2431-2441.)。
然而,现有现有技术都没有考虑捕捉概念层面的信息,比如说《卧虎藏龙》和《踏雪寻梅》这2部都是电影,虽然模型没有见过《踏雪寻梅》这个词语,但是因为捕捉到《卧虎藏龙》和《踏雪寻梅》都是电影的信息。模型如果能够捕捉到概念层面的信息,就可能可以通过电影这个实体类型,正确地生成和《踏雪寻梅》相关的问题,而本发明方法首次提出通过考虑输入的三元组中的实体类型的信息来辅助模型进行问题生成任务。
发明内容
本发明的目的是针对现有技术的不足,考虑通过词性标注的方法对每个上下文进行词性标注,从而得到每个上下文中包含的实体词,然后对于上下文的词通过ConceptNet网获得每个词的三元组信息,然后通过预训练好的Glove词嵌入方法将上下文词,上下文实体词和知识进行词的预序列得到对应的词向量。在编码一段上下文的时候先对第一句和其对应的知识进行编码,输出得到隐藏状态信息,将这个输出作为输入加入到第二局和气对应的知识编码中,得到这一时刻的隐藏状态信息,以此类推以这种累计式增强的方法直到编码完所有的上下文信息,输出得到最后的隐藏状态信息,最后再和通过词性标注得到的实体词进行拼接,从而得到输出最终的隐藏状态信息,将这个拼接好的隐藏状态信息输入到所述的增强型注意力序列到序列的模型中,最后再通过解码得到合乎上下文一组序列。
本发明至少通过如下技术方案之一实现。
一种结合知识库中的三元组和实体类型的生成问题方法,所述方法包括以下步骤:
1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型:所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量;训练集可采用公开的问题生成数据集,如SQuAD数据集;
3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码新三元组的表示;
4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列;
5)、利用步骤4)中得到的词向量序列获得向量表示的词语,词向量序列是1个矩阵,这个矩阵中的每一列是1个向量,每个向量表示1个词语,每一个向量的长度等于整个词汇表中的词语个数,向量中最大维度对应的词语就是该向量表示的词语,最终将所有对应的词语组合起来就是生成的问题,将在生成的问题中出现的实体类型用对应的输入中的三元组中具体的实体替换掉,最终得到一个新的问题作为输出。
进一步地,所述步骤1)重构三元组模型的步骤包括:
1.1)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的的实体类型;
1.2)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体,用E1和E2所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
1.3)、在原始的输入数据中迭代执行步骤1.1)和步骤1.2),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集。
进一步地,所述步骤2)包括:
2.1)、设输入到词向量模型的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
2.2)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。
进一步地,所述步骤3)包括:
3.1)、给定一个三元组,问题是和三元组中的头实体和关系相关的,而问题的答案是三元组中的尾实体,将该三元组的向量输入到注意力机制网络中,通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性,三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素;
3.2)、通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和,在生成问题的每个时刻都获得一个新的三元组的表示:
vs,t=αs,tve1+αp,tve2+αo,tve3
其中ve1、ve2、ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
进一步地,当生成问题中每一个词语时,基于生成的前一个词语的表示,利用注意力机制网络获得输入的三元组中实体、头实体和尾实体的关系、尾实体的权重,具体包括:
S1)、在生成问题中当前词语的t时刻,将所述的头实体或尾实体或头实体和尾实体的关系结合生成的问题前一时刻的词语的表示,得到新的考虑了前一时刻生成的词语的新的头实体、或尾实体、或关系的向量表示:
其中st-1表示的是在t-1时刻生成的词语的表示,va、Wa、Ua分别表示在生成注意力机制网络中可训练的权重矩阵;其中ve1、ve2、ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,hp,t表示新的表示关系的向量,hs,t表示新的表示头实体的向量,ho,t表示新的表示尾实体的向量;
其中αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
进一步地,所述步骤4)包括:
4.1)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,从而得到输出的词语的表示:
4.2)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,通过门机制循环神经网络得到输出的词语的表示:
zt=σ(wzEwyt-1+Uzst-1+Azvs,t)
rt=σ(wrEwyt-1+Urst-1+Arvs,t)
其中W、Ew、U、rt、A、[rt,st-1]、vs,t、σ、wz、Uz、Az、wr、Ur、Ar都表示门机制循环神经网络通过训练获得的参数,yt-1则是指上时刻输出的词语对应的向量表示。
进一步地,所述步骤5)包括:
5.1)、设得到的问题为Y={Y1,Y2,Y3,...,Yt}序列,Yt表示问题中的每一个词语,三元组E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的关系,E4和E5分别表示E1和E3所对应的的实体类型;
5.2)、将所述问题Y中出现的实体类型词,即E4或E5分别用E1和E3替换,得到新的问题Y’作为最终的输出
本发明与现有技术相比,具有如下优点和有益效果:
本发明不仅仅是考虑了单方面的信息,我们同时考虑了三方面的重要信息:上下文内容;上下文实体词和每个词对应得三元组知识信息。并且通过一种合理的累计式的编码方式将这三者信息进行结合。其有益效果:相较于现有的技术得到的结果,本发明能够生成更加符合上下文情节趋势的结局语句。
附图说明
图1为本发明实施例一种结合上下文实体词和知识的故事结局生成的方法的流程图;
图2为本发明实施例采用整体模型设计图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种结合知识库中的三元组和实体类型的生成问题方法,模型图如图2所示,包括以下步骤:
1)、构建增强型注意力序列到序列的重构三元组模型,利用三元组中头实体和尾实体对应的实体类型重构三元组模型,所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
重构三元组模型的步骤包括:
11)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的的实体类型;
12)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体,用E1和E2所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
13)、在原始的输入数据中迭代执行步骤11)和步骤12),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集。
所述深度学习联合模型的输入是由分别表示上下文,实体词和常识知识的向量拼接在一起的词向量,输出是与上下文的有关的一组序列,构建深度学习联合模型的具体步骤包括:
1.2)、将所述上下文词、上下文实体词和知识Kg进行词嵌入预处理,有一个原始的向量表,里面存储了所有词语的表示,预处理即是从向量表中获得上下文词、上下文实体词和知识Kg对应的向量表示,得到相对应的词向量;
1.3)、将步骤1.2)得到的词向量以逐步迭代增强的方式输入长短时记忆网络模型;
1.4)、将所述长短时记忆网络模型的输出向量输入所述注意力机制模型;
1.5)、将所述注意力机制模型的输出参数与上下文实体词向量进行比较,例如当模型的输入是三元组(奥巴马,妻子,米歇尔),以及实体奥巴马和米歇尔,模型的输出的问题为奥巴马的妻子是谁?,假设语料库中的词语有奥、巴、马、妻、子、米、歇、尔、的、是、谁,那么奥字对应的词向量应该是[1,0,0,0,0,0,0,0,0,0,0],巴字对应的词向量应该是[0,1,0,0,0,0,0,0,0,0,0],而假设模型输出的结果中,奥字对应的词向量为[0.2,0.5,0.9,0,0,0,0,0,0,0,0]等,模型就会基于奥字应该对应的词向量[1,0,0,0,0,0,0,0,0,0,0]调整,根据比较结果调整,所述长短时记忆网络模型和所述注意力机制模型的参数,使奥字对应的词向量接近[1,0,0,0,0,0,0,0,0,0,0];
1.6)、迭代执行步骤1.5),当长短时记忆网络模型和所述注意力机制模型参数的准确度的差值稳定,即波动范围小于某个范围时(一般为一个很小的值,如10e-5),得到最终的注意力序列到序列的深度学习联合模型。
2)、对上下文的词进行词性标注,得到相应的词性词,本实施例主要筛选出的是名词和名词复数,具体步骤为:
2.1)、利用词性标注工具将上下文的词进行词性分类,得到其中所包含的名词和名词复数词;
2.2)、将得到的这些名词在输入到长短时记忆网络模型时,与当前的输入向量进行拼接得到新的拼接向量,因为模型在生成问题的时候,由于一些副词的、地出现的次数比较多,模型会倾向于生成这些比较宽泛的词语,而忽略了更具信息含量的一些名词,通过拼接表示词语的词性的向量,能够在一定程度上引导模型捕捉到词语的词性,有望提高模型对名词的关注度,从而在生成问题时生成一些更具信息含量的名词;
3)、通过常识知识获取概念图谱(Speer R,Chin J,Havasi C.Conceptnet 5.5:Anopen multilingual graph of general knowledge[C]//Thirty-First AAAI Conferenceon Artificial Intelligence.2017.)上得到每一个词三元组的常识知识信息,用知识图的形式进行表示具体步骤为:
3.1)、将上下文的词输入到ConceptNet知识库网上,得到每个词对应的三元组信息,并且通过知识图的表示方法得到对应的知识图向量;
3.2)、将得到的知识图向量结合上下文实体词通过注意力机制模型选择比较重要的词的三元组的信息,选择具体过程为:
其中g(x)表示的是知识图向量,hi、ri、ti分别表示的是每个词的头实体、关系、尾实体,表示的是三元组的权重,用于区别哪些三元组权重更大,Wr,Wh,Wt表示的是可学习的用于训练关系实体、头实体、尾实体的参数,tanh是作为激活函数的双曲正切函数,βRi指的是头实体、尾实体、关系实体的表示,等是通过归一化的方式得到新的表示。
4)、通过预训练好的Glove词嵌入方法(Pennington,Jeffrey,Richard Socher,and Christopher D.Manning."Glove:Global vectors for word representation."Proceedings of the 2014conference on empirical methods in natural languageprocessing(EMNLP).2014.)将步骤2)和步骤3)中得到词和上下文中的词进行词向量的表示,同时将这三者通过一个由基于注意力机制的门控制循环神经单元构成的编码器得到其隐含的状态信息,具体步骤为:
4.1)、将上下文的名词实体词,三元组,通过预训练Glove词嵌入方法得到对应的词向量表示,具体如下:
a)、设输入到词向量模型的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
b)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。
4.2)、将上下文通过一种逐步增强的的编码方式进行编码,将第一句的输出当作是第二句的输入,以此类推直到最后一句结束,最后模型输出的隐藏层状态向量涵盖所有上下文的信息。其中在编码每一句时利用基于注意力机制的门机制循环神经网络来学习上下文的能力,最终模型输出上下文隐藏隐藏层状态向量,将上下文隐藏层状态向量和上下文名词实体词的词向量进行拼接得到最终的输入向量,具体如下:
给定一个三元组,问题是和三元组中的头实体和关系相关的,而问题的答案是三元组中的尾实体,将该三元组的向量输入到注意力机制网络中,通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性,三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素;
通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和,在生成问题的每个时刻都获得一个新的三元组的表示:
vs,t=αs,tve1+αp,tve2+αo,tve3
其中ve1、ve2、ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列,具体包括:
在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,从而得到输出的词语的表示:
在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,通过门机制循环神经网络得到输出的词语的表示:
zt=σ(wzEwyt-1+Uzst-1+Azvs,t)
rt=σ(wrEwyt-1+Urst-1+Arvs,t)
其中W、Ew、U、rt、A、[rt,st-1]、vs,t、σ、wz、Uz、Az、wr、Ur、Ar都表示门机制循环神经网络通过训练获得的参数,yt-1则是指上时刻输出的词语对应的向量表示。
5)、将步骤4)中的隐藏层状态向量输入到基于注意力机制的门机制循环神经网络中,并通过负对数似然作为损失函数对编码解码阶段进行跟踪,从而最终得到的输出是一组合乎上下文的序列,步骤5)包括以下步骤:
5.1)、将最终的输入向量输入到注意力序列到序列的深度学力联合模型中;
5.2)、分别输出每1次所述注意力序列到序列深度学习联合模型的输出;
5.3)、把负对数似然作为损失函数,当Φ=Φen+Φde最小时(Φen表示把编码器的输出作为损失函数的输入得到的值,Φde表示把解码器的输出作为损失函数的输入得到的值),将当前的注意力序列到序列深度学习联合模型作为最佳的注意力序列到序列深度学习联合模型,其具体公式为:
5.4)、通过最佳的注意力序列到序列深度学习联合模型得到符合上下文的一组序列语句。
设得到的问题为Y={Y1,Y2,Y3,...,Yt}序列,Yt表示问题中的每一个词语,三元组E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的关系,E4和E5分别表示E1和E3所对应的的实体类型;
将所述问题Y中出现的实体类型词,即E4或E5分别用E1和E3替换,得到新的问题Y’作为最终的输出。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。
Claims (7)
1.一种结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述方法包括以下步骤:
1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型:所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量;
3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码新三元组的表示;
4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列;
5)、利用步骤4)中得到的词向量序列获得向量表示的词语,词向量序列是1个矩阵,这个矩阵中的每一列是1个向量,每个向量表示1个词语,每一个向量的长度等于整个词汇表中的词语个数,向量中最大维度对应的词语就是该向量表示的词语,最终将所有对应的词语组合起来就是生成的问题,将在生成的问题中出现的实体类型用对应的输入中的三元组中具体的实体替换掉,最终得到一个新的问题作为输出。
2.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤1)重构三元组模型的步骤包括:
1.1)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的的实体类型;
1.2)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体,用E1和E2所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
1.3)、在原始的输入数据中迭代执行步骤1.1)和步骤1.2),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集。
3.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤2)具体的步骤包括:
2.1)、设输入到词向量模型的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
2.2)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。
4.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤3)包括:
3.1)、给定一个三元组,问题是和三元组中的头实体和关系相关的,而问题的答案是三元组中的尾实体,将该三元组的向量输入到注意力机制网络中,通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性,三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素;
3.2)、通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和,在生成问题的每个时刻都获得一个新的三元组的表示:
vs,t=αs,tve1+αp,tve2+αo,tve3
其中ve1、ve2、ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
5.根据权利要求4所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,当生成问题中每一个词语时,基于生成的前一个词语的表示,利用注意力机制网络获得输入的三元组中实体、头实体和尾实体的关系、尾实体的权重,具体包括:
S1)、在生成问题中当前词语的t时刻,将所述的头实体或尾实体或头实体和尾实体的关系结合生成的问题前一时刻的词语的表示,得到新的考虑了前一时刻生成的词语的新的头实体、或尾实体、或关系的向量表示:
其中st-1表示的是在t-1时刻生成的词语的表示,va、Wa、Ua分别表示在生成注意力机制网络中可训练的权重矩阵;其中ve1、ve2、ve3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体,hp,t表示新的表示关系的向量,hs,t表示新的表示头实体的向量,ho,t表示新的表示尾实体的向量;
S2)、在生成问题中当前词语的t时刻,基于得到的新的表示头实体、尾实体或头实体和尾实体关系的向量,注意力机制网络计算出三个标量权重分别表示头实体、尾实体和关系的重要性:
其中αs,t、αp,t、αo,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重,这三个数值是通过注意力机制网络计算得到的。
6.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤4)包括:
4.1)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,从而得到输出的词语的表示:
4.2)、在生成问题中的每一个词语的t时刻,将t-1时刻的词语的表示结合t时刻的三元组的表示,通过门机制循环神经网络得到输出的词语的表示:
zt=σ(wzEwyt-1+Uzst-1+Azvs,t)
rt=σ(wrEwyt-1+Urst-1+Arvs,t)
其中W、Ew、U、rt、A、[rt,st-1]、vs,t、σ、wz、Uz、Az、wr、Ur、Ar都表示门机制循环神经网络通过训练获得的参数(要具体说明每个参数对应的含义,否则无法不知道具体是什么参数,yt-1则是指上时刻输出的词语对应的向量表示。
7.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤5)包括:
5.1)、设得到的问题为Y={Y1,Y2,Y3,...,Yt}序列,Yt表示问题中的每一个词语,三元组E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的关系,E4和E5分别表示E1和E3所对应的的实体类型;
5.2)、将所述问题Y中出现的实体类型词,即E4或E5分别用E1和E3替换,得到新的问题Y’作为最终的输出。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872496.7A CN112115687B (zh) | 2020-08-26 | 2020-08-26 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
PCT/CN2020/112924 WO2022041294A1 (zh) | 2020-08-26 | 2020-09-02 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872496.7A CN112115687B (zh) | 2020-08-26 | 2020-08-26 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115687A true CN112115687A (zh) | 2020-12-22 |
CN112115687B CN112115687B (zh) | 2024-04-26 |
Family
ID=73804357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010872496.7A Active CN112115687B (zh) | 2020-08-26 | 2020-08-26 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112115687B (zh) |
WO (1) | WO2022041294A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051929A (zh) * | 2021-03-23 | 2021-06-29 | 电子科技大学 | 一种基于细粒度语义信息增强的实体关系抽取的方法 |
CN113221571A (zh) * | 2021-05-31 | 2021-08-06 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114764566B (zh) * | 2022-04-11 | 2024-01-23 | 中国航空综合技术研究所 | 用于航空领域的知识元抽取方法 |
CN114942998B (zh) * | 2022-04-25 | 2024-02-13 | 西北工业大学 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
CN115936737B (zh) * | 2023-03-10 | 2023-06-23 | 云筑信息科技(成都)有限公司 | 一种确定建材真伪的方法和系统 |
CN116432750B (zh) * | 2023-04-13 | 2023-10-27 | 华中师范大学 | 一种基于盒嵌入的少样本知识图谱补全方法 |
CN117540035B (zh) * | 2024-01-09 | 2024-05-14 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308316A (zh) * | 2018-07-25 | 2019-02-05 | 华南理工大学 | 一种基于主题聚类的自适应对话生成系统 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN110647620A (zh) * | 2019-09-23 | 2020-01-03 | 中国农业大学 | 一种基于置信超平面和词典信息的知识图谱表示学习方法 |
CN111159368A (zh) * | 2019-12-12 | 2020-05-15 | 华南理工大学 | 一种个性化对话的回复生成方法 |
US20200183963A1 (en) * | 2016-09-29 | 2020-06-11 | Koninklijke Philips N.V. | Question generation |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111488440A (zh) * | 2020-03-30 | 2020-08-04 | 华南理工大学 | 一种基于多任务联合的问题生成方法 |
CN111563146A (zh) * | 2020-04-02 | 2020-08-21 | 华南理工大学 | 一种基于推理的难度可控问题生成方法 |
-
2020
- 2020-08-26 CN CN202010872496.7A patent/CN112115687B/zh active Active
- 2020-09-02 WO PCT/CN2020/112924 patent/WO2022041294A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200183963A1 (en) * | 2016-09-29 | 2020-06-11 | Koninklijke Philips N.V. | Question generation |
CN109308316A (zh) * | 2018-07-25 | 2019-02-05 | 华南理工大学 | 一种基于主题聚类的自适应对话生成系统 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN110647620A (zh) * | 2019-09-23 | 2020-01-03 | 中国农业大学 | 一种基于置信超平面和词典信息的知识图谱表示学习方法 |
CN111159368A (zh) * | 2019-12-12 | 2020-05-15 | 华南理工大学 | 一种个性化对话的回复生成方法 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111488440A (zh) * | 2020-03-30 | 2020-08-04 | 华南理工大学 | 一种基于多任务联合的问题生成方法 |
CN111563146A (zh) * | 2020-04-02 | 2020-08-21 | 华南理工大学 | 一种基于推理的难度可控问题生成方法 |
Non-Patent Citations (1)
Title |
---|
宋泽瀚: "基于多源协同注意力网络的复合型问题生成", 中国优秀硕士学位论文全文数据库, pages 4 - 5 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051929A (zh) * | 2021-03-23 | 2021-06-29 | 电子科技大学 | 一种基于细粒度语义信息增强的实体关系抽取的方法 |
CN113221571A (zh) * | 2021-05-31 | 2021-08-06 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
CN113221571B (zh) * | 2021-05-31 | 2022-07-01 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022041294A1 (zh) | 2022-03-03 |
CN112115687B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN111160467B (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110210032B (zh) | 文本处理方法及装置 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
CN111274362B (zh) | 一种基于transformer架构的对话生成方法 | |
US20180144234A1 (en) | Sentence Embedding for Sequence-To-Sequence Matching in a Question-Answer System | |
CN112214591B (zh) | 一种对话预测的方法及装置 | |
CN113569932B (zh) | 一种基于文本层级结构的图像描述生成方法 | |
US11475225B2 (en) | Method, system, electronic device and storage medium for clarification question generation | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
Yu et al. | Training an adaptive dialogue policy for interactive learning of visually grounded word meanings | |
CN109308316B (zh) | 一种基于主题聚类的自适应对话生成系统 | |
CN116484879A (zh) | 提示信息的生成方法、装置、电子设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN117033602A (zh) | 一种多模态的用户心智感知问答模型的构建方法 | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN111046157B (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 | |
CN111813907A (zh) | 一种自然语言问答技术中的问句意图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |