CN113672737A - 知识图谱实体概念描述生成系统 - Google Patents

知识图谱实体概念描述生成系统 Download PDF

Info

Publication number
CN113672737A
CN113672737A CN202010401139.2A CN202010401139A CN113672737A CN 113672737 A CN113672737 A CN 113672737A CN 202010401139 A CN202010401139 A CN 202010401139A CN 113672737 A CN113672737 A CN 113672737A
Authority
CN
China
Prior art keywords
sequence
word
template
decoder
concept description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010401139.2A
Other languages
English (en)
Inventor
陈江捷
刘井平
肖仰华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010401139.2A priority Critical patent/CN113672737A/zh
Publication of CN113672737A publication Critical patent/CN113672737A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种知识图谱实体概念描述生成系统,用于根据知识图谱中实体所对应的包含属性以及值的信息框生成该实体的概念描述文本,其特征在于,包括:词模板生成模块,存储有一个预训练完成的第一序列到序列模型,该第一序列到序列模型包括信息框编码器以及模板解码器,信息框编码器用于将待处理实体所对应的信息框重建为单词序列并编码为第一隐状态,模板解码器用于根据第一隐状态输出模板序列;概念描述文本生成模块,存储有一个预训练完成的第二序列到序列模型,第二序列到序列模型包括模板编码器以及概念描述解码器,模板编码器用于将模板序列编码为第二隐状态,概念描述解码器用于根据第一隐状态以及第二隐状态输出概念描述文本。

Description

知识图谱实体概念描述生成系统
技术领域
本发明属于自然语言生成领域,具体涉及一种利用先验语法模板引导下的表格到文本生成系统。
背景技术
随着大规模开放跨领域知识图谱的兴起,知识图谱技术吸引了越来越多来自学术界与工业界研究者的关注。然而,尽管这种开放领域知识图谱有着非常丰富的结构化信息,其中的实体却经常缺少一个简洁的概念描述文本。在知识图谱中,实体的概念描述是一类可以体现实体分类信息的名词短语。概念描述有着广泛的应用场景,包括问答(例如:“问:“周杰伦”是谁?答:中国台湾音乐家”)、命名实体消歧(例如:“苹果(水果)与苹果(科技公司)”)、信息检索(例如:“列举出所有中国台湾的流行乐歌手”)、精准搜索等等。然而,目前开放领域的知识图谱中仍然缺乏这种数据。
现有技术中,在为实体预测其类型方法大致可分成两类:1)将其建模为一个实体分类问题的方法。传统的命名实体识别系统只针对一小组类别较抽象的类型集合(通常少于10个);最近的研究处理的类型集合则更细粒度一些(一般为几百个)。这种方法旨在从固定的类型集合中分配诸如organization、people、location等类型给文本中提及的实体,或是将大型知识图谱中的实体分类为多种类型。2)将其建模为从知识库中的结构化数据生成自然语言的方法。一种常见的方法是使用人工制作的模板来生成,通过聚类句子自动创建模板,然后使用人工制作的规则来诱导模板;最近随着深度神经网络的兴起,研究者也越来越关注端到端地生成文本的方法。基于该方法,研究人员利用编码器与解码器框架,先将输入的表格或信息框编码成向量表示,再使用解码器解码这些表示并生成描述文本。
然而,在上述的现有技术中,基于分类的方法所使用的类型集合都是固定大小、难以更新的,每次更新都需要训练一个新的模型,因此难以适用于一个不断扩展的知识图谱。此外,对于大规模知识图谱而言,集合中的类型通常过于抽象和粗粒度。尽管这些类型描述了实体的本体类型,但它们的粗粒度程度限制了他们在某些应用中的使用;基于生成的方法则由于在生成过程中无法将概念描述中的修饰词与中心词区分开,因此输出往往会失去概念描述所需的语法结构,导致生成的文本往往具有语法或事实上的错误。
因此,上述现有技术在生成概念描述时往往无法保证如下效果:
1)概念描述必须在语法上是正确的,因为一个小错误可能导致严重的语法错误,例如street with Paris,France显然是错误的;
2)概念描述必须保证对输入信息框的数据保真度,例如,系统不应为一条法国的街道生成street in Germany;
3)概念描述的中心词必须反映实体的正确类型,并且中心词的错误比修饰词的更严重,例如,river in France显然比street in Germany 错得更离谱。
发明内容
为解决上述问题,提供一种基于中心词-修饰词语法规则与神经网络并且能够正确地生成与实体相对应的概念描述文本的概念描述生成系统,本发明采用了如下技术方案:
本发明提供了一种知识图谱实体概念描述生成系统,用于根据知识图谱中实体所对应的包含属性以及值的信息框生成该实体的概念描述文本,其特征在于,包括:中心词修饰词模板生成模块,存储有一个预训练完成的第一序列到序列模型,该第一序列到序列模型包括信息框编码器以及模板解码器,信息框编码器用于将待处理实体所对应的信息框重建为单词序列并编码为第一隐状态Hx,模板解码器用于根据第一隐状态Hx输出模板序列
Figure BDA0002489516830000031
该模板序列
Figure BDA0002489516830000032
为一个包含中心词、修饰词以及相应格式的词模板所对应的序列;概念描述文本生成模块,存储有一个预训练完成的第二序列到序列模型,第二序列到序列模型包括模板编码器以及概念描述解码器,模板编码器用于将模板序列
Figure BDA00024895168300000310
编码为第二隐状态Ht,概念描述解码器用于根据第一隐状态Hx以及第二隐状态Ht对词模板中的中心词以及修饰词进行填充从而输出概念描述文本,其中,概念描述解码器为使用了注意力机制、拷贝机制以及上下文门机制的GRU解码器,概念描述解码器采用注意力机制根据第一隐状态Hx以及第二隐状态分别获得上下文向量
Figure BDA0002489516830000033
Figure BDA0002489516830000034
并采用上下文门机制平衡上下文向量
Figure BDA0002489516830000035
Figure BDA0002489516830000036
并形成上下文门
Figure BDA0002489516830000037
Figure BDA0002489516830000038
式中,
Figure BDA0002489516830000039
均为可学习的参数,e(y)是单词y的向量表示,j为时间步,sj-1为上一时间步的解码器状态,σ为激活函数tanh,接着,使用一个线性插值来整合上下文向量
Figure BDA0002489516830000041
Figure BDA0002489516830000042
上一时间步的解码器状态sj-1以及上一时间步输出的单词yj-1并对概念描述解码器状态进行更新:
Figure BDA0002489516830000043
Figure BDA0002489516830000044
式中,
Figure BDA0002489516830000045
为时间步j时的上下文门机制输出的状态向量,
Figure BDA0002489516830000046
为概念描述解码器在时间步j时的状态向量,W、 U、C1、C2均为可学习的参数,进一步,概念描述解码器通过拷贝机制获取用于填充模板序列的填充词,该填充词分为从信息框的值拷贝而得的拷贝词以及基于词汇表生成的生成词,在时间步j,通过拷贝机制获取的填充词yj的概率函数为:
Figure BDA0002489516830000047
Figure BDA0002489516830000048
式中,zj是一个用于决定填充词yj是拷贝词还是生成词的二元指示符,p(zj|y<j,*)表示在拷贝模式与生成模式之间的转换器,pcopy(yj|y<j,*)与pgen(yj|y<j,*)分别指是拷贝模式与生成模式的概率,最后,生成拷贝分数φcopy与生成分数φgen
Figure BDA0002489516830000049
Figure BDA00024895168300000410
式中,V为原有的词汇表,新的词汇表
Figure BDA00024895168300000411
Figure BDA00024895168300000412
unk为OOV词语的替代词,
Figure BDA00024895168300000413
为xi对应编码器状态,Wc为可学习参数。
本发明提供的知识图谱实体概念描述生成系统,还可以具有这样的技术特征,其中,第一序列到序列模型以及第二序列到序列模型通过如下步骤进行训练:获取包含训练用信息框以及对应的训练用概念描述的训练数据;通过依存句法分析获取训练用概念描述中各个名词短语的root词,并将该root词以及与该root词具有平行关系的词作为中心词并将剩余的除停用词以外的词作为修饰词从而形成训练用词模板;通过训练用词模板以及训练数据完成第一序列到序列模型以及第二序列到序列模型的训练,在训练中,第一序列到序列模型旨在最小化给定信息框情况下训练用词模板的负对数似然,第二序列到序列模型旨在最小化给定训练用词模板和信息框情况下概念描述文本的负对数似然。
本发明提供的知识图谱实体概念描述生成系统,还可以具有这样的技术特征,其中,停用词为标点符号、连词、介词中的任意一种。
本发明提供的知识图谱实体概念描述生成系统,还可以具有这样的技术特征,其中,信息框编码器为采用标准GRU的编码器,信息框的第i个词xi所对应的单词序列为:
Figure BDA0002489516830000051
式中,
Figure BDA0002489516830000052
是词xi的词向量表示,
Figure BDA0002489516830000053
是词xi对应的属性的向量表示,
Figure BDA0002489516830000054
是词xi的位置向量表示,[·;·]为向量拼接,进一步,信息框编码器使用标准的GRU 编码输入
Figure BDA0002489516830000055
并输出第一隐状态
Figure BDA0002489516830000056
式中,Lx是输入文本的单词序列的长度,
Figure BDA0002489516830000057
为xi对应的编码状态向量。
本发明提供的知识图谱实体概念描述生成系统,还可以具有这样的技术特征,其中,模板解码器为带注意力机制的GRU解码器,第一隐状态Hx在输入模板解码器后,输出一系列隐状态
Figure BDA0002489516830000058
以及一个模板序列
Figure BDA0002489516830000059
式中,Lt是所述词模板的长度,
Figure BDA00024895168300000510
为第Li个模版词,Lx是输入所述信息框编码器的所述单词序列的长度。
本发明提供的知识图谱实体概念描述生成系统,还可以具有这样的技术特征,其中,模板编码器为采用双向GRU的编码器,模板编码器使用双向GRU将模板序列
Figure BDA0002489516830000061
编码为第二隐状态
Figure BDA0002489516830000062
式中,Lt为所述模板序列
Figure BDA0002489516830000063
中所述词模板的长度,
Figure BDA0002489516830000064
为模版词ti对应的编码状态向量。
发明作用与效果
根据本发明的知识图谱实体概念描述生成系统,由于具有中心词修饰词模板生成模块以及概念描述生成模块,通过中心词修饰词模板生成模块对实体的信息框进行处理并生成相应的中心词-修饰词模板 (词模板),因此可以让第一序列到序列模型依据短文本中重要的语法规则——中心词-修饰词规则,以无监督的方式获取对应概念描述的词模板,进一步可以通过该词模板指导概念描述生成模块生成概念描述文本,让概念描述生成模块更清楚中心词与修饰词的关系,从而使得生成的概念描述文本的语法更准确。另外,由于在通过概念描述生成模块生成概念描述文本时,还应用了拷贝机制和上下文门机制,因此增强了第二序列到序列模型将输入实体填充到对应位置的能力,并增强了该模型的内容选择能力与事实准确性,较大程度避免了生成虚假事实的情况。通过本发明的知识图谱实体概念描述生成系统,可以解决以往经常忽略生成文本的语法可靠性问题以及受限于OOV而容易忽略输入中低频但正确的实体的问题,自动地生成语法准确、可靠的概念描述文本。
附图说明
图1是本发明实施例中知识图谱实体概念描述生成系统的结构框图;
图2是本发明实施例中概念描述生成过程的示意图;
图3是本发明实施例中信息框及相应的单词序列的示例;以及
图4是本发明实施例中使用依存句法分析提取中心词-修饰词模板的示意图。
具体实施方式
在介绍本发明的知识图谱实体概念描述生成系统之前,先介绍一下中心词-修饰词语法规则与它和概念描述生成之间的关系。由于概念描述本质上是一类名词短语,这决定了它一定遵循着名为中心词- 修饰词规则(head-modifier rule)的语法规则。也就是说,这类名词短语一定包含着一个中心词部分(包含一个或多个词语作为中心词),并且经常会包含着一个修饰词部分(包含一个或多个词语作为修饰词)。中心词部分一般反映了这个概念描述的类型信息,使其在不同类型的实体之间具有区分度;而修饰词部分则限定了这个类型的范围,使其更具细粒度、反映的信息更加丰富。例如,以street in Paris,France 为例,中心词street表示其所表示的实体是一条街道,而修饰词Paris 和France则表示这条街道位于法国巴黎。
接下来,为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的知识图谱实体概念描述生成系统作具体阐述。
<实施例>
图1是本发明实施例中知识图谱实体概念描述生成系统的结构框图。
如图1所示,知识图谱实体概念描述生成系统100具有中心词修饰词模板生成模块101、概念描述文本生成模块102以及用于控制上述各部的控制模块103。
本实施例中,知识图谱实体概念描述生成系统100为一台计算机,中心词修饰词模板生成模块101以及概念描述文本生成模块102在计算机中运行的程序模块,控制模块103中则存储有用于对知识图谱实体概念描述生成系统100的各个构成部分的工作进行控制的计算机程序。
图2是本发明实施例中概念描述生成过程的示意图。
如图2所示,以实体rue Cazotte(法国的某一条街道名)的信息框(infobox)为例,该信息框会通过中心词修饰词模板生成模块101 (即图2中的Stage 1)生成该实体的中心词-修饰词模板“$hed$in $mod$,$mod$”(以下简称“词模板”),进一步通过概念描述文本生成模块102(即图2中的Stage 2)基于该词模板生成实体rue Cazotte 的概念描述文本“street in Paris,France”。另外,如图2所示,每个信息框中都会包括实体的多个一一对应的属性和值。
中心词修饰词模板生成模块101存储有一个预训练完成的第一序列到序列(Seq2Seq)模型,用于将待处理实体信息框输入该第一序列到序列模型并生成概念描述的中心词-修饰词模板。
本实施例中,第一序列到序列模型包括一个信息框编码器以及一个模板解码器,其中,信息框编码器用于将待处理实体所对应的信息框重建为单词序列并编码为第一隐状态Hx;模板解码器用于根据第一隐状态Hx输出一个模板序列
Figure BDA0002489516830000098
的模板解码器。
信息框编码器为一个采用标准GRU的编码器,其输入是一个实体的信息框,接着,信息框编码器会将这个信息框重建为一个单词序列以便进行Seq2Seq的学习。为了将信息框中结构化的信息引入词向量中,信息框编码器会将信息框的值中的第i个词xi所对应的单词序列表示为:
Figure BDA0002489516830000091
式中,
Figure BDA0002489516830000092
是词xi的词向量表示,
Figure BDA0002489516830000093
是词xi对应的属性的向量表示,
Figure BDA0002489516830000094
是词xi的位置向量表示,[·;·]为向量拼接。
进一步,信息框编码器使用标准的GRU编码输入
Figure BDA0002489516830000095
并输出第一隐状态
Figure BDA0002489516830000096
这两个表达式中,Lx是输入文本的单词序列的长度,
Figure BDA0002489516830000097
为xi对应的编码状态向量。
图3是本发明实施例中信息框及相应的单词序列的示例。
如图3所示,图3中左半部分为实体rue Cazotte的信息框,该信息框由一系列(属性,值)对组成;图3中右半部分为根据信息框重建出的单词序列,该单词序列的各个词从信息框的值中获取,每个词都具有相应的属性和位置信息。
模板解码器用于接收信息框编码器编码的隐状态Hx并作为输入,得到一系列解码器隐状态
Figure BDA0002489516830000101
并输出词模板的模板序列
Figure BDA0002489516830000102
Figure BDA0002489516830000103
式中,Lt是所述词模板的长度,
Figure BDA0002489516830000104
为第Li个模版词, Lx是输入所述信息框编码器的所述单词序列的长度。由于模板生成是一个相对更轻量、更简单的任务,模块解码器使用一个经典的带注意力机制的GRU解码器。
对于上述的第一序列到序列模型,需要事先进行训练从而让该第一序列到序列模型从训练数据中学习如何生成模板,但是并没有现成的模板作为标注数据以供第一序列到序列模型的学习。因此,本实施例中,通过Stanford CoreNLP提供的依存句法分析工具预先获取了中心词-修饰词模板。在依存句法分析中,一个名词短语的root几乎就是概念描述中的中心词,因此,通过找到一个概念描述中的root词以及与它具有平行关系的词作为这个概念描述的中心词。剩下的词,除了停用词(包括标点符号、连词、介词等)外均认为是修饰词。
图4是本发明实施例中使用依存句法分析提取中心词-修饰词模板的示意图。
如图4所示,依存句法分析对概念描述“street in Paris,France”进行分析,可以自动地分析出各个词语在句子中的成分,如词“street”为NN(即名词),以及词语之间之间的关系,如修饰关系、平行关系等,具体体现为图中的root、nmod、case、appos、case、punct等。进一步,通过用$hed$代替中心词、用$mod$代替修饰词并保留训练用概念描述中的停用词,即可在无监督的情况下得到与各个训练用概念描述相对应的中心词-修饰词模板,并将这些词模板作为训练用词模板。
通过上述训练数据以及训练用词模板即可完成对第一序列到序列模型的预训练。在训练中,第一序列到序列模型旨在最小化给定信息框情况下模板的负对数似然。
概念描述文本生成模块102存储有一个预训练完成的第二序列到序列模型,用于将中心词修饰词模板生成模块101生成的模板序列
Figure BDA0002489516830000111
以及第一隐状态Hx输入第二序列到序列模型并输出对应待处理实体的概念描述文本。
本实施例中,第二序列到序列模型包括一个模板编码器以及一个概念描述解码器。其中,模板编码器用于将模板序列
Figure BDA0002489516830000116
编码为第二隐状态Ht;概念描述解码器用于根据第一隐状态Hx以及第二隐状态Ht输出概念描述文本。
模板编码器为一个采用双向GRU的编码器。由于模板序列
Figure BDA0002489516830000112
是有序序列,模板编码器使用双向GRU将模板序列
Figure BDA0002489516830000113
编码为第二隐状态
Figure BDA0002489516830000114
式中,Lt为所述模板序列
Figure BDA0002489516830000117
中所述词模板的长度,
Figure BDA0002489516830000115
为模版词ti对应的编码状态向。然后将Ht和Hx提供给概念描述解码器以进一步产生更准确的概念描述。
概念描述解码器也是一个基于GRU的解码器。该概念描述解码器使用了一个双重注意力机制:一个传统的注意力机制以及一个拷贝机制,它们分别在模板表示Ht与信息框表示Hx上使用。这是因为需模型尽可能保存输入信息框中的信息,同时尽可能保持一个从模板中获取的中心词-修饰词结构信息。同时,该概念描述解码器还采用了一个上下文门机制。
本实施例中,与第一GRU解码器相比,除了第二GRU解码器的隐状态和参数不一样以外,第一个传统的注意力机制与模板解码器中的注意力机制是相似的。
首先,概念描述解码器通过注意力机制对第一隐状态Hx以及第二隐状态Ht进行处理并获得Ht与Hx的上下文向量
Figure BDA0002489516830000121
Figure BDA0002489516830000122
接着,概念描述解码器使用上下文门机制来动态的平衡从信息框、模板以及输出中获取的上下文信息、上一时间步的解码器状态以及上亿时间步输出的词,并决定三份信息对最终生成下一个目标词语的贡献的比例,这里通过以下公式计算上下文门
Figure BDA0002489516830000123
Figure BDA0002489516830000124
Figure BDA0002489516830000125
式中,
Figure BDA0002489516830000126
均为可学习的参数,而e(y)是单词y的向量表示,j为时间步,sj-1为上一时间步的解码器状态,σ为激活函数tanh。
接着,使用一个线性插值来整合三份信息并对解码器状态进行更新:
Figure BDA0002489516830000127
Figure BDA0002489516830000128
式中,
Figure BDA0002489516830000129
为时间步j时的上下文门机制输出的状态向量,
Figure BDA00024895168300001210
为概念描述解码器在时间步j时的状态向量,W、U、C1、C2均为可学习的参数。
为了完成一个类似于填槽的操作并提升第二序列到序列模型直接拷贝输入信息框中词的能力,概念描述解码器在第二隐状态Hx上进一步使用了条件拷贝机制。因为生成的词或来自于词汇表或直接来自于输入信息框,记新的词汇表
Figure BDA0002489516830000131
V为原有的词汇表, unk为OOV词语的替代词。在时间步j,产生的yj的概率函数如下所示:
Figure BDA0002489516830000132
式中,zj是一个二元指示符,用来决定yj是从信息框拷贝而得的还是模型生成的,而p(zj|y<j,*)表示在拷贝模式与生成模式之间的转换器,在这里使用一个MLP实现。pcopy(yj|y<j,*)与pgen(yj|y<j,*)指根据拷贝分数φcopy与生成分数φgen经过一个softmax层而得到的拷贝模式与生成模式的概率,用以让模型自动选择目标词汇是应该使用生成模式产生还是拷贝模式产生。
这两个分数通过这种方式计算而得:
Figure BDA0002489516830000133
Figure BDA0002489516830000134
一个词如果来自于输入信息框的值部分,则它被认为是一个被拷贝的词。
本实施例中,根据拷贝分数以及生成分数,概念描述解码器即可通过在每一个时间步从新的词汇表V′中选择概率最高的词语以输出最终的概念描述序列。
第二序列到序列模型的预训练是和第一序列到序列模型一起完成训练的,两者使用相同的训练数据以训练用词模板。在训练中,第二序列到序列模型旨在最小化给定模板和信息框情况下概念描述的负对数似然。
通过上述中心词修饰词模板生成模块101以及概念描述文本生成模块102,知识图谱实体概念描述生成系统100即可根据输入的待处理实体的信息框自动生成相应的概念描述文本,并将这些概念描述文本输出给用户查看或是输出给其他系统进行处理(例如进行自动问答、命名实体消歧等处理)。
实施例作用与效果
根据本实施例提供的知识图谱实体概念描述生成系统,由于具有中心词修饰词模板生成模块以及概念描述生成模块,通过中心词修饰词模板生成模块对实体的信息框进行处理并生成相应的中心词-修饰词模板(词模板),因此可以让第一序列到序列模型依据短文本中重要的语法规则——中心词-修饰词规则,以无监督的方式获取对应概念描述的词模板,进一步可以通过该词模板指导概念描述生成模块生成概念描述文本,让概念描述生成模块更清楚中心词与修饰词的关系,从而使得生成的概念描述文本的语法更准确。另外,由于在通过概念描述生成模块生成概念描述文本时,还应用了拷贝机制和上下文门机制,因此增强了第二序列到序列模型将输入实体填充到对应位置的能力,并增强了该模型的内容选择能力与事实准确性,较大程度避免了生成虚假事实的情况。通过本发明的知识图谱实体概念描述生成系统,可以解决以往经常忽略生成文本的语法可靠性问题以及受限于OOV 而容易忽略输入中低频但正确的实体的问题,自动地生成语法准确、可靠的概念描述文本。
另外,实施例中,由于可以通过无监督的方式从训练用概念描述中获取词模板作为训练用词模板,因此才能实现利用训练用词模板对第一序列到序列模型以及第二序列到序列模型进行训练,充分地语法模板的信息与神经网络结合起来。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (6)

1.一种知识图谱实体概念描述生成系统,用于根据知识图谱中实体所对应的包含属性以及值的信息框生成该实体的概念描述文本,其特征在于,包括:
中心词修饰词模板生成模块,存储有一个预训练完成的第一序列到序列模型,该第一序列到序列模型包括信息框编码器以及模板解码器,所述信息框编码器用于将待处理实体所对应的所述信息框重建为单词序列并编码为第一隐状态Hx,所述模板解码器用于根据所述第一隐状态Hx输出模板序列
Figure FDA0002489516820000011
该模板序列
Figure FDA0002489516820000012
为一个包含中心词、修饰词以及相应格式的词模板所对应的序列;
概念描述文本生成模块,存储有一个预训练完成的第二序列到序列模型,所述第二序列到序列模型包括模板编码器以及概念描述解码器,所述模板编码器用于将所述模板序列
Figure FDA0002489516820000013
编码为第二隐状态Ht,所述概念描述解码器用于根据所述第一隐状态Hx以及所述第二隐状态Ht对所述词模板中的所述中心词以及所述修饰词进行填充从而输出所述概念描述文本,
其中,所述概念描述解码器为使用了注意力机制、拷贝机制以及上下文门机制的GRU解码器,
所述概念描述解码器采用所述注意力机制根据所述第一隐状态Hx以及所述第二隐状态分别获得上下文向量
Figure FDA0002489516820000014
Figure FDA0002489516820000015
并采用所述上下文门机制平衡所述上下文向量
Figure FDA0002489516820000016
Figure FDA0002489516820000017
上一时间步的解码器状态sj-1以及上一时间步输出的单词yj-1,所述上下文门
Figure FDA0002489516820000018
为:
Figure FDA0002489516820000019
Figure FDA0002489516820000021
式中,
Figure FDA0002489516820000022
均为可学习的参数,e(y)是单词y的向量表示,j为时间步,sj-1为上一时间步的解码器状态,σ为激活函数tanh,
接着,使用一个线性插值来整合所述上下文向量
Figure FDA0002489516820000023
Figure FDA0002489516820000024
所述上一时间步的解码器状态sj-1以及所述上一时间步输出的单词yj-1,并对所述概念描述解码器状态进行更新:
Figure FDA0002489516820000025
Figure FDA0002489516820000026
式中,
Figure FDA0002489516820000027
为时间步j时的上下文门机制输出的状态向量,
Figure FDA0002489516820000028
为概念描述解码器在时间步j时的状态向量,W、U、C1、C2均为可学习的参数,
进一步,所述概念描述解码器通过所述拷贝机制获取用于填充所述模板序列的填充词,该填充词分为从所述信息框的值拷贝而得的拷贝词以及基于词汇表生成的生成词,
在时间步j,通过所述拷贝机制获取的所述填充词yj的概率函数为:
Figure FDA0002489516820000029
式中,zj是一个用于决定所述填充词yj是所述拷贝词还是所述生成词的二元指示符,p(zj|y<j,*)表示在拷贝模式与生成模式之间的转换器,pcopy(yj|y<j,*)与pgen(yj|y<j,*)分别指是拷贝模式与生成模式的概率,
最后,生成拷贝分数φcopy与生成分数φgen
Figure FDA0002489516820000031
Figure FDA0002489516820000032
式中,V为原有的词汇表,新的词汇表
Figure FDA0002489516820000033
unk为OOV词语的替代词,
Figure FDA0002489516820000034
为xi对应编码器状态,Wc为可学习参数。
2.根据权利要求1所述的知识图谱实体概念描述生成系统,其特征在于:
其中,所述第一序列到序列模型以及所述第二序列到序列模型通过如下步骤进行训练:
获取包含训练用信息框以及对应的训练用概念描述的训练数据;
通过依存句法分析获取所述训练用概念描述中各个名词短语的root词,并将该root词以及与该root词具有平行关系的词作为中心词并将剩余的除停用词以外的词作为修饰词从而形成训练用词模板;
通过所述训练用词模板以及所述训练数据完成所述第一序列到序列模型以及所述第二序列到序列模型的训练,
在训练中,所述第一序列到序列模型旨在最小化给定所述信息框情况下所述训练用词模板的负对数似然,
所述第二序列到序列模型旨在最小化给定所述训练用词模板和所述信息框情况下所述概念描述文本的负对数似然。
3.根据权利要求2所述的知识图谱实体概念描述生成系统,其特征在于:
其中,所述停用词为标点符号、连词、介词中的任意一种。
4.根据权利要求1所述的知识图谱实体概念描述生成系统,其特征在于:
其中,所述信息框编码器为采用标准GRU的编码器,
所述信息框的第i个词xi所对应的单词序列为:
Figure FDA0002489516820000041
式中,
Figure FDA0002489516820000042
是词xi的词向量表示,
Figure FDA0002489516820000043
是词xi对应的所述属性的向量表示,
Figure FDA0002489516820000044
是词xi的位置向量表示,[·;·]为向量拼接,
进一步,所述信息框编码器使用标准的GRU编码输入
Figure FDA0002489516820000045
Figure FDA0002489516820000046
并输出第一隐状态
Figure FDA0002489516820000047
式中,Lx是输入文本的单词序列的长度,
Figure FDA0002489516820000048
为xi对应的编码状态向量。
5.根据权利要求1所述的知识图谱实体概念描述生成系统,其特征在于:
其中,所述模板解码器为带注意力机制的GRU解码器,
所述第一隐状态Hx在输入所述模板解码器后,输出一系列隐状态
Figure FDA0002489516820000049
以及一个模板序列
Figure FDA00024895168200000411
式中,Lt是所述词模板的长度,
Figure FDA00024895168200000410
为第Li个模版词,Lx是输入所述信息框编码器的所述单词序列的长度。
6.根据权利要求1所述的知识图谱实体概念描述生成系统,其特征在于:
其中,所述模板编码器为采用双向GRU的编码器,
所述模板编码器使用双向GRU将所述模板序列
Figure FDA0002489516820000051
编码为第二隐状态
Figure FDA0002489516820000052
式中,Lt为所述模板序列
Figure FDA0002489516820000053
中所述词模板的长度,
Figure FDA0002489516820000054
为模版词ti对应的编码状态向量。
CN202010401139.2A 2020-05-13 2020-05-13 知识图谱实体概念描述生成系统 Pending CN113672737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010401139.2A CN113672737A (zh) 2020-05-13 2020-05-13 知识图谱实体概念描述生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401139.2A CN113672737A (zh) 2020-05-13 2020-05-13 知识图谱实体概念描述生成系统

Publications (1)

Publication Number Publication Date
CN113672737A true CN113672737A (zh) 2021-11-19

Family

ID=78536940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401139.2A Pending CN113672737A (zh) 2020-05-13 2020-05-13 知识图谱实体概念描述生成系统

Country Status (1)

Country Link
CN (1) CN113672737A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398492A (zh) * 2021-12-24 2022-04-26 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119406A (ko) * 2017-04-25 2018-11-02 강원대학교산학협력단 멀티 태스크 학습 기반 포인터 네트워크를 이용한 한국어 의존 구문 분석 시스템 및 방법
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model
CN110738026A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备
CN110781312A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
US20200134032A1 (en) * 2018-10-31 2020-04-30 Microsoft Technology Licensing, Llc Constructing structured database query language statements from natural language questions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119406A (ko) * 2017-04-25 2018-11-02 강원대학교산학협력단 멀티 태스크 학습 기반 포인터 네트워크를 이용한 한국어 의존 구문 분석 시스템 및 방법
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model
US20200134032A1 (en) * 2018-10-31 2020-04-30 Microsoft Technology Licensing, Llc Constructing structured database query language statements from natural language questions
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110781312A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN110738026A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANGJIE CHEN等: "Ensuring Readability and Data-fidelity using Head-modifier Templates in Deep Type Description Generation", ARXIV, pages 1 - 11 *
刘琦等: "一种面向海量中文文本的典型类属关系识别方法", 计算机工程, no. 02, pages 32 - 36 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398492A (zh) * 2021-12-24 2022-04-26 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质
CN114398492B (zh) * 2021-12-24 2022-08-30 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质

Similar Documents

Publication Publication Date Title
Hui et al. Dynamic hybrid relation exploration network for cross-domain context-dependent semantic parsing
US11972365B2 (en) Question responding apparatus, question responding method and program
De Mori Spoken language understanding: A survey
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
Yoshikawa Joint transition-based dependency parsing and disfluency detection for automatic speech recognition texts
Liu et al. Reinforcement learning for emotional text-to-speech synthesis with improved emotion discriminability
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN115935957B (zh) 一种基于句法分析的句子语法纠错方法及系统
CN116484879A (zh) 提示信息的生成方法、装置、电子设备及存储介质
Tada et al. Robust understanding of robot-directed speech commands using sequence to sequence with noise injection
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
JP2023542057A (ja) グラフベースの時間的分類を用いたニューラルネットワークの訓練
CN113672737A (zh) 知识图谱实体概念描述生成系统
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
Arwidarasti et al. Converting an Indonesian constituency treebank to the Penn treebank format
CN114881010A (zh) 一种基于Transformer和多任务学习的中文语法纠错方法
Zare et al. Deepnorm-a deep learning approach to text normalization
CN114528459A (zh) 一种基于语义的网页信息抽取方法及系统
Liu et al. Investigating for punctuation prediction in Chinese speech transcriptions
Rohatgi et al. DeepNorm-A Deep learning approach to Text Normalization
Kumar et al. Low resource pipeline for spoken language understanding via weak supervision
Wang et al. Speech-and-text transformer: Exploiting unpaired text for end-to-end speech recognition
KR101472029B1 (ko) 색인요소를 이용한 자연어 분석 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination