CN113705196A - 基于图神经网络的中文开放信息抽取方法和装置 - Google Patents
基于图神经网络的中文开放信息抽取方法和装置 Download PDFInfo
- Publication number
- CN113705196A CN113705196A CN202110882753.XA CN202110882753A CN113705196A CN 113705196 A CN113705196 A CN 113705196A CN 202110882753 A CN202110882753 A CN 202110882753A CN 113705196 A CN113705196 A CN 113705196A
- Authority
- CN
- China
- Prior art keywords
- character
- predicate
- network
- representation
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 238
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 142
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 170
- 230000014509 gene expression Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 15
- 239000013604 expression vector Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000536 complexating effect Effects 0.000 claims 1
- 230000010354 integration Effects 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 16
- 238000003058 natural language processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于图神经网络的中文开放信息抽取方法和装置,包括:将待测中文语句文本输入谓语抽取模型,输出谓语结果;谓语抽取模型是基于样本中文语句文本和谓语标签进行训练得到的,谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;将谓语结果和待测中文语句文本输入主宾抽取模型,输出主语结果和宾语结果;主宾抽取模型是基于样本中文语句文本和主谓宾三元组标签进行训练得到的,主宾抽取模型训练时的网络结构与谓语抽取模型架构相同。本发明提供的方法和装置,实现了融合分词和依存句法信息,提高了抽取开放的事实主谓宾知识三元组的准确率。
Description
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于图神经网络的中文开放信息抽取方法和装置。
背景技术
开放信息抽取是自然语言处理领域的一个重要任务,其目的是从无结构化的文本中抽取出半结构化的事实知识。相比于传统的模式(schema)限定的关系抽取,开放信息抽取不限制关系类别,因此能够从文本中抽取更丰富的事实知识。开放信息抽取能够用于很多下游任务,如使用开放的事实三元组进行知识库构建,用于搜索引擎返回搜索结果,以及构建文档知识图来帮助文档摘要等。
传统的开放信息抽取系统大多是基于句法模式和启发式规则。例如,英文开放信息抽取系统ReVerb、ClausIE、OpenIE4以及中文系统CORE、ZORE等,都是利用外部的自然语言处理工具来得到句子的词性标签或依存句法特征,之后生成词性或依存句法模式来抽取事实知识元组。这些系统中所使用的句法模式仅能用于特定语言,难以扩展到其他语言。另外,这些基于模式的系统难以处理复杂的句子以及自然语言多样的表达,在工业场景下难以达到实用水平。
最近,研究人员尝试把神经网络模型应用到开放信息抽取任务上,来解决基于句法模式的系统的局限性。神经网络开放信息抽取模型可以分为两大类:序列生成和区间筛选。序列生成模型,如Neural Open IE、Logician、IMOJIE等,使用编码器-解码器框架从输入句子中直接生成事实知识元组。区间筛选模型,如RnnOIE、SpanOIE等,从句子中选择区间作为谓语、主语、宾语等。SpanOIE采用候选区间分类的方法来得到谓语及对应的主语和宾语,最终组合得到事实知识元组。
之前的序列生成模型和区间筛选模型大多是单词级别的,在中文上会造成分词错误的传递。例如,在句子“A国外交部长/B/率/团/访问/C国”中,单词“A国”和“外交部长”被错误地切分为了一个单词“A国外交部长”,这会导致单词级别的模型无法提取出另一组事实主谓宾知识三元组(A国,外交部长,B)。
事实证明,依存句法知识有利于许多信息抽取任务,如语义角色标注和关系抽取等。然而,现有的神经开放信息抽取模型通常以比较浅层次的方式来整合依存句法信息。例如,SpanOIE把单词的依存标签嵌入和词嵌入拼接起来,共同作为句子编码器的输入。这种做法忽略了依存句法树的拓扑结构信息,难以捕获关系和实体之间在依存树上的多跳依赖。
因此,如何避免现有的中文信息抽取技术中由于分词错误的传递,以及缺乏依存句法树的拓扑结构,难以捕获多跳依赖造成的事实主谓宾三元组的提取错误,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明提供一种基于图神经网络的中文开放信息抽取方法和装置,用以解决现有的中文信息抽取技术中由于分词错误的传递,缺乏依存句法树的拓扑结构,以及难以捕获多跳依赖造成的事实主谓宾三元组的提取错误的问题。
本发明提供一种基于图神经网络的中文开放信息抽取方法,包括:
确定待抽取主谓宾三元组信息的待测中文语句文本;
将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;
将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
根据本发明提供的一种基于图神经网络的中文开放信息抽取方法,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络,具体包括:
所述谓语抽取模型的训练过程中,
嵌入词性的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接字符对应的单词的词性嵌入向量,通过字符级的上下文编码器输出样本中文语句文本中各个字符的第一字符上下文表示向量至第一多粒度依存图字符表示神经网络;
所述第一多粒度依存图字符表示神经网络基于输入的所述第一字符上下文表示向量得到所述多粒度依存图中节点的初始第一字符结点表示向量,并输出至谓语区间分类网络;
所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率;
其中,所述谓语预测概率用于构建所述谓语抽取模型训练时的损失函数。
根据本发明提供的一种基于图神经网络的中文开放信息抽取方法,所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率,具体包括:
所述谓语区间分类网络通过如下公式计算任一短语区间<ci,…,cj>1≤i≤j≤N的谓语预测概率p(i,j)
其中,Wp为待优化谓语分类权重矩阵,d为所述初始第一字符结点表示向量的维度,为任一字符结点i的初始第一字符结点表示向量,为任一字符结点j的初始第一字符结点表示向量,L为第一多粒度依存图字符表示神经网络中的网络总层数,N为任一样本中文语句文本中字符总数,任一短语区间<ci,…,cj>1≤i≤j≤N为由所述任一样本中文语句文本中连续的字符ci,…,cj组成的短语区间。
根据本发明提供的一种基于图神经网络的中文开放信息抽取方法,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络,具体包括:
所述主宾抽取模型的训练过程中,
嵌入谓语标签的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接谓语标签的相对位置嵌入向量,通过上下文编码器输出样本中文语句文本中各个字符的第二字符上下文表示向量至第二多粒度依存图字符表示神经网络;
所述第二多粒度依存图字符表示神经网络将输入的所述第二字符上下文表示向量以所述多粒度依存图中的字符结点进行表示,得到第二字符结点表示向量并输出至主宾区间抽取网络;
所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对;
其中,所述主语预测概率和宾语预测概率用于构建所述主宾抽取模型训练时的损失函数。
根据本发明提供的一种基于图神经网络的中文开放信息抽取方法,所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对,具体包括:
所述主宾区间抽取网络通过如下公式计算对应于目标谓语标签的样本中文语句文本的目标起始点预测概率向量psubj_start和目标终止点预测概率向量psubj_end:
psubj_start=softmax(Wsubj_startU)
psubj_end=softmax(Wsubj_endU)
其中,均为是待学习权重矩阵,和分别为开始和结束位置概率在句子中所有字符上的分布,为所有字符结点集合,当psubj_start为样本中文语句文本的主语起始点预测概率向量,则psubj_end为所述样本中文语句文本的主语终止点预测概率向量,当psubj_start为样本中文语句文本的宾语起始点预测概率向量,则psubj_end为所述样本中文语句文本的宾语终止点预测概率向量,U为所述样本中文语句文本的所有字符的第二字符结点表示向量组成的矩阵,所述第二字符结点表示向量的维度为d。
根据本发明提供的一种基于图神经网络的中文开放信息抽取方法,所述第一多粒度依存图字符表示神经网络和所述第二多粒度依存图字符表示神经网络均为基于预先构建的多粒度依存图构建的深度图注意力网络;
其中,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出。
根据本发明提供的一种基于图神经网络的中文开放信息抽取方法,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出,具体包括:
其中,hi为所述任一字符结点i的目标字符上下文表示向量,表示字符结点i在所述多粒度依存图中的所有以软切分边相连的邻居字符结点,为所述多粒度依存图,其中,是顶点集合,是边集合, 为所有单词结点集合,为所有字符结点集合,边集合包含所有的依存边和软切分边,为d维向量,d为预设参数;
其中,和分别表示第l-1层图注意力网络输出的字符结点i和字符结点j的向量表示, 和分别为待学习线性映射矩阵、待学习特征转化矩阵和待学习注意力参数向量,||是拼接操作符,dh为预设参数,h=0,1,…,L-1,l=1,2,…,L,L为所述深度图注意力网络总层数;
本发明还提供一种基于图神经网络的中文开放信息抽取装置,包括:
确定单元,用于确定待抽取主谓宾三元组信息的待测中文语句文本;
谓语抽取单元,用于将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;
主宾抽取单元,用于将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的基于图神经网络的中文开放信息抽取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的基于图神经网络的中文开放信息抽取方法的步骤。
本发明提供的基于图神经网络的中文开放信息抽取方法和装置,通过确定待抽取主谓宾三元组信息的待测中文语句文本;将所述待测中文语句文本输入谓语抽取模型,输出谓语结果,再将谓语结果和待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果。由于谓语抽取模型训练时的网络结构包括嵌入词性的字符上下文表示网络,因此,样本中文语句文本中的字符向量初步表示中就嵌入了词性信息,词性信息包括主语、谓语、宾语和形容词等等,而该网络结构中还包括第一多粒度依存图字符表示神经网络,即通过神经网络的迭代计算将为所有字符和单词构建的多粒度依存图中的字符结点编码成字符向量,其中,第一多粒度依存图为基于句子的分词和依存句法树构成,可以缓解中文分词错误的传递以及捕获多跳的依存知识,如此,训练好的谓语抽取模型被使用进行待测语句中的谓语抽取时,还能考虑待测语句中的各个单词的词性信息,同理,由于主宾抽取模型训练时具有与谓语抽取模型训练时相似的网络结构,故主宾抽取模型被使用进行待测语句中的谓语抽取时也能考虑待测语句中的各个单词的词性信息且可以缓解中文分词错误的传递以及捕获多跳的依存知识。因此,本发明提供的方法和装置,实现了融合分词和依存句法信息,提高了抽取开放的事实主谓宾知识三元组的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于图神经网络的中文开放信息抽取方法的流程示意图;
图2为本发明提供的基于图神经网络的中文开放信息抽取装置的结构示意图;
图3为本发明提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有的中文信息抽取技术中普遍存在由于分词错误的传递,缺乏依存句法树的拓扑结构,以及难以捕获多跳依赖造成的事实主谓宾三元组的提取错误的问题。下面结合图1描述本发明的一种基于图神经网络的中文开放信息抽取方法。图1为本发明提供的一种基于图神经网络的中文开放信息抽取方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待抽取主谓宾三元组信息的待测中文语句文本。
具体地,确定待抽取主谓宾三元组信息的待测中文语句文本,通常,所述待测中文语句文本不止包括一个主谓宾三元组信息,例如,“A国外交部长/B/率/团/访问/C国”中,就有两组事实主谓宾知识三元组,分别是(A国,外交部长,是B)和(A国外交部长,访问,C国家)。下面先给出中文开放信息抽取任务的形式化定义。我们把中文开放信息抽取任务形式化为一个区间抽取任务:给定一个由N个字符组成的句子S=<c1,…,cN>,目标是抽取出其中表达的M个事实三元组T={(s1,p1,o1),…,(sM,pM,oM)}。si,pi,oi分别表示一个事实三元组的主语、谓语和宾语,并且在本发明中被定义为句子中的区间。这里我们定义区间为句子S中连续的字符片段<ci,…,cj>1≤i≤j≤N。我们只考虑抽取二元知识元组,也就是仅有一个主语和一个宾语。
步骤120,将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络。
具体地,在步骤110确定的待测中文语句文本的基础上,将所述待测中文语句文本分别输入预先训练好的谓语抽取模型,所述谓语抽取模型输出待测中文语句文本对应的谓语结果,其中,所述谓语抽取模型是基于大量的样本中文语句文本和对应的谓语标签进行训练得到的,如此可以保证训练完成后谓语抽取模型的准确率,而谓语抽取模型训练时的网络结构包括依次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络,其中,所述嵌入词性的字符上下文表示网络对输入的样本中文语句文本进行分词后加入词性特征对语句中的每一个字符进行结合上下文信息的初步嵌入式表示,此处需要说明的是,中文词性的类型即包括名词、动词、形容词、副词、代词和介词等等;然后再基于第一多粒度依存图字符表示神经网络对初步嵌入式表示进行进一步地特征表达,使用神经网络进一步嵌入式表达既有分词和依存句法树构建的多粒度依存图中的字符结点的特征向量,得到可以避免分词错误以及可以捕获多跳依存知识的字符向量,最后在字符的完整向量表达的基础上通过谓语区间分类网络对谓语区间进行预测,即输出预测概率超过预设概率阈值的区间对应的字符组合短语为谓语结果。由于嵌入词性的字符上下文表示网络中在对字符进行初步的上下文嵌入式向量表示时添加了词性特征,训练好的谓语抽取模型在被使用时也能考虑分词词性信息,而第一多粒度依存图字符表示神经网络可以避免分词错误的传递,通过依存句法树的拓扑结构,捕获多跳依赖。
步骤130,将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
具体地,在步骤110确定的待测中文语句文本以及步骤120输出谓语结果的基础上,将所述待测中文语句文本和所述谓语结果输入预先训练好的主宾抽取模型,主宾抽取模型输出对应的主语结果和宾语结果,此处需要说明的是,由于谓语结果中可能包括不止一个谓语,当包括两个或者以上的谓语时,输出的对应的主语结果和宾语结果是对应于各自的谓语的,即一个谓语就有一组对应的主语结果和宾语结果,Q个谓语就有Q组事实主谓宾知识三元组。所述主宾抽取模型是基于大量的样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,事实上是中文语句文本和谓语作为样本,对应的主语和宾语作为标签,由于训练数据量大,可以保证训练完成后主宾抽取模型的准确率,而主宾抽取模型训练时的网络结构包括依次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络,其中,所述嵌入谓语标签的字符上下文表示网络对输入的样本中文语句文本进行分词后加入谓语位置特征对语句中的每一个字符进行结合上下文信息的初步嵌入式表示,此处需要说明的是,谓语位置特征基于谓语在对应中文语句文本样本中的起始位置和终止位置进行描述;然后再基于第二多粒度依存图字符表示神经网络对初步嵌入式表示进行进一步地特征表达,使用神经网络进一步嵌入式表达既有分词和依存句法树构建的多粒度依存图中的字符结点的特征向量,得到可以避免分词错误以及可以捕获多跳依存知识的字符向量,最后在字符的完整向量表达的基础上通过主宾区间抽取网络对主语区间和宾语区间进行预测,主宾区间抽取网络中包括两个网络分支,分别为主语区间分类网络和宾语区间分类网络,其中,主语区间分类网络输出主语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为主语结果,宾语区间分类网络输出宾语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为宾语结果。由于嵌入谓语标签的字符上下文表示网络中在对字符进行初步的上下文嵌入式向量表示时添加了谓语位置特征,训练好的主宾抽取模型在被使用时也能考虑分词词性信息,而第二多粒度依存图字符表示神经网络可以避免分词错误的传递,通过依存句法树的拓扑结构,捕获多跳依赖。
本发明提供的方法,通过确定待抽取主谓宾三元组信息的待测中文语句文本;将所述待测中文语句文本输入谓语抽取模型,输出谓语结果,再将谓语结果和待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果。由于谓语抽取模型训练时的网络结构包括嵌入词性的字符上下文表示网络,因此,样本中文语句文本中的字符向量初步表示中就嵌入了词性信息,词性信息包括主语、谓语、宾语和形容词等等,而该网络结构中还包括第一多粒度依存图字符表示神经网络,即通过神经网络的迭代计算将为所有字符和单词构建的多粒度依存图中的字符结点编码成字符向量,其中,第一多粒度依存图为基于句子的分词和依存句法树构成,可以缓解中文分词错误的传递以及捕获多跳的依存知识,如此,训练好的谓语抽取模型被使用进行待测语句中的谓语抽取时,还能考虑待测语句中的各个单词的词性信息,同理,由于主宾抽取模型训练时具有与谓语抽取模型训练时相似的网络结构,故主宾抽取模型被使用进行待测语句中的谓语抽取时也能考虑待测语句中的各个单词的词性信息且可以缓解中文分词错误的传递以及捕获多跳的依存知识。因此,本发明提供的方法,实现了融合分词和依存句法信息,提高了抽取开放的事实主谓宾知识三元组的准确率。
基于上述实施例,该方法中,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络,具体包括:
所述谓语抽取模型的训练过程中,
嵌入词性的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接字符对应的单词的词性嵌入向量,通过字符级的上下文编码器输出样本中文语句文本中各个字符的第一字符上下文表示向量至第一多粒度依存图字符表示神经网络;
所述第一多粒度依存图字符表示神经网络基于输入的所述第一字符上下文表示向量得到所述多粒度依存图中节点的初始第一字符结点表示向量,并输出至谓语区间分类网络;
所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率;
其中,所述谓语预测概率用于构建所述谓语抽取模型训练时的损失函数。
具体地,谓语抽取模型的训练过程中,对模型训练时网络结构中的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络分别进行的处理操作进行说明。
所述嵌入词性的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接字符对应的单词的词性嵌入向量,通过字符级的上下文编码器输出样本中文语句文本中各个字符的第一字符上下文表示向量,具体包括:使用预训练的word2vec词向量把每个字符ci映射到它的分布式表示在嵌入词性的字符上下文表示网络的初步字符向量表示阶段,拼接各个字符的词性特征嵌入fi到每个字符,此处需要说明的是,中文词性包括常见的动词、名词、形容词、副词、代词和介词等等。拼接之后的字符表示为xi=[ci;fi],字符嵌入的序列<x1,…,xN>直接作为上下文编码器的输入。为了得到每个字符的上下文相关的表示,使用BiLSTM来建模输入序列。BiLSTM从前后向两个方向来处理字符输入序列,和分别代表第i个字符的左右方向的隐状态。通过拼接左右隐状态,得到最终的任一字符i的第一字符上下文表示向量
可选地,所述第一多粒度依存图字符表示神经网络将输入的所述第一字符上下文表示向量以所述多粒度依存图中的字符结点进行表示。具体地,本实施例提出了构建多粒度的依存图,多粒度依存图中的单词结点和字符结点通过两种类型的无向边相互连接,所述无向边包括两种:依存边以及软切分边。为了构建多粒度依存图,先通过中文自然语言处理工具LTP获得句子的分词以及依存句法树。保留分词后的单词作为多粒度依存图中的单词结点,把依存句法树上的有向边转化为图中单词结点之间的依存边。一个单词结点与所有构成它的字符节点之间用软切分边相连。例如,单词结点“新加坡”有软切分边连向字符结点“新”、“加”和“坡”。这样,当后续使用字符结点进行预测时,通过特定NLP工具得到的分词信息可以作为软提示来指示单词的边界,既利用了分词信息,又缓解了分词错误的传递。多粒度依存图通过单词-单词依存边以及单词-字符软切分边来融入依存句法结构信息以及分词知识,来更好地帮助模型进行预测。
图神经网络已经被广泛地应用于建模图结构数据。图神经网络能够通过收集结点的邻居信息来捕获图上的多跳依赖特征。在各种图神经网络的变体中,本实施例选择了第一多粒度依存图字符表示神经网络来作为本发明的图编码器。第一多粒度依存图字符表示神经网络能基于句子的分词以及依存句法树,从而利用了分词信息,又缓解了分词错误的传递。
所述谓语区间分类网络基于第一多粒度依存图字符表示神经网络输出的中文语句文本样本中任一字符的完整的嵌入式向量表示进行谓语区间预测概率的计算,对于计算概率结果超过预设概率阈值的谓语区间中对应的字符组成的短语都认定为预测谓语结果,因此,谓语结果可以有多个,即一个中文语句文本中可以有多组事实主谓宾知识三元组,
训练过程中的最后一步即比较预测结果和参考标签之间的误差,以该误差反向传播对网络结构中的待学习参数进行逐轮次调整。该误差的表述形式为损失函数,损失函数即基于谓语预测概率和谓语标签构建,优选地,使用交叉熵公式构建。
基于上述实施例,该方法中,所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率,具体包括:
所述谓语区间分类网络通过如下公式计算任一短语区间<ci,…,cj>1≤i≤j≤N的谓语预测概率p(i,j)
其中,Wp为待优化谓语分类权重矩阵,d为所述初始第一字符结点表示向量的维度,为任一字符结点i的初始第一字符结点表示向量,为任一字符结点j的初始第一字符结点表示向量,L为第一多粒度依存图字符表示神经网络中的网络总层数,N为任一样本中文语句文本中字符总数,任一短语区间<ci,…,cj>1≤i≤j≤N为由所述任一样本中文语句文本中连续的字符ci,…,cj组成的短语区间。
具体地,本实施例进一步限定如何使用本发明所提出的嵌入词性的字符上下文表示网络和第一多粒度依存图字符表示神经网络组成的完整字符嵌入式向量表达网络来从中文语句文本中抽取事实主谓宾知识三元组。谓语抽取模型中的谓语区间分类网络从句子中抽取出所有的谓词区间结果。
本实施例把谓语抽取建模为一个区间分类问题,仅保留满足最大长度限制和语法约束的不重叠区间作为分类候选。对于一个候选区间<ci,…,cj>1≤i≤j≤N,选择它的开始ci和结束字符cj的特征,来预测它是一个谓语区间的概率,
其中,Wp为待优化谓语分类权重矩阵,d为所述初始第一字符结点表示向量的维度,为任一字符结点i的初始第一字符结点表示向量,为任一字符结点j的初始第一字符结点表示向量,L为第一多粒度依存图字符表示神经网络中的网络总层数,N为任一样本中文语句文本中字符总数,任一短语区间<ci,…,cj>1≤i≤j≤N为由所述任一样本中文语句文本中连续的字符ci,…,cj组成的短语区间。
基于上述实施例,该方法中,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络,具体包括:
所述主宾抽取模型的训练过程中,
嵌入谓语标签的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接谓语标签的相对位置嵌入向量,通过上下文编码器输出样本中文语句文本中各个字符的第二字符上下文表示向量至第二多粒度依存图字符表示神经网络;
所述第二多粒度依存图字符表示神经网络将输入的所述第二字符上下文表示向量以所述多粒度依存图中的字符结点进行表示,得到第二字符结点表示向量并输出至主宾区间抽取网络;
所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对;
其中,所述主语预测概率和宾语预测概率用于构建所述主宾抽取模型训练时的损失函数。
具体地,所述嵌入谓语标签的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接谓语标签的相对位置嵌入向量,通过上下文编码器输出样本中文语句文本中各个字符的第二字符上下文表示向量,具体包括:使用预训练的word2vec词向量把每个字符ci映射到它的分布式表示在嵌入谓语位置特征的字符上下文表示网络的初步字符向量表示阶段,拼接各个字符的谓语位置特征嵌入fi到每个字符,此处需要说明的是,谓语位置特征通过标记谓语的起始字符和终止字符进行描述表示。拼接之后的字符表示为xi=[ci;fi],字符嵌入的序列<x1,…,xN>直接作为上下文编码器的输入。为了得到每个字符的上下文相关的表示,使用BiLSTM来建模输入序列。BiLSTM从前后向两个方向来处理字符输入序列,和分别代表第i个字符的左右方向的隐状态。通过拼接左右隐状态,得到最终的任一字符i的第二字符上下文表示向量
可选地,所述第二多粒度依存图字符表示神经网络将输入的所述第二字符上下文表示向量以所述多粒度依存图中的字符结点进行表示。具体地,本实施例提出的构建多粒度的依存图与前文所述的谓语抽取模型中的第一多粒度依存图字符表示神经网络一致,同样是:
多粒度依存图中的单词结点和字符结点通过两种类型的无向边相互连接,所述无向边包括两种:依存边以及软切分边。为了构建多粒度依存图,先通过中文自然语言处理工具LTP获得句子的分词以及依存句法树。保留分词后的单词作为多粒度依存图中的单词结点,把依存句法树上的有向边转化为图中单词结点之间的依存边。一个单词结点与所有构成它的字符节点之间用软切分边相连。例如,单词结点“新加坡”有软切分边连向字符结点“新”、“加”和“坡”。这样,当后续使用字符结点进行预测时,通过特定NLP工具得到的分词信息可以作为软提示来指示单词的边界,既利用了分词信息,又缓解了分词错误的传递。多粒度依存图通过单词-单词依存边以及单词-字符软切分边来融入依存句法结构信息以及分词知识,来更好地帮助模型进行预测。
图神经网络已经被广泛地应用于建模图结构数据。图神经网络能够通过收集结点的邻居信息来捕获图上的多跳依赖特征。在各种图神经网络的变体中,本实施例选择了第二多粒度依存图字符表示神经网络来作为本发明提供的主宾抽取模型中的第二多粒度依存图字符表示神经网络的图编码器。第二多粒度依存图字符表示神经网络能基于句子的分词以及依存句法树,从而利用了分词信息,又缓解了分词错误的传递。
所述主宾区间抽取网络基于第二多粒度依存图字符表示神经网络输出的中文语句文本样本中任一字符的完整的嵌入式向量表示进行主语区间预测概率和宾语区间预测概率的计算,主宾区间抽取网络中包括两个网络分支,分别为主语区间分类网络和宾语区间分类网络,其中,主语区间分类网络输出主语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为主语结果,宾语区间分类网络输出宾语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为宾语结果。由于主语和宾语都是对应于样本谓语的输出结果,那么输入的谓语结果的个数,与主语和宾语二元组的组数相同。
训练过程中的最后一步即比较预测结果和参考标签之间的误差,以该误差反向传播对网络结构中的待学习参数进行逐轮次调整。该误差的表述形式为损失函数,包括两个损失函数,第一损失函数即基于主语预测概率和主语标签构建,第二损失函数即基于宾语预测概率和宾语标签构建,优选地,所述两个损失函数均使用交叉熵公式构建。
基于上述实施例,该方法中,所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对,具体包括:
所述主宾区间抽取网络通过如下公式计算对应于目标谓语标签的样本中文语句文本的目标起始点预测概率向量psubj_start和目标终止点预测概率向量psubj_end:
psubj_start=softmax(Wsubj_startU)
psubj_end=softmax(Wsubj_endU)
其中,均为是待学习权重矩阵,和分别为开始和结束位置概率在句子中所有字符上的分布,为所有字符结点集合,当psubj_start为样本中文语句文本的主语起始点预测概率向量,则psubj_end为所述样本中文语句文本的主语终止点预测概率向量,当psubj_start为样本中文语句文本的宾语起始点预测概率向量,则psubj_end为所述样本中文语句文本的宾语终止点预测概率向量,U为所述样本中文语句文本的所有字符的第二字符结点表示向量组成的矩阵,所述第二字符结点表示向量的维度为d。
具体地,对于在谓语抽取模型输出得到的每隔谓语结果,也抽取每个谓语结果对应的头尾实体,即主语结果和宾语结果。为了抽取主语,对所有字符结点的特征U进行线性变换来计算得到每个字符作为主语区间的开始和结束位置的概率:
psubj_start=softmax(Wsubj_startU)
psubj_end=softmax(Wsubj_endU)
其中,均为是待学习权重矩阵,和分别为开始和结束位置概率在句子中所有字符上的分布,为所有字符结点集合,当psubj_start为样本中文语句文本的主语起始点预测概率向量,则psubj_end为所述样本中文语句文本的主语终止点预测概率向量,当psubj_start为样本中文语句文本的宾语起始点预测概率向量,则psubj_end为所述样本中文语句文本的宾语终止点预测概率向量,U为所述样本中文语句文本的所有字符的第二字符结点表示向量组成的矩阵,所述第二字符结点表示向量的维度为d。
在训练时,谓语抽取模型和主宾抽取模型独立地进行优化训练。主宾抽取模型训练时使用中文语句文本样本中正确标注的谓语标签进行训练。在两个模型配合被使用时,先由谓语抽取模型得到谓语结果集合,再将谓语结果集合作为主宾抽取模型的输入,然后把两个模型输出的结果综合起来得到最终输出的事实主谓宾知识三元组结果。
基于上述实施例,该方法中,所述第一多粒度依存图字符表示神经网络和所述第二多粒度依存图字符表示神经网络均为基于预先构建的多粒度依存图构建的深度图注意力网络;
其中,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出。
具体地,图神经网络已经被广泛地应用于建模图结构数据,图神经网络能够通过收集结点的邻居信息来捕获图上的多跳依赖特征。在各种图神经网络的变体中,本发明选择了图注意力网络来作为的图编码器。图注意力网络能够在收集邻居结点的信息时控制不同结点的权重,使结点更加关注其邻居中重要的信息而减小噪音的影响。
基于上述实施例,该方法中,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出,具体包括:
其中,hi为所述任一字符结点i的目标字符上下文表示向量,表示字符结点i在所述多粒度依存图中的所有以软切分边相连的邻居字符结点,为所述多粒度依存图,其中,是顶点集合,是边集合, 为所有单词结点集合,为所有字符结点集合,边集合包含所有的依存边和软切分边,为d维向量,d为预设参数;
其中,和分别表示第l-1层图注意力网络输出的字符结点i和字符结点j的向量表示, 和分别为待学习线性映射矩阵、待学习特征转化矩阵和待学习注意力参数向量,||是拼接操作符,dh为预设参数,h=0,1,…,L-1,l=1,2,…,L,L为所述深度图注意力网络总层数;
具体地,假设表示一个图,其中是顶点集,是边集。在构建的多粒度依存图中,包含所有的单词结点以及字符结点边集包含所有的依存边和软切分边。令表示第l层图注意力网络中第i个结点的嵌入,d是结点嵌入的维度。用BiLSTM句子编码器的输出来初始化多粒度依存图中结点的表示,
其中表示结点i的所有以软切分边相连的邻居,即单词结点的初始化是通过对它对应的所有字符的隐状态进行池化得到。使用表示连接结点i和结点j的边的类型嵌入。根据多粒度依存图中无向边的类型来随机初始化ui→j,得到边的初始表示。
本方法使用多头注意力机制来更新结点表示。具体地,多头注意力机制用H个注意力头来从邻居结点收集信息,每个注意力头都把输入转化到不同的特征空间来关注邻居的不同方面的信息。对于注意力头h,首先通过一层前馈神经网络来计算每一对结点之间的注意力分数
其中,和表示第l-1层中结点i和结点j的特征。是线性映射矩阵,用于把图网络上一层的输出结点的特征转化到dh维空间。用于把图上边的特征转化到dh维空间。||是拼接操作符,是可学习的注意力参数向量。在注意力分数的计算中,考虑了结点之间连边的类型,来学习利用边上的特征来进行邻居结点的信息收集。
然后使用softmax函数来计算归一化的注意力权重,
其中表示结点i的邻居集合。表示结点i对结点j的注意力权值,对结点i比较重要的邻居结点有较高的权重,对结点i不重要的邻居权重则较低。用归一化后的注意力权重来对邻居结点的特征加权,得到结点i在注意力头h上的输出,
本发明提供的方法针对现有的神经开放信息抽取方法在中文上的分词错误传递问题,以及无法捕获多跳依赖的问题,提出了多粒度依存图网络模型。多粒度依存图网络利用单词和字符结点构建了一个多粒度依存图,其中单词结点之间使用依存边相连,单词和字符结点之间使用软切分边相连。本发明提出的谓语抽取模型和主宾抽取模型基于字符的特征进行预测,同时仍然可以通过单词和字符之间的软切分边获得单词的边界知识。多粒度依存图网络使用深层图注意力网络来更新结点表示,以充分利用多粒度依存图的拓扑结构,并捕获多跳的依赖关系。还通过在大规模中文开放信息抽取数据集SpanSAOKE上进行了实验,结果表明本发明提供的方法显著优于已有的神经开放信息抽取模型,实验分析表明本发明的方法能够缓解分词错误的传递问题,并且能够更有效地利用依存信息。
下面对本发明提供的基于图神经网络的中文开放信息抽取装置进行描述,下文描述的基于图神经网络的中文开放信息抽取装置与上文描述的一种基于图神经网络的中文开放信息抽取方法可相互对应参照。
图2为本发明提供的基于图神经网络的中文开放信息抽取装置的结构示意图,如图2所示,基于图神经网络的中文开放信息抽取装置包括确定单元210、谓语抽取单元220和主宾抽取单元230,其中,
所述确定单元210,用于确定待抽取主谓宾三元组信息的待测中文语句文本;
所述谓语抽取单元220,用于将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;
所述主宾抽取单元230,用于将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
本发明提供的基于图神经网络的中文开放信息抽取装置,通过确定待抽取主谓宾三元组信息的待测中文语句文本;将所述待测中文语句文本输入谓语抽取模型,输出谓语结果,再将谓语结果和待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果。由于谓语抽取模型训练时的网络结构包括嵌入词性的字符上下文表示网络,因此,样本中文语句文本中的字符向量初步表示中就嵌入了词性信息,词性信息包括主语、谓语、宾语和形容词等等,而该网络结构中还包括第一多粒度依存图字符表示神经网络,即通过神经网络的迭代计算将为所有字符和单词构建的多粒度依存图中的字符结点编码成字符向量,其中,第一多粒度依存图为基于句子的分词和依存句法树构成,可以缓解中文分词错误的传递以及捕获多跳的依存知识,如此,训练好的谓语抽取模型被使用进行待测语句中的谓语抽取时,还能考虑待测语句中的各个单词的词性信息,同理,由于主宾抽取模型训练时具有与谓语抽取模型训练时相似的网络结构,故主宾抽取模型被使用进行待测语句中的谓语抽取时也能考虑待测语句中的各个单词的词性信息且可以缓解中文分词错误的传递以及捕获多跳的依存知识。因此,本发明提供的装置,实现了融合分词和依存句法信息,提高了抽取开放的事实主谓宾知识三元组的准确率。
在上述实施例的基础上,该基于图神经网络的中文开放信息抽取装置中,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络,具体包括:
所述谓语抽取模型的训练过程中,
嵌入词性的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接字符对应的单词的词性嵌入向量,通过字符级的上下文编码器输出样本中文语句文本中各个字符的第一字符上下文表示向量至第一多粒度依存图字符表示神经网络;
所述第一多粒度依存图字符表示神经网络基于输入的所述第一字符上下文表示向量得到所述多粒度依存图中节点的初始第一字符结点表示向量,并输出至谓语区间分类网络;
所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率;
其中,所述谓语预测概率用于构建所述谓语抽取模型训练时的损失函数。
在上述实施例的基础上,该基于图神经网络的中文开放信息抽取装置中,所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率,具体包括:
所述谓语区间分类网络通过如下公式计算任一短语区间<ci,…,cj>1≤i≤j≤N的谓语预测概率p(i,j)
其中,Wp为待优化谓语分类权重矩阵,d为所述初始第一字符结点表示向量的维度,为任一字符结点i的初始第一字符结点表示向量,为任一字符结点j的初始第一字符结点表示向量,L为第一多粒度依存图字符表示神经网络中的网络总层数,N为任一样本中文语句文本中字符总数,任一短语区间<ci,…,cj>1≤i≤j≤N为由所述任一样本中文语句文本中连续的字符ci,…,cj组成的短语区间。
在上述实施例的基础上,该基于图神经网络的中文开放信息抽取装置中,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络,具体包括:
所述主宾抽取模型的训练过程中,
嵌入谓语标签的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接谓语标签的相对位置嵌入向量,通过上下文编码器输出样本中文语句文本中各个字符的第二字符上下文表示向量至第二多粒度依存图字符表示神经网络;
所述第二多粒度依存图字符表示神经网络将输入的所述第二字符上下文表示向量以所述多粒度依存图中的字符结点进行表示,得到第二字符结点表示向量并输出至主宾区间抽取网络;
所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对;
其中,所述主语预测概率和宾语预测概率用于构建所述主宾抽取模型训练时的损失函数。
在上述实施例的基础上,该基于图神经网络的中文开放信息抽取装置中,所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对,具体包括:
所述主宾区间抽取网络通过如下公式计算对应于目标谓语标签的样本中文语句文本的目标起始点预测概率向量psubj_start和目标终止点预测概率向量psubj_end:
psubj_start=softmax(Wsubj_startU)
psubj_end=softmax(Wsubj_endU)
其中,均为是待学习权重矩阵,和分别为开始和结束位置概率在句子中所有字符上的分布,为所有字符结点集合,当psubj_start为样本中文语句文本的主语起始点预测概率向量,则psubj_end为所述样本中文语句文本的主语终止点预测概率向量,当psubj_start为样本中文语句文本的宾语起始点预测概率向量,则psubj_end为所述样本中文语句文本的宾语终止点预测概率向量,U为所述样本中文语句文本的所有字符的第二字符结点表示向量组成的矩阵,所述第二字符结点表示向量的维度为d。
在上述实施例的基础上,该基于图神经网络的中文开放信息抽取装置中,所述第一多粒度依存图字符表示神经网络和所述第二多粒度依存图字符表示神经网络均为基于预先构建的多粒度依存图构建的深度图注意力网络;
其中,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出。
在上述实施例的基础上,该基于图神经网络的中文开放信息抽取装置中,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出,具体包括:
其中,hi为所述任一字符结点i的目标字符上下文表示向量,表示字符结点i在所述多粒度依存图中的所有以软切分边相连的邻居字符结点,为所述多粒度依存图,其中,是顶点集合,是边集合, 为所有单词结点集合,为所有字符结点集合,边集合包含所有的依存边和软切分边,为d维向量,d为预设参数;
其中,和分别表示第l-1层图注意力网络输出的字符结点i和字符结点j的向量表示, 和分别为待学习线性映射矩阵、待学习特征转化矩阵和待学习注意力参数向量,||是拼接操作符,dh为预设参数,h=0,1,…,L-1,l=1,2,…,L,L为所述深度图注意力网络总层数;
图3为本发明提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行基于图神经网络的中文开放信息抽取方法,该方法包括:确定待抽取主谓宾三元组信息的待测中文语句文本;将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于图神经网络的中文开放信息抽取方法,该方法包括:确定待抽取主谓宾三元组信息的待测中文语句文本;将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于图神经网络的中文开放信息抽取方法,该方法包括:确定待抽取主谓宾三元组信息的待测中文语句文本;将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
以上所描述的服务器实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于图神经网络的中文开放信息抽取方法,其特征在于,包括:
确定待抽取主谓宾三元组信息的待测中文语句文本;
将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;
将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
2.根据权利要求1所述的基于图神经网络的中文开放信息抽取方法,其特征在于,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络,具体包括:
所述谓语抽取模型的训练过程中,
嵌入词性的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接字符对应的单词的词性嵌入向量,通过字符级的上下文编码器输出样本中文语句文本中各个字符的第一字符上下文表示向量至第一多粒度依存图字符表示神经网络;
所述第一多粒度依存图字符表示神经网络基于输入的所述第一字符上下文表示向量得到所述多粒度依存图中节点的初始第一字符结点表示向量,并输出至谓语区间分类网络;
所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率;
其中,所述谓语预测概率用于构建所述谓语抽取模型训练时的损失函数。
3.根据权利要求2所述的基于图神经网络的中文开放信息抽取方法,其特征在于,所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率,具体包括:
所述谓语区间分类网络通过如下公式计算任一短语区间<ci,…,cj>1≤i≤j≤N的谓语预测概率p(i,j)
4.根据权利要求1所述的基于图神经网络的中文开放信息抽取方法,其特征在于,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络,具体包括:
所述主宾抽取模型的训练过程中,
嵌入谓语标签的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量,并拼接谓语标签的相对位置嵌入向量,通过上下文编码器输出样本中文语句文本中各个字符的第二字符上下文表示向量至第二多粒度依存图字符表示神经网
络;
所述第二多粒度依存图字符表示神经网络将输入的所述第二字符上下文表示向量以所述多粒度依存图中的字符结点进行表示,得到第二字符结点表示向量并输出至主宾区间抽取网络;
所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对;
其中,所述主语预测概率和宾语预测概率用于构建所述主宾抽取模型训练时的损失函数。
5.根据权利要求4所述的基于图神经网络的中文开放信息抽取方法,其特征在于,所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对,具体包括:
所述主宾区间抽取网络通过如下公式计算对应于目标谓语标签的样本中文语句文本的目标起始点预测概率向量psubj_start和目标终止点预测概率向量psubj_end:
psubj_start=softmax(Wsubj_startU)
psubj_end=softmax(Wsubj_endU)
6.根据权利要求1-5中任一项所述的基于图神经网络的中文开放信息抽取方法,其特征在于,所述第一多粒度依存图字符表示神经网络和所述第二多粒度依存图字符表示神经网络均为基于预先构建的多粒度依存图构建的深度图注意力网络;
其中,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的结点通过注意力机制加入邻居结点信息后进行表示输出。
7.根据权利要求6所述的基于图神经网络的中文开放信息抽取方法,其特征在于,所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的结点通过注意力机制加入邻居结点信息后进行表示输出,具体包括:
其中,hi为所述任一字符结点i的目标字符上下文表示向量,表示单词结点i在所述多粒度依存图中的所有以软切分边相连的邻居字符结点,为所述多粒度依存图,其中,是顶点集合,ε是边集合, 为所有单词结点集合,为所有字符结点集合,边集合ε包含所有的依存边和软切分边,为d维向量,d为预设参数;
其中,和分别表示第l-1层图注意力网络输出的结点i和结点j的向量表示, 和分别为待学习线性映射矩阵、待学习特征转化矩阵和待学习注意力参数向量,||是拼接操作符,dh为预设参数,h=0,1,...,L-1,l=1,2,...,L,L为所述深度图注意力网络总层数;
8.一种基于图神经网络的中文开放信息抽取装置,其特征在于,包括:
确定单元,用于确定待抽取主谓宾三元组信息的待测中文语句文本;
谓语抽取单元,用于将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;
主宾抽取单元,用于将所述谓语结果和所述待测中文语句文本输入主宾抽取模型,输出对应的主语结果和宾语结果;其中,所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的,所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于图神经网络的中文开放信息抽取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于图神经网络的中文开放信息抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110882753.XA CN113705196A (zh) | 2021-08-02 | 2021-08-02 | 基于图神经网络的中文开放信息抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110882753.XA CN113705196A (zh) | 2021-08-02 | 2021-08-02 | 基于图神经网络的中文开放信息抽取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113705196A true CN113705196A (zh) | 2021-11-26 |
Family
ID=78651306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110882753.XA Pending CN113705196A (zh) | 2021-08-02 | 2021-08-02 | 基于图神经网络的中文开放信息抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705196A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444473A (zh) * | 2022-04-11 | 2022-05-06 | 江西财经大学 | 基于多通道层次图注意力网络的开放事件抽取方法与系统 |
CN115048948A (zh) * | 2022-06-15 | 2022-09-13 | 昆明理工大学 | 融合主题关联图的越汉低资源跨语言摘要方法 |
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
CN116303996A (zh) * | 2023-05-25 | 2023-06-23 | 江西财经大学 | 基于多焦点图神经网络的主题事件抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287664A (zh) * | 2020-12-28 | 2021-01-29 | 望海康信(北京)科技股份公司 | 文本指标数据解析方法、系统及相应设备和存储介质 |
CN112651234A (zh) * | 2020-12-18 | 2021-04-13 | 中国科学院信息工程研究所 | 一种半开放信息抽取的方法及装置 |
CN112749549A (zh) * | 2021-01-22 | 2021-05-04 | 中国科学院电子学研究所苏州研究院 | 一种基于增量学习和多模型融合的中文实体关系抽取方法 |
CN113158671A (zh) * | 2021-03-25 | 2021-07-23 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
-
2021
- 2021-08-02 CN CN202110882753.XA patent/CN113705196A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651234A (zh) * | 2020-12-18 | 2021-04-13 | 中国科学院信息工程研究所 | 一种半开放信息抽取的方法及装置 |
CN112287664A (zh) * | 2020-12-28 | 2021-01-29 | 望海康信(北京)科技股份公司 | 文本指标数据解析方法、系统及相应设备和存储介质 |
CN112749549A (zh) * | 2021-01-22 | 2021-05-04 | 中国科学院电子学研究所苏州研究院 | 一种基于增量学习和多模型融合的中文实体关系抽取方法 |
CN113158671A (zh) * | 2021-03-25 | 2021-07-23 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
Non-Patent Citations (1)
Title |
---|
ZHIHENG LYU等: "Multi-Grained Dependency Graph Neural Network for Chinese Open Information Extraction", 《PAKDD 2021: ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444473A (zh) * | 2022-04-11 | 2022-05-06 | 江西财经大学 | 基于多通道层次图注意力网络的开放事件抽取方法与系统 |
CN114444473B (zh) * | 2022-04-11 | 2022-06-21 | 江西财经大学 | 基于多通道层次图注意力网络的开放事件抽取方法与系统 |
CN115048948A (zh) * | 2022-06-15 | 2022-09-13 | 昆明理工大学 | 融合主题关联图的越汉低资源跨语言摘要方法 |
CN115048948B (zh) * | 2022-06-15 | 2024-04-19 | 昆明理工大学 | 融合主题关联图的越汉低资源跨语言摘要方法 |
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
CN116303996A (zh) * | 2023-05-25 | 2023-06-23 | 江西财经大学 | 基于多焦点图神经网络的主题事件抽取方法 |
CN116303996B (zh) * | 2023-05-25 | 2023-08-04 | 江西财经大学 | 基于多焦点图神经网络的主题事件抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN111984766A (zh) | 缺失语义补全方法及装置 | |
CN111160041B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN114528898A (zh) | 基于自然语言命令的场景图修改 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN112463924A (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN113779190A (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN115859999A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114003708A (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211126 |
|
RJ01 | Rejection of invention patent application after publication |