CN110598001A - 联合实体关系抽取方法、装置及存储介质 - Google Patents
联合实体关系抽取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110598001A CN110598001A CN201910717240.6A CN201910717240A CN110598001A CN 110598001 A CN110598001 A CN 110598001A CN 201910717240 A CN201910717240 A CN 201910717240A CN 110598001 A CN110598001 A CN 110598001A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- vector
- word
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000002372 labelling Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 230000000717 retained effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 5
- 244000062793 Sorghum vulgare Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 235000019713 millet Nutrition 0.000 description 4
- 241000282376 Panthera tigris Species 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本方案涉及大数据方面,提供一种联合实体关系抽取方法、装置及存储介质,方法包括以下步骤:利用Bi‑LSTM模型将文本语句编码为向量的形式;使用LSTM模型对文本语句形成的向量进行标注,生成标注序列,为每个字的向量分配一个用于提取结果的标签,标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。本发明采用Bi‑LSTM模型对文本语句进行编码,提高捕获每个字的语义信息的有效性。把联合抽取任务转换为标注问题,通过标注的形式来提取三元组,能够简单地使用神经网络模型来建模,提高了构建知识图谱的效率。
Description
技术领域
本发明涉及云技术,具体说,涉及联合实体关系抽取方法、装置及存储介质。
背景技术
传统的处理这种处理实体和关系抽取的方法是串联式的。即先抽取实体,然后识别实体间的关系。这种分开来处理的方式比较简单,而且各个模块都比较灵活。但是这种方法忽视了两个任务之间的联系,实体识别的结果可能会影响关系的抽取。
实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别
串联抽取方法(分离式抽取模型)将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体识别的结果会进一步影响关系抽取的结果,导致误差累积。
发明内容
为解决以上技术问题,本发明提供联合实体关系抽取方法,应用于电子装置,包括以下步骤:
步骤S1,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;
步骤S2,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于关系抽取的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;
步骤S3,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。
优选地,步骤S2包括,使用第一符号来分别表示实体中字的位置信息,其中第一符号包括表示实体的开始的字的符号,表示实体的中间的字的符号,表示实体的结束的字的符号,以及表示单个的字的符号;
采用第二符号来分别表示不同的关联关系类型;
采用第三符号表示不同关系角色;所述关系角色是指三元组中的第一实体或第二实体;采用第四符号标注与抽取关系无关的字。
优选地,所述Bi-LSTM编码是包括前向的LSTM与后向的LSTM结合来表示文本语句的编码,文本语句对应有前向和后向的细胞状态:
对于前向,文本语句按照正序输入细胞状态中,得到第一组状态输出向量{hL0,hL1,hL2,…hLn};
对于反向,文本语句按照倒序输入细胞状态中,得到第二组状态输出向量{hR0,hR1,hR2,…hRn};
然后Bi-LSTM模型将前向和后向的向量进行拼接融合得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],…[hLn,hRn]}。
优选地,Bi-LSTM模型的公式如下:
it=δ(Wwiwt+Whiht-1+Wcict-1+bi)
ft=δ(Wwfwt+Whfht-1+Wcfct-1+bf)
zt=tanh(Wwcwt+Whcht-1+bc)
ct=ftct-1+itzt
Ot=δ(Wwowt+Whoht-1+Wcoct+bo)
ht=Ottanh(ct)
其中,it是输入门;
ft是遗忘门;
zt是更新门;
Ot是输出门;
ht-1是t-1时刻的隐藏向量;
ht是t时刻的隐藏向量;
Wwi、Wwf、Wwc、Whi、Whf、Whc、Wci、Wcf、Wwo、Who、Wco均为权值矩阵;
bi、bf、bc、bo是偏置项;
t是时刻,每一个时刻对应输入一个字;
ct是t时刻的细胞状态;
ct-1是t-1时刻的细胞状态;
δ表示sigmoid激活函数;
tanh是激活函数;
wt是一个语句的序列W={w1,...wt,wt+1...wn}中对应于第t时刻输入的字的向量;
n是给定语句的长度。
优选地,如果一个语句中的实体包含两个或两个以上相同的关联关系类型,则根据最近邻原则将每两个具有相同关联关系类型的实体组合成一个三元组。
优选地,对于一个语句中具有同一实体分属于不同的三元组的情况,则将所有三元组两两比对,计算一个三元组的第一实体、第二实体、关联关系中的任意两项与另一个三元组中对应的两项的相似度,
如果高于相似度阈值,则认定其中一个三元组错误,并按照最近邻原则来选取其中一个三元组保留,其中,最近邻原则是指三元组中的两个实体之间的距离满足最近邻原则;如果低于相似度阈值,则认定两个三元组都正确,则将两个三元组都保留,
重复两两比较直至任意两个三元组中,一个三元组的第一实体、第二实体和关联关系中的任意两项与另一个三元组中对应的两项的相似度低于相似度阈值,则保留下来的三元组为抽取关联关系的三元组。
优选地,计算相似度采用欧几里得距离法、皮尔逊相关系数法、余弦相似度法、Tanimoto系数法中的一种方法。
本发明还提供一种的联合实体关系抽取装置,包括:
文本语句编码模块,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;
向量标注模块,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于提取结果的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;
三元组形成模块,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。
本发明还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有联合实体关系抽取程序,所述联合实体关系抽取程序被所述处理器执行时实现如下步骤:
步骤S1,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;
步骤S2,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于提取结果的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;
步骤S3,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如上所述的联合实体关系抽取方法。
本发明的联合实体关系抽取方法、装置及存储介质采用Bi-LSTM模型对文本语句进行编码,提高捕获每个字的语义信息的有效性。把联合抽取任务转换为标注问题,通过标注的形式来提取三元组,能够简单地使用神经网络模型来建模,提高了构建知识图谱的效率。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的联合实体关系抽取方法的流程图;
图2是表示本发明实施例的标注序列的示意图;
图3是表示本发明实施例的电子装置的硬件架构示意图;
图4是表示本发明实施例的联合实体关系抽取程序的程序模块示意图。
具体实施方式
下面将参考附图来描述本发明所述的联合实体关系抽取方法、装置及存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1示出了本实施例中联合实体关系抽取方法的流程图,其包括以下步骤:
步骤S1,利用Bi-LSTM模型对文本语句进行编码,将文本语句编码为计算机能够理解的向量的形式,Bi-LSTM编码是利用前向的LSTM与后向的LSTM结合来表示文本语句的编码。
Bi-LSTM编码是利用前向的LSTM与后向的LSTM结合来表示文本语句的编码,文本语句对应有前向和后向的细胞状态:
对于前向,文本语句按照正序输入细胞状态中,得到第一组状态输出向量{hL0,hL1,hL2,…hLn};
对于反向,文本语句按照倒序输入细胞状态中,得到第二组状态输出向量{hR0,hR1,hR2,…hRn};
然后Bi-LSTM模型将前向和后向的向量进行拼接融合得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],…[hLn,hRn]}。所以对于输入的每个字,都得到一个长度为2*hidden_size的状态输出。由此将文本语句的字编码为向量,并且,可以将这些向量组成Numpy数组。
比如,对“我爱北京”这句话进行编码,前向的LSTM则会按照语句的正向语序将“我”,“爱”,“北”,“京”分别表示为四个向量{hL0,hL1,hL2,hL3}中的hL0、hL1、hL2,hL3。后向的LSTM则会按照语句的倒序将“京”,“北”“爱”,“我”表示为四个向量{hR0,hR1,hR2,hR3}中的hR0、hR1、hR2、hR3。然后bi-LSTM模型将前向和后向的向量进行拼接融合得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],[hL3,hR3]}。
步骤S2,使用LSTM对融合得到的向量进行标注,生成标注序列。图2是如何标记结果的示例。为每个字分配一个有助于提取结果的标签。其中,标签“O”表示对应的字与提取的结果无关,不予抽取。除了“O”之外,其他标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分。使用B、I、E、S这4个字母来分别表示实体中字的位置信息。其中,B表示实体的开始的字,I表示实体的中间的字,E表示实体的结束的字,S表示单个的实体(即只有单个的字)。例如“中国”,不是单个字形成的实体,“我”则属于单个字形成的实体。提取的结果表示成三元组的形式:(实体1,实体关系,实体2)。“1”表示该字属于三元组中的第一个实体,而“2”属于关系类型后面的第二个实体。
例如,“三义公司董事长王亮今天到云南省会昆明考察”。输入的句子包含两个三元组:{三义公司,董事长,王亮}和{云南,省会,昆明},其中“董事长”和“省会”是预定义的关联类型。“三义公司”,“王亮”,“云南”,“昆明”都与最终提取的结果相关。“三”是“三义公司”这个实体的第一个词,所以其标签是B-CP-1,“义”和“公”是第一个实体的中间字,所以其标签都是I-CP-1,“司”是“三义公司”这个实体的最后一个词,所以其标签是E-CP-1。王亮是该三元组的第二个实体,“王”是第二个实体的第一个词,其标签是B-CP-2,“亮”是第二个实体的第二个词,其标签是E-CP-2。CP和CF即是表示不同的关联类型。所述关联类型可以是例如地理关系类,人物关系类等。而与最终结果无关的其他词语标记为“O”。例如“今”、“天”、“到”、“考”、“察”。
需要说明的是本实施例所采用的的字母仅是示例性的,并不用于限制其表示形式,也可以使用其他符号或数字来表示。
步骤S3,将具有相同关系类型的实体组合成三元组以获得最终结果。因此,“三义公司”和“王亮”可以组合成一个关系类型是“董事长”的三元组。因为“王亮”的关系角色是“2”,“三义公司”是“1”,最终的结果是{三义公司,董事长,王亮}。
进一步地,Bi-LSTM模型将字编码为向量的过程是:一个语句的序列可以表示为W={w1,...wt,wt+1...wn},其中wt是对应于第t个时刻输入的字的向量,n是给定语句的长度。对于每个字的向量wt,前向LSTM层通过考虑从w1到wn的上下文信息来编码wt,而后向LSTM层通过考虑从wn到w1的上下文信息来编码wt。Bi-LSTM模型结构由一组循环连接的子网组成,称为LSTM内存块。每个时间步长是一个LSTM内存块。LSTM内存块用于基于t-1时刻的隐藏向量ht-1,t时刻的细胞状态ct和当前输入字wt来计算t时刻的输出向量以及t时刻的隐藏向量ht。
Bi-LSTM模型的公式如下:
it=δ(Wwiwt+Whiht-1+Wcict-1+bi)
ft=δ(Wwfwt+Whfht-1+Wcfct-1+bf)
zt=tanh(Wwcwt+Whcht-1+bc)
ct=ftct-1+itzt
Ot=δ(Wwowt+Whoht-1+Wcoct+bo)
ht=Ottanh(cr)
其中,it是输入门;
ft是遗忘门;
zt是更新门;
Ot是输出门;
ht-1是t-1时刻的隐藏向量;
ht是t时刻的隐藏向量;
Wwi、Wwf、Wwc、Whi、Whf、Whc、Wci、Wcf、Wwo、Who、Wco均为权值矩阵;
bi、bf、bc、bo是偏置项;
t是时刻,每一个时刻对应输入一个字;
ct是t时刻的细胞状态;
c-1是t-1时刻的细胞状态;
δ表示sigmoid激活函数;
tanh是激活函数。
进一步地,如果一个句子包含两个或更多个具有相同关系类型的三元组,采取一个实体仅属于一个三元组的方式来确定其关联关系。可以根据最近原则将每两个实体组合成一个三元组。例如,“韩国总统文在寅近日访问了三星集团的董事长李健熙”。“韩国”、“文在寅”的关联类型关系是“总统”。“三星集团”、“李健熙”的关联关系是“董事长”。
而实际上,还可以有“韩国”、“李健熙”的关联类型关系是“总统”。“三星集团”、“文在寅”的关联关系是“董事长”这样的三元组。而实际上,这两个关联关系是错误的,而利用最近原则,“韩国”最接近实体“文在寅”,“三星集团”最接近“李健熙”,所以最终的关系抽取结果只是{韩国,总统,文在寅}和{三星集团,董事长,李健熙}。
在一个可选实施例中,对于一个语句中可能具有的重叠关联关系,例如“小米集团CEO雷军于昨天下午返回家乡仙桃”。按照前述的就近原则,那只有“小米集团”、“雷军”的关联关系是“CEO”,而另一个“雷军”、“仙桃”的关联关系“家乡”则会被舍弃掉。而如果将所有关联关系都保留,则又可能会保留错误的关联关系。本实施例采取将可能的关联关系全部先保留,然后计算两个三元组的差异,如果具有冲突,则按照最近原则选取其中的一个保留。具体说,可以是计算一个三元组的第一实体、第二实体和关联关系中的任意两项与另一个三元组中的第一实体、第二实体和关联关系中的对应的两项的相似度,如果相似度高于相似度阈值,则认定其中一个三元组错误,并按照最近邻原则来选取其中一个三元组保留,其中,最近邻原则是指三元组中的两个实体之间的距离满足最近邻原则;如果低于相似度阈值,则认定两个三元组都正确,则将两个三元组都保留。重复两两比较直至任意两个三元组中,一个三元组的的第一实体、第二实体和关联关系中的任意两项与另一个三元组中的第一实体、第二实体和关联关系中的对应的两项的相似度低于相似度阈值,则保留下来的三元组为抽取关联关系的三元组。
例如,第一个三元组:{韩国,总统,文在寅}
第二个三元组:{韩国,总统,李健熙}
经过比较,第一个三元组的第一实体“韩国”,关联关系“总统”与第二个三元组的第一实体“韩国”,关联关系“总统”是相同的,则认定其中一个三元组的关联关系是错误的,从而按照最近原则选择第一个三元组进行保留。
例如,第一个三元组:{雷军,CEO,小米集团}
第二个三元组:{雷军,家乡,仙桃}
经过比较,第一个三元组的第一实体“雷军”,与第二个三元组的第一实体“雷军”相同,然而,关联关系“CEO”与“家乡”不同,第二实体“小米集团”、“仙桃”也不同,则认定这两个三元组都是正确的,都予以保留。
这种方式不会舍弃重叠的关联关系,可以更多的抽取语句中的实体关系。其中,计算相似度可以是采用例如欧几里得距离法、皮尔逊相关系数法、余弦相似度法、Tanimoto系数法。
在一个可选实施例中,在对文本语句进行标注之前,先对文本语句进行预处理,包括以下步骤:
(1)、切分文本段落并生成若干个文本语句;
(2)、将所述若干个文本语句中的标点符号去掉;
(3)、将每个所述文本语句中的字对应的标注去掉。
在一个可选实施例中,有些时候抽取的关联关系可能是错误的,例如“韩国演员文在寅今天访问了中国”,则抽取出的关联关系会是错误的。在步骤S3中,在将具有相同关联关系类型的实体组合成三元组后,还利用多分类器将三元组的实体部分进行分类,当然事先要有准备好的正确的三元组分类,分类的输出结果为概率形式,即对应各类知识实体类别的概率,从而可以获得正确的三元组对应的关联关系,作为最终识别结果。例如,{韩国,演员,文在寅}这个三元组是从文本语句中得到的,显然,从这个文本语句中得到的三元组的关联关系是错误的。而这可以利用分类来纠正。例如将“韩国”、“文在寅”这两个实体分别分类到对应的类别中,获得一定的概率,将实体分类概率中最高的选出,由于正确的三元组中韩国,文在寅的关联关系是总统,从而可以获得与该最高概率对应的关联关系,即“总统”,并将该关联关系“总统”与这两个实体“韩国”、“文在寅”组合作为最终的三元组。通过这种方式可以纠正提取的错误的三元组。
本发明还提供一种联合实体关系抽取装置,包括文本语句编码模块501、向量标注模块502、三元组形成模块503。
其中,文本语句编码模块501利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量。
向量标注模块502使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于提取结果的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分。
三元组形成模块503将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。
图3示出了电子装置的硬件架构。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述联合实体关系抽取程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的联合实体关系抽取程序等。
需要指出的是,图3仅示出了具有组件21-22的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作系统、联合实体关系抽取程序50等。处理器22执行存储器21中联合实体关系抽取程序50时实现以上联合实体关系抽取方法所述的步骤。在本实施例中,存储于存储器21中的所述联合实体关系抽取程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图3示出了所述联合实体关系抽取程序的程序模块示意图,该实施例中,所述联合实体关系抽取程序50可以被分割为文本语句编码模块501、向量标注模块502、三元组形成模块503。
其中,文本语句编码模块501用于利用Bi-LSTM模型对文本语句进行编码,将文本语句编码为计算机能够理解的向量的形式,Bi-LSTM编码是利用前向的LSTM与后向的LSTM结合来表示文本语句的编码。
其中,向量标注模块502使用LSTM对融合得到的向量进行标注,生成标注序列。为每个字分配一个有助于提取结果的标签。其中,标签“O”表示对应的字与提取的结果无关,不予抽取。除了“O”之外,其他标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分。
其中,三元组形成模块503用于将具有相同关系类型的实体组合成三元组以获得最终结果。
进一步地,还包括重叠关联关系剔除模块504,用于剔除重叠关联关系的三元组,如果一个句子包含两个或更多个具有相同关系类型的三元组,采取一个实体仅属于一个三元组的方式来确定其关联关系。可以根据最近原则将每两个实体组合成一个三元组。
在一个可选实施例中,还包括重叠关联关系筛选模块505,对于一个语句中可能具有的重叠关联关系,例如“小米集团CEO雷军于昨天下午返回家乡仙桃”。按照前述的就近原则,那只有“小米集团”、“雷军”的关联关系是“CEO”,而另一个“雷军”、“仙桃”的关联关系“家乡”则会被舍弃掉。而如果将所有关联关系都保留,则又可能会保留错误的关联关系。本实施例采取将可能的关联关系全部先保留,然后计算两个三元组的差异,如果具有冲突,则按照最近原则选取其中的一个保留。具体说,可以是计算一个三元组的第一实体、第二实体和关联关系中的任意两项与另一个三元组中的第一实体、第二实体和关联关系中的对应的两项的相似度,如果相似度高于相似度阈值,则从这两个三元组中选取一个符合最近原则的一个作为最终结果。
本发明之计算机可读存储介质的具体实施方式与上述联合实体关系抽取方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种联合实体关系抽取方法,应用于电子装置,其特征在于,包括以下步骤:
步骤S1,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;
步骤S2,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于关系抽取的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;
步骤S3,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。
2.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
步骤S2包括,使用第一符号来分别表示实体中字的位置信息,其中第一符号包括表示实体的开始的字的符号,表示实体的中间的字的符号,表示实体的结束的字的符号,以及表示单个的字的符号;
采用第二符号来分别表示不同的关联关系类型;
采用第三符号表示不同关系角色;所述关系角色是指三元组中的第一实体或第二实体;采用第四符号标注与抽取关系无关的字。
3.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
所述Bi-LSTM编码是包括前向的LSTM与后向的LSTM结合来表示文本语句的编码,文本语句对应有前向和后向的细胞状态:
对于前向,文本语句按照正序输入细胞状态中,得到第一组状态输出向量{hL0,hL1,hL2,…hLn};
对于反向,文本语句按照倒序输入细胞状态中,得到第二组状态输出向量{hR0,hR1,hR2,…hRn};
然后Bi-LSTM模型将前向和后向的向量进行拼接融合得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],…[hLn,hRn]}。
4.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
Bi-LSTM模型的公式如下:
it=δ(Wwiwt+Whiht-1+Wcict-1+bi)
ft=δ(Wwfwt+Whfht-1+Wcfct-1+bf)
zt=tanh(Wwcwt+Whcht-1+bc)
ct=ftct-1+itzt
Ot=δ(Wwowt+Whoht-1+Wcoct+bo)
ht=Ottanh(ct)
其中,it是输入门;
ft是遗忘门;
zt是更新门;
Ot是输出门;
ht-1是t-1时刻的隐藏向量;
ht是t时刻的隐藏向量;
Wwi、Wwf、Wwc、Whi、Whf、Whc、Wci、Wcf、Wwo、Who、Wco均为权值矩阵;
bi、bf、bc、bo是偏置项;
t是时刻,每一个时刻对应输入一个字;
ct是t时刻的细胞状态;
ct-1是t-1时刻的细胞状态;
δ表示sigmoid激活函数;
tanh是激活函数;
wt是一个语句的序列W={w1,...wt,wt+1...wn}中对应于第t时刻输入的字的向量;
n是给定语句的长度。
5.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
如果一个语句中的实体包含两个或两个以上相同的关联关系类型,则根据最近邻原则将每两个具有相同关联关系类型的实体组合成一个三元组。
6.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
对于一个语句中具有同一实体分属于不同的三元组的情况,则将所有三元组两两比对,计算一个三元组的第一实体、第二实体、关联关系中的任意两项与另一个三元组中对应的两项的相似度,
如果高于相似度阈值,则认定其中一个三元组错误,并按照最近邻原则来选取其中一个三元组保留,其中,最近邻原则是指三元组中的两个实体之间的距离满足最近邻原则;如果低于相似度阈值,则认定两个三元组都正确,则将两个三元组都保留,
重复两两比较直至任意两个三元组中,一个三元组的第一实体、第二实体和关联关系中的任意两项与另一个三元组中对应的两项的相似度低于相似度阈值,则保留下来的三元组为抽取关联关系的三元组。
7.根据权利要求6所述的联合实体关系抽取方法,其特征在于:
计算相似度采用欧几里得距离法、皮尔逊相关系数法、余弦相似度法、Tanimoto系数法中的一种方法。
8.一种联合实体关系抽取装置,其特征在于,包括:
文本语句编码模块,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;
向量标注模块,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于提取结果的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;
三元组形成模块,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。
9.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有联合实体关系抽取程序,所述联合实体关系抽取程序被所述处理器执行时实现如下步骤:
步骤S1,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;
步骤S2,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于提取结果的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;
步骤S3,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如权利要求1-7任一项所述的联合实体关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910717240.6A CN110598001A (zh) | 2019-08-05 | 2019-08-05 | 联合实体关系抽取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910717240.6A CN110598001A (zh) | 2019-08-05 | 2019-08-05 | 联合实体关系抽取方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598001A true CN110598001A (zh) | 2019-12-20 |
Family
ID=68853454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910717240.6A Pending CN110598001A (zh) | 2019-08-05 | 2019-08-05 | 联合实体关系抽取方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598001A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259624A (zh) * | 2020-01-15 | 2020-06-09 | 北京百度网讯科技有限公司 | 知识图谱中三元组数据标注方法和装置 |
CN111353306A (zh) * | 2020-02-22 | 2020-06-30 | 杭州电子科技大学 | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 |
CN111597341A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种文档级关系抽取方法、装置、设备及存储介质 |
CN111666969A (zh) * | 2020-04-22 | 2020-09-15 | 北京百度网讯科技有限公司 | 计算图文相似度的方法、装置、电子设备和可读存储介质 |
CN111814476A (zh) * | 2020-06-09 | 2020-10-23 | 北京捷通华声科技股份有限公司 | 一种实体关系的抽取方法和装置 |
CN111859858A (zh) * | 2020-07-22 | 2020-10-30 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN111881683A (zh) * | 2020-06-28 | 2020-11-03 | 吉林大学 | 关系三元组的生成方法、装置、存储介质和电子设备 |
CN111898364A (zh) * | 2020-07-30 | 2020-11-06 | 平安科技(深圳)有限公司 | 神经网络关系抽取方法、计算机设备及可读存储介质 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及系统 |
CN112905713A (zh) * | 2020-11-13 | 2021-06-04 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN113268573A (zh) * | 2021-05-19 | 2021-08-17 | 上海博亦信息科技有限公司 | 一种学术人才信息的抽取方法 |
CN114490884A (zh) * | 2021-12-21 | 2022-05-13 | 北京三快在线科技有限公司 | 确定实体关联关系的方法、装置、电子设备及存储介质 |
CN115438190A (zh) * | 2022-09-06 | 2022-12-06 | 国家电网有限公司 | 一种配电网故障辅助决策知识抽取方法及系统 |
WO2023092719A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 病历数据的信息抽取方法、终端设备及可读存储介质 |
CN118469009A (zh) * | 2024-07-10 | 2024-08-09 | 中南大学 | 一种滑坡灾害语义信息抽取方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
-
2019
- 2019-08-05 CN CN201910717240.6A patent/CN110598001A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
Non-Patent Citations (1)
Title |
---|
SUNCONG ZHENG ET AL: "Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme", 《ARXIV:1706.05075V1 [CS.CL]》, pages 1 - 10 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259624B (zh) * | 2020-01-15 | 2023-03-31 | 北京百度网讯科技有限公司 | 知识图谱中三元组数据标注方法和装置 |
CN111259624A (zh) * | 2020-01-15 | 2020-06-09 | 北京百度网讯科技有限公司 | 知识图谱中三元组数据标注方法和装置 |
CN111353306A (zh) * | 2020-02-22 | 2020-06-30 | 杭州电子科技大学 | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 |
CN111353306B (zh) * | 2020-02-22 | 2020-10-16 | 杭州电子科技大学 | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 |
CN111666969A (zh) * | 2020-04-22 | 2020-09-15 | 北京百度网讯科技有限公司 | 计算图文相似度的方法、装置、电子设备和可读存储介质 |
CN111597341A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种文档级关系抽取方法、装置、设备及存储介质 |
CN111597341B (zh) * | 2020-05-22 | 2024-01-26 | 北京慧闻科技(集团)有限公司 | 一种文档级关系抽取方法、装置、设备及存储介质 |
CN111814476A (zh) * | 2020-06-09 | 2020-10-23 | 北京捷通华声科技股份有限公司 | 一种实体关系的抽取方法和装置 |
CN111814476B (zh) * | 2020-06-09 | 2024-04-16 | 北京捷通华声科技股份有限公司 | 一种实体关系的抽取方法和装置 |
CN111881683A (zh) * | 2020-06-28 | 2020-11-03 | 吉林大学 | 关系三元组的生成方法、装置、存储介质和电子设备 |
CN111859858B (zh) * | 2020-07-22 | 2024-03-01 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN111859858A (zh) * | 2020-07-22 | 2020-10-30 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN111898364B (zh) * | 2020-07-30 | 2023-09-26 | 平安科技(深圳)有限公司 | 神经网络关系抽取方法、计算机设备及可读存储介质 |
CN111898364A (zh) * | 2020-07-30 | 2020-11-06 | 平安科技(深圳)有限公司 | 神经网络关系抽取方法、计算机设备及可读存储介质 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及系统 |
CN112905713A (zh) * | 2020-11-13 | 2021-06-04 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN112905713B (zh) * | 2020-11-13 | 2022-06-14 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN113268573A (zh) * | 2021-05-19 | 2021-08-17 | 上海博亦信息科技有限公司 | 一种学术人才信息的抽取方法 |
WO2023092719A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 病历数据的信息抽取方法、终端设备及可读存储介质 |
CN114490884A (zh) * | 2021-12-21 | 2022-05-13 | 北京三快在线科技有限公司 | 确定实体关联关系的方法、装置、电子设备及存储介质 |
CN115438190A (zh) * | 2022-09-06 | 2022-12-06 | 国家电网有限公司 | 一种配电网故障辅助决策知识抽取方法及系统 |
CN118469009A (zh) * | 2024-07-10 | 2024-08-09 | 中南大学 | 一种滑坡灾害语义信息抽取方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598001A (zh) | 联合实体关系抽取方法、装置及存储介质 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN110110327B (zh) | 一种基于对抗学习的文本标注方法和设备 | |
EP3227836B1 (en) | Active machine learning | |
CN113822494A (zh) | 风险预测方法、装置、设备及存储介质 | |
CN110826335B (zh) | 一种命名实体识别的方法和装置 | |
US9311301B1 (en) | Systems and methods for large scale global entity resolution | |
CN111950287B (zh) | 一种基于文本的实体识别方法及相关装置 | |
CN111985229A (zh) | 一种序列标注方法、装置及计算机设备 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN112948596B (zh) | 知识图谱构建方法、装置、计算机设备及计算机存储介质 | |
CN114818708B (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN111178079A (zh) | 一种三元组抽取方法及装置 | |
CN112650858A (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN112364169B (zh) | 基于nlp的wifi识别方法、电子设备和介质 | |
CN115858773A (zh) | 适用于长文档的关键词挖掘方法、装置及介质 | |
US20220222570A1 (en) | Column classification machine learning models | |
CN116611450A (zh) | 一种提取文档信息的方法、装置、设备和可读存储介质 | |
CN116029394A (zh) | 自适应文本情感识别模型训练方法、电子设备及存储介质 | |
CN115858776A (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN115600592A (zh) | 文本内容的关键信息提取方法、装置、设备及介质 | |
CN115204144A (zh) | 一种基于异构图卷积网络的篇章级事件提取方法及系统 | |
CN110909551B (zh) | 语言预训练模型更新方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |