CN111178079A - 一种三元组抽取方法及装置 - Google Patents

一种三元组抽取方法及装置 Download PDF

Info

Publication number
CN111178079A
CN111178079A CN201911423271.7A CN201911423271A CN111178079A CN 111178079 A CN111178079 A CN 111178079A CN 201911423271 A CN201911423271 A CN 201911423271A CN 111178079 A CN111178079 A CN 111178079A
Authority
CN
China
Prior art keywords
information
triple
dependency relationship
text
predicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911423271.7A
Other languages
English (en)
Other versions
CN111178079B (zh
Inventor
陈栋
付骁弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911423271.7A priority Critical patent/CN111178079B/zh
Publication of CN111178079A publication Critical patent/CN111178079A/zh
Application granted granted Critical
Publication of CN111178079B publication Critical patent/CN111178079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本文公开了一种三元组抽取方法及装置,包括:对文本进行分词,词性标注和命名实体识别,按照语义合并规则对具有语义联系的分词进行合并生成语义块;获得文本中每个信息单元与其他信息单元的依存关系,基于依存关系搜索信息单元组合生成核心三元组;信息单元是语义块或未合并的分词;对任意一个核心三元组,根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,对所述文本的任意一个三元组进行属性扩展:利用信息单元的依存关系搜索用于修饰三元组的任意一个信息单元的其他信息单元,将所述其他信息单元作为所述信息单元的属性。本文能够抽取带有属性信息的三元组,从而使抽取的三元组的信息更加丰富。

Description

一种三元组抽取方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及的是一种三元组抽取方法及装置。
背景技术
三元组抽取作为信息抽取的一个子集,关键在于抽取文本中出现的命词性实体(实体识别),并将存在关系的实体对进行三元组(Subject(主体),Predicate(谓词),Object(客体))的构建。
三元组抽取在构建知识图谱中起到了至关重要的作用,但是传统的三元组抽取一般基于实体识别和关系分类流程,由于无法抽取关系的修饰属性,故而得到的三元组信息不够丰富。
发明内容
本文提供一种三元组抽取方法及装置,能够抽取带有属性信息的三元组,从而使抽取的三元组的信息更加丰富。
根据本申请的第一方面,本发明实施例提供一种三元组抽取方法,包括:
对文本进行分词,根据分词结果进行词性标注和命名实体识别,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别;
遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系;基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组;其中,所述信息单元是语义块或未合并的分词;所述三元组包括主体、谓词和客体;
对任意一个核心三元组,根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,由所述核心三元组和派生出的新三元组构成所述文本的三元组集合;
对所述文本的三元组集合中的任意一个三元组进行属性扩展:利用信息单元的依存关系搜索用于修饰三元组的任意一个信息单元的其他信息单元,将所述其他信息单元作为所述信息单元的属性。
根据本申请的第二方面,本发明实施例提供一种三元组抽取装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三元组抽取程序,所述三元组抽取程序被所述处理器执行时实现上述三元组抽取方法的步骤。
根据本申请的第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有三元组抽取程序,所述三元组抽取程序被处理器执行时实现上述三元组抽取方法的步骤。
与相关技术相比,本发明实施例提供的一种三元组抽取方法及装置,对文本进行分词,根据分词结果进行词性标注和命名实体识别,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别;遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系;基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组;其中,所述信息单元是语义块或未合并的分词;所述三元组包括主体、谓词和客体;对任意一个核心三元组,根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,由所述核心三元组和派生出的新三元组构成所述文本的三元组集合;对所述文本的三元组集合中的任意一个三元组进行属性扩展:利用信息单元的依存关系搜索用于修饰三元组的任意一个信息单元的其他信息单元,将所述其他信息单元作为所述信息单元的属性。本发明实施例的技术方案能够抽取带有属性信息的三元组,从而使抽取的三元组的信息更加丰富。
附图说明
图1为本发明实施例1的一种三元组抽取方法的流程图;
图2为本发明实施例1中文本示例中信息单元的依存关系示意图;
图3为本发明实施例1中一种属性扩展后的三元组示意图;
图4为本发明实施例2的一种三元组抽取装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例1
如图1所示,本发明实施例提供了一种三元组抽取方法,包括:
步骤S110,对文本进行分词,根据分词结果进行词性标注和命名实体识别,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别;
步骤S120,遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系;基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组;其中,所述信息单元是语义块或未合并的分词;所述三元组包括主体、谓词和客体;
步骤S130,对任意一个核心三元组,根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,由所述核心三元组和派生出的新三元组构成所述文本的三元组集合;
步骤S140,对所述文本的三元组集合中的任意一个三元组进行属性扩展:利用信息单元的依存关系搜索用于修饰三元组的任意一个信息单元的其他信息单元,将所述其他信息单元作为所述信息单元的属性;
在一种实施方式中,在对文本进行分词之前,所述方法还包括:
对文本进行信息清理;所述信息清理比如:清理表情符号,清理多余的标点符号,统一标点符号的全半角格式。
下面结合一个文本示例,对分词过程,词性标注过程和命名实体识别过程分别进行说明。
文本示例:明略科技集团提供了一种自动化抽取带属性的三元组的流程与方法,使抽取的信息更富有层次感。
(一)分词
对上述文本示例进行分词,可以获得下面的分词列表:
['明略','科技','集团','提供','了','一','种','自动化','抽取','带','属性','的','三元组','的','流程','与','方法',',','使','抽取','的','信息','更','富有','层次感','。']
(二)词性标注
对分词结果进行词性标注,可以获得每个分词对应的词性信息。
其中,词性标注例如:DT-限定词,NN-名词,VV-动词,AS-内容标记,PU-标点符号,CC-连词,CD-基数词,M-量词。
对上述文本示例的分词结果进行词性标注,可以获得下面的分词和词性标注列表:
[('明略','NR'),('科技','NN'),('集团','NN'),('提供','VV'),('了','AS'),('一','CD'),('种','M'),('自动化','NN'),('抽取','VV'),('带','VV'),('属性','NN'),('的','DEC'),('三元组','NN'),('的','DEG'),('流程','NN'),('与','CC'),('方法','NN'),(',','PU'),('使','VV'),('抽取','VV'),('的','DEC'),('信息','NN'),('更','AD'),('富有','VV'),('层次感','NN'),('。','PU')]
由于词性标注类型很多,本文只是示例性地选择部分词性标注类型进行解释,并不对所有的词性标注类型都进行解释。没有解释含义的词性标注类型并不影响对本文的理解。
(三)命名实体识别
命名实体识别的目的在于识别文本中出现的命名实体。
其中,非命名实体可以用字母'O'进行表示。命名实体比如:人名、地名、组织机构名称(ORGANIZATION)、标题(TITLE)、数字(NUMBER)时间日期等。
根据上述文本示例的分词和词性标注结果进行命名实体识别,可以得到下面的分词、词性标注和命名实体识别的结果:
[('明略','NR','ORGANIZATION'),('科技','NN','ORGANIZATION'),('集团','NN','ORGANIZATION'),('提供','VV','O'),('了','AS','O'),('一','CD','NUMBER'),('种','M','O'),('自动化','NN','O'),('抽取','VV','O'),('带','VV','O'),('属性','NN','O'),('的','DEC','O'),('三元组','NN','MISC'),('的','DEG','O'),('流程','NN','O'),('与','CC','O'),('方法','NN','O'),(',','PU','O'),('使','VV','O'),('抽取','VV','O'),('的','DEC','O'),('信息','NN','O'),('更','AD','O'),('富有','VV','O'),('层次感','NN','O'),('。','PU','O')]
由于命名实体类型很多,本文只是示例性地选择部分命名实体类型进行解释,并不对所有的命名实体类型都进行解释。没有解释含义的命名实体类型并不影响对本文的理解。
在一种实施方式中,对文本进行分词,根据分词结果进行词性标注和命名实体识别后,所述方法还包括:为每一个分词分配一个唯一的索引;
如下表1所示,表1中包括上述文本示例的每个分词(token)的索引(token_index),分词(token),词性(part-of-speech,简称POS)标注结果(token_pos),命名实体识别(Named Entity Recognition,简称NER)结果(token_ner)。
Figure BDA0002352895220000051
Figure BDA0002352895220000061
表1
在一种实施方式中,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别,包括:
搜索所有分词,基于自定义词组寻找能够与所述自定义词组匹配的分词组合,对找到的分词组合中的分词进行合并生成一个语义块;根据所述自定义词组的词性和命名实体类别对所述语义块进行词性标注和命名实体识别;
例如:分词结果为[‘人工’,‘智能’],“人工智能”未被正确识别成一个整体词语,如果“人工智能”是自定义词组,则在分词结果中搜索到‘人工’和‘智能’后,将这两个分词进行合并生成语义块,并给所述语义块标注词性为“NN”,命名实体识别为“O”(非命名实体),可得到结果:[('人工智能','NN','O')]。
在一种实施方式中,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别,包括:
搜索所有分词,基于预定义的词性合并规则对满足所述词性合并规则的分词组合中的分词进行合并生成语义块,按照词性合并规则对所述语义块进行词性标注和命名实体识别;
例如:
1)NN(名词)与NN(名词)可合并为新的NN(名词),例:人工+智能,可合并为“人工智能”;
2)JJ(形容词)与NN(名词)可合并为新的形容词短语(NN),例:美丽+山河,可合并为“美丽山河”;
3)CD(基数词)+M(量词)可合并为新的量词(M),例:一+种,可合并为“一种”。
在一种实施方式中,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块包括:
将标注为同类命名实体的相邻分词进行合并,生成一个新的语义块,所述新的语义块与合并前的至少一个分词具有相同的词性和命名实体;
例如:[('明略','NR','ORGANIZATION'),('科技','NN','ORGANIZATION'),('集团','NN','ORGANIZATION')]可以合并为一个语义块(‘明略科技集团’,‘NN’,‘'ORGANIZATION'’)。
在一种实施方式中,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块后,所述方法还包括:
为文本中的信息单元重新分配索引;其中,所述信息单元是语义块或未合并的分词。
如下表2所示,表2中包括上述文本示例的每个信息单元(token)的索引(token_index),信息单元(token),词性标注结果(token_pos),命名实体识别结果(token_ner);其中,所述信息单元是语义块或未合并的分词。
Figure BDA0002352895220000081
Figure BDA0002352895220000091
表2
在一种实施方式中,遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系,包括:
根据信息单元的词性标注,按照自然语言的语法规则遍历所述文本的所有信息单元,确定每一个信息单元与其他信息单元的依存关系;
其中,所述依存关系包括:主谓关系(nsubj),谓宾关系(dobj),并列关系(conj),连词关系(cc),或修饰关系(dep)。依存关系还可以包括其他类型,此处本文不再赘述。
在一种实施方式中,所述信息单元的依存关系可以表达为一个信息二元组,所述信息二元组包括:所述信息单元的依存关系类型,以及所述依存关系指向的其他信息单元的索引。
比如,“明略科技集团”的索引为“1”,它的依存关系表达为一个信息二元组:[nsubj,2]。其中,“nsubj”代表“明略科技集团”的依存关系的类型为“主谓关系”,“2”代表所述主谓关系指向的其他信息单元的索引是“2”,也即分词“提供”。再比如,“流程”的索引为“12”,它的依存关系表达为一个信息二元组:[conj,14]。其中,“conj”代表“流程”的依存关系的类型为“并列关系”,“2”代表所述并列关系指向的其他信息单元的索引是“14”,也即分词“方法”。图2示出了上述文本示例中信息单元的依存关系示意图。在图2所示的树状结构中,“Root”是一个特殊节点,与“Root”具有“root”依存关系的分词是句子的核心词(通常为名词或动词)。“提供”与“Root”之间具有“root”依存关系,因此,“提供”是句子的核心词。
根据图2的信息单元依存关系图,可以得到如下表3所示的结果。如下表3所示,表3中包括上述文本示例的每个信息单元(token)的索引(token_index),信息单元(token),词性标注结果(token_pos),命名实体识别结果(token_ner),以及信息单元的依存关系(token_dp);其中,所述信息单元是语义块或未合并的分词。
Figure BDA0002352895220000101
Figure BDA0002352895220000111
表3
在一种实施方式中,所述基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组,包括:
基于信息单元的依存关系搜索具有相同谓词的主谓依存关系和谓宾依存关系,将对应同一个谓词的主谓依存关系和谓宾依存关系中的主语信息单元作为三元组的主体,将对应同一个谓词的主谓依存关系和谓宾依存关系中的宾语信息单元作为三元组的客体,将所述主谓依存关系和谓宾依存关系中的同一个谓词作为三元组的谓词;
在一种实施方式中,所述三元组采用信息单元的索引进行表达;
例如:[[1,2,14],[1,16,19],[1,21,22]]是由信息单元的索引表达的三元组。也即,核心三元组包括:['明略科技集团','提供','方法'],['明略科技集团','使','信息'],['明略科技集团','富有','层次感']。
在一种实施方式中,所述根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,包括:根据与所述核心三元组的主体和/或客体具有并列关系的其他信息单元派生新的三元组。
对任意一个核心三元组,根据与所述核心三元组的主体具有并列关系的其他信息单元派生新的三元组。例如:小明和小张吃苹果,核心三元组为['小明','吃','苹果'],由于小明和小张是并列关系,主体派生后可得到新的三元组['小张','吃','苹果']。
对任意一个核心三元组,根据与所述核心三元组的客体具有并列关系的其他信息单元派生新的三元组。例如:上述文本示例中,“方法”与“流程”为并列关系,核心三元组为['明略科技集团','提供','方法'],客体派生后可得到新的三元组['明略科技集团','提供','流程']。
在一种实施方式中,对所述文本的三元组集合中的任意一个三元组进行属性扩展,包括:根据三元组中主体信息单元的依存关系在文本中搜索用于修饰所述主体信息单元的其他信息单元,将所述其他信息单元作为所述主体信息单元的属性;根据三元组中谓词信息单元的依存关系在文本中搜索用于修饰所述谓词信息单元的其他信息单元,将所述其他信息单元作为所述谓词信息单元的属性;根据三元组中客体信息单元的依存关系在文本中搜索用于修饰所述客体信息单元的其他信息单元,将所述其他信息单元作为所述客体信息单元的属性;。
在一种实施方式中,所述对所述文本的三元组集合中的任意一个三元组进行属性扩展后,所述方法还包括:
采用对象输出的方式输出扩展后的三元组;其中,三元组中的主体、谓词和客体的输出信息至少包括:信息单元的文本信息,信息单元的命名实体识别结果,和信息单元的属性信息;
以下是一种采用对象的方式表达三元组的示例。例如:三元组是['明略科技集团','提供','方法'],对三元组中的客体信息单元(“方法”)进行属性扩展:根据“方法”的依存关系从文本中找到两个信息单元“一种”和“自动化”均可以修饰“方法”,因此,将“一种”和“自动化”均作为“方法”的属性。
{
's':{'name':'明略科技集团','type':'ORGANIZATION','attr':[]},
'p':{'name':'提供','type':'O','attr':[]},
'o':{'name':'方法','type':'O','attr':['一种',‘自动化’]}
}
上述三元组的对象中,'s'代表主体,'p'代表谓词,'o'代表客体。'name'字段代表信息单元的文本,'type'字段表示命名实体的识别结果,'attr'字段表示信息单元的属性。
如图3所示,上述示例文本可以输出扩展属性后的三元组。比如:第一个三元组是['发明','提供','方法'],‘方法’的属性是“一种”和“自动化”。第二个三元组是['发明','提供','流程']。第三个三元组是['发明','富有','层次感']。第四个三元组是['发明','使','信息']。
实施例2
如图4所示,本发明实施例提供了一种三元组抽取装置,包括:
信息单元生成模块10,用于对文本进行分词,根据分词结果进行词性标注和命名实体识别,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别;
核心三元组建立模块20,用于遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系;基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组;其中,所述信息单元是语义块或未合并的分词;所述三元组包括主体、谓词和客体;
三元组派生模块30,用于对任意一个核心三元组,根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,由所述核心三元组和派生出的新三元组构成所述文本的三元组集合;
三元组属性扩展模块40,用于对所述文本的三元组集合中的任意一个三元组进行属性扩展:利用信息单元的依存关系搜索用于修饰三元组的任意一个信息单元的其他信息单元,将所述其他信息单元作为所述信息单元的属性。
在一种实施方式中,信息单元生成模块,用于采用以下方式按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别:
搜索所有分词,基于自定义词组寻找能够与所述自定义词组匹配的分词组合,对找到的分词组合中的分词进行合并生成一个语义块;根据所述自定义词组的词性和命名实体类别对所述语义块进行词性标注和命名实体识别;和/或
搜索所有分词,基于预定义的词性合并规则对满足所述词性合并规则的分词组合中的分词进行合并生成语义块,按照词性合并规则对所述语义块进行词性标注和命名实体识别;和/或
将标注为同类命名实体的相邻分词进行合并,生成一个新的语义块,所述新的语义块与合并前的至少一个分词具有相同的词性和命名实体。
在一种实施方式中,核心三元组建立模块,用于采用以下方式遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系:
根据信息单元的词性标注,按照自然语言的语法规则遍历所述文本的所有信息单元,确定每一个信息单元与其他信息单元的依存关系。
在一种实施方式中,所述依存关系包括以下至少一种:主谓关系,谓宾关系,并列关系,连词关系,修饰关系。
在一种实施方式中,核心三元组建立模块,用于采用以下方式基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组:
基于信息单元的依存关系搜索具有相同谓词的主谓依存关系和谓宾依存关系,将对应同一个谓词的主谓依存关系和谓宾依存关系中的主语信息单元作为三元组的主体,将对应同一个谓词的主谓依存关系和谓宾依存关系中的宾语信息单元作为三元组的客体,将所述主谓依存关系和谓宾依存关系中的同一个谓词作为三元组的谓词。
在一种实施方式中,三元组派生模块,用于采用以下方式根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组:根据与所述核心三元组的主体和/或客体具有并列关系的其他信息单元派生新的三元组。
在一种实施方式中,三元组属性扩展模块,还用于采用对象输出的方式输出扩展后的三元组;其中,三元组中的主体、谓词和客体的输出信息至少包括:信息单元的文本信息,信息单元的命名实体识别结果,和信息单元的属性信息。
在一种实施方式中,信息单元生成模块,还用于为每一个分词分配一个唯一的索引;
核心三元组建立模块,还用于为文本中的信息单元重新分配索引;
所述信息单元的依存关系表达为一个信息二元组,所述信息二元组包括:所述信息单元的依存关系类型,以及所述依存关系指向的其他信息单元的索引。
在一种实施方式中,信息单元生成模块,还用于在对文本进行分词之前,对所述文本进行信息清理。
实施例3
本发明实施例提供了一种三元组抽取装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三元组抽取程序,所述三元组抽取程序被所述处理器执行时实现上述实施例1中所述的三元组抽取方法的步骤。
实施例4
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有三元组抽取程序,所述三元组抽取程序被处理器执行时实现上述实施例1中所述的三元组抽取方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种三元组抽取方法,包括:
对文本进行分词,根据分词结果进行词性标注和命名实体识别,按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别;
遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系;基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组;其中,所述信息单元是语义块或未合并的分词;所述三元组包括主体、谓词和客体;
对任意一个核心三元组,根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,由所述核心三元组和派生出的新三元组构成所述文本的三元组集合;
对所述文本的三元组集合中的任意一个三元组进行属性扩展:利用信息单元的依存关系搜索用于修饰三元组的任意一个信息单元的其他信息单元,将所述其他信息单元作为所述信息单元的属性。
2.如权利要求1所述的方法,其特征在于:
所述按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块,对所述语义块进行词性标注和命名实体识别,包括:
搜索所有分词,基于自定义词组寻找能够与所述自定义词组匹配的分词组合,对找到的分词组合中的分词进行合并生成一个语义块;根据所述自定义词组的词性和命名实体类别对所述语义块进行词性标注和命名实体识别;和/或
搜索所有分词,基于预定义的词性合并规则对满足所述词性合并规则的分词组合中的分词进行合并生成语义块,按照词性合并规则对所述语义块进行词性标注和命名实体识别;和/或
将标注为同类命名实体的相邻分词进行合并,生成一个新的语义块,所述新的语义块与合并前的至少一个分词具有相同的词性和命名实体。
3.如权利要求1所述的方法,其特征在于:
遍历所述文本的所有信息单元获得每一个信息单元与其他信息单元的依存关系,包括:
根据信息单元的词性标注,按照自然语言的语法规则遍历所述文本的所有信息单元,确定每一个信息单元与其他信息单元的依存关系。
4.如权利要求1所述的方法,其特征在于:
所述依存关系包括:主谓关系,谓宾关系,并列关系,连词关系,或修饰关系。
5.如权利要求3所述的方法,其特征在于:
所述基于信息单元的依存关系搜索能够构成三元组的信息单元组合,由搜索到的信息单元组合生成核心三元组,包括:
基于信息单元的依存关系搜索具有相同谓词的主谓依存关系和谓宾依存关系,将对应同一个谓词的主谓依存关系和谓宾依存关系中的主语信息单元作为三元组的主体,将对应同一个谓词的主谓依存关系和谓宾依存关系中的宾语信息单元作为三元组的客体,将所述主谓依存关系和谓宾依存关系中的同一个谓词作为三元组的谓词。
6.如权利要求1所述的方法,其特征在于:
所述对所述文本的三元组集合中的任意一个三元组进行属性扩展后,所述方法还包括:
采用对象输出的方式输出扩展后的三元组;其中,三元组中的主体、谓词和客体的输出信息至少包括:信息单元的文本信息,信息单元的命名实体识别结果,和信息单元的属性信息。
7.如权利要求1所述的方法,其特征在于:
对文本进行分词,根据分词结果进行词性标注和命名实体识别后,所述方法还包括:为每一个分词分配一个唯一的索引;
按照语义合并规则对所述文本中具有语义联系的分词进行合并生成语义块后,所述方法还包括:为文本中的信息单元重新分配索引;
所述信息单元的依存关系表达为一个信息二元组,所述信息二元组包括:所述信息单元的依存关系类型,以及所述依存关系指向的其他信息单元的索引。
8.如权利要求1所述的方法,其特征在于:
所述根据与所述核心三元组的主体和/或客体具有预定依存关系的其他信息单元派生新的三元组,包括:根据与所述核心三元组的主体和/或客体具有并列关系的其他信息单元派生新的三元组。
9.一种三元组抽取装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三元组抽取程序,所述三元组抽取程序被所述处理器执行时实现上述权利要求1-8中任一项所述的三元组抽取方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有三元组抽取程序,所述三元组抽取程序被处理器执行时实现上述权利要求1-8中任一项所述的三元组抽取方法的步骤。
CN201911423271.7A 2019-12-31 2019-12-31 一种三元组抽取方法及装置 Active CN111178079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911423271.7A CN111178079B (zh) 2019-12-31 2019-12-31 一种三元组抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911423271.7A CN111178079B (zh) 2019-12-31 2019-12-31 一种三元组抽取方法及装置

Publications (2)

Publication Number Publication Date
CN111178079A true CN111178079A (zh) 2020-05-19
CN111178079B CN111178079B (zh) 2023-05-26

Family

ID=70657663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911423271.7A Active CN111178079B (zh) 2019-12-31 2019-12-31 一种三元组抽取方法及装置

Country Status (1)

Country Link
CN (1) CN111178079B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102840A (zh) * 2020-09-09 2020-12-18 中移(杭州)信息技术有限公司 语义识别方法、装置、终端及存储介质
CN112380868A (zh) * 2020-12-10 2021-02-19 广东泰迪智能科技股份有限公司 一种基于事件三元组的信访目的多分类装置及其方法
CN113033211A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 一种数据处理方法及装置
CN113553852A (zh) * 2021-08-31 2021-10-26 浪潮通用软件有限公司 一种基于神经网络的合同信息提取方法、系统和存储介质
CN113722496A (zh) * 2021-11-02 2021-11-30 北京世纪好未来教育科技有限公司 一种三元组抽取方法、装置、可读存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161070A1 (en) * 2009-12-31 2011-06-30 International Business Machines Corporation Pre-highlighting text in a semantic highlighting system
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161070A1 (en) * 2009-12-31 2011-06-30 International Business Machines Corporation Pre-highlighting text in a semantic highlighting system
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102840A (zh) * 2020-09-09 2020-12-18 中移(杭州)信息技术有限公司 语义识别方法、装置、终端及存储介质
CN112102840B (zh) * 2020-09-09 2024-05-03 中移(杭州)信息技术有限公司 语义识别方法、装置、终端及存储介质
CN112380868A (zh) * 2020-12-10 2021-02-19 广东泰迪智能科技股份有限公司 一种基于事件三元组的信访目的多分类装置及其方法
CN112380868B (zh) * 2020-12-10 2024-02-13 广东泰迪智能科技股份有限公司 一种基于事件三元组的信访目的多分类装置及其方法
CN113033211A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 一种数据处理方法及装置
CN113553852A (zh) * 2021-08-31 2021-10-26 浪潮通用软件有限公司 一种基于神经网络的合同信息提取方法、系统和存储介质
CN113553852B (zh) * 2021-08-31 2023-06-20 浪潮通用软件有限公司 一种基于神经网络的合同信息提取方法、系统和存储介质
CN113722496A (zh) * 2021-11-02 2021-11-30 北京世纪好未来教育科技有限公司 一种三元组抽取方法、装置、可读存储介质及电子设备

Also Published As

Publication number Publication date
CN111178079B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111178079A (zh) 一种三元组抽取方法及装置
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
Gillick et al. Context-dependent fine-grained entity type tagging
US9626358B2 (en) Creating ontologies by analyzing natural language texts
CN106776564B (zh) 一种基于知识图谱的语义识别方法及系统
US8457950B1 (en) System and method for coreference resolution
US20150199333A1 (en) Automatic extraction of named entities from texts
US20180060306A1 (en) Extracting facts from natural language texts
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
CN107463548B (zh) 短语挖掘方法及装置
US20150278197A1 (en) Constructing Comparable Corpora with Universal Similarity Measure
Yaghoobzadeh et al. Multi-level representations for fine-grained typing of knowledge base entities
CN111160030B (zh) 一种信息抽取方法、装置、及存储介质
US11379656B2 (en) System and method of automatic template generation
CN106202395B (zh) 文本聚类方法和装置
CN111353314A (zh) 一种用于动漫生成的故事文本语义分析方法
CN108875743B (zh) 一种文本识别方法及装置
CN111611393A (zh) 一种文本分类方法、装置及设备
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN113868382A (zh) 从中文自然语言中抽取结构化知识的方法和装置
CN111581342A (zh) 一种生成摘要的方法、系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant