CN108874778A - 语义实体关系抽取方法、装置及电子设备 - Google Patents

语义实体关系抽取方法、装置及电子设备 Download PDF

Info

Publication number
CN108874778A
CN108874778A CN201810633241.8A CN201810633241A CN108874778A CN 108874778 A CN108874778 A CN 108874778A CN 201810633241 A CN201810633241 A CN 201810633241A CN 108874778 A CN108874778 A CN 108874778A
Authority
CN
China
Prior art keywords
relationship
rule
subject
predicate
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810633241.8A
Other languages
English (en)
Other versions
CN108874778B (zh
Inventor
赵淦森
梁昕
列海权
徐岗
赵淑娴
纪求华
林成创
李胜龙
唐境灿
蔡斯凯
李振宇
黄伟雄
曲成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Weihai Big Data Technology Co Ltd
Original Assignee
Guangdong Weihai Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Weihai Big Data Technology Co Ltd filed Critical Guangdong Weihai Big Data Technology Co Ltd
Priority to CN201810633241.8A priority Critical patent/CN108874778B/zh
Publication of CN108874778A publication Critical patent/CN108874778A/zh
Application granted granted Critical
Publication of CN108874778B publication Critical patent/CN108874778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语义实体关系抽取方法、装置及电子设备,该方法涉及人工智能与自然语言处理的信息抽取技术领域,该方法包括:识别出输入文本的每个词节点;构建每个词节点的依存特征;当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组;其中,预存的语义规则包括前修饰结构规则和动词相关规则。与现有技术相比,本发明利用递归方法,避免了因规则复杂、定义不全而发生抽取遗漏的情况,能够提高实体关系抽取的准确率。

Description

语义实体关系抽取方法、装置及电子设备
技术领域
本发明涉及人工智能与自然语言处理的信息抽取技术领域,尤其是涉 及一种语义实体关系抽取方法、装置及电子设备。
背景技术
信息抽取技术可以将大量文本中蕴含的无结构化信息以结构化或者半 结构化的形式输出,快速获取用户关心的信息,广泛应用于知识图谱、智 能搜索引擎、自动问答系统、文本挖掘、机器翻译等许多人工智能领域。
目前,传统有监督、非开放式实体关系抽取方法需要大规模人工标注 语料库用于模型训练,只能抽取预先定义的关系类型,并且基于特定领域, 普遍适用性差。现有的无监督、开放式实体关系抽取方法通过对文本进行 预处理、命名实体识别和依存句法分析,获得实体对对应的依存路径,与 依存语义范式集的范式进行匹配,若匹配成功则输出关系三元组。
但是现有技术对并列关系的抽取依靠范式匹配,可能会因规则复杂、 定义不全而发生抽取遗漏的情况,导致实体关系的抽取存在准确率较低的 技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种语义实体关系抽取方法、装置 及电子设备,以避免因规则复杂、定义不全而发生抽取遗漏的情况,能够 提高实体关系抽取的准确率。
第一方面,本发明实施例提供了一种语义实体关系抽取方法,该方法 包括:
识别出输入文本的每个词节点;
构建每个词节点的依存特征;
当有两个以上词节点为并列关系时,通过递归调用预存的语义规则, 抽取出候选节点的关系三元组;
其中,所述预存的语义规则包括前修饰结构规则和动词相关规则。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方 式,其中,所述依存特征包括:候选节点的依存路径和子节点依存路径字 典。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方 式,其中,所述当有两个以上词节点为并列关系时,通过递归调用预存的 语义规则,抽取出候选节点的关系三元组,具体包括:
当有两个以上词节点为并列关系时,判断所述依存特征的关系类型;
所述关系类型为事件关系时,对每个动词候选节点先抽取主语,再通 过递归调用预存的主谓动宾结构规则或主谓介宾结构规则,抽取与主语相 关的多组谓语和宾语,构成多组关系三元组;
所述关系类型为事实关系时,对每个实体候选节点先抽取前修饰词, 再通过递归调用预存的前修饰结构规则,抽取与前修饰词相关的多组关系 词和关系实体,构成多组关系三元组。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方 式,其中,所述事件关系包括:动词相关类结构,其中,动词相关类结构 包括主谓动宾结构,以及主谓介宾结构。
所述事实关系包括:前修饰类结构,其中,前修饰类结构包括组合式 定语结构,以及由结构助词“的”与中心语连接的结构。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方 式,所述事实关系还包括:谓语为“是”或“是”的同义词的主谓动宾结 构。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方 式,其中,在所述识别出输入文本的每个词节点之后,还包括:
对输入文本进行预处理。
第二方面,本发明实施例还提供一种语义实体关系抽取装置,所述装 置包括:
识别模块,用于识别出输入文本的每个词节点;
构建模块,用于构建每个词节点的依存特征;
抽取模块,用于当有两个以上词节点为并列关系时,通过递归调用预 存的语义规则,抽取出候选节点的关系三元组;
其中,所述预存的语义规则包括前修饰结构规则和动词相关规则。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方 式,其中,所述依存特征包括:候选节点的依存路径和子节点依存路径字 典。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方 式,其中,所述抽取模块具体用于:
当有两个以上词节点为并列关系时,判断所述依存特征的关系类型;
所述关系类型为事件关系时,对每个动词候选节点先抽取主语,再通 过递归调用预存的主谓动宾结构规则或主谓介宾结构规则,抽取与主语相 关的多组谓语和宾语,构成多组关系三元组;
所述关系类型为事实关系时,对每个实体候选节点先抽取前修饰词, 再通过递归调用预存的前修饰结构规则,抽取与前修饰词相关的多组关系 词和关系实体,构成多组关系三元组。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器 及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述 处理器执行所述计算机程序时实现第一方面提供的方法的步骤。
本发明实施例带来了以下有益效果:本发明实施例提供的一种语义实 体关系抽取方法、装置及电子设备中,首先识别出输入文本的每个词节点; 构建每个词节点的依存特征;当有两个以上词节点为并列关系时,通过递 归调用预存的语义规则,抽取出候选节点的关系三元组;其中,所述预存 的语义规则包括前修饰结构规则和动词相关规则。通过递归调用预存的语 义规则可以避免因规则复杂、定义不全而发生抽取遗漏的情况,能够提高 实体关系抽取的准确率。另外,该方法还可以简化并列关系中的实体关系 抽取,减少需要定义的范式,提高已定义规则集的利用率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从 说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其 他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实 施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下 面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
图1为本发明实施例提供的语义实体关系抽取方法的流程图;
图2为本发明实施例提供的语义实体关系抽取装置的示意图;
图3为本发明实施例提供的语义实体关系抽取电子设备的示意图。
图标:
21-识别模块;22-构建模块;23-抽取模块;30-处理器;31-存储器;32- 总线;33-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附 图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本 领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
目前有监督、非开放式实体关系抽取方法需要大规模的人工标注语料 库用于模型训练,只能抽取预先定义的关系类型,而且语料标注的训练往 往模型基于特定领域,普遍适用性差,现有的无监督开放式实体抽取方法 对并列关系的抽取依靠范式匹配,可能会因规则复杂、定义不全而发生抽 取遗漏的情况。
基于此,本发明实施例提供的一种语义实体关系抽取方法、装置及电 子设备,不需要人工标注语料库,不需要训练模型;不需要预先定义抽取 的关系就可以抽取实体关系。该方法可以避免因规则复杂、定义不全而发 生抽取遗漏的情况,能够提高实体关系抽取的准确率。另外,该方法还可 以简化并列关系中的实体关系抽取,减少需要定义的范式,提高已定义规 则集的利用率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种语义 实体关系抽取方法进行详细介绍,
实施例一:
本发明实施例提供了一种语义实体关系抽取方法,可以用于知识图谱 构建和进一步的智能搜索、问答系统等。
如图1所示,该语义实体关系抽取方法包括以下步骤:
S11:识别出输入文本的每个词节点。
句子中每一个词便认为是一个节点,输入文本经识别,划分成若干个 词节点。
S12:构建每个词节点的依存特征。
基于每个词、每句话构建依存字典,该依存特征包括候选节点的依存 路径和子节点的依存路径字典。其中,该依存特征第一部分依存路径为候 选节点指向子节点的依存路径;第二部分子节点依存特征路径字典由子节 点指向候选节点的依存路径组成。
如:Word1--(依存关系1)-->Word2,
Word3--(依存关系2)-->Word1,
Word4--(依存关系2)-->Word1,
Word5--(依存关系3)-->Word1,
则Word1的依存特征第一部分依存路径为{依存关系1=[Word2]},第二 部分子节点依存路径字典为{依存关系2=[Word3,Word4],依存关系 3=[Word5]}。
S13:当有两个以上词节点为并列关系时,通过递归调用预存的语义规 则,抽取出候选节点的关系三元组。
本实施例中的预存的语义规则包括前修饰结构规则和动词相关规则。 依存的语义规则主要包括三类:前修饰结构类、动词相关类、并列结构类。 其中的前修饰结构类、动词相关类可以根据匹配的依存规则,从输入文本 中直接匹配进行抽取关系词和实体,与候选实体构成关系三元组。而本实 施例中,对于并列结构类也可以通过递归调用预存的语义规则进行抽取关 系三元组。
关系三元组形式为:(Entity1,Relation,Entity2),其中Entity1、Entity2 是存在关系的实体对,Relation是描述实体之间语义关系的词或短语。
上述前修饰结构类包括组合式定语结构,以及由结构助词“的”与中心 语连接的结构。
预存的前修饰结构规则为:Relation和Entity2之间的依存关系路径为 单个或多个定中关系。定中关系,即是定语依存于中心语的关系,属于事 实关系。
上述动词相关类包括:主谓动宾结构,以及主谓介宾结构。
预存的主谓动宾结构抽取规则为:Entity1的子节点依存关系字典包含 动宾关系。抽取关系三元组(Entity1,Relation=谓语,Entity2=宾语),属于 事件关系。
特别地,当谓语为“是”或“为、乃、即、则”等“是”的同义词时, 抽取关系三元组(Entity1,Relation=定语,Entity2),属于事实关系。从而避 免了传统方法中将谓语为“是”结构的句子视作一般的主谓宾结构,只抽 取事件关系,隐藏了其中更有用的事实关系。
预存的主谓介宾结构抽取规则为:Entity2的依存路径为介宾关系,即 Relation的子节点依存关系字典包含介宾关系。具体地,介词的子节点依存 路径字典可能包含动补结构或状中结构等。抽取的关系三元组(Entity1, Relation=谓语(+直接宾语),Entity2=介宾关系中的宾语)属于事件关系。
特别的,当介词为“由、被”等表示被动的词语,此时将Entity1和Entity2 的位置互换,构成关系三元组(Entity2,Relation=谓语(+直接宾语),Entity1)。
上述并列关系表示句子或短语之间相互关联,同时并举,或是同时进 行的关系,并且并列成分只有前后之分而无主次之分,中间常有顿号或“和、 及、又、与、并”等连词,上述并列结构类包括并列名词结构和并列动词 结构。在并列关系抽取中主要考虑并列名词和并列动词两种。
并列名词主要可能作为主语、谓词宾语和介词宾语。并列名词的抽取 规则为:上述词已在预存的前修饰结构规则和动词相关规则中作出规则定 义,因此可递归调用预存的前修饰结构规则和动词相关规则,并对并列的 成分进行关系抽取,而无须作额外的规则定义。
并列动词包括动词连用和并列类复句两种情况。
并列动词连用的抽取规则为:在中文构句时,当一个动词无法将行为 的涵义描述完整时,往往会两个动词连用,第一个动词对第二个动词进行 补充,第二个动词是及物动词,一般抽取距离宾语更近的第二个动词作为 关系特征词。关系三元组在预存的主谓动宾结构抽取规则中已作出定义, 因此可以递归调用预存语义规则抽取所有并列的Relation和Entity2,与 Entity1构成多个关系三元组。
并列类复句的抽取规则为:并列类复句指的是复句中的几个子句在语 义上具有平等并列的关系。如果两个或多个事件之间存在并举罗列的关系, 而不存在因果上的联系,就可以构成并列类复句。关系三元组在预存的动 词相关规则中已进行定义,因此可以递归调用预存动词相关规则抽取所有 并列的Relation和Entity2,与Entity1构成多个关系三元组。此处并列复句 并不限于两个子句,可以由更多子句构成。
上述步骤S13,当有两个以上词节点为并列关系时,通过递归调用预存 的语义规则,抽取出候选节点的关系三元组,具体包括如下两种方法:
当有两个以上词节点为并列关系时,判断所述依存特征的关系类型。
方法一:关系类型为事件关系时,对每个动词候选节点先抽取主语, 再通过递归调用预存的主谓动宾结构规则或主谓介宾结构规则,抽取与主 语相关的多组谓语和宾语,构成多组关系三元组。
比如:“高某参观厂房,并发表生产建议。”,复句分成两个子句,分别 表达了两个事件,且主语同为实体“高某”,两个子句构成并列。并列子句 中的谓词“参观”和“发表”构成并列,依存关系为“并列关系”。输出的 关系三元组为:[[高某,参观,厂房],[高某,发表,生产建议]]。
方法二:关系类型为事实关系时,对每个实体候选节点先抽取前修饰 词,再通过递归调用预存的前修饰结构规则,抽取与前修饰词相关的多组 关系词和关系实体,构成多组关系三元组。
比如:“上海某公司董事长谭某和秘书张某来到美国纽约现代艺术博物 馆参观。”其中,“谭某”和“张某”是构成并列关系的名词,“上海某公 司”是“董事长”和“秘书”的定语,“董事长”是“谭某”的定语,“秘 书”是“张某”的定语。“谭某”和“张某”都与“美国纽约现代艺术博物 馆”存在“来到”的关系。
输出的事实关系三元组为:[[上海某公司,董事长,谭某],[上海某公 司,秘书,张某]]。
输出的事件关系三元组为:[[谭某,来到,美国纽约现代艺术博物馆], [张某,来到,美国纽约现代艺术博物馆]]。
作为一种优选的实施方式,本发明实施例提供的一种语义实体关系抽 取方法中,在步骤S11之后,还进一步包括以下步骤:
S14:对输入文本进行预处理。
具体的预处理过程,可包括:对输入的文本进行词性标注、依存句法 分析、命名实体识别等一系列自然语言处理操作,对每个句子进行分析, 以便进行后续处理。
本发明实施例提供的语义实体关系抽取方法中,首先识别出输入文本 的每个词节点;构建每个词节点的依存特征;当有两个以上词节点为并列 关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组, 通过这种方法能够避免因规则复杂、定义不全而发生抽取遗漏的情况,提 高实体关系抽取的准确率。
实施例二:
本发明实施例提供的一种语义实体关系抽取装置,如图2所示,该语 义实体关系抽取装置包括:识别模块21、构建模块22、抽取模块23、预处 理模块24(图中未示出)。
其中,识别模块21,用于识别出输入文本的每个词节点;构建模块22, 用于构建每个词节点的依存特征;抽取模块23,用于当有两个以上词节点 为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三 元组;其中,所述预存的语义规则包括前修饰结构规则和动词相关规则, 前修饰结构类、动词相关类可以根据匹配的依存规则,从输入文本中直接 匹配进行抽取关系词和实体,与候选实体构成关系三元组。预处理模块24,用于对输入文本进行预处理。
本发明实施例提供的语义实体关系抽取装置中,首先通过预处理模块 对输入文本进行预处理,然后通过构建模块构建每个词节点的依存特征, 最后当有两个以上词节点为并列关系时,通过递归调用预存的语义规则, 经抽取模块抽取出候选节点的关系三元组,通过该装置能够避免因规则复 杂、定义不全而发生抽取遗漏的情况,提高实体关系抽取的准确率。
本发明实施例提供的语义实体关系抽取装置,与实施例一提供的语义 实体关系抽取方法具有相同的技术特征,因此也能解决相同的技术问题, 达到相同的技术效果。
实施例三:
本发明实施例提供的电子设备,如图3所示,该电子设备包括处理器 30、存储器31、总线32、通信接口33以及存储在所述存储器31上并可在 所述处理器30上运行的计算机程序。所述处理器30、通信接口33和存储 器31通过总线32连接。
其中,存储器31可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至 少一个磁盘存储器。通过至少一个通信接口(可以是有线或者无线)实现 该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域 网,本地网,城域网等。
总线32可以是ISA总线、PCI总线或EISA总线等。所述总线可以分 为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向 箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器31用于存储程序,所述处理器30在接收到执行指令后, 执行所述程,前述本发明实施例任一实施例揭示的流过程定义的装置所执 行的方法可以应用于处理器30中,或者由处理器30实现。
处理器30可能是一种集成电路芯片,具有信号的处理能力。在实现过 程中,上述方法的各步骤可以通过处理器30中的硬件的集成逻辑电路或者 软件形式的指令完成。上述的处理器30可以是通用处理器,包括中央处理 器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简 称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、 专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编 程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑 器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本 发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处 理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公 开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处 理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器, 闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存 器等本领域成熟的存储介质中。该存储介质位于存储器31,处理器30读取存储器31中的信息,结合其硬件完成上述方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述 描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程, 在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语 “相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆 卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接 相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于 本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具 体含义。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置 和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意 性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到 另一个系统,或一些特征可以忽略,或不执行。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用 以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于 此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围 内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变 化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都 应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利 要求的保护范围为准。

Claims (10)

1.一种语义实体关系抽取方法,其特征在于,包括:
识别出输入文本的每个词节点;
构建每个词节点的依存特征;
当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组;
其中,所述预存的语义规则包括前修饰结构规则和动词相关规则。
2.根据权利要求1所述的方法,其特征在于,所述依存特征包括:候选节点的依存路径和子节点依存路径字典。
3.根据权利要求1所述的方法,其特征在于,所述当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组,具体包括:
当有两个以上词节点为并列关系时,判断所述依存特征的关系类型;
所述关系类型为事件关系时,对每个动词候选节点先抽取主语,再通过递归调用预存的主谓动宾结构规则或主谓介宾结构规则,抽取与主语相关的多组谓语和宾语,构成多组关系三元组;
所述关系类型为事实关系时,对每个实体候选节点先抽取前修饰词,再通过递归调用预存的前修饰结构规则,抽取与前修饰词相关的多组关系词和关系实体,构成多组关系三元组。
4.根据权利要求3所述的方法,其特征在于,所述事件关系包括:动词相关类结构,其中,动词相关类结构包括主谓动宾结构,以及主谓介宾结构;
所述事实关系包括:前修饰类结构,其中,前修饰类结构包括组合式定语结构,以及由结构助词“的”与中心语连接的结构。
5.根据权利要求4所述的方法,其特征在于,所述事实关系还包括:谓语为“是”或“是”的同义词的主谓动宾结构。
6.根据权利要求1所述的方法,其特征在于,在所述识别出输入文本的每个词节点之后,还包括:
对输入文本进行预处理。
7.一种语义实体关系抽取装置,其特征在于,包括:
识别模块,用于识别出输入文本的每个词节点;
构建模块,用于构建每个词节点的依存特征;
抽取模块,用于当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组;
其中,所述预存的语义规则包括前修饰结构规则和动词相关规则。
8.根据权利要求7所述的装置,其特征在于,所述依存特征包括:候选节点的依存路径和子节点依存路径字典。
9.根据权利要求7所述的装置,其特征在于,所述抽取模块具体用于:
当有两个以上词节点为并列关系时,判断所述依存特征的关系类型;
所述关系类型为事件关系时,对每个动词候选节点先抽取主语,再通过递归调用预存的主谓动宾结构规则或主谓介宾结构规则,抽取与主语相关的多组谓语和宾语,构成多组关系三元组;
所述关系类型为事实关系时,对每个实体候选节点先抽取前修饰词,再通过递归调用预存的前修饰结构规则,抽取与前修饰词相关的多组关系词和关系实体,构成多组关系三元组。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
CN201810633241.8A 2018-06-15 2018-06-15 语义实体关系抽取方法、装置及电子设备 Active CN108874778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810633241.8A CN108874778B (zh) 2018-06-15 2018-06-15 语义实体关系抽取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810633241.8A CN108874778B (zh) 2018-06-15 2018-06-15 语义实体关系抽取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108874778A true CN108874778A (zh) 2018-11-23
CN108874778B CN108874778B (zh) 2023-01-17

Family

ID=64339819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810633241.8A Active CN108874778B (zh) 2018-06-15 2018-06-15 语义实体关系抽取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108874778B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977235A (zh) * 2019-04-04 2019-07-05 吉林大学 一种触发词的确定方法和装置
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110287487A (zh) * 2019-06-17 2019-09-27 北京百度网讯科技有限公司 主谓语识别方法、装置、设备及计算机可读存储介质
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111177315A (zh) * 2019-12-19 2020-05-19 北京明略软件系统有限公司 知识图谱的更新方法、装置及计算机可读存储介质
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111326262A (zh) * 2020-03-19 2020-06-23 北京嘉和海森健康科技有限公司 电子病历数据中实体关系抽取方法、装置及系统
CN114997398A (zh) * 2022-03-09 2022-09-02 哈尔滨工业大学 一种基于关系抽取的知识库融合方法
CN116361490A (zh) * 2023-06-02 2023-06-30 中国传媒大学 基于图神经网络的实体与关系抽取方法、系统、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050675A2 (ko) * 2008-10-29 2010-05-06 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050675A2 (ko) * 2008-10-29 2010-05-06 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明耀等: "基于依存分析的开放式中文实体关系抽取方法", 《计算机工程》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977235A (zh) * 2019-04-04 2019-07-05 吉林大学 一种触发词的确定方法和装置
CN109977235B (zh) * 2019-04-04 2022-10-25 吉林大学 一种触发词的确定方法和装置
CN110046351B (zh) * 2019-04-19 2022-06-14 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110287487A (zh) * 2019-06-17 2019-09-27 北京百度网讯科技有限公司 主谓语识别方法、装置、设备及计算机可读存储介质
CN110287487B (zh) * 2019-06-17 2023-08-11 北京百度网讯科技有限公司 主谓语识别方法、装置、设备及计算机可读存储介质
CN111177315A (zh) * 2019-12-19 2020-05-19 北京明略软件系统有限公司 知识图谱的更新方法、装置及计算机可读存储介质
CN111177315B (zh) * 2019-12-19 2023-04-28 北京明略软件系统有限公司 知识图谱的更新方法、装置及计算机可读存储介质
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111191413B (zh) * 2019-12-30 2021-11-12 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111143536B (zh) * 2019-12-30 2023-06-20 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
WO2021147726A1 (zh) * 2020-01-21 2021-07-29 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111291185B (zh) * 2020-01-21 2023-09-22 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
US11922121B2 (en) 2020-01-21 2024-03-05 Boe Technology Group Co., Ltd. Method and apparatus for information extraction, electronic device, and storage medium
CN111326262A (zh) * 2020-03-19 2020-06-23 北京嘉和海森健康科技有限公司 电子病历数据中实体关系抽取方法、装置及系统
CN111326262B (zh) * 2020-03-19 2023-05-23 北京嘉和海森健康科技有限公司 电子病历数据中实体关系抽取方法、装置及系统
CN114997398A (zh) * 2022-03-09 2022-09-02 哈尔滨工业大学 一种基于关系抽取的知识库融合方法
CN116361490A (zh) * 2023-06-02 2023-06-30 中国传媒大学 基于图神经网络的实体与关系抽取方法、系统、电子设备
CN116361490B (zh) * 2023-06-02 2023-08-22 中国传媒大学 基于图神经网络的实体与关系抽取方法、系统、电子设备

Also Published As

Publication number Publication date
CN108874778B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN108874778A (zh) 语义实体关系抽取方法、装置及电子设备
US11475319B2 (en) Extracting facts from unstructured information
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN110222045B (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN106649825B (zh) 语音交互系统及其创建方法和装置
CN109241538A (zh) 基于关键词和动词依存的中文实体关系抽取方法
Kim et al. Acquisition of semantic patterns for information extraction from corpora
CN111460787A (zh) 一种话题提取方法、装置、终端设备及存储介质
CN104050256A (zh) 基于主动学习的问答方法及采用该方法的问答系统
JP2000315216A (ja) 自然言語検索方法および装置
Han et al. Deriving minimal conflict sets by CS-trees with mark set in diagnosis from first principles
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
US20220058191A1 (en) Conversion of natural language query
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111984778A (zh) 基于依存句法分析和汉语语法的多轮语义分析方法
Bella et al. Domain-based sense disambiguation in multilingual structured data
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN108763202A (zh) 识别敏感文本的方法、装置、设备及可读存储介质
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
Azzopardi et al. Integrating natural language and formal analysis for legal documents
US20060020916A1 (en) Automatic Derivation of Morphological, Syntactic, and Semantic Meaning from a Natural Language System Using a Monte Carlo Markov Chain Process
CN112183110A (zh) 一种基于数据中心的人工智能数据应用系统及应用方法
WO2017058584A1 (en) Extracting facts from unstructured information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant