CN110046351B - 规则驱动下基于特征的文本关系抽取方法 - Google Patents

规则驱动下基于特征的文本关系抽取方法 Download PDF

Info

Publication number
CN110046351B
CN110046351B CN201910317373.4A CN201910317373A CN110046351B CN 110046351 B CN110046351 B CN 110046351B CN 201910317373 A CN201910317373 A CN 201910317373A CN 110046351 B CN110046351 B CN 110046351B
Authority
CN
China
Prior art keywords
entity
rule
word
entities
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910317373.4A
Other languages
English (en)
Other versions
CN110046351A (zh
Inventor
刘耿耿
胡传淑敏
张祖文
陈星�
张佳俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910317373.4A priority Critical patent/CN110046351B/zh
Publication of CN110046351A publication Critical patent/CN110046351A/zh
Application granted granted Critical
Publication of CN110046351B publication Critical patent/CN110046351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种规则驱动下基于特征的文本关系抽取方法。采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组。本发明方法结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取,可以提高当前特定领域下文本的信息抽取准确度,并在实际应用场景中验证了该方法的可行性和有效性。

Description

规则驱动下基于特征的文本关系抽取方法
技术领域
本发明涉及一种规则驱动下基于特征的文本关系抽取方法。
背景技术
当前互联网存储了世界中的各类信息,随着云计算和大数据时代的到来,互联网中数据信 息量增长也愈来愈快,中文文本的信息抽取成为关键性问题。同时,当前各阶层对信息的获取 需求也越来越大,把互联网中的有效信息抽取并识别,不仅服务于科研人员,社会乃至国家都 对此有较大的需求。
当前互联网中的海量数据大部分是以文本的形式存在的,即非结构化数据,它也是信息抽 取的主要的数据来源。现在的信息抽取技术主要针对公开领域信息的抽取,大致分为基于规则 和基于机器学习的实体关系抽取方法。然而以上两种方法都存在一些问题:1、当前基于规则的 信息抽取方法无统一的规则参考模式,且较为依赖领域知识导致该方法的泛化能力低;使用基 于机器学习的方法进行实体关系抽取时,人工标注过程较为繁琐,且如果没有领域知识的支撑 可能导致抽取准确率较低。2、面向公开领域的实体关系抽取技术在针对不同领域文本信息抽取 过程中,由于领域知识区别较大,抽取的效果各不相同。
发明内容
本发明的目的在于提供一种规则驱动下基于特征的文本关系抽取方法,结合规则与机器学 习的方法面向特定领域的文本进行实体关系的抽取,可以提高当前特定领域下文本的信息抽取 准确度,并在实际应用场景中验证了该方法的可行性和有效性。
为实现上述目的,本发明的技术方案是:一种规则驱动下基于特征的文本关系抽取方法, 采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合; 将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征 的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组。
在本发明一实施例中,所述实体候选集为待处理领域下的实体集合,并通过命名实体识别 算法进行复杂实体的识别,以完善实体候选集。
在本发明一实施例中,所述命名实体识别算法实现如下:
1)识别关键词触发阶段
扫描自由文本中的分词,当扫描到实体关键词时,将此分词作为触发词,并确定此触发词 所属实体类别,开始调用相应实体规则即关键词规则进行匹配;
2)候选实体获取
当确定关键词类别后,将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐 一进行匹配,将这些实体与下标序列作为候选实体保存,组成实体候选集;
3)命名实体最佳匹配规则选择
由于步骤2)中筛选的实体候选集可能包含较多实体,因此需从中选择与核心词相关的正确 实体,即确定实体的左边界;在实际的匹配过程中,在实体规则中加入参数P用来调整规则选 择,参数P的公式如下:
Figure BDA0002033570240000021
其中,α表示正相关,式中表示
Figure BDA0002033570240000022
正相关于
Figure BDA0002033570240000023
对于每一个实体候选集,
Figure BDA0002033570240000024
为一个固定值;
4)实体左边界确定和左边界修正
由步骤3)确定实体长度length,从触发词开始往前回溯length个分词即可确定实体的左边 界,这些分词所构成的分词串则代表相应的实体;同时,在实体识别过程中,若获得的实体并 非以所需词语开头的实体,则需继续在阈值范围内向前匹配,即向前匹配n个词,直到在同一 句子中遇到所需词语开头为止,如果在阈值范围内无所需词语,则取消修正。
在本发明一实施例中,所述基于特征的关系抽取算法具体实现如下:
(1)从简单句集合<Sen>中取下一个分句,匹配该分句中的实体,存在则转到(2)继续执 行,如果不存在则算法结束;
(2)对取出的分句,判断其内是否存在一个及一个以上的命名实体,如果只存在一个,则 转到(3);如果存在两个或两个以上,转到(4);
(3)判断命名实体是否含介词,如果不包含则转到(1);如果包含介词则继续判断该介 词的两侧的词组是否包含具体的语义信息,即判断是不是嵌套的语义标注,如果没有则转(1); 如果有则构建相应的三元组,添加到三元组表PrepList中;
(4)取出该分句中所有只包含一个主谓宾结构的简单句,对所有简单句组成的集合进行遍 历;
(5)依次遍历(4)中生成的简单句集合,根据规则中的包括的词性、实体类型、实体内 容、关系预测、依存句法分析的语法判断实体和实体间的关系,生成主语词组、谓语、宾语词 组结构的三元组;
(6)分析词组中的实体的的实例,通过包括谓词的语义信息以及命名实体的标注类型的相 关信息,判断该三元组的关系类型;
(7)输出实体关系的三元组。
相较于现有技术,本发明具有以下有益效果:本发明方法结合规则与机器学习的方法面向 特定领域的文本进行实体关系的抽取,可以提高当前特定领域下文本的信息抽取准确度,并在 实际应用场景中验证了该方法的可行性和有效性。
附图说明
图1为本发明规则驱动下基于特征的文本关系抽取概览图。
图2为本发明实体抽取规则的定义。
图3为本发明命名实体识别算法流程图。
图4为本发明关系抽取规则的定义。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种规则驱动下基于特征的文本关系抽取方法,采用自然语言处理工具 CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待 处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输 入进行关系抽取,最终得到该待处理领域下的实体关系三元组。
所述实体候选集为待处理领域下的实体集合,并通过命名实体识别算法进行复杂实体的识 别,以完善实体候选集。所述命名实体识别算法实现如下:
1)识别关键词触发阶段
扫描自由文本中的分词,当扫描到实体关键词时,将此分词作为触发词,并确定此触发词 所属实体类别,开始调用相应实体规则即关键词规则进行匹配;
2)候选实体获取
当确定关键词类别后,将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐 一进行匹配,将这些实体与下标序列作为候选实体保存,组成实体候选集;
3)命名实体最佳匹配规则选择
由于步骤2)中筛选的实体候选集可能包含较多实体,因此需从中选择与核心词相关的正确 实体,即确定实体的左边界;在实际的匹配过程中,在实体规则中加入参数P用来调整规则选 择,参数P的公式如下:
Figure BDA0002033570240000041
其中,α表示正相关,式中表示
Figure BDA0002033570240000042
正相关于
Figure BDA0002033570240000043
对于每一个实体候选集,
Figure BDA0002033570240000044
为一个固定值;
4)实体左边界确定和左边界修正
由步骤3)确定实体长度length,从触发词开始往前回溯length个分词即可确定实体的左边 界,这些分词所构成的分词串则代表相应的实体;同时,在实体识别过程中,若获得的实体并 非以所需词语开头的实体,则需继续在阈值范围内向前匹配,即向前匹配n个词,直到在同一 句子中遇到所需词语开头为止,如果在阈值范围内无所需词语,则取消修正。
所述基于特征的关系抽取算法具体实现如下:
(1)从简单句集合<Sen>中取下一个分句,匹配该分句中的实体,存在则转到(2)继续执 行,如果不存在则算法结束;
(2)对取出的分句,判断其内是否存在一个及一个以上的命名实体,如果只存在一个,则 转到(3);如果存在两个或两个以上,转到(4);
(3)判断命名实体是否含介词,如果不包含则转到(1);如果包含介词则继续判断该介 词的两侧的词组是否包含具体的语义信息,即判断是不是嵌套的语义标注,如果没有则转(1); 如果有则构建相应的三元组,添加到三元组表PrepList中;
(4)取出该分句中所有只包含一个主谓宾结构的简单句,对所有简单句组成的集合进行遍 历;
(5)依次遍历(4)中生成的简单句集合,根据规则中的包括的词性、实体类型、实体内 容、关系预测、依存句法分析的语法判断实体和实体间的关系,生成主语词组、谓语、宾语词 组结构的三元组;
(6)分析词组中的实体的的实例,通过包括谓词的语义信息以及命名实体的标注类型的相 关信息,判断该三元组的关系类型;
(7)输出实体关系的三元组。
以下为本发明的具体实现过程。
1、方法概览
本发明规则驱动下基于特征的文本关系抽取概览如图1所示。使用斯坦福大学自然语言处 理工具CoreNLP能够将特定领域文本分句,得到特定领域下的简单句集合。将实体候选集和特 定领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入 进行关系抽取。
使用的基于特征的关系抽取算法,同样是以声明式规则语言来描述的。规则中包括实体特 征、CoreNLP的词性分析、实体分类、依存关系分析等,同时还自主定义了关键词词典和领域 下的关系。最终可以得到特定领域下的实体关系三元组。其中基于特征的关系抽取算法核心描 述规则是使用基于规则和依存关系句法分析方法,对文本进行解析得到文本的语法结构树,从 语法结构树的叶子节点开始,句子中的两个实体中间只要包含动词,就可以认为它是一个单句。 递归算法过程,直到整个句子都被遍历,最终得到一个实体和关系的三元组。
2、实体抽取规则
2.1实体规则描述
如图2所示,本文提出的实体抽取规则分为以下几个模块:范围模块(range)、正则模块 (regular)、核心词模块(keyword)、语义模块(dependence)和词性模块(wordAttribute)等。 其中实体抽取规则中范围模块(range)主要定义特定领域中实体抽取的范围,如部分文本、某 一文本或某一文本的部分段落等。正则模块(regular)主要针对范围定义下的文本,使用正则 表达式的形式,对文本中已分词后的实体进行匹配。核心词模块(keyword)和语义模块 (dependence)主要针对复杂实体,可一次定位该实体的核心词并针对复杂实体确定与核心词相 关实体的语义关系。词性模块(wordAttribute)主要针对分词标注后实体的词性,进一步的规范 实体的准确性。
2.2命名实体识别算法
上述规则定义主要用于处理一般的实体识别,在实际的应用过程中,某些特定领域下实体 的识别不全的情况。如招标信息领域中,中文公司名称、组织机构名称、地点名称等实体常常 识别不全。这是因为这些实体的长度难以确定,长短不一。经过对领域特点的研究发现,这些 复杂实体通常都以表述地址的词语开头。因此本规则需要添加一个用规则表示的命名实体识别 算法进行左边界修正的过程以实现该类复杂实体的识别。下面介绍具体命名实体识别算法,识 别过程如图3所示。
1)识别关键词触发阶段
识别触发阶段的主要任务是扫描自由文本中的分词,当扫描到实体关键词(keyword)时,则 将此分词作为触发词,并确定此触发词所属实体类别,开始调用相应实体的规则即关键词规则(keyword)进行匹配。比如扫描到分词“公司”时,将此分词作为关键词,并且确定其所属实体 类别为机构实体(/N_org),并调用组织机构实体规则与触发词前文语义进行匹配。
2)候选实体获取
当确定关键词类别后,则将关键词之前至上一句子之间的实体下标序列与相应实体规则逐 一进行匹配,将这些实体与下标序列作为候选实体保存。
3)命名实体最佳匹配规则选择
上一步中,筛选的候选实体集可能包含较多实体,需要从中选择与核心词相关的正确实体, 即确定实体的左边界。在实际的匹配过程中,我们发现中文地点、组织结构等特定领域下的实 体左边界不确定性的问题,因此我们在原有规则的基础上加入了一个参数P用来调整规则选择。 参数P的公式如下:
Figure BDA0002033570240000061
其中,α表示正相关,式中表示
Figure BDA0002033570240000062
正相关于
Figure BDA0002033570240000063
对于每一个实体候选集,
Figure BDA0002033570240000064
为一个固定值;依据P的值(一般取10)来进行规则的选取,即是否使用命名 实体识别算法来进行左修正。
4)实体左边界确定和左边界修正
由步骤3)确定实体长度length,从触发词开始往前回溯length个分词即可确定实体的左边 界,这些分词所构成的分词串则代表相应的实体;同时,在实体识别过程中,若获得的实体并 非以所需词语开头的实体,则需继续在阈值范围内(本方法阈值设置为n个词)向前匹配,直到在 同一句子中遇到所需词语开头为止,如果在阈值范围内无所需词语,则取消修正。
3关系抽取规则
3.1抽取规则定义
主要详细介绍规则驱动下基于特征的关系抽取方法中规则的定义与描述。规则的定义包括 两部分,第一部分为关系抽取规则的定义,第二部分为特征描述规则。本方法中的描述规则包 括描述语句、保留词和操作符等。图4为关系抽取规则的定义。
其中CONCEPTA,B表示基于规则的实体抽取方法中得到的实体A和实体B。本算法中抽 取的关系描述为relation,这个关系即为实体A和B之间的关系。规则描述中包括五个函数,分 别是SENT、DIST_X、SEMA、BETW、FEATURE,函数的定义如表1所示。
表1关系抽取规则中函数定义
Figure BDA0002033570240000071
特别的,为实现特定领域下的部分领域关系的有效识别,我们建立了一个谓词核心词词典, 其主要包括各个关系中谓词的触发词,比如我们为位置(area)这一关系构建了由“位于,在, 处于,有,存在,产出,出产,盛产,产于,量产,盛产,特产,来自,产自,产地,起源, 引种,分布于,生长在,种植,栽种,栽培,栽植,引进”等组成的词典。本文中针对特定领域 涉及的关系自主构造的谓词核心词词典如表2所示。
表2特定领域自定义谓词核心词词典
Figure BDA0002033570240000072
3.2基于特征的抽取规则描述
FEATURE函数内包括20+语句,这些语句是对关系抽取规则中的实体、关系、句子做的特 征描述如以下规则所示:
Figure BDA0002033570240000073
Figure BDA0002033570240000081
基于特征的关系抽取规则由定义语句、概念语句、赋值语句、关系定义语句等构成,主要 在实体向量、语句向量、特征向量、关系预测、词性表示等特征方面进行体现。下面详细描述 上述各类语句。
其中1表示一条关系抽取规则分别包括句子表达向量、特征表达向量和关系预测表示。2 和3主要表示句子表达向量与特征表达向量的具体表现内容。4-11主要表示特征表达向量中具 体包括的几个方面,有以下几个方面:实体内容;实体中各个词的词性;实体类型;实体上下 文内容;实体上下文词性;实体与核心谓词的距离;依存句法特征。12主要表示预测的实体间 关系语句。13主要表示斯坦福大学CoreNLP的词性标注。14主要表示斯坦福大学CoreNLP的 实体分类。15主要表示预测的实体间关系种类。16-20主要表示语句的关系操作符、参数和语 法等。
4基于特征的关系抽取算法
以3.2基于特征的关系抽取描述规则为基础,我们提出关系抽取算法。原始文本经过分句、 分词以及实体识别处理后,得到一个分句集合<Sen>和实体集合<Ent>做为我们的关系抽取算法 输入。算法开始前,对于介词和动词我们先分别建立两个空的三元组表PrepList和VerbList, 用来做为算法的输出。我们在文本的分句集合上进行遍历,一次处理单一的一个分句。算法描 述如下:
①从<Sen>中取下一个分句,匹配该句中的实体,存在则转到2继续执行,如果不存在则算 法结束。
②对取出的分句,判断其内是否存在一个及一个以上的命名实体,如果只存在一个,则转 到3;如果存在两个或两个以上,转到4
③判断命名实体是否含介词,如果不包含则转到1;如果包含介词则继续判断该介词的两侧 的词组是否包含具体的语义信息(即判断是不是嵌套的语义标注),如果没有则转1;如果有则 构建相应的三元组,添加到PrepList中。
④取出该分句中所有只包含一个主谓宾结构的简单句,对所有简单句组成的集合进行遍历。
⑤依次遍历4中生成的简单句集合,根据规则中的词性、实体类型、实体内容、关系预测、 依存句法分析等语法判断实体和实体间的关系,生成(主语词组,谓语,宾语词组)结构的三 元组,添加到VerbList中。
⑥分析词组中的实体的的实例,通过谓词的语义信息(添加自定义谓词词典)以及命名实 体的标注类型等相关信息,判断该三元组的关系类型。
⑦输出实体关系的三元组。
5实验评估
实验针对两个特定领域信息预设了8种实体关系种类:有招标信息中实体与实体之间的是 关系(is),实体与实体之间的原产地关系(area)、实体与实体之间的包含关系(con)、实体之间 的别名关系(ali)、实体之间的父子类关系(sup)、实体的荣誉称号关系(hon)、实体与价值之间的 具有关系(val)和实体与实体之间无关系(nor)。
由于本实验是将关系抽取过程看作是分类的过程,所以这里的评价方式也采用常规的准确 率、召回率和F1值。针对某一具体关系类型的抽取结果,5-1、5-2和5-3为其评价公式:
准确率:
Figure BDA0002033570240000091
召回率:
Figure BDA0002033570240000092
F1值:
Figure BDA0002033570240000093
如表3所示,使用规则驱动下的关系抽取方法各类关系的平均准确率超过为73%
表3基于规则的农业知识领域信息抽取实验结果
RelationType Precision Recall F1
is 0.93 0.91 0.94
ali 0.75 0.74 0.77
area 0.75 0.79 0.77
sup 0.74 0.74 0.74
val 0.81 0.68 0.74
hon 0.80 0.75 0.76
con 0.76 0.69 0.72
nor 0.84 0.84 0.84
Avg 0.79 0.77 0.76
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出 本发明技术方案的范围时,均属于本发明的保护范围。

Claims (1)

1.一种规则驱动下基于特征的文本关系抽取方法,其特征在于,采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组;
所述实体候选集为待处理领域下的实体集合,并通过命名实体识别算法进行复杂实体的识别,以完善实体候选集;
所述命名实体识别算法实现如下:
1)识别关键词触发阶段
扫描自由文本中的分词,当扫描到实体关键词时,将此分词作为触发词,并确定此触发词所属实体类别,开始调用相应实体规则即关键词规则进行匹配;
2)候选实体获取
当确定关键词类别后,将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐一进行匹配,将这些实体与下标序列作为候选实体保存,组成实体候选集;
3)命名实体最佳匹配规则选择
由于步骤2)中筛选的实体候选集可能包含较多实体,因此需从中选择与核心词相关的正确实体,即确定实体的左边界;在实际的匹配过程中,在实体规则中加入参数P用来调整规则选择,参数P的公式如下:
Figure FDA0003604866660000011
其中,α表示正相关,式中表示
Figure FDA0003604866660000012
正相关于
Figure FDA0003604866660000013
对于每一个实体候选集,
Figure FDA0003604866660000014
为一个固定值;
4)实体左边界确定和左边界修正
由步骤3)确定实体长度length,从触发词开始往前回溯length个分词即可确定实体的左边界,这些分词所构成的分词串则代表相应的实体;同时,在实体识别过程中,若获得的实体并非以所需词语开头的实体,则需继续在阈值范围内向前匹配,即向前匹配n个词,直到在同一句子中遇到所需词语开头为止,如果在阈值范围内无所需词语,则取消修正;
所述基于特征的关系抽取算法具体实现如下:
(1)从简单句集合<Sen>中取下一个分句,匹配该分句中的实体,存在则转到(2)继续执行,如果不存在则算法结束;
(2)对取出的分句,判断其内是否存在一个及一个以上的命名实体,如果只存在一个,则转到(3);如果存在两个或两个以上,转到(4);
(3)判断命名实体是否含介词,如果不包含则转到(1);如果包含介词则继续判断该介词的两侧的词组是否包含具体的语义信息,即判断是不是嵌套的语义标注,如果没有则转(1);如果有则构建相应的三元组,添加到三元组表PrepList中;
(4)取出该分句中所有只包含一个主谓宾结构的简单句,对所有简单句组成的集合进行遍历;
(5)依次遍历(4)中生成的简单句集合,根据规则中的包括的词性、实体类型、实体内容、关系预测、依存句法分析的语法判断实体和实体间的关系,生成主语词组、谓语、宾语词组结构的三元组;
(6)分析词组中的实体的实例,通过包括谓词的语义信息以及命名实体的标注类型的相关信息,判断该三元组的关系类型;
(7)输出实体关系的三元组。
CN201910317373.4A 2019-04-19 2019-04-19 规则驱动下基于特征的文本关系抽取方法 Active CN110046351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910317373.4A CN110046351B (zh) 2019-04-19 2019-04-19 规则驱动下基于特征的文本关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910317373.4A CN110046351B (zh) 2019-04-19 2019-04-19 规则驱动下基于特征的文本关系抽取方法

Publications (2)

Publication Number Publication Date
CN110046351A CN110046351A (zh) 2019-07-23
CN110046351B true CN110046351B (zh) 2022-06-14

Family

ID=67277998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910317373.4A Active CN110046351B (zh) 2019-04-19 2019-04-19 规则驱动下基于特征的文本关系抽取方法

Country Status (1)

Country Link
CN (1) CN110046351B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705301B (zh) * 2019-09-30 2021-01-26 北京京东智能城市大数据研究院 实体关系抽取方法及装置、存储介质、电子设备
CN111159408A (zh) * 2019-12-31 2020-05-15 湖南星汉数智科技有限公司 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质
CN111400451B (zh) * 2020-03-16 2023-05-09 北京百度网讯科技有限公司 信息抽取方法、信息抽取装置和电子设备
CN112463960B (zh) * 2020-10-30 2021-07-27 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112232074B (zh) * 2020-11-13 2022-01-04 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN112507108B (zh) * 2020-11-25 2024-09-06 北京明略软件系统有限公司 基于json规则文件的知识抽取方法、系统及规则解析引擎
CN112580348B (zh) * 2020-12-15 2024-05-28 国家工业信息安全发展研究中心 政策文本关联性分析方法及系统
CN112231494B (zh) * 2020-12-16 2021-08-03 完美世界(北京)软件科技发展有限公司 信息抽取方法、装置、电子设备及存储介质
CN112765330A (zh) * 2020-12-31 2021-05-07 科沃斯商用机器人有限公司 文本数据处理方法、装置、电子设备和存储介质
CN114118060B (zh) * 2021-11-10 2022-09-27 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统
CN114154495A (zh) * 2021-12-03 2022-03-08 海南港航控股有限公司 一种基于关键词匹配的实体抽取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108874778A (zh) * 2018-06-15 2018-11-23 广东蔚海数问大数据科技有限公司 语义实体关系抽取方法、装置及电子设备
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108874778A (zh) * 2018-06-15 2018-11-23 广东蔚海数问大数据科技有限公司 语义实体关系抽取方法、装置及电子设备
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘燊.面向《大词林》的中文实体关系挖掘.《万方数据学位论文库》.2017, *

Also Published As

Publication number Publication date
CN110046351A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046351B (zh) 规则驱动下基于特征的文本关系抽取方法
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
CN110543639A (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN112989005A (zh) 一种基于分阶段查询的知识图谱常识问答方法及系统
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
EP3864565A1 (en) Method of searching patent documents
CN112528653B (zh) 短文本实体识别方法和系统
CN112926337B (zh) 一种结合重构句法信息的端到端方面级情感分析方法
CN113282689A (zh) 基于领域知识图谱的检索方法、装置和搜索引擎
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN109614493B (zh) 一种基于监督词向量的文本缩写识别方法及系统
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN118096452B (zh) 一种案件辅助审判方法、装置、终端设备及介质
CN114266256A (zh) 一种领域新词的提取方法及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN110705295B (zh) 基于关键词提取的实体名消岐方法
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法
CN115718791A (zh) 文本元素的特定性排序及其应用
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
CN113779981A (zh) 一种基于指针网络和知识图谱的推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant