CN112149423B - 一种面向领域实体关系联合抽取的语料标注方法及系统 - Google Patents

一种面向领域实体关系联合抽取的语料标注方法及系统 Download PDF

Info

Publication number
CN112149423B
CN112149423B CN202011108388.9A CN202011108388A CN112149423B CN 112149423 B CN112149423 B CN 112149423B CN 202011108388 A CN202011108388 A CN 202011108388A CN 112149423 B CN112149423 B CN 112149423B
Authority
CN
China
Prior art keywords
entity
data
labeling
corpus
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011108388.9A
Other languages
English (en)
Other versions
CN112149423A (zh
Inventor
吴赛赛
谢能付
周爱莲
梁晓贺
姜丽华
张帆
李小雨
汪汇涓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN202011108388.9A priority Critical patent/CN112149423B/zh
Publication of CN112149423A publication Critical patent/CN112149423A/zh
Application granted granted Critical
Publication of CN112149423B publication Critical patent/CN112149423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明共公开一种面向领域实体关系联合抽取的语料标注方法及系统,方法包括:利用scrapy爬虫框架从网页爬取符合条件的初始数据;利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;根据领域语料特征定义实体间的关系集合;利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。采用本发明公开的方法能够简化实体和关系的标注流程,提升标注效率,实现实体关系的联合抽取以及重叠关系的抽取,同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。

Description

一种面向领域实体关系联合抽取的语料标注方法及系统
技术领域
本发明涉及自然语言处理领域,特别是涉及一种面向领域实体关系联合抽取的语料标注方法及系统。
背景技术
命名实体识别和关系抽取是自然语言处理的两项核心工作,也是知识图谱构建的重要下游任务。语料标注是命名实体识别和关系抽取的底层任务,传统的实体和关系标注方式是在对实体标注的基础上,再对两个实体间的关系进行标注,降低了标注的效率、准确率、召回率以及F1值,且容易造成实体和关系抽取中的错误传播、信息丢失和实体冗余等问题。
发明内容
基于此,本发明的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统,以克服现有实体关系提取方法存在错误传播、信息丢失和实体冗余的问题。
为实现上述目的,本发明提供了一种面向领域实体关系联合抽取的语料标注方法,所述方法包括:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;
步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
步骤S3:根据领域语料特征定义实体间的关系集合;
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
可选地,所述方法还包括:
步骤S5:根据所述标注数据抽取三元组;
步骤S6:根据所述三元组构建知识图谱。
可选地,所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:
步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
步骤S22:对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
可选地,所述待滤除信息包括网页导航、广告和重复值。
可选地,所述方法还包括:
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据;
本发明还提供一种面向领域实体关系联合抽取的语料标注系统,所述系统包括:
爬取模块,用于利用scrapy爬虫框架从网页爬取符合条件的初始数据;
预处理模块,用于利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
关系集合定义模块,用于根据领域语料特征定义实体间的关系集合;
标注模块,用于利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
可选地,所述系统还包括:
三元组抽取模块,用于根据所述标注数据抽取三元组;
知识图谱构建模块,用于根据所述三元组构建知识图谱。
可选地,所述预处理模块具体包括:
滤除单元,用于利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
缺失数据补充单元,用于对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
可选地,所述待滤除信息包括网页导航、广告和重复值。
可选地,所述系统还包括:
训练、测试和预测模块,用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明共公开一种面向领域实体关系联合抽取的语料标注方法及系统,方法包括:利用scrapy爬虫框架从网页爬取符合条件的初始数据;利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;根据领域语料特征定义实体间的关系集合;利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。采用本发明公开的方法能够简化实体和关系的标注流程,提升标注效率,实现实体关系的联合抽取以及重叠关系的抽取,同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例面向领域实体关系联合抽取的语料标注方法流程图;
图2为本发明实施例作物病虫害领域语料标注示意图;
图3为本发明实施例作物病虫害领域三元组形成示意图;
图4为本发明实施例面向领域实体关系联合抽取的语料标注系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统,以克服现有提取方法存在错误传播、信息丢失和实体冗余的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明公开一种面向领域实体关系联合抽取的语料标注方法,所述方法包括:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据。
步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据。
步骤S3:根据领域语料特征定义实体间的关系集合。
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
下面对各个步骤进行详细论述:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;所述条件为一条数据主要围绕一个特定实体E展开,实体E与文本中的多个实体{E1,E2,…,Ei,…En}之间存在多关系对。
步骤S2:所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:
步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;所述待滤除信息包括网页导航、广告和重复值。
步骤S22:对所述滤除数据进行缺失数据补充,获得无噪声文本数据。本发明既可以采用人工的方式对所述滤除数据进行缺失数据补充,还可以采用正则表达式对所述滤除数据进行缺失数据补充,但并不限于以上两种。
步骤S3:根据领域语料特征定义实体间的关系集合R;如果标注的是作物病虫害领域,那么对应的关系集合包括{别名,发生期,病原,为害部位,防治药剂……};如果标注的是医疗领域,那么对应的关系集合包括{发病部位,临床症状,检查,手术治疗,治疗药物……};如果标注的是公安领域,那么对应的关系集合包括{性别,出生日期,失踪原因,失踪地点,可能去向……}。
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。本发明将此标注方案命名为“E+R+BIES”,标注方法如下:若某一实体E与多实体{E1,E2,…,Ei,…En}之间存在一一对应的关系{R1,R2,…,Ri,…Rn},首先将实体E设置为一固定标签E,当文本中实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,并用“BIES”标志来表示实体Ei中字符的位置信息,其中“B-Ri”表示实体Ei的首字符,“I-Ri”表示实体Ei的内部字符,“E-Ri”表示实体Ei的尾字符,“S-Ri”表示实体Ei为单字符,“O”则代表无关字符。采用“E+R+BIES”标注的方法对作物病虫害进行标注,具体详见图2,首先将“水稻云形病”标注为固定标签“E”,其中“叶枯病”与“水稻云形病”之间存在关系“别名”,则将“叶枯病”标注为“别名”的代表标签“ON”(Other_Name);“叶片”与“水稻云形病”存在关系“为害部位”,则将“叶片”标注为代表“为害部位”的标签“DP”(Damage_Position)。
所述方法还包括:
步骤S5:根据所述标注数据抽取三元组,具体的:每匹配到一条数据中的标签E和同一关系Ri的完整“BIE”或“S”集合,便取出标签集合所对应的实体E和Ei,通过python的map函数进行标签映射,通过codecs等模块进行数据解析,形成一个(E,Ri,Ei)三元组。
如图3所示,如(水稻云形病,别名,叶枯病)、(水稻云形病,为害部位,叶片),实现实体关系的联合抽取;直至遇到下一个标签E,则说明上一个实体E对应的三元组全部抽取完成。在这样的标注方式下,只关注两个实体之间的关系类型Ri而无需关注Ei所属的实体类型。
步骤S6:根据所述三元组构建知识图谱。
所述方法还包括:
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。预训练语言模型(Bidirectional Encoder Representations fromTransformers,简称BERT),长短期记忆网络模型(Bi-directional Long Short-TermMemory,简称BiLSTM),条件随机场(Conditional RandomField,简称CRF)。BERT用于生成字向量,BiLSTM用于输出标签的预测得分,CRF用于输出字符的标签类别。
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据,具体包括:
步骤S71:通过BERT预训练语言模型进行字编码,提取文本特征,生成字向量。
步骤S72:将生成的字向量输入BiLSTM模型,进行双向编码,并输出标签的预测分值。
步骤S73:将标签的预测分值输入CRF模型进行解码,通过训练学习得到标签转移概率和约束条件,获得每个字符所属的标签类别。
如图4所示,本发明还提供一种面向领域实体关系联合抽取的语料标注系统,所述系统包括:
爬取模块1,用于利用scrapy爬虫框架从网页爬取符合条件的初始数据。
预处理模块2,用于利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据。
关系集合定义模块3,用于根据领域语料特征定义实体间的关系集合。
标注模块4,用于利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
三元组抽取模块,用于根据所述标注数据抽取三元组。
知识图谱构建模块,用于根据所述三元组构建知识图谱。
作为一种实施方式,本发明所述预处理模块具体包括:
滤除单元,用于利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;所述待滤除信息包括网页导航、广告和重复值。
缺失数据补充单元,用于对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
作为一种实施方式,本发明所述系统还包括:
训练、测试和预测模块,用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
所述训练、测试和预测模块,具体包括:
字编码单元,用于通过BERT预训练语言模型进行字编码,提取文本特征,生成字向量。
双向编码单元,用于将生成的字向量输入BiLSTM模型,进行双向编码,并输出标签的预测分值。
解码单元,用于将标签的预测分值输入CRF模型进行解码,通过训练学习得到标签转移概率和约束条件,获得每个字符所属的标签类别。
本发明公开了一种面向领域实体关系联合抽取的语料标注方法及系统,将实体关系的联合抽取转化为一个序列标注问题,直接对三元组建模,而不是分别对实体和关系分别建模,实现实体和关系的联合抽取和重叠关系的抽取。根据医疗、作物病虫害、公安等领域一些文本具有的一个共同特征:一条数据主要围绕一个特定实体E而展开,实体E与文本中多个实体{E1,E2,…,Ei,…En}之间存在一一对应关系{R1,R2,…,Ri,…Rn}。基于这样的领域语料特征,在标注过程中首先将实体E标注为一个固定标签E,若文本中某个实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,通过标签映射和数据解析后得到三元组(E,Ri,Ei)。这样的标注方式在一次标注过程中即同时包含实体和关系信息,实现实体关系的联合抽取,在提高标注效率的基础上还能有效避免流水线方法存在的错误传播、信息丢失以及实体冗余等问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法包括:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;
步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
步骤S3:根据领域语料特征定义实体间的关系集合;
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据;标注方法如下:若某一实体E与多实体{E1,E2,…,Ei,…En}之间存在一一对应的关系{R1,R2,…,Ri,…Rn},首先将实体E设置为一固定标签E,当文本中实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,并用“BIES”标志来表示实体Ei中字符的位置信息,其中“B-Ri”表示实体Ei的首字符,“I-Ri”表示实体Ei的内部字符,“E-Ri”表示实体Ei的尾字符,“S-Ri”表示实体Ei为单字符,“O”则代表无关字符;通过标签映射和数据解析后得到三元组(E,Ri,Ei);
所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:
步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
步骤S22:利用人工的方式或正则表达式对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
2.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法还包括:
步骤S5:根据所述标注数据抽取三元组;
步骤S6:根据所述三元组构建知识图谱。
3.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述待滤除信息包括网页导航、广告和重复值。
4.根据权利要求2所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法还包括:
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
5.一种面向领域实体关系联合抽取的语料标注系统,其特征在于,所述系统包括:
爬取模块,用于利用scrapy爬虫框架从网页爬取符合条件的初始数据;
预处理模块,用于利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
关系集合定义模块,用于根据领域语料特征定义实体间的关系集合;
标注模块,用于利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据;标注方法如下:若某一实体E与多实体{E1,E2,…,Ei,…En}之间存在一一对应的关系{R1,R2,…,Ri,…Rn},首先将实体E设置为一固定标签E,当文本中实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,并用“BIES”标志来表示实体Ei中字符的位置信息,其中“B-Ri”表示实体Ei的首字符,“I-Ri”表示实体Ei的内部字符,“E-Ri”表示实体Ei的尾字符,“S-Ri”表示实体Ei为单字符,“O”则代表无关字符;通过标签映射和数据解析后得到三元组(E,Ri,Ei);
所述预处理模块具体包括:
滤除单元,用于利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
缺失数据补充单元,用于利用人工的方式或正则表达式对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
6.根据权利要求5所述的面向领域实体关系联合抽取的语料标注系统,其特征在于,所述系统还包括:
三元组抽取模块,用于根据所述标注数据抽取三元组;
知识图谱构建模块,用于根据所述三元组构建知识图谱。
7.根据权利要求6所述的面向领域实体关系联合抽取的语料标注系统,其特征在于,所述待滤除信息包括网页导航、广告和重复值。
8.根据权利要求5所述的面向领域实体关系联合抽取的语料标注系统,其特征在于,所述系统还包括:
训练、测试和预测模块,用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
CN202011108388.9A 2020-10-16 2020-10-16 一种面向领域实体关系联合抽取的语料标注方法及系统 Active CN112149423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011108388.9A CN112149423B (zh) 2020-10-16 2020-10-16 一种面向领域实体关系联合抽取的语料标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011108388.9A CN112149423B (zh) 2020-10-16 2020-10-16 一种面向领域实体关系联合抽取的语料标注方法及系统

Publications (2)

Publication Number Publication Date
CN112149423A CN112149423A (zh) 2020-12-29
CN112149423B true CN112149423B (zh) 2024-01-26

Family

ID=73952162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011108388.9A Active CN112149423B (zh) 2020-10-16 2020-10-16 一种面向领域实体关系联合抽取的语料标注方法及系统

Country Status (1)

Country Link
CN (1) CN112149423B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004230B (zh) * 2021-09-23 2022-07-05 杭萧钢构股份有限公司 一种生产钢结构的工控调度方法和系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099675A (ja) * 2014-11-18 2016-05-30 日本電信電話株式会社 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム
CN108292387A (zh) * 2015-10-08 2018-07-17 斯道拉恩索公司 用于在开环供应或价值链中跟踪产品的系统和方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108920461A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型且含复杂关系的实体抽取方法及装置
CN110347843A (zh) * 2019-07-10 2019-10-18 陕西师范大学 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110838368A (zh) * 2019-11-19 2020-02-25 广州西思数字科技有限公司 一种基于中医临床知识图谱的机器人主动问诊方法
CN111581395A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度学习的模型融合三元组表示学习系统及方法
CN111737951A (zh) * 2019-03-20 2020-10-02 北京大学 一种文本语言关联关系标注方法和装置
CN111753029A (zh) * 2020-07-09 2020-10-09 腾讯科技(深圳)有限公司 实体关系抽取方法、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019005098A1 (en) * 2017-06-30 2019-01-03 Go Logic Decision Time, Llc METHODS AND SYSTEMS FOR PROJECTIVE ASSERTION SIMULATION

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099675A (ja) * 2014-11-18 2016-05-30 日本電信電話株式会社 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム
CN108292387A (zh) * 2015-10-08 2018-07-17 斯道拉恩索公司 用于在开环供应或价值链中跟踪产品的系统和方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108920461A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型且含复杂关系的实体抽取方法及装置
CN111737951A (zh) * 2019-03-20 2020-10-02 北京大学 一种文本语言关联关系标注方法和装置
CN110347843A (zh) * 2019-07-10 2019-10-18 陕西师范大学 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN110838368A (zh) * 2019-11-19 2020-02-25 广州西思数字科技有限公司 一种基于中医临床知识图谱的机器人主动问诊方法
CN111581395A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度学习的模型融合三元组表示学习系统及方法
CN111753029A (zh) * 2020-07-09 2020-10-09 腾讯科技(深圳)有限公司 实体关系抽取方法、装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Jointly Extract Entities and Their Relations From Biomedical Text;Jizhi Chen等;IEEE;第7卷;第162818页-162827页 *
基于知识图谱的作物病虫害智能问答系统设计与实现;吴赛赛;中国优秀硕士学位论文全文数据库农业科技辑(第9期);第D046-7页 *
基于等价压缩快速聚类的Web表格知识抽取;吴小龙等;中文信息学报;第33卷(第4期);第75页-84页 *
融合对抗训练的端到端知识三元组联合抽取;黄培馨;赵翔;方阳;朱慧明;肖卫东;;计算机研究与发展;第56卷(第12期);第2536页-2548页 *
面向医学文本的实体关系抽取研究综述;昝红英等;郑州大学学报(理学版);第52卷(第4期);第1页-15页 *

Also Published As

Publication number Publication date
CN112149423A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
US11093835B2 (en) Natural language question expansion and extraction
CN111160008A (zh) 一种实体关系联合抽取方法及系统
CN111538894B (zh) 查询反馈方法、装置、计算机设备及存储介质
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN111666477B (zh) 一种数据处理方法、装置、智能设备及介质
CN111522921B (zh) 一种基于语句改写的面向端到端对话的数据增强方法
CN109558492A (zh) 一种适于事件归因的上市公司知识图谱构建方法及装置
CN114841122A (zh) 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN109271632B (zh) 一种监督的词向量学习方法
CN114648015B (zh) 一种基于依存关系注意力模型的方面级情感词识别方法
CN113822026A (zh) 一种多标签实体标注方法
CN112149423B (zh) 一种面向领域实体关系联合抽取的语料标注方法及系统
CN114065702A (zh) 一种融合实体关系和事件要素的事件检测方法
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
Cai et al. HITS-based attentional neural model for abstractive summarization
CN114742034A (zh) 基于句法依存的交易信息识别方法、装置、系统及介质
Wang et al. Aspect-based sentiment analysis with graph convolutional networks over dependency awareness
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法
CN112380867A (zh) 文本处理、知识库的构建方法、装置和存储介质
WO2023272563A1 (zh) 智能分诊方法、装置、存储介质及电子设备
CN113377908B (zh) 基于可学习多单词对打分器的方面级情感三元组抽取方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant