CN112149423B - 一种面向领域实体关系联合抽取的语料标注方法及系统 - Google Patents
一种面向领域实体关系联合抽取的语料标注方法及系统 Download PDFInfo
- Publication number
- CN112149423B CN112149423B CN202011108388.9A CN202011108388A CN112149423B CN 112149423 B CN112149423 B CN 112149423B CN 202011108388 A CN202011108388 A CN 202011108388A CN 112149423 B CN112149423 B CN 112149423B
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- labeling
- corpus
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 64
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000009193 crawling Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 230000001502 supplementing effect Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 241000607479 Yersinia pestis Species 0.000 description 6
- 241000209094 Oryza Species 0.000 description 5
- 235000007164 Oryza sativa Nutrition 0.000 description 5
- 235000009566 rice Nutrition 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 241000238631 Hexapoda Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010380 label transfer Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/244—Grouping and aggregation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明共公开一种面向领域实体关系联合抽取的语料标注方法及系统,方法包括:利用scrapy爬虫框架从网页爬取符合条件的初始数据;利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;根据领域语料特征定义实体间的关系集合;利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。采用本发明公开的方法能够简化实体和关系的标注流程,提升标注效率,实现实体关系的联合抽取以及重叠关系的抽取,同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。
Description
技术领域
本发明涉及自然语言处理领域,特别是涉及一种面向领域实体关系联合抽取的语料标注方法及系统。
背景技术
命名实体识别和关系抽取是自然语言处理的两项核心工作,也是知识图谱构建的重要下游任务。语料标注是命名实体识别和关系抽取的底层任务,传统的实体和关系标注方式是在对实体标注的基础上,再对两个实体间的关系进行标注,降低了标注的效率、准确率、召回率以及F1值,且容易造成实体和关系抽取中的错误传播、信息丢失和实体冗余等问题。
发明内容
基于此,本发明的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统,以克服现有实体关系提取方法存在错误传播、信息丢失和实体冗余的问题。
为实现上述目的,本发明提供了一种面向领域实体关系联合抽取的语料标注方法,所述方法包括:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;
步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
步骤S3:根据领域语料特征定义实体间的关系集合;
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
可选地,所述方法还包括:
步骤S5:根据所述标注数据抽取三元组;
步骤S6:根据所述三元组构建知识图谱。
可选地,所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:
步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
步骤S22:对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
可选地,所述待滤除信息包括网页导航、广告和重复值。
可选地,所述方法还包括:
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据;
本发明还提供一种面向领域实体关系联合抽取的语料标注系统,所述系统包括:
爬取模块,用于利用scrapy爬虫框架从网页爬取符合条件的初始数据;
预处理模块,用于利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
关系集合定义模块,用于根据领域语料特征定义实体间的关系集合;
标注模块,用于利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
可选地,所述系统还包括:
三元组抽取模块,用于根据所述标注数据抽取三元组;
知识图谱构建模块,用于根据所述三元组构建知识图谱。
可选地,所述预处理模块具体包括:
滤除单元,用于利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
缺失数据补充单元,用于对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
可选地,所述待滤除信息包括网页导航、广告和重复值。
可选地,所述系统还包括:
训练、测试和预测模块,用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明共公开一种面向领域实体关系联合抽取的语料标注方法及系统,方法包括:利用scrapy爬虫框架从网页爬取符合条件的初始数据;利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;根据领域语料特征定义实体间的关系集合;利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。采用本发明公开的方法能够简化实体和关系的标注流程,提升标注效率,实现实体关系的联合抽取以及重叠关系的抽取,同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例面向领域实体关系联合抽取的语料标注方法流程图;
图2为本发明实施例作物病虫害领域语料标注示意图;
图3为本发明实施例作物病虫害领域三元组形成示意图;
图4为本发明实施例面向领域实体关系联合抽取的语料标注系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统,以克服现有提取方法存在错误传播、信息丢失和实体冗余的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明公开一种面向领域实体关系联合抽取的语料标注方法,所述方法包括:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据。
步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据。
步骤S3:根据领域语料特征定义实体间的关系集合。
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
下面对各个步骤进行详细论述:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;所述条件为一条数据主要围绕一个特定实体E展开,实体E与文本中的多个实体{E1,E2,…,Ei,…En}之间存在多关系对。
步骤S2:所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:
步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;所述待滤除信息包括网页导航、广告和重复值。
步骤S22:对所述滤除数据进行缺失数据补充,获得无噪声文本数据。本发明既可以采用人工的方式对所述滤除数据进行缺失数据补充,还可以采用正则表达式对所述滤除数据进行缺失数据补充,但并不限于以上两种。
步骤S3:根据领域语料特征定义实体间的关系集合R;如果标注的是作物病虫害领域,那么对应的关系集合包括{别名,发生期,病原,为害部位,防治药剂……};如果标注的是医疗领域,那么对应的关系集合包括{发病部位,临床症状,检查,手术治疗,治疗药物……};如果标注的是公安领域,那么对应的关系集合包括{性别,出生日期,失踪原因,失踪地点,可能去向……}。
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。本发明将此标注方案命名为“E+R+BIES”,标注方法如下:若某一实体E与多实体{E1,E2,…,Ei,…En}之间存在一一对应的关系{R1,R2,…,Ri,…Rn},首先将实体E设置为一固定标签E,当文本中实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,并用“BIES”标志来表示实体Ei中字符的位置信息,其中“B-Ri”表示实体Ei的首字符,“I-Ri”表示实体Ei的内部字符,“E-Ri”表示实体Ei的尾字符,“S-Ri”表示实体Ei为单字符,“O”则代表无关字符。采用“E+R+BIES”标注的方法对作物病虫害进行标注,具体详见图2,首先将“水稻云形病”标注为固定标签“E”,其中“叶枯病”与“水稻云形病”之间存在关系“别名”,则将“叶枯病”标注为“别名”的代表标签“ON”(Other_Name);“叶片”与“水稻云形病”存在关系“为害部位”,则将“叶片”标注为代表“为害部位”的标签“DP”(Damage_Position)。
所述方法还包括:
步骤S5:根据所述标注数据抽取三元组,具体的:每匹配到一条数据中的标签E和同一关系Ri的完整“BIE”或“S”集合,便取出标签集合所对应的实体E和Ei,通过python的map函数进行标签映射,通过codecs等模块进行数据解析,形成一个(E,Ri,Ei)三元组。
如图3所示,如(水稻云形病,别名,叶枯病)、(水稻云形病,为害部位,叶片),实现实体关系的联合抽取;直至遇到下一个标签E,则说明上一个实体E对应的三元组全部抽取完成。在这样的标注方式下,只关注两个实体之间的关系类型Ri而无需关注Ei所属的实体类型。
步骤S6:根据所述三元组构建知识图谱。
所述方法还包括:
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。预训练语言模型(Bidirectional Encoder Representations fromTransformers,简称BERT),长短期记忆网络模型(Bi-directional Long Short-TermMemory,简称BiLSTM),条件随机场(Conditional RandomField,简称CRF)。BERT用于生成字向量,BiLSTM用于输出标签的预测得分,CRF用于输出字符的标签类别。
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据,具体包括:
步骤S71:通过BERT预训练语言模型进行字编码,提取文本特征,生成字向量。
步骤S72:将生成的字向量输入BiLSTM模型,进行双向编码,并输出标签的预测分值。
步骤S73:将标签的预测分值输入CRF模型进行解码,通过训练学习得到标签转移概率和约束条件,获得每个字符所属的标签类别。
如图4所示,本发明还提供一种面向领域实体关系联合抽取的语料标注系统,所述系统包括:
爬取模块1,用于利用scrapy爬虫框架从网页爬取符合条件的初始数据。
预处理模块2,用于利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据。
关系集合定义模块3,用于根据领域语料特征定义实体间的关系集合。
标注模块4,用于利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。
三元组抽取模块,用于根据所述标注数据抽取三元组。
知识图谱构建模块,用于根据所述三元组构建知识图谱。
作为一种实施方式,本发明所述预处理模块具体包括:
滤除单元,用于利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;所述待滤除信息包括网页导航、广告和重复值。
缺失数据补充单元,用于对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
作为一种实施方式,本发明所述系统还包括:
训练、测试和预测模块,用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
所述训练、测试和预测模块,具体包括:
字编码单元,用于通过BERT预训练语言模型进行字编码,提取文本特征,生成字向量。
双向编码单元,用于将生成的字向量输入BiLSTM模型,进行双向编码,并输出标签的预测分值。
解码单元,用于将标签的预测分值输入CRF模型进行解码,通过训练学习得到标签转移概率和约束条件,获得每个字符所属的标签类别。
本发明公开了一种面向领域实体关系联合抽取的语料标注方法及系统,将实体关系的联合抽取转化为一个序列标注问题,直接对三元组建模,而不是分别对实体和关系分别建模,实现实体和关系的联合抽取和重叠关系的抽取。根据医疗、作物病虫害、公安等领域一些文本具有的一个共同特征:一条数据主要围绕一个特定实体E而展开,实体E与文本中多个实体{E1,E2,…,Ei,…En}之间存在一一对应关系{R1,R2,…,Ri,…Rn}。基于这样的领域语料特征,在标注过程中首先将实体E标注为一个固定标签E,若文本中某个实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,通过标签映射和数据解析后得到三元组(E,Ri,Ei)。这样的标注方式在一次标注过程中即同时包含实体和关系信息,实现实体关系的联合抽取,在提高标注效率的基础上还能有效避免流水线方法存在的错误传播、信息丢失以及实体冗余等问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法包括:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;
步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
步骤S3:根据领域语料特征定义实体间的关系集合;
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据;标注方法如下:若某一实体E与多实体{E1,E2,…,Ei,…En}之间存在一一对应的关系{R1,R2,…,Ri,…Rn},首先将实体E设置为一固定标签E,当文本中实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,并用“BIES”标志来表示实体Ei中字符的位置信息,其中“B-Ri”表示实体Ei的首字符,“I-Ri”表示实体Ei的内部字符,“E-Ri”表示实体Ei的尾字符,“S-Ri”表示实体Ei为单字符,“O”则代表无关字符;通过标签映射和数据解析后得到三元组(E,Ri,Ei);
所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:
步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
步骤S22:利用人工的方式或正则表达式对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
2.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法还包括:
步骤S5:根据所述标注数据抽取三元组;
步骤S6:根据所述三元组构建知识图谱。
3.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述待滤除信息包括网页导航、广告和重复值。
4.根据权利要求2所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法还包括:
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
5.一种面向领域实体关系联合抽取的语料标注系统,其特征在于,所述系统包括:
爬取模块,用于利用scrapy爬虫框架从网页爬取符合条件的初始数据;
预处理模块,用于利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
关系集合定义模块,用于根据领域语料特征定义实体间的关系集合;
标注模块,用于利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据;标注方法如下:若某一实体E与多实体{E1,E2,…,Ei,…En}之间存在一一对应的关系{R1,R2,…,Ri,…Rn},首先将实体E设置为一固定标签E,当文本中实体Ei与实体E之间存在关系Ri,则直接将Ei的标签设置为Ri,并用“BIES”标志来表示实体Ei中字符的位置信息,其中“B-Ri”表示实体Ei的首字符,“I-Ri”表示实体Ei的内部字符,“E-Ri”表示实体Ei的尾字符,“S-Ri”表示实体Ei为单字符,“O”则代表无关字符;通过标签映射和数据解析后得到三元组(E,Ri,Ei);
所述预处理模块具体包括:
滤除单元,用于利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
缺失数据补充单元,用于利用人工的方式或正则表达式对所述滤除数据进行缺失数据补充,获得无噪声文本数据。
6.根据权利要求5所述的面向领域实体关系联合抽取的语料标注系统,其特征在于,所述系统还包括:
三元组抽取模块,用于根据所述标注数据抽取三元组;
知识图谱构建模块,用于根据所述三元组构建知识图谱。
7.根据权利要求6所述的面向领域实体关系联合抽取的语料标注系统,其特征在于,所述待滤除信息包括网页导航、广告和重复值。
8.根据权利要求5所述的面向领域实体关系联合抽取的语料标注系统,其特征在于,所述系统还包括:
训练、测试和预测模块,用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108388.9A CN112149423B (zh) | 2020-10-16 | 2020-10-16 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108388.9A CN112149423B (zh) | 2020-10-16 | 2020-10-16 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149423A CN112149423A (zh) | 2020-12-29 |
CN112149423B true CN112149423B (zh) | 2024-01-26 |
Family
ID=73952162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011108388.9A Active CN112149423B (zh) | 2020-10-16 | 2020-10-16 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149423B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114004230B (zh) * | 2021-09-23 | 2022-07-05 | 杭萧钢构股份有限公司 | 一种生产钢结构的工控调度方法和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016099675A (ja) * | 2014-11-18 | 2016-05-30 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム |
CN108292387A (zh) * | 2015-10-08 | 2018-07-17 | 斯道拉恩索公司 | 用于在开环供应或价值链中跟踪产品的系统和方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108920461A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型且含复杂关系的实体抽取方法及装置 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN110838368A (zh) * | 2019-11-19 | 2020-02-25 | 广州西思数字科技有限公司 | 一种基于中医临床知识图谱的机器人主动问诊方法 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
CN111737951A (zh) * | 2019-03-20 | 2020-10-02 | 北京大学 | 一种文本语言关联关系标注方法和装置 |
CN111753029A (zh) * | 2020-07-09 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019005098A1 (en) * | 2017-06-30 | 2019-01-03 | Go Logic Decision Time, Llc | METHODS AND SYSTEMS FOR PROJECTIVE ASSERTION SIMULATION |
-
2020
- 2020-10-16 CN CN202011108388.9A patent/CN112149423B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016099675A (ja) * | 2014-11-18 | 2016-05-30 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム |
CN108292387A (zh) * | 2015-10-08 | 2018-07-17 | 斯道拉恩索公司 | 用于在开环供应或价值链中跟踪产品的系统和方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108920461A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型且含复杂关系的实体抽取方法及装置 |
CN111737951A (zh) * | 2019-03-20 | 2020-10-02 | 北京大学 | 一种文本语言关联关系标注方法和装置 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN110838368A (zh) * | 2019-11-19 | 2020-02-25 | 广州西思数字科技有限公司 | 一种基于中医临床知识图谱的机器人主动问诊方法 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
CN111753029A (zh) * | 2020-07-09 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置 |
Non-Patent Citations (5)
Title |
---|
Jointly Extract Entities and Their Relations From Biomedical Text;Jizhi Chen等;IEEE;第7卷;第162818页-162827页 * |
基于知识图谱的作物病虫害智能问答系统设计与实现;吴赛赛;中国优秀硕士学位论文全文数据库农业科技辑(第9期);第D046-7页 * |
基于等价压缩快速聚类的Web表格知识抽取;吴小龙等;中文信息学报;第33卷(第4期);第75页-84页 * |
融合对抗训练的端到端知识三元组联合抽取;黄培馨;赵翔;方阳;朱慧明;肖卫东;;计算机研究与发展;第56卷(第12期);第2536页-2548页 * |
面向医学文本的实体关系抽取研究综述;昝红英等;郑州大学学报(理学版);第52卷(第4期);第1页-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112149423A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093835B2 (en) | Natural language question expansion and extraction | |
CN111160008A (zh) | 一种实体关系联合抽取方法及系统 | |
CN111538894B (zh) | 查询反馈方法、装置、计算机设备及存储介质 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及系统 | |
CN111666477B (zh) | 一种数据处理方法、装置、智能设备及介质 | |
CN111522921B (zh) | 一种基于语句改写的面向端到端对话的数据增强方法 | |
CN109558492A (zh) | 一种适于事件归因的上市公司知识图谱构建方法及装置 | |
CN114841122A (zh) | 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN109271632B (zh) | 一种监督的词向量学习方法 | |
CN114648015B (zh) | 一种基于依存关系注意力模型的方面级情感词识别方法 | |
CN113822026A (zh) | 一种多标签实体标注方法 | |
CN112149423B (zh) | 一种面向领域实体关系联合抽取的语料标注方法及系统 | |
CN114065702A (zh) | 一种融合实体关系和事件要素的事件检测方法 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
Cai et al. | HITS-based attentional neural model for abstractive summarization | |
CN114742034A (zh) | 基于句法依存的交易信息识别方法、装置、系统及介质 | |
Wang et al. | Aspect-based sentiment analysis with graph convolutional networks over dependency awareness | |
CN112069825A (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN112380867A (zh) | 文本处理、知识库的构建方法、装置和存储介质 | |
WO2023272563A1 (zh) | 智能分诊方法、装置、存储介质及电子设备 | |
CN113377908B (zh) | 基于可学习多单词对打分器的方面级情感三元组抽取方法 | |
CN115545021A (zh) | 一种基于深度学习的临床术语识别方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |