CN113901825A - 一种基于主动深度学习的实体关系联合抽取方法及系统 - Google Patents

一种基于主动深度学习的实体关系联合抽取方法及系统 Download PDF

Info

Publication number
CN113901825A
CN113901825A CN202111383783.2A CN202111383783A CN113901825A CN 113901825 A CN113901825 A CN 113901825A CN 202111383783 A CN202111383783 A CN 202111383783A CN 113901825 A CN113901825 A CN 113901825A
Authority
CN
China
Prior art keywords
entity
sample
relationship
data
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111383783.2A
Other languages
English (en)
Other versions
CN113901825B (zh
Inventor
刘珂
靳显鑫
冷芳玲
鲍玉斌
于戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202111383783.2A priority Critical patent/CN113901825B/zh
Publication of CN113901825A publication Critical patent/CN113901825A/zh
Application granted granted Critical
Publication of CN113901825B publication Critical patent/CN113901825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于主动深度学习的实体关系联合抽取方法及系统,涉及计算机自然语言处理技术领域。该方法首先获取待标注样本数据集作为语料库,并对语料库进行概念抽取,定义实体类别集合和关系类别集合;再使用基于主动学习的待标注采样方法进行样本采样,得到待标注样本数据集;并对待标注样本数据集使用改进EDA方法进行数据增强;然后根据定义的实体和关系类别集合,在待标注样本数据集的数据上采用BIO‑OVE/R‑HT标注策略进行标注;最后将标注的数据输入到实体关系联合抽取模型进行训练。使用模型进行预测时,对预测得到的标签使用和标注策略对应的解码规则解码得到三元组。该系统进行实体关系抽取的同时并将抽取的实体关系快速构建知识图谱并且进行管理。

Description

一种基于主动深度学习的实体关系联合抽取方法及系统
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种基于主动深度学习的实体关系联合抽取方法及系统。
背景技术
实体关系抽取就是从文本中抽取出实体和实体之间的关系。为了解决实体关系抽取问题,人们提出了多种方法,大致可分为流水线抽取模型和联合抽取模型两大类。
第一种是将实体关系抽取划分为实体识别和关系抽取两个子任务,两个子任务按顺序依次执行,且不存在交互作用。中国专利“CN113297838A一种基于图神经网络的关系抽取方法”使用第一种流水线抽取模型的思想。此专利对待抽取文档进行数据处理;构建所述文档中句子的模型数据集;获取所述句子的语义特征向量;根据所述数据处理结果和所述语义特征向量生成所述句子的实体间邻域信息表达;根据所述实体间邻域信息表达强化所述句子的句子表达;根据所述数据处理结果和所述句子表达获取所述句子的句子池化表达和主客体池化表达;将所述句子池化表达和所述主客体池化表达进行级联表示;根据所述级联表示获取所述句子的关系类别表示。
第二种就是将实体识别和关系抽取两个任务联合到一起进行抽取。中国专利“CN113128229A一种中文实体关系联合抽取方法”使用这种模型的思想。此专利提供了一种中文实体关系联合抽取方法,包括使用BERT模型学习字符向量,字符向量拼接字形特征及字符位置信息;使用双向LSTM模型学习字符特征;使用选择性注意力机制进行实体识别;使用层次注意力机制LSTM进行关系抽取方法。本申请通过底层共享网络参数的方式,进行联合知识抽取,解决抽取中实体识别和关系抽取错误累计的问题;通过引入分词与词表向量,在词向量中拼接中文特征,解决中文特征信息不充分的问题;通过在结合自注意力机制的双向LSTM编码层,对长距离序列进行建模;通过层级注意力机制,解决实体关系之间关联不足的问题。
中国专利“CN113297838A一种基于图神经网络的关系抽取方法”提出的方法容易忽略任务之间的相互依赖,容易导致错误累积,产生大量冗余实体。该方法将实体抽取和关系抽取划分为两个阶段,其实两个阶段之间是有一定联系的。如果知道实体类型,则可以缩小实体和实体之间可能存在的关系搜索空间。例如,“中山”可能是人名或地名,如果上下文中有“位于”关系,则“中山”就是地名“中山市”。
第二种联合抽取模型可以进一步利用两个任务之间的潜在信息,以缓解错误传播的缺点,但是模型结构通常比较复杂。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,具体针对领域文本数据标注样本比较缺乏且标注成本较高的问题,本发明提出一种基于主动深度学习的实体关系联合抽取方法及系统,实现对实体关系的联合抽取。
为解决上述技术问题,本发明所采取的技术方案是:一方面,本发明提供一种基于主动深度学习的实体关系联合抽取方法,
获取待标注数据集作为语料库;
定义实体类别集合和关系类别集合;
对待标注数据进行采样,得到待标注样本数据集;
对待标注样本数据集的数据进行标注;
将标注的数据输入到实体关系联合抽取模型进行训练和测试,获得预测的标签;
对预测的标签解码得到三元组。
具体包括以下步骤:
步骤1:获取待标注数据集作为语料库;获取待标注数据集,并将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;
步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;
步骤3:基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体为:
步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本xi使用Word2Vec模型获得特征向量Ei
步骤3.2:将特征向量Ei输入到CNN模型提取特征,获得样本xi在每个关系类别下的概率值;
步骤3.3:根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:
Figure BDA0003366586830000021
式中,Hi为样本xi的信息熵,Pa(xi)代表样本xi在第a个关系类别下的概率值,n为样本关系类别总数;
步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本xmax进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本xmax的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集;
样本之间余弦相似度的计算公式如下所示:
Figure BDA0003366586830000031
其中,Ei和Ej分别是样本xi和样本xj的特征向量,||Ei||和||Ej||分别是特征向量Ei和Ej的模长,cos(xi,xj)是样本xi和样本xj的余弦相似度,Sim1(xi,xj)是经过归一化后的余弦相似度;
编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,只能用增删改三种操作,两个样本之间的编辑距离的计算公式如下所示:
Figure BDA0003366586830000032
其中,|xi|和|xj|分别是样本xi和样本xj的文本长度,EDij是样本xi和样本xj的最小编辑距离,Sim2(xi,xj)是经过归一化后的最小编辑距离;
则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度Sim如下公式所示:
Sim=(Sim1+Sim2)/2
步骤4:采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强;
所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法:
1)同义词替换:从除停用词之外的文本数据随机抽取多个单词,然后从同义词字典中随机抽取同义词,并替换它们;如果替换词是实体,则实体对应的三元组也进行替换;
2)随机插入:随机在文本数据中插入非实体词的近义词,该过程重复多次;
3)随机交换:随机挑选文本数据中非实体词进行位置交换,该过程重复多次;
4)随机删除:以概率p随机从文本数据中删除非实体单词;
5)实体替换:随机用若干个实体类型相同的实体替代已标数据中的实体;
6)分句换位:随机交换一个标注样本中两个以分号结尾的短句子;
7)顿号换位:随机交换一个标注样本中两个以顿号分割的单词;
8)短句生成:随机选取样本中至少包含一个三元组关系的短句子生成新的样本;
步骤5:根据步骤2定义的领域实体和关系类别集合,在步骤3得到的待标注样本数据集的数据上采用BIO-OVE/R-HT标注策略进行标注;
所述BIO-OVE/R-HT标注策略由实体边界、关系类别和实体位置3部分组成,具体如下:
实体边界:对于实体边界标签,采用“BIO”标注方式来表示字在实体中的位置信息,“B”代表实体的起始边界,“I”代表实体的非起始位置,“O”代表该元素不属于任何实体;
关系类别:关系类别信息从预定义的关系类别集合中获得,但是当句子中存在一个实体和其他多个实体都存在关系时,则将重叠主实体的关系标签固定为“OVE”(Overlap),然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型;
实体位置:实体位置用“H”、“T”、“HT”和“TH”来标识,“H”代表该实体为三元组中的头实体,“T”代表该实体为三元组中的尾实体;“HT”代表该实体是前一个三元组的头实体,后一个三元组的尾实体;“TH”代表该实体是前一个三元组的尾实体,后一个三元组的头实体;
因此,标签种类的总数是N=2*|R|*4+4+1,其中,|R|是预定义关系类别集合的大小;
步骤6:将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型进行训练和测试,获得预测的标签,然后对预测的标签使用和标注策略对应的解码规则解码得到三元组;
步骤6.1:将步骤5标注的数据输入到ChineseBERT模型实现向量化,ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入,然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中,最后输出字向量;步骤6.2:然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取,输出所有的标记序列;
步骤6.3:将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列;
步骤6.4:对步骤6.3得到的最优的标签序列进行解码;首先根据实体边界获得实体,然后根据以下解码规则抽取三元组,实现标签序列的解码;
如果句子中存在实体类别为“OVE”的实体,那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体组成三元组;
如果句子中不存在实体类别为“OVE”的实体,那么采用最近邻原则确定实体和关系,分别向前和向后寻找与之最近、实体位置不同且关系类别相同的实体组成三元组;
如果句子中存在实体位置为“HT”或“TH”的实体,该实体在两个三元组中分别担任头实体和尾实体角色;对于实体位置为“HT”的实体,将此实体作为第一个三元组的头实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的尾实体;再将此实体作为第二个三元组的尾实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的头实体;对于实体位置为“TH”的实体,将此实体作为第一个三元组的尾实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的头实体;再将此实体作为第二个三元组的头实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的尾实体;
另一方面,本发明还提供一种基于主动深度学习的实体关系联合抽取系统,包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块;
所述主动学习标注模块用于对领域文本数据进行标注,该模块利用基于主动学习的融合信息熵和相似度的待标注数据采样方法向标注人员推送最值得标注的数据,标注后将结果存储到MySQL数据库中;
所述联合抽取模块将待抽取的文本传入ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型中抽取出三元组;
所述规则抽取模块用于对结构化数据利用规则进行抽取,具体包括Excel文档抽取子模块、数据库抽取子模块和Word文档抽取子模块;
所述数据库抽取子模块实现从关系数据库(Oracle和MySQL)中抽取知识,然后将信息存储在Neo4j数据库中;
所述Excel文档抽取子模块用于抽取以Excel的形式进行存储的数据;
所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取;
所述语料库管理模块用于将联合抽取、规则抽取以及主动学习标注的结果导入到Neo4j图数据库,以及下载用于ChineseBERT-BiLSTM-CRF模型训练的语料库信息;
所述知识查询模块在Neo4j图数据库中查询管理员输入的三元组关系,并以图谱的形式展示给管理员;
知识查询模块查询三元组关系entity1-[relation]->entity2,其中,entity1和entity2均为实体,relation为关系;输入查询的信息,分为如下几种情况:查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation;根据管理员的查询条件从Neo4j图数据库中查询出结果,前端通过可视化组件将其以图谱的形式展示给管理员,同时通过表格以条目的形式展示出知识三元组,并能够对三元组进行修改和删除;若未查询到结果,则会提示“暂未找到相应的匹配”;
所述图谱展示模块将Neo4j图数据库中的信息展示在系统界面上。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于主动深度学习的实体关系联合抽取方法及系统,能够有效解决重叠关系问题,并且联合抽取的速度更快。同时能够避免实体抽取和关系抽取两个任务之间的误差积累。该系统进行实体关系抽取的同时能够将抽取的实体关系快速构建知识图谱并且进行管理,其中,文本标注模块能够实现半自动化标注,大大减少了人力成本。
附图说明
图1为本发明实施例提供的一种基于主动深度学习的实体关系联合抽取方法的流程图;
图2为本发明实施例提供的面向航空领域的实体关系联合抽取的标注策略示例图;
图3为本发明实施例提供的基于主动深度学习的实体关系联合抽取系统的功能结构图;
图4为本发明实施例提供的基于主动深度学习的实体关系联合抽取系统的数据流图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以航空领域为例,采用本发明的基于主动深度学习的实体关系联合抽取方法对航空领域的实体关系进行联合抽取。
本实施例中,一种基于主动深度学习的实体关系联合抽取方法,如图1所示,包括以下步骤:
步骤1:获取待标注数据集作为语料库;将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;
本实施例中,使用OCR技术将PDF格式文档转换成Word格式文档,并去除公式、图表、表格等无用内容,然后进行分段和分句处理,最终得到以句子为单位的航空领域语料库。
步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;
本实施例中,定义航空领域的实体类别集合包括{航空器,部件,系统,结构,性能参数,术语,文档},关系类别集合包括{别名,组成,使用,参照,上下位,位置,选型,定义,性能需求,作用或影响};
步骤3:基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体为:
步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本xi使用Word2Vec模型获得特征向量Ei
步骤3.2:将特征向量Ei输入到CNN模型提取特征,获得样本xi在每个关系类别下的概率值;
步骤3.3:熵(Entropy)可以衡量一个系统的不确定性,熵的值越大代表分类越困难,样本标注的价值越大,可以使用选择熵的值最大的样本数据作为待标注数据。根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:
Figure BDA0003366586830000071
式中,Hi为样本xi的信息熵,Pa(xi)代表样本xi在第a个关系类别下的概率值,n为样本关系类别总数;
步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本xmax进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本xmax的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集;
样本之间余弦相似度的计算公式如下所示:
Figure BDA0003366586830000072
其中,Ei和Ej分别是样本xi和样本xj的特征向量,||Ei||和||Ej||分别是特征向量Ei和Ej的模长,cos(xi,xj)是样本xi和样本xj的余弦相似度,Sim1(xi,xj)是经过归一化后的余弦相似度;
编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,只能用增删改三种操作,两个样本之间的编辑距离的计算公式如下所示:
Figure BDA0003366586830000081
其中,|xi|和|xj|分别是样本xi和样本xj的文本长度,EDij是样本xi和样本xj的最小编辑距离,Sim2(xi,xj)是经过归一化后的最小编辑距离;
则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度Sim如下公式所示:
Sim=(Sim1+Sim2)/2
本实施例中,基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样的具体实现过程如表1中的算法1所示。
表1融合信息熵和相似度的待标注数据采样方法伪代码
Figure BDA0003366586830000082
Figure BDA0003366586830000091
步骤4:针对实体关系联合抽取任务和中文文本数据的特点,采用改进EDA的实体关系联合抽取数据增强方法(EDA-RE)对待标注样本数据集进行数据增强;
所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法:
1)同义词替换(SR:Synonyms Replace):从除停用词之外的文本数据随机抽取多个单词,然后从同义词字典中随机抽取同义词,并替换它们;如果替换词是实体,则实体对应的三元组也进行替换;
2)随机插入(RI:Randomly Insert):随机在文本数据中插入非实体词的近义词,该过程重复多次;
3)随机交换(RS:Randomly Swap):随机挑选文本数据中非实体词进行位置交换,该过程重复多次;
4)随机删除(RD:Randomly Delete):以概率p随机从文本数据中删除非实体单词;
5)实体替换(ER:Entity Replace):随机用若干个实体类型相同的实体替代已标数据中的实体,目的是丰富实体表达的多样性;
6)分句换位(CT:Clause Transposition):随机交换一个标注样本中两个以分号结尾的短句子,目的是丰富样本的长距离上下文内容;
7)顿号换位:随机交换一个标注样本中两个以顿号分割的单词,目的是丰富样本的长距离上下文内容;
8)短句生成(SG:Short-sentence Generation):随机选取样本中至少包含一个三元组关系的短句子生成新的样本,目的是提高缺乏上下文信息的短文本实体关系联合抽取的性能;
步骤5:根据步骤2定义的领域实体和关系类别集合,在步骤3得到的待标注样本数据集的数据上采用BIO-OVE/R-HT标注策略进行标注;
所述BIO-OVE/R-HT标注策略由实体边界、关系类别和实体位置3部分组成,具体如下:
实体边界:对于实体边界标签,采用“BIO”标注方式来表示字在实体中的位置信息,“B”代表实体的起始边界,“I”代表实体的非起始位置,“O”代表该元素不属于任何实体;
关系类别:关系类别信息从预定义的关系类别集合中获得,但是当句子中存在一个实体和其他多个实体都存在关系时,则将重叠主实体的关系标签固定为“OVE”(Overlap),然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型;
实体位置:实体位置用“H”、“T”、“HT”和“TH”来标识,“H”代表该实体为三元组中的头实体,“T”代表该实体为三元组中的尾实体;“HT”代表该实体是前一个三元组的头实体,后一个三元组的尾实体;“TH”代表该实体是前一个三元组的尾实体,后一个三元组的头实体;
因此,标签种类的总数是N=2*|R|*4+4+1,其中,|R|是预定义关系类别集合的大小;
本实施例中,针对航空领域的实体关系联合抽取的标注策略如图2所示。
步骤6:将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型模型进行训练和测试,获得预测的标签,然后对预测的标签使用和标注策略对应的解码规则解码得到三元组;
步骤6.1:将步骤5标注的数据输入到ChineseBERT模型实现向量化,ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入,然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中,最后输出字向量;ChineseBERT模型融合了中文音标和字形信息,能够更好地表达汉字所蕴涵的意义。
步骤6.2:然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取,输出所有的标记序列;
步骤6.3:为了获取序列的全局最优解,不仅需要考虑当前位置的输入特征,还需要考虑与前一个位置标签的依赖关系,所以还需要将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列;
步骤6.4:对步骤6.3得到的最优的标签序列进行解码;首先根据实体边界获得实体,然后根据以下解码规则抽取三元组,实现标签序列的解码;
如果句子中存在实体类别为“OVE”的实体E1,那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体E2并且根据实体E的标签解析出关系R组成(E1,R,E2)三元组;
如果句子中不存在实体类别为“OVE”的实体E1,那么采用最近邻原则确定实体和关系,分别向前和向后寻找与之最近、实体位置不同且关系类别(R)相同的实体E2组成(E1,R,E2)三元组;
如果句子中存在实体位置为“HT”或“TH”的实体,该实体在两个三元组中分别担任头实体和尾实体角色;对于实体位置为“HT”的实体,将此实体作为第一个三元组的头实体E1,然后向前寻找与之关系类别(R)相同但是实体位置不同的实体作为第一个三元组的尾实体E2组成(E1,R,E2)三元组;再将此实体作为第二个三元组的尾实体E2,然后向后寻找与之关系类别(R)相同但是实体位置不同的实体作为第二个三元组的头实体E1组成(E1,R,E2)三元组;对于实体位置为“TH”的实体,将此实体作为第一个三元组的尾实体E2,然后向前寻找与之关系类别(R)相同但是实体位置不同的实体作为第一个三元组的头实体E1组成(E1,R,E2)三元组;再将此实体作为第二个三元组的头实体E1,然后向后寻找与之关系类别(R)相同但是实体位置不同的实体作为第二个三元组的尾实体E2组成(E1,R,E2)三元组。
本实施例中,对步骤6.3得到的最优的标签序列进行解码的过程如表2中的序列标签解码算法所示;
表2序列标签解码算法
Figure BDA0003366586830000111
Figure BDA0003366586830000121
本实施例中,一种基于主动深度学习的实体关系联合抽取系统,如图3所示,包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块;
所述主动学习标注模块用于对领域文本数据进行标注,该模块利用基于主动学习的融合信息熵和相似度的待标注数据采样方法向标注人员推送最值得标注的数据,标注后将结果存储到MySQL数据库中;
所述联合抽取模块将待抽取的文本传入ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型中抽取出三元组;
所述规则抽取模块用于对结构化数据利用规则进行抽取,具体包括Excel文档抽取子模块、数据库抽取子模块和Word文档抽取子模块;
所述数据库抽取子模块实现从关系数据库(Oracle和MySQL)中抽取知识,然后将信息存储在Neo4j数据库中;
在航空领域,大量的数据以数据库表的形式存储于Oracle等关系型数据库中。同时,不同的数据库表之间往往基于外键等方式,存在着各种各样的联系,若能将这类知识从数据库中抽取出来,进而转换为三元组的形式,将为知识图谱的构建提供很大帮助。
所述Excel文档抽取子模块用于抽取以Excel的形式进行存储的数据;
在实际场景中,大量航空数据特别是故障问题处理数据,以Excel的形式进行存储,其中蕴含有大量可挖掘的知识,常规以非结构化文本为对象的实体关系抽取算法难以处理这类数据。
所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取;
在飞机设计领域,大多数总体论证报告、技术研究报告等材料,并非以txt形式存在,而是以Word的形式保存。同时,由于专业领域的严谨性,这类材料在行文组织上规范性较强,结构特征明显,因此,在基于深度学习的方式同时,也可基于Word特征,进行知识抽取。
所述语料库管理模块用于将联合抽取、规则抽取以及主动学习标注的结果导入到Neo4j图数据库,以及下载用于ChineseBERT-BiLSTM-CRF模型训练的语料库信息;
所述知识查询模块在Neo4j图数据库中查询管理员输入的三元组关系,并以图谱的形式展示给管理员;
知识查询模块查询三元组关系entity1-[relation]->entity2,其中,entity1和entity2均为实体,relation为关系;输入查询的信息,分为如下几种情况:查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation;根据管理员的查询条件从Neo4j图数据库中查询出结果,前端通过可视化组件将其以图的形式展示给管理员,使管理员更清晰直观的了解相关知识。同时通过表格以条目的形式展示出知识三元组,并能够对三元组进行修改和删除;若未查询到结果,则会提示“暂未找到相应的匹配”;修改和删除功能可保证三元组的准确性,方便管理员对存储在数据库中的三元组进行操作。
所述图谱展示模块将Neo4j图数据库中的信息展示在系统界面上。
本实施例中,基于主动深度学习的实体关系联合抽取系统的抽取过程如图4所示,
管理员可以将待标注的word文件上传到主动学习标注模块,系统会使用基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,专家标注后将标注结果存放到语料库管理模块中;管理员还可以将Word文件、Excel文件上传到规则抽取模块,该模块会给管理员反馈回抽取得到的所有三元组信息,然后自动添加到语料库管理模块;管理员同时还可以将word文档上传到联合抽取模块,抽取得到的结果自动添加到语料库管理模块,管理员可以在语料库管理模块下载语料信息从而训练得到实体关系联合抽取模型。管理员还可以将查询信息提交到知识查询模块进行查询,系统会返回给管理员一个查询结果,并通过图谱形式进行展示。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (10)

1.一种基于主动深度学习的实体关系联合抽取方法,其特征在于:
获取待标注数据集作为语料库;
定义实体类别集合和关系类别集合;
对待标注数据进行采样,得到待标注样本数据集;
对待标注样本数据集的数据进行标注;
将标注的数据输入到实体关系联合抽取模型进行训练和测试,获得预测的标签;
对预测的标签解码得到三元组。
2.根据权利要求1所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:具体包括以下步骤:
步骤1:获取待标注数据集作为语料库;获取待标注数据集,并将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;
步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;
步骤3:对待标注数据进行待标注样本采样,得到待标注样本数据集;
步骤4:采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强;
步骤5:根据步骤2定义的领域实体和关系类别集合,在步骤3得到的待标注样本数据集的数据上采用BIO-OVE/R-HT标注策略进行标注;
步骤6:将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型进行训练和测试,获得预测的标签,然后对预测的标签使用和标注策略对应的解码规则解码得到三元组。
3.根据权利要求2所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:所述步骤3基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体方法为:
步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本xi使用Word2Vec模型获得特征向量Ei
步骤3.2:将特征向量Ei输入到CNN模型提取特征,获得样本xi在每个关系类别下的概率值;
步骤3.3:根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:
Figure FDA0003366586820000011
式中,Hi为样本xi的信息熵,Pa(xi)代表样本xi在第a个关系类别下的概率值,n为样本关系类别总数;
步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本xmax进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本xmax的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集。
4.根据权利要求3所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:步骤3.4所述使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度的具体方法为:
样本之间余弦相似度的计算公式如下所示:
Figure FDA0003366586820000021
其中,Ei和Ej分别是样本xi和样本xj的特征向量,||Ei||和||Ej||分别是特征向量Ei和Ej的模长,cos(xi,xj)是样本xi和样本xj的余弦相似度,Sim1(xi,xj)是经过归一化后的余弦相似度;
编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,只能用增删改三种操作,两个样本之间的编辑距离的计算公式如下所示:
Figure FDA0003366586820000022
其中,|xi|和|xj|分别是样本xi和样本xj的文本长度,EDij是样本xi和样本xj的最小编辑距离,Sim2(xi,xj)是经过归一化后的最小编辑距离;
则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度Sim如下公式所示:
Sim=(Sim1+Sim2)/2。
5.根据权利要求3所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法:
1)同义词替换:从除停用词之外的文本数据随机抽取多个单词,然后从同义词字典中随机抽取同义词,并替换它们;如果替换词是实体,则实体对应的三元组也进行替换;
2)随机插入:随机在文本数据中插入非实体词的近义词,该过程重复多次;
3)随机交换:随机挑选文本数据中非实体词进行位置交换,该过程重复多次;
4)随机删除:以概率p随机从文本数据中删除非实体单词;
5)实体替换:随机用若干个实体类型相同的实体替代已标数据中的实体;
6)分句换位:随机交换一个标注样本中两个以分号结尾的短句子;
7)顿号换位:随机交换一个标注样本中两个以顿号分割的单词;
8)短句生成:随机选取样本中至少包含一个三元组关系的短句子生成新的样本。
6.根据权利要求3所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:所述BIO-OVE/R-HT标注策略由实体边界、关系类别和实体位置3部分组成,具体如下:
实体边界:对于实体边界标签,采用“BIO”标注方式来表示字在实体中的位置信息,“B”代表实体的起始边界,“I”代表实体的非起始位置,“O”代表该元素不属于任何实体;
关系类别:关系类别信息从预定义的关系类别集合中获得,但是当句子中存在一个实体和其他多个实体都存在关系时,则将重叠主实体的关系标签固定为“OVE”(Overlap),然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型;
实体位置:实体位置用“H”、“T”、“HT”和“TH”来标识,“H”代表该实体为三元组中的头实体,“T”代表该实体为三元组中的尾实体;“HT”代表该实体是前一个三元组的头实体,后一个三元组的尾实体;“TH”代表该实体是前一个三元组的尾实体,后一个三元组的头实体;
因此,标签种类的总数是N=2*|R|*4+4+1,其中,|R|是预定义关系类别集合的大小。
7.根据权利要求6所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:所述步骤6的具体方法为:
步骤6.1:将步骤5标注的数据输入到ChineseBERT模型实现向量化,ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入,然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中,最后输出字向量;步骤6.2:然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取,输出所有的标记序列;
步骤6.3:将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列;
步骤6.4:对步骤6.3得到的最优的标签序列进行解码;首先根据实体边界获得实体,然后根据以下解码规则抽取三元组,实现标签序列的解码;
如果句子中存在实体类别为“OVE”的实体,那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体组成三元组;
如果句子中不存在实体类别为“OVE”的实体,那么采用最近邻原则确定实体和关系,分别向前和向后寻找与之最近、实体位置不同且关系类别相同的实体组成三元组;
如果句子中存在实体位置为“HT”或“TH”的实体,该实体在两个三元组中分别担任头实体和尾实体角色;对于实体位置为“HT”的实体,将此实体作为第一个三元组的头实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的尾实体;再将此实体作为第二个三元组的尾实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的头实体;对于实体位置为“TH”的实体,将此实体作为第一个三元组的尾实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的头实体;再将此实体作为第二个三元组的头实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的尾实体。
8.一种基于主动深度学习的实体关系联合抽取系统,基于权利要求2所述方法实现,其特征在于:包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块;
所述主动学习标注模块用于对领域文本数据进行标注,该模块利用基于主动学习的融合信息熵和相似度的待标注数据采样方法向标注人员推送最值得标注的数据,标注后将结果存储到MySQL数据库中;
所述联合抽取模块将待抽取的文本传入ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型中抽取出三元组;
所述规则抽取模块用于对结构化数据利用规则进行抽取;
所述语料库管理模块用于将联合抽取、规则抽取以及主动学习标注的结果导入到Neo4j图数据库,以及下载用于ChineseBERT-BiLSTM-CRF模型训练的语料库信息;
所述知识查询模块在Neo4j图数据库中查询管理员输入的三元组关系,并以图谱的形式展示给管理员;
所述图谱展示模块将Neo4j图数据库中的信息展示在系统界面上。
9.根据权利要求8所述的一种基于主动深度学习的实体关系联合抽取系统,其特征在于:所述规则抽取模块包括数据库抽取子模块、Excel文档抽取子模块和Word文档抽取子模块;
所述数据库抽取子模块实现从关系数据库中抽取知识,然后将信息存储在Neo4j数据库中;
所述Excel文档抽取子模块用于抽取以Excel的形式进行存储的数据;
所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取。
10.根据权利要求9所述的一种基于主动深度学习的实体关系联合抽取系统,其特征在于:所述知识查询模块查询管理员输入的三元组关系entity1-[relation]->entity2,其中,entity1和entity2均为实体,relation为关系;输入查询的信息,分为如下几种情况:查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation;根据管理员的查询条件从Neo4j图数据库中查询出结果,前端通过可视化组件将其以图谱的形式展示给管理员,同时通过表格以条目的形式展示出知识三元组,并能够对三元组进行修改和删除;若未查询到结果,则会提示“暂未找到相应的匹配”。
CN202111383783.2A 2021-11-22 2021-11-22 一种基于主动深度学习的实体关系联合抽取方法及系统 Active CN113901825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111383783.2A CN113901825B (zh) 2021-11-22 2021-11-22 一种基于主动深度学习的实体关系联合抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111383783.2A CN113901825B (zh) 2021-11-22 2021-11-22 一种基于主动深度学习的实体关系联合抽取方法及系统

Publications (2)

Publication Number Publication Date
CN113901825A true CN113901825A (zh) 2022-01-07
CN113901825B CN113901825B (zh) 2024-05-03

Family

ID=79194842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111383783.2A Active CN113901825B (zh) 2021-11-22 2021-11-22 一种基于主动深度学习的实体关系联合抽取方法及系统

Country Status (1)

Country Link
CN (1) CN113901825B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496115A (zh) * 2022-04-18 2022-05-13 北京白星花科技有限公司 实体关系的标注自动生成方法和系统
CN115080705A (zh) * 2022-07-20 2022-09-20 神州医疗科技股份有限公司 基于双模型增强的垂直领域关系抽取方法及系统
CN116244445A (zh) * 2022-12-29 2023-06-09 中国航空综合技术研究所 航空文本数据标注方法及其标注系统
CN116431757A (zh) * 2023-06-13 2023-07-14 中国人民公安大学 基于主动学习的文本关系抽取方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN113051922A (zh) * 2021-04-20 2021-06-29 北京工商大学 一种基于深度学习的三元组抽取方法及系统
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN113051922A (zh) * 2021-04-20 2021-06-29 北京工商大学 一种基于深度学习的三元组抽取方法及系统
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄培馨;赵翔;方阳;朱慧明;肖卫东;: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展, no. 12, 15 December 2019 (2019-12-15) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496115A (zh) * 2022-04-18 2022-05-13 北京白星花科技有限公司 实体关系的标注自动生成方法和系统
CN115080705A (zh) * 2022-07-20 2022-09-20 神州医疗科技股份有限公司 基于双模型增强的垂直领域关系抽取方法及系统
CN115080705B (zh) * 2022-07-20 2022-11-11 神州医疗科技股份有限公司 基于双模型增强的垂直领域关系抽取方法及系统
CN116244445A (zh) * 2022-12-29 2023-06-09 中国航空综合技术研究所 航空文本数据标注方法及其标注系统
CN116244445B (zh) * 2022-12-29 2023-12-12 中国航空综合技术研究所 航空文本数据标注方法及其标注系统
CN116431757A (zh) * 2023-06-13 2023-07-14 中国人民公安大学 基于主动学习的文本关系抽取方法、电子设备及存储介质
CN116431757B (zh) * 2023-06-13 2023-08-25 中国人民公安大学 基于主动学习的文本关系抽取方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN113901825B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN113901825B (zh) 一种基于主动深度学习的实体关系联合抽取方法及系统
CN112101028B (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN111368048B (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN115292469B (zh) 一种结合段落搜索和机器阅读理解的问答方法
Zu et al. Resume information extraction with a novel text block segmentation algorithm
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN113961685A (zh) 信息抽取方法及装置
Ayishathahira et al. Combination of neural networks and conditional random fields for efficient resume parsing
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN114090776A (zh) 文档解析方法、系统及装置
Li et al. A method for resume information extraction using bert-bilstm-crf
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN115438195A (zh) 一种金融标准化领域知识图谱的构建方法及装置
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
Raghavendra Nayaka et al. An efficient framework for algorithmic metadata extraction over scholarly documents using deep neural networks
CN114547232A (zh) 一种低标注成本的嵌套实体识别方法及系统
Akdemir et al. Joint learning of named entity recognition and dependency parsing using separate datasets
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
Skylaki et al. Legal entity extraction using a pointer generator network
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
CN114064878A (zh) 一种基于强化学习的自然语言数据打标方法及系统
Sheng et al. A neural named entity recognition approach to biological entity identification
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统
Laukaitis et al. Sentence level alignment of digitized books parallel corpora
CN112966501A (zh) 一种新词发现方法、系统、终端及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant