CN113901825B - 一种基于主动深度学习的实体关系联合抽取方法及系统 - Google Patents
一种基于主动深度学习的实体关系联合抽取方法及系统 Download PDFInfo
- Publication number
- CN113901825B CN113901825B CN202111383783.2A CN202111383783A CN113901825B CN 113901825 B CN113901825 B CN 113901825B CN 202111383783 A CN202111383783 A CN 202111383783A CN 113901825 B CN113901825 B CN 113901825B
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- marked
- triplet
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 120
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000002372 labelling Methods 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003935 attention Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000010332 selective attention Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于主动深度学习的实体关系联合抽取方法及系统,涉及计算机自然语言处理技术领域。该方法首先获取待标注样本数据集作为语料库,并对语料库进行概念抽取,定义实体类别集合和关系类别集合;再使用基于主动学习的待标注采样方法进行样本采样,得到待标注样本数据集;并对待标注样本数据集使用改进EDA方法进行数据增强;然后根据定义的实体和关系类别集合,在待标注样本数据集的数据上采用BIO‑OVE/R‑HT标注策略进行标注;最后将标注的数据输入到实体关系联合抽取模型进行训练。使用模型进行预测时,对预测得到的标签使用和标注策略对应的解码规则解码得到三元组。该系统进行实体关系抽取的同时并将抽取的实体关系快速构建知识图谱并且进行管理。
Description
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种基于主动深度学习的实体关系联合抽取方法及系统。
背景技术
实体关系抽取就是从文本中抽取出实体和实体之间的关系。为了解决实体关系抽取问题,人们提出了多种方法,大致可分为流水线抽取模型和联合抽取模型两大类。
第一种是将实体关系抽取划分为实体识别和关系抽取两个子任务,两个子任务按顺序依次执行,且不存在交互作用。中国专利“CN113297838A一种基于图神经网络的关系抽取方法”使用第一种流水线抽取模型的思想。此专利对待抽取文档进行数据处理;构建所述文档中句子的模型数据集;获取所述句子的语义特征向量;根据所述数据处理结果和所述语义特征向量生成所述句子的实体间邻域信息表达;根据所述实体间邻域信息表达强化所述句子的句子表达;根据所述数据处理结果和所述句子表达获取所述句子的句子池化表达和主客体池化表达;将所述句子池化表达和所述主客体池化表达进行级联表示;根据所述级联表示获取所述句子的关系类别表示。
第二种就是将实体识别和关系抽取两个任务联合到一起进行抽取。中国专利“CN113128229A一种中文实体关系联合抽取方法”使用这种模型的思想。此专利提供了一种中文实体关系联合抽取方法,包括使用BERT模型学习字符向量,字符向量拼接字形特征及字符位置信息;使用双向LSTM模型学习字符特征;使用选择性注意力机制进行实体识别;使用层次注意力机制LSTM进行关系抽取方法。本申请通过底层共享网络参数的方式,进行联合知识抽取,解决抽取中实体识别和关系抽取错误累计的问题;通过引入分词与词表向量,在词向量中拼接中文特征,解决中文特征信息不充分的问题;通过在结合自注意力机制的双向LSTM编码层,对长距离序列进行建模;通过层级注意力机制,解决实体关系之间关联不足的问题。
中国专利“CN113297838A一种基于图神经网络的关系抽取方法”提出的方法容易忽略任务之间的相互依赖,容易导致错误累积,产生大量冗余实体。该方法将实体抽取和关系抽取划分为两个阶段,其实两个阶段之间是有一定联系的。如果知道实体类型,则可以缩小实体和实体之间可能存在的关系搜索空间。例如,“中山”可能是人名或地名,如果上下文中有“位于”关系,则“中山”就是地名“中山市”。
第二种联合抽取模型可以进一步利用两个任务之间的潜在信息,以缓解错误传播的缺点,但是模型结构通常比较复杂。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,具体针对领域文本数据标注样本比较缺乏且标注成本较高的问题,本发明提出一种基于主动深度学习的实体关系联合抽取方法及系统,实现对实体关系的联合抽取。
为解决上述技术问题,本发明所采取的技术方案是:一方面,本发明提供一种基于主动深度学习的实体关系联合抽取方法,
获取待标注数据集作为语料库;
定义实体类别集合和关系类别集合;
对待标注数据进行采样,得到待标注样本数据集;
对待标注样本数据集的数据进行标注;
将标注的数据输入到实体关系联合抽取模型进行训练和测试,获得预测的标签;
对预测的标签解码得到三元组。
具体包括以下步骤:
步骤1:获取待标注数据集作为语料库;获取待标注数据集,并将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;
步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;
步骤3:基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体为:
步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本xi使用Word2Vec模型获得特征向量Ei;
步骤3.2:将特征向量Ei输入到CNN模型提取特征,获得样本xi在每个关系类别下的概率值;
步骤3.3:根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:
式中,Hi为样本xi的信息熵,Pa(xi)代表样本xi在第a个关系类别下的概率值,n为样本关系类别总数;
步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本xmax进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本xmax的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集;
样本之间余弦相似度的计算公式如下所示:
其中,Ei和Ej分别是样本xi和样本xj的特征向量,||Ei||和||Ej||分别是特征向量Ei和Ej的模长,cos(xi,xj)是样本xi和样本xj的余弦相似度,Sim1(xi,xj)是经过归一化后的余弦相似度;
编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,只能用增删改三种操作,两个样本之间的编辑距离的计算公式如下所示:
其中,|xi|和|xj|分别是样本xi和样本xj的文本长度,EDij是样本xi和样本xj的最小编辑距离,Sim2(xi,xj)是经过归一化后的最小编辑距离;
则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度Sim如下公式所示:
Sim=(Sim1+Sim2)/2
步骤4:采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强;
所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法:
1)同义词替换:从除停用词之外的文本数据随机抽取多个单词,然后从同义词字典中随机抽取同义词,并替换它们;如果替换词是实体,则实体对应的三元组也进行替换;
2)随机插入:随机在文本数据中插入非实体词的近义词,该过程重复多次;
3)随机交换:随机挑选文本数据中非实体词进行位置交换,该过程重复多次;
4)随机删除:以概率p随机从文本数据中删除非实体单词;
5)实体替换:随机用若干个实体类型相同的实体替代已标数据中的实体;
6)分句换位:随机交换一个标注样本中两个以分号结尾的短句子;
7)顿号换位:随机交换一个标注样本中两个以顿号分割的单词;
8)短句生成:随机选取样本中至少包含一个三元组关系的短句子生成新的样本;
步骤5:根据步骤2定义的领域实体和关系类别集合,在步骤3得到的待标注样本数据集的数据上采用BIO-OVE/R-HT标注策略进行标注;
所述BIO-OVE/R-HT标注策略由实体边界、关系类别和实体位置3部分组成,具体如下:
实体边界:对于实体边界标签,采用“BIO”标注方式来表示字在实体中的位置信息,“B”代表实体的起始边界,“I”代表实体的非起始位置,“O”代表该元素不属于任何实体;
关系类别:关系类别信息从预定义的关系类别集合中获得,但是当句子中存在一个实体和其他多个实体都存在关系时,则将重叠主实体的关系标签固定为“OVE”(Overlap),然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型;
实体位置:实体位置用“H”、“T”、“HT”和“TH”来标识,“H”代表该实体为三元组中的头实体,“T”代表该实体为三元组中的尾实体;“HT”代表该实体是前一个三元组的头实体,后一个三元组的尾实体;“TH”代表该实体是前一个三元组的尾实体,后一个三元组的头实体;
因此,标签种类的总数是N=2*|R|*4+4+1,其中,|R|是预定义关系类别集合的大小;
步骤6:将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型进行训练和测试,获得预测的标签,然后对预测的标签使用和标注策略对应的解码规则解码得到三元组;
步骤6.1:将步骤5标注的数据输入到ChineseBERT模型实现向量化,ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入,然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中,最后输出字向量;步骤6.2:然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取,输出所有的标记序列;
步骤6.3:将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列;
步骤6.4:对步骤6.3得到的最优的标签序列进行解码;首先根据实体边界获得实体,然后根据以下解码规则抽取三元组,实现标签序列的解码;
如果句子中存在实体类别为“OVE”的实体,那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体组成三元组;
如果句子中不存在实体类别为“OVE”的实体,那么采用最近邻原则确定实体和关系,分别向前和向后寻找与之最近、实体位置不同且关系类别相同的实体组成三元组;
如果句子中存在实体位置为“HT”或“TH”的实体,该实体在两个三元组中分别担任头实体和尾实体角色;对于实体位置为“HT”的实体,将此实体作为第一个三元组的头实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的尾实体;再将此实体作为第二个三元组的尾实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的头实体;对于实体位置为“TH”的实体,将此实体作为第一个三元组的尾实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的头实体;再将此实体作为第二个三元组的头实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的尾实体;
另一方面,本发明还提供一种基于主动深度学习的实体关系联合抽取系统,包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块;
所述主动学习标注模块用于对领域文本数据进行标注,该模块利用基于主动学习的融合信息熵和相似度的待标注数据采样方法向标注人员推送最值得标注的数据,标注后将结果存储到MySQL数据库中;
所述联合抽取模块将待抽取的文本传入ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型中抽取出三元组;
所述规则抽取模块用于对结构化数据利用规则进行抽取,具体包括Excel文档抽取子模块、数据库抽取子模块和Word文档抽取子模块;
所述数据库抽取子模块实现从关系数据库(Oracle和MySQL)中抽取知识,然后将信息存储在Neo4j数据库中;
所述Excel文档抽取子模块用于抽取以Excel的形式进行存储的数据;
所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取;
所述语料库管理模块用于将联合抽取、规则抽取以及主动学习标注的结果导入到Neo4j图数据库,以及下载用于ChineseBERT-BiLSTM-CRF模型训练的语料库信息;
所述知识查询模块在Neo4j图数据库中查询管理员输入的三元组关系,并以图谱的形式展示给管理员;
知识查询模块查询三元组关系entity1-[relation]->entity2,其中,entity1和entity2均为实体,relation为关系;输入查询的信息,分为如下几种情况:查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation;根据管理员的查询条件从Neo4j图数据库中查询出结果,前端通过可视化组件将其以图谱的形式展示给管理员,同时通过表格以条目的形式展示出知识三元组,并能够对三元组进行修改和删除;若未查询到结果,则会提示“暂未找到相应的匹配”;
所述图谱展示模块将Neo4j图数据库中的信息展示在系统界面上。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于主动深度学习的实体关系联合抽取方法及系统,能够有效解决重叠关系问题,并且联合抽取的速度更快。同时能够避免实体抽取和关系抽取两个任务之间的误差积累。该系统进行实体关系抽取的同时能够将抽取的实体关系快速构建知识图谱并且进行管理,其中,文本标注模块能够实现半自动化标注,大大减少了人力成本。
附图说明
图1为本发明实施例提供的一种基于主动深度学习的实体关系联合抽取方法的流程图;
图2为本发明实施例提供的面向航空领域的实体关系联合抽取的标注策略示例图;
图3为本发明实施例提供的基于主动深度学习的实体关系联合抽取系统的功能结构图;
图4为本发明实施例提供的基于主动深度学习的实体关系联合抽取系统的数据流图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以航空领域为例,采用本发明的基于主动深度学习的实体关系联合抽取方法对航空领域的实体关系进行联合抽取。
本实施例中,一种基于主动深度学习的实体关系联合抽取方法,如图1所示,包括以下步骤:
步骤1:获取待标注数据集作为语料库;将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;
本实施例中,使用OCR技术将PDF格式文档转换成Word格式文档,并去除公式、图表、表格等无用内容,然后进行分段和分句处理,最终得到以句子为单位的航空领域语料库。
步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;
本实施例中,定义航空领域的实体类别集合包括{航空器,部件,系统,结构,性能参数,术语,文档},关系类别集合包括{别名,组成,使用,参照,上下位,位置,选型,定义,性能需求,作用或影响};
步骤3:基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体为:
步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本xi使用Word2Vec模型获得特征向量Ei;
步骤3.2:将特征向量Ei输入到CNN模型提取特征,获得样本xi在每个关系类别下的概率值;
步骤3.3:熵(Entropy)可以衡量一个系统的不确定性,熵的值越大代表分类越困难,样本标注的价值越大,可以使用选择熵的值最大的样本数据作为待标注数据。根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:
式中,Hi为样本xi的信息熵,Pa(xi)代表样本xi在第a个关系类别下的概率值,n为样本关系类别总数;
步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本xmax进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本xmax的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集;
样本之间余弦相似度的计算公式如下所示:
其中,Ei和Ej分别是样本xi和样本xj的特征向量,||Ei||和||Ej||分别是特征向量Ei和Ej的模长,cos(xi,xj)是样本xi和样本xj的余弦相似度,Sim1(xi,xj)是经过归一化后的余弦相似度;
编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,只能用增删改三种操作,两个样本之间的编辑距离的计算公式如下所示:
其中,|xi|和|xj|分别是样本xi和样本xj的文本长度,EDij是样本xi和样本xj的最小编辑距离,Sim2(xi,xj)是经过归一化后的最小编辑距离;
则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度Sim如下公式所示:
Sim=(Sim1+Sim2)/2
本实施例中,基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样的具体实现过程如表1中的算法1所示。
表1融合信息熵和相似度的待标注数据采样方法伪代码
步骤4:针对实体关系联合抽取任务和中文文本数据的特点,采用改进EDA的实体关系联合抽取数据增强方法(EDA-RE)对待标注样本数据集进行数据增强;
所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法:
1)同义词替换(SR:Synonyms Replace):从除停用词之外的文本数据随机抽取多个单词,然后从同义词字典中随机抽取同义词,并替换它们;如果替换词是实体,则实体对应的三元组也进行替换;
2)随机插入(RI:Randomly Insert):随机在文本数据中插入非实体词的近义词,该过程重复多次;
3)随机交换(RS:Randomly Swap):随机挑选文本数据中非实体词进行位置交换,该过程重复多次;
4)随机删除(RD:Randomly Delete):以概率p随机从文本数据中删除非实体单词;
5)实体替换(ER:Entity Replace):随机用若干个实体类型相同的实体替代已标数据中的实体,目的是丰富实体表达的多样性;
6)分句换位(CT:Clause Transposition):随机交换一个标注样本中两个以分号结尾的短句子,目的是丰富样本的长距离上下文内容;
7)顿号换位:随机交换一个标注样本中两个以顿号分割的单词,目的是丰富样本的长距离上下文内容;
8)短句生成(SG:Short-sentence Generation):随机选取样本中至少包含一个三元组关系的短句子生成新的样本,目的是提高缺乏上下文信息的短文本实体关系联合抽取的性能;
步骤5:根据步骤2定义的领域实体和关系类别集合,在步骤3得到的待标注样本数据集的数据上采用BIO-OVE/R-HT标注策略进行标注;
所述BIO-OVE/R-HT标注策略由实体边界、关系类别和实体位置3部分组成,具体如下:
实体边界:对于实体边界标签,采用“BIO”标注方式来表示字在实体中的位置信息,“B”代表实体的起始边界,“I”代表实体的非起始位置,“O”代表该元素不属于任何实体;
关系类别:关系类别信息从预定义的关系类别集合中获得,但是当句子中存在一个实体和其他多个实体都存在关系时,则将重叠主实体的关系标签固定为“OVE”(Overlap),然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型;
实体位置:实体位置用“H”、“T”、“HT”和“TH”来标识,“H”代表该实体为三元组中的头实体,“T”代表该实体为三元组中的尾实体;“HT”代表该实体是前一个三元组的头实体,后一个三元组的尾实体;“TH”代表该实体是前一个三元组的尾实体,后一个三元组的头实体;
因此,标签种类的总数是N=2*|R|*4+4+1,其中,|R|是预定义关系类别集合的大小;
本实施例中,针对航空领域的实体关系联合抽取的标注策略如图2所示。
步骤6:将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型模型进行训练和测试,获得预测的标签,然后对预测的标签使用和标注策略对应的解码规则解码得到三元组;
步骤6.1:将步骤5标注的数据输入到ChineseBERT模型实现向量化,ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入,然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中,最后输出字向量;ChineseBERT模型融合了中文音标和字形信息,能够更好地表达汉字所蕴涵的意义。
步骤6.2:然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取,输出所有的标记序列;
步骤6.3:为了获取序列的全局最优解,不仅需要考虑当前位置的输入特征,还需要考虑与前一个位置标签的依赖关系,所以还需要将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列;
步骤6.4:对步骤6.3得到的最优的标签序列进行解码;首先根据实体边界获得实体,然后根据以下解码规则抽取三元组,实现标签序列的解码;
如果句子中存在实体类别为“OVE”的实体E1,那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体E2并且根据实体E的标签解析出关系R组成(E1,R,E2)三元组;
如果句子中不存在实体类别为“OVE”的实体E1,那么采用最近邻原则确定实体和关系,分别向前和向后寻找与之最近、实体位置不同且关系类别(R)相同的实体E2组成(E1,R,E2)三元组;
如果句子中存在实体位置为“HT”或“TH”的实体,该实体在两个三元组中分别担任头实体和尾实体角色;对于实体位置为“HT”的实体,将此实体作为第一个三元组的头实体E1,然后向前寻找与之关系类别(R)相同但是实体位置不同的实体作为第一个三元组的尾实体E2组成(E1,R,E2)三元组;再将此实体作为第二个三元组的尾实体E2,然后向后寻找与之关系类别(R)相同但是实体位置不同的实体作为第二个三元组的头实体E1组成(E1,R,E2)三元组;对于实体位置为“TH”的实体,将此实体作为第一个三元组的尾实体E2,然后向前寻找与之关系类别(R)相同但是实体位置不同的实体作为第一个三元组的头实体E1组成(E1,R,E2)三元组;再将此实体作为第二个三元组的头实体E1,然后向后寻找与之关系类别(R)相同但是实体位置不同的实体作为第二个三元组的尾实体E2组成(E1,R,E2)三元组。
本实施例中,对步骤6.3得到的最优的标签序列进行解码的过程如表2中的序列标签解码算法所示;
表2序列标签解码算法
本实施例中,一种基于主动深度学习的实体关系联合抽取系统,如图3所示,包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块;
所述主动学习标注模块用于对领域文本数据进行标注,该模块利用基于主动学习的融合信息熵和相似度的待标注数据采样方法向标注人员推送最值得标注的数据,标注后将结果存储到MySQL数据库中;
所述联合抽取模块将待抽取的文本传入ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型中抽取出三元组;
所述规则抽取模块用于对结构化数据利用规则进行抽取,具体包括Excel文档抽取子模块、数据库抽取子模块和Word文档抽取子模块;
所述数据库抽取子模块实现从关系数据库(Oracle和MySQL)中抽取知识,然后将信息存储在Neo4j数据库中;
在航空领域,大量的数据以数据库表的形式存储于Oracle等关系型数据库中。同时,不同的数据库表之间往往基于外键等方式,存在着各种各样的联系,若能将这类知识从数据库中抽取出来,进而转换为三元组的形式,将为知识图谱的构建提供很大帮助。
所述Excel文档抽取子模块用于抽取以Excel的形式进行存储的数据;
在实际场景中,大量航空数据特别是故障问题处理数据,以Excel的形式进行存储,其中蕴含有大量可挖掘的知识,常规以非结构化文本为对象的实体关系抽取算法难以处理这类数据。
所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取;
在飞机设计领域,大多数总体论证报告、技术研究报告等材料,并非以txt形式存在,而是以Word的形式保存。同时,由于专业领域的严谨性,这类材料在行文组织上规范性较强,结构特征明显,因此,在基于深度学习的方式同时,也可基于Word特征,进行知识抽取。
所述语料库管理模块用于将联合抽取、规则抽取以及主动学习标注的结果导入到Neo4j图数据库,以及下载用于ChineseBERT-BiLSTM-CRF模型训练的语料库信息;
所述知识查询模块在Neo4j图数据库中查询管理员输入的三元组关系,并以图谱的形式展示给管理员;
知识查询模块查询三元组关系entity1-[relation]->entity2,其中,entity1和entity2均为实体,relation为关系;输入查询的信息,分为如下几种情况:查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation;根据管理员的查询条件从Neo4j图数据库中查询出结果,前端通过可视化组件将其以图的形式展示给管理员,使管理员更清晰直观的了解相关知识。同时通过表格以条目的形式展示出知识三元组,并能够对三元组进行修改和删除;若未查询到结果,则会提示“暂未找到相应的匹配”;修改和删除功能可保证三元组的准确性,方便管理员对存储在数据库中的三元组进行操作。
所述图谱展示模块将Neo4j图数据库中的信息展示在系统界面上。
本实施例中,基于主动深度学习的实体关系联合抽取系统的抽取过程如图4所示,
管理员可以将待标注的word文件上传到主动学习标注模块,系统会使用基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,专家标注后将标注结果存放到语料库管理模块中;管理员还可以将Word文件、Excel文件上传到规则抽取模块,该模块会给管理员反馈回抽取得到的所有三元组信息,然后自动添加到语料库管理模块;管理员同时还可以将word文档上传到联合抽取模块,抽取得到的结果自动添加到语料库管理模块,管理员可以在语料库管理模块下载语料信息从而训练得到实体关系联合抽取模型。管理员还可以将查询信息提交到知识查询模块进行查询,系统会返回给管理员一个查询结果,并通过图谱形式进行展示。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (6)
1.一种基于主动深度学习的实体关系联合抽取方法,其特征在于:
获取待标注数据集作为语料库;
定义实体类别集合和关系类别集合;
对待标注数据进行采样,得到待标注样本数据集;
对待标注样本数据集的数据进行标注;
将标注的数据输入到实体关系联合抽取模型进行训练和测试,获得预测的标签;
对预测的标签解码得到三元组;
具体包括以下步骤:
步骤1:获取待标注数据集作为语料库;获取待标注数据集,并将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;
步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;
步骤3:对待标注数据进行待标注样本采样,得到待标注样本数据集;
步骤4:采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强;
步骤5:根据步骤2定义的领域实体和关系类别集合,在步骤3得到的待标注样本数据集的数据上采用BIO-OVE/R-HT标注策略进行标注;
步骤6:将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型进行训练和测试,获得预测的标签,然后对预测的标签使用和标注策略对应的解码规则解码得到三元组;
所述步骤3基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体方法为:
步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本xi使用Word2Vec模型获得特征向量Ei;
步骤3.2:将特征向量Ei输入到CNN模型提取特征,获得样本xi在每个关系类别下的概率值;
步骤3.3:根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:
式中,Hi为样本xi的信息熵,Pa(xi)代表样本xi在第a个关系类别下的概率值,n为样本关系类别总数;
步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本xmax进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本xmax的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集;
所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法:
1)同义词替换:从除停用词之外的文本数据随机抽取多个单词,然后从同义词字典中随机抽取同义词,并替换它们;如果替换词是实体,则实体对应的三元组也进行替换;
2)随机插入:随机在文本数据中插入非实体词的近义词,该过程重复多次;
3)随机交换:随机挑选文本数据中非实体词进行位置交换,该过程重复多次;
4)随机删除:以概率p随机从文本数据中删除非实体单词;
5)实体替换:随机用若干个实体类型相同的实体替代已标数据中的实体;
6)分句换位:随机交换一个标注样本中两个以分号结尾的短句子;
7)顿号换位:随机交换一个标注样本中两个以顿号分割的单词;
8)短句生成:随机选取样本中至少包含一个三元组关系的短句子生成新的样本;
所述BIO-OVE/R-HT标注策略由实体边界、关系类别和实体位置3部分组成,具体如下:
实体边界:对于实体边界标签,采用“BIO”标注方式来表示字在实体中的位置信息,“B”代表实体的起始边界,“I”代表实体的非起始位置,“O”代表该元素不属于任何实体;
关系类别:关系类别信息从预定义的关系类别集合中获得,但是当句子中存在一个实体和其他多个实体都存在关系时,则将重叠主实体的关系标签固定为“OVE”,然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型;
实体位置:实体位置用“H”、“T”、“HT”和“TH”来标识,“H”代表该实体为三元组中的头实体,“T”代表该实体为三元组中的尾实体;“HT”代表该实体是前一个三元组的头实体,后一个三元组的尾实体;“TH”代表该实体是前一个三元组的尾实体,后一个三元组的头实体;
因此,标签种类的总数是N=2*|R|*4+4+1,其中,|R|是预定义关系类别集合的大小。
2.根据权利要求1所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:步骤3.4所述使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度的具体方法为:
样本之间余弦相似度的计算公式如下所示:
其中,Ei和Ej分别是样本xi和样本xj的特征向量,||Ei||和||Ej||分别是特征向量Ei和Ej的模长,cos(xi,xj)是样本xi和样本xj的余弦相似度,Sim1(xi,xj)是经过归一化后的余弦相似度;
编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,只能用增删改三种操作,两个样本之间的编辑距离的计算公式如下所示:
其中,|xi|和|xj|分别是样本xi和样本xj的文本长度,EDij是样本xi和样本xj的最小编辑距离,Sim2(xi,xj)是经过归一化后的最小编辑距离;
则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本xmax和其他所有待标注样本的综合相似度Sim如下公式所示:
Sim=(Sim1+Sim2)/2。
3.根据权利要求2所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:所述步骤6的具体方法为:
步骤6.1:将步骤5标注的数据输入到ChineseBERT模型实现向量化,ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入,然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中,最后输出字向量;步骤6.2:然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取,输出所有的标记序列;
步骤6.3:将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列;
步骤6.4:对步骤6.3得到的最优的标签序列进行解码;首先根据实体边界获得实体,然后根据以下解码规则抽取三元组,实现标签序列的解码;
如果句子中存在实体类别为“OVE”的实体,那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体组成三元组;
如果句子中不存在实体类别为“OVE”的实体,那么采用最近邻原则确定实体和关系,分别向前和向后寻找与之最近、实体位置不同且关系类别相同的实体组成三元组;
如果句子中存在实体位置为“HT”或“TH”的实体,该实体在两个三元组中分别担任头实体和尾实体角色;对于实体位置为“HT”的实体,将此实体作为第一个三元组的头实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的尾实体;再将此实体作为第二个三元组的尾实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的头实体;对于实体位置为“TH”的实体,将此实体作为第一个三元组的尾实体,然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的头实体;再将此实体作为第二个三元组的头实体,然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的尾实体。
4.一种基于主动深度学习的实体关系联合抽取系统,基于权利要求1所述方法实现,其特征在于:包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块;
所述主动学习标注模块用于对领域文本数据进行标注,该模块利用基于主动学习的融合信息熵和相似度的待标注数据采样方法向标注人员推送最值得标注的数据,标注后将结果存储到MySQL数据库中;
所述联合抽取模块将待抽取的文本传入ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型中抽取出三元组;
所述规则抽取模块用于对结构化数据利用规则进行抽取;
所述语料库管理模块用于将联合抽取、规则抽取以及主动学习标注的结果导入到Neo4j图数据库,以及下载用于ChineseBERT-BiLSTM-CRF模型训练的语料库信息;
所述知识查询模块在Neo4j图数据库中查询管理员输入的三元组关系,并以图谱的形式展示给管理员;
所述图谱展示模块将Neo4j图数据库中的信息展示在系统界面上。
5.根据权利要求4所述的一种基于主动深度学习的实体关系联合抽取系统,其特征在于:所述规则抽取模块包括数据库抽取子模块、Excel文档抽取子模块和Word文档抽取子模块;
所述数据库抽取子模块实现从关系数据库中抽取知识,然后将信息存储在Neo4j数据库中;
所述Excel文档抽取子模块用于抽取以Excel的形式进行存储的数据;
所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取。
6.根据权利要求5所述的一种基于主动深度学习的实体关系联合抽取系统,其特征在于:所述知识查询模块查询管理员输入的三元组关系entity1-[relation]->entity2,其中,entity1和entity2均为实体,relation为关系;输入查询的信息,分为如下几种情况:查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation;根据管理员的查询条件从Neo4j图数据库中查询出结果,前端通过可视化组件将其以图谱的形式展示给管理员,同时通过表格以条目的形式展示出知识三元组,并能够对三元组进行修改和删除;若未查询到结果,则会提示“暂未找到相应的匹配”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111383783.2A CN113901825B (zh) | 2021-11-22 | 2021-11-22 | 一种基于主动深度学习的实体关系联合抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111383783.2A CN113901825B (zh) | 2021-11-22 | 2021-11-22 | 一种基于主动深度学习的实体关系联合抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901825A CN113901825A (zh) | 2022-01-07 |
CN113901825B true CN113901825B (zh) | 2024-05-03 |
Family
ID=79194842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111383783.2A Active CN113901825B (zh) | 2021-11-22 | 2021-11-22 | 一种基于主动深度学习的实体关系联合抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901825B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114496115B (zh) * | 2022-04-18 | 2022-08-23 | 北京白星花科技有限公司 | 实体关系的标注自动生成方法和系统 |
CN115080705B (zh) * | 2022-07-20 | 2022-11-11 | 神州医疗科技股份有限公司 | 基于双模型增强的垂直领域关系抽取方法及系统 |
CN116244445B (zh) * | 2022-12-29 | 2023-12-12 | 中国航空综合技术研究所 | 航空文本数据标注方法及其标注系统 |
CN116431757B (zh) * | 2023-06-13 | 2023-08-25 | 中国人民公安大学 | 基于主动学习的文本关系抽取方法、电子设备及存储介质 |
CN118170891B (zh) * | 2024-05-13 | 2024-07-23 | 浙江大学 | 一种文本信息抽取方法、装置、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN113051922A (zh) * | 2021-04-20 | 2021-06-29 | 北京工商大学 | 一种基于深度学习的三元组抽取方法及系统 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
CN113468888A (zh) * | 2021-06-25 | 2021-10-01 | 浙江华巽科技有限公司 | 基于神经网络的实体关系联合抽取方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
-
2021
- 2021-11-22 CN CN202111383783.2A patent/CN113901825B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN113051922A (zh) * | 2021-04-20 | 2021-06-29 | 北京工商大学 | 一种基于深度学习的三元组抽取方法及系统 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
CN113468888A (zh) * | 2021-06-25 | 2021-10-01 | 浙江华巽科技有限公司 | 基于神经网络的实体关系联合抽取方法与装置 |
Non-Patent Citations (1)
Title |
---|
融合对抗训练的端到端知识三元组联合抽取;黄培馨;赵翔;方阳;朱慧明;肖卫东;;计算机研究与发展;20191215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113901825A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113901825B (zh) | 一种基于主动深度学习的实体关系联合抽取方法及系统 | |
Qin et al. | A survey on text-to-sql parsing: Concepts, methods, and future directions | |
WO2019227584A1 (zh) | 简历数据信息解析处理方法、装置、设备及存储介质 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
US9069857B2 (en) | Per-document index for semantic searching | |
US8156053B2 (en) | Automated tagging of documents | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
CN113076739A (zh) | 一种实现跨领域的中文文本纠错方法和系统 | |
CN111476031A (zh) | 一种基于Lattice-LSTM的改进中文命名实体识别方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN116028618B (zh) | 文本处理、文本检索方法、装置、电子设备及存储介质 | |
Li et al. | A method for resume information extraction using bert-bilstm-crf | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN117421393B (zh) | 一种用于专利的生成式检索方法及系统 | |
CN114547232A (zh) | 一种低标注成本的嵌套实体识别方法及系统 | |
CN113609840A (zh) | 一种汉语法律判决摘要生成方法及系统 | |
Akdemir et al. | Joint learning of named entity recognition and dependency parsing using separate datasets | |
CN116933774A (zh) | 长文本摘要方法及其装置、设备、介质 | |
Skylaki et al. | Legal entity extraction using a pointer generator network | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN114997167A (zh) | 简历内容提取方法及装置 | |
CN112966501B (zh) | 一种新词发现方法、系统、终端及介质 | |
Laukaitis et al. | Sentence level alignment of digitized books parallel corpora | |
Bakar et al. | An evaluation of retrieval effectiveness using spelling‐correction and string‐similarity matching methods on Malay texts | |
CN110532346B (zh) | 一种抽取文档中要素的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |