CN112560475B - 三元组抽取方法及系统 - Google Patents
三元组抽取方法及系统 Download PDFInfo
- Publication number
- CN112560475B CN112560475B CN202011276362.5A CN202011276362A CN112560475B CN 112560475 B CN112560475 B CN 112560475B CN 202011276362 A CN202011276362 A CN 202011276362A CN 112560475 B CN112560475 B CN 112560475B
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- position information
- word segmentation
- tail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 101
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 description 10
- 239000002243 precursor Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种三元组抽取方法及系统,该方法包括:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。本发明能提高三元组抽取的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种三元组抽取方法及系统。
背景技术
当前实体关系三元组抽取主要有两类方法,基于传统规则的方法和基于机器学习(深度学习)的方法。基于传统规则的方法,例如基于依存句法分析的实体关系抽取,首先对一个句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系表述,并根据距离确定实体位置,最后输出三元组;基于机器学习的方法,分别识别三元组中的两个实体,然后对两个实体之间的关系进行分类,最后输出三元组。
然而,当前实体关系三元组抽取技术,在训练及评估阶段,将实体与关系分开抽取,没有使用其关系信息去抽取实体。如三元组(中国,首都,北京),这个三元组的实体“北京”可以从前面的实体“中国”以及关系“首都”推断而来,用实体及关系之间的关联信息进而可以抽取更加准确的三元组。因此如何利用文本的整体信息进行三元组的抽取成为亟待解决的技术问题。
发明内容
有鉴于此,本发明提供一种三元组抽取方法及系统,以实现利用文本的整体信息进行三元组的抽取,提高三元组抽取的准确性。
一方面,本发明提供一种三元组抽取方法,包括:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;
根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
进一步地,所述根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息的步骤包括:
将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
进一步地,所述根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组的步骤包括:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;
根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;
将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
进一步地,所述将所述文本向量输入全连接层进行学习得到头实体向量的步骤中的头实体损失函数表示为:
其中,Hp(s)表示头实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
进一步地,将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量的步骤中的尾实体损失函数表示为:
其中,Hp(o)表示尾实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,l oss=-l og(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,l oss=-l og(1-p(yi)),当p(yi)越小时,损失越小。
另一方面,本发明提供一种三元组抽取系统,包括:分词编码器,用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
ALBERT模型单元,用于对所述分词编码文本与分句编码文本进行处理,得到文本向量;
全连接层学习单元,用于根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
三元组抽取单元,用于根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
进一步地,所述全连接层学习单元包括:
第一全连接层学习子单元,用于将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
第二全连接层学习子单元,用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
进一步地,所述三元组抽取单元具体用于:根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
进一步地,所述第一全连接层学习子单元中全连接层的头实体损失函数表示为:
其中,Hp(s)表示头实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
进一步地,所述第二全连接层学习子单元中全连接层的尾实体损失函数表示为:
其中,Hp(o)表示尾实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,l oss=-l og(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,l oss=-l og(1-p(yi)),当p(yi)越小时,损失越小。
本发明三元组抽取方法及系统,基于ALBERT预训练词向量模型对文本信息编码,共享网络参数,训练速度更快;批量抽取文本三元组,提升处理速度,同时,根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息,利用头部实体及实体间关系抽取尾实体,使得三元组实体关系联系更加紧密,提高三元组抽取的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据本发明示例性第一实施例的三元组抽取方法的流程图。
图2为根据本发明示例性第二实施例的三元组抽取系统的结构框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
图1为根据本发明示例性第一实施例的三元组抽取方法的流程图,如图1所示,本发明一种三元组抽取方法,包括:
步骤101:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
具体如:输入一批文本信息,例如输入“马某某,1907年出生,陕西三原人,汉族。”,预处理成标准格式。再使用分词编码器对批量文本信息进行编码获取批量文本,分词文本batch_token,分词编码文本batch_token_ids及分句编码文本batch_segment_ids。
如分词文本batch_token:
['[CLS]','马','某','某',',','1907','年','出','生',',','陕','西','三','原','人',',','汉','族'。'[SEP]']
分词编码文本batch_token_ids:
[[101 7716 2562 5660 8024 11111 2399 1139 4495 80247362 6205 676 1333782 8024 3727 3184 8024 704 1744 1066 772 1054 8024 818 5273 1724 1730 5018671 6825 6825 72708024 9657 2399 6860 686 102]]
分句编码文本batch_segment_ids:
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0]]
步骤102:利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;
具体地,通过ALBERT预训练模型结合分词编码文本及分句编码文本,最后接入全连接层,激活函数使用sigmoid获取批量文本头实体向量subject_vector。
头实体向量subject_vector具体可以为:
[[[1.6383085e-05 1.7806211e-05]
[9.9282092e-01 1.1213457e-04]
[5.4219263e-03 1.3647249e-03]
[5.2850257e-04 9.9604082e-01]
[3.9140559e-06 1.0229477e-05]
[5.7376717e-04 4.7726318e-04]
[1.4823048e-04 2.7725991e-04]
[1.4034994e-05 8.0787766e-05]
[3.7717091e-05 9.1288573e-05]
[9.6265003e-06 2.9571061e-06]
[1.6606943e-04 2.5842624e-04]
[1.1317998e-03 1.2814229e-04]
[6.7677787e-03 2.0024562e-03]
[4.8049274e-04 2.8878462e-03]
[8.9886853e-06 1.7700977e-04]
[4.8317752e-06 7.0615297e-06]
[7.4795775e-05 7.2643343e-05]
[4.9002494e-05 9.5113814e-05]
[5.5439637e-06 6.7999604e-06]
[9.2990248e-04 2.7229218e-04]
[1.3483159e-04 7.1443559e-04]
[7.1562776e-05 2.9013116e-05]
[4.1486444e-05 7.3879994e-05]
[3.5302604e-05 7.9673016e-05]
[1.3518434e-05 8.5154488e-06]
[7.0537459e-03 3.6170339e-04]
[1.0175577e-02 5.9276130e-03]
[2.0459041e-03 3.0192044e-03]
[8.1980595e-04 3.6944172e-03]
[9.2655566e-04 3.8995300e-04]
[1.0916624e-03 1.0249600e-03]
[9.0226886e-04 1.3427552e-03]
[8.9861121e-04 1.2142629e-03]
[2.4509151e-04 8.7291811e-04]
[4.4015792e-06 5.1434927e-06]
[1.5291869e-05 3.1277668e-05]
[1.1877058e-05 2.9140390e-05]
[2.7779543e-05 2.4864239e-05]
[8.5670108e-06 3.2425392e-05]
[7.1562458e-06 5.1740095e-05]]]
步骤103:根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息。
优选地,步骤103可以包括:
将所述文本向量输入全连接层(可以称为第一全连接层)进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;具体地,通过获取设定阈值标注出subject的头部(头部阈值0.6)和尾部(尾部阈值0.5)位置进而获取subject位置信息。如:subject:[[1,3]]。
其中,该第一全连接层学习时的头实体损失函数subject_loss可以表示为:
其中,Hp(s)表示subject_loss的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小;
将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层(可以称为第二全连接层)进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
其中,该第二全连接层学习时的尾实体损失函数object_loss可以表示为:
其中,Hp(o)表示object_loss的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
具体对于第一全连接层以及第二全连接层,可以通过最小化损失函数,使用Adam优化器计算样本的梯度并更新参数:
②计算梯度的指数移动平均数mt:mt=β1·mt-1+(1-β1)·gt
其中,mt为t时间梯度的指数移动平均数,m初始化为0,β1系数为指数衰减率,控制权重分配,通常取接近于1的值,默认为0.9。
③计算梯度平方的指数移动平均数vt:
vt为t时间梯度平方的指数移动平均数,v初始化为0,β2系数为指数衰减率,控制权重分配,通常取接近于1的值,默认为0.999。
④对梯度均值mt进行偏差纠正:
⑤对梯度方差vt进行偏差纠正:
需要对其进行偏差纠正,降低偏差对训练初期的影响
⑥更新参数:
α为初始的学习率,其默认值α=0.001,ε=10^-8,避免除数变为0;
步骤104:根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
优选地,步骤104可以包括:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;
根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置
信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;
将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
具体地,通过获取到的subject起始位置特征结合token_ids、segment_ids最后接入全连接层进行关系类别预测,关系预测时使用sigmoid激活函数,进而获取批量文本object向量object_vector。在进行关系预测获取predicate标签的同时通过设定阈值标注出object的头部(头部阈值0.6)和尾部(尾部阈值0.5)位置获取object位置信息,结合subject位置信息最终获取三元组整体信息spos。
object_vector:
[[[[2.91123881e-09 2.46642207e-10]
[9.97761526e-11 9.90885485e-10]
[3.74945053e-09 2.23443752e-09]
...
[8.65546497e-08 6.49529808e-09]
[1.74976805e-07 4.43278623e-07]
[4.81345519e-10 5.08497411e-10]]
[[7.06525043e-08 2.06813937e-07]
[1.87188974e-07 4.28198241e-08]
[1.14070349e-06 5.25365010e-07]...
[1.80095105e-06 8.51713878e-07]
[1.28028269e-05 1.29512429e-07]
[1.77795272e-07 4.59619152e-08]]
[[3.31637245e-10 5.36569511e-10]
[2.67422564e-08 5.65806468e-09]
[6.06007955e-09 1.17912373e-08]
...
[1.94030875e-07 9.17056298e-08]
[5.45119201e-06 2.60209458e-06]
[1.06330340e-08 2.20932295e-09]]
...
[[3.31453620e-08 3.56153551e-10]
[1.69817815e-09 5.59672864e-10]
[1.39201140e-08 2.72824385e-09]
...
[2.40612970e-08 3.86909647e-07]
[2.67341704e-07 1.23063018e-07]
[1.61796887e-08 1.18569909e-09]]
[[2.30255033e-08 6.51014589e-11]
[9.56887902e-10 6.84898638e-10]
[3.28136740e-09 9.74354286e-09]
...
[1.70634408e-07 2.14685912e-07]
[1.54079046e-07 7.49913198e-08]
[1.37496459e-08 6.19298257e-09]]
[[1.84561935e-10 7.08662684e-10]
[4.29948566e-09 7.55873142e-10]
[4.92900121e-09 1.90876559e-09]
...
[2.37555398e-08 1.06577716e-08]
[3.80269341e-07 2.22867948e-06]
[5.15371124e-09 9.48955026e-10]]]]
spos:[(array([1,3]),4,(5,6)),(array([1,3]),13,(10,13)),(array([1,3]),47,(16,17)),(array([1,3]),32,(19,20))]
解析spos信息,通过subject,object在文本中的位置信息获取三元组文本信息,通过predicate标签获取其文本标签,最终输出三元组信息
{'spo_list':
[{'subject':'马某某','predicate':'出生日期','object':'1907年','subject_offset':0,'object_offset':4},
{'subject':'马某某','predicate':'出生地','object':'陕西三原','subject_offset':0,'object_offset':12},
{'subject':'马某某','predicate':'民族','object':'汉族','subject_offset':0,'object_offset':18},
{'subject':'马某某','predicate':'国籍','object':'中国','subject_offset':0,'object_offset':21}]}
本实施例在进行三元组尾端实体抽取时应用到了头部实体及实体间关系,使得三元组实体关系联系更加紧密;基于ALBERT预训练词向量模型对文本信息编码,共享网络参数,训练速度更快;批量抽取文本三元组,提升处理速度。
图2为根据本发明示例性第二实施例的三元组抽取系统的结构框图。如图2所示,三元组抽取系统包括:
分词编码器201,用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
ALBERT模型单元202,用于对所述分词编码文本与分句编码文本进行处理,得到文本向量;
全连接层学习单元203,用于根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
三元组抽取单元204,用于根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
优选地,全连接层学习单元203包括:
第一全连接层学习子单元(图中未示出),用于将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
第二全连接层学习子单元(图中未示出),用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
优选地,所述三元组抽取单元204具体用于:根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
本实施例在抽取实体时考虑了实体和关系关联信息,能够在抽取三元组头实体和实体关系的基础上进一步抽取尾实体,同时结合ALBER预训练模型获取更好的三元组抽取效果,使用ALBERT预训练向量编码,更好的提取文本信息,进而使用标注结合分类的方式进行实体关系联合抽取,使三元组结果更加准确。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种三元组抽取方法,其特征在于,包括:
利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;
根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组;
所述根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息的步骤包括:
将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
2.根据权利要求1所述的三元组抽取方法,其特征在于,所述根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组的步骤包括:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;
根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;
将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
5.一种三元组抽取系统,其特征在于,包括:
分词编码器,用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
ALBERT模型单元,用于对所述分词编码文本与分句编码文本进行处理,得到文本向量;
全连接层学习单元,用于根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
三元组抽取单元,用于根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组;
所述全连接层学习单元包括:
第一全连接层学习子单元,用于将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
第二全连接层学习子单元,用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
6.根据权利要求5所述的三元组抽取系统,其特征在于,所述三元组抽取单元具体用于:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276362.5A CN112560475B (zh) | 2020-11-16 | 2020-11-16 | 三元组抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276362.5A CN112560475B (zh) | 2020-11-16 | 2020-11-16 | 三元组抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560475A CN112560475A (zh) | 2021-03-26 |
CN112560475B true CN112560475B (zh) | 2023-05-12 |
Family
ID=75042343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011276362.5A Active CN112560475B (zh) | 2020-11-16 | 2020-11-16 | 三元组抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560475B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420120B (zh) * | 2021-06-24 | 2024-05-31 | 平安科技(深圳)有限公司 | 关键信息提取模型的训练方法、提取方法、设备及介质 |
CN113886529B (zh) * | 2021-10-22 | 2022-12-02 | 苏州空天信息研究院 | 一种面向网络安全领域的信息抽取方法及其系统 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN111079431A (zh) * | 2019-10-31 | 2020-04-28 | 北京航天云路有限公司 | 一种基于迁移学习的实体关系联合抽取方法 |
CN111241209A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111931503A (zh) * | 2020-08-04 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 信息抽取方法及装置、设备、计算机可读存储介质 |
-
2020
- 2020-11-16 CN CN202011276362.5A patent/CN112560475B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN111079431A (zh) * | 2019-10-31 | 2020-04-28 | 北京航天云路有限公司 | 一种基于迁移学习的实体关系联合抽取方法 |
CN111241209A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111931503A (zh) * | 2020-08-04 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 信息抽取方法及装置、设备、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112560475A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560475B (zh) | 三元组抽取方法及系统 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
US20200012953A1 (en) | Method and apparatus for generating model | |
CN109635288B (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN111191453A (zh) | 一种基于对抗训练的命名实体识别方法 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN112307777B (zh) | 知识图谱表示学习方法及系统 | |
CN110046223B (zh) | 基于改进型卷积神经网络模型的影评情感分析方法 | |
CN111611877A (zh) | 基于多时空信息融合的抗年龄干扰的人脸识别方法 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN113160917B (zh) | 一种电子病历实体关系抽取方法 | |
CN114492412B (zh) | 一种面向中文短文本的实体关系抽取方法 | |
CN114255159A (zh) | 手写文本图像生成方法、装置、电子设备和存储介质 | |
CN110991185A (zh) | 一种文章中实体的属性抽取方法及装置 | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN114049501B (zh) | 融合集束搜索的图像描述生成方法、系统、介质及设备 | |
CN113779992B (zh) | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN117744658A (zh) | 一种基于BERT-BiLSTM-CRF的船舶命名实体识别方法 | |
CN111209751B (zh) | 一种中文分词方法、装置及存储介质 | |
CN112732863A (zh) | 电子病历标准化切分方法 | |
CN112735384B (zh) | 应用于说话人分离的转折点检测方法、装置以及设备 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN112434133B (zh) | 一种意图分类方法、装置、智能终端及存储介质 | |
CN113076751A (zh) | 命名实体识别方法及系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |