CN112560475A - 三元组抽取方法及系统 - Google Patents

三元组抽取方法及系统 Download PDF

Info

Publication number
CN112560475A
CN112560475A CN202011276362.5A CN202011276362A CN112560475A CN 112560475 A CN112560475 A CN 112560475A CN 202011276362 A CN202011276362 A CN 202011276362A CN 112560475 A CN112560475 A CN 112560475A
Authority
CN
China
Prior art keywords
entity
text
position information
tail
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011276362.5A
Other languages
English (en)
Other versions
CN112560475B (zh
Inventor
李文锋
侯乐
赵九州
赵从志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Workway Shenzhen Information Technology Co ltd
Original Assignee
Workway Shenzhen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Workway Shenzhen Information Technology Co ltd filed Critical Workway Shenzhen Information Technology Co ltd
Priority to CN202011276362.5A priority Critical patent/CN112560475B/zh
Publication of CN112560475A publication Critical patent/CN112560475A/zh
Application granted granted Critical
Publication of CN112560475B publication Critical patent/CN112560475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种三元组抽取方法及系统,该方法包括:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。本发明能提高三元组抽取的准确性。

Description

三元组抽取方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种三元组抽取方法及系统。
背景技术
当前实体关系三元组抽取主要有两类方法,基于传统规则的方法和基于机器学习(深度学习)的方法。基于传统规则的方法,例如基于依存句法分析的实体关系抽取,首先对一个句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系表述,并根据距离确定实体位置,最后输出三元组;基于机器学习的方法,分别识别三元组中的两个实体,然后对两个实体之间的关系进行分类,最后输出三元组。
然而,当前实体关系三元组抽取技术,在训练及评估阶段,将实体与关系分开抽取,没有使用其关系信息去抽取实体。如三元组(中国,首都,北京),这个三元组的实体“北京”可以从前面的实体“中国”以及关系“首都”推断而来,用实体及关系之间的关联信息进而可以抽取更加准确的三元组。因此如何利用文本的整体信息进行三元组的抽取成为亟待解决的技术问题。
发明内容
有鉴于此,本发明提供一种三元组抽取方法及系统,以实现利用文本的整体信息进行三元组的抽取,提高三元组抽取的准确性。
一方面,本发明提供一种三元组抽取方法,包括:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;
根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
进一步地,所述根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息的步骤包括:
将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
进一步地,所述根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组的步骤包括:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;
根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;
将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
进一步地,所述将所述文本向量输入全连接层进行学习得到头实体向量的步骤中的头实体损失函数表示为:
Figure BDA0002779181990000021
其中,Hp(s)表示头实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
进一步地,将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量的步骤中的尾实体损失函数表示为:
Figure BDA0002779181990000022
其中,Hp(o)表示尾实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
另一方面,本发明提供一种三元组抽取系统,包括:分词编码器,用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
ALBERT模型单元,用于对所述分词编码文本与分句编码文本进行处理,得到文本向量;
全连接层学习单元,用于根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
三元组抽取单元,用于根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
进一步地,所述全连接层学习单元包括:
第一全连接层学习子单元,用于将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
第二全连接层学习子单元,用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
进一步地,所述三元组抽取单元具体用于:根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
进一步地,所述第一全连接层学习子单元中全连接层的头实体损失函数表示为:
Figure BDA0002779181990000041
其中,Hp(s)表示头实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
进一步地,所述第二全连接层学习子单元中全连接层的尾实体损失函数表示为:
Figure BDA0002779181990000042
其中,Hp(o)表示尾实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
本发明三元组抽取方法及系统,基于ALBERT预训练词向量模型对文本信息编码,共享网络参数,训练速度更快;批量抽取文本三元组,提升处理速度,同时,根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息,利用头部实体及实体间关系抽取尾实体,使得三元组实体关系联系更加紧密,提高三元组抽取的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据本发明示例性第一实施例的三元组抽取方法的流程图。
图2为根据本发明示例性第二实施例的三元组抽取系统的结构框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
图1为根据本发明示例性第一实施例的三元组抽取方法的流程图,如图1所示,本发明一种三元组抽取方法,包括:
步骤101:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
具体如:输入一批文本信息,例如输入“马志舟,1907年出生,陕西三原人,汉族,中国共产党,任红四团第一连连长,1933年逝世。”,预处理成标准格式。再使用分词编码器对批量文本信息进行编码获取批量文本,分词文本batch_token,分词编码文本batch_token_ids及分句编码文本batch_segment_ids。
如分词文本batch_token:
['[CLS]','马','志','舟',',','1907','年','出','生',',','陕','西','三','原','人',',','汉','族',',','中','国','共','产','党',',','任','红','四','团','第','一','连','连','长',',','1933','年','逝','世','[SEP]']
分词编码文本batch_token_ids:
[[101 7716 2562 5660 8024 11111 2399 1139 4495 8024 7362 6205 6761333 782 8024 3727 3184 8024 704 1744 1066 772 1054 8024 818 5273 1724 17305018 671 6825 6825 7270 8024 9657 2399 6860 686 102]]
分句编码文本batch_segment_ids:
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0]]
步骤102:利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;
具体地,通过ALBERT预训练模型结合分词编码文本及分句编码文本,最后接入全连接层,激活函数使用sigmoid获取批量文本头实体向量subject_vector。
头实体向量subject_vector具体可以为:
[[[1.6383085e-05 1.7806211e-05]
[9.9282092e-01 1.1213457e-04]
[5.4219263e-03 1.3647249e-03]
[5.2850257e-04 9.9604082e-01]
[3.9140559e-06 1.0229477e-05]
[5.7376717e-04 4.7726318e-04]
[1.4823048e-04 2.7725991e-04]
[1.4034994e-05 8.0787766e-05]
[3.7717091e-05 9.1288573e-05]
[9.6265003e-06 2.9571061e-06]
[1.6606943e-04 2.5842624e-04]
[1.1317998e-03 1.2814229e-04]
[6.7677787e-03 2.0024562e-03]
[4.8049274e-04 2.8878462e-03]
[8.9886853e-06 1.7700977e-04]
[4.8317752e-06 7.0615297e-06]
[7.4795775e-05 7.2643343e-05]
[4.9002494e-05 9.5113814e-05]
[5.5439637e-06 6.7999604e-06]
[9.2990248e-04 2.7229218e-04]
[1.3483159e-04 7.1443559e-04]
[7.1562776e-05 2.9013116e-05]
[4.1486444e-05 7.3879994e-05]
[3.5302604e-05 7.9673016e-05]
[1.3518434e-05 8.5154488e-06]
[7.0537459e-03 3.6170339e-04]
[1.0175577e-02 5.9276130e-03]
[2.0459041e-03 3.0192044e-03]
[8.1980595e-04 3.6944172e-03]
[9.2655566e-04 3.8995300e-04]
[1.0916624e-03 1.0249600e-03]
[9.0226886e-04 1.3427552e-03]
[8.9861121e-04 1.2142629e-03]
[2.4509151e-04 8.7291811e-04]
[4.4015792e-06 5.1434927e-06]
[1.5291869e-05 3.1277668e-05]
[1.1877058e-05 2.9140390e-05]
[2.7779543e-05 2.4864239e-05]
[8.5670108e-06 3.2425392e-05]
[7.1562458e-06 5.1740095e-05]]]
步骤103:根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息。
优选地,步骤103可以包括:
将所述文本向量输入全连接层(可以称为第一全连接层)进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;具体地,通过获取设定阈值标注出subject的头部(头部阈值0.6)和尾部(尾部阈值0.5)位置进而获取subject位置信息。如:subject:[[1,3]]。
其中,该第一全连接层学习时的头实体损失函数subject_loss可以表示为:
Figure BDA0002779181990000081
其中,Hp(s)表示subject_loss的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小;
将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层(可以称为第二全连接层)进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
其中,该第二全连接层学习时的尾实体损失函数object_loss可以表示为:
Figure BDA0002779181990000082
其中,Hp(o)表示object_loss的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
具体对于第一全连接层以及第二全连接层,可以通过最小化损失函数,使用Adam优化器计算样本的梯度并更新参数:
①计算梯度gt
Figure BDA0002779181990000083
其中,gt为时间梯度,
Figure BDA0002779181990000084
为向量值函数,θt-1为梯度更新参数;
②计算梯度的指数移动平均数mt:mt=β1·mt-1+(1-β1)·gt
其中,mt为t时间梯度的指数移动平均数,m初始化为0,β1系数为指数衰减率,控制权重分配,通常取接近于1的值,默认为0.9。
③计算梯度平方的指数移动平均数νt
Figure BDA0002779181990000091
νt为t时间梯度平方的指数移动平均数,v初始化为0,β2系数为指数衰减率,控制权重分配,通常取接近于1的值,默认为0.999。
④对梯度均值mt进行偏差纠正:
Figure BDA0002779181990000092
Figure BDA0002779181990000093
对mt的偏差纠正值,由于m初始化为0,会导致mt偏向于0,需要对其进行偏差纠正,降低偏差对训练初期的影响。
⑤对梯度方差νt进行偏差纠正:
Figure BDA0002779181990000094
Figure BDA0002779181990000095
对νt的偏差纠正值,由于v初始化为0,会导致vt偏向于0,需要对其进行偏差纠正,降低偏差对训练初期的影响
⑥更新参数:
Figure BDA0002779181990000096
α为初始的学习率,其默认值α=0.001,ε=10^-8,避免除数变为0;
Figure BDA0002779181990000097
为梯度均值,
Figure BDA0002779181990000098
为梯度方差,θt梯度更新参数。
步骤104:根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
优选地,步骤104可以包括:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;
根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置
信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;
将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
具体地,通过获取到的subject起始位置特征结合token_ids、segment_ids最后接入全连接层进行关系类别预测,关系预测时使用sigmoid激活函数,进而获取批量文本object向量object_vector。在进行关系预测获取predicate标签的同时通过设定阈值标注出object的头部(头部阈值0.6)和尾部(尾部阈值0.5)位置获取object位置信息,结合subject位置信息最终获取三元组整体信息spos。
object_vector:
[[[[2.91123881e-09 2.46642207e-10]
[9.97761526e-11 9.90885485e-10]
[3.74945053e-09 2.23443752e-09]
...
[8.65546497e-08 6.49529808e-09]
[1.74976805e-07 4.43278623e-07]
[4.81345519e-10 5.08497411e-10]]
[[7.06525043e-08 2.06813937e-07]
[1.87188974e-07 4.28198241e-08]
[1.14070349e-06 5.25365010e-07]
...
[1.80095105e-06 8.51713878e-07]
[1.28028269e-05 1.29512429e-07]
[1.77795272e-07 4.59619152e-08]]
[[3.31637245e-10 5.36569511e-10]
[2.67422564e-08 5.65806468e-09]
[6.06007955e-09 1.17912373e-08]
...
[1.94030875e-07 9.17056298e-08]
[5.45119201e-06 2.60209458e-06]
[1.06330340e-08 2.20932295e-09]]
...
[[3.31453620e-08 3.56153551e-10]
[1.69817815e-09 5.59672864e-10]
[1.39201140e-08 2.72824385e-09]
...
[2.40612970e-08 3.86909647e-07]
[2.67341704e-07 1.23063018e-07]
[1.61796887e-08 1.18569909e-09]]
[[2.30255033e-08 6.51014589e-11]
[9.56887902e-10 6.84898638e-10]
[3.28136740e-09 9.74354286e-09]
...
[1.70634408e-07 2.14685912e-07]
[1.54079046e-07 7.49913198e-08]
[1.37496459e-08 6.19298257e-09]]
[[1.84561935e-10 7.08662684e-10]
[4.29948566e-09 7.55873142e-10]
[4.92900121e-09 1.90876559e-09]
...
[2.37555398e-08 1.06577716e-08]
[3.80269341e-07 2.22867948e-06]
[5.15371124e-09 9.48955026e-10]]]]
spos:[(array([1,3]),4,(5,6)),(array([1,3]),13,(10,13)),(array([1,3]),47,(16,17)),(array([1,3]),32,(19,20))]
解析spos信息,通过subject,object在文本中的位置信息获取三元组文本信息,通过predicate标签获取其文本标签,最终输出三元组信息
{'spo_list':
[{'subject':'马志舟','predicate':'出生日期','object':'1907年','subject_offset':0,'object_offset':4},
{'subject':'马志舟','predicate':'出生地','object':'陕西三原','subject_offset':0,'object_offset':12},
{'subject':'马志舟','predicate':'民族','object':'汉族','subject_offset':0,'object_offset':18},
{'subject':'马志舟','predicate':'国籍','object':'中国','subject_offset':0,'object_offset':21}]}
本实施例在进行三元组尾端实体抽取时应用到了头部实体及实体间关系,使得三元组实体关系联系更加紧密;基于ALBERT预训练词向量模型对文本信息编码,共享网络参数,训练速度更快;批量抽取文本三元组,提升处理速度。
图2为根据本发明示例性第二实施例的三元组抽取系统的结构框图。如图2所示,三元组抽取系统包括:
分词编码器201,用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
ALBERT模型单元202,用于对所述分词编码文本与分句编码文本进行处理,得到文本向量;
全连接层学习单元203,用于根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
三元组抽取单元204,用于根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
优选地,全连接层学习单元203包括:
第一全连接层学习子单元(图中未示出),用于将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
第二全连接层学习子单元(图中未示出),用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
优选地,所述三元组抽取单元204具体用于:根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
本实施例在抽取实体时考虑了实体和关系关联信息,能够在抽取三元组头实体和实体关系的基础上进一步抽取尾实体,同时结合ALBER预训练模型获取更好的三元组抽取效果,使用ALBERT预训练向量编码,更好的提取文本信息,进而使用标注结合分类的方式进行实体关系联合抽取,使三元组结果更加准确。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种三元组抽取方法,其特征在于,包括:
利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
利用ALBERT模型对所述分词编码文本与分句编码文本进行处理,得到文本向量;
根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
2.根据权利要求1所述的三元组抽取方法,其特征在于,所述根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息的步骤包括:
将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
3.根据权利要求2所述的三元组抽取方法,其特征在于,所述根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组的步骤包括:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;
根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;
将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
4.根据权利要求3所述的三元组抽取方法,其特征在于,所述将所述文本向量输入全连接层进行学习得到头实体向量的步骤中的头实体损失函数表示为:
Figure FDA0002779181980000021
其中,Hp(s)表示头实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
5.根据权利要求4所述的三元组抽取方法,其特征在于,将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量的步骤中的尾实体损失函数表示为:
Figure FDA0002779181980000022
其中,Hp(o)表示尾实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
6.一种三元组抽取系统,其特征在于,包括:
分词编码器,用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本;所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息,所述分句编码文本包括所述分词文本中每句话的编码信息;
ALBERT模型单元,用于对所述分词编码文本与分句编码文本进行处理,得到文本向量;
全连接层学习单元,用于根据所述文本向量、所述分词编码文本与分句编码文本,利用全连接层学习得到头实体位置信息以及尾实体位置信息;
三元组抽取单元,用于根据所述头实体位置信息以及尾实体位置信息,确定抽取得到的三元组。
7.根据权利要求6所述的三元组抽取系统,其特征在于,所述全连接层学习单元包括:
第一全连接层学习子单元,用于将所述文本向量输入全连接层进行学习得到头实体向量,并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息;
第二全连接层学习子单元,用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量,并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。
8.根据权利要求7所述的三元组抽取系统,其特征在于,所述三元组抽取单元具体用于:
根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息;根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本;将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。
9.根据权利要求8所述的三元组抽取系统,其特征在于,所述第一全连接层学习子单元中全连接层的头实体损失函数表示为:
Figure FDA0002779181980000031
其中,Hp(s)表示头实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
10.根据权利要求9所述的三元组抽取系统,其特征在于,所述第二全连接层学习子单元中全连接层的尾实体损失函数表示为:
Figure FDA0002779181980000032
其中,Hp(o)表示尾实体损失函数的二分类交叉熵损失;
yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率;
对于正样本yi=1,loss=-log(p(yi)),当p(yi)越大时,损失越小;
对于负样本yi=0,loss=-log(1-p(yi)),当p(yi)越小时,损失越小。
CN202011276362.5A 2020-11-16 2020-11-16 三元组抽取方法及系统 Active CN112560475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011276362.5A CN112560475B (zh) 2020-11-16 2020-11-16 三元组抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011276362.5A CN112560475B (zh) 2020-11-16 2020-11-16 三元组抽取方法及系统

Publications (2)

Publication Number Publication Date
CN112560475A true CN112560475A (zh) 2021-03-26
CN112560475B CN112560475B (zh) 2023-05-12

Family

ID=75042343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011276362.5A Active CN112560475B (zh) 2020-11-16 2020-11-16 三元组抽取方法及系统

Country Status (1)

Country Link
CN (1) CN112560475B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420120A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 关键信息提取模型的训练方法、提取方法、设备及介质
CN113822599A (zh) * 2021-10-27 2021-12-21 国网江苏省电力有限公司营销服务中心 一种基于分类树融合技术的电力行业政策管理方法
CN113886529A (zh) * 2021-10-22 2022-01-04 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN111079431A (zh) * 2019-10-31 2020-04-28 北京航天云路有限公司 一种基于迁移学习的实体关系联合抽取方法
CN111241209A (zh) * 2020-01-03 2020-06-05 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111931503A (zh) * 2020-08-04 2020-11-13 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN111079431A (zh) * 2019-10-31 2020-04-28 北京航天云路有限公司 一种基于迁移学习的实体关系联合抽取方法
CN111241209A (zh) * 2020-01-03 2020-06-05 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111931503A (zh) * 2020-08-04 2020-11-13 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420120A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 关键信息提取模型的训练方法、提取方法、设备及介质
CN113420120B (zh) * 2021-06-24 2024-05-31 平安科技(深圳)有限公司 关键信息提取模型的训练方法、提取方法、设备及介质
CN113886529A (zh) * 2021-10-22 2022-01-04 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN113886529B (zh) * 2021-10-22 2022-12-02 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN113822599A (zh) * 2021-10-27 2021-12-21 国网江苏省电力有限公司营销服务中心 一种基于分类树融合技术的电力行业政策管理方法

Also Published As

Publication number Publication date
CN112560475B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN112560475A (zh) 三元组抽取方法及系统
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN112632997A (zh) 基于BERT和Word2Vec向量融合的中文实体识别方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN111191453A (zh) 一种基于对抗训练的命名实体识别方法
CN109284400A (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN112307777B (zh) 知识图谱表示学习方法及系统
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110826334A (zh) 一种基于强化学习的中文命名实体识别模型及其训练方法
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN109543036A (zh) 基于语义相似度的文本聚类方法
CN115935957A (zh) 一种基于句法分析的句子语法纠错方法及系统
CN111597807A (zh) 分词数据集生成方法、装置、设备及其存储介质
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN112199952B (zh) 一种分词方法、多模式分词模型和系统
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN114970554A (zh) 一种基于自然语言处理的文档校验方法
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN113705194A (zh) 简称抽取方法及电子设备
CN113076751A (zh) 命名实体识别方法及系统、电子设备和存储介质
Chen et al. Fast OOV words incorporation using structured word embeddings for neural network language model
CN114049501B (zh) 融合集束搜索的图像描述生成方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant