CN113495929A - 一种基于自注意力的三元组抽取方法 - Google Patents

一种基于自注意力的三元组抽取方法 Download PDF

Info

Publication number
CN113495929A
CN113495929A CN202110539577.XA CN202110539577A CN113495929A CN 113495929 A CN113495929 A CN 113495929A CN 202110539577 A CN202110539577 A CN 202110539577A CN 113495929 A CN113495929 A CN 113495929A
Authority
CN
China
Prior art keywords
text
entity
relation
attention
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110539577.XA
Other languages
English (en)
Inventor
李永强
周宇
冯远静
陆超伦
陈成
姚辉
赵永智
李文伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110539577.XA priority Critical patent/CN113495929A/zh
Publication of CN113495929A publication Critical patent/CN113495929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于自注意力的三元组抽取方法,包括以下步骤:1)根据登记在数据库中案件的简要描述,预先设定好案件需要抽取的实体类型和描述案件的三元组的模板;2)在案件的简要描述中,通过标注工具根据设定好的模板标注出描述中的三元组;3)利用Transformer模型作为核心来构建管道式的抽取系统;4)利用模型自身的自注意力结构来对实体冗余情况下的三元组进行建模;5)使用共享位置信息的方式和带有偏差的自注意力对三元组预测进行加速;6)对预测结果进行评价和排序。本发明以管道式关系抽取算法对数据中的非结构化数据进行提取,从而获得结构化的三元组数据,对数据的后续分析提供有力的帮助。

Description

一种基于自注意力的三元组抽取方法
技术领域
本发明涉及信息抽取、大数据、深度学习,提供了一种基于自注意力的三元组抽取方法。
背景技术
随着互联网的不断发展,信息的增长进入到了一个爆炸性的时代,每天都会有成千上万的结构化和非结构化的文字数据在不断地生成和更新。但是,庞大的数据量仅只是一个数字,现实则是大量的数据基本处于一种冻结状态,在存储到数据库中之后就再也得不到二次开发的机会。
近几年云计算和人工智能兴起,通过云计算提供的强大的计算能力和人工智能领域发明的大量算法,使得这类数据可以被再一次利用起来,重新发掘其中的价值。
在2016年10月13日的云栖大会上,杭州市公布了一项计划,既在杭州这座城市安装一个人工智能中枢——杭州城市数据大脑,目标是依托云计算和人工智能,让数据帮助城市来做思考和决策。主要的实现手段则是通过整合,分析和计算政务、公共、企业和互联网方面的数据,再配合信息化的策略来让杭州城市大脑拥有对城市各方各面的管理能力。在交通领域,城市大脑已经取得了一定的效果,初步实验数据显示,配合智能调节的红绿灯,道路的通行能力有着5%左右的提升。近几年,自然语言处理领域又出现了知识图谱这种大型的综合性技术工程,可以让城市大脑在警务方面的处理能力得到质的提升,帮助警方从历史的案件中总结规律,提高破案的效率,而三元组抽取作为构建知识图谱的基础,自然具有重要的研究意义。
历史案件的简要描述中存在着大量的人地关系,人人关系,人物关系,但是通过人工标注这三种关系费时费力,而且需要富有经验的专业人士才能标注出有价值的三元组数据。不过,深度学习方法可以预先学习这类文本的特征,然后再自动化地预测大量后续输入文本。然而,受限制于当前深度学习的算力瓶颈,仅有少量的算法技术成功落地,且应用的场景需求十分简单。一旦面对复杂的情境,如多关系三元组抽取,长文本关系抽取,实体重叠关系抽取,现有的管道式三元组抽取算法就无法准确地实现预期的抽取目标,大大降低知识图谱的数据质量。
在这种情况下,通过引入自注意力机制和位置共享技术,可以极大地改善目前管道式抽取模型存在地问题,并且加速三元组抽取地速度,极大地提升了信息抽取这个任务地效率。
发明内容
为了解决复杂场景下地的三元组数据抽取的问题,本发明提出了一种基于自注意力的数据三元组抽取方法,在已有的案件描述中,抽取中对案件推理有帮助的人人关系,人物关系和人地关系,为构建高质量的知识图谱,加速案件推理起到一定的作用。
为了解决上述技术问题,本发明提供如下的技术方案:
一种基于自注意力的三元组抽取方法,所述方法包括以下步骤:
1)获取已登记在数据库中案件的描述文本,预先设定好需要标注的实体和三元组的schema,所述实体包括人名、地名、时间、罪名和作案方式,所述三元组包括犯案时间、犯案地点、犯案方式,犯案罪名和犯案人同被害人的社会关系;
2)根据上述的标注schema,在web端的标注平台上人工标注出描述文本中的三元组关系,并生成确定格式的标注文本作为训练数据和验证数据;
3)将描述文本和标注文本一一对应后,再根据标注的结果分别生成两个子文件;
4)三元组抽取方法的训练使用的是管道式的策略,先利用Transformer网络模型作为编码器,指针网络作为解码器,来对BIEO标注的文本作实体抽取的训练;同时,再用另一个transformer网络模型作为编码器,全连接网络作为解码器对标注出实体的文本进行关系分类的训练;
5)训练完成后,将实体模型和关系模型分别保存;
6)预测的方法是将一段文本先输入实体模型中,预测出其中所有潜在的实体,并将其两两配对,以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型,得到每个实体对的关系。
7)整理两个模型的输出,得到最终的三元组抽取结果。
进一步,所述步骤3)的过程为:子文件之一是以BIEO标注法标注出所有实体的命名实体识别标注文本;另一个子文件是通过marker标记法在实体span 级别上标注出实体关系的关系分类标注文本。
再进一步,所述步骤4)的过程为:
4.1)给定token化的文本X=[x1,x2……xn],其中xt为在文本t位置的token,将X输入Transformer模型后,得到文本的隐藏表示H=[h1,h2……hn],其过程表示为:
H=Transformer(X) (1)
4.2)根据BIEO的标注文本,可以构造出实体识别的gold标签G= [g1,g2……gn],再将4.1)当中得到的隐藏表示H输入至指针网络中,得到文本在每个token上的标注分类概率P=[p1,p2……pn],然后使用交叉熵损失函数对实体识别任务进行训练:
Figure RE-GDA0003233080780000031
其中N为token的数量,i为句子中token的位置,L为标注类别的数量,c为标注的类别;
4.3)关系分类的模型需要构造额外的文本向量,给定token化的文本 X=[x1,x2……xn],其中xt为在文本t位置的token,并在文本X之后加入实体的marker标记,记为M=[ms1,me1,ms2,me2……msk-1,mek-1,msk,mek],每对 marker与实体的起始位置和结束位置共享位置编码,用于标注含有关系的实体对,此外,利用Transformer自带的自注意力层,提取出每个实体对中头实体和尾实体起始位置marker的注意力矩阵As和Ao,并作以下的计算来得到每个实体对用于分类的关系特征向量Ci
A=As·Ao (3)
Figure RE-GDA0003233080780000032
Figure RE-GDA0003233080780000033
C=HTa (6)
其中,h为多头注意力头数,H为经过transformer得到的隐藏表述;
4.4)再通过交叉熵损失函数,将本地标注的关系同预测出的关系计算损失:
Figure RE-GDA0003233080780000034
其中,N为关系的数量,i为一个批量数据中句子的位置,R为关系类别的总数量,c为关系的类别。
本发明的有益效果为:1、以指针网络作为实体抽取解码器,优化了实体抽取的准确性;2、利用了自注意力层的机制构造了关系特征向量,提高了管道式三元组抽取的稳定性和可靠性,为构建高质量的知识图谱提供了保证。3、解决了以往管道式三元组抽取中一句话仅能预测一类关系的局限性,加速了关系预测的速度。
附图说明
图1是基于自注意力的三元组抽取方法的逻辑流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于自注意力的三元组抽取方法,所述方法包括以下步骤:
1)获取已登记在数据库中案件的描述文本,预先设定好需要标注的实体和三元组的schema,所述实体包括人名、地名、时间、罪名和作案方式,所述三元组包括犯案时间、犯案地点、犯案方式,犯案罪名和犯案人同被害人的社会关系,其具体形式可以表述为(头实体:人名,关系:犯案时间,尾实体:时间)、(头实体:人名,关系:犯案地点,尾实体:地点)、(头实体:人名,关系:犯案方式,尾实体:作案方式)、(头实体:人名,关系:犯案罪名,尾实体:罪名)、(头实体:人名,关系:社会关系,尾实体:人名);
2)根据上述的标注schema,在web端的标注平台上人工标注出描述文本中的三元组关系,并生成确定格式的标注文本作为训练数据和验证数据;
3)将描述文本和标注文本一一对应后,再根据标注的结果分别生成两个子文件:一个是仅通过BIEO标注的命名实体标注文本,另一个是通过marker标记法在span级别上标注出实体的关系分类标注文本;
4)三元组抽取方法的训练使用的是管道式的策略,先利用Transformer网络模型作为编码器,指针网络作为解码器,来对BIEO标注的文本作实体抽取的训练;同时,再用另一个transformer网络模型作为编码器,全连接网络作为解码器对标注出实体的文本进行关系分类的训练,过程如下:
4.1)给定token化的文本X=[x1,x2……xn],其中xt为在文本t位置的token,将X输入Transformer模型后,得到文本的隐藏表示H=[h1,h2……hn],其过程可以表示为:
H=Transformer(X) (1)
4.2)根据BIEO的标注文本,构造出实体识别的gold标签G=[g1,g2……gn],再将4.1)当中得到的隐藏表示H输入至指针网络中,得到文本在每个token上的标注分类概率P=[p1,p2……pn]。然后使用交叉熵损失函数对实体识别任务进行训练:
Figure RE-GDA0003233080780000051
4.3)关系分类的模型需要构造额外的文本向量,给定token化的文本 X=[x1,x2……xn],其中xt为在文本t位置的token,并在文本X之后加入实体的marker标记,记为M=[ms1,me1,ms2,me2……msk-1,mek-1,msk,mek],每对 marker与实体的起始位置和结束位置共享位置编码,用于标注含有关系的实体对;此外,利用Transformer自带的自注意力层,我们提取出每个实体对中头实体和尾实体起始位置marker的注意力矩阵As和Ao,并作以下的计算来得到每个实体对用于分类的关系特征向量Ci
A=As·Ao (3)
Figure RE-GDA0003233080780000052
Figure RE-GDA0003233080780000053
C=HTa (6)
其中,h为多头注意力头数,H为经过transformer得到的隐藏表述;
4.4)再通过交叉熵损失函数,将本地标注的关系同预测出的关系计算损失:
Figure RE-GDA0003233080780000054
其中,N为关系的数量,i为一个批量数据中句子的位置,R为关系类别的总数量,c为关系的类别;
5)训练完成后,将实体模型和关系模型分别保存;
6)预测的方法是将一段文本先输入实体模型中,预测出其中所有潜在的实体,并将其两两配对,以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型,得到每个实体对的关系。
7)整理两个模型的输出,得到最终的三元组抽取结果。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (3)

1.一种基于自注意力的三元组抽取方法,其特征在于,所述方法包括以下步骤:
1)获取已登记在数据库中案件的描述文本,预先设定好需要标注的实体和三元组的schema,所述实体包括人名、地名、时间、罪名和作案方式,所述三元组包括犯案时间、犯案地点、犯案方式,犯案罪名和犯案人同被害人的社会关系;
2)根据上述的标注schema,在web端的标注平台上人工标注出描述文本中的三元组关系,并生成确定格式的标注文本作为训练数据和验证数据;
3)将描述文本和标注文本一一对应后,再根据标注的结果分别生成两个子文件;
4)三元组抽取方法的训练使用的是管道式的策略,先利用Transformer网络模型作为编码器,指针网络作为解码器,来对BIEO标注的文本作实体抽取的训练;同时,用另一个transformer网络模型作为编码器,全连接网络作为解码器对标注出实体的文本进行关系分类的训练;
5)训练完成后,将实体模型和关系模型分别保存;
6)预测时将一段文本先输入实体模型中,预测出其中所有潜在的实体,并将其两两配对,以marker的形式标注在文本后。将marker标注后的文本再输入至关系模型,得到每个实体对的关系。
7)整理两个模型的输出,得到最终的三元组抽取结果。
2.根据权利要求1所述的基于自注意力的三元组抽取方法,其特征在于,所述步骤3)的过程为:子文件之一是以BIEO标注法标注出所有实体的命名实体识别标注文本;另一个子文件是通过marker标记法在实体span级别上标注出实体关系的关系分类标注文本。
3.根据权利要求1或2所述的基于自注意力的三元组抽取方法,其特征在于,所述步骤4)的过程为:
4.1)给定token化的文本X=[x1,x2......xn],其中xt为在文本t位置的token,将X输入Transformer模型后,得到文本的隐藏表示H=[h1,h2......hn],其过程表示为:
H=Transformer(X) (1)
4.2)根据BIEO的标注文本,可以构造出实体识别的gold标签G=[g1,g2......gn],再将4.1)当中得到的隐藏表示H输入至指针网络中,得到文本在每个token上的标注分类概率P=[p1,p2......pn],然后使用交叉熵损失函数对实体识别任务进行训练:
Figure RE-FDA0003233080770000021
4.3)关系分类的模型需要构造额外的文本向量,给定token化的文本X=[x1,x2......xn],其中xt为在文本t位置的token,并在文本X之后加入实体的marker标记,记为M=[ms1,me1,ms2,me2......msk-1,mek-1,msk,mek],每对marker与实体的起始位置和结束位置共享位置编码,用于标注含有关系的实体对,此外,利用Transformer自带的自注意力层,我们提取出每个实体对中头实体和尾实体起始位置marker的注意力矩阵As和Ao,并作以下的计算来得到每个实体对用于分类的关系特征向量Ci
A=As·Ao (3)
Figure RE-FDA0003233080770000022
Figure RE-FDA0003233080770000023
C=HTa (6)
其中,h为多头注意力头数,H为经过transformer得到的隐藏表述;
4.4)再通过交叉熵损失函数,将本地标注的关系同预测出的关系计算损失:
Figure RE-FDA0003233080770000024
其中,N为关系的数量,i为一个批量数据中句子的位置,R为关系类别的总数量,c为关系的类别。
CN202110539577.XA 2021-05-18 2021-05-18 一种基于自注意力的三元组抽取方法 Pending CN113495929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110539577.XA CN113495929A (zh) 2021-05-18 2021-05-18 一种基于自注意力的三元组抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110539577.XA CN113495929A (zh) 2021-05-18 2021-05-18 一种基于自注意力的三元组抽取方法

Publications (1)

Publication Number Publication Date
CN113495929A true CN113495929A (zh) 2021-10-12

Family

ID=77997620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110539577.XA Pending CN113495929A (zh) 2021-05-18 2021-05-18 一种基于自注意力的三元组抽取方法

Country Status (1)

Country Link
CN (1) CN113495929A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691895A (zh) * 2022-05-31 2022-07-01 南京航天数智科技有限公司 一种基于指针网络的刑事案情实体关系联合抽取方法
CN114861668A (zh) * 2022-05-26 2022-08-05 浙江工业大学 一种基于管道式方案的政务三元组抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861668A (zh) * 2022-05-26 2022-08-05 浙江工业大学 一种基于管道式方案的政务三元组抽取方法
CN114691895A (zh) * 2022-05-31 2022-07-01 南京航天数智科技有限公司 一种基于指针网络的刑事案情实体关系联合抽取方法

Similar Documents

Publication Publication Date Title
CN110807328B (zh) 面向法律文书多策略融合的命名实体识别方法及系统
WO2022178919A1 (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN109902171A (zh) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN111694924A (zh) 一种事件抽取方法和系统
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN111597350A (zh) 基于深度学习的轨道交通事件知识图谱构建方法
CN113495929A (zh) 一种基于自注意力的三元组抽取方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN115470871B (zh) 基于命名实体识别与关系抽取模型的政策匹配方法及系统
CN112084336A (zh) 一种高速公路突发事件的实体提取和事件分类方法及装置
CN112131351B (zh) 一种基于多答案损失函数的片段信息抽取模型训练方法
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN118332138B (zh) 一种航行通告文本处理方法、计算机程序产品及终端
CN116186422A (zh) 基于社交媒体和人工智能的疾病相关舆情分析系统
CN107590119A (zh) 人物属性信息抽取方法及装置
CN117131856A (zh) 一种基于问题引导的交通事故文本因果关系抽取方法
CN117056510A (zh) 一种多元社会矛盾纠纷信息自动归集方法
CN114691895B (zh) 一种基于指针网络的刑事案情实体关系联合抽取方法
CN111259106A (zh) 一种结合神经网络和特征演算的关系抽取方法
CN112613316B (zh) 一种生成古汉语标注模型的方法和系统
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
CN110968795B (zh) 一种公司形象提升系统的数据关联匹配系统
CN116579344B (zh) 一种案件主体抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination