CN114691895A - 一种基于指针网络的刑事案情实体关系联合抽取方法 - Google Patents

一种基于指针网络的刑事案情实体关系联合抽取方法 Download PDF

Info

Publication number
CN114691895A
CN114691895A CN202210603102.7A CN202210603102A CN114691895A CN 114691895 A CN114691895 A CN 114691895A CN 202210603102 A CN202210603102 A CN 202210603102A CN 114691895 A CN114691895 A CN 114691895A
Authority
CN
China
Prior art keywords
entity
head
representing
case
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210603102.7A
Other languages
English (en)
Other versions
CN114691895B (zh
Inventor
徐慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aerospace Technology Co ltd
Original Assignee
Nanjing Aerospace Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aerospace Technology Co ltd filed Critical Nanjing Aerospace Technology Co ltd
Priority to CN202210603102.7A priority Critical patent/CN114691895B/zh
Publication of CN114691895A publication Critical patent/CN114691895A/zh
Application granted granted Critical
Publication of CN114691895B publication Critical patent/CN114691895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Biophysics (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于指针网络的刑事案情实体关系联合抽取方法,用于解决刑事案件审判过程中对案件涉及到的复杂人物关系地梳理。本发明将刑事案情实体关系抽取看作三元组抽取问题,即先抽取头实体,在通过头实体相关信息抽取尾实体和关系,具体先对法律文书中对案情描述部分的目标文本进行编码,再通过单层指针网络解码方式抽取头实体和头实体类型;接着融入上下文编码信息、头实体特征编码和位置编码信息,最后通过多层指针网络解码方式抽取尾实体和关系类型。本方法能有效地解决案情描述中实体重叠、关系重叠问题,可以用于起诉意见书、起诉书、刑事判决书、询问笔录等不同类型文书中涉及到的案情描述文本,能够帮助办案人员对案件进行梳理。

Description

一种基于指针网络的刑事案情实体关系联合抽取方法
技术领域
本发明属于自然语言处理领域,涉及到一种基于指针网络的刑事案情实体关系联合抽取方法。
背景技术
现代信息技术正在推动司法领域的深刻变革,以人工智能司法应用、司法大数据为核心的“智慧法院建设”被置于同司法体制改革并行的地位。人工智能在案例智能推送、裁判结果预测、裁判文书自动生成等方面的应用,已成为地方法院探索人工智能司法 应用最活跃的领域。国务院发布的《新一代人工智能发展规划》将“智慧法院建设”纳入其中,这标志着人工智能司法应用已上升为国家战略。着眼当前,基层执法办案依然面临“案多人少”、执法能力与社会需求、执法公正与执法效率等一系列矛盾。若把大数据、人工智能与司法体制改革结合起来,将会给司法工作注入前所未有的创造力。
信息抽取作为一种人工智能相关技术,能够将非结构化文本转成人们所需要的结构化文本信息,在智慧司法领域应用广泛。而实体关系抽取作为信息抽取一项关键任务,也是自然语言处理研究的热门之一。目前,实体关系抽取分为pipeline方式和联合抽取方式两种。pipeline方式即先进行实体识别,再进行关系分类,两个过程是分开、没有交互的。联合抽取方式则通过实现实体识别和关系分类这两个过程的参数共享,使这两个过程的信息能够交互,从而提高抽取性能。
在司法领域应用实体关系抽取,其中一个重要方向是梳理案件情节信息,主要从询问笔录、起诉书、起诉意见书、刑事判决书等不同类型文书抽取出相关实体以及实体间的关系信息,帮助检察办案人员快速了解案件脉络。针对司法领域案件数据特征,特别涉及人数众多的复杂案件,其中的案件人物关系错综复杂,存在相同实体存在多种关系、不同实体存在相同关系的情况,即“一对多”的关系重叠问题、“多对一”的实体重叠问题。
因此,需要一种基于指针网络的刑事案情实体关系联合抽取方法,有效依据司法领域案件数据特点解决实体关系抽取问题。
发明内容
本发明主要解决的技术问题在于在刑事案件审判过程中,存在案情复杂、案件涉及人物众多时,人物关系难以梳理等问题,同时针对司法领域“案多人少”问题,本发明提供一种基于指针网络的刑事案情实体关系联合抽取方法。
为达到上述目的,本发明的技术方案如下:将刑事案情实体关系抽取看作三元组抽取问题,即先抽取头实体,在通过头实体相关信息抽取尾实体和关系,具体先对法律文书中对案情描述部分的目标文本进行编码,再通过单层指针网络解码方式抽取头实体;接着融入上下文编码信息和头实体位置编码信息,最后通过多层指针网络解码方式抽取尾实体和关系。
本发明的一种基于指针网络的刑事案情描述实体关系联合抽取方法,包括如下步骤:
1)获取刑事案件裁判文书原始语料,提取案情描述文本并进行标注;
2)采用预训练模型对案情描述文本进行特征编码;
3)利用单层指针网络解码方式抽取头实体;
4)利用多层指针网络解码方式抽取尾实体和关系。
作为本发明的一种改进,所述步骤1)中,首先从原始刑事案件裁判文书中提取案情描述相关文本信息;接着设置实体关系标注规则,依据规则对案情描述文本进行数据标注,具体步骤是先标记出头实体和头实体标签,接着根据每一个头实体分别标记出对应的尾实体和对应关系。最后将标注好的数据划分训练集和测试集,用于后续模型训练。
作为本发明的一种改进,所述步骤2)中,采用BERT预训练模型对待抽取的文本数据进行特征编码,编码结果对头实体抽取、尾实体和关系抽取两个任务共享。其中采用共享编码参数的联合抽取方式能够缓解非联合抽取方式带来的误差传播的问题。
作为本发明的一种改进,所述步骤3)中,用单层指针网络解码方式抽取头实体,抽取结果以(entity1,tag1)实体对的形式输出,其中entity1表示头实体名称,tag1表示头实体类型,具体步骤如下:
3.1预测头实体开始位置,
头实体开始位置和位置标签计算如公式如下:
Figure 15597DEST_PATH_IMAGE001
(1)
其中
Figure 908467DEST_PATH_IMAGE002
表示位置
Figure 151229DEST_PATH_IMAGE003
的字符属于实体开始位置的概率,在此步骤中实体具体表示为头实体;
Figure 16417DEST_PATH_IMAGE004
表示案情描述文本特征编码;
Figure 686433DEST_PATH_IMAGE005
表示字符
Figure 801019DEST_PATH_IMAGE006
的标签信息,此步骤中标签信息具体表示头实体类型;
Figure 50735DEST_PATH_IMAGE007
表示待带学习参数;
Figure 567167DEST_PATH_IMAGE008
为设置的阈值;
3.2预测头实体结束位置,
头实体结束位置和位置标签计算如公式如下:
Figure 673663DEST_PATH_IMAGE009
(2)
其中
Figure 9967DEST_PATH_IMAGE010
表示位置
Figure 797794DEST_PATH_IMAGE003
的字符属于实体结束位置的概率,在此步骤中实体具体表示为头实体;
Figure 434312DEST_PATH_IMAGE011
表示融合了实体开始位置信息
Figure 446130DEST_PATH_IMAGE012
的文本特征编码,具体表示为
Figure 738571DEST_PATH_IMAGE013
,其中
Figure 861248DEST_PATH_IMAGE012
计算公式如(3):
Figure 617851DEST_PATH_IMAGE014
(3)
其中
Figure 3833DEST_PATH_IMAGE003
表示当前位置;
Figure 314729DEST_PATH_IMAGE015
表示头实体开始位置;C为常数;
Figure 506676DEST_PATH_IMAGE016
表示字符
Figure 855136DEST_PATH_IMAGE017
的标签信息,在此步骤中标签信息具体表示为头实体类型;
Figure 412020DEST_PATH_IMAGE018
表示待带学习参数;
Figure 475791DEST_PATH_IMAGE019
为设置的阈值;
3.3获取头实体和头实体类型,
通过公式(1)和(2)获取头实体的开始、结束位置以及对应头实体类型
Figure 205849DEST_PATH_IMAGE020
,遍历所有的
Figure 609149DEST_PATH_IMAGE021
,当
Figure 133671DEST_PATH_IMAGE022
时,对应位置间的文本内容及为头实体,最终结果输出为
Figure 684738DEST_PATH_IMAGE023
,其中
Figure 421750DEST_PATH_IMAGE024
表示头实体,
Figure 476294DEST_PATH_IMAGE025
表示头实体标签。采用单层指针网络解码方式获取头实体,可以有效解决头实体重叠问题,即存在多个头实体且头实体之间存在部分重合。
作为本发明的一种改进,所述步骤4)中,采用多层指针网络解码方式抽取尾实体和关系,输出形式仍是
Figure 437296DEST_PATH_IMAGE026
,其中
Figure 413343DEST_PATH_IMAGE027
表示尾实体,
Figure 485204DEST_PATH_IMAGE028
表示关系类型,
具体步骤如下:
4.1获取头实体位置编码信息,
本发明采用三角函数式位置编码方式,计算公式如下:
Figure 394254DEST_PATH_IMAGE029
(4)
PE是二维矩阵,其中行表示词,列表示词向量;
Figure 791737DEST_PATH_IMAGE030
分别表示在每个词的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此完成位置编码
Figure 989500DEST_PATH_IMAGE031
的计算,其中
Figure 865052DEST_PATH_IMAGE032
表示头实体在文本中的位置;
Figure 894188DEST_PATH_IMAGE033
表示词向量的第
Figure 400256DEST_PATH_IMAGE033
维;
Figure 882053DEST_PATH_IMAGE034
表示词向量维度;
4.2获取尾实体和关系类型,
依据步骤3)中获取的头实体,从步骤2)中得到的案情描述文本特征编码
Figure 561296DEST_PATH_IMAGE035
中抽取头实体的特征编码
Figure 444938DEST_PATH_IMAGE036
,再融入上下文特征编码,即案情描述文本特征编码
Figure 121907DEST_PATH_IMAGE037
、头实体位置编码
Figure 356580DEST_PATH_IMAGE038
,最终得
Figure 777197DEST_PATH_IMAGE039
,具体表示为
Figure 524135DEST_PATH_IMAGE040
,将
Figure 434322DEST_PATH_IMAGE041
代入公式(1)获取实体开始位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型;再根据公式(2)获取实体结束位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型,遍历所有的
Figure 890711DEST_PATH_IMAGE042
,当
Figure 849440DEST_PATH_IMAGE043
时,对应位置间的文本内容及为预测的尾实体,最终输出形式为
Figure 707674DEST_PATH_IMAGE044
,其中
Figure 523183DEST_PATH_IMAGE027
表示尾实体,
Figure 670131DEST_PATH_IMAGE045
表示关系类型;
在针对头实体抽取对应尾实体和关系时,采用了上下文编码、头实体特征编码和头实体位置编码多种方式加强了对当前头实体的感知能力,能够有效地提高尾实体和关系抽取地准确性。采用多层指针网络解码方式获取尾实体和关系类型,即每一层是一个关系对应的尾实体,能够解决使用单层指针网络解码方式无法抽取多种关系的问题,即一对多(单一的头尾实体对对应多种关系)问题;
4.3损失函数计算,
通过指针网络的解码方式获取到头实体、尾实体和关系类型,在模型训练过程中,损失函数定义为头实体和头实体类型抽取、尾实体和关系类型抽取两个任务的加权求和,计算公式如下:
Figure 229288DEST_PATH_IMAGE046
(5)
其中,
Figure 207609DEST_PATH_IMAGE047
表示任务
Figure 194019DEST_PATH_IMAGE048
Figure 562684DEST_PATH_IMAGE049
时刻的权重;
Figure 659953DEST_PATH_IMAGE050
表示任务
Figure 758359DEST_PATH_IMAGE048
的损失。
对不同任务损失函数赋值可动态调节的权重,进行加权求和的方式有效解决刑事案件中存在的关系类别不均衡问题。
相对于现有技术,本发明的优点如下:
1. 传统实体关系抽取是采用pipeline的方式,即先抽取实体,再抽取关系,pipeline的方式忽略了这两个任务的内在关联关系,同时存在没有关系的候选实体对所带来的冗余信息问题,增加计算复杂度且提升错误率。而本发明提出的实体关系联合抽取方法,对两个任务进行统一建模,共享参数,利用两个任务间的潜在关联信息,有效缓解误差传播;2.传统的实体关系抽取先识别实体,再对识别出来的实体进行关系分类,且一般采用BILOU的序列标注框架,此方法每个token只能属于一种类型,不能有效的处理实体重叠、多对一(多个头尾实体对应一种关系)或一对多(单一的头尾实体对对应多种关系)等问题。而本发明提出的基于指针网络的解码方式,将实体抽取转化为两个n元softmax分类预测实体的首尾指针位置,解决了实体重叠问题;同时本发明提出的将实体关系联合抽取看成SPO问题,先抽取头实体S再抽取尾实体O和关系P,能够解决一对多和多对一的问题;3.传统实体关系联合抽取模型中损失函数为两个任务的损失和,如此会导致多任务学习会被某个任务所主导或学偏,本发明提出将模型中的损失定义为动态可调节的,可以有效解决因数据中关系类别不均衡所导致的学习效果差的问题。
附图说明
图1是基于指针网络的刑事案情实体关系联合抽取方法流程图;
图2是实体关系标注规则示意图;
图3是实体关系联合抽取模型结构图。
具体实施方式
为了加深对本发明的认识和理解,下面结合附图详细的介绍本方案。
实施例1:一种基于指针网络的刑事案情实体关系联合抽取方法,方法流程图如图1所示,具体包括如下步骤:
1.获取刑事案件裁判文书原始语料,提取案情描述文本并进行标注,数据预处理是模型训练的第一步,获取刑事案件裁判文书原始语料并提取案情描述文本后,设置实体关系标注规则,并按此规则对数据中实体关系进行标注,标注规则示意图如图2所示。实体关系标注分为两步,第一步先标记出头实体位置和头实体标签,第二步标记尾实体位置和对应关系。
第一步中,生成
Figure 118933DEST_PATH_IMAGE051
大小的空矩阵,其中
Figure 771631DEST_PATH_IMAGE052
为待抽取文本长度,第一维中在实体的开始位置处标记头实体标签信息T,其余位置标记O,即在“刘某民”中“刘”的位置标记T,T表示“被告人”实体类型;第二维中在实体的结束位置处标记头实体标签信息T,其余位置标记O,即在“刘某民”中“民”的位置标记T。同理第二步中,针对关系类型R1,R1表示盗窃对象,在“吴某明”中“吴”的位置标记R1,在“吴某明”中“明”的位置标记R1;针对关系类型R2,R2表示盗窃财物,在“电动车”中“电”的位置标记R2,在“电动车”中“车”的位置标记R2。
2.采用预训练模型对案情描述文本进行特征编码;
首先用序列
Figure 938170DEST_PATH_IMAGE053
表示原始文本句子,其中
Figure 828766DEST_PATH_IMAGE054
Figure 156979DEST_PATH_IMAGE055
表示句子中第1到第
Figure 562553DEST_PATH_IMAGE056
个字的id,
Figure 204886DEST_PATH_IMAGE056
表示案情描述长度;接着用BERT预训练模型对句子进行编码,隐藏层输出向量
Figure 746726DEST_PATH_IMAGE037
表示案情描述文本特征编码,如图3中表示的Embedding;
3.利用单层指针网络解码方式抽取头实体,
3.1 预测头实体开始位置,如公式(1)所示:
Figure 511420DEST_PATH_IMAGE001
(1)
其中
Figure 341973DEST_PATH_IMAGE057
表示位置
Figure 587665DEST_PATH_IMAGE003
的字符属于实体开始位置的概率,在此步骤中实体具体表示为头实体;
Figure 249590DEST_PATH_IMAGE058
表示案情描述文本特征编码;
Figure 654027DEST_PATH_IMAGE059
表示字符
Figure 34193DEST_PATH_IMAGE006
的标签信息,此步骤中标签信息具体表示头实体类型;
Figure 80646DEST_PATH_IMAGE060
表示待带学习参数;
Figure 331499DEST_PATH_IMAGE008
为设置的阈值;
3.2预测头实体结束位置,如公式(2)所示:
Figure 375678DEST_PATH_IMAGE061
(2)
其中
Figure 977561DEST_PATH_IMAGE062
表示位置
Figure 827705DEST_PATH_IMAGE003
的字符属于实体结束位置的概率,在此步骤中实体具体表示为头实体;
Figure 198644DEST_PATH_IMAGE011
表示融合了实体开始位置信息
Figure 413724DEST_PATH_IMAGE012
的文本特征编码,具体表示为
Figure 768482DEST_PATH_IMAGE013
,其中
Figure 891159DEST_PATH_IMAGE012
计算公式如(3):
Figure 319866DEST_PATH_IMAGE063
(3)
其中
Figure 33744DEST_PATH_IMAGE003
表示当前位置;
Figure 344640DEST_PATH_IMAGE015
表示头实体开始位置;C为常数;
Figure 474270DEST_PATH_IMAGE064
表示字符
Figure 85380DEST_PATH_IMAGE017
的标签信息,在此步骤中标签信息具体表示为头实体类型;
Figure 439001DEST_PATH_IMAGE018
表示待带学习参数;
Figure 440455DEST_PATH_IMAGE019
为设置的阈值;
3.3获取头实体和头实体类型,
通过公式(1)和(2)获取头实体的开始、结束位置以及对应头实体类型
Figure 170514DEST_PATH_IMAGE065
,遍历所有的
Figure 633200DEST_PATH_IMAGE066
,当
Figure 360985DEST_PATH_IMAGE067
时,对应位置间的文本内容及为头实体,最终抽取结果以
Figure 646473DEST_PATH_IMAGE068
实体对的形式输出,其中
Figure 180222DEST_PATH_IMAGE024
表示头实体,
Figure 234766DEST_PATH_IMAGE025
表示头实体标签,如图3所示,具体输出(刘某民,被告人),其中“刘某民”是头实体,“被告人”是头实体类型;
4.利用多层指针网络解码方式抽取尾实体和关系,
4.1获取头实体位置编码信息,
本发明采用三角函数式位置编码方式,计算公式如下:
Figure 399031DEST_PATH_IMAGE029
(4)
PE是二维矩阵,其中行表示词,列表示词向量;
Figure 171815DEST_PATH_IMAGE030
分别表示在每个词的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此完成位置编码
Figure 978097DEST_PATH_IMAGE031
的计算,其中
Figure 152726DEST_PATH_IMAGE032
表示头实体在文本中的位置;
Figure 19051DEST_PATH_IMAGE033
表示词向量的第
Figure 279131DEST_PATH_IMAGE033
维;
Figure 154683DEST_PATH_IMAGE034
表示词向量维度;
4.2获取尾实体和关系类型,
依据步骤3)中获取的头实体,从步骤2)中得到的案情描述文本特征编码
Figure 387082DEST_PATH_IMAGE035
中抽取头实体的特征编码
Figure 689887DEST_PATH_IMAGE036
,再融入上下文特征编码,即案情描述文本特征编码
Figure 437263DEST_PATH_IMAGE037
、头实体位置编码
Figure 850927DEST_PATH_IMAGE038
,最终得
Figure 937832DEST_PATH_IMAGE039
,具体表示为
Figure 411538DEST_PATH_IMAGE040
,将
Figure 646210DEST_PATH_IMAGE041
代入公式(1)获取实体开始位置概率和对应标签信息
Figure 801248DEST_PATH_IMAGE069
,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型;再根据公式(2)获取实体结束位置概率和对应标签信息
Figure 804976DEST_PATH_IMAGE070
,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型,遍历所有的
Figure 718093DEST_PATH_IMAGE042
,当
Figure 377745DEST_PATH_IMAGE043
时,对应位置间的文本内容及为预测的尾实体,最终输出形式为
Figure 133211DEST_PATH_IMAGE044
,其中
Figure 991446DEST_PATH_IMAGE027
表示尾实体,
Figure 806955DEST_PATH_IMAGE045
表示关系类型,如图3所示,具体输出(吴某明,盗窃对象),其中“吴某明”是尾实体,“盗窃对象”是关系类型。
在模型测试阶段,整合步骤3.3和步骤4.2的输出结果,即可以获取刑事案情实体关系联合抽取结果(刘某民,盗窃对象,吴某明);
4.3损失函数计算,
通过指针网络的解码方式获取到头实体、尾实体和关系类型,在模型训练过程中,损失函数定义为头实体和头实体类型抽取、尾实体和关系类型抽取两个任务的加权求和,计算公式如下:
Figure 953903DEST_PATH_IMAGE046
(5)
其中,
Figure 778639DEST_PATH_IMAGE047
表示任务
Figure 491380DEST_PATH_IMAGE048
Figure 415474DEST_PATH_IMAGE049
时刻的权重;
Figure 846455DEST_PATH_IMAGE050
表示任务
Figure 209303DEST_PATH_IMAGE048
的损失。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (5)

1.一种基于指针网络的刑事案情实体关系联合抽取方法,该方法包括如下步骤:
1)获取刑事案件裁判文书原始语料,提取案情描述文本并进行标注;
2)采用预训练模型对案情描述文本进行特征编码;
3)利用单层指针网络解码方式抽取头实体;
4)利用多层指针网络解码方式抽取尾实体和关系。
2.根据权利要求1所述的基于指针网络的刑事案情实体关系联合抽取方法,其特征在于,所述步骤1)中,从原始刑事案件裁判文书中提取案情描述相关文本信息,设置实体关系标注规则,依据规则对案情描述文本进行数据标注,首先先标记出头实体和头实体类型,接着根据每一个头实体分别标记出对应的尾实体和对应关系类型。
3.根据权利要求1所述的基于指针网络的刑事案情实体关系联合抽取方法,其特征在于,所述步骤2)中,采用预训练模型BERT对案情描述文本进行编码,案情描述文本特征编码用
Figure DEST_PATH_IMAGE001
表示,具体如下:
首先用序列
Figure DEST_PATH_IMAGE003
表示原始文本句子,其中
Figure 468269DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
表示句子中第1到第
Figure 19337DEST_PATH_IMAGE006
个字的id,
Figure 21928DEST_PATH_IMAGE006
表示案情描述长度;接着用BERT预训练模型对句子进行编码,隐藏层输出向量
Figure 76471DEST_PATH_IMAGE001
表示案情描述文本特征编码。
4.根据权利要求1所述的基于指针网络的刑事案情实体关系联合抽取方法,其特征在于,所述步骤3)中,利用单层指针网络解码方式抽取头实体,即预测头实体的开始和结束位置以及头实体的标签,具体步骤如下:
3.1 预测头实体开始位置,如公式(1)所示:
Figure DEST_PATH_IMAGE007
(1)
其中
Figure 303053DEST_PATH_IMAGE008
表示位置
Figure DEST_PATH_IMAGE009
的字符属于实体开始位置的概率,在此步骤中实体具体表示为头实体;
Figure 75837DEST_PATH_IMAGE010
表示案情描述文本特征编码;
Figure DEST_PATH_IMAGE011
表示字符
Figure 147698DEST_PATH_IMAGE012
的标签信息,此步骤中标签信息具体表示头实体类型;
Figure DEST_PATH_IMAGE013
表示待带学习参数;
Figure 587907DEST_PATH_IMAGE014
为设置的阈值;
3.2预测头实体结束位置,如公式(2)所示:
Figure DEST_PATH_IMAGE015
(2)
其中
Figure 719811DEST_PATH_IMAGE016
表示位置
Figure 714312DEST_PATH_IMAGE009
的字符属于实体结束位置的概率,在此步骤中实体具体表示为头实体;
Figure DEST_PATH_IMAGE017
表示融合了实体开始位置信息
Figure 589864DEST_PATH_IMAGE018
的文本特征编码,具体表示为
Figure DEST_PATH_IMAGE019
,其中
Figure 884579DEST_PATH_IMAGE018
计算公式如(3):
Figure 921805DEST_PATH_IMAGE020
(3)
其中
Figure 406532DEST_PATH_IMAGE009
表示当前位置;
Figure DEST_PATH_IMAGE021
表示头实体开始位置;C为常数;
Figure 85775DEST_PATH_IMAGE022
表示字符
Figure DEST_PATH_IMAGE023
的标签信息,在此步骤中标签信息具体表示为头实体类型;
Figure 969417DEST_PATH_IMAGE024
表示待带学习参数;
Figure DEST_PATH_IMAGE025
为设置的阈值;
3.3获取头实体和头实体类型,
通过公式(1)和(2)获取头实体的开始、结束位置以及对应头实体类型
Figure 708703DEST_PATH_IMAGE026
,遍历所有的
Figure DEST_PATH_IMAGE027
,当
Figure 943375DEST_PATH_IMAGE028
时,对应位置间的文本内容及为头实体,最终结果输出为
Figure DEST_PATH_IMAGE029
,其中
Figure 160730DEST_PATH_IMAGE030
表示头实体,
Figure DEST_PATH_IMAGE031
表示头实体标签。
5.根据权利要求1所述的基于指针网络的刑事案情实体关系联合抽取方法,其特征在于,所述步骤4)中,利用多层指针网络解码方式预测尾实体和关系,其中每一层包含尾实体的开始和结束位置以及对应的关系类型,具体步骤如下:
4.1获取头实体位置编码信息,
依据步骤3)中获取的头实体,计算头实体的相对位置编码
Figure 430037DEST_PATH_IMAGE032
,公式如(4)所示:
Figure DEST_PATH_IMAGE033
(4)
PE是二维矩阵,其中行表示词,列表示词向量;
Figure 74645DEST_PATH_IMAGE034
分别表示在每个词的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此完成位置编码
Figure DEST_PATH_IMAGE035
的计算,其中
Figure 796614DEST_PATH_IMAGE036
表示头实体在文本中的位置;
Figure DEST_PATH_IMAGE037
表示词向量的第
Figure 817659DEST_PATH_IMAGE037
维;
Figure 144736DEST_PATH_IMAGE038
表示词向量维度;
4.2获取尾实体和关系类型,
依据步骤3)中获取的头实体,从步骤2)中得到的案情描述文本特征编码
Figure 960245DEST_PATH_IMAGE001
中抽取头实体的特征编码
Figure DEST_PATH_IMAGE039
,再融入上下文特征编码,即案情描述文本特征编码
Figure 903930DEST_PATH_IMAGE001
、头实体位置编码
Figure 471876DEST_PATH_IMAGE040
,最终得
Figure DEST_PATH_IMAGE041
,具体表示为
Figure 450197DEST_PATH_IMAGE042
,将
Figure DEST_PATH_IMAGE043
代入公式(1)获取实体开始位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型;再根据公式(2)获取实体结束位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型,遍历所有的
Figure 171028DEST_PATH_IMAGE044
,当
Figure DEST_PATH_IMAGE045
时,对应位置间的文本内容及为预测的尾实体,最终输出形式为
Figure 867589DEST_PATH_IMAGE046
,其中
Figure DEST_PATH_IMAGE047
表示尾实体,
Figure 230437DEST_PATH_IMAGE048
表示关系类型;
4.3损失函数计算 ,
在模型训练过程中,损失函数为头实体和头实体类型抽取、尾实体和关系类型抽取两个任务加权和,具体计算方法为先对上述两个任务赋值可以动态调节的权重,再进行求和,计算公式如下:
Figure 797684DEST_PATH_IMAGE050
(5)
其中,
Figure DEST_PATH_IMAGE051
表示任务
Figure 954996DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
时刻的权重;
Figure 138853DEST_PATH_IMAGE054
表示任务
Figure 774234DEST_PATH_IMAGE052
的损失。
CN202210603102.7A 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法 Active CN114691895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210603102.7A CN114691895B (zh) 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210603102.7A CN114691895B (zh) 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN114691895A true CN114691895A (zh) 2022-07-01
CN114691895B CN114691895B (zh) 2022-08-26

Family

ID=82131135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210603102.7A Active CN114691895B (zh) 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN114691895B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495929A (zh) * 2021-05-18 2021-10-12 浙江工业大学 一种基于自注意力的三元组抽取方法
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114417839A (zh) * 2022-01-19 2022-04-29 北京工业大学 基于全局指针网络的实体关系联合抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN113495929A (zh) * 2021-05-18 2021-10-12 浙江工业大学 一种基于自注意力的三元组抽取方法
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114417839A (zh) * 2022-01-19 2022-04-29 北京工业大学 基于全局指针网络的实体关系联合抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟灵玥: ""基于深度学习的实体关系抽取研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法
CN117408247B (zh) * 2023-12-15 2024-03-29 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法

Also Published As

Publication number Publication date
CN114691895B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
WO2022178919A1 (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN114490953B (zh) 训练事件抽取模型的方法、事件抽取的方法、装置及介质
CN113869053A (zh) 一种面向司法文本命名实体识别的方法及系统
CN114417839A (zh) 基于全局指针网络的实体关系联合抽取方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN112328859B (zh) 一种基于知识感知注意力网络的虚假新闻检测方法
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN114691895B (zh) 一种基于指针网络的刑事案情实体关系联合抽取方法
Hakimov et al. Evaluating architectural choices for deep learning approaches for question answering over knowledge bases
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
Wu et al. One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN114298052B (zh) 一种基于概率图的实体联合标注关系抽取方法和系统
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN115169285A (zh) 一种基于图解析的事件抽取方法及系统
CN115905458A (zh) 一种基于机器阅读理解模型的事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant