CN114691895B - 一种基于指针网络的刑事案情实体关系联合抽取方法 - Google Patents

一种基于指针网络的刑事案情实体关系联合抽取方法 Download PDF

Info

Publication number
CN114691895B
CN114691895B CN202210603102.7A CN202210603102A CN114691895B CN 114691895 B CN114691895 B CN 114691895B CN 202210603102 A CN202210603102 A CN 202210603102A CN 114691895 B CN114691895 B CN 114691895B
Authority
CN
China
Prior art keywords
entity
head
representing
type
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210603102.7A
Other languages
English (en)
Other versions
CN114691895A (zh
Inventor
徐慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aerospace Technology Co ltd
Original Assignee
Nanjing Aerospace Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aerospace Technology Co ltd filed Critical Nanjing Aerospace Technology Co ltd
Priority to CN202210603102.7A priority Critical patent/CN114691895B/zh
Publication of CN114691895A publication Critical patent/CN114691895A/zh
Application granted granted Critical
Publication of CN114691895B publication Critical patent/CN114691895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于指针网络的刑事案情实体关系联合抽取方法,用于解决刑事案件审判过程中对案件涉及到的复杂人物关系地梳理。本发明将刑事案情实体关系抽取看作三元组抽取问题,即先抽取头实体,在通过头实体相关信息抽取尾实体和关系,具体先对法律文书中对案情描述部分的目标文本进行编码,再通过单层指针网络解码方式抽取头实体和头实体类型;接着融入上下文编码信息、头实体特征编码和位置编码信息,最后通过多层指针网络解码方式抽取尾实体和关系类型。本方法能有效地解决案情描述中实体重叠、关系重叠问题,可以用于起诉意见书、起诉书、刑事判决书、询问笔录等不同类型文书中涉及到的案情描述文本,能够帮助办案人员对案件进行梳理。

Description

一种基于指针网络的刑事案情实体关系联合抽取方法
技术领域
本发明属于自然语言处理领域,涉及到一种基于指针网络的刑事案情实体关系联合抽取方法。
背景技术
现代信息技术正在推动司法领域的深刻变革,以人工智能司法应用、司法大数据为核心的“智慧法院建设”被置于同司法体制改革并行的地位。人工智能在案例智能推送、裁判结果预测、裁判文书自动生成等方面的应用,已成为地方法院探索人工智能司法 应用最活跃的领域。国务院发布的《新一代人工智能发展规划》将“智慧法院建设”纳入其中,这标志着人工智能司法应用已上升为国家战略。着眼当前,基层执法办案依然面临“案多人少”、执法能力与社会需求、执法公正与执法效率等一系列矛盾。若把大数据、人工智能与司法体制改革结合起来,将会给司法工作注入前所未有的创造力。
信息抽取作为一种人工智能相关技术,能够将非结构化文本转成人们所需要的结构化文本信息,在智慧司法领域应用广泛。而实体关系抽取作为信息抽取一项关键任务,也是自然语言处理研究的热门之一。目前,实体关系抽取分为pipeline方式和联合抽取方式两种。pipeline方式即先进行实体识别,再进行关系分类,两个过程是分开、没有交互的。联合抽取方式则通过实现实体识别和关系分类这两个过程的参数共享,使这两个过程的信息能够交互,从而提高抽取性能。
在司法领域应用实体关系抽取,其中一个重要方向是梳理案件情节信息,主要从询问笔录、起诉书、起诉意见书、刑事判决书等不同类型文书抽取出相关实体以及实体间的关系信息,帮助检察办案人员快速了解案件脉络。针对司法领域案件数据特征,特别涉及人数众多的复杂案件,其中的案件人物关系错综复杂,存在相同实体存在多种关系、不同实体存在相同关系的情况,即“一对多”的关系重叠问题、“多对一”的实体重叠问题。
因此,需要一种基于指针网络的刑事案情实体关系联合抽取方法,有效依据司法领域案件数据特点解决实体关系抽取问题。
发明内容
本发明主要解决的技术问题在于在刑事案件审判过程中,存在案情复杂、案件涉及人物众多时,人物关系难以梳理等问题,同时针对司法领域“案多人少”问题,本发明提供一种基于指针网络的刑事案情实体关系联合抽取方法。
为达到上述目的,本发明的技术方案如下:将刑事案情实体关系抽取看作三元组抽取问题,即先抽取头实体,在通过头实体相关信息抽取尾实体和关系,具体先对法律文书中对案情描述部分的目标文本进行编码,再通过单层指针网络解码方式抽取头实体;接着融入上下文编码信息和头实体位置编码信息,最后通过多层指针网络解码方式抽取尾实体和关系。
本发明的一种基于指针网络的刑事案情描述实体关系联合抽取方法,包括如下步骤:
1)获取刑事案件裁判文书原始语料,提取案情描述文本并进行标注;
2)采用预训练模型对案情描述文本进行特征编码;
3)利用单层指针网络解码方式抽取头实体;
4)利用多层指针网络解码方式抽取尾实体和关系。
作为本发明的一种改进,所述步骤1)中,首先从原始刑事案件裁判文书中提取案情描述相关文本信息;接着设置实体关系标注规则,依据规则对案情描述文本进行数据标注,具体步骤是先标记出头实体和头实体标签,接着根据每一个头实体分别标记出对应的尾实体和对应关系。最后将标注好的数据划分训练集和测试集,用于后续模型训练。
作为本发明的一种改进,所述步骤2)中,采用BERT预训练模型对待抽取的文本数据进行特征编码,编码结果对头实体抽取、尾实体和关系抽取两个任务共享。其中采用共享编码参数的联合抽取方式能够缓解非联合抽取方式带来的误差传播的问题。
作为本发明的一种改进,所述步骤3)中,用单层指针网络解码方式抽取头实体,抽取结果以(entity1,tag1)实体对的形式输出,其中entity1表示头实体名称,tag1表示头实体类型。具体步骤如下:
3.1预测头实体开始位置
头实体开始位置和位置标签计算如公式如下:
Figure DEST_PATH_IMAGE001
(1)
其中
Figure DEST_PATH_IMAGE002
表示位置
Figure DEST_PATH_IMAGE003
的字符属于实体开始位置的概率,在此步骤中实体具体表示为头实体;
Figure DEST_PATH_IMAGE004
表示案情描述文本特征编码;
Figure DEST_PATH_IMAGE005
表示字符
Figure DEST_PATH_IMAGE006
的标签信息,此步骤中标签信息具体表示头实体类型;
Figure DEST_PATH_IMAGE007
表示待学习参数;
Figure DEST_PATH_IMAGE008
为设置的阈值。
3.2预测头实体结束位置
头实体结束位置和位置标签计算如公式如下:
Figure DEST_PATH_IMAGE009
(2)
其中
Figure DEST_PATH_IMAGE010
表示位置
Figure 117095DEST_PATH_IMAGE003
的字符属于实体结束位置的概率,在此步骤中实体具体表示为头实体;
Figure DEST_PATH_IMAGE011
表示融合了实体开始位置信息
Figure DEST_PATH_IMAGE012
的文本特征编码,具体表示为
Figure DEST_PATH_IMAGE013
,其中
Figure 722519DEST_PATH_IMAGE012
计算公式如(3):
Figure DEST_PATH_IMAGE014
(3)
其中
Figure 594660DEST_PATH_IMAGE003
表示当前位置;
Figure DEST_PATH_IMAGE015
表示头实体开始位置;C为常数;
Figure DEST_PATH_IMAGE016
表示字符
Figure DEST_PATH_IMAGE017
的标签信息,在此步骤中标签信息具体表示为头实体类型;
Figure DEST_PATH_IMAGE018
表示待学习参数;
Figure DEST_PATH_IMAGE019
为设置的阈值。
3.3获取头实体和头实体类型
通过公式(1)和(2)获取头实体的开始、结束位置以及对应头实体类型
Figure DEST_PATH_IMAGE020
,遍历所有的
Figure DEST_PATH_IMAGE021
,当
Figure DEST_PATH_IMAGE022
时,对应位置间的文本内容及为头实体,最终结果输出为
Figure DEST_PATH_IMAGE023
,其中
Figure DEST_PATH_IMAGE024
表示头实体,
Figure DEST_PATH_IMAGE025
表示头实体标签。采用单层指针网络解码方式获取头实体,可以有效解决头实体重叠问题,即存在多个头实体且头实体之间存在部分重合。
作为本发明的一种改进,所述步骤4)中,采用多层指针网络解码方式抽取尾实体和关系,输出形式仍是
Figure DEST_PATH_IMAGE026
,其中
Figure DEST_PATH_IMAGE027
表示尾实体,
Figure DEST_PATH_IMAGE028
表示关系类型,
具体步骤如下:
4.1获取头实体位置编码信息
本发明采用三角函数式位置编码方式,计算公式如下:
Figure DEST_PATH_IMAGE029
(4)
PE是二维矩阵,其中行表示词,列表示词向量;
Figure DEST_PATH_IMAGE030
分别表示在每个词的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此完成位置编码
Figure DEST_PATH_IMAGE031
的计算,其中
Figure DEST_PATH_IMAGE032
表示头实体在文本中的位置;
Figure DEST_PATH_IMAGE033
表示词向量的第
Figure 883297DEST_PATH_IMAGE033
维;
Figure DEST_PATH_IMAGE034
表示词向量维度。
4.2获取尾实体和关系类型
依据步骤3)中获取的头实体,从步骤2)中得到的案情描述文本特征编码
Figure DEST_PATH_IMAGE035
中抽取头实体的特征编码
Figure DEST_PATH_IMAGE036
,再融入上下文特征编码,即案情描述文本特征编码
Figure DEST_PATH_IMAGE037
、头实体位置编码
Figure DEST_PATH_IMAGE038
,最终得
Figure DEST_PATH_IMAGE039
,具体表示为
Figure DEST_PATH_IMAGE040
,将
Figure DEST_PATH_IMAGE041
代入公式(1)获取实体开始位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型;再根据公式(2)获取实体结束位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型,遍历所有的
Figure DEST_PATH_IMAGE042
,当
Figure DEST_PATH_IMAGE043
时,对应位置间的文本内容及为预测的尾实体,最终输出形式为
Figure DEST_PATH_IMAGE044
,其中
Figure 621315DEST_PATH_IMAGE027
表示尾实体,
Figure DEST_PATH_IMAGE045
表示关系类型。
在针对头实体抽取对应尾实体和关系时,采用了上下文编码、头实体特征编码和头实体位置编码多种方式加强了对当前头实体的感知能力,能够有效地提高尾实体和关系抽取地准确性。采用多层指针网络解码方式获取尾实体和关系类型,即每一层是一个关系对应的尾实体,能够解决使用单层指针网络解码方式无法抽取多种关系的问题,即一对多(单一的头尾实体对对应多种关系)问题。
4.3损失函数计算
通过指针网络的解码方式获取到头实体、尾实体和关系类型,在模型训练过程中,损失函数定义为头实体和头实体类型抽取、尾实体和关系类型抽取两个任务的加权求和,计算公式如下:
Figure DEST_PATH_IMAGE046
(5)
其中,
Figure DEST_PATH_IMAGE047
表示任务
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
时刻的权重;
Figure DEST_PATH_IMAGE050
表示任务
Figure 201070DEST_PATH_IMAGE048
的损失。
对不同任务损失函数赋值可动态调节的权重,进行加权求和的方式有效解决刑事案件中存在的关系类别不均衡问题。
相对于现有技术,本发明的优点如下:
1. 传统实体关系抽取是采用pipeline的方式,即先抽取实体,再抽取关系,pipeline的方式忽略了这两个任务的内在关联关系,同时存在没有关系的候选实体对所带来的冗余信息问题,增加计算复杂度且提升错误率。而本发明提出的实体关系联合抽取方法,对两个任务进行统一建模,共享参数,利用两个任务间的潜在关联信息,有效缓解误差传播;
2.传统的实体关系抽取先识别实体,再对识别出来的实体进行关系分类,且一般采用BILOU的序列标注框架,此方法每个token只能属于一种类型,不能有效的处理实体重叠、多对一(多个头尾实体对应一种关系)或一对多(单一的头尾实体对对应多种关系)等问题。而本发明提出的基于指针网络的解码方式,将实体抽取转化为两个n元softmax分类预测实体的首尾指针位置,解决了实体重叠问题;同时本发明提出的将实体关系联合抽取看成SPO问题,先抽取头实体S再抽取尾实体O和关系P,能够解决一对多和多对一的问题;
3.传统实体关系联合抽取模型中损失函数为两个任务的损失和,如此会导致多任务学习会被某个任务所主导或学偏,本发明提出将模型中的损失定义为动态可调节的,可以有效解决因数据中关系类别不均衡所导致的学习效果差的问题。
附图说明
图1是基于指针网络的刑事案情实体关系联合抽取方法流程图;
图2是实体关系标注规则示意图;
图3是实体关系联合抽取模型结构图。
具体实施方式
为了加深对本发明的认识和理解,下面结合附图详细的介绍本方案。
实施例1:一种基于指针网络的刑事案情实体关系联合抽取方法,方法流程图如图1所示,具体包括如下步骤:
1.获取刑事案件裁判文书原始语料,提取案情描述文本并进行标注
数据预处理是模型训练的第一步,获取刑事案件裁判文书原始语料并提取案情描述文本后,设置实体关系标注规则,并按此规则对数据中实体关系进行标注,标注规则示意图如图2所示。实体关系标注分为两步,第一步先标记出头实体位置和头实体标签,第二步标记尾实体位置和对应关系。
第一步中,生成
Figure DEST_PATH_IMAGE051
大小的空矩阵,其中
Figure DEST_PATH_IMAGE052
为待抽取文本长度,第一维中在实体的开始位置处标记头实体标签信息T,其余位置标记O,即在“刘某民”中“刘”的位置标记T,T表示“被告人”实体类型;第二维中在实体的结束位置处标记头实体标签信息T,其余位置标记O,即在“刘某民”中“民”的位置标记T。同理第二步中,针对关系类型R1,R1表示盗窃对象,在“吴某明”中“吴”的位置标记R1,在“吴某明”中“明”的位置标记R1;针对关系类型R2,R2表示盗窃财物,在“电动车”中“电”的位置标记R2,在“电动车”中“车”的位置标记R2。
2.采用预训练模型对案情描述文本进行特征编码;
首先用序列
Figure DEST_PATH_IMAGE053
表示原始文本句子,其中
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
表示句子中第1到第
Figure DEST_PATH_IMAGE056
个字的id,
Figure 567198DEST_PATH_IMAGE056
表示案情描述长度;接着用BERT预训练模型对句子进行编码,隐藏层输出向量
Figure 465884DEST_PATH_IMAGE037
表示案情描述文本特征编码,如图3中表示的Embedding。
3.利用单层指针网络解码方式抽取头实体
3.1 预测头实体开始位置,如公式(1)所示:
Figure 176351DEST_PATH_IMAGE001
(1)
其中
Figure DEST_PATH_IMAGE057
表示位置
Figure 920316DEST_PATH_IMAGE003
的字符属于实体开始位置的概率,在此步骤中实体具体表示为头实体;
Figure DEST_PATH_IMAGE058
表示案情描述文本特征编码;
Figure DEST_PATH_IMAGE059
表示字符
Figure 235891DEST_PATH_IMAGE006
的标签信息,此步骤中标签信息具体表示头实体类型;
Figure DEST_PATH_IMAGE060
表示待学习参数;
Figure 774319DEST_PATH_IMAGE008
为设置的阈值;
3.2预测头实体结束位置,如公式(2)所示:
Figure DEST_PATH_IMAGE061
(2)
其中
Figure DEST_PATH_IMAGE062
表示位置
Figure 673880DEST_PATH_IMAGE003
的字符属于实体结束位置的概率,在此步骤中实体具体表示为头实体;
Figure 221536DEST_PATH_IMAGE011
表示融合了实体开始位置信息
Figure 453934DEST_PATH_IMAGE012
的文本特征编码,具体表示为
Figure 694423DEST_PATH_IMAGE013
,其中
Figure 379482DEST_PATH_IMAGE012
计算公式如(3):
Figure DEST_PATH_IMAGE063
(3)
其中
Figure 465250DEST_PATH_IMAGE003
表示当前位置;
Figure 286575DEST_PATH_IMAGE015
表示头实体开始位置;C为常数;
Figure DEST_PATH_IMAGE064
表示字符
Figure 930921DEST_PATH_IMAGE017
的标签信息,在此步骤中标签信息具体表示为头实体类型;
Figure 103276DEST_PATH_IMAGE018
表示待学习参数;
Figure 992735DEST_PATH_IMAGE019
为设置的阈值;
3.3获取头实体和头实体类型
通过公式(1)和(2)获取头实体的开始、结束位置以及对应头实体类型
Figure DEST_PATH_IMAGE065
,遍历所有的
Figure DEST_PATH_IMAGE066
,当
Figure DEST_PATH_IMAGE067
时,对应位置间的文本内容及为头实体,最终抽取结果以
Figure DEST_PATH_IMAGE068
实体对的形式输出,其中
Figure 340671DEST_PATH_IMAGE024
表示头实体,
Figure 922962DEST_PATH_IMAGE025
表示头实体标签,如图3所示,具体输出(刘某民,被告人),其中“刘某民”是头实体,“被告人”是头实体类型。
4.利用多层指针网络解码方式抽取尾实体和关系
4.1获取头实体位置编码信息
本发明采用三角函数式位置编码方式,计算公式如下:
Figure 582613DEST_PATH_IMAGE029
(4)
PE是二维矩阵,其中行表示词,列表示词向量;
Figure 786016DEST_PATH_IMAGE030
分别表示在每个词的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此完成位置编码
Figure 847513DEST_PATH_IMAGE031
的计算,其中
Figure 600706DEST_PATH_IMAGE032
表示头实体在文本中的位置;
Figure 747653DEST_PATH_IMAGE033
表示词向量的第
Figure 978914DEST_PATH_IMAGE033
维;
Figure 894918DEST_PATH_IMAGE034
表示词向量维度。
4.2获取尾实体和关系类型
依据步骤3)中获取的头实体,从步骤2)中得到的案情描述文本特征编码
Figure 819012DEST_PATH_IMAGE035
中抽取头实体的特征编码
Figure 453255DEST_PATH_IMAGE036
,再融入上下文特征编码,即案情描述文本特征编码
Figure 488207DEST_PATH_IMAGE037
、头实体位置编码
Figure 258717DEST_PATH_IMAGE038
,最终得
Figure 619291DEST_PATH_IMAGE039
,具体表示为
Figure 973787DEST_PATH_IMAGE040
,将
Figure 812430DEST_PATH_IMAGE041
代入公式(1)获取实体开始位置概率和对应标签信息
Figure DEST_PATH_IMAGE069
,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型;再根据公式(2)获取实体结束位置概率和对应标签信息
Figure DEST_PATH_IMAGE070
,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型,遍历所有的
Figure 640709DEST_PATH_IMAGE042
,当
Figure 172184DEST_PATH_IMAGE043
时,对应位置间的文本内容及为预测的尾实体,最终输出形式为
Figure 515441DEST_PATH_IMAGE044
,其中
Figure 157775DEST_PATH_IMAGE027
表示尾实体,
Figure 902877DEST_PATH_IMAGE045
表示关系类型,如图3所示,具体输出(吴某明,盗窃对象),其中“吴某明”是尾实体,“盗窃对象”是关系类型。
在模型测试阶段,整合步骤3.3和步骤4.2的输出结果,即可以获取刑事案情实体关系联合抽取结果(刘某民,盗窃对象,吴某明)。
4.3损失函数计算
通过指针网络的解码方式获取到头实体、尾实体和关系类型,在模型训练过程中,损失函数定义为头实体和头实体类型抽取、尾实体和关系类型抽取两个任务的加权求和,计算公式如下:
Figure 339675DEST_PATH_IMAGE046
(5)
其中,
Figure 170227DEST_PATH_IMAGE047
表示任务
Figure 583629DEST_PATH_IMAGE048
Figure 448817DEST_PATH_IMAGE049
时刻的权重;
Figure 56516DEST_PATH_IMAGE050
表示任务
Figure 374364DEST_PATH_IMAGE048
的损失。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (3)

1.一种基于指针网络的刑事案情实体关系联合抽取方法,该方法包括如下步骤:
1)获取刑事案件裁判文书原始语料,提取案情描述文本并进行标注;
2)采用预训练模型对案情描述文本进行特征编码;
3)利用单层指针网络解码方式抽取头实体;
4)利用多层指针网络解码方式抽取尾实体和关系;
所述步骤3)中,利用单层指针网络解码方式抽取头实体,即预测头实体的开始和结束位置以及头实体的标签,具体步骤如下:
3.1 预测头实体开始位置,如公式(1)所示:
Figure 963005DEST_PATH_IMAGE001
(1)
其中
Figure 655018DEST_PATH_IMAGE002
表示位置
Figure 860871DEST_PATH_IMAGE003
的字符属于实体开始位置的概率,在此步骤中实体具体表示为头实体;
Figure 617212DEST_PATH_IMAGE004
表示案情描述文本特征编码;
Figure 515898DEST_PATH_IMAGE005
表示字符
Figure 491944DEST_PATH_IMAGE006
的标签信息,此步骤中标签信息具体表示头实体类型;
Figure 235909DEST_PATH_IMAGE007
表示待学习参数;
Figure 348222DEST_PATH_IMAGE008
为设置的阈值;
3.2预测头实体结束位置,如公式(2)所示:
Figure 417809DEST_PATH_IMAGE009
(2)
其中
Figure 881151DEST_PATH_IMAGE010
表示位置
Figure 428807DEST_PATH_IMAGE003
的字符属于实体结束位置的概率,在此步骤中实体具体表示为头实体;
Figure 661206DEST_PATH_IMAGE011
表示融合了实体开始位置信息
Figure 167273DEST_PATH_IMAGE012
的文本特征编码,具体表示为
Figure 586753DEST_PATH_IMAGE013
,其中
Figure 46422DEST_PATH_IMAGE012
计算公式如(3):
Figure 602169DEST_PATH_IMAGE014
(3)
其中
Figure 258233DEST_PATH_IMAGE003
表示当前位置;
Figure 165009DEST_PATH_IMAGE015
表示头实体开始位置;C为常数;
Figure 320047DEST_PATH_IMAGE016
表示字符
Figure 261458DEST_PATH_IMAGE017
的标签信息,在此步骤中标签信息具体表示为头实体类型;
Figure 843749DEST_PATH_IMAGE018
表示待学习参数;
Figure 503401DEST_PATH_IMAGE019
为设置的阈值;
3.3获取头实体和头实体类型
通过公式(1)和(2)获取头实体的开始、结束位置以及对应头实体类型
Figure 462130DEST_PATH_IMAGE020
,遍历所有的
Figure 992468DEST_PATH_IMAGE021
,当
Figure 11240DEST_PATH_IMAGE022
时,对应位置间的文本内容及为头实体,最终结果输出为
Figure 158187DEST_PATH_IMAGE023
,其中
Figure 655028DEST_PATH_IMAGE024
表示头实体,
Figure 69566DEST_PATH_IMAGE025
表示头实体标签;
所述步骤4)中,利用多层指针网络解码方式预测尾实体和关系,其中每一层包含尾实体的开始和结束位置以及对应的关系类型,具体步骤如下:
4.1获取头实体位置编码信息
依据步骤3)中获取的头实体,计算头实体的相对位置编码
Figure 728081DEST_PATH_IMAGE026
,公式如(4)所示:
Figure 362324DEST_PATH_IMAGE027
(4)
PE是二维矩阵,其中行表示词,列表示词向量;
Figure 397276DEST_PATH_IMAGE028
分别表示在每个词的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此完成位置编码
Figure 433366DEST_PATH_IMAGE029
的计算,其中
Figure 528360DEST_PATH_IMAGE030
表示头实体在文本中的位置;
Figure 384321DEST_PATH_IMAGE031
表示词向量的第
Figure 488543DEST_PATH_IMAGE031
维;
Figure 847980DEST_PATH_IMAGE032
表示词向量维度;
4.2获取尾实体和关系类型
依据步骤3)中获取的头实体,从步骤2)中得到的案情描述文本特征编码
Figure 379456DEST_PATH_IMAGE033
中抽取头实体的特征编码
Figure 722713DEST_PATH_IMAGE034
,再融入上下文特征编码,即案情描述文本特征编码
Figure 332423DEST_PATH_IMAGE033
、头实体位置编码
Figure 811946DEST_PATH_IMAGE035
,最终得
Figure 514323DEST_PATH_IMAGE036
,具体表示为
Figure 79296DEST_PATH_IMAGE037
,将
Figure 525321DEST_PATH_IMAGE038
代入公式(1)获取实体开始位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型;再根据公式(2)获取实体结束位置概率和对应标签信息,此步骤中实体具体表示尾实体、标签信息具体表示对应关系类型,遍历所有的
Figure 124930DEST_PATH_IMAGE039
,当
Figure 732629DEST_PATH_IMAGE040
时,对应位置间的文本内容及为预测的尾实体,最终输出形式为
Figure 50478DEST_PATH_IMAGE041
,其中
Figure 769035DEST_PATH_IMAGE042
表示尾实体,
Figure 488729DEST_PATH_IMAGE043
表示关系类型;
4.3损失函数计算
在模型训练过程中,损失函数为头实体和头实体类型抽取、尾实体和关系类型抽取两个任务加权和,具体计算方法为先对上述两个任务赋值动态调节的权重,再进行求和,计算公式如下:
Figure 765864DEST_PATH_IMAGE044
(5)
其中,
Figure 571009DEST_PATH_IMAGE045
表示任务
Figure 358837DEST_PATH_IMAGE046
Figure 667458DEST_PATH_IMAGE047
时刻的权重;
Figure 882539DEST_PATH_IMAGE048
表示任务
Figure 643822DEST_PATH_IMAGE046
的损失。
2.根据权利要求1所述的基于指针网络的刑事案情实体关系联合抽取方法,其特征在于,所述步骤1)中,从原始刑事案件裁判文书中提取案情描述相关文本信息,设置实体关系标注规则,依据规则对案情描述文本进行数据标注,首先,先标记出头实体和头实体类型,接着根据每一个头实体分别标记出对应的尾实体和对应关系类型。
3.根据权利要求1所述的基于指针网络的刑事案情实体关系联合抽取方法,其特征在于,所述步骤2)中,采用预训练模型BERT对案情描述文本进行编码,案情描述文本特征编码用
Figure 235340DEST_PATH_IMAGE033
表示,具体如下:
首先用序列
Figure 664047DEST_PATH_IMAGE049
表示原始文本句子,其中
Figure 784450DEST_PATH_IMAGE050
Figure 564187DEST_PATH_IMAGE051
表示句子中第1到第
Figure 428238DEST_PATH_IMAGE052
个字的id,
Figure 209987DEST_PATH_IMAGE052
表示案情描述长度;接着用BERT预训练模型对句子进行编码,隐藏层输出向量
Figure 766870DEST_PATH_IMAGE033
表示案情描述文本特征编码。
CN202210603102.7A 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法 Active CN114691895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210603102.7A CN114691895B (zh) 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210603102.7A CN114691895B (zh) 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN114691895A CN114691895A (zh) 2022-07-01
CN114691895B true CN114691895B (zh) 2022-08-26

Family

ID=82131135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210603102.7A Active CN114691895B (zh) 2022-05-31 2022-05-31 一种基于指针网络的刑事案情实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN114691895B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408247B (zh) * 2023-12-15 2024-03-29 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN113495929A (zh) * 2021-05-18 2021-10-12 浙江工业大学 一种基于自注意力的三元组抽取方法
CN114064938B (zh) * 2022-01-17 2022-04-22 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114417839A (zh) * 2022-01-19 2022-04-29 北京工业大学 基于全局指针网络的实体关系联合抽取方法

Also Published As

Publication number Publication date
CN114691895A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
WO2022178919A1 (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN110928961A (zh) 一种多模态实体链接方法、设备及计算机可读存储介质
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN114417839A (zh) 基于全局指针网络的实体关系联合抽取方法
CN112328859B (zh) 一种基于知识感知注意力网络的虚假新闻检测方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN114691895B (zh) 一种基于指针网络的刑事案情实体关系联合抽取方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN116432752B (zh) 一种隐式篇章关系识别模型的构建方法及其应用
Gu et al. Named entity recognition in judicial field based on BERT-BiLSTM-CRF model
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN115965026A (zh) 模型预训练方法、装置和文本分析方法、装置及存储介质
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
Wan et al. Similarity calculation method of siamese-CNN judgment document based on TinyBERT
CN112926336A (zh) 基于正文评论交互式注意力的微博案件方面级观点识别方法
CN117807999B (zh) 基于对抗学习的域自适应命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant