CN116127977B

CN116127977B - 一种面向裁判文书的伤亡人数提取方法

Info

Publication number: CN116127977B
Application number: CN202310082940.9A
Authority: CN
Inventors: 魏芸菲; 刘贤艳; 徐斌; 吴正午; 孙晓锐; 谭晓颖
Original assignee: China Judicial Big Data Research Institute Co ltd
Current assignee: China Judicial Big Data Research Institute Co ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-10-03
Anticipated expiration: 2043-02-08
Also published as: CN116127977A

Abstract

本发明公开了一种面向裁判文书的伤亡人数提取方法，其步骤包括：1)对公开裁判文书集中的每一裁判文书进行分段处理，得到关联集合A1；2)从集合A1内每一裁判说理段中提取伤亡人数，将每一裁判文书的事实认定段、裁判说理段和伤亡人数作为一短文本，构建事实认定‑裁判说理‑伤亡人数关联集合A2；3)对集合A2中的每一短文本进行语义解析，识别出每个短文本中的人物类实体及其起止位置，得到数据集A3；对数据集A3进行标注，构建伤亡人数训练样本集合A4；4)基于集合A4训练基于提示学习的统一信息抽取模型，得到伤亡人数识别模型；5)对于一给定裁判文书的事实认定描述，采用伤亡人数识别模型，识别出该裁判文书中的伤亡人数。

Description

一种面向裁判文书的伤亡人数提取方法

技术领域

本发明属于自然语言处理领域和裁判文书中有关伤亡人数的研究领域，涉及一种面向裁判文书的伤亡人数提取方法。

背景技术

在司法领域，人工智能技术与司法制度的深度结合，是解决当前诸多司法实践所面临问题的主要途径和对策。面向案件审理全流程提供类案智能推送、检索报告智能生成、量刑智能辅助、裁判规律智能分析、准确适用法律、统一裁判尺度、文书智能辅助生成、文书智能纠错等裁判辅助应用，进一步利用大数据、区块链、人工智能等新技术提供精准智能辅助功能，提高司法公信力，全面实现审判智能化辅助。其中伤亡人数的提取作为类案智能推送、量刑智能辅助、文书智能辅助生成等裁判辅助应用中不可或缺的一部分，其提取的精准度严重影响法官对各个裁判辅助应用的使用效果。

目前，伤亡人数提取主要依赖法律专家和知识工程师人工制定诸如“重伤[1一]人”等提取规则。虽然取得了阶段性的成果，但是它要求裁判文书必须写明具体的伤亡人数，对于需要运用语义理解才能推理出伤亡人数的表述则无能为力，如“李某某、王某某重伤”等。近年来，随着人工智能技术发展，事件抽取、实体抽取、关系抽取等技术相继出现，为伤亡人数提取提供了有力支撑。因此，在本发明中，我们利用半自动交叉标注和基于提示学习的信息抽取方法，克服了传统有监督学习训练样本构建存在人工量较大及伤亡人数识别难的问题，实现了伤亡人数精准提取。

发明内容

本发明是一种面向裁判文书的伤亡人数提取方法，该方法首先将裁判文书进行段落结构，然后利用解语知识标注实现伤亡人数训练样本的半自动获取。基于半自动获取的样本及人工标注的样本，并利用基于提示学习的信息抽取方法，构建伤亡人数提取模型，实现伤亡人数的精准识别。

基于上述所述，本发明提供了一种基于半自动交叉标注和提示学习的伤亡人数识别方法，包括以下步骤：

S1：对公开裁判文书集中的每一裁判文书进行分段处理，得到裁判文书的事实认定段-裁判说理段关联集合A1；

S2：基于S1中的事实认定段-裁判说理段关联集合A1，利用伤亡人数提取规则从裁判说理段提取伤亡人数，构建事实认定-裁判说理-伤亡人数关联集合A2；

S3：对S2中的关联集合A2进行语义解析，识别出每个短文本中的人物类实体和其在对应短文本中的起止位置，得到数据集A3，利用伤亡类型关键词和解语知识标注方法对数据集A3进行标注，构建伤亡人数训练样本集合A4；

S4：基于S3中得到的伤亡人数训练样本集合A4，利用基于提示学习的统一信息抽取模型，构建基于提示学习的伤亡人数识别模型；

S5：当给定一个案件的事实认定描述，采用S4中构建的伤亡人数识别模型，实现文书中伤亡人数的精准识别。

进一步地，所述S1中，对公开的裁判文书集采用分段规则进行分段处理，并抽取出其中的事实认定段和裁判说理段构造出事实认定-裁判说理段关联数据集A1：

其中B_i,C_i分别表示第i篇文书对应的事实认定段和裁判说理段。

进一步地，所述S2包含以下具体步骤：

S21：构建伤亡人数提取规则，并对S1中的数据集中的C_i(即裁判说理段)进行提取，得到每篇文书对应的伤亡人数/>

S22：将S21中得到的伤亡人数和S1中的数据集/>进行融合关联，得到事实认定-裁判说理-伤亡人数关联集合/>

进一步地，所述S3包含以下具体步骤：

S31：构建伤亡人数关键词，并利用所述关键词对S2的数据集中的每一B_i(即事实认定段)进行切分，得到每一种伤亡类型的表述短文本，并利用解语知识标注对其进行语义解析，识别出每个表述短文本中的人物类实体和其在Bi中的起止位置，得到数据集/>其中E_i表示B_i中对应的去重后的伤亡人物类实体集合，F_i为E_i中人物类实体对应的起止位置构成的集合；解语知识标注是百度开发的一项技术，通过此技术，可以提取人物类实体，以及对应的起点位置和实体长度，由此可以获取其起止位置。

S32：判断S31中数据集中E_i对应的人物类实体数和D_i是否一致，并按照是否一致将数据集A3划分为一致子集A31与不一致子集A32；

S33：对不一致子集A32进行人工校准标注，并将标注结果与一致子集A31合并，构成伤亡人数训练样本A4。

进一步地，所述S4中基于提示学习训练伤亡人数识别模型包含两部分，其一基于提示学习的统一信息抽取模型，利用标注数据集构建伤亡人物实体识别模型，其二基于伤亡人物实体名单，给出最终的伤亡人数。其中伤亡人物实体识别模型为：其中s为结构模式指导器，x为事实认定文本序列，y为伤亡人物实体对应的起止位置。模型训练包含以下具体步骤：

S41：构建结构模式指导器s：“[CLS]SpotName[SEP]”，例如死亡人数识别的结构模式指导器为：[CLS]死亡人数包括[SEP]，其中[CLS]及[SEP]为插入的特殊Token；

S42：构建模型输入，将结构模式指导器s和事实认定文本B＝[x₁,…,x_|x|]进行拼接，模型的输入为其中|s|及|x|分别表示结构模式指导器和事实认定文本的长度；x_|x|是事实认定段中第|x|个分词；

S43：通过编码器生成输入的向量表示，H＝Encoder(s₁,…,s_|s|,x₁,…,x_|x|)，Encoder为Transformer编码器。其中，当输入长度大于512时，对事实认定文本[x₁,…,x_|x|]进行截取，当输入长度小于512时，对事实认定文本[x₁,…,x_|x|]对应的向量进行补齐；

S44：训练伤亡人物实体识别模型，将向量表示H输入到指针网络，即输入到一个全连接层预测伤亡人物实体的起点位置，另一个预测终止位置，结合真实起止位置获得损失，其中设置batch_size、epochs、learning_rate等参数进行模型训练，直至模型收敛(如图2所示)。将预测的伤亡人物实体的起点位置与标注的对应真实起点位置计算第一损失值，将预测的伤亡人物实体的终止位置与标注的对应真实终止位置计算第二损失值，然后根据第一损失值、第二损失值的均值作为所述损失值。

S45：计算伤亡人数，采用S44中伤亡人物实体识别模型，获得人物实体名单，人物实体个数即为伤亡人数。

本发明还提供一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的优点如下：

本发明提供了一种面向裁判文书的伤亡人数提取方法，利用半自动交叉标注和基于提示学习的信息抽取方法，克服了传统有监督学习训练样本构建存在人工量较大及伤亡人数识别难的问题，实现了伤亡人数精准提取。

附图说明

图1为具体实施流程图。

图2为基于提示学习的统一信息抽取模型结构图。

具体实施方式

下面结合附图对本发明进行进一步详细描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明具体实施例及具体的实施流程图如附图1所示；下面通过具体实施例“交通肇事罪的死亡人数提取”和附图1，详细说明一种面向裁判文书的伤亡人数提取方法：

S1：对公开的交通肇事罪裁判文书集采用如下表所示的分段规则进行分段处理：

抽取文书中事实认定段和裁判说理段，由此构造出事实认定-裁判说理段关联数据集A1：

S2：构建死亡人数提取规则，如下表所示：

序号	规则
		1	死亡[1234567890一二三四五六七八九十]人
2	[1234567890一二三四五六七八九十]人死亡

利用该死亡人数提取规则对S1中的数据集中的B_i(即裁判说理段)进行提取，得到每篇文书对应的伤亡人数/>并将其和S1中的数据集进行融合关联，得到事实认定-裁判说理-伤亡人数关联集合

S3：构建伤亡人数关键词“重伤、轻伤、轻微伤、死亡、伤残”，并利用上述关键词对S2的数据集中的B_i(即事实认定段)进行切分，得到含有死亡类型的表述短文本，并利用解语知识标注对表述短文本进行语义解析，识别出每个表述短文本中的人物类实体，得到数据集/>其中E_i表示B_i中对应的去重后的死亡人物类实体集合，F_i为E_i中人物类实体对应的起止位置构成的集合。然后，判断数据集中B_i对应的人物类实体数和D_i是否一致，并按照是否一致将数据集A3划分为一致子集A31与不一致子集A32。对不一致子集A32进行人工校准标注，并将标注结果与一致子集A31合并，构成死亡人数训练样本A4；

S4：基于S3中得到的死亡人数训练样本集合A4，利用基于提示学习的统一信息抽取模型，生成死亡人数识别模型，包含以下具体步骤：

(1)构建结构模式指导器s：“[CLS]死亡人数包括[SEP]”；

(2)构建模型输入，对A4样本集合中的数据进行转化，将结构模式指导器s和每个事实认定文本B＝[x₁,…,x_|x|]进行拼接，记为

(3)通过编码器生成输入的向量表示，H＝Encoder(s₁,…,s_|s|,x₁,…,x_|x|)。其中，当输入长度大于512时，对事实认定文本[x₁,…,x_|x|]进行截取，当输入长度小于512时，对事实认定文本[x₁,…,x_|x|]对应的向量进行补齐；

(4)训练死亡实体识别模型，将向量表示H输入到指针网络，即输入到一个全连接层预测伤亡人物实体的起点位置，另一个预测终止位置，结合真实起止位置获得损失，其中设置batch_size＝16、epochs＝20、learning_rate＝1e-6等参数进行模型训练，直至模型收敛；

(5)计算死亡人数，采用死亡实体识别模型，获得实体名单，实体个数即为死亡人数；

S5：当给定一个案件的事实认定描述，采用S4中构建的死亡人数识别模型，实现文书中伤亡人数的精准识别。

尽管为说明目的公开了本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种面向裁判文书的伤亡人数提取方法，其步骤包括：

1)对公开裁判文书集中的每一裁判文书进行分段处理，得到裁判文书的事实认定段-裁判说理段关联集合A1；

2)从所述事实认定段-裁判说理段关联集合A1内每一裁判说理段中提取伤亡人数，将每一裁判文书的事实认定段、裁判说理段和伤亡人数作为一个短文本，构建事实认定-裁判说理-伤亡人数关联集合A2；

3)对所述事实认定-裁判说理-伤亡人数关联集合A2中的每一短文本进行语义解析，识别出每个短文本中的人物类实体和其在对应短文本中的起止位置，得到数据集A3；利用伤亡类型关键词和解语知识标注方法对数据集A3进行标注，构建伤亡人数训练样本集合A4；

4)基于所述伤亡人数训练样本集合A4训练基于提示学习的统一信息抽取模型，得到伤亡人数识别模型；

5)对于一给定裁判文书的事实认定描述，采用所述伤亡人数识别模型，识别出该给定裁判文书中的伤亡人数。

2.根据权利要求1所述的方法，其特征在于，对公开裁判文书集进行分段处理，并抽取出其中的事实认定段和裁判说理段构造出事实认定-裁判说理段关联数据集合其中B_i表示第i篇裁判文书对应的事实认定段，C_i表示第i篇裁判文书对应的裁判说理段，N为公开裁判文书集中裁判文书的总数。

3.根据权利要求2所述的方法，其特征在于，构建所述事实认定-裁判说理-伤亡人数关联集合A2的具体步骤包括：首先利用设定的伤亡人数提取规则对所述事实认定段-裁判说理段关联集合A1中的裁判说理段进行提取，得到裁判文书对应的伤亡人数集合D_i为第i篇裁判文书对应的伤亡人数；然后对伤亡人数集合/>和事实认定-裁判说理段关联数据集合/>进行融合关联，得到事实认定-裁判说理-伤亡人数关联集合/>

4.根据权利要求3所述的方法，其特征在于，构建所述伤亡人数训练样本集合A4的具体步骤包括：

31)构建伤亡人数关键词集合，利用伤亡人数关键词集合中每一关键词对所述事实认定-裁判说理-伤亡人数关联集合A2中的每一事实认定段进行切分，得到对应伤亡类型的表述短文本，并利用解语知识标注对其进行语义解析，识别出每个表述短文本中的人物类实体和其在对应事实认定段中的起止位置，得到数据集其中E_i为B_i中对应的去重后的伤亡人物类实体集合，F_i为E_i中人物类实体对应的起止位置构成的集合；

32)判断数据集中E_i对应的人物类实体数和D_i是否一致，并按照是否一致将数据集A3划分为一致子集A31与不一致子集A32；

33)对不一致子集A32进行人工校准标注，并将标注结果与一致子集A31合并，构成所述伤亡人数训练样本集合A4。

5.根据权利要求4所述的方法，其特征在于，所述伤亡人数关键词集合中的每一关键词对应一伤亡类型；所述伤亡类型包括重伤、轻伤、轻微伤、死亡、伤残。

6.根据权利要求1所述的方法，其特征在于，所述基于提示学习的统一信息抽取模型包括编码器和指针网络；训练所述基于提示学习的统一信息抽取模型，得到所述伤亡人数识别模型的具体步骤包括：

41)构建用于目标信息提取的结构模式指导器s；

42)将结构模式指导器s和事实认定文本B＝[x₁,…,x_|x|]进行拼接输入所述编码器，生成向量表示H；其中|x|表示事实认定段的长度；x_|x|是事实认定段中第|x|个分词；

43)将所述向量表示H输入到所述指针网络，预测得到伤亡人物实体的起点位置和终止位置，根据预测的伤亡人物实体的起点位置、终止位置与标注的对应真实起止位置计算损失值，根据所述损失值优化所述基于提示学习的统一信息抽取模型；

44)将训练收敛后的所述基于提示学习的统一信息抽取模型作为所述伤亡人数识别模型。

7.根据权利要求6所述的方法，其特征在于，计算所述损失值的方法为：将预测的伤亡人物实体的起点位置与标注的对应真实起点位置计算第一损失值，将预测的伤亡人物实体的终止位置与标注的对应真实终止位置计算第二损失值，然后根据第一损失值、第二损失值的均值作为所述损失值。

8.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。