CN114091462B

CN114091462B - 基于案件事实混合编码面向刑事案件风险互学习评估方法

Info

Publication number: CN114091462B
Application number: CN202210039747.2A
Authority: CN
Inventors: 陈国�
Original assignee: Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Current assignee: Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-22
Anticipated expiration: 2042-01-14
Also published as: CN114091462A

Abstract

本发明涉及一种基于案件事实混合编码面向刑事案件风险互学习评估方法，具体如下：1）构建与常见刑事案件相关的法律知识库；2）对案件事实进行分词，筛选案件事实文本关键词；3）通过引入知识库中相关知识，构建事实文本树，实现事实文本混合编码；4）基于模型互学习技术使用多结构模型训练案件风险分类任务；5）计算模型中不同结构模型对应的损失函数；6）根据模型测试结果，选取平均准确率最高的模型，进行刑事案件风险评估。

Description

基于案件事实混合编码面向刑事案件风险互学习评估方法

技术领域

本发明涉及一种评估方法，具体涉及一种基于案件事实混合编码面向刑事案件风险互学习评估方法，属于自然语言处理技术领域。

背景技术

随着检察领域数字化水平的提升，电子数据格式的检务数据量呈现高速增长趋势。为了应对这样的挑战，迫切需要开发出一批自动化的办案辅助工具，自动、快速地基于海量的检务数据协助检务工作人员完成办案流程。在这样的背景下，基于深度学习的辅助办案技术成为了学术界和工业界研究的热点内容，辅助办案技术的目的是基于刑事案件卷宗等文本数据，抽取嫌疑人基本信息、案情描述、定罪量刑建议、判决结果等电子数据，研究案件要素抽、人际关系网构建、人案物网络构建、案件风险评估等技术。在检务领域，嫌疑人的风险评估正在成为新的研究重点，针对嫌疑人多方面的风险评估有助于检察官客观的评估当前案件嫌疑人的羁押必要性，保障了司法公正，同时也维护了嫌疑人的人身权利。目前，常见的用于案件风险评估的方法有如下几类：

1）回归方法，

回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法。对应到业务场景中，通过输入卷宗的文本数据进行数据表示后输出每个案件，每个嫌疑人对应的风险得分。回归任务的特点是标注的数据集具有数值型的目标变量。也就是说，每一个嫌疑人对应的样本都有一个数值型的标注真值以监督算法。

2）分类方法，

分类方法是一种对离散型随机变量建模或预测的监督学习算法。对应到业务场景中，通过输入卷宗的文本数据进行数据表示后输出案件中每个嫌疑人对应的风险等级（如高风险等级、中风险等级、低风险等级）。许多回归算法都有与其相对应的分类算法，分类算法通常适用于预测一个类别而不是连续的数值。

作为辅助办案技术的重要节点之一，案件风险评估技术主要依赖从半结构化和非结构化的卷宗数据中抽取得到的嫌疑人相关、案情相关信息，评价当前案件对应的犯罪嫌疑人的人身危险性、社会危害性、再犯罪风险性，最终统筹完成嫌疑人羁押必要性审查。现有技术中存在的技术问题在于不同罪名、不同案情的嫌疑人存在的风险性差异较大，难以简单通过单一模型对嫌疑人的羁押必要性进行准确判断，因此，迫切的需要一种新的方案解决上述技术问题。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于案件事实混合编码面向刑事案件风险互学习评估方法，该技术方案首先对案件事实文本进行编码，同时提取事实描述中的关键词用作引入外部知识；其次引入外部知识库，将外部知识库和嫌疑人信息库中的信息作为案件信息的背景知识丰富案件特征，具体做法为对事实描述中的关键词做实体链接，将链接结果作为特征拓展项；将案件事实文本与外部知识进行混合编码，构造包含背景知识的事实文本树，将事实文本树转化为包含关键词实体关系的序列，结合位置编码完成对输入案件事实的文本混合编码；设计不同结构的分类神经网络，采用网络间相互蒸馏的训练方式实现刑事案件风险评估，最终输出刑事案件风险等级。

为了实现上述目的，本发明的技术方案如下，一种基于案件事实混合编码面向刑事案件风险互学习评估方法，具体如下：

1）构建与常见刑事案件相关的法律知识库；

2）对案件事实进行分词，筛选案件事实文本关键词；

3）通过引入知识库中相关知识，构建事实文本树，实现事实文本混合编码；

4）基于模型互学习技术使用多结构模型训练案件风险分类任务；

5）计算模型中不同结构模型对应的损失函数；

6）根据模型测试结果，选取平均准确率最高的模型，进行刑事案件风险评估。

其中，步骤1) 构建与嫌疑人犯罪特征相关的法律知识库，针对不同刑事案件对应的案情描述，通过刑事案件风险评估专家指导，结合相关法律法规，进行法律知识库的构建，知识库主要针对不同犯罪情节进行定义或解释。

其中，2）对案件事实进行分词，筛选案件事实文本关键词，具体如下：

使用分词工具对事实描述文本进行分词，得到分词结果序列：

其中

为事实文本分词结果的第

个词；

然后使用TextRank算法筛选分词结果中的重要词，结果为：

其中

为事实文本分词结果中筛选出的第

个关键词；

其中，步骤3）通过引入知识库中相关知识，构建事实文本树，实现事实文本混合编码，具体如下，通过实体链接技术，把案件事实关键字映射到知识库中对应的实体上，找到关键字在知识库中的解释，通过引入维基百科词向量计算每个关键词对应的词向量与知识库中不同情节的词向量进行相似度计算，通过设置阈值，选取相似度最高且大于阈值的一个作为匹配结果，同时引入嫌疑人信息库引入嫌疑人相关信息，将上述外部知识信息和原始实体信息构建三元组，通过将三元组插入原始文本构建事实文本树，句子树平铺结果为：

；

其中

为事实文本分词结果中筛选出的第

个词，

表示事实文本分词结果中第

个词的第

个实体关系，

表示与事实文本分词结果中第

个词关系为

的第

个实体

通过引入位置编码捕捉文本结构信息，当前文本中引入了外部知识，采用基于bert的位置编码改进的软位置编码方式，通过利用文本树结构，将原文本序列连续编码，对关键词引入的外部知识，在关键词编码的基础上进行位置编码，捕捉文本中词相对位置信息和引入外部知识信息，具体公式为：

其中

为当前词在文本中的软位置，

为模型维度，

表示位置编码维度；

最终完成事实文本混合编码，结合中文维基百科训练的词向量，对事实文本中的每个词

的编码方式为结合词向量即软位置向量：

；

其中

表示词

对应的词向量，

表示词

对应的软位置编码。

步骤4）基于模型互学习技术使用多结构模型训练案件风险分类任务，

在案件风险评估的任务中，将步骤3中得出的事实文本混合编码输入模型，通过不同的网路结构得到不同的输出，可用于案件风险评估的模型Model有CNN、Bi-LSTM、transformer模型及其变体，通过不同结构的网络对刑事案件输入特征进行编码：

其中

表示词刑事案件输入特征，

表示互学习模型框架中的第

个模型，

为第

个模型的输出结果，其具体为一个

维向量：

；

其中

表示第

维输出结果；

在所属类别预测任务中，将编码结果输入到

层：

其中，

为第

个模型输出对输入数据

的判别结果属于第

个类别的概率。

其中，5）计算模型中不同结构模型对应的损失函数,具体如下，

将刑事案件风险评估视为多目标分类任务，对多目标分类任务而言，模型

的损失函数采用交叉熵表示：

；

其中,

为样本数量，

为类别数量，

为第

条数据对应的真实类别，

相当于如下指数函数，若标签值和预测值相同，则置为1，否则为0：

使用KL散度两两度量不同结构模型输出类别概率分布的匹配程度，计算模型

和模型

输出的类别分布匹配程度公式具体如下：

；

其中,

为样本数量，

为类别数量；

综上，根据匹配程度对模型

的损失函数进行更新，得到：

。

其中，6）选取平均准确率最高的模型，进行刑事案件风险评估，具体如下，当模型训练完成后，通过关注各模型评价指标得分情况，选取平均得分较高的案件风险评估模型，作为刑事案件风险评估模型。

相对于现有技术，本发明具有如下优点，该技术方案经过实验分析表明，本方法提出的一种基于案件事实混合编码面向刑事案件风险互学习评估方法，利用外部知识库对事实文书进行扩充，通过异构模型间的互学习技术进行模型训练，结合了不同结构的模型所提取的语义向量，通过模型间的相互学习，打破不同结构的知识壁垒，共同提升模型知识获取的能力，提升多结构的检务知识的利用效率，可以有效地针对不同罪名的刑事案件中对嫌疑人的羁押必要性进行预测。

附图说明

图1是本方案整体流程示意图；

图2是本方案中互学习模型示意图。

具体实施方式

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1、图2，一种基于案件事实混合编码面向刑事案件风险互学习评估方法，所述方法包括以下步骤：

1）构建与常见刑事案件相关的法律知识库；

2）对案件事实进行分词，筛选案件事实文本关键词；

5）计算模型中不同结构模型对应的损失函数；

具体如下：本方法覆盖的刑事案件罪名包括交通肇事罪、危险驾驶罪、盗窃罪、抢劫罪、容留他人吸毒罪、故意伤害罪和诈骗罪。关于刑事案件的原始数据的内容如下例所示（对其中涉及人名做脱敏处理）：

例1：

罪名：故意伤害罪

案情描述：2020年8月2日0时10分许，犯罪嫌疑人张某驾车至本市静安区铜仁路152号酒吧门口，与该酒吧保安朱某发生口角后发生肢体冲突并互相斗殴，期间张某拿出随身携带匕首将朱某刺伤，案发后张某主动投案。

例2：

罪名：盗窃罪

案情描述：2020年5月1日许，犯罪嫌疑人翟某某趁被害人高某某家中无人之机，翻墙进入被害人高某某家中，窃得手机一部。

根据以上数据内容，本方法的具体实施步骤如下：

1）构建与嫌疑人犯罪特征相关的法律知识库

针对不同刑事案件对应的案情描述，通过刑事案件风险评估专家指导，结合相关法律法规，进行法律知识库的构建。知识库主要针对不同犯罪情节进行定义或解释，我们从库中选取了几个例子，这些例子的内容如下：

法律知识库例1：

入户盗窃：是指以违法占有为目的，非法进入家庭及其成员与外界相对隔离的生活场所，采用规避他人管控的方式，转移而侵占他人财物管控权的行为。

法律知识库例2：

自首：犯罪以后自动投案，如实供述自己的罪行的，是自首。

法律知识库例3：

饮酒驾车：驾驶人血液中的酒精含量大于（等于）20毫克/100毫升、小于80毫克/100毫升的行为属于饮酒驾车。

针对不同刑事案件对应嫌疑人信息描述，通过嫌疑人信息抽取匹配，结合手工整理，进行嫌疑人信息库的构建。嫌疑人信息库主要针对不同犯罪案件的嫌疑人基本信息进行存储，我们从库中选取了几个例子，这些例子的内容如下：

嫌疑人信息库例1：

“张三”：{“性别”：“男”，“年龄”：“27”，“涉嫌罪名”：“盗窃罪”，…}。

嫌疑人信息库例2：

“李四”：{“性别”：“男”，“年龄”：“25”，“涉嫌罪名”：“故意伤害罪”,…}。

2）对案件事实进行分词，筛选案件事实文本关键词；

；

例如上述例2中的案件事实对应分词结果为：“2020/年/5/月/1/日许/，/犯罪/嫌疑人/翟某某/趁/被害人/高某某/家中/无人之际/，/翻墙/进入/被害人/高某某/家中/，/窃得/手机/一部/。/”。

然后使用TextRank算法筛选分词结果中的重要词，结果为：

；

本例中筛选结果为{“翟某某”，“翻墙”，“高某某”，“手机”}。

通过实体链接技术，把案件事实关键字映射到知识库中对应的实体上，找到关键字在知识库中的解释。通过引入维基百科词向量计算每个关键词对应的词向量与知识库中不同情节的词向量进行相似度计算，通过设置阈值，选取相似度最高且大于阈值的一个作为匹配结果，同时引入嫌疑人信息库引入嫌疑人相关信息，将上述外部知识信息和原始实体信息构建三元组，通过将三元组插入原始文本构建事实文本树，句子树平铺结果为：

；

如对步骤2中的词语“翟某某”，通过嫌疑人信息库引入嫌疑人相关信息，如“翟某某”：{“性别”：“男”，“年龄”：“35”，“涉嫌罪名”：“盗窃罪”,…}，对词语“翻墙”，通过引入维基百科词向量计算“翻墙”对应的词向量与知识库中不同情节的词向量进行相似度计算，通过设置阈值，选取相似度最高且大于阈值的一个作为匹配结果，结果即为“入户盗窃”；即将步骤2中对应的例子扩充为

通过引入位置编码捕捉文本结构信息，由于当前文本中引入了外部知识，因此采用基于bert的位置编码改进的软位置编码方式，通过利用文本树结构，将原文本序列连续编码，对关键词引入的外部知识，在关键词编码的基础上进行位置编码，捕捉文本中词相对位置信息和引入外部知识信息。具体公式为：

其中

为当前词在文本中的软位置，

为模型维度，

表示位置编码维度；

最终完成事实文本混合编码，对事实文本中的每个词

的编码方式为结合词向量即软位置向量：

；

在案件风险评估的任务中，将步骤3中得出的事实文本混合编码输入模型，通过不同的网路结构得到不同的输出，常见的可用于案件风险评估的模型Model有CNN、Bi-LSTM、transformer等模型及其变体，通过不同结构的网络对刑事案件输入特征进行编码：

在所属类别预测任务中，将编码结果输入到

层：

其中，

为第

个模型输出对输入数据属于第

个类别的概率。

5）计算模型中不同结构模型对应的损失函数

的损失函数可以用交叉熵表示：

其中,

为样本数量，

为类别数量，

和模型

输出的类别分布匹配程度公式具体如下：

综上，根据匹配程度对模型

的损失函数进行更新，得到：

6）选取平均准确率最高的模型，进行刑事案件风险评估；

当模型训练完成后，通过关注各模型评价指标得分情况，选取平均得分较高的案件风险评估模型，作为刑事案件风险评估模型。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.基于案件事实混合编码面向刑事案件风险互学习评估方法，其特征在于，具体如下：

1）构建与常见刑事案件相关的法律知识库；

2）对案件事实进行分词，筛选案件事实文本关键词；

5）计算模型中不同结构模型对应的损失函数；

6）根据模型测试结果，选取平均准确率最高的模型，进行刑事案件风险评估；

步骤1) 构建与嫌疑人犯罪特征相关的法律知识库，针对不同刑事案件对应的案情描述，通过刑事案件风险评估专家指导，结合相关法律法规，进行法律知识库的构建，知识库主要针对不同犯罪情节进行定义或解释；

2）对案件事实进行分词，筛选案件事实文本关键词，具体如下：

；

为事实文本分词结果中筛选出的第

个词

然后使用TextRank算法筛选分词结果中的重要词，结果为：

；

其中

为事实文本分词结果中筛选出的第

个关键词；

步骤3）通过引入知识库中相关知识，构建事实文本树，实现事实文本混合编码，具体如下，

通过实体链接技术，把案件事实关键字映射到知识库中对应的实体上，找到关键字在知识库中的解释，通过引入维基百科词向量计算每个关键词对应的词向量与知识库中不同情节的词向量进行相似度计算，通过设置阈值，选取相似度最高且大于阈值的一个作为匹配结果，同时引入嫌疑人信息库引入嫌疑人相关信息，将外部知识信息和原始实体信息构建三元组，通过将三元组插入原始文本构建事实文本树，句子树平铺结果为：