CN114091462B - 基于案件事实混合编码面向刑事案件风险互学习评估方法 - Google Patents

基于案件事实混合编码面向刑事案件风险互学习评估方法 Download PDF

Info

Publication number
CN114091462B
CN114091462B CN202210039747.2A CN202210039747A CN114091462B CN 114091462 B CN114091462 B CN 114091462B CN 202210039747 A CN202210039747 A CN 202210039747A CN 114091462 B CN114091462 B CN 114091462B
Authority
CN
China
Prior art keywords
case
model
fact
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210039747.2A
Other languages
English (en)
Other versions
CN114091462A (zh
Inventor
陈国�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Original Assignee
Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aerospace Technology & Innovation Industrial Co ltd filed Critical Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Priority to CN202210039747.2A priority Critical patent/CN114091462B/zh
Publication of CN114091462A publication Critical patent/CN114091462A/zh
Application granted granted Critical
Publication of CN114091462B publication Critical patent/CN114091462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于案件事实混合编码面向刑事案件风险互学习评估方法,具体如下:1)构建与常见刑事案件相关的法律知识库;2)对案件事实进行分词,筛选案件事实文本关键词;3)通过引入知识库中相关知识,构建事实文本树,实现事实文本混合编码;4)基于模型互学习技术使用多结构模型训练案件风险分类任务;5)计算模型中不同结构模型对应的损失函数;6)根据模型测试结果,选取平均准确率最高的模型,进行刑事案件风险评估。

Description

基于案件事实混合编码面向刑事案件风险互学习评估方法
技术领域
本发明涉及一种评估方法,具体涉及一种基于案件事实混合编码面向刑事案件风险互学习评估方法,属于自然语言处理技术领域。
背景技术
随着检察领域数字化水平的提升,电子数据格式的检务数据量呈现高速增长趋势。为了应对这样的挑战,迫切需要开发出一批自动化的办案辅助工具,自动、快速地基于海量的检务数据协助检务工作人员完成办案流程。在这样的背景下,基于深度学习的辅助办案技术成为了学术界和工业界研究的热点内容,辅助办案技术的目的是基于刑事案件卷宗等文本数据,抽取嫌疑人基本信息、案情描述、定罪量刑建议、判决结果等电子数据,研究案件要素抽、人际关系网构建、人案物网络构建、案件风险评估等技术。在检务领域,嫌疑人的风险评估正在成为新的研究重点,针对嫌疑人多方面的风险评估有助于检察官客观的评估当前案件嫌疑人的羁押必要性,保障了司法公正,同时也维护了嫌疑人的人身权利。目前,常见的用于案件风险评估的方法有如下几类:
1)回归方法,
回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法。对应到业务场景中,通过输入卷宗的文本数据进行数据表示后输出每个案件,每个嫌疑人对应的风险得分。回归任务的特点是标注的数据集具有数值型的目标变量。也就是说,每一个嫌疑人对应的样本都有一个数值型的标注真值以监督算法。
2)分类方法,
分类方法是一种对离散型随机变量建模或预测的监督学习算法。对应到业务场景中,通过输入卷宗的文本数据进行数据表示后输出案件中每个嫌疑人对应的风险等级(如高风险等级、中风险等级、低风险等级)。许多回归算法都有与其相对应的分类算法,分类算法通常适用于预测一个类别而不是连续的数值。
作为辅助办案技术的重要节点之一,案件风险评估技术主要依赖从半结构化和非结构化的卷宗数据中抽取得到的嫌疑人相关、案情相关信息,评价当前案件对应的犯罪嫌疑人的人身危险性、社会危害性、再犯罪风险性,最终统筹完成嫌疑人羁押必要性审查。现有技术中存在的技术问题在于不同罪名、不同案情的嫌疑人存在的风险性差异较大,难以简单通过单一模型对嫌疑人的羁押必要性进行准确判断,因此,迫切的需要一种新的方案解决上述技术问题。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于案件事实混合编码面向刑事案件风险互学习评估方法,该技术方案首先对案件事实文本进行编码,同时提取事实描述中的关键词用作引入外部知识;其次引入外部知识库,将外部知识库和嫌疑人信息库中的信息作为案件信息的背景知识丰富案件特征,具体做法为对事实描述中的关键词做实体链接,将链接结果作为特征拓展项;将案件事实文本与外部知识进行混合编码,构造包含背景知识的事实文本树,将事实文本树转化为包含关键词实体关系的序列,结合位置编码完成对输入案件事实的文本混合编码;设计不同结构的分类神经网络,采用网络间相互蒸馏的训练方式实现刑事案件风险评估,最终输出刑事案件风险等级。
为了实现上述目的,本发明的技术方案如下,一种基于案件事实混合编码面向刑事案件风险互学习评估方法,具体如下:
1)构建与常见刑事案件相关的法律知识库;
2)对案件事实进行分词,筛选案件事实文本关键词;
3)通过引入知识库中相关知识,构建事实文本树,实现事实文本混合编码;
4)基于模型互学习技术使用多结构模型训练案件风险分类任务;
5)计算模型中不同结构模型对应的损失函数;
6)根据模型测试结果,选取平均准确率最高的模型,进行刑事案件风险评估。
其中,步骤1) 构建与嫌疑人犯罪特征相关的法律知识库,针对不同刑事案件对应的案情描述,通过刑事案件风险评估专家指导,结合相关法律法规,进行法律知识库的构建,知识库主要针对不同犯罪情节进行定义或解释。
其中,2)对案件事实进行分词,筛选案件事实文本关键词,具体如下:
使用分词工具对事实描述文本进行分词,得到分词结果序列:
Figure DEST_PATH_IMAGE001
其中
Figure DEST_PATH_IMAGE002
为事实文本分词结果的第
Figure DEST_PATH_IMAGE003
个词;
然后使用TextRank算法筛选分词结果中的重要词,结果为:
Figure DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE005
为事实文本分词结果中筛选出的第
Figure 942639DEST_PATH_IMAGE003
个关键词;
其中,步骤3)通过引入知识库中相关知识,构建事实文本树,实现事实文本混合编码,具体如下,通过实体链接技术,把案件事实关键字映射到知识库中对应的实体上,找到关键字在知识库中的解释,通过引入维基百科词向量计算每个关键词对应的词向量与知识库中不同情节的词向量进行相似度计算,通过设置阈值,选取相似度最高且大于阈值的一个作为匹配结果,同时引入嫌疑人信息库引入嫌疑人相关信息,将上述外部知识信息和原始实体信息构建三元组,通过将三元组插入原始文本构建事实文本树,句子树平铺结果为:
Figure DEST_PATH_IMAGE006
其中
Figure DEST_PATH_IMAGE007
为事实文本分词结果中筛选出的第
Figure DEST_PATH_IMAGE008
个词,
Figure DEST_PATH_IMAGE009
表示事实文本分词结果中第
Figure DEST_PATH_IMAGE010
个词的第
Figure DEST_PATH_IMAGE011
个实体关系,
Figure DEST_PATH_IMAGE012
表示与事实文本分词结果中第
Figure 938408DEST_PATH_IMAGE010
个词关系为
Figure 482259DEST_PATH_IMAGE009
的第
Figure DEST_PATH_IMAGE013
个实体
通过引入位置编码捕捉文本结构信息,当前文本中引入了外部知识,采用基于bert的位置编码改进的软位置编码方式,通过利用文本树结构,将原文本序列连续编码,对关键词引入的外部知识,在关键词编码的基础上进行位置编码,捕捉文本中词相对位置信息和引入外部知识信息,具体公式为:
Figure DEST_PATH_IMAGE014
其中
Figure DEST_PATH_IMAGE015
为当前词在文本中的软位置,
Figure DEST_PATH_IMAGE016
为模型维度,
Figure DEST_PATH_IMAGE017
表示位置编码维度;
最终完成事实文本混合编码,结合中文维基百科训练的词向量,对事实文本中的每个词
Figure DEST_PATH_IMAGE018
的编码方式为结合词向量即软位置向量:
Figure DEST_PATH_IMAGE019
其中
Figure DEST_PATH_IMAGE020
表示词
Figure 221676DEST_PATH_IMAGE018
对应的词向量,
Figure DEST_PATH_IMAGE021
表示词
Figure 98365DEST_PATH_IMAGE018
对应的软位置编码。
步骤4)基于模型互学习技术使用多结构模型训练案件风险分类任务,
在案件风险评估的任务中,将步骤3中得出的事实文本混合编码输入模型,通过不同的网路结构得到不同的输出,可用于案件风险评估的模型Model有CNN、Bi-LSTM、transformer模型及其变体,通过不同结构的网络对刑事案件输入特征进行编码:
Figure DEST_PATH_IMAGE022
其中
Figure DEST_PATH_IMAGE023
表示词刑事案件输入特征,
Figure DEST_PATH_IMAGE024
表示互学习模型框架中的第
Figure DEST_PATH_IMAGE025
个模型,
Figure DEST_PATH_IMAGE026
为第
Figure DEST_PATH_IMAGE027
个模型的输出结果,其具体为一个
Figure DEST_PATH_IMAGE028
维向量:
Figure DEST_PATH_IMAGE029
其中
Figure DEST_PATH_IMAGE030
表示第
Figure 357046DEST_PATH_IMAGE027
维输出结果;
在所属类别预测任务中,将编码结果输入到
Figure DEST_PATH_IMAGE031
层:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE033
为第
Figure 778407DEST_PATH_IMAGE027
个模型输出对输入数据
Figure DEST_PATH_IMAGE034
的判别结果属于第
Figure DEST_PATH_IMAGE035
个类别的概率。
其中,5)计算模型中不同结构模型对应的损失函数,具体如下,
将刑事案件风险评估视为多目标分类任务,对多目标分类任务而言,模型
Figure DEST_PATH_IMAGE036
的损失函数采用交叉熵表示:
Figure DEST_PATH_IMAGE037
其中,
Figure DEST_PATH_IMAGE038
为样本数量,
Figure DEST_PATH_IMAGE039
为类别数量,
Figure DEST_PATH_IMAGE040
为第
Figure DEST_PATH_IMAGE041
条数据对应的真实类别,
Figure DEST_PATH_IMAGE042
相当于如下指数函数,若标签值和预测值相同,则置为1,否则为0:
Figure DEST_PATH_IMAGE043
使用KL散度两两度量不同结构模型输出类别概率分布的匹配程度,计算模型
Figure 914990DEST_PATH_IMAGE036
和模型
Figure DEST_PATH_IMAGE044
输出的类别分布匹配程度公式具体如下:
Figure DEST_PATH_IMAGE045
其中,
Figure DEST_PATH_IMAGE046
为样本数量,
Figure DEST_PATH_IMAGE047
为类别数量;
综上,根据匹配程度对模型
Figure 100002_DEST_PATH_IMAGE048
的损失函数进行更新,得到:
Figure DEST_PATH_IMAGE049
其中,6)选取平均准确率最高的模型,进行刑事案件风险评估,具体如下,当模型训练完成后,通过关注各模型评价指标得分情况,选取平均得分较高的案件风险评估模型,作为刑事案件风险评估模型。
相对于现有技术,本发明具有如下优点,该技术方案经过实验分析表明,本方法提出的一种基于案件事实混合编码面向刑事案件风险互学习评估方法,利用外部知识库对事实文书进行扩充,通过异构模型间的互学习技术进行模型训练,结合了不同结构的模型所提取的语义向量,通过模型间的相互学习,打破不同结构的知识壁垒,共同提升模型知识获取的能力,提升多结构的检务知识的利用效率,可以有效地针对不同罪名的刑事案件中对嫌疑人的羁押必要性进行预测。
附图说明
图1是本方案整体流程示意图;
图2是本方案中互学习模型示意图。
具体实施方式
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1、图2,一种基于案件事实混合编码面向刑事案件风险互学习评估方法,所述方法包括以下步骤:
1)构建与常见刑事案件相关的法律知识库;
2)对案件事实进行分词,筛选案件事实文本关键词;
3)通过引入知识库中相关知识,构建事实文本树,实现事实文本混合编码;
4)基于模型互学习技术使用多结构模型训练案件风险分类任务;
5)计算模型中不同结构模型对应的损失函数;
6)根据模型测试结果,选取平均准确率最高的模型,进行刑事案件风险评估。
具体如下:本方法覆盖的刑事案件罪名包括交通肇事罪、危险驾驶罪、盗窃罪、抢劫罪、容留他人吸毒罪、故意伤害罪和诈骗罪。关于刑事案件的原始数据的内容如下例所示(对其中涉及人名做脱敏处理):
例1:
罪名:故意伤害罪
案情描述:2020年8月2日0时10分许,犯罪嫌疑人张某驾车至本市静安区铜仁路152号酒吧门口,与该酒吧保安朱某发生口角后发生肢体冲突并互相斗殴,期间张某拿出随身携带匕首将朱某刺伤,案发后张某主动投案。
例2:
罪名:盗窃罪
案情描述:2020年5月1日许,犯罪嫌疑人翟某某趁被害人高某某家中无人之机,翻墙进入被害人高某某家中,窃得手机一部。
根据以上数据内容,本方法的具体实施步骤如下:
1)构建与嫌疑人犯罪特征相关的法律知识库
针对不同刑事案件对应的案情描述,通过刑事案件风险评估专家指导,结合相关法律法规,进行法律知识库的构建。知识库主要针对不同犯罪情节进行定义或解释,我们从库中选取了几个例子,这些例子的内容如下:
法律知识库例1:
入户盗窃:是指以违法占有为目的,非法进入家庭及其成员与外界相对隔离的生活场所,采用规避他人管控的方式,转移而侵占他人财物管控权的行为。
法律知识库例2:
自首:犯罪以后自动投案,如实供述自己的罪行的,是自首。
法律知识库例3:
饮酒驾车:驾驶人血液中的酒精含量大于(等于)20毫克/100毫升、小于80毫克/100毫升的行为属于饮酒驾车。
针对不同刑事案件对应嫌疑人信息描述,通过嫌疑人信息抽取匹配,结合手工整理,进行嫌疑人信息库的构建。嫌疑人信息库主要针对不同犯罪案件的嫌疑人基本信息进行存储,我们从库中选取了几个例子,这些例子的内容如下:
嫌疑人信息库例1:
“张三”:{“性别”:“男”,“年龄”:“27”,“涉嫌罪名”:“盗窃罪”,…}。
嫌疑人信息库例2:
“李四”:{“性别”:“男”,“年龄”:“25”,“涉嫌罪名”:“故意伤害罪”,…}。
2)对案件事实进行分词,筛选案件事实文本关键词;
使用分词工具对事实描述文本进行分词,得到分词结果序列:
Figure DEST_PATH_IMAGE050
例如上述例2中的案件事实对应分词结果为:“2020/年/5/月/1/日许/,/犯罪/嫌疑人/翟某某/趁/被害人/高某某/家中/无人之际/,/翻墙/进入/被害人/高某某/家中/,/窃得/手机/一部/。/”。
然后使用TextRank算法筛选分词结果中的重要词,结果为:
Figure DEST_PATH_IMAGE051
本例中筛选结果为{“翟某某”,“翻墙”,“高某某”,“手机”}。
3)通过引入知识库中相关知识,构建事实文本树,实现事实文本混合编码;
通过实体链接技术,把案件事实关键字映射到知识库中对应的实体上,找到关键字在知识库中的解释。通过引入维基百科词向量计算每个关键词对应的词向量与知识库中不同情节的词向量进行相似度计算,通过设置阈值,选取相似度最高且大于阈值的一个作为匹配结果,同时引入嫌疑人信息库引入嫌疑人相关信息,将上述外部知识信息和原始实体信息构建三元组,通过将三元组插入原始文本构建事实文本树,句子树平铺结果为:
Figure DEST_PATH_IMAGE052
如对步骤2中的词语“翟某某”,通过嫌疑人信息库引入嫌疑人相关信息,如“翟某某”:{“性别”:“男”,“年龄”:“35”,“涉嫌罪名”:“盗窃罪”,…},对词语“翻墙”,通过引入维基百科词向量计算“翻墙”对应的词向量与知识库中不同情节的词向量进行相似度计算,通过设置阈值,选取相似度最高且大于阈值的一个作为匹配结果,结果即为“入户盗窃”;即将步骤2中对应的例子扩充为
Figure DEST_PATH_IMAGE053
通过引入位置编码捕捉文本结构信息,由于当前文本中引入了外部知识,因此采用基于bert的位置编码改进的软位置编码方式,通过利用文本树结构,将原文本序列连续编码,对关键词引入的外部知识,在关键词编码的基础上进行位置编码,捕捉文本中词相对位置信息和引入外部知识信息。具体公式为:
Figure 20087DEST_PATH_IMAGE014
其中
Figure 544609DEST_PATH_IMAGE015
为当前词在文本中的软位置,
Figure 830097DEST_PATH_IMAGE016
为模型维度,
Figure 393540DEST_PATH_IMAGE017
表示位置编码维度;
最终完成事实文本混合编码,对事实文本中的每个词
Figure DEST_PATH_IMAGE054
的编码方式为结合词向量即软位置向量:
Figure DEST_PATH_IMAGE055
4)基于模型互学习技术使用多结构模型训练案件风险分类任务;
在案件风险评估的任务中,将步骤3中得出的事实文本混合编码输入模型,通过不同的网路结构得到不同的输出,常见的可用于案件风险评估的模型Model有CNN、Bi-LSTM、transformer等模型及其变体,通过不同结构的网络对刑事案件输入特征进行编码:
Figure DEST_PATH_IMAGE056
在所属类别预测任务中,将编码结果输入到
Figure DEST_PATH_IMAGE057
层:
Figure DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE059
为第
Figure DEST_PATH_IMAGE060
个模型输出对输入数据属于第
Figure DEST_PATH_IMAGE061
个类别的概率。
5)计算模型中不同结构模型对应的损失函数
将刑事案件风险评估视为多目标分类任务,对多目标分类任务而言,模型
Figure DEST_PATH_IMAGE062
的损失函数可以用交叉熵表示:
Figure DEST_PATH_IMAGE063
其中,
Figure DEST_PATH_IMAGE064
为样本数量,
Figure DEST_PATH_IMAGE065
为类别数量,
Figure DEST_PATH_IMAGE066
相当于如下指数函数,若标签值和预测值相同,则置为1,否则为0:
Figure DEST_PATH_IMAGE067
使用KL散度两两度量不同结构模型输出类别概率分布的匹配程度,计算模型
Figure DEST_PATH_IMAGE068
和模型
Figure DEST_PATH_IMAGE069
输出的类别分布匹配程度公式具体如下:
Figure DEST_PATH_IMAGE070
综上,根据匹配程度对模型
Figure 867990DEST_PATH_IMAGE068
的损失函数进行更新,得到:
Figure DEST_PATH_IMAGE071
6)选取平均准确率最高的模型,进行刑事案件风险评估;
当模型训练完成后,通过关注各模型评价指标得分情况,选取平均得分较高的案件风险评估模型,作为刑事案件风险评估模型。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (4)

1.基于案件事实混合编码面向刑事案件风险互学习评估方法,其特征在于,具体如下:
1)构建与常见刑事案件相关的法律知识库;
2)对案件事实进行分词,筛选案件事实文本关键词;
3)通过引入知识库中相关知识,构建事实文本树,实现事实文本混合编码;
4)基于模型互学习技术使用多结构模型训练案件风险分类任务;
5)计算模型中不同结构模型对应的损失函数;
6)根据模型测试结果,选取平均准确率最高的模型,进行刑事案件风险评估;
步骤1) 构建与嫌疑人犯罪特征相关的法律知识库,针对不同刑事案件对应的案情描述,通过刑事案件风险评估专家指导,结合相关法律法规,进行法律知识库的构建,知识库主要针对不同犯罪情节进行定义或解释;
2)对案件事实进行分词,筛选案件事实文本关键词,具体如下:
使用分词工具对事实描述文本进行分词,得到分词结果序列:
Figure 168858DEST_PATH_IMAGE001
Figure 372437DEST_PATH_IMAGE002
为事实文本分词结果中筛选出的第
Figure 794322DEST_PATH_IMAGE003
个词
然后使用TextRank算法筛选分词结果中的重要词,结果为:
Figure 295711DEST_PATH_IMAGE004
其中
Figure 322704DEST_PATH_IMAGE005
为事实文本分词结果中筛选出的第
Figure 618556DEST_PATH_IMAGE006
个关键词;
步骤3)通过引入知识库中相关知识,构建事实文本树,实现事实文本混合编码,具体如下,
通过实体链接技术,把案件事实关键字映射到知识库中对应的实体上,找到关键字在知识库中的解释,通过引入维基百科词向量计算每个关键词对应的词向量与知识库中不同情节的词向量进行相似度计算,通过设置阈值,选取相似度最高且大于阈值的一个作为匹配结果,同时引入嫌疑人信息库引入嫌疑人相关信息,将外部知识信息和原始实体信息构建三元组,通过将三元组插入原始文本构建事实文本树,句子树平铺结果为:
Figure 852703DEST_PATH_IMAGE007
其中
Figure 846198DEST_PATH_IMAGE002
为事实文本分词结果中筛选出的第
Figure 39282DEST_PATH_IMAGE003
个词,
Figure 991189DEST_PATH_IMAGE008
表示事实文本分词结果中第
Figure 715562DEST_PATH_IMAGE009
个词的第
Figure 293174DEST_PATH_IMAGE010
个实体关系,
Figure 297689DEST_PATH_IMAGE011
表示与事实文本分词结果中第
Figure 669765DEST_PATH_IMAGE009
个词关系为
Figure 553538DEST_PATH_IMAGE008
的第
Figure 934841DEST_PATH_IMAGE012
个实体;
通过引入位置编码捕捉文本结构信息,当前文本中引入了外部知识,采用基于bert的位置编码改进的软位置编码方式,通过利用文本树结构,将原文本序列连续编码,对关键词引入的外部知识,在关键词编码的基础上进行位置编码,捕捉文本中词相对位置信息和引入外部知识信息,具体公式为:
Figure 915566DEST_PATH_IMAGE013
其中
Figure 209276DEST_PATH_IMAGE014
为当前词在文本中的软位置,
Figure 829613DEST_PATH_IMAGE015
为模型维度,
Figure 700092DEST_PATH_IMAGE016
表示位置编码维度;
最终完成事实文本混合编码,结合中文维基百科训练的词向量,对事实文本中的每个词
Figure 722275DEST_PATH_IMAGE017
的编码方式为结合词向量即软位置向量:
Figure 186885DEST_PATH_IMAGE018
其中
Figure 373147DEST_PATH_IMAGE019
表示词
Figure 830673DEST_PATH_IMAGE017
对应的词向量,
Figure 458095DEST_PATH_IMAGE020
表示词
Figure 811716DEST_PATH_IMAGE017
对应的软位置编码。
2.根据权利要求1所述的基于案件事实混合编码面向刑事案件风险互学习评估方法,其特征在于,步骤4)基于模型互学习技术使用多结构模型训练案件风险分类任务,
在案件风险评估的任务中,将步骤3中得出的事实文本混合编码输入模型,通过不同的网路结构得到不同的输出,可用于案件风险评估的模型Model有CNN、Bi-LSTM、transformer模型及其变体,通过不同结构的网络对刑事案件输入特征进行编码:
Figure 883009DEST_PATH_IMAGE021
其中
Figure 409806DEST_PATH_IMAGE022
表示词刑事案件输入特征,
Figure 626155DEST_PATH_IMAGE023
表示互学习模型框架中的第
Figure 947415DEST_PATH_IMAGE024
个模型,
Figure 514793DEST_PATH_IMAGE025
为第
Figure 392751DEST_PATH_IMAGE026
个模型的输出结果,其具体为一个
Figure 244032DEST_PATH_IMAGE027
维向量:
Figure 483996DEST_PATH_IMAGE028
其中
Figure 725621DEST_PATH_IMAGE029
表示第
Figure 79373DEST_PATH_IMAGE026
维输出结果;
在所属类别预测任务中,将编码结果输入到
Figure 50740DEST_PATH_IMAGE030
层:
Figure 526852DEST_PATH_IMAGE031
其中,
Figure 334402DEST_PATH_IMAGE032
为第
Figure 475534DEST_PATH_IMAGE026
个模型输出对输入数据
Figure 992752DEST_PATH_IMAGE033
的判别结果属于第
Figure 561137DEST_PATH_IMAGE034
个类别的概率。
3.根据权利要求2所述的基于案件事实混合编码面向刑事案件风险互学习评估方法,其特征在于,5)计算模型中不同结构模型对应的损失函数,具体如下,
将刑事案件风险评估视为多目标分类任务,对多目标分类任务而言,模型
Figure 590404DEST_PATH_IMAGE035
的损失函数采用交叉熵表示:
Figure 800806DEST_PATH_IMAGE036
其中,
Figure 966339DEST_PATH_IMAGE037
为样本数量,
Figure 49832DEST_PATH_IMAGE038
为类别数量,
Figure 550084DEST_PATH_IMAGE039
为第
Figure 46400DEST_PATH_IMAGE040
条数据对应的真实类别,
Figure 784549DEST_PATH_IMAGE041
相当于如下指数函数,若标签值和预测值相同,则置为1,否则为0:
Figure 445468DEST_PATH_IMAGE042
使用KL散度两两度量不同结构模型输出类别概率分布的匹配程度,计算模型
Figure 698595DEST_PATH_IMAGE043
和模型
Figure 735952DEST_PATH_IMAGE044
输出的类别分布匹配程度公式具体如下:
Figure 203974DEST_PATH_IMAGE045
其中,
Figure 550642DEST_PATH_IMAGE046
为样本数量,
Figure 56445DEST_PATH_IMAGE047
为类别数量;
综上,根据匹配程度对模型
Figure 84444DEST_PATH_IMAGE035
的损失函数进行更新,得到:
Figure DEST_PATH_IMAGE048
4.根据权利要求3所述的基于案件事实混合编码面向刑事案件风险互学习评估方法,其特征在于,6)选取平均准确率最高的模型,进行刑事案件风险评估,具体如下,当模型训练完成后,通过关注各模型评价指标得分情况,选取平均得分较高的案件风险评估模型,作为刑事案件风险评估模型。
CN202210039747.2A 2022-01-14 2022-01-14 基于案件事实混合编码面向刑事案件风险互学习评估方法 Active CN114091462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210039747.2A CN114091462B (zh) 2022-01-14 2022-01-14 基于案件事实混合编码面向刑事案件风险互学习评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210039747.2A CN114091462B (zh) 2022-01-14 2022-01-14 基于案件事实混合编码面向刑事案件风险互学习评估方法

Publications (2)

Publication Number Publication Date
CN114091462A CN114091462A (zh) 2022-02-25
CN114091462B true CN114091462B (zh) 2022-04-22

Family

ID=80308790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210039747.2A Active CN114091462B (zh) 2022-01-14 2022-01-14 基于案件事实混合编码面向刑事案件风险互学习评估方法

Country Status (1)

Country Link
CN (1) CN114091462B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115396161A (zh) * 2022-08-10 2022-11-25 中国第一汽车股份有限公司 车辆网络安全的评估方法、装置以及云服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN113065347A (zh) * 2021-04-26 2021-07-02 上海交通大学 基于多任务学习的刑事案件判决预测方法、系统及介质
CN113888368A (zh) * 2021-11-10 2022-01-04 深圳航天科创实业有限公司 基于图编码面向刑事案件羁押风险评估的特征选择方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548934B2 (en) * 2009-11-17 2013-10-01 Infozen, Inc. System and method for assessing risk
CN109213864A (zh) * 2018-08-30 2019-01-15 广州慧睿思通信息科技有限公司 基于深度学习的刑事案件预判系统及其构建和预判方法
CN109376963B (zh) * 2018-12-10 2022-04-08 杭州世平信息科技有限公司 一种基于神经网络的刑事案件罪名法条联合预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN113065347A (zh) * 2021-04-26 2021-07-02 上海交通大学 基于多任务学习的刑事案件判决预测方法、系统及介质
CN113888368A (zh) * 2021-11-10 2022-01-04 深圳航天科创实业有限公司 基于图编码面向刑事案件羁押风险评估的特征选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
资产评估行业的刑事风险及防范;李永军等;《中国价格监管与反垄断》;20200620(第6期);第46-60页 *

Also Published As

Publication number Publication date
CN114091462A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN108073569B (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
Henman Improving public services using artificial intelligence: possibilities, pitfalls, governance
O'Donnell Challenging racist predictive policing algorithms under the equal protection clause
CN110276068B (zh) 法律案情分析方法及装置
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
CN111444353B (zh) 一种警情知识图谱的构建及使用方法
CN113254594A (zh) 一种面向智慧电厂的安全知识图谱构建方法及系统
CN113888368B (zh) 基于图编码面向刑事案件羁押风险评估的特征选择方法
Tonkin et al. A comparison of logistic regression and classification tree analysis for behavioural case linkage
CN112100398B (zh) 一种专利空白预测方法及系统
CN113326358B (zh) 基于知识图谱语义匹配的地震灾害信息服务方法和系统
CN110675023A (zh) 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置
CN113312490B (zh) 一种针对突发事件的事件知识图谱构建方法
CN114091462B (zh) 基于案件事实混合编码面向刑事案件风险互学习评估方法
Li et al. An approach for understanding offender modus operandi to detect serial robbery crimes
Wang et al. Equality before the law: legal judgment consistency analysis for fairness
CN111985207A (zh) 一种访问控制策略的获取方法、装置及电子设备
Kovalchuk et al. A Scoring Model for Support Decision Making in Criminal Justice
Metsker et al. Application of machine learning metrics for dynamic E-justice processes
Sinyangwe et al. Detecting hate speech and offensive language using machine learning in published online content
CN117349437A (zh) 基于智能ai的政府信息管理系统及其方法
CN116205350A (zh) 基于法律文书的再犯人身危险性分析预测系统和方法
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Mihna et al. Using information technology for comprehensive analysis and prediction in forensic evidence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant