CN113888368B - 基于图编码面向刑事案件羁押风险评估的特征选择方法 - Google Patents

基于图编码面向刑事案件羁押风险评估的特征选择方法 Download PDF

Info

Publication number
CN113888368B
CN113888368B CN202111329040.7A CN202111329040A CN113888368B CN 113888368 B CN113888368 B CN 113888368B CN 202111329040 A CN202111329040 A CN 202111329040A CN 113888368 B CN113888368 B CN 113888368B
Authority
CN
China
Prior art keywords
criminal
graph
characteristic
loss function
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111329040.7A
Other languages
English (en)
Other versions
CN113888368A (zh
Inventor
张廉臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Original Assignee
Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aerospace Technology & Innovation Industrial Co ltd filed Critical Shenzhen Aerospace Technology & Innovation Industrial Co ltd
Priority to CN202111329040.7A priority Critical patent/CN113888368B/zh
Publication of CN113888368A publication Critical patent/CN113888368A/zh
Application granted granted Critical
Publication of CN113888368B publication Critical patent/CN113888368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图编码结合深度强化学习面向刑事案件羁押风险评估的特征选择方法,主要用于刑事犯罪羁押风险评估的重要特征选择。本发明通过引入外部知识库构建犯罪特征知识图谱,随后使用图注意力网络层和多图交互将图编码后,并利用多任务预测结合深度强化学习来推断出羁押必要性,最后根据特征图编码部分的注意力分布情况选择出权重较高的特征,完成羁押风险评估特征选择任务。由于不同的刑事案件所记录的嫌疑人的犯罪特征有所不同,本方法分别对不同的刑事案件进行了针对性训练,以提升模型的准确性。本方法处理的刑事案件包括:盗窃罪,危险驾驶罪,交通肇事罪,诈骗罪,故意伤害罪,抢劫罪,强奸罪,容留他人吸毒罪。

Description

基于图编码面向刑事案件羁押风险评估的特征选择方法
技术领域
本发明属于自然语言处理领域,涉及到一种基于图编码面向刑事案件羁押风险评估的特征选择方法。
背景技术
随着机器学习的高速发展,各类机器学习算法被广泛应用于越来越多的领域,这些机器学习的成果为人们带来了很大的便利。在机器学习中,特征工程是重中之重,选择合适的特征会使模型的性能得到提升。更具体地讲,选择更好的特征,可以为机器学习模型带来以下几点好处:
1)降低了模型的复杂度,节省了大量计算资源以及计算时间;
2)提高了模型的泛化能力。泛化能力指的是机器学习算法对新鲜样本的适应能力。通俗的来讲,如果一个模型对训练样本有较好的效果,而对测试样本或样本以外的实例效果较差,则该模型的泛化能力就较差。
由于特征选择在机器学习领域十分重要,所以关于特征选择的方法也有很多,不同种类方法特点不同,各具优劣。目前,常见的特征选择方法有如下几类:
1)过滤法(Filter):按照发散性或者相关性对各个特征进行评分,对分数设定阈值或者选择靠前得分的特征。该类方法较为简单,但若存在相关性较强的特征都排名靠前,就会造成冗余特征的引入,最终导致特征选择效果较差;
2)包裹法(Wrapper):根据目标函数,每次选择若干特征或者排除若干特征,对排除特征后的模型进行评价,直到选择出最佳的特征子集。该方法一般不会造成过滤法导致的冗余特征选择,但需要消耗大量的计算资源;
3)嵌入法(Embedding):先使用某些机器学习的算法和模型进行训练,评价不同特征对模型的贡献,进而选择贡献较大的特征。
目前,在辅助判决人工智能领域,特征选择的重要性也日渐凸显。例如,检察机关在对刑事案件审理的过程中,会对嫌疑人的犯罪特征对羁押必要性进行判断,作为是否羁押的重要因素之一。但由于对犯罪嫌疑人特征的统计越来越全面,对犯罪种类和情况的考虑越来越具体,特征选择工作的难度逐渐提升。基于此,本工作提出了一种基于图编码面向刑事案件羁押风险评估的特征选择方法。主要用于在给定数据的条件下对影响羁押风险结果的重要特征进行选择。
发明内容
本发明要解决的技术问题在于不同种类犯罪的嫌疑人的不同特征对其羁押必要性结果的影响大小不同,难以简单通过这些特征对该嫌疑人的羁押必要性进行准确判断,本发明提供了一种基于图编码面向刑事案件羁押风险评估的特征选择方法。
本发明解决其技术问题所采用的技术方案是:一种基于图编码面向刑事案件羁押风险评估的特征选择方法。该方法首先引入了外部知识库,通过将数据键值映射到外部知识库后根据句向量的余弦相似程度利用多视角构建三个特征子图,之后对子图进行编码,通过对图谱的多任务学习完成对嫌疑人的人身危险性,社会危害性和再犯罪风险性的预测,预测出犯罪嫌疑人的羁押必要性,随后由本文解码器输出对羁押结果的预测原因。最后,在特征的选择方面,我们可以在模型训练完成后从特征图权重较高的一些特征节点筛选出影响羁押结果的重要特征。
本发明的基于图编码面向刑事案件羁押风险评估的特征选择方法包括如下步骤:
1)构建与嫌疑人犯罪特征相关的法律知识库;
2)根据计算出的特征结点的相似度和相似度关系判定条件构建犯罪特征知识图谱;
3)根据设计的模型结构图进行图编码;
4)基于犯罪知识图谱使用多任务学习训练三个子任务;
5)利用文本解码器输出预测结果的原因;
6)计算模型中预测任务和生成任务的损失函数;
7)根据特征图编码部分的注意力分布情况,选取特征图权重较高的特征结点,其对应特征即对羁押风险评估的重要特征。
作为本发明的一种改进,所述步骤1)中,具体如下:构建了关于不同犯罪涉及到的犯罪特征的知识库,该知识库主要包含了不同犯罪特征的定义或解释,知识库的具体构建方法为使用爬虫爬取特征的定义或解释后人工筛选构建知识库。
作为本发明的一种改进,所述步骤2)中,具体如下:利用实体链接将数据映射到知识库中的对应实体上,之后使用分词工具分词,得到词向量,并取平均得到句向量,通过计算句向量的余弦相似度和相似度关系,从多视角构建特征子图。
作为本发明的一种改进,所述步骤3)中,具体如下:引入了图注意力网络和多图交互学习模块,具体内容如下:
31)构建完特征子图之后,使用图注意力网络即Graph Attention Network, GAT来分别学习每个特征子图中的节点的表示图注意力网络用以下公式来更新节点表示:
Figure 581753DEST_PATH_IMAGE001
Figure 766747DEST_PATH_IMAGE002
其中,
Figure 726612DEST_PATH_IMAGE003
Figure 660064DEST_PATH_IMAGE004
是可以学习的参数,
Figure 236539DEST_PATH_IMAGE005
表示向量拼接操作,
Figure 959645DEST_PATH_IMAGE006
为子图经过编码的节点表示,
Figure 309371DEST_PATH_IMAGE007
Figure 662992DEST_PATH_IMAGE008
激活函数对参数的计算结果,
Figure 461184DEST_PATH_IMAGE009
为上述结果的
Figure 925663DEST_PATH_IMAGE010
规范化概率,
Figure 876433DEST_PATH_IMAGE011
Figure 463272DEST_PATH_IMAGE012
函数,
Figure 483181DEST_PATH_IMAGE013
为更新的节点表示;32)使用了一个多图交互的联合学习模块,该模块有两部分组成,第一部分通过自注意力层进行所有视图的交互,实现信息共享,第二部分是融合层,通过计算不同视图的权重,将多视图表示结合起来。
作为本发明的一种改进,所述步骤4)中,具体如下:使用多任务学习,同时基于犯罪特征图谱训练三个子任务,来分别预测犯罪嫌疑人的人身危险性
Figure 266198DEST_PATH_IMAGE014
,社会危害性
Figure 55162DEST_PATH_IMAGE015
和再犯罪风险性
Figure 750586DEST_PATH_IMAGE016
,根据子任务结果和相关特征预测羁押必要性结果。
作为本发明的一种改进,步骤 5)利用文本解码器输出预测结果的原因;具体如下:
解码器是一个循环神经网络即Recurrent Neural Network, RNN,根据编码信息来生成句子,具体来说,循环神经网络通过之前时刻预测的词
Figure 70840DEST_PATH_IMAGE017
隐状态
Figure 142701DEST_PATH_IMAGE018
和上下文向量
Figure 51751DEST_PATH_IMAGE019
,来预测下一时刻的输出
Figure 918076DEST_PATH_IMAGE020
,上下文向量
Figure 164774DEST_PATH_IMAGE021
是根据子图中经过编码的节点表示
Figure 837064DEST_PATH_IMAGE022
计算得到,动态地捕捉到编码器的注意力信息,每个节点表示
Figure 866200DEST_PATH_IMAGE023
都包含关于整个特征图的信息,并且重点关注输入图中的第
Figure 654158DEST_PATH_IMAGE024
个节点周围的局部信息,上下文向量
Figure 401535DEST_PATH_IMAGE025
为这些节点表示的加权和,每个节点表示的权值
Figure 346357DEST_PATH_IMAGE026
计算为:
Figure 213688DEST_PATH_IMAGE027
其中
Figure 421815DEST_PATH_IMAGE028
为对齐模型对每个节点的评分结果,
Figure 187646DEST_PATH_IMAGE029
为节点表示,
Figure 155733DEST_PATH_IMAGE030
为计算的每个节点的权值,
Figure 893882DEST_PATH_IMAGE031
为上下文向量,
Figure 538490DEST_PATH_IMAGE032
是一个对齐模型,它对位置
Figure 729300DEST_PATH_IMAGE033
周围的输入节点和位置
Figure 731104DEST_PATH_IMAGE034
的输出匹配程度进行评分,分数基于RNN隐藏状态
Figure 589338DEST_PATH_IMAGE035
和输入图的第
Figure 404848DEST_PATH_IMAGE033
个节点表示,我们将对齐模型参数化为前馈神经网络,与其他网络一起进行训练。
作为本发明的一种改进,所述步骤6)中,具体如下:将任务分为两类,一部分为预测任务,一部分为生成任务,在预测任务中,模型要预测人身危险性,社会危害性,再犯罪风险性和羁押必要性,损失函数按任务的种类分为两类:
a)预测任务:
预测结果为二分类,以下为二分类交叉熵损失函数的公式:
Figure 630424DEST_PATH_IMAGE036
其中,
Figure 189581DEST_PATH_IMAGE037
为预测任务的损失函数,
Figure 902322DEST_PATH_IMAGE038
为样本的个数,
Figure 623154DEST_PATH_IMAGE039
为求和符号,
Figure 303402DEST_PATH_IMAGE040
为模型预测值,
Figure 400671DEST_PATH_IMAGE041
为真实值,
Figure 967919DEST_PATH_IMAGE042
为对数符号;
b)生成任务;
在传统的序列生成任务中,使用交叉熵损失函数:
Figure 672701DEST_PATH_IMAGE043
;
其中
Figure 325399DEST_PATH_IMAGE044
是第
Figure 226359DEST_PATH_IMAGE045
个位置的真实输出序列,但交叉熵损失函数的一个限制在于,它只能优化模型在训练集上的效果,在测试集上由于没有真实的输出序列作为参照,模型并不能优化交叉熵损失函数。因此,除了常规的交叉熵损失函数之外,我们还使用了一种强化学习损失函数来增强模型训练。强化学习损失是基于评估指标,因此在训练集和测试集上都可以进行优化。
我们将生成任务的训练分为两个阶段:在第一阶段中使用常规的交叉熵损失函数进行训练,使用交叉熵损失函数:
Figure 913692DEST_PATH_IMAGE046
其中
Figure 228524DEST_PATH_IMAGE047
是第
Figure 368518DEST_PATH_IMAGE048
个位置的真实输出序列,
在第二阶段中使用交叉熵损失函数和强化学习损失函数一起来微调模型,生成函数的损失函数可以表示为:
Figure 807590DEST_PATH_IMAGE049
Figure 349429DEST_PATH_IMAGE050
为缩放因子,用来控制两个损失的比重,我们采用了一种高效的强化学习算法,称为自临界序列训练(Self-Critical Sequence Training, SCST),它直接优化离散的评估指标。自临界序列训练是一种有效的强化学习算法,它利用自己的测试时间推理算法的输出来规范化它得到的奖励。在每次训练迭代中,强化学习损失函数是通过比较采样输出
Figure 396014DEST_PATH_IMAGE051
的奖励与基线输出
Figure 23304DEST_PATH_IMAGE052
的奖励来定义的,公式如下:
Figure 266067DEST_PATH_IMAGE053
其中,
Figure 911681DEST_PATH_IMAGE054
为强化学习的损失函数,
Figure 581696DEST_PATH_IMAGE055
为基线输出,
Figure 430704DEST_PATH_IMAGE056
是通过多项式采样获得,为采样输出,
Figure 24627DEST_PATH_IMAGE057
为每一个词的似然结果,是每一个词
Figure 541059DEST_PATH_IMAGE057
都是根据似然
Figure 381976DEST_PATH_IMAGE058
得到的,最小化上述损失相当于最大化采样输出的奖励高于相应的基线输出的奖励的可能性,强化学习中一个关键的问题在于挑选损失函数,定义
Figure 718280DEST_PATH_IMAGE059
为输出
Figure 283603DEST_PATH_IMAGE060
的奖励,通过计算比较生成的句子和真实的句子在某种评估指标即使用BLE下的得分可以得到,所以,模型的总损失为:
Figure 654542DEST_PATH_IMAGE061
其中,
Figure 666360DEST_PATH_IMAGE062
分别表示人身危险性,社会危害性,再犯罪风险性和羁押必要性的二分类交叉熵损失函数,
Figure 303009DEST_PATH_IMAGE063
为第二阶段生成函数的损失函数,由交叉熵损失函数和强化学习损失函数组成。
作为本发明的一种改进,所述步骤7)中,具体如下:根据特征图编码部分的注意力分布情况,通过特征图权重较高的一些特征节点对特征进行选择。
相对于现有技术,本发明的优点如下:经过实验分析表明,本方法提出的基于图编码面向刑事案件羁押风险评估的特征选择方法,可以有效地在不同的刑事案件中对人身危险性,社会危害性,再犯罪风险性和羁押必要性进行预测,生成有关嫌疑人是否被羁押的原因描述,同时可以有效的筛选出在这些任务中起到重要作用的嫌疑人犯罪特征。结果显示,该模型的预测效果较好,对人身危险性,社会危害性,再犯罪风险性和羁押必要性的预测结果符合预期,正确率高,模型对特征的筛选具有代表性,有良好的应用前景。
附图说明
图1是本发明的模型结构图;
图2是联合学习模块结构图;
图3是模型的工作流程示意图。
具体实施方式
下面结合原始数据、具体实施步骤和说明书附图对本发明作进一步的说明。
原始数据关于刑事案件的原始数据的内容如表1所示:
表1:原始数据内容;
Figure 425686DEST_PATH_IMAGE064
由于刑事案件种类较多,我们以盗窃罪为例,来介绍数据,完整的特征种类见附件。盗窃罪所包含的嫌疑人犯罪特征名有:扒窃;立功;坦白;自首;谅解;赔偿;系累犯;企图自杀;企图逃跑;入户盗窃;共同犯罪;出生日期;参与情况;多次盗窃;认罪认罚;有前科劣迹;实施新的犯罪;携带凶器盗窃;毁灭伪造证据;盗窃价值累计;达成刑事和解;因盗窃造成严重后果;干扰证人作证串供;可能实施新的犯罪;可能毁灭、伪造证据;具有法定从宽处罚情节;曾因盗窃受过刑事处罚;犯罪嫌疑人系未成年人;犯罪预备、未遂或中止;其他情节轻微、危害不大;组织、控制未成年人盗窃;犯罪嫌疑人的刑事责任能力;犯罪嫌疑人系75周岁以上的人;一年内曾因盗窃受过行政处罚;犯罪嫌疑人达到刑事责任年龄;违反取保候审规定,情节严重;违反监视居住规定,情节严重;可能判处十年有期徒刑以上刑罚;在医院盗窃病人或者其亲友财物;犯罪嫌疑人系盲人或又聋又哑的人;对被害人举报人控告人实施打击报复;本次可能判处徒刑以上刑罚、身份不明;本次可能判处徒刑以上刑罚、曾有故意犯罪;盗窃残疾人、孤寡老人、丧失劳动能力人的财物;有危害国家安全公共安全或者社会秩序的现实危险;盗窃救灾、抢险、防汛、优抚、扶贫、移民、救济款物;自然灾害、事故灾害、社会安全事件等突发事件期间,在事件发生地盗窃。
针对每一个盗窃罪嫌疑人,案件处理部门都会统计上述特征对应的属性值,通常为是否或者为一些数值等。每一个特征可以看成一个键值对(key, value)。例如:(扒窃:是),(立功:否),(企图逃跑:是),(出生日期:1978年7月12日),等等。
根据以上数据内容,本方法的具体实施步骤如下:
1)构建与嫌疑人犯罪特征相关的法律知识库
针对不同的犯罪特征,我们使用爬虫从互联网上爬取与特征的相关解释或定义,然后通过人工筛选的方式,进行法律知识库的构建。我们构建的知识库主要包含了不同犯罪特征的定义或解释,我们从库中选取了几个例子,这些例子的内容如下:
例子1:扒窃:在公共场所或公共交通工具上窃取他人随身携带的财物的行为为扒窃。
例子2:立功:是指犯罪分子有揭发他人犯罪行为,查证属实的,或者提供重要线索,从而得以侦破其他案件等情形的行为。
例子3:犯罪预备:为了犯罪,准备工具、制造条件。
2)构建犯罪特征知识图谱
我们通过实体链接,把犯罪特征键值对中的键映射到知识库中对应的实体上,找到犯罪特征在知识库中的解释。比如对于键值对“扒窃:是”,我们将键“扒窃”提取出来,然后通过字符串匹配,在知识库中进行检索,可以链接到知识库中的实体“扒窃”,从而提取到实体对应的属性,即犯罪特征的解释。我们提取出对每一个解释,使用Jieba[1]分词工具进行分词,例如实体“扒窃”所对应的特征属性使用Jieba分词后的结果为:“在公共场所或公共交通工具上窃取他人随身携带的财物的行为为扒窃”。然后使用基于中文维基百科训练的词向量,计算出分词后的每一个词对应词向量。通过对所有词向量的的值求平均,得到句向量,公式如下:
Figure 651131DEST_PATH_IMAGE065
其中
Figure 833851DEST_PATH_IMAGE066
为用Jieba分词后从维基百科词向量中获得的第k个词的词向量,n为每一句解释经过分词后获得的词的总个数,
Figure 394014DEST_PATH_IMAGE067
为经过计算后该解释的句向量。由此,我们计算出知识库中每一个特征对应解释的句向量,然后使用余弦相似函数,计算两两特征节点之间的余弦相似度S;
Figure 117119DEST_PATH_IMAGE068
我们从多视角(multi-view)来构建三个特征子图。设定两个阈值
Figure 462650DEST_PATH_IMAGE069
Figure 567003DEST_PATH_IMAGE070
Figure 99616DEST_PATH_IMAGE071
,根据两两特征节点之间相似度S的和阈值
Figure 829674DEST_PATH_IMAGE069
Figure 78646DEST_PATH_IMAGE070
的关系,我们在满足条件的节点之间添加边,从而构建出特征子图,我们用三个相似度关系判定条件构建出三个特征子图:
Figure 603169DEST_PATH_IMAGE072
Figure 888656DEST_PATH_IMAGE073
分别为通过根据不同的相似度来构建三个特征子图,通过这种构建方式可以让模型从多个视角学习局部特征关系。
3)图编码;
模型的结构图如图1所示。
a)图注意力网络层(Graph Attention Layer);
构建完特征子图之后,我们使用图注意力网络(Graph Attention Network, GAT)来分别学习每个特征子图中的节点的表示。图注意力网络在图结构数据上使用注意力机制,它通过将信息传播到相邻顶点来更新节点的表示,而相邻顶点的权值则通过注意机制自动学习。给定输入节点特征
Figure 156827DEST_PATH_IMAGE074
,图注意力网络用以下公式来更新节点表示:
Figure 962103DEST_PATH_IMAGE075
其中,
Figure 657526DEST_PATH_IMAGE076
Figure 227048DEST_PATH_IMAGE077
是可以学习的参数,
Figure 548177DEST_PATH_IMAGE078
表示向量拼接操作,为了提高网络性能,我们使用两层图注意力网络作为一个图注意力模块。我们将图注意力模块分别作用于
Figure 191648DEST_PATH_IMAGE079
三个不同的特征子图,分别得到
Figure 120289DEST_PATH_IMAGE080
为经过图注意力模块之后的输出表示;
b)多图交互联合学习模块(Joint Learning Module);
经过上面的注意力网络,模型学习到了基于单视图的子图表示。为了在学习过程中实现不同视图之间的协作,有效融合多视图表示,我们使用了一个多图交互的联合学习模块。该模块有两部分组成,第一部分通过自注意力层进行所有视图的交互,实现信息共享。第二部分是融合层,通过计算不同视图的权重,将多视图表示结合起来。
多图信息共享:虽然我们从不同视角提取了犯罪特征子图,但是这些犯罪特征子图也是高度相关的。为了让模型更好地学习到犯罪特征之间的关系,我们将不同的犯罪特征子图信息进行交互共享,增强模型从单视图的学习过程。我们使用自注意力层(Self-Attention Layer)来传递信息,进行多视图的交互。由于我们从三个视角提取了特征子图,
Figure 865523DEST_PATH_IMAGE081
,对于每一个表示
Figure 741075DEST_PATH_IMAGE082
,我们分别将一个健矩阵
Figure 504631DEST_PATH_IMAGE083
和一个查询矩阵
Figure 541858DEST_PATH_IMAGE084
与之关联,可以表示为:
Figure 269992DEST_PATH_IMAGE085
对于每一个视角,我们用以下公式在所有视角间进行信息传递:
Figure 683656DEST_PATH_IMAGE086
经过多图之间的信息交互共享,
Figure 567299DEST_PATH_IMAGE087
可以被看做为第
Figure 588475DEST_PATH_IMAGE024
个视角的全局的信息。为了将这个每个视角全局信息与局部信息相结合,使用以下公式:
Figure 557568DEST_PATH_IMAGE088
Figure 509344DEST_PATH_IMAGE089
为学习融合了局部和全局信息的第
Figure 247493DEST_PATH_IMAGE090
个子图的表示,
Figure 938106DEST_PATH_IMAGE091
为全局信息的权重。
多视角融合:使用了一个融合层(Fusion Layer)来将多视角的子图表示进行融合。为了强调重要的视角,将赋予每个视角一个权重,融合后的表示
Figure 394495DEST_PATH_IMAGE092
就是不同视角的子图表示的加权平均;
Figure 884382DEST_PATH_IMAGE093
Figure 290087DEST_PATH_IMAGE094
为多视角的不同子图的平均表示,
Figure 840017DEST_PATH_IMAGE095
为不同视角的权重,如果一个视角的子图表示距离平均表示越接近,那么这么视角就越重要,赋予的权重就越高。通过这种方式,我们可以将每个视角独立学习到的特征子图表示进行融合,获得更加丰富的原始特征图表示。然后将融合后的视角与多视图交互后的表示进行结合,得到最终的视图表示:
Figure 783702DEST_PATH_IMAGE096
4)多任务学习;
我们使用多任务学习,即同时基于犯罪特征图谱训练三个子任务,来分别预测犯罪嫌疑人的人身危险性
Figure 329478DEST_PATH_IMAGE097
,社会危害性
Figure 42219DEST_PATH_IMAGE098
和再犯罪风险性
Figure 28629DEST_PATH_IMAGE099
。再用三个子任务的预测结果,综合预测出犯罪嫌疑人的羁押必要性。最后经过文本解码器,生成有关嫌疑人是否被羁押的原因描述。
5)文本解码器;
解码器是一个循环神经网络即Recurrent Neural Network, RNN,根据编码信息来生成句子,具体来说,循环神经网络通过之前时刻预测的词
Figure 194031DEST_PATH_IMAGE100
隐状态
Figure 838770DEST_PATH_IMAGE101
和上下文向量
Figure 671597DEST_PATH_IMAGE102
,来预测下一时刻的输出
Figure 828909DEST_PATH_IMAGE103
。上下文向量
Figure 465296DEST_PATH_IMAGE021
是根据子图中经过编码的节点表示
Figure 366256DEST_PATH_IMAGE022
计算得到,动态地捕捉到编码器的注意力信息,每个节点表示
Figure 53589DEST_PATH_IMAGE023
都包含关于整个特征图的信息,并且重点关注输入图中的第
Figure 929272DEST_PATH_IMAGE024
个节点周围的局部信息,上下文向量
Figure 69266DEST_PATH_IMAGE025
为这些节点表示的加权和,每个节点表示的权值;
Figure 508338DEST_PATH_IMAGE026
计算为:
Figure 784599DEST_PATH_IMAGE027
其中
Figure 553488DEST_PATH_IMAGE028
为对齐模型对每个节点的评分结果,
Figure 977516DEST_PATH_IMAGE029
为节点表示,
Figure 220279DEST_PATH_IMAGE030
为计算的每个节点的权值,
Figure 367358DEST_PATH_IMAGE031
为上下文向量,
Figure 37373DEST_PATH_IMAGE032
是一个对齐模型,它对位置
Figure 886381DEST_PATH_IMAGE033
周围的输入节点和位置
Figure 932834DEST_PATH_IMAGE034
的输出匹配程度进行评分,分数基于RNN隐藏状态
Figure 432954DEST_PATH_IMAGE035
和输入图的第
Figure 70609DEST_PATH_IMAGE033
个节点表示,将对齐模型参数化为前馈神经网络,与其他网络一起进行训练。
将任务分为两类,一部分为预测任务,一部分为生成任务。在预测任务中,模型要预测人身危险性,社会危害性,再犯罪风险性和羁押必要性。损失函数按任务的种类分为两类:
a)预测任务:
预测结果为二分类,以下为二分类交叉熵损失函数的公式:
Figure 672492DEST_PATH_IMAGE036
其中,
Figure 742210DEST_PATH_IMAGE037
为预测任务的损失函数,
Figure 113149DEST_PATH_IMAGE038
为样本的个数,
Figure 921705DEST_PATH_IMAGE039
为求和符号,
Figure 263081DEST_PATH_IMAGE040
为模型预测值,
Figure 120178DEST_PATH_IMAGE041
为真实值,
Figure 345623DEST_PATH_IMAGE042
为对数符号;
b)生成任务:
在传统的序列生成任务中,一般都使用交叉熵损失函数:
Figure 341392DEST_PATH_IMAGE104
其中
Figure 652288DEST_PATH_IMAGE105
是第
Figure 313076DEST_PATH_IMAGE106
个位置的真实输出序列。但交叉熵损失函数的一个限制在于,它只能优化模型在训练集上的效果,在测试集上由于没有真实的输出序列作为参照,模型并不能优化交叉熵损失函数。因此,除了常规的交叉熵损失函数之外,我们还使用了一种强化学习损失函数来增强模型训练。强化学习损失是基于评估指标,因此在训练集和测试集上都可以进行优化。
将生成任务的训练分为两个阶段:在第一阶段中使用常规的交叉熵损失函数进行训练,在第二阶段中使用交叉熵损失函数和强化学习损失函数一起来微调模型。生成函数的损失函数可以表示为:
Figure 658607DEST_PATH_IMAGE107
Figure 58233DEST_PATH_IMAGE108
为缩放因子,用来控制两个损失的比重。我们采用了一种高效的强化学习算法,称为自临界序列训练(Self-Critical Sequence Training, SCST),它直接优化离散的评估指标。自临界序列训练是一种有效的强化学习算法,它利用自己的测试时间推理算法的输出来规范化它得到的奖励。在每次训练迭代中,强化学习损失函数是通过比较采样输出
Figure 856425DEST_PATH_IMAGE109
的奖励与基线输出
Figure 320904DEST_PATH_IMAGE110
的奖励来定义的,公式如下:
Figure 271674DEST_PATH_IMAGE111
Figure 796196DEST_PATH_IMAGE112
是通过多项式采样获得,也就是每一个词
Figure 81684DEST_PATH_IMAGE113
都是根据似然
Figure 349854DEST_PATH_IMAGE114
得到的。最小化上述损失相当于最大化采样输出的奖励高于相应的基线输出的奖励的可能性。强化学习中一个关键的问题在于挑选损失函数。我们定义
Figure 447473DEST_PATH_IMAGE115
为输出
Figure 408476DEST_PATH_IMAGE116
的奖励,通过计算比较生成的句子和真实的句子在某种评估指标(使用BLEU)下的得分可以得到。所以,模型的总损失为:
Figure 915681DEST_PATH_IMAGE117
7)特征选择;
当模型训练完成后,我们通过关注特征图编码部分的注意力分布情况,可以找出特征图权重较高的一些特征节点,作为筛选出的对羁押风险评估起重要作用的特征。
需要说明书的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (4)

1.基于图编码面向刑事案件羁押风险评估的特征选择方法,其特征在于,该方法包括如下步骤:
步骤1)构建与嫌疑人犯罪特征相关的法律知识库;
步骤2)根据计算出的特征结点的相似度和相似度关系判定条件构建犯罪特征知识图谱;所述步骤2)中,具体如下:
利用实体链接将数据映射到知识库中的对应实体上,之后使用分词工具分词,得到词向量,并取平均得到句向量,通过计算句向量的余弦相似度和相似度关系,从多视角构建特征子图;
步骤3)根据设计的模型结构图进行图编码;所述步骤3)中,具体如下:
引入了图注意力网络和多图交互学习模块,具体内容如下:
31)构建完特征子图之后,使用图注意力网络即Graph Attention Network, GAT来分别学习每个特征子图中的节点的表示图注意力网络用以下公式来更新节点表示:
Figure DEST_PATH_IMAGE001
Figure 529168DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
Figure 888474DEST_PATH_IMAGE004
是可以学习的参数,
Figure DEST_PATH_IMAGE005
表示向量拼接操作,
Figure 512354DEST_PATH_IMAGE006
为子图经过编码的节点表示,
Figure DEST_PATH_IMAGE007
Figure 171874DEST_PATH_IMAGE008
激活函数对参数的计算结果,
Figure DEST_PATH_IMAGE009
为上述结果的
Figure 957427DEST_PATH_IMAGE010
规范化概率,
Figure DEST_PATH_IMAGE011
Figure 69609DEST_PATH_IMAGE012
函数,
Figure DEST_PATH_IMAGE013
为更新的节点表示;
32)使用了一个多图交互的联合学习模块,该模块有两部分组成,第一部分通过自注意力层进行所有视图的交互,实现信息共享,第二部分是融合层,通过计算不同视图的权重,将多视图表示结合起来;步骤4)基于犯罪特征知识图谱利用多任务学习训练三个子任务;所述步骤4)中,具体如下:使用多任务学习,同时基于犯罪特征图谱训练三个子任务,来分别预测犯罪嫌疑人的人身危险性
Figure 966021DEST_PATH_IMAGE014
,社会危害性
Figure DEST_PATH_IMAGE015
和再犯罪风险性
Figure 214468DEST_PATH_IMAGE016
,根据子任务结果和相关特征预测羁押必要性结果;步骤5)利用文本解码器输出预测结果的原因;步骤6)计算模型中预测任务和生成任务的损失函数;所述步骤6)中,具体如下:将任务分为两类,一部分为预测任务,一部分为生成任务,在预测任务中,模型要预测人身危险性,社会危害性,再犯罪风险性和羁押必要性,损失函数按任务的种类分为两类:
a)预测任务:
预测结果为二分类,以下为二分类交叉熵损失函数的公式:
Figure DEST_PATH_IMAGE017
其中
Figure 170923DEST_PATH_IMAGE018
为预测任务的损失函数,
Figure DEST_PATH_IMAGE019
为样本的个数,
Figure 380187DEST_PATH_IMAGE020
为求和符号,
Figure DEST_PATH_IMAGE021
为模型预测值,
Figure 595137DEST_PATH_IMAGE022
为真实值,
Figure DEST_PATH_IMAGE023
为对数符号;
b)生成任务:
将生成任务的训练分为两个阶段:在第一阶段中使用交叉熵损失函数进行训练,
交叉熵损失函数:
Figure 448823DEST_PATH_IMAGE024
其中
Figure DEST_PATH_IMAGE025
是第
Figure 559868DEST_PATH_IMAGE026
个位置的真实输出序列,
在第二阶段中使用交叉熵损失函数和强化学习损失函数一起来微调模型,生成函数的损失函数表示为:
Figure DEST_PATH_IMAGE027
其中,
Figure 397374DEST_PATH_IMAGE028
为生成函数的损失函数,
Figure DEST_PATH_IMAGE029
为强化学习的损失函数,
Figure 884856DEST_PATH_IMAGE030
为缩放因子,用来控制两个损失的比重,
Figure DEST_PATH_IMAGE031
为上文中提到的交叉熵损失,在每次训练迭代中,强化学习损失函数是通过比较采样输出
Figure 983262DEST_PATH_IMAGE032
的奖励与基线输出
Figure DEST_PATH_IMAGE033
的奖励来定义的,公式如下:
Figure 281519DEST_PATH_IMAGE034
其中,
Figure DEST_PATH_IMAGE035
为强化学习的损失函数,
Figure 590010DEST_PATH_IMAGE036
为基线输出,
Figure DEST_PATH_IMAGE037
是通过多项式采样获得,为采样输出,
Figure 631915DEST_PATH_IMAGE038
为每一个词的似然结果,是每一个词
Figure 53669DEST_PATH_IMAGE038
都是根据似然
Figure DEST_PATH_IMAGE039
得到的,最小化上述损失相当于最大化采样输出的奖励高于相应的基线输出的奖励的可能性,强化学习中一个关键的问题在于挑选损失函数,定义
Figure 772095DEST_PATH_IMAGE040
为输出
Figure DEST_PATH_IMAGE041
的奖励,通过计算比较生成的句子和真实的句子在某种评估指标即使用BLEU 下的得分可以得到,所以,模型的总损失为:
Figure 53035DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_666360DEST_PATH_IMAGE062
分别表示人身危险性,社会危害性,再犯罪风险性和羁押必要性的二分类交叉熵损失函数;
步骤7)根据特征图编码部分的注意力分布情况,选取特征图权重较高的特征结点,其对应特征即对羁押风险评估的重要特征。
2.根据权利要求1所述的基于图编码面向刑事案件羁押风险评估的特征选择方法,其特征在于,所述步骤1)中,具体如下:
构建了关于不同犯罪涉及到的犯罪特征知识库,该知识库主要包含了不同犯罪特征的定义或解释,知识库的具体构建方法为使用爬虫爬取特征的定义或解释后人工筛选构建知识库。
3.根据权利要求1所述的基于图编码面向刑事案件羁押风险评估的特征选择方法,其特征在于,步骤 5)利用文本解码器输出预测结果的原因;具体如下:
解码器是一个循环神经网络即Recurrent Neural Network, RNN,根据编码信息来生成句子,具体来说,循环神经网络通过之前时刻预测的词
Figure DEST_PATH_IMAGE043
隐状态
Figure 413478DEST_PATH_IMAGE044
和上下文向量
Figure DEST_PATH_IMAGE045
,来预测下一时刻的输出
Figure 96263DEST_PATH_IMAGE046
,上下文向量
Figure DEST_PATH_IMAGE047
是根据子图中经过编码的节点表示
Figure 860957DEST_PATH_IMAGE048
计算得到,动态地捕捉到编码器的注意力信息,每个节点表示
Figure DEST_PATH_IMAGE049
都包含关于整个特征图的信息,并且重点关注输入图中的第
Figure 144039DEST_PATH_IMAGE050
个节点周围的局部信息,上下文向量
Figure DEST_PATH_IMAGE051
为这些节点表示的加权和,每个节点表示的权值
Figure 527747DEST_PATH_IMAGE052
计算为:
Figure DEST_PATH_IMAGE053
其中
Figure 314307DEST_PATH_IMAGE054
为对齐模型对每个节点的评分结果,
Figure DEST_PATH_IMAGE055
为节点表示,
Figure 125268DEST_PATH_IMAGE056
为计算的每个节点的权值,
Figure DEST_PATH_IMAGE057
为上下文向量,
Figure 907365DEST_PATH_IMAGE058
是一个对齐模型,它对位置
Figure DEST_PATH_IMAGE059
周围的输入节点和位置
Figure 953819DEST_PATH_IMAGE060
的输出匹配程度进行评分,分数基于RNN隐藏状态
Figure DEST_PATH_IMAGE061
和输入图的第
Figure 876775DEST_PATH_IMAGE059
个节点表示,我们将对齐模型参数化为前馈神经网络,与其他网络一起进行训练。
4.根据权利要求1所述的基于图编码面向刑事案件羁押风险评估的特征选择方法,其特征在于,所述步骤7)中,具体如下:根据特征图编码部分的注意力分布情况,通过特征图权重较高的一些特征节点对特征进行选择。
CN202111329040.7A 2021-11-10 2021-11-10 基于图编码面向刑事案件羁押风险评估的特征选择方法 Active CN113888368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111329040.7A CN113888368B (zh) 2021-11-10 2021-11-10 基于图编码面向刑事案件羁押风险评估的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111329040.7A CN113888368B (zh) 2021-11-10 2021-11-10 基于图编码面向刑事案件羁押风险评估的特征选择方法

Publications (2)

Publication Number Publication Date
CN113888368A CN113888368A (zh) 2022-01-04
CN113888368B true CN113888368B (zh) 2022-03-15

Family

ID=79017834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111329040.7A Active CN113888368B (zh) 2021-11-10 2021-11-10 基于图编码面向刑事案件羁押风险评估的特征选择方法

Country Status (1)

Country Link
CN (1) CN113888368B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091462B (zh) * 2022-01-14 2022-04-22 深圳航天科创实业有限公司 基于案件事实混合编码面向刑事案件风险互学习评估方法
CN114911879A (zh) * 2022-07-19 2022-08-16 南京航天数智科技有限公司 一种基于图注意力网络的刑事案件知识图谱关系推理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170148124A1 (en) * 2015-11-19 2017-05-25 Michael D. Johnston Risk assessment system - evidence based
CN108805142A (zh) * 2018-05-31 2018-11-13 中国华戎科技集团有限公司 一种犯罪高危人员研判方法及系统
CN109871452B (zh) * 2019-01-31 2021-04-02 深度好奇(北京)科技有限公司 确定犯罪特征的方法、装置以及存储介质
CN109902183B (zh) * 2019-02-13 2023-03-31 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN113408263A (zh) * 2020-03-16 2021-09-17 北京国双科技有限公司 刑期预测方法、装置、存储介质及电子设备
CN111768024B (zh) * 2020-05-20 2023-03-24 中国地质大学(武汉) 一种基于注意力机制的刑期预测方法、设备及存储设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器学习模型在预测服刑人员再犯罪危险性中的效用分析;马国富等;《河北大学学报(自然科学版)》;20171231(第04期);全文 *

Also Published As

Publication number Publication date
CN113888368A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
Canhoto Leveraging machine learning in the global fight against money laundering and terrorism financing: An affordances perspective
Henman Improving public services using artificial intelligence: possibilities, pitfalls, governance
CN107909299B (zh) 人伤理赔数据风险检测方法和系统
CN110276068B (zh) 法律案情分析方法及装置
Zheng et al. Airline passenger profiling based on fuzzy deep machine learning
Alkhalili et al. Investigation of applying machine learning for watch-list filtering in anti-money laundering
CN113888368B (zh) 基于图编码面向刑事案件羁押风险评估的特征选择方法
Wang et al. Equality before the law: legal judgment consistency analysis for fairness
CN114091462B (zh) 基于案件事实混合编码面向刑事案件风险互学习评估方法
Galitsky et al. Assessing plausibility of explanation and meta-explanation in inter-human conflicts
Liau et al. A Survival Game Analysis to Personal Identity Protection Strategies
Kelley et al. Anti-Discrimination Laws, AI, and Gender Bias in Non-Mortgage Fintech Lending
Demiroluk et al. Feature selection for ranking of most influential variables for evacuation behavior modeling across disasters
Bidari Categorization of Disaster Related Tweets using Multimodal Approach
Abdulraheem et al. CRIME RATE PREDICTION USING THE RANDOM FOREST ALGORITHM
Ballesteros-Pena ‘Same Content in New Bottles’ in the Immigration Detention System in Canada: Impacts on Young Adult and Adult Undocumented Migrants
CN116432953B (zh) 基于泛化生成模式的文物保护应急响应决策方法和系统
Ningard Attorney stories of environmental crime: Harms, agents, and ideal cases
Green 4. The Just City: Machine Learning’s Social and Political Foundations
Sehgal et al. Implementation of Deep Learning for Exploration of Crime Data
Kute Explainable Deep Learning Approach for Detecting Money Laundering Transactions in Banking System
Sakhare et al. Investigating the COVID-19 pandemic using Power BI
Razouk Integrating Domain Knowledge for the Analysis of Urban Blight Indicators Using NLP and Causal Data Science
Guembe et al. A Federated Machine Learning Approaches For Anti-Money Laundering Detection
Davies et al. Reviewing the use of crime linkage evidence within a legal context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant