CN110610005A - 基于深度学习的盗窃罪辅助量刑方法 - Google Patents
基于深度学习的盗窃罪辅助量刑方法 Download PDFInfo
- Publication number
- CN110610005A CN110610005A CN201910870274.9A CN201910870274A CN110610005A CN 110610005 A CN110610005 A CN 110610005A CN 201910870274 A CN201910870274 A CN 201910870274A CN 110610005 A CN110610005 A CN 110610005A
- Authority
- CN
- China
- Prior art keywords
- criminal
- deep learning
- theft
- value
- year
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000011840 criminal investigation Methods 0.000 title claims description 12
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012417 linear regression Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000000306 recurrent effect Effects 0.000 claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims description 22
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract description 6
- 238000002372 labelling Methods 0.000 abstract description 4
- 230000011218 segmentation Effects 0.000 description 11
- 230000006403 short-term memory Effects 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000474 nursing effect Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于深度学习的盗窃罪辅助量刑方法属于计算机领域;无法实现在较少人工标注情况下的案情语义表示和特定罪名的刑期精准预测;包括根据刑法规定和关于盗窃罪的量刑规定,结合已公开的盗窃罪一审判决书,从被盗窃物品价值、犯罪主体信息、犯罪事实描述、判决结果角度定义形式化描述盗窃案的11维特征;对裁判文书进行文本预处理;整合为语料集,训练词向量;完成除被盗窃物品价值和刑期之外特征的提取,使用循环神经网络为每一维特征分别构建特征生成器,从而提取特征值;使用线性回归和多层神经网络模型作为预测器,输入案件特征向量,输出刑期预测结果;能够在较少依赖人工标注的情况下实现对案情的深度语义理解和给出明确的刑期预测值。
Description
技术领域
本发明属于计算机领域,尤其涉及一种基于深度学习的盗窃罪辅助量刑方法。
背景技术
在过去几年中,司法领域的数据量迅速增长。这些数据涉及各类法律案件的裁判文书、 法律法规和司法解释。法官、律师和检察官等法律专业人员不仅要处理大量案件,还需要 查阅大量与案件相关的文件以供参考和分析。这使得法律专业人员的负担日益增加,并可 能导致工作效率降低和司法工作出错的风险增加。为了更好地捍卫司法公正、保障公共安 全,采用基于人工智能和数据挖掘技术的辅助量刑方法亟待应用于司法实践。
辅助量刑的任务不同于指控罪名预测,其目的是通过分析针对案情文本事实描述,预 测某类刑事罪名的处罚期限(例如,以年或月计算的有期徒刑,终身监禁或死刑),而不 是针对特定案件确定适当的指控(例如,盗窃,诈骗,抢劫和故意伤害罪)。由于中国内地采用的是大陆法系,法院基于成文法和当前案件的事实描述进行审判量刑,而不是参照先例案件的判决。法官将当前案件具体情况进行分析,根据适用的法律条文做出最终决定。在已有的某些司法智能辅助系统中,通过已判决生效的类似案例训练机器学习分类模型能够完成简化的刑期预测任务,但参照法律条文进行量刑在法理上更有说服力。目前,根据法律条文和案件事实描述训练机器学习模型预测刑期并非易事。
目前已有的相关工作大多采用文本分类的思路来解决刑期预测任务。这些工作或采用 经典的机器学习分类模型,从文本或案例简介中提取浅层特征,或通过人工定义特征和手 动标注案例来获得对案例描述的更深层次语义理解。尽管机器学习和自然语言处理方法的 引入可以法律文本分析,但尚无法实现在较少人工标注情况下的案情语义表示和特定罪名 的刑期精准预测。
发明内容
本发明克服了上述现有技术的不足,提供一种基于深度学习的盗窃罪辅助量刑方法, 根据《刑法》中的相关规定对盗窃案定义了11维特征,针对盗窃罪一审判决书的文本预处理,过滤对特征抽取产生干扰的文本部分和无关词语,使用循环神经网络分别对不同维度的案件特征构建生成器,使用线性回归和多层神经网络模型进行训练,根据输入的案件特征计算以月为单位的刑期预测结果,有效的解决了无法实现在较少人工标注情况下的案情语义表示和特定罪名的刑期精准预测的技术问题。
本发明的技术方案:
一种基于深度学习的盗窃罪辅助量刑方法,包括以下步骤:
步骤a、根据刑法规定和关于盗窃罪的量刑规定,结合已公开的盗窃罪一审判决书, 从被盗窃物品价值、犯罪主体信息、犯罪事实描述、判决结果角度定义形式化描述盗窃案 的11维特征,所述11维特征包括被盗窃物品价值、被告人是否为未成年人、被告人是否为残疾人、是否有入户行窃情节、是否有携带凶器情节、是否有扒窃情节、是否有其他严 重情节、被告人是否累犯、是否有退赔情节、是否有自首情节以及判决刑期;
步骤b、对裁判文书进行文本预处理;
步骤c、将预处理后得到的所有文本整合为语料集,训练词向量;
步骤d、完成除被盗窃物品价值和刑期之外其余9维特征的提取,使用循环神经网络 为每一维特征分别构建特征生成器,以句子为单位对词向量序列进行训练从而提取特征 值;
步骤e、使用线性回归和多层神经网络模型作为预测器,案件特征向量作为输入,输 出以月为单位的刑期预测结果。
进一步地,所述将预处理后得到的所有文本整合为语料集,使用Word2Vec训练词向 量,参数设置为使用CBOW模型、使用负采样方法优化,分别训练向量维度为100、150、200、250和300的5组词向量。
进一步地,所述文本预处理包括无关段落去除、数值型特征提取和无关词语去除。
进一步地,所述无关段落包括辩护人信息、审理流程描述、公诉机关的判决建议、被 告人和辩护人的辩护意见和法院经审理查明的事实,采用正则表达式匹配所述无关段落的 起始段与结束段,将起始段与结束段连同中间段落一并删去。
进一步地,所述数值型特征包括被盗窃物品价值和刑期,采用基于规则的方法提取。
进一步地,所述被盗窃物品价值是指盗窃物品的总金额,所述被盗窃物品的金额信息 包含在案件事实描述,所述金额信息具有固定格式,通过正则表达式提取所有符合所述格 式的字符串,得到所有金额数值,同时判断金额字符串所在的句子是否包括“返还、赔偿、 退赔、退缴、归还、退还、赔款、上交、补偿或赃款”关键词,如果包含则不将所述句子 中的金额计算到总金额中,通过上述方式对每句话进行处理后,累加得到的数值便是被盗 窃物品的总价值。
进一步地,所述刑期包含在法院判决意见中,刑期表示为“有期徒刑”主刑词加上“某 年”字样的时长信息,其中表示数值的并非阿拉伯数字而是中文数字,通过正则表达式提 取法院判决意见中符合上述格式的字符串,将其中的中文数字转换为数值后,为将其统一 表示为月,将表示“年”的数值乘以12后加上表示“月”的数值得到最终的刑期结果, 所述某年为一年、二年、两年、三年、四年、五年、六年、七年、八年、九年或十年。
进一步地,所述无关词语包括人名、机构名、地名、时间以及出现频率低于阈值的词, 通过政策表达式去除。
进一步地,所述9维特征包括被告人是否为未成年人、被告人是否为残疾人、是否有 入户行窃情节、是否有携带凶器情节、是否有扒窃情节、是否有其他严重情节、被告人是否累犯、是否有退赔情节、是否有自首情节。
进一步地,所述线性回归用于回归任务,多层神经网络模型用于处理非线性问题,其 因变量和自变量的数目能够设置为多个。
本发明相对于现有技术具有以下有益效果:
本发明提供了一种基于深度学习的盗窃罪辅助量刑方法,案件类别是刑事案件中的盗 窃案;根据《刑法》中的相关规定对盗窃案定义了11维特征,针对盗窃罪一审判决书的文本预处理,过滤对特征抽取产生干扰的文本部分和无关词语,使用循环神经网络分别对不同维度的案件特征构建生成器,使用线性回归和多层神经网络模型进行训练,根据输入的案件特征计算以月为单位的刑期预测结果,有效的解决了无法实现在较少人工标注情况下的案情语义表示和特定罪名的刑期精准预测的技术问题。本发明能够在法理基础上提取有效的盗窃案特征;能够在较少依赖人工标注的情况下实现对案情的深度语义理解;能够给出明确的刑期预测值,而非模糊的时间范围。
附图说明
图1是本发明流程示意图;
图2是无关词语去除流程示意图。
具体实施方式
以下将结合附图对本发明进行详细说明。
具体实施方式一
一种基于深度学习的盗窃罪辅助量刑方法,如图1所示,包括以下步骤:
步骤a、根据刑法规定和关于盗窃罪的量刑规定,结合已公开的盗窃罪一审判决书, 从被盗窃物品价值、犯罪主体信息、犯罪事实描述、判决结果角度定义形式化描述盗窃案 的11维特征,所述11维特征包括被盗窃物品价值、被告人是否为未成年人、被告人是否为残疾人、是否有入户行窃情节、是否有携带凶器情节、是否有扒窃情节、是否有其他严 重情节、被告人是否累犯、是否有退赔情节、是否有自首情节以及判决刑期;
步骤b、对裁判文书进行文本预处理;
步骤c、将预处理后得到的所有文本整合为语料集,训练词向量;
步骤d、完成除被盗窃物品价值和刑期之外其余9维特征的提取,使用循环神经网络 为每一维特征分别构建特征生成器,以句子为单位对词向量序列进行训练从而提取特征 值;
步骤e、使用线性回归和多层神经网络模块作为预测器,案件特征向量作为输入,输 出以月为单位的刑期预测结果。
具体地,所述将预处理后得到的所有文本整合为语料集,使用Word2Vec训练词向量, 参数设置为使用CBOW模型、使用负采样方法优化,分别训练向量维度为100、150、200、250和300的5组词向量。
具体地,所述文本预处理包括无关段落去除、数值型特征提取和无关词语去除。
具体地,所述无关段落包括辩护人信息、审理流程描述、公诉机关的判决建议、被告 人和辩护人的辩护意见和法院经审理查明的事实,采用正则表达式匹配所述无关段落的起 始段与结束段,将起始段与结束段连同中间段落一并删去。
具体地,所述数值型特征包括被盗窃物品价值和刑期,采用基于规则的方法提取。
具体地,所述被盗窃物品价值是指盗窃物品的总金额,所述被盗窃物品的金额信息包 含在案件事实描述,所述金额信息具有固定格式,通过正则表达式提取所有符合所述格式 的字符串,得到所有金额数值,同时判断金额字符串所在的句子是否包括“返还、赔偿、 退赔、退缴、归还、退还、赔款、上交、补偿或赃款”关键词,如果包含则不将所述句子 中的金额计算到总金额中,通过上述方式对每句话进行处理后,累加得到的数值便是被盗 窃物品的总价值。
具体地,所述刑期包含在法院判决意见中,刑期表示为“有期徒刑”主刑词加上“某年”字样的时长信息,其中表示数值的并非阿拉伯数字而是中文数字,通过正则表达式提取法院判决意见中符合上述格式的字符串,将其中的中文数字转换为数值后,为将其统一表示为月,将表示“年”的数值乘以12后加上表示“月”的数值得到最终的刑期结果, 所述某年为一年、二年、两年、三年、四年、五年、六年、七年、八年、九年或十年。
具体地,所述无关词语包括人名、机构名、地名、时间以及出现频率低于阈值的词,通过政策表达式去除。
具体地,所述9维特征包括被告人是否为未成年人、被告人是否为残疾人、是否有入 户行窃情节、是否有携带凶器情节、是否有扒窃情节、是否有其他严重情节、被告人是否累犯、是否有退赔情节、是否有自首情节。
具体地,所述线性回归用于回归任务,多层神经网络模块用于处理非线性问题,其因 变量和自变量的数目能够设置为多个。
具体实施方式二
在具体实施方式一的基础上,另一种实现的基于深度学习的盗窃罪辅助量刑方法,包 括:
步骤a、经过对《中华人民共和国刑法》第一编第四章关于刑罚具体运用的规定以及 第二编第五章第二百六十四条关于盗窃罪的量刑规定相关法条的梳理,结合对已公开的盗 窃罪一审判决书的分析,包括被盗窃物品价值、犯罪主体信息、犯罪事实描述和判决结果, 归纳出盗窃案件的如下11维特征,包括被盗窃物品价值、被告人是否为未成年人、被告 人是否为残疾人、是否有入户行窃情节、是否有携带凶器情节、是否有扒窃情节、是否有其他严重情节、被告人是否累犯、是否有退赔情节、是否有自首情节和以及判决刑期。其中,被盗窃物品价值是盗窃罪的基本量刑要素;被告人是否为未成年人与是否为残疾人属于犯罪主体信息,对这类特殊人员可以从轻、减轻或者免除处罚;入户行窃、携带凶器、 扒窃或其他严重情节则会在一般的盗窃情节上加重犯罪的严重程度,可以从重处罚,其中 严重情节包括但不限于冲撞、火烧、抗拒追捕等;被告人是累犯的一般应当从重处罚;退 赔、自首情节属于犯罪行为后的补救措施,可以从轻或者减轻处罚;最后是判决结果,关 注的重点在管制、拘役、有期徒刑这三类主刑的期限。
因此,盗窃案的案件模型便可表示为:
C=(a,j,d,b,w,p,o,r,c,s,t) (1)
其中,各维度的含义、值域如表1所示。
表1案件模型各维度说明
步骤b、对裁判文书进行文本预处理;包括:
1、无关段落去除。裁判文书通常由首部、事实、理由、判决结果、尾部等部分构成,但并非所有内容都适合于训练量刑模型,例如关于审理流程的陈述性语句或辩护人的信息介绍等,事先将这些信息去除可以避免对模型训练造成干扰。裁判文书是以自然段的形式划分的,因此无关部分也是成段出现的,无关部分包括以下几种情况:
辩护人信息仅包含其自然信息介绍,与案情无关。
审理流程描述包含指控罪名、指控日期,审理程序、审理日期,检察员、被告人、辩护人的出席信息,公诉机关提供证据的情况以及对物证、书证、证人证言等的描述,这些 仅为法院审理过程的记录,同样与案情无关。
公诉机关的判决建议是公诉机关根据被告人的犯罪事实做出的量刑建议,仅供法官参 考,与最后的法院判决结果性质不同。
被告人和辩护人的辩护意见从理论上讲可能对犯罪事实做出修正,但经过对含有辩称 以及辩护意见的数据的观察,仅有少数几例中法院采纳了辩称以及辩护意见,其原因为公 诉机关的调查过程出现较大的失误。因此在本发明中不考虑辩护意见对判决结果的影响。
法院经审理查明的事实仅为公诉机关指控事实的复述,而重复出现的事实会对案件特 征的提取造成干扰。
因此,需要去除的无关段落包括辩护人信息、审理流程描述、公诉机关的判决建议、 被告人和辩护人的辩护意见、法院经审理查明的事实这5个部分,采用正则表达式匹配这 些部分的起始段与结束段,将起始段与结束段连同中间段落一并删去。
2、数值型特征提取。在盗窃案案件模型的11维特征中,被盗窃物品价值与刑期这两 个特征是具体的数值而非布尔型的逻辑值。对于数值型的文本,由于其携带的并非语义, 因此每一种取值都对应一种表示形式,而数值是无法全部枚举出来的,因此采用基于规则 的方法提取被盗窃物品价值与刑期。
被盗窃物品价值是指盗窃物品的总金额,因此需要将案件涉及的各项盗窃物品的金额 进行累加。在去除无关段落后,判决书文本还包括3个部分,分别是犯罪主体信息、案件 事实描述以及法院判决意见,被盗窃物品的金额信息便包含在案件事实描述。金额的格式 一般为“数字+小数点+逗号”的组合再加上“元”字,因此通过正则表达式提取所有符合该格式的字符串,便得到了所有金额数值,使用的正则表达式如表2所示。为区分表示被 盗窃物品金额的字符串与表示赃款与退赔金额的字符串,还要判断金额字符串所在的这句话是否包括“赃款”、“退赔”等关键词,如果包含则不将这句话中的金额计算到总金额中。通过该方式对每句话进行处理后,累加得到的数值便是被盗窃物品的总价值。
刑期则包含在法院判决意见中,表示为“有期徒刑”等主刑词加上如“一年”字样的时长信息,其中表示数值的并非阿拉伯数字而是中文数字。通过如表3所示的正则表达式提取法院意见中符合上述格式的字符串,将其中的中文数字转换为数值后,为将其统一表示为月,将表示“年”的数值乘以12后加上表示“月”的数值便得到了最终的刑期结果。
表2数值型特征提取相关正则表达式
3、无关词语去除。去除无关词语的目的是将可能对案件特征提取产生干扰的信息尽 量去除,这些信息包括人名、机构名、地名、时间以及出现频率较低的词。其中,时间可在分词之前直接通过正则表达式去除,人名分为两种,一种为正常姓名,而另一种则将名以“某某”代替,对于后一种也可直接使用正则表达式处理,而对于前一种人名以及机构名、地名则需要借助其词性和实体类别来处理。时间与人名对应的正则表达式如表4所示。无关词语去除的完整流程如图2所示。其中,使用了哈工大社会计算与信息检索研究中心开发的语言技术平台LTP(Language Technology Platform,语言技术平台)提供的中文 分词、词性标注、命名实体识别工具,其中分词得到的结果为分隔开的单词,词性标注得 到的结果为每个词的词性标签,命名实体识别得到的结果是每个词的实体标签。
表3无关词语去除相关正则表达式
由于判决书中含有较多的法律专业词汇与不常见的地名,而分词、词性标注、命名实 体识别并非针对法律领域而设计,导致了分词与词性标注结果出现错误。为纠正这些错误 以加强无关词语去除的效果,在该过程中需要人工介入调整分词的词典以及词性标注的词 典。在得到分词、词性标注、命名实体识别结果后,通过人工判断分词结果是否包含错误 分词,然后将错误分词部分经人工划分后添加到词典,以保证分词的准确性;同时,再由人工观察命名实体识别结果是否正确,如果有错误则找到与其对应的词性标注结果,将正确的词性标签添加到词典中,以保证词性标注的准确性。在完善词典之后,再次对数据进行分词、词性标注、命名实体识别并重复上述操作,对此过程进行迭代直到结果基本不出现错误为止。在得到基于词典的结果后,将被标记为人名、机构名、地名实体的词一并删除。为去除出现次数较少的词,首先统计每个词的文档频率,其计算方法如式(2)所示, 之后将文档频率低于阈值的词全部去除,在中阈值设定为总文档数的0.1%,结果显示, 在该阈值下绝大部分无用词可被去除。
式中,|D|:语料库中的文件总数;|{d∈D:t∈d}|:包含词语t的文件数目;df(t,D): 词文档频率。
步骤c、经过预处理后,案件文本已被划分为若干句子,每个句子中的词则由空格隔 开,之后便可进行词向量生成工作。将所有文本整合为语料集并使用Word2Vec训练词向量,参数设置为使用CBOW(Continuous Bag-of-Words,连续词袋)模型、使用负采样方 法优化,分别训练了向量维度为100、150、200、250和300的5组词向量。由于不同维 度的词向量需要通过具体才能区分效果的优劣,因此最终词向量维度的选择是通过后续辅 助量刑的效果来决定的,以LSTM(Long Short-Term Memory,长短期记忆网络)和GRU GRU (GatedRecurrent Unit,门控循环单元)模型在特征提取中的结果为例,其各维度下的 准确率如表4所示,其中LSTM的最高准确率对应的词向量维度是150,而GRU对应的是 300。因此,对于每个模型都选择能使其效果达到最优的词向量维度,以该维度下得到的 结果作为其最终结果。
表4词向量维度结果(准确率%)
步骤d、盗窃案件模型共包含11维特征,由于辅助量刑的目的是对刑期进行预测,因 此在这11维特征中,除刑期外的其他10维特征便可视为辅助量刑所需的输入值。其中,由于被盗窃物品价值已在预处理阶段提取完成,因此需要提取的特征共包括被告人是否为未成年人、被告人是否为残疾人、是否有入户行窃情节、是否有携带凶器情节、是否有扒 窃情节、是否有其他严重情节、被告人是否累犯、是否有退赔情节、是否有自首情节这9 维特征,这9维特征的共同点是只有两种可能的结果,即“是”或“否”,因此每一个特 征都对应着一个二分类问题,由此可以对每个特征分别构造一个二分类器进行提取,之后 再将得到的结果合并成一个向量。因此,可以将案件文本生成的词向量序列作为输入,通 过神经网络模型进行特征值提取,并对最后的隐含层结构做出调整以适用于分类任务。分 别使用CNN(Convolutional Neural Networks,卷积神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gated Recurrent Unit,门控循环单元)、Bi-LSTM (BidirectionalLong Short-Term Memory Network,双向长短期记忆网络)、Bi-GRU (BidirectionalGated Recurrent Unit,双向门控循环单元)这5种模型连接隐含层进 行特征提取,结果如表5所示。其中,使用GRU模型、词向量维度设为300时取得了最高 准确率99.45%。
表5特征提取准确度(%)
步骤e、在得到案件特征值后,便可进行刑期预测步骤,一个特征值只能有一个特征 向量,其输入为案件特征向量,而输出为以月为单位的刑期预测结果。由于刑期是一个连 续型整数值而非布尔值,因此可以将刑期预测转化为回归问题。为解决该回归问题,分别 采用了线性回归LR(Linear Regression,线性回归)模型与多层神经网络NN(NeuralNetworks,神经网络)模型作为预测器,其中线性回归可直接应用于回归任务,而多层神 经网络的特点则是可以处理非线性问题,其因变量和自变量的数目都可以设置为多个。多 层神经网络常被应用于分类问题中,若要对回归问题进行处理则需要去掉输出层的激活函数,使输出层变为线性计算,并且将输出层的节点数设置为1,同时使用均方误差作为适 用于回归问题的损失函数。
在刑期预测中,使用采集自《中国裁判文书网》的41481篇盗窃案一审判决书构造数 据集,其中60%作为训练集,20%作为验证集,其余20%作为测试集。为了与本实施方式提 出的方法,即GRU(Gated Recurrent Unit,门控循环单元)作为特征提取器、LR(LinearRegression,线性回归)或NN(Neural Networks,神经网络)作为预测器,分别表示为 GRU+LR和GRU+NN进行对比,使用LSTM(Long Short-Term Memory,长短期记忆网络)、Bi-LSTM(Bidirectional Long Short-Term Memory Network,双向长短期记忆网络)、GRU (GatedRecurrent Unit,门控循环单元)、Bi-GRU(Bidirectional Gated Recurrent Unit, 双向门控循环单元)模型同时完成特征提取和刑期预测。采用的评价指标包括3个,MAE (MeanAbsolute Deviation,平均绝对误差)为预测刑期与实际刑期的平均绝对误差值, Acc_e3为预测刑期相比于实际刑期误差不超过3个月的比例,Acc_e6为预测刑期相比于 实际刑期误差不超过6个月的比例。结果如表6所示,可以发现本实施方式提出的GRU+LR 和GRU+NN方法显著优于其余4种参照方法,其中GRU+NN方法取得了MAE(Mean Absolute Deviation,平均绝对误差)为3.2087个月、Acc_e3(预测刑期相比于实际刑期误差不超 过3个月的比例)为72.54%、Acc_e6(预测刑期相比于实际刑期误差不超过6个月的比 例)为90.01%的最佳性能。
表6预测模型性能对比
Claims (10)
1.一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,包括以下步骤:
步骤a、根据刑法规定和关于盗窃罪的量刑规定,结合已公开的盗窃罪一审判决书,从被盗窃物品价值、犯罪主体信息、犯罪事实描述、判决结果角度定义形式化描述盗窃案的11维特征,所述11维特征包括被盗窃物品价值、被告人是否为未成年人、被告人是否为残疾人、是否有入户行窃情节、是否有携带凶器情节、是否有扒窃情节、是否有其他严重情节、被告人是否累犯、是否有退赔情节、是否有自首情节以及判决刑期;
步骤b、对裁判文书进行文本预处理;
步骤c、将预处理后得到的所有文本整合为语料集,训练词向量;
步骤d、完成除被盗窃物品价值和刑期之外其余9维特征的提取,使用循环神经网络为每一维特征分别构建特征生成器,以句子为单位对词向量序列进行训练从而提取特征值;
步骤e、使用线性回归和多层神经网络模块作为预测器,案件特征向量作为输入,输出以月为单位的刑期预测结果。
2.根据权利要求1所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述将预处理后得到的所有文本整合为语料集,使用Word2Vec训练词向量,参数设置为使用CBOW模型、使用负采样方法优化,分别训练向量维度为100、150、200、250和300的5组词向量。
3.根据权利要求1所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述文本预处理包括无关段落去除、数值型特征提取和无关词语去除。
4.根据权利要求3所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述无关段落包括辩护人信息、审理流程描述、公诉机关的判决建议、被告人和辩护人的辩护意见和法院经审理查明的事实,采用正则表达式匹配所述无关段落的起始段与结束段,将起始段与结束段连同中间段落一并删去。
5.根据权利要求3所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述数值型特征包括被盗窃物品价值和刑期,采用基于规则的方法提取。
6.根据权利要求5所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述被盗窃物品价值是指盗窃物品的总金额,所述被盗窃物品的金额信息包含在案件事实描述,所述金额信息具有固定格式,通过正则表达式提取所有符合所述格式的字符串,得到所有金额数值,同时判断金额字符串所在的句子是否包括“返还、赔偿、退赔、退缴、归还、退还、赔款、上交、补偿或赃款”关键词,如果包含则不将所述句子中的金额计算到总金额中,通过上述方式对每句话进行处理后,累加得到的数值便是被盗窃物品的总价值。
7.根据权利要求5所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述刑期包含在法院判决意见中,刑期表示为“有期徒刑”主刑词加上“某年”字样的时长信息,其中表示数值的并非阿拉伯数字而是中文数字,通过正则表达式提取法院判决意见中符合上述格式的字符串,将其中的中文数字转换为数值后,为将其统一表示为月,将表示“年”的数值乘以12后加上表示“月”的数值得到最终的刑期结果,所述某年为一年、二年、两年、三年、四年、五年、六年、七年、八年、九年或十年。
8.根据权利要求3所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述无关词语包括人名、机构名、地名、时间以及出现频率低于阈值的词,通过政策表达式去除。
9.根据权利要求1所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述9维特征包括被告人是否为未成年人、被告人是否为残疾人、是否有入户行窃情节、是否有携带凶器情节、是否有扒窃情节、是否有其他严重情节、被告人是否累犯、是否有退赔情节、是否有自首情节。
10.根据权利要求1所述一种基于深度学习的盗窃罪辅助量刑方法,其特征在于,所述线性回归用于回归任务,多层神经网络模块用于处理非线性问题,其因变量和自变量的数目能够设置为多个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910870274.9A CN110610005A (zh) | 2019-09-16 | 2019-09-16 | 基于深度学习的盗窃罪辅助量刑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910870274.9A CN110610005A (zh) | 2019-09-16 | 2019-09-16 | 基于深度学习的盗窃罪辅助量刑方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110610005A true CN110610005A (zh) | 2019-12-24 |
Family
ID=68891262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910870274.9A Pending CN110610005A (zh) | 2019-09-16 | 2019-09-16 | 基于深度学习的盗窃罪辅助量刑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610005A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291548A (zh) * | 2020-02-12 | 2020-06-16 | 中科鼎富(北京)科技发展有限公司 | 一种从法院文书获取信息的方法及装置 |
CN111598742A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种从判决书获取当事人量刑要素的方法及装置 |
CN111861806A (zh) * | 2020-06-18 | 2020-10-30 | 中国司法大数据研究院有限公司 | 一种复杂案件下多被告涉案金额提取方法及装置 |
CN111914553A (zh) * | 2020-08-11 | 2020-11-10 | 民生科技有限责任公司 | 一种基于机器学习的金融信息负面主体判定的方法 |
CN112732865A (zh) * | 2020-12-29 | 2021-04-30 | 长春市把手科技有限公司 | 一种刑事案件情节对刑期影响比例的测算方法及装置 |
CN113033174A (zh) * | 2021-03-23 | 2021-06-25 | 哈尔滨工业大学 | 一种基于输出型相似门的案件罪名判定方法、装置及存储介质 |
CN113408263A (zh) * | 2020-03-16 | 2021-09-17 | 北京国双科技有限公司 | 刑期预测方法、装置、存储介质及电子设备 |
CN113487453A (zh) * | 2021-06-07 | 2021-10-08 | 山东大学 | 基于犯罪要素的法律判决预测方法及系统 |
CN113642756A (zh) * | 2021-05-27 | 2021-11-12 | 复旦大学 | 基于深度学习技术的减刑刑期预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213864A (zh) * | 2018-08-30 | 2019-01-15 | 广州慧睿思通信息科技有限公司 | 基于深度学习的刑事案件预判系统及其构建和预判方法 |
CN109241285A (zh) * | 2018-08-29 | 2019-01-18 | 东南大学 | 一种基于机器学习的辅助司法案件判决的装置 |
CN109241528A (zh) * | 2018-08-24 | 2019-01-18 | 讯飞智元信息科技有限公司 | 一种量刑结果预测方法、装置、设备及存储介质 |
CN109376227A (zh) * | 2018-10-29 | 2019-02-22 | 山东大学 | 一种基于多任务人工神经网络的刑期预测方法 |
CN109858008A (zh) * | 2017-11-30 | 2019-06-07 | 南京大学 | 基于深度学习的文书判决结果倾向性的方法及装置 |
-
2019
- 2019-09-16 CN CN201910870274.9A patent/CN110610005A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858008A (zh) * | 2017-11-30 | 2019-06-07 | 南京大学 | 基于深度学习的文书判决结果倾向性的方法及装置 |
CN109241528A (zh) * | 2018-08-24 | 2019-01-18 | 讯飞智元信息科技有限公司 | 一种量刑结果预测方法、装置、设备及存储介质 |
CN109241285A (zh) * | 2018-08-29 | 2019-01-18 | 东南大学 | 一种基于机器学习的辅助司法案件判决的装置 |
CN109213864A (zh) * | 2018-08-30 | 2019-01-15 | 广州慧睿思通信息科技有限公司 | 基于深度学习的刑事案件预判系统及其构建和预判方法 |
CN109376227A (zh) * | 2018-10-29 | 2019-02-22 | 山东大学 | 一种基于多任务人工神经网络的刑期预测方法 |
Non-Patent Citations (1)
Title |
---|
郭镔: "面向智慧检务的案件研判关键技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291548A (zh) * | 2020-02-12 | 2020-06-16 | 中科鼎富(北京)科技发展有限公司 | 一种从法院文书获取信息的方法及装置 |
CN113408263A (zh) * | 2020-03-16 | 2021-09-17 | 北京国双科技有限公司 | 刑期预测方法、装置、存储介质及电子设备 |
CN111598742A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种从判决书获取当事人量刑要素的方法及装置 |
CN111861806B (zh) * | 2020-06-18 | 2022-04-01 | 中国司法大数据研究院有限公司 | 一种复杂案件下多被告涉案金额提取方法及装置 |
CN111861806A (zh) * | 2020-06-18 | 2020-10-30 | 中国司法大数据研究院有限公司 | 一种复杂案件下多被告涉案金额提取方法及装置 |
CN111914553A (zh) * | 2020-08-11 | 2020-11-10 | 民生科技有限责任公司 | 一种基于机器学习的金融信息负面主体判定的方法 |
CN111914553B (zh) * | 2020-08-11 | 2023-10-31 | 民生科技有限责任公司 | 一种基于机器学习的金融信息负面主体判定的方法 |
CN112732865A (zh) * | 2020-12-29 | 2021-04-30 | 长春市把手科技有限公司 | 一种刑事案件情节对刑期影响比例的测算方法及装置 |
CN112732865B (zh) * | 2020-12-29 | 2022-11-29 | 长春市把手科技有限公司 | 一种刑事案件情节对刑期影响比例的测算方法及装置 |
CN113033174A (zh) * | 2021-03-23 | 2021-06-25 | 哈尔滨工业大学 | 一种基于输出型相似门的案件罪名判定方法、装置及存储介质 |
CN113642756A (zh) * | 2021-05-27 | 2021-11-12 | 复旦大学 | 基于深度学习技术的减刑刑期预测方法 |
CN113642756B (zh) * | 2021-05-27 | 2023-11-24 | 复旦大学 | 基于深度学习技术的减刑刑期预测方法 |
CN113487453A (zh) * | 2021-06-07 | 2021-10-08 | 山东大学 | 基于犯罪要素的法律判决预测方法及系统 |
CN113487453B (zh) * | 2021-06-07 | 2023-12-05 | 山东大学 | 基于犯罪要素的法律判决预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610005A (zh) | 基于深度学习的盗窃罪辅助量刑方法 | |
CN110008311B (zh) | 一种基于语义分析的产品信息安全风险监测方法 | |
CN107632968B (zh) | 一种面向裁判文书的证据链关系模型的构建方法 | |
CN111145052A (zh) | 司法文书的结构化分析方法及系统 | |
CN111177382B (zh) | 基于FastText算法的智能法条推荐辅助系统 | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
KR101335540B1 (ko) | 온톨로지 기반의 문서 분류 방법 및 장치 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
KR102607826B1 (ko) | 심층 신경망 기반의 문서 분석 시스템과 방법 및 이를 구현하기 위한 프로그램이 저장된 기록 매체 및 매체에 저장된 컴퓨터프로그램 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
Braz et al. | Document classification using a Bi-LSTM to unclog Brazil's supreme court | |
Rawte et al. | Analysis of year-over-year changes in risk factors disclosure in 10-k filings | |
Al-Sarhan et al. | Framework for affective news analysis of arabic news: 2014 gaza attacks case study | |
CN115658905A (zh) | 一种跨篇章的事件多维画像生成方法 | |
Beauchemin et al. | Generating intelligible plumitifs descriptions: Use case application with ethical considerations | |
O'Halloran et al. | Big data and the regulation of financial markets | |
Radygin et al. | Application of text mining technologies in Russian language for solving the problems of primary financial monitoring | |
Tanev et al. | Exploiting machine learning techniques to build an event extraction system for portuguese and spanish | |
CN112990110B (zh) | 从研报中进行关键信息提取方法及相关设备 | |
Daniels | Retrieval of passages for information reduction | |
Sabo et al. | Unsupervised factor extraction from pretrial detention decisions by Italian and Brazilian supreme courts | |
Castano et al. | A knowledge-based service architecture for legal document building | |
CN110516069A (zh) | 一种基于FastText-CRF的引文元数据抽取方法 | |
Dahlke et al. | Streamlining the identification of emerging tasks in the O* NET system using natural language processing (NLP): Technical summary | |
CN113378542B (zh) | 一种裁判文书质量评测的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191224 |