CN109241285A - 一种基于机器学习的辅助司法案件判决的装置 - Google Patents

一种基于机器学习的辅助司法案件判决的装置 Download PDF

Info

Publication number
CN109241285A
CN109241285A CN201811001531.7A CN201811001531A CN109241285A CN 109241285 A CN109241285 A CN 109241285A CN 201811001531 A CN201811001531 A CN 201811001531A CN 109241285 A CN109241285 A CN 109241285A
Authority
CN
China
Prior art keywords
text
feature vector
vec
case
yuan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811001531.7A
Other languages
English (en)
Inventor
毕胜
漆桂林
陈佳敏
周佑勇
王禄生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201811001531.7A priority Critical patent/CN109241285A/zh
Publication of CN109241285A publication Critical patent/CN109241285A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于机器学习的辅助司法案件判决的装置,利用大量文书数据,训练模型学习案件事实描述与罚金范围和相关法律条文之间的关联,实现对任意给定案件事实描述文本的罚金额度范围和法条标签进行预测。包括:确定给定案件事实描述文本中专有名词并去专有名词处理;从文本中抽取多种语义特征,实现更深层次的语义表示;基于多标记分类的机器学习方法实现对法条的分类,得到与案件事实描述文本相关的法条标签;基于机器学习的单标记分类训练模型预测相关案情可能的罚金范围。本发明首次将机器学习运用于司法领域,多种特征抽取方式实现更深层次的语义表示,很好的提升训练模型的准确率与泛化能力,对于案件最终判刑有较高参考意义,有助于“同案同判”的实现。

Description

一种基于机器学习的辅助司法案件判决的装置
技术领域
本发明涉及一种基于机器学习的辅助司法案件判决技术,属于非结构化文本处理技术领域。
背景技术
近年来,人民群众的法律意识、维权意识不断增强,各种矛盾纠纷大量增多,各类诉讼案件急剧增加,“案多人少”矛盾日趋突出,繁重的工作在一定程度上影响着法院的办案效果,存在同案不同判的现象,不利于公平公正的推展。
在上个世纪计算机技术以惊人的速度发展起来,大家就开始尝试将计算机技术运用到司法领域,比较有代表性的就是基于专家系统的计算机辅助量刑系统——JUSTICE系统,该系统根据大量司法领域专家的知识和经验编写规则模拟刑事诉讼过程以实现量刑结果的预测。但该方法耗费大量人力物力,而且实际使用极其不方便,需要自己衡量完善案情的细节以得到符合的结果,而且该系统内部规则制定好后并不能很好的符合实际情况。
随着人工智能的迅速发展,我们处于一个大数据的时代,在拥有海量的文书数据后,大家已经开始尝试将AI技术运用于司法领域。国外比较成功的运用是16年IBM推出的世界首位AI律师ROSS,它主要用于提供法律咨询服务,实现法律相关对话问答而不运用于司法判决,而且ROSS仅仅针对于英美法系,语言也仅支持英语。
在计算机技术方面,数据时代互联网容纳了海量的各种类型的数据和信息,为了有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息,基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,得到有效发展,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,且达到较高的准确率。
随后遇到的许多实际问题中,一个样本可能同时属于多个类别,由此引出了多标记学习(Multi-label learning)的研究。至今,研究者们已经提出了多种多标记学习的方法,比如基于支持向量机的方法,基于BP神经网络的方法,基于概率生成模型的方法等。这些算法在文档分类、生物信息学以及场景分类等许多领域得到了成功的运用。
发明内容
技术问题:本发明提供一种基于机器学习的辅助司法案件判决的装置,通过训练模型学习发现案件事实描述与罚金范围和相关法律条文之间的关联,实现对任意给定案件事实描述文本的罚金额度范围和法条标签进行预测。
技术方案:本发明的基于机器学习的辅助司法案件判决的装置,包括:
数据预处理模块,对现有初始数据中的案件事实描述文本进行预处理,得到每一份文本对应的词语列表;
特征抽取模块,从所述数据预处理模块处理后的词语列表,抽取得到每一份文本对应的具有深层语义表示的特征向量;
模型训练模块,使用所述特征抽取模块处理得到的深层语义表示的特征向量和初始数据中包含的每一份文本对应的判决结果对模型进行训练,得到相关法条预测模型和罚金预测模型;
判决结果预测模块,对一份任意给出的案件事实描述文本经过预处理和特征抽取后得到一个具有深层语义表示的特征向量,将该特征向量分别输入到模型训练模块得到的相关法条预测模型和罚金预测模型,就能得到该案件事实描述文本对应的相关法条和罚金范围。
进一步的,本发明装置中,初始数据包括案件事实描述文本text,该文本对应的法条标签legalSet,该文本对应的罚金范围penalty,数据预处理模块中的预处理具体包括如下内容:
a)分词操作:将案情事实描述文本通过现有的分词工具拆分成词语列表,
其中,texti是第i份案件事实描述文本,wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数;
b)去停用词:将文本中与语义无关的词语从词语列表中删除,得到新的词语列表;
c)命名实体识别:使用条件随机场和长短期记忆网络进行命名实体识别,得到文本中的时间、组织、人名,并分别用TIME、ORG、PERSON替换。
进一步的,本发明装置中,特征抽取模块中使用tf-idf、LDA和doc2vec特征抽取方法抽取得到每一份文本对应的具有深层语义表示的特征向量,将下式(a)作为tf-idf、LDA和doc2vec特征抽取方法的输入:
其中wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数,n是初始数据中案件事实描述文本的数量;
分别得到tf-idf特征向量、LDA主题特征向量、doc2vec特征向量,记作:
vec_tfidfi=[ti1,ti2,...,tim]
vec_ldai=[li1,li2,...,lih]
vec_doc2veci=[di1,di2,...,dik]
其中vec_tfidfi是第i篇文本的tf-idf特征向量,tij是vec_tfidfi特征向量的第j位的值,m是数据预处理模块处理得到的所有词语列表中不同词语的个数;
vec_ldai是第i篇文本的LDA特征向量,lij是vec_ldai特征向量的第j位的值,h是文本LDA特征向量的维度;
vec_doc2veci是第i篇文本的doc2vec特征向量,dij是vec_doc2veci特征向量的第j位的值,k是文本doc2vec特征的维度;
然后将所述tf-idf特征向量、LDA主题特征向量、doc2vec特征向量合并得到每一份文本对应的具有深层语义表示的特征向量:
veci=[ti1,ti2,...,tim,li1,li2,...,lih,di1,di2,...,dik]=[vi1,vi2,...,vi(m+h+k)]。
进一步的,本发明装置中,相关法条预测模型是通过训练一个基于ClassifierChain方法多标记分类模型得到的,模型训练所需数据如下所示:
in=[vec1,vec2,...,vecn]
result=[legalSet1,legalSet2,...,legalSetn]
其中veci作为输入,表示第i篇文本具有深层语义表示的特征向量,legalSeti是初始数据中第i份案件事实描述文本的法条标签结果;
训练的具体方式为:基于Classifier Chain方法的多标记分类,对每一个标记训练一个单分类器,将所述多个单分类器串联形成一个链,依次训练这些单分类器,然后第一个分类器的输入是in,而后面的单分类器的输入除了in,还包括在链上所有先于自身训练的分类器的输出,在每个单分类器输入后,判断该单分类器输出是否包含在对应的法条标签中。
进一步的,本发明装置中,罚金范围预测模型是通过梯度提升决策树算法训练得到的,自定义罚金的范围分为8个档次:[0,1000元)、[1000元,2000元)、[2000元,3000元)、[3000元,4000元)、[4000元,5000元)、[5000元,10000元)、[10000元,500000元)、[500000元,∞),梯度提升决策树算法模型训练所需数据包括:
in=[vec1,vec2,...,vecn]
result=[penalty1,penalty2,...,penaltyn]
其中veci作为输入,表示第i篇文本具有深层语义表示的特征向量,penaltyi=0|1|2|3|4|5|6|7是初始数据中第i份案件事实描述文本的罚金档次。
本发明装置利用现有文书数据训练模型,然后使用模型对任意案件事实描述文本分析并预测其涉及法条和判决罚金结果。
1.模型训练包括如下模块:
A、数据预处理模块
本发明装置首先对已有的百万级别初始数据进行处理,初始数据包括案情事实描述文本和其对应的相关法条及罚金等级,可以记作为:
corpus=[[text1,legalSet1,penalty1],...,[textn,legalSetn,penaltyn]]
其中text为案件事实描述文本,legalSet为该文本对应的法条标签,penalty是该文本对应的罚金等级,n是初始数据的数量。
数据预处理操作,具体流程如下:
1).分词操作:将案情事实描述文本通过现有的分词工具拆分成词语列表,
其中,texti是第i份案件事实描述文本,wij是第i案件事实描述文本分词得到的第j个词,ni是第i案件事实描述文本分词得到的得到的词语总数。
2).去停用词:将文本中与语义无关的词语从词语列表中删除,得到新的词语列表;
3).命名实体识别:使用条件随机场和长短期记忆网络进行命名实体识别,得到文本中的时间、组织、人名,并分别用TIME、ORG、PERSON代替,语义的损失对于我们要完成的任务并没有影响,却使原文本数据更加清晰,能够提升后续的特征提取效果;
B、特征抽取模块
数据经过预处理之后,每一个案件事实描述文本就变成了一个词语列表,数据如下:
其中wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数,n是初始数据中案件事实描述文本的数量;
本模块抽取(a)式中每一份文本对应的深层语义表示特征向量,过程示意如下:
其中veci是第i篇文本的深层语义表示特征向量。
使用现有效果比较好的特征抽取技术:tf-idf、LDA、doc2vec,上述式子(a)作为输入,分别得到每一份案情事实描述文本的tf-idf特征向量、LDA主题特征向量、doc2vec特征向量,记作:
vec-tfidfi=[ti1,ti2,...,tim]
vec_ldai=[li1,li2,...,lih]
vec_doc2veci=[di1,di2,...,dik]
其中vec_tfidfi是第i篇文本的tf-idf特征向量,tij是vec_tfidfi特征向量的第j位的值,m是数据预处理模块处理得到的所有词语列表中不同词语的个数;
vec_ldai是第i篇文本的LDA特征向量,lij是vec_ldai特征向量的第j位的值,h是文本LDA特征向量的维度;
vec_doc2veci是第i篇文本的doc2vec特征向量,dij是vec_doc2veci特征向量的第j位的值,k是文本doc2vec特征的维度;
然后将该三个特征向量合并得到更深层语义表示的特征向量:
veci=[ti1,ti2,...,tim,li1,li2,...,lih,di1,di2,...,dik]=[vi1,vi2,...,vi(m+h+k)]
其中tf-idf、LDA、doc2vec在本发明装置中使用细节如下所述:1)TF-IDF(termfrequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse DocumentFrequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
Tf计算方法如下:
对应本发明,ni,j是第i份案情事实描述文本中的第j个词出现的次数,∑k nk,j是这第j个词在所有案情事实描述文本出现的总次数。
Idf计算式如下:
|D|是总案件事实描述文本的数量,|{j:ti∈dj}|是包含词语ti的案件事实描述文本的数量。
通过TF-idf就可以得到一个m维的向量,其中m取决于出现在所有案件事实描述文本的不同词语。
2)LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
我们根据自己需求可以设定一个参数h,表示可能具有的主题数,LDA通过所有案件事实描述文本的词语列表训练,可以得到每一篇文档可能为h个隐藏主题的概率,即每一个案件事实描述文本都可以得到一个h维的特征向量(l1,l2,...,lh)。
3)word2vec是一项将词转换成向量的技术,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果一—词向量(wordembedding),可以很好地度量词与词之间的相似性,很好的保留词语的语义信息。基于Word2vec原理,DOC2vec得到一篇文章的语义向量,向量的长度是自己按照需求设定,一般为100~200之间的整数。
C、法条预测模型训练模块
在抽取得到每一份案情事实描述文本的深层语义表示的特征向量vec数组(下述数据in)以及已知的其对应的法条标签(下述数据result),相关法条预测模型的训练任务是训练一个基于Classifier Chain方法的多标记分类模型。模型训练的所需数据如下所示:
in=[vec1,vec2,...,vecn]
result=[legalSet1,legalSet2,...,legalSetn]
其中veci作为输入,legalSeti是初始数据中第i份案件事实描述文本的法条标签结果。
基于Classifier Chain方法的多标记分类,对每一个标记训练一个单分类器,将所述多个单分类器串联形成一个链,依次训练这些单分类器,然后第一个分类器的输入是in,而后面的单分类器的输入除了in,还包括在链上所有先于自身训练的分类器的输出,在每个单分类器输入后,判断该单分类器输出是否包含在对应的法条标签中。对应本发明装置,基于Classifier Chain的模型首先根据输入In判断刑法第一条是否在法条标签结果集合中,然后结合输入in和第一条法条判断结果判断刑法第二条是否在法条标签结果集合中,以此不断进行得到最终模型预测的法条标签结果,对比已知的结果result,不断调整模型参数,使得模型输出的结果与已知的结果result尽可能相似。具体CC多标记中单标记分类器的实现可以有很多方法,本发明使用的是一个开源的使用广泛的CC方法,只需输入in和result,模型就会不断调整使得在输入in时,能得到和result尽可能相似的结果,最后模型稳定后得到的就是本发明装置需要的法条预测模型。
D、罚金预测模型训练模块
罚金范围预测模型的通过训练一个单分类器得到,自定义罚金的范围分为8个档次:[0,1000元)、[1000元,2000元)、[2000元,3000元)、[3000元,4000元)、[4000元,5000元)、[5000元,10000元)、[10000元,500000元)、[500000元,∞),模型训练的所需数据如下所示:
in=[vec1,vec2,...,vecn]
result=[penalty1,penalty2,...,penaltyn]
其中veci作为输入,penaltyi=0|1|2|3|4|5|6|7是初始数据中第i份案件事实描述文本的罚金档次。
使用上述数据训练分类器,本发明使用的是在文本分类任务中表现较好的梯度提升决策树(GBDT)算法,训练学习后得到的模型就是本发明需要的罚金分类预测模型。
2.使用模型预测
对任意给定的一份案件事实描述文本作为测试数据,与训练数据一样,经过预处理模块处理,在经过特征抽取模块后得到该文本的深层语义特征向量:
vectest=[v1,v2,...,v(m+h+k)]
将测试数据的深层语义表示的特征向量输入到使用训练数据训练学习得到的法条预测模型和罚金预测模型,模型的输出即为对该测试数据的相关法条预测和罚金等级预测结果。
本发明将文本分类和多标记分类这些机器学习方法运用到当前迫切需要大数据与AI技术辅助以解决“案多人少”和“同案不同判”窘境的司法领域,实现对案件事实描述文本分析得到相关法条标签与罚金类别,给司法人员一个有价值的裁决参考,提高审案效率,同时也可以作为判决是否公正的评判标准。
有益效果:本发明与现有技术相比,具有以下优点:
与本发明最接近的将计算机技术运用于司法判决的方法主要包括基于专家系统的计算机辅助量刑系统USTICE和IBM推出的首位AI律师ROSS。
JUSTICE专家系统根据司法领域专家的知识和经验,编写规则,由用户根据案情判断犯罪情节作为系统的输入,比如:案件指控罪名、犯罪人年龄、认罪态度好不好,然后系统根据设定好的规则计算输出判决结果。本发明对比与JUSTICE专家系统的优点在于不需要领域专家耗费大量时间精力来编写规则,通过训练模型能够学习到大量文书数据中的经验,以此来预测判决结果。而随着大数据时代的到来,文书数据的获取并不存在任何问题,我们的发明就使用了300多万份刑事案件文书。此外JUSTICE专家系统还存在着不够智能的问题,需要用户自己去了解案情或者阅读案件事实描述文本后且具有一定的法律专业知识才能够判断出具体应该给系统什么输入,操作起来比较麻烦,要想使用该系统对案件描述文本进行量刑结果预测一次需要几分钟,而本发明只需经过一次训练,以后使用只需输入文本,使用最基本配置的计算机就能够在1-2秒左右得到结果,不需要用户有任何关于法律和计算机方面的专业知识。JUSTICE专家系统的另一个缺点是扩展性不好,JUSTICE实现的是基于刑事案件的量刑系统,刑法条文的些许更改需要对内部规则根据专家意见重新调整,要用于其他类型案件,如民事案件,构建系统需要耗费的工作量与初始并没有多大区别。本发明对比与JUSTICE优点还体现于领域的迁移性,只需要将更改训练数据,方法不需调整,就能够训练模型学习到数据中的经验,得到较好的预测结果。
IBM的AI律师ROSS推出于16年,使用的技术都是比较先进的,包括深度学习、认知计算等技术,但这些技术需要高性能的设备以支持他们的开发,而且开发的难度较高,自发布至今(2018.3),ROSS主要支持关于破产法、知识产权法、劳动和就业法,其他领域效果不是很理想,而本发明能够针对所有类型刑法案件进行预测,且开发难度较低所需设备的计算能力普通办公电脑就足以支持。此外ROSS主要是提供法律咨询服务,更契合与英美法系,对于大陆体系效果不可预知,且ROSS语言更多的是考虑英语,对中文适应新不行,而本发明采取大量中文文书数据,能很好在我国实际运用产生较大效果。
而且本发明从文本中得到更深层的语义表示,有效的提高分类器的效果,在对输入案件描述文本特征提取的过程中,本发明使用了包括LDA、tf-idf和doc2vec等多种有效特征,以此为特征输入能有效提高后面的多标记模型法条模型以及罚金单分类模型的训练的效果,最终我们的模型测试结果在罚金预测和法条标签预测的准确率都达到了90%。
本发明采取多标记分类的Classifier Chain(CC)方法成功克服了没考虑标记之间的关联性这一缺点,因为不同法条很大可能会同时出现结果集合中,CC方法能够有效利用到这些联系。且它的计算复杂度与标记数目成正比,较于其他多标记方法计算复杂度比较低,
经过实例分析证明,利用基于机器学习的辅助司法案件判决方法,可以在大规模文本中有效的获取案件描述对应的法条集合与罚金类别,并且拥有更高的准确率和泛化能力。
附图说明
图1是本发明训练模型的基本过程的示意图;
图2是本发明模型实际使用预测的基本过程的示意图;
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
本发明的基于机器学习的辅助司法案件判决的装置,主要包括利用案件事实描述文本分析训练模型和利用训练后的模型进行预测。
1:训练模型:
a)对初始数据预处理:
本发明的初始数据是百万级数量的刑事案件法律文书,将文书中本院认为前的文本作为案件事实描述文本,并且从后续的本院认为和判决结果段落中抽取到法院对该案件的量刑结果,包括罚金和依照的法条,比如,对于案号为“(2016)冀0281刑初253号”的文书,案件事实描述文本为“河北省遵化市人民检察院指控,2016年5月23日16时45分许,被告人李金强驾驶冀被告人李某驾驶冀B×××××、鲁×××RV165挂重型自卸半挂车沿大玉线由南向北行驶至遵化市刘官屯路段时,与延翠兰驾驶的电动自行车发生交通事故与延某驾驶的电动自行车发生交通事故,造成车辆损坏,延翠兰经医院抢救无效死亡延某经医院抢救无效死亡。遵化市交通警察大队责任认定:被告人李金强承担本起事故的主要责任被告人李某承担本起事故的主要责任,延翠兰承担本起事故的次要责任延某承担本起事故的次要责任。”(截取一段文字),结果为:“法条:刑法第133条、第67条、第72条、第73条;罚金:第一档次[0,1000)”(详情见文书)。初始数据包含200多万份数据,每份数据有一个案件事实描述文本、对应的法条和罚金等级,可以记作为:
corpus=[[text1,legalSet1,penalty1],...,[textn,legalSetn,penaltyn]]
其中text为案件事实描述文本,legalSet为该文本对应的法条标签,penalty是该文本对应的罚金等级,n是数据的数量。
i)首先对每一份数据的案件事实描述文本进行分词,实现:
其中,texti是第i份案件事实描述文本,wij是第i案件事实描述文本分词得到的第j个词,ni是第i案件事实描述文本分词得到的得到的词语总数。
比如对上述文书中的一句“与延翠兰驾驶的电动自行车发生交通事故与延某驾驶的电动自行车发生交通事故,造成车辆损坏,延翠兰经医院抢救无效死亡延某经医院抢救无效死亡”经分词后得到[与/p延翠兰/nr驾驶/v的/uj电动/n自行车/n发生/v交通事故/n与/p延某/nr驾驶/v的/uj电动/n自行车/n发生/v交通事故/n造成/v车辆/n损坏/v延翠兰/nr医院/n抢救无效/l死亡/v延某/nr医院/n抢救无效/l死亡/v]。
ii)然后去停用词,对i)中例句分词后,去除没有具体语义的词‘的’、‘,’、‘与’、‘经’后,得到的词语列表为:[延翠兰/nr驾驶/v电动/n自行车/n发生/v交通事故/n延某/nr驾驶/v电动/n自行车/n发生/v交通事故/n造成/v车辆/n损坏/v延翠兰/nr医院/n抢救无效/l死亡/v延某/nr经/n医院/n抢救无效/l死亡/v]。
iii)对ii)中处理得到的词语进行命名实体识别得到人名有延翠兰、延某,用person代替,得到[person/nr驾驶/v电动/n自行车/n发生/v交通事故/nperson/nr驾驶/v电动/n自行车/n发生/v交通事故/n造成/v车辆/n损坏/v person/nr医院/n抢救无效/l死亡/vperson/nr经/n医院/n抢救无效/l死亡/v],同理识别出组织代以ORG,识别出时间代以TIME。
经上述预处理操作,n份文本数据最后可以表示为:
其中wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数,n是初始数据中案件事实描述文本的数量。
b)特征抽取
初始数据在经过预处理模块处理后得到数据如下式所示(即a中式(1)):
其中wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数,n是初始数据中案件事实描述文本的数量。
对每一份数据特征抽取模块使用tf-idf、LDA和doc2vec方法,分别得到其对应的tf-idf、LDA、doc2vec特征向量,并合并得到钙粉文本数据对应的具有深层语义表示的特征向量。
例如文本“与延翠兰驾驶的电动自行车发生交通事故与延某驾驶的电动自行车发生交通事故,造成车辆损坏,延翠兰经医院抢救无效死亡延某经医院抢救无效死亡”预处理得到的词语列表为[person/nr驾驶/v电动/n自行车/n发生/v交通事故/nperson/nr驾驶/v电动/n自行车/n发生/v交通事故/n造成/v车辆/n损坏/v person/nr医院/n抢救无效/l死亡/vperson/nr经/n医院/n抢救无效/l死亡/v],然后使用tf-idf、LDA和doc2vec方法分别得到其对应的tf-idf、LDA、doc2vec特征向量为:(0.12,0.01,…,0.2)、(0.02,0.03,…,0.05)、(0.12,0.07,…,0.11),合并得到其具有深层语义表示的特征向量为(0.12,0.01,…,0.2,0.02,0.03,…,0.05,0.12,0.07,…,0.11)。
c)法条预测模型和罚金预测模型训练
法条预测模型的使用数据格式示例如下:
[(0.12,0.01,0.2,0,0.03,0.05,…,0.11):[12,23,67],
(0.11,0.02,0,0.08,0.05,0.3,…,0.09):[45,123,124],…](其中()内数据是b)步骤特征抽取最终得到的具有深层语义表示的特征向量,[]内数字是刑法法条的条目)
罚金预测模型所使用的训练数据格式示例如下:
[(0.12,0.01,0.2,0,0.03,0.05,…,0.11):1,
(0.11,0.02,0,0.08,0.05,0.3,…,0.09):2,…](:后数字是罚金的档次结果)
模型训练过程不断学习输入数据,使得在给出上述训练数据的输入,模型尽可能得到对应结果,
这样在后续预测时相似的文书会得到相似的特征向量,模型也就能预测到较为合理的结果。
模型训练完成后可以得到法条预测模型和罚金预测模型,保存下来用于后续对未知数据进行预测。
2:使用模型进行预测
输入任意给定一份案件事实描述文本,如“被告人谭伏求驾驶湘AKF291轻型普通货车沿本市天心区新韶路由东往西行驶至新姚路口准备左转弯时,恰遇行人江某某在此横过道路,由于被告人谭伏求驾驶车辆忽视安全,注意不够,且转弯时超速行驶,遇行人通过人行横道时,未减速停车让行,加之被害人江某某未按信号灯指示通行,导致被告人谭伏求所驾车辆左前部与被害人江某某相撞,造成车辆受损、被害人江某某受伤后经医院抢救无效死亡的重大交通事故”,经预处理模块和特征提取模块得到具有深层语义表示的特征向量(f1,f2,...,fn)。输入到训练好的模型,法条预测模型输出结果为相关法条为:刑法第133条:“违反交通运输管理法规,因而发生重大事故,致人重伤、死亡或者使公私财产遭受重大损失的,处三年以下有期徒刑或者拘役;交通运输肇事后逃逸或者有其他特别恶劣情节的,处三年以上七年以下有期徒刑;因逃逸致人死亡的,处七年以上有期徒刑”;刑法第73条:“【考验期限】拘役的缓刑考验期限为原判刑期以上一年以下,但是不能少于二个月。有期徒刑的缓刑考验期限为原判刑期以上五年以下,但是不能少于一年。缓刑考验期限,从判决确定之日起计算。”罚金预测模型预测罚金为:第一档[0,1000)。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (5)

1.一种基于机器学习的辅助司法案件判决的装置,其特征在于,该装置包括:
数据预处理模块,对现有初始数据中的案件事实描述文本进行预处理,得到每一份文本对应的词语列表;
特征抽取模块,从所述数据预处理模块处理后的词语列表,抽取得到每一份文本对应的具有深层语义表示的特征向量;
模型训练模块,使用所述特征抽取模块处理得到的深层语义表示的特征向量和初始数据中包含的每一份文本对应的判决结果对模型进行训练,得到相关法条预测模型和罚金预测模型;
判决结果预测模块,对一份任意给出的案件事实描述文本经过预处理和特征抽取后得到一个具有深层语义表示的特征向量,将该特征向量分别输入到模型训练模块得到的相关法条预测模型和罚金预测模型,就能得到该案件事实描述文本对应的相关法条和罚金范围。
2.根据权利要求1所述的基于机器学习的辅助司法案件判决的装置,其特征在于,所述初始数据包括案件事实描述文本text,该文本对应的法条标签legalSet,该文本对应的罚金范围penalty,数据预处理模块中的预处理具体包括如下内容:
a)分词操作:将案情事实描述文本通过现有的分词工具拆分成词语列表,
其中,texti是第i份案件事实描述文本,wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数;
b)去停用词:将文本中与语义无关的词语从词语列表中删除,得到新的词语列表;
c)命名实体识别:使用条件随机场和长短期记忆网络进行命名实体识别,得到文本中的时间、组织、人名,并分别用TIME、ORG、PERSON替换。
3.根据权利要求1所述的基于机器学习的辅助司法案件判决的装置,其特征在于,所述特征抽取模块中使用tf-idf、LDA和doc2vec特征抽取方法抽取得到每一份文本对应的具有深层语义表示的特征向量,将下式(a)作为tf-idf、LDA和doc2vec特征抽取方法的输入:
其中wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数,n是初始数据中案件事实描述文本的数量;
分别得到tf-idf特征向量、LDA主题特征向量、doc2vec特征向量,记作:
vec-tfidfi=[ti1,ti2,...,tim]
vec_ldai=[li1,li2,...,lih]
vec_doc2veci=[di1,di2,...,dik]
其中vec_tfidfi是第i篇文本的tf-idf特征向量,tij是vec_tfidfi特征向量的第j位的值,m是数据预处理模块处理得到的所有词语列表中不同词语的个数;
vec_ldai是第i篇文本的LDA特征向量,lij是vec_ldai特征向量的第j位的值,h是文本LDA特征向量的维度;
vec_doc2veci是第i篇文本的doc2vec特征向量,dij是vec_doc2veci特征向量的第j位的值,k是文本doc2vec特征的维度;
然后将所述tf-idf特征向量、LDA主题特征向量、doc2vec特征向量合并得到每一份文本对应的具有深层语义表示的特征向量:
veci=[ti1,ti2,...,tim,li1,li2,...,lih,di1,di2,...,dik]=[vi1,vi2,...,vi(m+h+k)]。
4.根据权利要求1、2或3所述的基于机器学习的辅助司法案件判决的装置,其特征在于,所述相关法条预测模型是通过训练一个基于Classifier Chain方法多标记分类模型得到的,模型训练所需数据如下所示:
in=[vec1,vec2,...,vecn]
result=[legalSet1,legalSet2,...,legalSetn]
其中veci作为输入,表示第i篇文本具有深层语义表示的特征向量,legalSeti是初始数据中第i份案件事实描述文本的法条标签结果;
训练的具体方式为:基于Classifier Chain方法的多标记分类,对每一个标记训练一个单分类器,将所述多个单分类器串联形成一个链,依次训练这些单分类器,然后第一个分类器的输入是in,而后面的单分类器的输入除了in,还包括在链上所有先于自身训练的分类器的输出,在每个单分类器输入后,判断该单分类器输出是否包含在对应的法条标签中。
5.根据权利要求1、2或3所述的基于机器学习的辅助司法案件判决的方法,其特征在于,所述罚金范围预测模型是通过梯度提升决策树算法训练得到的,自定义罚金的范围分为8个档次:[0,1000元)、[1000元,2000元)、[2000元,3000元)、[3000元,4000元)、[4000元,5000元)、[5000元,10000元)、[10000元,500000元)、[500000元,∞),梯度提升决策树算法模型训练所需数据包括:
in=[vec1,vec2,...,vecn]
result=[penalty1,penalty2,...,penaltyn]
其中veci作为输入,表示第i篇文本具有深层语义表示的特征向量,penaltyi=0|1|2|3|4|5|6|7是初始数据中第i份案件事实描述文本的罚金档次。
CN201811001531.7A 2018-08-29 2018-08-29 一种基于机器学习的辅助司法案件判决的装置 Pending CN109241285A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811001531.7A CN109241285A (zh) 2018-08-29 2018-08-29 一种基于机器学习的辅助司法案件判决的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811001531.7A CN109241285A (zh) 2018-08-29 2018-08-29 一种基于机器学习的辅助司法案件判决的装置

Publications (1)

Publication Number Publication Date
CN109241285A true CN109241285A (zh) 2019-01-18

Family

ID=65069828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811001531.7A Pending CN109241285A (zh) 2018-08-29 2018-08-29 一种基于机器学习的辅助司法案件判决的装置

Country Status (1)

Country Link
CN (1) CN109241285A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN109919368A (zh) * 2019-02-26 2019-06-21 西安交通大学 一种基于关联图的法条推荐预测系统及方法
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN109949185A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于事件树分析的司法案件判别系统和方法
CN110046256A (zh) * 2019-04-22 2019-07-23 成都四方伟业软件股份有限公司 案件判别结果的预测方法及装置
CN110119449A (zh) * 2019-05-14 2019-08-13 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN110188192A (zh) * 2019-04-16 2019-08-30 西安电子科技大学 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN110287292A (zh) * 2019-07-04 2019-09-27 科大讯飞股份有限公司 一种裁判量刑偏离度预测方法及装置
CN110610005A (zh) * 2019-09-16 2019-12-24 哈尔滨工业大学 基于深度学习的盗窃罪辅助量刑方法
CN110717843A (zh) * 2019-10-21 2020-01-21 南京大学 一种可复用的法条推荐框架
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN110909547A (zh) * 2019-11-22 2020-03-24 四川大学 一种基于改进深度学习的司法实体识别方法
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN111222308A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 案件判决书生成方法、装置、电子设备
CN111753059A (zh) * 2020-07-02 2020-10-09 成都睿码科技有限责任公司 一种针对司法案件的基于Neural Embedding智能分析方法
CN111861806A (zh) * 2020-06-18 2020-10-30 中国司法大数据研究院有限公司 一种复杂案件下多被告涉案金额提取方法及装置
CN112116172A (zh) * 2020-09-30 2020-12-22 四川大学 一种基于概率图模型的刑期预测方法
CN112818671A (zh) * 2019-11-15 2021-05-18 阿里巴巴集团控股有限公司 文本信息的处理方法、装置、存储介质和处理器
CN112949665A (zh) * 2019-11-26 2021-06-11 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质
CN112966072A (zh) * 2021-03-11 2021-06-15 暨南大学 案件的预判方法、装置、电子装置和存储介质
CN113282705A (zh) * 2021-05-24 2021-08-20 暨南大学 一种能够自动更新的案件预判智能体训练方法及系统
CN113378563A (zh) * 2021-02-05 2021-09-10 中国司法大数据研究院有限公司 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置
US11461558B2 (en) 2019-12-20 2022-10-04 National Tsing Hua University Method for training a decision-making model with natural language corpus
CN116188206A (zh) * 2022-12-06 2023-05-30 北京师范大学 一种基于决策树的司法案件判决结果预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107918921A (zh) * 2017-11-21 2018-04-17 南京擎盾信息科技有限公司 刑事案件判决结果度量方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107918921A (zh) * 2017-11-21 2018-04-17 南京擎盾信息科技有限公司 刑事案件判决结果度量方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张群 等: "词向量与 LDA 相融合的短文本分类方法", 《现代图书情报技术》 *
邓文超: "基于深度学习的司法智能研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN109902172B (zh) * 2019-01-31 2021-08-27 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN109919368A (zh) * 2019-02-26 2019-06-21 西安交通大学 一种基于关联图的法条推荐预测系统及方法
CN109919368B (zh) * 2019-02-26 2020-11-17 西安交通大学 一种基于关联图的法条推荐预测系统及方法
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN109949185A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于事件树分析的司法案件判别系统和方法
CN110188192A (zh) * 2019-04-16 2019-08-30 西安电子科技大学 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN110188192B (zh) * 2019-04-16 2023-01-31 西安电子科技大学 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN110046256A (zh) * 2019-04-22 2019-07-23 成都四方伟业软件股份有限公司 案件判别结果的预测方法及装置
CN110119449A (zh) * 2019-05-14 2019-08-13 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN110119449B (zh) * 2019-05-14 2020-12-25 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN110287292A (zh) * 2019-07-04 2019-09-27 科大讯飞股份有限公司 一种裁判量刑偏离度预测方法及装置
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN110610005A (zh) * 2019-09-16 2019-12-24 哈尔滨工业大学 基于深度学习的盗窃罪辅助量刑方法
CN110717843A (zh) * 2019-10-21 2020-01-21 南京大学 一种可复用的法条推荐框架
CN112818671A (zh) * 2019-11-15 2021-05-18 阿里巴巴集团控股有限公司 文本信息的处理方法、装置、存储介质和处理器
CN110909547A (zh) * 2019-11-22 2020-03-24 四川大学 一种基于改进深度学习的司法实体识别方法
CN112949665A (zh) * 2019-11-26 2021-06-11 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质
CN111222308A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 案件判决书生成方法、装置、电子设备
US11461558B2 (en) 2019-12-20 2022-10-04 National Tsing Hua University Method for training a decision-making model with natural language corpus
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN111861806A (zh) * 2020-06-18 2020-10-30 中国司法大数据研究院有限公司 一种复杂案件下多被告涉案金额提取方法及装置
CN111753059A (zh) * 2020-07-02 2020-10-09 成都睿码科技有限责任公司 一种针对司法案件的基于Neural Embedding智能分析方法
CN112116172A (zh) * 2020-09-30 2020-12-22 四川大学 一种基于概率图模型的刑期预测方法
CN113378563A (zh) * 2021-02-05 2021-09-10 中国司法大数据研究院有限公司 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置
CN113378563B (zh) * 2021-02-05 2022-05-17 中国司法大数据研究院有限公司 一种基于遗传变异和半监督的案件特征提取方法及装置
CN112966072A (zh) * 2021-03-11 2021-06-15 暨南大学 案件的预判方法、装置、电子装置和存储介质
CN113282705A (zh) * 2021-05-24 2021-08-20 暨南大学 一种能够自动更新的案件预判智能体训练方法及系统
CN113282705B (zh) * 2021-05-24 2022-01-28 暨南大学 一种能够自动更新的案件预判智能体训练方法及系统
CN116188206A (zh) * 2022-12-06 2023-05-30 北京师范大学 一种基于决策树的司法案件判决结果预测方法

Similar Documents

Publication Publication Date Title
CN109241285A (zh) 一种基于机器学习的辅助司法案件判决的装置
US10719664B2 (en) Cross-media search method
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN102663015B (zh) 基于特征袋模型和监督学习的视频语义标注方法
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN108073569A (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109766544A (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN103020122A (zh) 一种基于半监督聚类的迁移学习方法
CN109344187B (zh) 一种司法判决书案情信息结构化处理系统
CN105095475B (zh) 基于两级融合的不完整属性标记行人重识别方法与系统
CN104239897A (zh) 一种基于自编码器词袋的视觉特征表示方法
Rizk et al. A computationally efficient multi-modal classification approach of disaster-related Twitter images
CN110717843A (zh) 一种可复用的法条推荐框架
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN109271527A (zh) 一种需求功能点智能识别方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN109271516A (zh) 一种知识图谱中实体类型分类方法及系统
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
Chen et al. A deep learning method for judicial decision support
CN112966525A (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
Gamage et al. Fast approach to build an automatic sentiment annotator for legal domain using transfer learning
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统
CN109508372A (zh) 一种基于司法领域知识抽取的高效司法文档分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118