CN108563703A

CN108563703A - 一种罪名的判定方法、装置及计算机设备、存储介质

Info

Publication number: CN108563703A
Application number: CN201810250904.8A
Authority: CN
Inventors: 武光鼎
Original assignee: Beijing Beidayingfa Technology Co Ltd
Current assignee: Beijing Beidayingfa Technology Co Ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-21

Abstract

本发明属于大数据处理领域，提供了一种罪名的判定方法、装置及计算机设备、存储介质。所述罪名的判定方法包括：获取待判定的犯罪事实文本信息；对所述犯罪事实文本信息进行分词处理和去噪处理；从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取，所述关键字用以表征一段犯罪事实；将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。本申请可以智能的判定罪名，不但简化了定罪的过程，提高了办案的效率，而且给法律专业人员的办案提供了辅助作用，对非法律人员的相关咨询提供了指导性帮助。

Description

一种罪名的判定方法、装置及计算机设备、存储介质

技术领域

本发明涉及大数据处理领域，尤其涉及一种罪名的判定方法、装置及计算机设备、存储介质。

背景技术

互联网发展到今天，“人工智能”是被提到最多的词汇之一，法律信息服务行业也不例外。在互联网颠覆时代的大背景下，法律行业逐渐受到冲击并发生改变。尤其是法律网络数据库中包含着海量数据，很容易被联想到“大数据”。然而“大数据”的概念远不止传统数据库对数据的存储、检索和管理，更是对数据的分析和使用，是对海量数据实用价值和经济价值的深度挖掘。

正是由于大数据分析的重要性，结合司法案例数据体量巨大的特点，独立的案例分析平台建设是十分必要的。而“定罪”是案例分析中非常重要的工作之一，利用技术手段实现智能定罪可以极大的提高定罪这个过程的速率，这会给办案人员、律师、甚至是非法律人士带来巨大的帮助。

目前来说，定罪的工作主要还是依靠法律专业人员的本身知识、经验结合相关的法律法规进行人为的得出结论，整个定罪的过程如下：第一步，通过证据确定的犯罪事实中找到嫌疑人的行为。第二步，寻找该行为法定特征，与相似罪名找区别点，比如故意杀人和故意伤害，区别在于嫌疑人主管犯罪目的是什么。再比如，故意伤害罪和聚众斗殴罪，区别是二者侵犯的客体不同，对犯罪主体要求也不同，比对区别是隐藏步骤，不一定每一次都会用到)。第三步，找到犯罪主体(嫌疑人)的特征，比如是否有特殊身份。第四步，文书中寻找是否有酌定的定罪情节，例如犯罪动机，犯罪目的，犯罪时间、犯罪地点等方面。

现在的定罪手段主要依靠的是人，要靠人的学识、经验结合法律法规来判定一些非常见的犯罪事实的罪名，这是一个很费时费力的过程，不仅给相关法律人员带来巨大的工作量，同时也使得整个的过程的效率下降。对于非专业法律人来说，去判定一些非常见的犯罪事实的罪名更是困难无比的一件事，这几乎是不可能完成的一个工作。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本发明提出一种罪名的判定方法、装置及计算机设备、存储介质，以解决现有技术中主要靠人为判定一个犯罪事实的罪名的问题。

为了解决上述问题，本发明实施例提出一种罪名的判定方法，包括：获取待判定的犯罪事实文本信息；对所述犯罪事实文本信息进行分词处理和去噪处理；从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取，所述关键字用以表征一段犯罪事实；将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。

为了解决上述问题，本发明实施例还提出一种罪名的判定装置，包括：获取模块，用于获取待判定的犯罪事实文本信息；预处理模块，用于对所述犯罪事实文本信息进行分词处理和去噪处理；关键字提取模块，用于从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取，所述关键字用以表征一段犯罪事实；判定模块，用于将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。

为了解决上述问题，本发明实施例还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的罪名的判定方法的步骤。

为了解决上述问题，本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的罪名的判定方法的步骤。

本申请实施例提供了一种罪名的判定方法、装置及计算机设备、存储介质，在输入犯罪事实文本信息后，可以智能的判定罪名，不但简化了定罪的过程，提高了办案的效率，而且给法律专业人员的办案提供了辅助作用，对非法律人员的相关咨询提供了指导性帮助。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的罪名的判定方法的处理流程图；

图2为本申请一具体实施例的从一篇盗窃罪的裁判文书中抽取的犯罪事实的示意图；

图3为本申请一具体实施例的对犯罪事实进行关键字抽取的示意图；

图4为本申请实施例的罪名的判定装置的结构示意图；

图5为本申请实施例的预处理模块101的结构示意图；

图6为本申请另一实施例的罪名的判定装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

本申请中涉及的技术术语包括：

分词处理：指的是将一个汉字序列切分成一个一个单独的词。

向量化处理：对每个词进行处理，用一个矩阵来代表该词。

词性标注处理：又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。

TF-IDF方法：TF-IDF是一种统计方法，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF指的是某一个给定的词语在该文件中出现的次数。IDF是指一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

Bayes算法：设每个数据样本用一个n维特征向量来描述n个属性的值，即：X＝{x1，x2，…，xn}，假定有m个类，分别用C1,C2,…，Cm表示。给定一个未知的数据样本X(即没有类标号)，若朴素贝叶斯分类法将未知的样本X分配给类Ci，则一定是

P(Ci|X)>P(Cj|X)1≤j≤m，j≠i；

word2vector技术：word2vector是一个把词转换成词向量的一个程序，能够把词映射到K维向量空间。

针对现有技术中要靠人的学识、经验结合法律法规来判定一个犯罪事实的罪名，不仅给相关法律人员带来巨大的工作量，同时也使得整个的过程的效率下降的技术缺陷，本申请的申请人提出一种罪名的判定方法、装置及计算机设备、存储介质，输入一段犯罪事实就可以智能的给出罪名，不仅可以辅助法律专业人员进行定罪，同是也可以为非法律专业人员提供一个定罪的工具。

下面介绍本申请的具体技术方案。

本申请提出一种罪名的判定方法，图1示出了本申请的一种罪名的判定方法的处理流程图。如图1所示，该处理方法包括：

步骤S101，获取待判定的犯罪事实文本信息；

步骤S102，对所述犯罪事实文本信息进行分词处理和去噪处理；

步骤S103，从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取，所述关键字用以表征一段犯罪事实；

步骤S104，将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。

在本申请的一种实施方式中，在步骤S102中，对所述犯罪事实文本信息进行分词处理，具体包括：

利用分词器对所述犯罪事实文本信息进行分词处理；以及利用word2vector技术对分词后的词进行向量化处理。

因为中文领域单个词语才是信息处理的基本单位，所以利用分词器对犯罪事实文本信息进行分词处理，得到分词后的犯罪事实文本信息，然后再利用word2vector技术对分词后的词进行向量化处理，为后续抽取关键词做准备。

在本申请的一种实施方式中，在步骤S102中，对所述犯罪事实文本信息进行去噪处理，具体包括：利用设定的规则库和噪音库对分词处理后的犯罪事实文本信息进行去噪处理。规则库和噪音库是在构建定罪分类器时就已经建立的，在以下说明定罪分类器的建立时会具体阐述，以下只做简单描述：

1、因为词性中包含着大量的规则以及特征，这对分析文本规律有着重大的意义，所以利用词性标注器对犯罪事实进行分词处理，得到标注词性后的犯罪事实数据语料库。如下所示：

…被告人/n,赵/nr,某某/nr,发现/v,自己/l,的/uj,摩托车/nz,钥匙/n…。

2、对每个罪名对应的犯罪事实进行研究，找出一些对定罪造成影响的词，形成一个噪音库；

通过对犯罪事实内部文本特征分析以及实验结论发现有一些词出现的频率较高，其权重值也相对较高，这样的词就会被筛选出来作为关键词代表犯罪事实。但是这样的词对分类器分类造成了很大的影响，所以要将将这样的词汇都找出来，最后形成一个这样噪音词库。具体如下所示：

被告人、第四十四条、受害人、家属……

3、对每个罪名进行研究，找出可以定位罪名类别对应的词、词性的相关规则，形成一个罪名的规则库；

根据实验结果针对犯罪事实各个词的词性进行分析，发现有些词性对应的词汇对最后的分类结果造成了混淆的影响，比如：人名、地名、机构名…，最后形成了一个规则库。

4、利用上述步骤得到的噪音库和规则库对分词后的犯罪事实进行去噪处理，得到一个清洗过的犯罪事实语料库。

在本申请的一种实施方式中，所述定罪分类器通过训练犯罪事实学习语料获得，其具体实现为：

构建各个罪名对应的犯罪事实是构建罪名分类器的基础性前提，通过机器学习算法对“犯罪事实—罪名”进行学习训练得到分类器，然后对新输入的犯罪事实进行预测从而得出罪名。学习语料的质量好坏可以直接影响学习到的分类器的准确率以及查全率，因此这是一项非常重要的前提工作。

一、构建各个罪名的犯罪事实学习语料库具体步骤如下：

1)、首先从裁判文书中抽取犯罪事实，每个罪名抽取一批犯罪事实文本，这些犯罪事实将作为定罪的学习语料；

经过研究分析，确定了一批常用并且对应案例较多的罪名，针对罪名通过网络爬取以及购买等方式获得一批裁判文书数据。

然后从各个罪名所对应的裁判文书中采用规则匹配和少量人工校正的方式抽取犯罪事实，这样便获取了足够多的学习语料，如图2所示，整篇文本为一篇盗窃罪的裁判文书，方框框住部分为抽取的犯罪事实。

2)、对抽取的犯罪事实进行分词处理，然后对犯罪事实的词进行向量化处理；

因为中文领域单个词语才是信息处理的基本单位，所以利用分词器对犯罪事实进行分词处理，得到分词后的犯罪事实数据语料库。

然后再利用word2vector技术对分词后的词进行向量化处理，为后续抽取关键词做准备。

二、构建各个罪名对应的规则库和噪音库：

1)、对每个罪名所对应的犯罪事实进行分词处理；

利用分词器对犯罪事实进行分词处理，得到分词后的犯罪事实数据语料库。

2)、对每个罪名对应的犯罪事实进行词性标注处理；

因为词性中包含着大量的规则以及特征，这对分析文本规律有着重大的意义，所以利用词性标注器对犯罪事实进行分词处理，得到标注词性后的犯罪事实数据语料库。如下所示：

…被告人/n,赵/nr,某某/nr,发现/v,自己/l,的/uj,摩托车/nz,钥匙/n…

3)、对每个罪名对应的犯罪事实进行研究，找出一些对定罪造成影响的词，形成一个噪音库；

被告人、第四十四条、受害人、家属…

4)、对每个罪名进行研究，找出可以定位罪名类别对应的词、词性的相关规则，形成一个罪名的规则库；

三、利用步骤1)中得到的犯罪事实学习语料进行训练建立数学模型

1)、对每个罪名所对应的犯罪事实进行分词处理，即可以利用分词器对犯罪事实进行分词处理。

2)、对分完词后的犯罪事实进行去噪音处理；

利用第二步骤中得到的噪音词库和规则库对分词后的犯罪事实进行去噪处理，得到一个清洗过的犯罪事实语料库。

3)、利用TF-IDF方法对犯罪事实进行关键词抽取，用以来表征一段犯罪事实；

TF-IDF方法对犯罪事实进行关键词抽取，用以来表征一段犯罪事实，具体情况如图3所示，其中每一行都代表一个犯罪事实。

4)、利用Bayes算法对分词后的犯罪事实进行建模处理，最后得到一个定罪分类器。

在本申请的一个实施方式中，在步骤S104中，将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。

本申请还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的罪名的判定方法的步骤。

本申请还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的罪名的判定方法的步骤。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

在介绍了本发明示例性实施方式的方法之后，接下来，参考图4对本发明示例性实施方式的罪名的判定装置进行介绍。该装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的术语“模块”和“单元”，可以是实现预定功能的软件和/或硬件。尽管以下实施例所描述的模块较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4为本申请实施例的罪名的判定装置的结构示意图，如图所示，包括：

获取模块101，用于获取待判定的犯罪事实文本信息；

预处理模块102，用于对所述犯罪事实文本信息进行分词处理和去噪处理；

关键字提取模块103，用于从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取，所述关键字用以表征一段犯罪事实；

判定模块104，用于将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。

在本申请的一个实施方式中，如图5所示，所述预处理模块102包括分词处理单元1021，用于对所述犯罪事实文本信息进行分词处理，其具体包括：

分词处理模块，用于利用分词器对所述犯罪事实文本信息进行分词处理；

向量化处理模块，用于利用word2vector技术对分词后的词进行向量化处理。

在本申请的一个实施方式中，如图5所示，所述预处理模块102还包括去噪单元1022，用于对所述犯罪事实文本信息进行去噪处理，其具体包括：

利用设定的规则库和噪音库对分词处理后的犯罪事实文本信息进行去噪处理。

在本申请的一个实施方式中，如图6所示，所述罪名的判定装置还包括模型建立模块105，用于生成所述定罪分类器。

在一实施例中，所述模型建立模块105具体包括：

学习语料库建立单元，用于构建各个罪名的犯罪事实学习语料库；

规则库及噪音库建立单元，用于构建各个罪名对应的规则库和噪音库；

数据清洗单元，用于利用所述规则库和噪音库对所述犯罪事实学习语料库进行清洗；

建模单元，用于对清洗后的犯罪事实学习语料库进行建模处理，得到定罪分类器。

此外，尽管在上文详细描述中提及了罪名的判定装置的若干单元，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样，上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。

综上所述，本申请实施例提供了一种罪名的判定方法、装置及计算机设备、存储介质，在输入犯罪事实文本信息后，可以智能的判定罪名，不但简化了定罪的过程，提高了办案的效率，而且给法律专业人员的办案提供了辅助作用，对非法律人员的相关咨询提供了指导性帮助。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种罪名的判定方法，其特征在于，包括：

获取待判定的犯罪事实文本信息；

对所述犯罪事实文本信息进行分词处理和去噪处理；

从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取，所述关键字用以表征一段犯罪事实；

将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。

2.根据权利要求1所述的罪名的判定方法，其特征在于，所述对犯罪事实文本信息进行分词处理，具体包括：

利用分词器对所述犯罪事实文本信息进行分词处理；

利用word2vector技术对分词后的词进行向量化处理。

3.根据权利要求2所述的罪名的判定方法，其特征在于，所述对犯罪事实文本信息进行去噪处理，具体包括：

4.根据权利要求1-3任一项所述的罪名的判定方法，其特征在于，所述定罪分类器通过训练犯罪事实学习语料获得，具体包括：

构建各个罪名的犯罪事实学习语料库；

构建各个罪名对应的规则库和噪音库；

利用所述规则库和噪音库对所述犯罪事实学习语料库进行清洗；

对清洗后的犯罪事实学习语料库进行建模处理，得到定罪分类器。

5.一种罪名的判定装置，其特征在于，包括：

获取模块，用于获取待判定的犯罪事实文本信息；

预处理模块，用于对所述犯罪事实文本信息进行分词处理和去噪处理；

关键字提取模块，用于从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取，所述关键字用以表征一段犯罪事实；

判定模块，用于将提取的关键字信息带入定罪分类器，生成对所述待判定的犯罪事实的罪名判定结果，所述定罪分类器通过训练犯罪事实学习语料获得。

6.根据权利要求5所述的罪名的判定装置，其特征在于，所述预处理模块包括分词处理单元，用于对所述犯罪事实文本信息进行分词处理，其具体包括：

7.根据权利要求6所述的罪名的判定装置，其特征在于，所述预处理模块包括去噪模块，用于对所述犯罪事实文本信息进行去噪处理，其具体包括：

8.根据权利要求5-7任一项所述的罪名的判定装置，其特征在于，还包括模型建立模块，用于生成所述定罪分类器；

所述模型建立模块具体包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。