CN109145097A

CN109145097A - 一种基于信息提取的裁判文书分类方法

Info

Publication number: CN109145097A
Application number: CN201810595918.3A
Authority: CN
Inventors: 许建峰; 孙福辉; 王晓燕; 骆斌; 李忠金; 雷妙妙
Original assignee: People's Court Information Technology Service Center
Current assignee: People's Court Information Technology Service Center
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2019-01-04

Abstract

本发明公开了一种基于信息提取的裁判文书分类方法，其步骤包括：建立裁判文书分类词库；使用正则表达式提取裁判文书段落；对提取的提取裁判文书段落进行关键词标注；关键词的特征提取；使用条件随机场算法训练模型；使用条件随机场算法自动标注裁判文书关键词；根据裁判文书的关键词，使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配，输出裁判文书类别。本发明不仅能有效地将文书进行分类，而且还能标记文书中所涉及的产品，在文本分类技术领域具有广泛的应用价值，尤其适用于裁判文书的大数据分析研究。

Description

一种基于信息提取的裁判文书分类方法

技术领域

本发明属于文本分类技术领域，涉及一种分类方法。尤其涉及一种基于信息提取的裁判文书分类方法，

背景技术

裁判文书属于特定的文本范畴，它是记载人民法院审理案件的过程和结果，是诉讼活动结果的载体，也是人民法院确定和分配当事人实体权利义务的惟一凭证。不同于一般的文本，裁判文书都是结构完整、要素齐全、逻辑严谨的文本，它有常见文本没有的规范性和结构性。裁判文书中包含大量的司法和经济信息，通过深入对裁判文书的分类和全面分析，能梳理出相关司法的审判现状，找出相关的法律要素，剖析我国司法和经济中存在的问题，因此对裁判文书进行文书分类的研究非常重要。

文书分类是一种确定文章所属类别的分析方法，利用计算机对文本集按照一定的分类体系或标准进行自动分类，属于同一类别的文本被标上相同的类别标记的方法。目前，最高人民法院数据集中管理平台已经收集了大约2000万份的裁判文书，文本自动分类显得尤其重要，特别是现在面对海量的文本，人工分类已经无能为力。

目前用于文书分类的技术有很多，主流技术多数是基于统计学习法的，这些方法中比较著名的有朴素贝叶斯分类法(NB)、支持向量机算法(SVM)、基于最大熵模型的文本分类法、K邻近算法(KNN)等。这些分类算法一般采用向量空间模型(Vector Space Model，VSM)表示文本，当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。此类方法都需要对文本进行分词生成大量分词文本，还要有足够大的语料库用于机器的监督学习，具有操作复杂、运算量大的缺陷。而且，对大数据的裁判文书的分析不仅需要精确的分类，还需要统计出文书中涉及到的诉讼原因、诉讼结果、诉讼产品、造成结果等等信息，用于司法信息统计和法院领导决策。现有的分类算法都不能够即完成裁判文书的分类，还能够得到文书的诉讼信息。

发明内容

本发明的目的是为了解决上述技术所存在的不足之处，提供一种基于信息提取的裁判文书分类方法。

本发明解决其技术问题说采用的技术方案如下：

步骤(1)建立裁判文书分类词库；

步骤(2)使用正则表达式提取裁判文书段落；

步骤(3)对提取的提取裁判文书段落进行关键词标注；

步骤(4)关键词的特征提取；

步骤(5)使用条件随机场算法训练模型；

步骤(6)使用条件随机场算法自动标注裁判文书关键词；

步骤(7)根据裁判文书的关键词，使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配，输出裁判文书类别。

所述步骤(1)中建立裁判文书分类词库的具体方法为：

(1.1)根据国家行业分类标准，对裁判文书所需要的类别进行分类；

(1.2)根据每个分类类别，整理该类别相对应的关键词，从而建立裁判文书分类关键词库。

所述步骤(2)中采用正则表达式提取裁判文书段落的具体方法为：

(2.1)编写正则表达式，并根据编写的正则表达式提取裁判文书中的“原告诉称段”段落。

所述的步骤(3)中裁判文书段落进行关键词标的具体方法为：

对“原告诉称段”段落进行关键词标注，关键词类别包括行业词汇名以及其他名称；领域词汇名包括：化工、服装、建筑、机械、食品以及药品等。

根据提取的关键词，初步标记该段落的所属类别；

所述的步骤(4)中关键词的特征提取如下：

(4.1)对提取的提取裁判文书段落进行分句，获取步骤(3)中标注的关键词的词性和词语本身，同时获取关键词在段中的所处位置；

(4.2)对每一个分句进行分词，获取关键词在分句中的所处位置；

(4.3)计算关键词的TF-IDF值；

(4.4)重复步骤(4.1)～(4.3)，从而提取关键词的前置词和后置词的属性，生成属性集合；属性包括在段中位置、句中位置、TF-IDF值、词性和词语本身。属性集合包括关键词属性、关键词的前置词属性以及关键词的后置词属性。

所述步骤(4.1)的分句通过标点符号完成，分句的标点符号包括逗号、顿号、分号、冒号、句号、感叹号和问号。

所述步骤(4.3)的关键词的TF-IDF值的计算如下：

TF-IDF＝TF(w)*IDF(w)

TF(w)＝词语w在词汇集合Ⅲ中频率数/词汇集合Ⅲ中的词汇数量

IDF(w)＝ln(所有裁判文书段落的总数/包含字符w的所有裁判文书段落的总数)

所述的步骤(5)中使用条件随机场算法训练模型，具体实现如下：

将训练集输入条件随机场算法，训练得到文书标注模型。其中属性集合的70％作为训练集，30％作为测试集；

所述的步骤(6)中使用条件随机场算法自动标注裁判文书关键词，具体实现如下：

将待标记的裁判文书输入到文书标注模型，得到该裁判文书对应的关键词。

所述的步骤(7)中根据裁判文书的关键词，使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配，具体实现如下：

根据步骤(6)获得的关键词，使用逆向匹配技术在步骤(1)中建立的分类关键词库中进行匹配，从而得出该文书所属的类别。

本发明有益效果如下：

本发明不仅能有效地将裁判文书进行分类，而且还能标记文书中所涉及的产品，尤其适用于裁判文书的大数据分析研究。

通过本发明，司法研究人员根据裁判文书需要分类的类别，利用信息提取技术抽取文书中具有分类效果的关键词，然后根据逆向匹配的思想进行文书分类和关键词标记。

本发明提出的文书分类方法，具有运算量小、操作简单的优点，该方法不仅能有效地将文书进行分类，而且还能标记文书中所涉及的产品，在文本分类技术领域具有广泛的应用价值，尤其适用于裁判文书的分类研究。

附图说明

图1为本发明的整体步骤流程图。

图2为实施例的文书示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于针对裁判文书分类问题，提出一种基于信息提取的裁判文书的自动分类方法。首先通过使用特定的正则规则，提取文书中与文本分类目标相关的段落，避免了全篇幅使用文书引入其他无关信息的问题；然后使用信息提取的方法抽取出文书中对分类效果有关的关键词；最后利用逆向匹配的思想进行关键词匹配，标记文书分类类别和所涉及到的诉讼信息。

如图1所示，本发明概括来说主要包括以下步骤：

步骤(1)建立裁判文书分类词库；

步骤(2)使用正则表达式提取裁判文书段落；

步骤(3)对提取的提取裁判文书段落进行关键词标注；

步骤(4)关键词的特征提取；

步骤(5)使用条件随机场算法训练模型；

步骤(6)使用条件随机场算法自动标注裁判文书关键词；

实施例

以裁判文书中有关民事产品质量纠纷的行业分类作为例子，对上述步骤分别进行实例描述。

步骤1.由最高人民法院数据集中管理平台收集的全国案件来看，民事案件的种类不仅繁多而且案件数量最多。根据裁判文书的写作要求，每篇文书都会带有案由标记，用于区分案件所属的大类。然而，只是根据案由分类来进行数据统计分析显然远远不够，通常是要分析某一个案由下的案件分类情况。那么，建立裁判文书分类词库的具体步骤包括：

(1.1)根据国家行业分类标准，对裁判文书所需要的类别进行分类。

以裁判文书中有关民事产品质量纠纷的行业分类作为例子，一般将民事文书涉及的分类分为：机械设备、农副食品、食品药品、酒水饮料茶、五金建材、化工、纺织服饰、电子通讯、交通运输、家电、文体生活用品、种植养殖和其他行业。

每个文书分类类别中，都会涉及到特定的关键词。如代表家电行业的关键词是洗衣机、微波炉、电饭锅、冰箱；再如，楼板、水泥、熟料管等词是属于五金建材行业；而衣服、大衣、裙子、T恤等关键词属于纺织服装行业。所以，每个行业分类都会有特定的一些关键词，界限非常清晰。因此，根据国家发布的国家行业分类标准或《国民经济行业分类》整理分类类别下的关键词。

步骤2.民事案件裁判文书的包含多个层次内容，其中很多段落与文书分类没有直接的联系，如原告、被告的诉称段落。为了提高信息抽取算法的精确度，只需要提取文书中对分类起决定性的段落，例如裁判文书中“原告诉称段”部分。文书通常是由word或txt格式存储，如图2中的文书片段所示。那么使用正则表达式提取文书段落的具体步骤包括：

(2.1)编写正则表达式抽取出裁判文书中的“原告诉称段”段落。可以用正则表达式“原告.*？诉称[\S\s]*(？＝经审理查明)”来提取这一段落中的原告诉称段。

步骤3.对提取的提取裁判文书段落进行关键词标注，主要采用的思想是提取文书中的代表分类效果的关键词。所以需要利用人工的方式对文书中的关键词进行标记，然后进行机器学习以达到精确提取关键词的目的。那么标注裁判文书关键词的具体方法为：

(3.1)人工标注出裁判文书中具有分类效果的关键词。如图2中所示，为该文书标记的关键词为“灵芝片”。需要注意的是，涉及产品质量的文书至少会有一个关键词；在遇到一篇有多个关键词的时候，提取第一个关键词作为分类的标准。

步骤4.由于原始的裁判文书无法直接被输入到数学模型中进行计算，为了使用机器学习方法训练和测试关键词标注模型，从而自动从文本中抽取分类目标需要的关键词，裁判文书需要进行特征提取。特征提取方法能将原始文本转换成可计算的特征空间，为了提高关键词标注模型的准确度，充分挖掘文本信息和关键词特征十分必要，那么特征提取的具体方法为：

对文书段落分句的方法为：建立一个断句的字符列表，包含表达断句意义的字符，如“，.！？：；～，。！？：；～”，遍历段落，当匹配到断句符就拆分句子，记录下句子的编号。

对段落分句后的每一个句子进行分词，记录词语在句子中的位置。在步骤(4.1)中已经计算出句子在段落的位置，根据词语在句中所处位置，以及句子在段落中所处位置，我们可以得到每一个词语的位置特征。

(4.3)计算关键词的TF-IDF值；

所述步骤(4.3)的关键词的TF-IDF值的计算如下：

TF-IDF＝TF(w)*IDF(w)；

TF(w)＝词语w在词汇集合Ⅲ中频率数/词汇集合Ⅲ中的词汇数量；

IDF(w)＝ln(所有裁判文书段落的总数/包含字符w的所有裁判文书段落的总数)；

TF表示词语在一段文本中的出现频率，IDF表示出现该词的文本在所有文本中的比例的倒数，TF-IDF等于TF和IDF的乘积。TF-IDF可以用来确定一个词语的重要性。通过计算词语的TF-IDF值，能够得到每一个词语的重要程度特征。

步骤5.将训练集输入条件随机场算法，训练得到文书标注模型。其中属性集合的70％作为训练集，30％作为测试集；为了实现自动的信息抽取，机器学习被用于对文本中的每一个词进行分类，例如，“原告两次在被告处购买了灵芝片”，为了抽取这句话中的关键词，机器学习需要对每一个词语进行分类，判断它的所属类别，在本例中，分类为这个词“是”或“不是”关键词。条件随机场算法能够实现顺序标注，即将一整句话转换为特征向量后，调用条件随机场算法，能够输出每一个词语的所属类别。

步骤6.使用条件随机场算法训练出文本关键词标注模型后，使用该模型自动标注文本的关键词。那么使用条件随机场算法自动标注裁判文书关键词的具体方法为：

步骤7.根据步骤6获得的关键词，使用逆向匹配技术在步骤1中建立的分类关键词库中进行匹配，从而得出该文书所属的类别；

逆向匹配算法思想大致为：先构造一个带权值的分类主题词表，然后依次从表中取出关键词到待分类的文本中进行模式匹配，匹配成功则加上该词对应的权值，依次统计每一类关键词匹配后得到的权值和，所有类别匹配完成后，取权值和最大者作为文书所属的类别。值得注意的是，在本发明中我们只使用一个关键词来代表文书。那么使用逆向匹配技术进行关键词匹配的具体方法为：

根据每篇裁判文书的关键词，使用逆向匹配技术在分类关键词库中进行匹配。以图2中的文书为例，利用信息提取方法提取的关键词是“灵芝片”。那么根据之前建立的文书分类关键词库，关键词“灵芝片”存在于酒水饮料茶行业的关键词库中。因此，逆向匹配的做法就是用代表文书的关键词，在所有行业的关键词库中进行遍历和匹配，一旦成功则匹配结束。

利用逆向匹配算法之后，最后将文书的分类结果进行标记，并记录文书所涉及的诉讼产品。

本发明对裁判文书分类测试时，数据集中70％的文书作为训练集，30％文书作为测试集，并获得了良好的结果。

根据逆向匹配的结果标记文书所属的类别和涉及到的诉讼产品。此时，关键词匹配成功之后，不仅能将文书进行了精确的分类，而且还能记录文书中的诉讼产品。再以图2中的文书为例，其所属的分类为酒水饮料茶，而且涉及到的诉讼产品为“灵芝片”。

本发明的分类效果与现有分类方法进行比较。在同样的训练集和测试集基础上，表1展示了多种分类算法的准确率，其中本发明提出的基于信息提取的裁判文书分类方法的分类效果最佳。

表1 准确率对比

分类算法	分类准确率
		朴素贝叶斯	0.71
决策树	0.69
		随机森林	0.78
支持<u>向量机</u>	0.84
		基于信息提取方法	0.85

至此，上面已经参考附图对根据本发明实施的一种基于信息提取的裁判文书分类方法进行了详细描述。本发明具有如下优点：建立裁判文书分类的关键词库；使用正则表达式提取只与文本分类相关的目标段落；使用信息提取的方法抽取出表示文书的关键词；采用逆向匹配方法进行文书分类。通过上述文书分类方法，已经有效地将文书进行分类，并且可以同时标记出文书所涉及的诉讼产品。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于信息提取的裁判文书分类方法，其特征在于包括如下步骤：

步骤(1)建立裁判文书分类词库；

步骤(2)使用正则表达式提取裁判文书段落；

步骤(3)对提取的提取裁判文书段落进行关键词标注；

步骤(4)关键词的特征提取；

步骤(5)使用条件随机场算法训练模型；

步骤(6)使用条件随机场算法自动标注裁判文书关键词；

2.根据权利要求1所述的一种基于信息提取的裁判文书分类方法，其特征在于所述步骤(1)中建立裁判文书分类词库的具体方法为：

3.根据权利要求2所述的一种基于信息提取的裁判文书分类方法，其特征在于所述步骤(2)中采用正则表达式提取裁判文书段落的具体方法为：

4.根据权利要求3所述的一种基于信息提取的裁判文书分类方法，其特征在于所述的步骤(3)中裁判文书段落进行关键词标的具体方法为：

对“原告诉称段”段落进行关键词标注，关键词类别包括行业词汇名以及其他名称；领域词汇名包括：化工、服装、建筑、机械、食品以及药品。

5.根据权利要求4所述的一种基于信息提取的裁判文书分类方法，其特征在于所述的步骤(4)中关键词的特征提取如下：

(4.3)计算关键词的TF-IDF值；

(4.4)重复步骤(4.1)～(4.3)，从而提取关键词的前置词和后置词的属性，生成属性集合；属性包括在段中位置、句中位置、TF-IDF值、词性和词语本身；属性集合包括关键词属性、关键词的前置词属性以及关键词的后置词属性；

所述步骤(4.1)的分句通过标点符号完成，分句的标点符号包括逗号、顿号、分号、冒号、句号、感叹号和问号；

所述步骤(4.3)的关键词的TF-IDF值的计算如下：

TF-IDF＝TF(w)*IDF(w)

TF(w)＝词语w在词汇集合Ⅲ中频率数/词汇集合Ⅲ中的词汇数量

IDF(w)＝ln(所有裁判文书段落的总数/包含字符w的所有裁判文书段落的总数)。

6.根据权利要求5所述的一种基于信息提取的裁判文书分类方法，其特征在于所述的步骤(5)中使用条件随机场算法训练模型，具体实现如下：

将训练集输入条件随机场算法，训练得到文书标注模型；其中属性集合的70％作为训练集，30％作为测试集。

7.根据权利要求6所述的一种基于信息提取的裁判文书分类方法，其特征在于所述的步骤(6)中使用条件随机场算法自动标注裁判文书关键词，具体实现如下：

8.根据权利要求7所述的一种基于信息提取的裁判文书分类方法，其特征在于所述的步骤(7)中根据裁判文书的关键词，使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配，具体实现如下：