CN111723208B

CN111723208B - 基于条件分类树的法律判决文书多分类方法、装置和终端

Info

Publication number: CN111723208B
Application number: CN202010595021.8A
Authority: CN
Inventors: 邓蔚; 杨欢; 李可; 王方; 李爽
Original assignee: Southwestern University Of Finance And Economics
Current assignee: Southwestern University Of Finance And Economics
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2023-04-18
Anticipated expiration: 2040-06-28
Also published as: CN111723208A

Abstract

本发明公开了一种基于条件分类树的法律判决文书多分类方法、装置和终端，方法包括以下步骤：S1、先验信息抽取：抽取能对数据集进行粗粒度划分的先验信息，形成特征域；S2、文本聚类：基于能对数据集进行粗粒度划分的先验信息进行聚类操作，得到初始类别；S3、基于特征域生成叶节点；S4、对一篇未知文本f进行分类时，首先根据贝叶斯概率模型将其归入某个初始类别，然后通过分类树推断其具体所属类别。本发明通过先验知识将复杂的多分类任务转化为二分类任务的组合，在分枝过程中确定最优划分方式使分类器数量最小化，通过这种方式减小由于待分类类别增加而对分类效果带来的不良影响。

Description

基于条件分类树的法律判决文书多分类方法、装置和终端

技术领域

本发明属于信息技术领域，特别涉及一种基于条件分类树的法律判决文书多分类方法、装置和终端。

背景技术

随着互联网的飞速发展，各种资源信息日渐丰富甚至呈爆炸式增长；而文字承载着丰富的信息，对文本的研究越来越需要被重视。对文本数据的管理工作十分重要，文本自动分类目的是为人们提供有力的自动化文本管理工具。

在法律领域，罪刑需要根据犯罪嫌疑人所造成的事件客观结果、主观动机以及相关法律条文进行判断，具有一套严谨的逻辑体系。但机器学习的过程常常是人类无法直观理解的“黑箱”，导致很多法学领域的专家对使用机器学习方法进行罪刑判定的不信任。因此，对于法律判决文书的分类模型，其分类的逻辑性及可理解性较为重要。以决策树为代表的在逻辑上为树状的算法由于其可理解性等优点而被广泛应用于多个领域，为了克服已有算法的一些缺陷，学者们根据类似的思路改进、提出了大量应用于不同领域的树算法。

以犯罪的客观结果作为先验信息建立的条件分类树模型不仅能够降低由于待分类类别增加对任务带来的不良影响，而且符合判案逻辑、具备高度的可解释性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种利用先验知识挖掘分类规则的框架，针对不同类型的知识、不同领域的文本，其聚类算法、分枝算法以及分类器可以根据实际需求进行灵活调整的基于条件分类树的法律判决文书多分类方法、装置和终端。

本发明的目的是通过以下技术方案来实现的：一种基于条件分类树的法律判决文书多分类方法，包括以下步骤：

S1、先验信息抽取：抽取能对数据集进行粗粒度划分的先验信息，形成特征域；

S2、文本聚类：基于能对数据集进行粗粒度划分的先验信息进行聚类操作，得到初始类别；

S3、基于特征域生成叶节点；

S4、对一篇未知文本f进行分类时，首先根据贝叶斯概率模型将其归入某个初始类别，然后通过分类树推断其具体所属类别。

进一步地，所述能对数据集进行粗粒度划分的先验信息包括与违法行为、违法后果以及作案工具高度相关的特征词。

进一步地，所述步骤S1具体实现方法为：

S11、为每个特征词构建频率向量和判别向量，频率向量和判别向量都是1×n的向量，n为待分类的文本种类总数；

对于一个特征词的频率向量，向量中每个位置对应一类文本L，这个位置上的数值为L中包含这个特征词的文本比例；

判别向量基于频率向量进行构造，运用统计学中小概率事件的原理：设定显著性水平α，对于一个最大值为M的频率向量，把它所有数值小于α×M的位置变成0，其他位置变成1，得到判别向量；

S12、基于频率向量和判别向量进行计算，为每个特征词打分；

对于任意一个特征词w，设它的频率向量为F_vec，判别向量为D_vec；w的得分为：

分布越集中的特征词得分越高，出现频率越高的特征词得分越高；

S13、分别计算每个特征词对每一类文本的代表性得分R_score，特征词w对第i类文本的代表性得分为：

其中，F_vec是w的频率向量，F_vec[i]是向量中对于第i类文本的数值；

S14、根据S13得到的代表性得分，分别为每一类文本构建特征域；具体实现方法为：引入覆盖率定义，对于任意特征域F，F对文本集合a的覆盖率C为：

其中t_f为集合a中含有F中任一特征的文本数量，t为集合a的文本数量；

对于任意一类文本，从代表性得分最高的单词开始，运用如下规则自上而下地进行搜索：如果添加这个特征词，特征域对这一类文本的覆盖率增加，那么就把这个特征词加入特征域，反之则跳过；当覆盖率达到100％或预先设定的最低要求时结束检索，得到特征域。

进一步地，所述步骤S2具体实现方法为：以每类案件的特征域作为条件分类树的先验知识，对于包含N种类型的案件(d₁、d₂…d_N)的集合D，记集合中任意一类案件d_k的特征域为f_k；

将D中包含的文本以案件类别为单位进行聚类，得到子集序列D₁、D₂…D_n，n≤N；记序列中子集D_i中任意一种案件的特征域为F_is，子集D_j中任意一种案件的特征域为记为F_jm；

理想情况下，对子集序列有如下要求：

引入基于覆盖率的距离定义：集合A到集合B的距离为集合B中所有案件类型的特征域各自对集合A覆盖率的最大值的倒数：

该距离公式的描述了案件特征域的相似程度；

每次任选一种案件作为中心子集，计算其他案件子集到它的距离，将距离小于预设阈值的案件子集并入中心子集中；

重复上述距离计算与合并的流程，直到其他所有子集到中心子集的距离均大于预设阈值为止，这时的中心子集就是聚类完成的一个子集；

对剩余的子集递归地重复上述操作直到聚类完成。

进一步地，所述步骤S3具体实现方法为：对聚类后得到的各个子集递归地进行如下操作：

判断子集中包含的案件种类数量，如果子集中只包含一种案件，则直接生成叶节点；否则，生成内部节点，基于只出现在子集中某一种案件类型中的特征生成叶节点；并为这个子集中的案件重新构建特征域，然后以相对最优的方式(同样使用S2中的聚类方法，但是如果基于原有距离阈值无法得到两个以上的新子集，则逐渐提高距离阈值，直到得到两个以上新子集为止)对包含多种案件的子集进行划分得到新子集，并根据划分训练一个分类器，生成分类器节点；对于每次划分后得到的新子集，继续判断其包含的案件种类数量；直到所有案件都归入叶节点为止。

本发明的一种基于条件分类树的法律判决文书多分类装置，包括

文本聚类模块，用于对数据集进行聚类操作，得到初始类别；

文本划分模块，用于对数据集进行粗粒度划分；

分类器节点生成模块，用于根据文本划分结果训练得到分类器；

树状结构控制模块，用于递归地进行聚类、划分以及节点生成；

朴素贝叶斯预分类模块，用于将待分类模块归于某一初始类别；

分类树预测模块，用于进行文本分类任务。

本发明还提供一种基于条件分类树的法律判决文书多分类终端，包括处理器和存储器，所述处理器包括上述的分类装置。

本发明的有益效果是：本发明提供了一种以先验知识为驱动的文本分类算法、装置、终端，其生长过程类似于决策树，因此也具备决策树可解释性强的优点，但与决策树不同的是，条件分类树除了生成叶节点与内部节点以外，还生成分类器节点，在生长过程中实现了对先验知识与分类规则的充分挖掘，核心思想是通过先验知识将复杂的多分类任务转化为二分类任务的组合，在分枝过程中确定最优划分方式使分类器数量最小化，通过这种方式减小由于待分类类别增加而对分类效果带来的不良影响。条件分类树的应用并不局限于该领域，它提供了一种利用先验知识挖掘分类规则的框架，针对不同类型的知识、不同领域的文本，其聚类算法、分枝算法以及分类器可以根据实际需求进行灵活调整。对关键词类型的先验信息给出更一般的定义：在不同类别之间分布高度不均的特征。条件分类树将这些特征在训练集中的分布特性作为它们在总体数据中的分布特性的估计，并利用它们的分布特性挖掘分类规则。因此提供给模型的先验信息能够脱离专业的领域知识的范畴，只需从训练样本中筛选出满足上述定义要求的特征即可，这使得条件分类树或能成为一种具有通用性潜力的多分类算法、装置、终端。

附图说明

图1为本发明的基于条件分类树的法律判决文书多分类方法的模型构建流程图；

图2为本发明的聚类算法流程图；

图3为本发明的条件分类树生成方法的流程图；

图4为一个实施例中本发明的模型结构图，图中省略了第二类叶节点；

图5为本发明的基于条件分类树的法律判决文书多分类装置的结构示意图。

具体实施方式

本发明中的文本信息的知识图谱关系抽取方法可以应用于本发明实施例的基于改进条件分类树的法律判决文书多分类装置，该文本信息分类的装置可以配置于文本信息的多分类终端内，该分类终端可以是计算机设备或者服务器等。

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种基于条件分类树的法律判决文书多分类方法，包括以下步骤：

能对数据集进行粗粒度划分的先验信息包括与违法行为、违法后果以及作案工具高度相关的特征词。

S1具体实现方法为：

S11、进行去停用词等数据预处理操作后，为每个特征词构建频率向量和判别向量，频率向量和判别向量都是1×n的向量，n为待分类的文本种类总数；

分别越集中的特征词得分越高，出现频率越高的特征词得分越高；

S2、文本聚类：基于能对数据集进行粗粒度划分的先验信息进行聚类操作，得到初始类别；如图2所示，本步骤具体实现方法为：以每类案件的特征域作为条件分类树的先验知识，对于包含N种类型的案件(d₁、d₂…d_N)的集合D，记集合中任意一类案件d_k的特征域为f_k；

理想情况下，对子集序列有如下要求：

即要求在聚类后子集的特征域之间完全不重叠的前提下，得到的子集尽可能多。由于特征域的本质是文本关键词，当数据量很大时，相关度不高的案件之间的特征域可能会有少量重叠，这会使得聚类后每个子集的规模特别大，因此需要放宽条件(5)，因此引入基于覆盖率的距离定义：集合A到集合B的距离为集合B中所有案件类型的特征域各自对集合A覆盖率的最大值的倒数：

该距离公式的描述了案件特征域的相似程度；但由于同一客观结果对不同案件的覆盖率不同，所以这种距离在运算上是不可逆的：通常情况下distance(A→B)不等于distance(B→A)。

图2描述了基于以上距离定义的聚类算法流程，每次任选一种案件作为中心子集，计算其他案件子集到它的距离，将距离小于预设阈值的案件子集并入中心子集中，这时中心子集的特征域更新为它包含的所有案件的特征域的并集；

对剩余的子集递归地重复上述操作直到聚类完成。

S3、基于特征域生成叶节点；对聚类后得到的各个子集递归地进行如下操作：

判断子集中包含的案件种类数量，如果子集中只包含一种案件，则直接生成叶节点(第一类叶节点)；否则，生成内部节点，基于只出现在子集中某一种案件类型中的特征生成叶节点(第二类叶节点)；并为这个子集中的案件重新构建特征域，然后以相对最优的方式(同样使用S2中的聚类方法，但是如果基于原有距离阈值无法得到两个以上的新子集，则逐渐提高距离阈值，直到得到两个以上新子集为止)对包含多种案件的子集进行划分得到新子集，并根据划分训练一个分类器，生成分类器节点；对于每次划分后得到的新子集，继续判断其包含的案件种类数量；直到所有案件都归入叶节点为止。

本实施例以其中一个子集D_j为例，如图3所示，假设D_j包含多种类型的案件：

S31、基于特征域生成叶节点：根据S1中的特征域构建方法，为D_j中所有类型的案件重新构造特征域，在新构造的特征域中，把那些只出现在特定一种案件类型中的特征作为分类的依据，生成叶节点(第二类叶节点)，这类叶节点位于D_j对应的内部节点之后，拥有直接对案件进行判定的功能；即如果特征w只出现在案件类型d的文本中，那么基于w生成对应d的第二类叶节点，如果一篇归类于子集D_j的待分类文本包含特征w，那么判定这篇文本属于d类型案件；

S32、根据最优分组方式抽取对应数据作为训练集：运用S2中的聚类方法，基于S31中更新后的特征域对D_j进行聚类，如果基于原有的距离阈值无法得到多个新子集，那么逐渐提高阈值，直到得到多个新子集D_j1，D_j2……D_jn(n为聚类后得到的新子集数量)为止。抽取每个新子集对应的数据作为训练集，每一个新子集所属的数据对应一种标签：D_j1，D_j2……D_jn中的数据对应的标签为1,2……n；

S33、特征选择、文本向量生成：分类模型的选择可以根据实际情况进行调整。对于逻辑回归、SVM等传统模型，需要进行特征选择操作，这里的特征选择方法与S1中构造特征域的方法不同，在本步骤中，用卡方统计量或信息增益等传统特征选择方法来进行特征选择，并通过词集模型构建文本向量；

S34、训练分类器：确定分类器后，根据当前训练集进行训练，并保存模型参数；

S35、生成分类器节点：将S34中得到的分类器作为分类器节点，置于D_j对应的内部节点之后。特别的，对于第一次聚类得到的子集，使用基于特征域的朴素贝叶斯模型作为分类器节点，称为预分类节点；

假设一篇陌生文本具备结果特征X＝{x₁,x₂...,x_n}，条件分类树第一层聚类后的子集序列为D₁,D₂,…,D_n，其中特征域与X有交集的子集为D'₁,D'₂，…，D'_v(2≤v≤n)。假设结果特征之间相互独立，根据贝叶斯定理：

将文本归入P(D'_i丨X)最大的一类，其中P(X)对所有类为常数，所以只需求P(X丨D'_i)P(D'_i)最大即可。使用拉普拉斯估计法估计概率：

其中f_ik为子集D'_i中包含x_k的文本数，f_i为D'_i包含的文本数，f为训练集所有文本的数量；

S36、根据新子集D_j1，D_j2……D_jn生成叶节点或内部节点，位于S35中生成的分类器节点之后，对于D_ji(i＝1,2……n)，如果D_ji只包含一种案件，则生成叶节点(第一类叶节点)，否则生成内部节点，对这个内部节点再次进行S31到S36的操作，直到所有类型的案件都归于叶节点为止。

S4、对一篇未知文本f进行分类时，首先根据贝叶斯概率模型将其归入某个初始类别，然后通过分类树推断其具体所属类别。推断流程为：

第一类叶节点与第二类叶节点地位不同，前者位于分类器节点之后，而后者直接与上层内部节点相连接，拥有最高的优先级：只有当未知文本无法通过第二类叶节点进行归类时，才通过分类器节点进入下一层内部节点或者第一类叶节点。

在一个包含十种常见案件的实施例中，分类树的具体结构如图4所示，从图中可知，每一个内部节点中包含的案件都具有某些相似特征，分类树的推断过程符合人类认知逻辑。

如图5所示，本发明的一种基于条件分类树的法律判决文书多分类装置，包括

文本划分模块，用于对数据集进行粗粒度划分；

树状结构控制模块，用于递归地进行聚类、划分以及节点生成(包括根节点、叶节点、内部节点和分类器节点)；

分类树预测模块，用于进行文本分类任务。

本发明还提供了一种基于改进条件分类树的法律判决文书多分类终端，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时如上述的基于改进条件分类树的法律判决文书多分类方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于条件分类树的法律判决文书多分类方法，其特征在于，包括以下步骤：

S1、先验信息抽取：抽取能对数据集进行粗粒度划分的先验信息，形成特征域；具体实现方法为：

对于任意一类文本，从代表性得分最高的单词开始，运用如下规则自上而下地进行搜索：如果添加这个特征词，特征域对这一类文本的覆盖率增加，那么就把这个特征词加入特征域，反之则跳过；当覆盖率达到100％或预先设定的最低要求时结束检索，得到特征域；

S3、基于特征域生成叶节点；具体实现方法为：对聚类后得到的各个子集递归地进行如下操作：

判断子集中包含的案件种类数量，如果子集中只包含一种案件，则直接生成叶节点；否则，生成内部节点，基于只出现在子集中某一种案件类型中的特征生成叶节点；并为这个子集中的案件重新构建特征域，然后以相对最优的方式对包含多种案件的子集进行划分得到新子集，并根据划分训练一个分类器，生成分类器节点；对于每次划分后得到的新子集，继续判断其包含的案件种类数量；直到所有案件都归入叶节点为止；

2.根据权利要求1所述的基于条件分类树的法律判决文书多分类方法，其特征在于，所述能对数据集进行粗粒度划分的先验信息包括与违法行为、违法后果以及作案工具高度相关的特征词。

3.根据权利要求1所述的基于条件分类树的法律判决文书多分类方法，其特征在于，所述步骤S2具体实现方法为：以每类案件的特征域作为条件分类树的先验知识，对于包含N种类型的案件(d₁、d₂…d_N)的集合D，记集合中任意一类案件d_k的特征域为f_k；

理想情况下，对子集序列有如下要求：

该距离公式的描述了案件特征域的相似程度；

对剩余的子集递归地重复上述操作直到聚类完成。

4.一种基于条件分类树的法律判决文书多分类装置，用于实现如权利要求1～3任意一项所述的基于条件分类树的法律判决文书多分类方法，其特征在于：包括

文本划分模块，用于对数据集进行粗粒度划分；

分类树预测模块，用于进行文本分类任务。

5.一种基于条件分类树的法律判决文书多分类终端，其特征在于：包括处理器和存储器，所述处理器包括权利要求4所述的分类装置。