CN109471941A

CN109471941A - 一种应对类别不平衡的罪名分类方法

Info

Publication number: CN109471941A
Application number: CN201811317492.1A
Authority: CN
Inventors: 杨权; 梁栋; 后弘毅
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-15

Abstract

本发明公开了一种应对类别不平衡的罪名分类方法，包括如下步骤：获取收集语料，对案情描述语料进行预处理，得到和罪名相关的案情描述语料；将某罪名相关的案情描述语料作为正实例语料，将某罪名无关的案情描述语料作为负实例语料，并划分出训练语料和测试语料；利用欠采样算法从负实例语料中独立随机抽取出若干子集，每个子集和正实例样本组合成一个训练语料子集；利用若干训练语料子集，训练得到多个基于LSTM的基分类器；结合基分类器的分类结果进行对新的案情描述进行罪名分类。本发明能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器，解决类别不平衡情况下的分类错误率较高的情形，实现案情描述的罪名自动化推理。

Description

一种应对类别不平衡的罪名分类方法

技术领域

本发明涉及自然语言处理技术领域，尤其是一种应对类别不平衡的罪名分类方法。

背景技术

随着人工智能技术的发展，越来越多的传统行业引入了人工智能技术以减少人力，节约成本，提升效率。在法院的日常工作中，需要对一段案情描述进行罪名推断，以方便记录和检索。传统的方法多是人工手动录入，需要具备一定法律知识的人员，同时对各个罪名有一定的了解，在阅读案情描述后，将该案情相关的罪名手动录入系统。罪名的种类很多，在长时间的工作后，工作人员无法高效地完成罪名的录入。因此，急需一种自动化的罪名推断方法，完成关于案情描述罪名的推断。

目前，大多数文本分类问题是多分类问题，为了达到较高的分类效果，目前的文本分类算法大多采用全监督式的分类方法，通过将多分类问题转换为二分类问题来实现最终的分类。但是，这种基于全监督式分类方法的分类效果高度依赖于人工标注语料的质量，并且二分类器还常常面临者负样本数量较多而正样本数量较少的情况。类别的不平衡会导致二分类器的分类准确率大大下降，从而最终影响多分类的结果。因此，需要研发针对类别不平衡的罪名分类器。

发明内容

本发明所要解决的技术问题在于，提供一种应对类别不平衡的罪名分类方法，能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器，解决类别不平衡情况下的分类错误率较高的情形，实现案情描述的罪名自动化推理。

为解决上述技术问题，本发明提供一种应对类别不平衡的罪名分类方法，包括如下步骤：

(1)获取收集语料，对案情描述语料进行预处理，得到和罪名相关的案情描述语料；

(2)将某罪名相关的案情描述语料作为正实例语料，将某罪名无关的案情描述语料作为负实例语料，并划分出训练语料和测试语料；

(3)利用欠采样算法从负实例语料中独立随机抽取出若干子集，每个子集和正实例样本组合成一个训练语料子集；利用上述的若干训练语料子集，训练得到多个基于LSTM的基分类器；

(4)结合多个基分类器的分类结果进行对新的案情描述进行罪名分类。

优选的，步骤(1)中，对收集的案情描述语料文档利用结巴进行分词处理，统计其中词频前10000的高频词汇，通过keras自带的本文预处理功能，利用该10000个高频词汇截取案情描述的前500个词进行向量化，得到所有案情描述的向量化表示。

优选的，步骤(2)中，将某罪名相关的案情描述语料作为正实例语料，将某罪名无关的案情描述语料作为负实例语料，并划分出训练语料和测试语料具体包括如下步骤：

(21)将所有的案情描述样本进行人工标注，根据需要判别的罪名对每条案情描述语料进行标注；

(21)根据需要判定的罪名，将所有的案情描述划分为某罪名相关的正样本和某罪名无关的负样本；

(23)从正样本和负样本语料中，各抽取一定的比例划分为训练样本和测试样本。

优选的，步骤(3)中，训练得到多个基于LSTM的基分类器具体为：构建LSTM网络，包括词向量层和多个LSTM层，每个batch利用128个正负样本进行训练得到最终的LSTM分类器。

优选的，步骤(4)中，结合多个基分类器的分类结果进行对新的案情描述进行罪名分类具体包括如下步骤：

(41)利用Easy Ensemble算法对样本数较多的类别进行独立随机抽样获取N各子集，将这个N个子集与样本数较少类数据联合起来组成N个训练子集；

(42)对于每个训练语料子集，通过LSTM深度学习分类算法进行学习，得到一个基分类器；重复上面步骤N次，则得到N各基分类器；

(43)将所述的N个基分类器进行组合，按照多数投票制进行投票，如果多数分类器认为该案情描述属于某个罪名，则该案情与某个罪名相关。如果多数分类器认为该案情描述不属于某个罪名，则该案情与某个罪名无关。

本发明的有益效果为：本发明能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器，解决类别不平衡情况下的分类错误率较高的情形，实现案情描述的罪名自动化推理。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的模型结构示意图。

具体实施方式

如图1所示，一种应对类别不平衡的罪名分类方法，包括如下步骤：

(3)如图2所示，利用欠采样算法从负实例语料中独立随机抽取出若干子集，每个子集和正实例样本组合成一个训练语料子集；利用上述的若干训练语料子集，训练得到多个基于LSTM的基分类器；

步骤(1)中，对收集的案情描述语料文档利用结巴进行分词处理，统计其中词频前10000的高频词汇，通过keras自带的本文预处理功能，利用该10000个高频词汇截取案情描述的前500个词进行向量化，得到所有案情描述的向量化表示。

步骤(2)中，将某罪名相关的案情描述语料作为正实例语料，将某罪名无关的案情描述语料作为负实例语料，并划分出训练语料和测试语料具体包括如下步骤：

步骤(3)中，训练得到多个基于LSTM的基分类器具体为：构建LSTM网络，包括词向量层和多个LSTM层，每个batch利用128个正负样本进行训练得到最终的LSTM分类器。

步骤(4)中，结合多个基分类器的分类结果进行对新的案情描述进行罪名分类具体包括如下步骤：

(41)利用Easy Ensemble算法对样本数较多的类别进行独立随机抽样获取N个子集，将这个N个子集与样本数较少类数据联合起来组成N个训练子集；

(42)对于每个训练语料子集，通过LSTM深度学习分类算法进行学习，得到一个基分类器；重复上面步骤N次，则得到N个基分类器；

本发明能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器，解决类别不平衡情况下的分类错误率较高的情形，实现案情描述的罪名自动化推理。

Claims

1.一种应对类别不平衡的罪名分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的应对类别不平衡的罪名分类方法，其特征在于，步骤(1)中，对收集的案情描述语料文档利用结巴进行分词处理，统计其中词频前10000的高频词汇，通过keras自带的本文预处理功能，利用该10000个高频词汇截取案情描述的前500个词进行向量化，得到所有案情描述的向量化表示。

3.如权利要求1所述的应对类别不平衡的罪名分类方法，其特征在于，步骤(2)中，将某罪名相关的案情描述语料作为正实例语料，将某罪名无关的案情描述语料作为负实例语料，并划分出训练语料和测试语料具体包括如下步骤：

4.如权利要求1所述的应对类别不平衡的罪名分类方法，其特征在于，步骤(3)中，训练得到多个基于LSTM的基分类器具体为：构建LSTM网络，包括词向量层和多个LSTM层，每个batch利用128个正负样本进行训练得到最终的LSTM分类器。

5.如权利要求1所述的应对类别不平衡的罪名分类方法，其特征在于，步骤(4)中，结合多个基分类器的分类结果进行对新的案情描述进行罪名分类具体包括如下步骤：