CN109471941A - 一种应对类别不平衡的罪名分类方法 - Google Patents

一种应对类别不平衡的罪名分类方法 Download PDF

Info

Publication number
CN109471941A
CN109471941A CN201811317492.1A CN201811317492A CN109471941A CN 109471941 A CN109471941 A CN 109471941A CN 201811317492 A CN201811317492 A CN 201811317492A CN 109471941 A CN109471941 A CN 109471941A
Authority
CN
China
Prior art keywords
corpus
charge
merit
classification
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811317492.1A
Other languages
English (en)
Inventor
杨权
梁栋
后弘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201811317492.1A priority Critical patent/CN109471941A/zh
Publication of CN109471941A publication Critical patent/CN109471941A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明公开了一种应对类别不平衡的罪名分类方法,包括如下步骤:获取收集语料,对案情描述语料进行预处理,得到和罪名相关的案情描述语料;将某罪名相关的案情描述语料作为正实例语料,将某罪名无关的案情描述语料作为负实例语料,并划分出训练语料和测试语料;利用欠采样算法从负实例语料中独立随机抽取出若干子集,每个子集和正实例样本组合成一个训练语料子集;利用若干训练语料子集,训练得到多个基于LSTM的基分类器;结合基分类器的分类结果进行对新的案情描述进行罪名分类。本发明能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器,解决类别不平衡情况下的分类错误率较高的情形,实现案情描述的罪名自动化推理。

Description

一种应对类别不平衡的罪名分类方法
技术领域
本发明涉及自然语言处理技术领域,尤其是一种应对类别不平衡的罪名分类方法。
背景技术
随着人工智能技术的发展,越来越多的传统行业引入了人工智能技术以减少人力,节约成本,提升效率。在法院的日常工作中,需要对一段案情描述进行罪名推断,以方便记录和检索。传统的方法多是人工手动录入,需要具备一定法律知识的人员,同时对各个罪名有一定的了解,在阅读案情描述后,将该案情相关的罪名手动录入系统。罪名的种类很多,在长时间的工作后,工作人员无法高效地完成罪名的录入。因此,急需一种自动化的罪名推断方法,完成关于案情描述罪名的推断。
目前,大多数文本分类问题是多分类问题,为了达到较高的分类效果,目前的文本分类算法大多采用全监督式的分类方法,通过将多分类问题转换为二分类问题来实现最终的分类。但是,这种基于全监督式分类方法的分类效果高度依赖于人工标注语料的质量,并且二分类器还常常面临者负样本数量较多而正样本数量较少的情况。类别的不平衡会导致二分类器的分类准确率大大下降,从而最终影响多分类的结果。因此,需要研发针对类别不平衡的罪名分类器。
发明内容
本发明所要解决的技术问题在于,提供一种应对类别不平衡的罪名分类方法,能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器,解决类别不平衡情况下的分类错误率较高的情形,实现案情描述的罪名自动化推理。
为解决上述技术问题,本发明提供一种应对类别不平衡的罪名分类方法,包括如下步骤:
(1)获取收集语料,对案情描述语料进行预处理,得到和罪名相关的案情描述语料;
(2)将某罪名相关的案情描述语料作为正实例语料,将某罪名无关的案情描述语料作为负实例语料,并划分出训练语料和测试语料;
(3)利用欠采样算法从负实例语料中独立随机抽取出若干子集,每个子集和正实例样本组合成一个训练语料子集;利用上述的若干训练语料子集,训练得到多个基于LSTM的基分类器;
(4)结合多个基分类器的分类结果进行对新的案情描述进行罪名分类。
优选的,步骤(1)中,对收集的案情描述语料文档利用结巴进行分词处理,统计其中词频前10000的高频词汇,通过keras自带的本文预处理功能,利用该10000个高频词汇截取案情描述的前500个词进行向量化,得到所有案情描述的向量化表示。
优选的,步骤(2)中,将某罪名相关的案情描述语料作为正实例语料,将某罪名无关的案情描述语料作为负实例语料,并划分出训练语料和测试语料具体包括如下步骤:
(21)将所有的案情描述样本进行人工标注,根据需要判别的罪名对每条案情描述语料进行标注;
(21)根据需要判定的罪名,将所有的案情描述划分为某罪名相关的正样本和某罪名无关的负样本;
(23)从正样本和负样本语料中,各抽取一定的比例划分为训练样本和测试样本。
优选的,步骤(3)中,训练得到多个基于LSTM的基分类器具体为:构建LSTM网络,包括词向量层和多个LSTM层,每个batch利用128个正负样本进行训练得到最终的LSTM分类器。
优选的,步骤(4)中,结合多个基分类器的分类结果进行对新的案情描述进行罪名分类具体包括如下步骤:
(41)利用Easy Ensemble算法对样本数较多的类别进行独立随机抽样获取N各子集,将这个N个子集与样本数较少类数据联合起来组成N个训练子集;
(42)对于每个训练语料子集,通过LSTM深度学习分类算法进行学习,得到一个基分类器;重复上面步骤N次,则得到N各基分类器;
(43)将所述的N个基分类器进行组合,按照多数投票制进行投票,如果多数分类器认为该案情描述属于某个罪名,则该案情与某个罪名相关。如果多数分类器认为该案情描述不属于某个罪名,则该案情与某个罪名无关。
本发明的有益效果为:本发明能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器,解决类别不平衡情况下的分类错误率较高的情形,实现案情描述的罪名自动化推理。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的模型结构示意图。
具体实施方式
如图1所示,一种应对类别不平衡的罪名分类方法,包括如下步骤:
(1)获取收集语料,对案情描述语料进行预处理,得到和罪名相关的案情描述语料;
(2)将某罪名相关的案情描述语料作为正实例语料,将某罪名无关的案情描述语料作为负实例语料,并划分出训练语料和测试语料;
(3)如图2所示,利用欠采样算法从负实例语料中独立随机抽取出若干子集,每个子集和正实例样本组合成一个训练语料子集;利用上述的若干训练语料子集,训练得到多个基于LSTM的基分类器;
(4)结合多个基分类器的分类结果进行对新的案情描述进行罪名分类。
步骤(1)中,对收集的案情描述语料文档利用结巴进行分词处理,统计其中词频前10000的高频词汇,通过keras自带的本文预处理功能,利用该10000个高频词汇截取案情描述的前500个词进行向量化,得到所有案情描述的向量化表示。
步骤(2)中,将某罪名相关的案情描述语料作为正实例语料,将某罪名无关的案情描述语料作为负实例语料,并划分出训练语料和测试语料具体包括如下步骤:
(21)将所有的案情描述样本进行人工标注,根据需要判别的罪名对每条案情描述语料进行标注;
(21)根据需要判定的罪名,将所有的案情描述划分为某罪名相关的正样本和某罪名无关的负样本;
(23)从正样本和负样本语料中,各抽取一定的比例划分为训练样本和测试样本。
步骤(3)中,训练得到多个基于LSTM的基分类器具体为:构建LSTM网络,包括词向量层和多个LSTM层,每个batch利用128个正负样本进行训练得到最终的LSTM分类器。
步骤(4)中,结合多个基分类器的分类结果进行对新的案情描述进行罪名分类具体包括如下步骤:
(41)利用Easy Ensemble算法对样本数较多的类别进行独立随机抽样获取N个子集,将这个N个子集与样本数较少类数据联合起来组成N个训练子集;
(42)对于每个训练语料子集,通过LSTM深度学习分类算法进行学习,得到一个基分类器;重复上面步骤N次,则得到N个基分类器;
(43)将所述的N个基分类器进行组合,按照多数投票制进行投票,如果多数分类器认为该案情描述属于某个罪名,则该案情与某个罪名相关。如果多数分类器认为该案情描述不属于某个罪名,则该案情与某个罪名无关。
本发明能够在正样本数量较少而负样本数量较多的情况下训练出分类正确率较高的基分类器,解决类别不平衡情况下的分类错误率较高的情形,实现案情描述的罪名自动化推理。

Claims (5)

1.一种应对类别不平衡的罪名分类方法,其特征在于,包括如下步骤:
(1)获取收集语料,对案情描述语料进行预处理,得到和罪名相关的案情描述语料;
(2)将某罪名相关的案情描述语料作为正实例语料,将某罪名无关的案情描述语料作为负实例语料,并划分出训练语料和测试语料;
(3)利用欠采样算法从负实例语料中独立随机抽取出若干子集,每个子集和正实例样本组合成一个训练语料子集;利用上述的若干训练语料子集,训练得到多个基于LSTM的基分类器;
(4)结合多个基分类器的分类结果进行对新的案情描述进行罪名分类。
2.如权利要求1所述的应对类别不平衡的罪名分类方法,其特征在于,步骤(1)中,对收集的案情描述语料文档利用结巴进行分词处理,统计其中词频前10000的高频词汇,通过keras自带的本文预处理功能,利用该10000个高频词汇截取案情描述的前500个词进行向量化,得到所有案情描述的向量化表示。
3.如权利要求1所述的应对类别不平衡的罪名分类方法,其特征在于,步骤(2)中,将某罪名相关的案情描述语料作为正实例语料,将某罪名无关的案情描述语料作为负实例语料,并划分出训练语料和测试语料具体包括如下步骤:
(21)将所有的案情描述样本进行人工标注,根据需要判别的罪名对每条案情描述语料进行标注;
(21)根据需要判定的罪名,将所有的案情描述划分为某罪名相关的正样本和某罪名无关的负样本;
(23)从正样本和负样本语料中,各抽取一定的比例划分为训练样本和测试样本。
4.如权利要求1所述的应对类别不平衡的罪名分类方法,其特征在于,步骤(3)中,训练得到多个基于LSTM的基分类器具体为:构建LSTM网络,包括词向量层和多个LSTM层,每个batch利用128个正负样本进行训练得到最终的LSTM分类器。
5.如权利要求1所述的应对类别不平衡的罪名分类方法,其特征在于,步骤(4)中,结合多个基分类器的分类结果进行对新的案情描述进行罪名分类具体包括如下步骤:
(41)利用Easy Ensemble算法对样本数较多的类别进行独立随机抽样获取N各子集,将这个N个子集与样本数较少类数据联合起来组成N个训练子集;
(42)对于每个训练语料子集,通过LSTM深度学习分类算法进行学习,得到一个基分类器;重复上面步骤N次,则得到N各基分类器;
(43)将所述的N个基分类器进行组合,按照多数投票制进行投票,如果多数分类器认为该案情描述属于某个罪名,则该案情与某个罪名相关。如果多数分类器认为该案情描述不属于某个罪名,则该案情与某个罪名无关。
CN201811317492.1A 2018-11-07 2018-11-07 一种应对类别不平衡的罪名分类方法 Pending CN109471941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811317492.1A CN109471941A (zh) 2018-11-07 2018-11-07 一种应对类别不平衡的罪名分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811317492.1A CN109471941A (zh) 2018-11-07 2018-11-07 一种应对类别不平衡的罪名分类方法

Publications (1)

Publication Number Publication Date
CN109471941A true CN109471941A (zh) 2019-03-15

Family

ID=65666853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811317492.1A Pending CN109471941A (zh) 2018-11-07 2018-11-07 一种应对类别不平衡的罪名分类方法

Country Status (1)

Country Link
CN (1) CN109471941A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666872A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种数据不平衡下的高效行为识别方法
CN112199503A (zh) * 2020-10-28 2021-01-08 南京信息工程大学 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
WO2021212753A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 计算机性能数据确定方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106570164A (zh) * 2016-11-07 2017-04-19 中国农业大学 一种基于深度学习的集成式食品安全文本分类方法
CN108563703A (zh) * 2018-03-26 2018-09-21 北京北大英华科技有限公司 一种罪名的判定方法、装置及计算机设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106570164A (zh) * 2016-11-07 2017-04-19 中国农业大学 一种基于深度学习的集成式食品安全文本分类方法
CN108563703A (zh) * 2018-03-26 2018-09-21 北京北大英华科技有限公司 一种罪名的判定方法、装置及计算机设备、存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212753A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 计算机性能数据确定方法、装置、计算机设备及存储介质
CN111666872A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种数据不平衡下的高效行为识别方法
CN111666872B (zh) * 2020-06-04 2022-08-05 电子科技大学 一种数据不平衡下的高效行为识别方法
CN112199503A (zh) * 2020-10-28 2021-01-08 南京信息工程大学 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN112199503B (zh) * 2020-10-28 2023-04-28 南京信息工程大学 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法

Similar Documents

Publication Publication Date Title
CN106973057B (zh) 一种适用于入侵检测的分类方法
CN108520780A (zh) 一种基于迁移学习的医学数据处理和系统
CN108829818A (zh) 一种文本分类方法
CN109471941A (zh) 一种应对类别不平衡的罪名分类方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
Lei et al. Patent analytics based on feature vector space model: A case of IoT
CN111160037A (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN106095928A (zh) 一种事件类型识别方法及装置
CN107491433A (zh) 基于深度学习的电商异常金融商品识别方法
CN109064304A (zh) 财务报销票据自动处理系统及方法
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN108460421A (zh) 不平衡数据的分类方法
CN110188047A (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN103838744A (zh) 一种查询词需求分析的方法及装置
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN104766097A (zh) 基于bp神经网络和支持向量机的铝板表面缺陷分类方法
CN105975611A (zh) 自适应组合降采样增强学习机
CN107480723B (zh) 基于局部二进制阈值学习网络的纹理识别方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
WO2021129236A1 (zh) 一种采用一维卷积神经网络的声学垃圾分类方法
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN107977670A (zh) 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统
CN106600046A (zh) 基于多分类器融合的土地闲置预测方法及装置
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN110910175A (zh) 一种旅游门票产品画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No.1 Lingshan South Road, Qixia District, Nanjing City, Jiangsu Province 210046

Applicant after: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

Address before: 210000 No. 1 East Garden Street, Qinhuai District, Jiangsu, Nanjing

Applicant before: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190315