CN110751216A - 一种基于改进卷积神经网络的裁判文书行业分类方法 - Google Patents
一种基于改进卷积神经网络的裁判文书行业分类方法 Download PDFInfo
- Publication number
- CN110751216A CN110751216A CN201911003568.8A CN201911003568A CN110751216A CN 110751216 A CN110751216 A CN 110751216A CN 201911003568 A CN201911003568 A CN 201911003568A CN 110751216 A CN110751216 A CN 110751216A
- Authority
- CN
- China
- Prior art keywords
- industry
- document
- neural network
- data
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000011176 pooling Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 14
- 235000013305 food Nutrition 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 241001122767 Theaceae Species 0.000 claims description 5
- 235000013361 beverage Nutrition 0.000 claims description 5
- 239000004566 building material Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 235000013336 milk Nutrition 0.000 claims description 5
- 239000008267 milk Substances 0.000 claims description 5
- 210000004080 milk Anatomy 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 235000013616 tea Nutrition 0.000 claims description 5
- 239000004753 textile Substances 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 5
- 235000014101 wine Nutrition 0.000 claims description 5
- 230000002349 favourable effect Effects 0.000 claims description 4
- 229940079593 drug Drugs 0.000 claims description 2
- 239000000047 product Substances 0.000 description 16
- 238000003062 neural network model Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Biophysics (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进卷积神经网络的裁判文书行业分类方法,包括以下步骤:获取产品质量公开民事文书数据;定义文书涉及行业;人工标注文书涉及行业并筛除无效数据;文书数据预处理,包括结构化文书,提取原告诉称段,数据清洗,计算数据长度分布并统一限制序列最大长度;分层抽样划分训练集、验证集与测试集;创建字符与词语字典;构建与训练改进卷积神经网络分类器,包括基于字符和词语思想表示文书文本,构建基于字符与词语的双通道组合卷积,采取多种类型卷积核,采用k‑max‑mean池化;输入相关裁判文书,预测文书涉及行业。本发明不需要做任何特征工程相关工作;所提出的改进卷积神经网络模型架构用于裁判文书分类,能够达到更好的效果。
Description
技术领域
本发明涉及一种裁判文书涉及行业分类方法,具体涉及一种基于改进卷积神经网络的裁判文书行业分类方法,属于大数据挖掘技术领域。
背景技术
裁判文书是记载人民法院审理过程和结果,它是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。在最高人民法院的裁判文书当中,分为民事文书、刑事文书、行政文书、执行文书、涉外文书五项,本发明的数据来源就是民事文书中的产品质量公开民事文书。产品质量纠纷,是指因产品质量而引起的有关当事人之间的争执,包括经济合同中的质量纠纷,因产品质量而发生的侵权纠纷,因行政机关处理产品质量问题而引起的争议等。
近年来,快速发展的互联网技术影响到了各行各业,法律相关的行业当然也不例外。在过去的一些年,法官通常会手写裁判文书,而随着科技的发展,法官再也不需要把大量的精力花费在动笔书写裁判文书上了,而是采用线上存储的方式将裁判文书以电子文稿的形式存储在数据库中。中国裁判文书网就是一个新兴的大型法律裁判文书平台,2013年11月,中国裁判文书网与各高级人民法院裁判文书传送平台联通,标志着全国四级法院裁判文书统一发布的技术平台搭建成功。到目前为止已经总共有6000多万篇文书被存储在该平台,并且这个数字还在快速增长当中。
像中国裁判文书网这样的平台毫无疑问大大节省了人力,让专业的法官能够将更多的精力集中在各种复杂的案件处理上。然而,正是互联网的发展,造成了现在文书数量大量增长的现状,而法官以及律师通常情况下都不是精通各行各业的,当法官和律师遇到自己不是非常熟悉的案件行业,就需要查阅大量的文书来辅助自己对案件的理解和判断。现有的数据库没有办法为这种日益增长的针对式检索需求提出很好的应对措施。目前有一些手段,例如在中国裁判文书网上会按照一系列的关键词来对文书进行组织和检索,这的确在一定程度上满足了人们的需求,但这太过局限。本发明旨在提出一种高效的方法,对裁判文书进行行业分类。其一,可以让需要查阅文书的人可以很快地定位到自己想要的文书行业;其二,可以对历史已经存储在数据库中的文书进行行业划分,并且对每一份新的文书进行行业的划分;其三,完全不懂法律的人也可以输入案件的情况,得到案件行业的预测,从而寻找相关行业的专家律师进行咨询。本发明采用的数据集是产品质量公开民事文书。
文本分类是自然语言处理的重要分支,我们可以利用这种技术在很大程度上减少人力劳动。然而,目前并没有一种最优的,通用的文本分类方法,并且在不同领域的数据集上,我们通常需要做一些和数据集相关的事情来提升模型的性能,例如从不同的数据集中提取一些关键词。然而关键词的提取本身也需要大量的人力,因此近年来,神经网络的思想已经逐渐应用于自然语言处理,和传统机器学习方法相比,它的一个最明显的优点是无需特征工程相关工作,设计一个好的模型可以在大大减少人力劳动的同时提升模型的性能。
本发明采用一种改进卷积神经网络的方法对裁判文书进行行业分类,利用词语级和字符级双通道组合卷积的思想,同时从字和词的层面抓取特征,能有效识别单字词、分词工具难以区分的法律相关词等等,同时考虑到经典卷积神经网络的平均池化和最大池化都无法很好的保留对分类有利的特征,采用k-max-mean池化最大程度上保留特征信息,传导到下一层。同时,网络结合全ReLU激活和Dropout正则化,很大程度上减少数据紧密耦合性,在数据量不是很大的情况下减弱过拟合。本发明无需对不同数据集做特定的特征工程工作,模型泛化能力强。
发明内容
本发明是一种基于改进卷积神经网络的裁判文书行业分类方法。本发明首先定义了13种产品质量民事文书涉及行业类别,包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业;然后提出了一种裁判文书表示策略,使原始文本基于字符和词语都能转化成对应的数字向量序列,使神经网络模型能够识别原始裁判文书;卷积层面,利用词语级和字符级双通道组合卷积的思想,同时从字和词的层面抓取特征,能有效识别单字词、分词工具难以区分的法律相关词等;同时考虑到经典卷积神经网络的平均池化和最大池化都无法很好的保留对分类有利的特征,采用k-max-mean池化最大程度上保留特征信息,传导到MLP结合softmax进行分类;网络的整体架构采用全ReLU激活和Dropout正则化,很大程度上减少数据紧密耦合性,在数据量不是很大的情况下减弱过拟合。
本发明所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于包含以下步骤:
步骤(1)从法院文书数据库中获取裁判文书8413篇;
步骤(2)定义原始文书涉及行业;
步骤(3)人工标注原始文书涉及行业并筛除无效数据;
步骤(4)文书数据预处理;
步骤(5)分层抽样划分训练集、验证集与测试集;
步骤(6)创建字符与词语字典;
步骤(7)构建与训练改进卷积神经网络分类器;
步骤(8)输入相关裁判文书,预测文书涉及行业。
2.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(1)中从法院文书数据库中获取裁判文书8413篇,这些文书属于产品质量公开民事文书。
3.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(2)中定义原始产品质量民事文书涉及行业,包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业,共13个类别。
4.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(3)中人工标注原始文书涉及行业并筛除无效数据,标注工作由多人共同进行,采用投票法确定类别。对于文书重复的无效数据,剔除处理。
5.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(4)中文书数据预处理。具体子步骤包括:
步骤(4.1)结构化文书数据,将文书全文转化为XML形式;
步骤(4.2)根据正则表达式提取原告诉称段文本;
步骤(4.3)数据清理,去除原告诉称内容中法律、时间相关文本以及车牌、特殊字符等无效信息;
步骤(4.4)计算数据长度分布,确定文本序列长度上下限;
步骤(4.5)限制并统一文本长度,将用户需求文本长度限制在50-1500个字符以内,字符超过1500时简单截断文本,字符不到1500时添加填充字符,字符少于50时剔除数据。
6.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(5)中分层抽样划分训练集、验证集与测试集,数据随机打乱后根据分层采样思想并按照14∶3∶3的比例提取训练集、验证集用于模型训练,测试集用于测试模型性能,测试集全程不参与训练。
7.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(6)中创建字符与词语字典。具体子步骤包括:
步骤(6.1)创建字符字典,筛除数字、字母以及特殊字符,按照在数据集中出现的频率从高到低(“<PAD>与<UNK>”字符除外)进行排序,建立字符在字典中的索引;
步骤(6.2)创建词语字典,筛除特殊字符,按照在数据集中出现的频率从高到低(“<PAD>与<UNK>”除外)进行排序,建立词语在字典中的索引;
步骤(6.3)加入填充标识<PAD>与未登录标识<UNK>,若一个字/词不属于其他任何字典中的标识,则将其转化为“<UNK>”字符,对于长度不满1500个字符/800个词的文书原告诉称文本,利用填充标识“<PAD>”进行填充。
8.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(7)中构建与训练改进卷积神经网络分类器。具体子步骤包括:
步骤(7.1)基于字符与词语的思想表示裁判文书文本,设定嵌入维度均为100维,词嵌入不采用与训练的词向量,而是采用一个全连接网络训练随机初始化词向量,权重与偏置由神经网络本身进行学习,作为词嵌入操作;
步骤(7.2)构建基于字符与词语的双通道组合卷积,需要定义双输入和单输出,输入分别是根据字符序列化的文本和根据词语序列化的文本;
步骤(7.3)针对双输入文本,分别进行卷积,卷积核采用从3-7的多类型卷积核;
步骤(7.4)采用k-max-mean池化方法,最大限度保留对分类最有利的特征,后将双输入文本分别提取出的特征进行拼接;
步骤(7.5)网络采用全ReLU激活,除了池化层之外的所有网络层均经过ReLU激活,卷积拼接后的特征接MLP,soffmax进行分类预测。
9.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(8)输入相关裁判文书,预测文书涉及行业。预测的效果采用总体准确度、精确率、召回率、F1分数四个指标进行评估。
本发明与现有技术相比,其显著优点是:查阅资料,整理出了产品质量民事文书的13种行业类别,可用于有针对性地区分和定位产品质量民事文书;所提出的方法能够将文书分类到13种行业类别中,针对新输入的案情,能够预测其所属行业,从而有针对性地查阅文书和寻求帮助;所提出的方法不需要针对特定数据集做任何特征工程相关工作,能够最大程度将人力从模型的训练中剥离出来;提出一种新的改进卷积神经网络模型架构用于裁判文书分类,能够在数据量不是很大的情况下训练出效果较好的模型,分类的总体准确度、精确率、召回率、F1分数上都能达到很好的水平,实验证明在本发明采用的数据集上优于传统机器学习方法,优于其他现有的文本分类神经网络模型。
附图说明
图1一种基于改进卷积神经网络的裁判文书行业分类方法总体流程图
图2用于数据清洗的python正则表达式与部分停用词示例图
图3数据集序列长度分布展示图
图4字符级文本表示经历整个数据预处理阶段产物示例图
图5分层采样后训练集、验证集和测试集上各个类别数据分布情况展示图
图6改进卷积神经网络模型架构图
图7各项机器学习方法在本发明使用的数据集上的分类效果对比图
图8改进卷积神经网络模型在测试集上的预测性能展示图
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于解决裁判文书所涉及行业分类问题,提出了一种改进卷积神经网络模型用于裁判文书行业分类,在中国裁判文书网平台上获取产品质量公开民事文书数据进行分类分析。本发明定义了13种产品质量民事文书涉及行业类别,包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业;然后提出了一种裁判文书表示策略,使原始文本基于字符和词语都能转化成对应的数字向量序列,使神经网络模型能够识别原始裁判文书,词语和字的嵌入表示采用一个全连接神经网络动态学习;模型方面,采用一种改进的卷积神经网络模型来对文书进行分类,利用词语级和字符级双通道组合卷积的思想,同时从字和词的层面抓取特征;再每种类型的卷积操作后都采用k-max-mean池化最大程度上保留特征信息,传导到MLP结合softmax进行分类;网络除了池化操作以外的所有层都经过ReLU激活,全连接层采用Dropout正则化,很大程度上减少数据紧密耦合性。本发明概括来说主要包括以下步骤:
步骤(1)从法院文书数据库中获取裁判文书8413篇;
步骤(2)定义原始文书涉及行业;
步骤(3)人工标注原始文书涉及行业并筛除无效数据;
步骤(4)文书数据预处理;
步骤(5)分层抽样划分训练集、验证集与测试集;
步骤(6)创建字符与词语字典;
步骤(7)构建与训练改进卷积神经网络分类器;
步骤(8)输入相关裁判文书,预测文书涉及行业。
上述一种基于改进卷积神经网络的裁判文书行业分类方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。
1.从中国裁判文书网上获取产品质量公开民事文书8413篇,获取到的文书数据由文本形式保存,文书字数通常较多,而且其中很大篇幅是记录案件审理的过程,全篇引用不利于有效区分文书涉及行业。
2.经过查阅资料,定义13种产品质量民事文书涉及行业,包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业。
3.考虑到获取到的产品质量民事文书原始数据只有文本,没有任何其他额外信息,因此需要按照本发明提出的13种行业,将每一篇文书进行人工标注类别。标注的过程由多人并行标注,采用投票法决定最终类别。然而,在数据库中获取到的文书有时存在多篇文书对应相同的内容的情况,对于这种情况予以剔除多余数据,保证训练结果的有效性。最终将训练语料库缩减到7965篇文书,并根据文书内容人工标注所属行业。
4.为了去除裁判文书原始数据中的噪声,清洗数据,让模型更好地识别文书文本,提高模型性能,在步骤4中需要对原始裁判文书文本进行预处理。具体步骤包括:
步骤(4.1)结构化文书数据。原始文书通常是篇幅比较大的全片文字,其中不仅包含了能够体现案情涉及行业的信息,同时也包含非常多的其他信息,因此需要将原始文书结构化。经过查阅资料与总结历史文书,采用正则表达式的方法将文书各段落按照逻辑关系划分为七个逻辑段,包括“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“裁判分析过程”、“判决结果”和“文尾”。针对每一个逻辑段,定义更小的逻辑实体,并一步细分,最终能够将一篇纯文本的文书转化为XML格式的文件。
步骤(4.2)提取原告诉称段文本。步骤4.1中提到的七个逻辑段中,“案件基本情况”段记录了案件发生的基本情况,是最能反应案情所涉行业的部分。然而,案件基本情况的篇幅仍然过大,经过大量的文书分析,得出结论,案件基本情况部分可以细化成一系列更小的块,其中“原告诉称段”包含了原告对案情的个人陈述,虽然在客观性上,原告的诉称内容未必非常可观,但其足以揭示案件所涉行业。原告诉称段由以下正则表达式提取:原告.*?诉称[\S\s]*(?=被告.*?辩称)。
步骤(4.3)数据清洗。在步骤4.2过后,提取得到的原告诉称段文本包含一些与案情无关的内容,需要加以清洗提高模型的性能。首先在原始文本中需要将所有的换行符替换掉,将其拼接成一段单行的文本;然后需要替换掉一些由于网络传输产生的乱码字符,例如将“×”替换为“,”;通过正则表达式的方法去除在文本中大量存在的特殊字符,法律形式化语句,车牌信息以及时间信息;通过过滤法律停用词典的方法去除一些法律停用词。图2列举了部分用于数据清洗的python正则表达式与部分停用词。
步骤(4.4)计算数据长度分布。由于本发明采用字符级与词语级双通道组合卷积,其中基于字符级的卷积,文本序列长度难以把握,因此需要统计数据长度分布。在基于字符级的方法中,将所有标点符号全部去除,保留单纯由常见汉字组成的汉字序列以统计长度。图3展示了数据集中按照上述方法转化序列后的序列长度分布,可以看到,约91%的数据序列长度在100-1500之间。
步骤(4.5)限制并统一文本长度。由于神经网络模型需要固定的输入序列长度,分析所有序列长度小于100的文书,发现当序列长度小于50,普遍存在原告诉称段没有有意义的内容的情况,因此对于数据清洗后序列长度小于50的数据,采取直接丢弃的策略;对于序列长度超过1500的数据,简单截取数据,只保留前1500个标识。词语级表示方面,经过分词序列化操作后将序列长度固定在800以内。图4描述了字符级的文本表示在经历了整个数据预处理阶段后的情况。
5.采用分层采样的思想将训练语料库划分为训练集、验证集与测试集。对于获取到的数据,存在严重的类别不平衡情况,造成训练集、验证集和测试集的数据分布不一致,因此简单采用随机划分的方式,很有可能在验证集与测试集上出现震荡的情况,这并不是受模型的好坏影响,而是受到数据分布不一致的影响。为了避免这种情况,本发明采用分层采样的思想对原始数据进行划分。训练集、验证集和测试集按照14∶3∶3的比例进行划分,其中测试集完全不参与训练的任何过程,仅仅用于模型训练完成后,评估模型的性能。分层采样的思想即在原始数据进行随机打乱,采样的时候,保证任何一个类别三个集合中的数据比例都为14∶3∶3。因为本发明采用填充标记的方法,数据划分后会在这个比例上小幅度偏差,图5描述了分层采样后训练集、验证集和测试集上各个类别的数据分布情况。
6.创建与构建字符与词语字典。本发明采用改进卷积神将网络的方法对裁判文书进行行业分类,将其转化为类似图像分类问题。在图像分类中,每一个像素的值是有限不重复的,因此该问题也需要满足这个条件,应对措施就是根据数据创建字符与词语字典,参照字典将原始文本数据转化成类似图片像素矩阵的输入数据。具体步骤包括:
步骤(6.1)创建字符字典。遍历经过预处理后的数据,筛除数字、字母以及特殊字符,按照在数据集中出现的频率从高到低进行排序,建立字符在字典中的索引。对于在整个数据集中出现次数小于5次的字,将其统一映射到一个未登录标识“<UNK>”上,同时对于模型训练完毕,测试时的所有输入,不在字典中的字符全部转化为未登录标识。
步骤(6.2)创建词语字典。遍历数据,筛除特殊字符,与步骤6.1类似,按照频率建立字典,剔除出现次数小于5的生僻词,加入“<UNK>”字符。
步骤(6.3)采用“<PAD>”字符进行填充,前述步骤中提到字符级的输入最长序列长度被设定为1500,对于序列长度小于1500而又大于50的数据,利用“<PAD>”字符将其从尾部重复填充到1500。对于词语级输入,最长序列长度被设定为800。“<PAD>”标识和“<UNK>”标识的索引分别为0和1。
7.构建与训练改进卷积神经网络分类器,以完成模型对已有裁判文书文本进行行业分类的任务,图6描述了本发明提出的用于裁判文书行业分类的改进卷积神经网络模型架构。具体步骤包括:
步骤(7.1)基于字符与词语的思想标识裁判文书文本。神经网络模型由一系列的神经元组成,每一个神经元有一个输入、权重、偏置与阈值,实际上神经网络只能识别单纯的数字,并不能完成文本内容的识别,因此需要采用嵌入学习将原始文本转化为神经网络模型能够识别的数字向量。
通常情况下,深度学习模型的词嵌入层都会采用预训练的word2vec模型/glove词向量等等,然而由于裁判文书数据量不是很大,实验表明采用预训练的词向量效果并不好。因此本发明采用随机初始化词向量的方式对每一个字/词赋予初始的向量表示,初始维度固定为100维。嵌入层将原始输入文本中的一个字/词转化为向量表示形式,从而将一段文本转化为数字矩阵形式便于后续卷积得到高维特征,将文本分类问题转化为一个图像分类问题。
步骤(7.2)构建基于字符与词语的双通道组合卷积,模型的输入不再是经典神经网络文本分类模型的单输入,单输出,而是双输入,单输出。双输入实际上是将同一段文本内容转化为不同的序列形式,即字符序列和词语序列。神经网络本身将这两个输入当作两个独立任务进行卷积,卷积核参数也完全不共享。
步骤(7.3)针对双输入文本,分别卷积,卷积核采用多种类型的卷积核。由于裁判文书数据的特殊性,有的词语字数较多,有的词语字数很少,固定高度的卷积核并不适用于这类数据。卷积核的高度被设定为3、4、5、6、7五种高度,每种类型的卷积核数量为64。
和图像分类不同的是,本发明的文本分类任务将输入文本中的一个基本单元(即字或词)转化为单个10维向量,在该基本单元内部,横向卷积不具有意义,因此所有卷积核的宽度都被设定为100,即与词嵌入维度相等。
步骤(7.4)卷积完成后会形成一系列特征图,每个特征图包含非常多的提取特征,经典的卷积神经网络模型会采用两种池化措施,即最大池化和平均池化。最大池化是获取同一个卷积核滚动卷积后得到的所有特征的最大值,以便得到对分类最有利的特征;平均池化是将同一个卷积核得到的所有特征值进行平均计算,以保留全局信息。实验表明最大池化在该任务上表现明显好于平均池化。
然而最大池化和平均池化都在很大程度上失去了部分语义信息,特别是在序列长度不是很短的情况下,这种信息的丢失尤为严重。例如如下语句:“我觉得这个地方景色还不错,但是人也实在太多了。”事实上该语句前半部分蕴含积极情感,而后半部分蕴含消极情感,这时候无论用最大池化还是平均池化都将丢失重要信息。本发明采用一种结合最大池化与平均池化的方法,即k-max-mean池化。具体实现步骤是首先提取出同一个卷积核滚动卷积产生的所有特征中值最大的k个特征,然后对这k个特征进行平均计算,在本发明采用的数据集中实验表明k取2,效果明显优于最大池化。
经过k-max-mean池化后,对每一个输入,都能提取到总卷积核数目个有效特征,这时将对两段输入分别卷积取得的特征进行拼接,输送到后续网络层中。
步骤(7.5)网络采用全ReLU激活,除池化层之外的所有网络层输出均经过ReLU池化。ReLU激活函数会使一部分的神经元输出为0,从而使网络参数趋于松耦合,结合全连接层的Dropout正则化,能有效减弱过拟合。卷积拼接后的高维特征后接可训练的MLP,最后接softmax层进行分类预测。
模型的训练部分,并不对全部数据进行遍历,而是采用批次训练,即利用Mini-Batch梯度下降算法,每一次迭代,面向batch条数据进行梯度下降。Batch size被设定为64,训练最大epoch轮次为30轮。
本发明提出的一种基于改进卷积神经网络的裁判文书行业分类方法,在该数据集上优于其他传统机器学习算法支持向量机SVM、朴素贝叶斯NB、决策树DT、随机森林RF,同时也优于其他神经网络分类方法,图7描述了各种方法在该数据集上的分类效果。
8.模型训练完成后,加载模型,对测试数据进行预测,验证模型性能。预测效果的效果采用总体准确度、精确率、召回率、F1分数四个指标进行评估。图8表明了模型在测试集上的预测性能。
上面已经参考附图对根据本发明实施的一种基于改进卷积神经网络的裁判文书行业分类方法进行了详细描述。本发明具有如下优点:总结并定义了13种产品质量民事文书涉及行业类别,以供裁判文书进行行业划分与标注;提出了一种裁判文书表示策略,使原始文本基于字符和词语都能转化成对应的数字向量序列,使神经网络模型能够识别原始裁判文书;利用词语级和字符级双通道组合卷积的思想,同时从字和词的层面抓取特征,能有效识别单字词、书写错误、分词工具难以区分的法律相关词等情况;采用一种新的卷积池化模式,即在卷积后采用k-max-mean池化最大程度上保留特征信息,能够有效捕获长文本中蕴含的信息;网络采用全ReLU激活和Dropout正则化,减少数据紧密耦合性,能够在数据量不是很大的情况下减弱过拟合。本发明提出的改进卷积神经网络模型在本数据集上预测的总体准确度、精确率、召回率、F1分数都能达到很好的水平,优于传统机器学习模型和其他神经网络模型。
需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (9)
1.一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于包含以下步骤:
步骤(1)从法院文书数据库中获取裁判文书8413篇;
步骤(2)定义原始文书涉及行业;
步骤(3)人工标注原始文书涉及行业并筛除无效数据;
步骤(4)文书数据预处理;
步骤(5)分层抽样划分训练集、验证集与测试集;
步骤(6)创建字符与词语字典;
步骤(7)构建与训练改进卷积神经网络分类器;
步骤(8)输入相关裁判文书,预测文书涉及行业。
2.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(1)中从法院文书数据库中获取裁判文书8413篇,这些文书属于产品质量公开民事文书。
3.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(2)中定义原始产品质量民事文书涉及行业,包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业,共13个类别。
4.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(3)中人工标注原始文书涉及行业并筛除无效数据,标注工作由多人共同进行,采用投票法确定类别。对于文书重复的无效数据,剔除处理。
5.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(4)中文书数据预处理。具体子步骤包括:
步骤(4.1)结构化文书数据,将文书全文转化为XML形式;
步骤(4.2)根据正则表达式提取原告诉称段文本;
步骤(4.3)数据清理,去除原告诉称内容中法律、时间相关文本以及车牌、特殊字符等无效信息;
步骤(4.4)计算数据长度分布,确定文本序列长度上下限;
步骤(4.5)限制并统一文本长度,将用户需求文本长度限制在50-1500个字符以内,字符超过1500时简单截断文本,字符不到1500时添加填充字符,字符少于50时剔除数据。
6.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(5)中分层抽样划分训练集、验证集与测试集,数据随机打乱后根据分层采样思想并按照14∶3∶3的比例提取训练集、验证集用于模型训练,测试集用于测试模型性能,测试集全程不参与训练。
7.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(6)中创建字符与词语字典。具体子步骤包括:
步骤(6.1)创建字符字典,筛除数字、字母以及特殊字符,按照在数据集中出现的频率从高到低(“<PAD>与<UNK>”字符除外)进行排序,建立字符在字典中的索引;
步骤(6.2)创建词语字典,筛除特殊字符,按照在数据集中出现的频率从高到低(“<PAD>与<UNK>”除外)进行排序,建立词语在字典中的索引;
步骤(6.3)加入填充标识<PAD>与未登录标识<UNK>,若一个字/词不属于其他任何字典中的标识,则将其转化为“<UNK>”字符,对于长度不满1500个字符/800个词的文书原告诉称文本,利用填充标识“<PAD>”进行填充。
8.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(7)中构建与训练改进卷积神经网络分类器。具体子步骤包括:
步骤(7.1)基于字符与词语的思想表示裁判文书文本,设定嵌入维度均为100维,词嵌入不采用与训练的词向量,而是采用一个全连接网络训练随机初始化词向量,权重与偏置由神经网络本身进行学习,作为词嵌入操作;
步骤(7.2)构建基于字符与词语的双通道组合卷积,需要定义双输入和单输出,输入分别是根据字符序列化的文本和根据词语序列化的文本;
步骤(7.3)针对双输入文本,分别进行卷积,卷积核采用从3-7的多类型卷积核;
步骤(7.4)采用k-max-mean池化方法,最大限度保留对分类最有利的特征,后将双输入文本分别提取出的特征进行拼接;
步骤(7.5)网络采用全ReLU激活,除了池化层之外的所有网络层均经过ReLU激活,卷积拼接后的特征接MLP,softmax进行分类预测。
9.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(8)输入相关裁判文书,预测文书涉及行业。预测的效果采用总体准确度、精确率、召回率、F1分数四个指标进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003568.8A CN110751216A (zh) | 2019-10-21 | 2019-10-21 | 一种基于改进卷积神经网络的裁判文书行业分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003568.8A CN110751216A (zh) | 2019-10-21 | 2019-10-21 | 一种基于改进卷积神经网络的裁判文书行业分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110751216A true CN110751216A (zh) | 2020-02-04 |
Family
ID=69279194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003568.8A Pending CN110751216A (zh) | 2019-10-21 | 2019-10-21 | 一种基于改进卷积神经网络的裁判文书行业分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751216A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353041A (zh) * | 2020-02-26 | 2020-06-30 | 山东爱城市网信息技术有限公司 | 一种基于自然语言处理的裁判文书文本分类方法 |
CN111552808A (zh) * | 2020-04-20 | 2020-08-18 | 北京北大软件工程股份有限公司 | 一种基于卷积神经网络的行政违法案由预测方法及工具 |
CN112347738A (zh) * | 2020-11-04 | 2021-02-09 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112686339A (zh) * | 2021-03-11 | 2021-04-20 | 共道网络科技有限公司 | 一种基于起诉状的案由确定方法和装置 |
TWI772023B (zh) * | 2020-06-08 | 2022-07-21 | 日商幅銳態科技股份有限公司 | 資訊處理裝置、資訊處理方法及資訊處理程序 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710647A (zh) * | 2018-04-28 | 2018-10-26 | 苏宁易购集团股份有限公司 | 一种用于聊天机器人的数据处理方法及装置 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
CN109376751A (zh) * | 2018-08-21 | 2019-02-22 | 北京工业大学 | 一种基于卷积神经网络的人脑功能网络分类方法 |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
CN109960727A (zh) * | 2019-02-28 | 2019-07-02 | 天津工业大学 | 针对非结构化文本的个人隐私信息自动检测方法及系统 |
-
2019
- 2019-10-21 CN CN201911003568.8A patent/CN110751216A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710647A (zh) * | 2018-04-28 | 2018-10-26 | 苏宁易购集团股份有限公司 | 一种用于聊天机器人的数据处理方法及装置 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
CN109376751A (zh) * | 2018-08-21 | 2019-02-22 | 北京工业大学 | 一种基于卷积神经网络的人脑功能网络分类方法 |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
CN109960727A (zh) * | 2019-02-28 | 2019-07-02 | 天津工业大学 | 针对非结构化文本的个人隐私信息自动检测方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353041A (zh) * | 2020-02-26 | 2020-06-30 | 山东爱城市网信息技术有限公司 | 一种基于自然语言处理的裁判文书文本分类方法 |
CN111552808A (zh) * | 2020-04-20 | 2020-08-18 | 北京北大软件工程股份有限公司 | 一种基于卷积神经网络的行政违法案由预测方法及工具 |
TWI772023B (zh) * | 2020-06-08 | 2022-07-21 | 日商幅銳態科技股份有限公司 | 資訊處理裝置、資訊處理方法及資訊處理程序 |
CN112347738A (zh) * | 2020-11-04 | 2021-02-09 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112347738B (zh) * | 2020-11-04 | 2023-09-15 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112686339A (zh) * | 2021-03-11 | 2021-04-20 | 共道网络科技有限公司 | 一种基于起诉状的案由确定方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751216A (zh) | 一种基于改进卷积神经网络的裁判文书行业分类方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN108595602A (zh) | 基于浅层模型与深度模型结合的问句文本分类方法 | |
CN107526785A (zh) | 文本分类方法及装置 | |
CN109670177A (zh) | 一种基于lstm实现医学语义归一化的控制方法及控制装置 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN108804677A (zh) | 结合多层级注意力机制的深度学习问题分类方法及系统 | |
CN106447066A (zh) | 一种大数据的特征提取方法和装置 | |
Davis et al. | An integrated approach to learning Bayesian networks of rules | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN110097096B (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 | |
CN113254782B (zh) | 问答社区专家推荐方法及系统 | |
CN109947864A (zh) | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 | |
CN108829671A (zh) | 基于调查数据的决策的方法、装置、存储介质和终端设备 | |
CN112800229A (zh) | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Wang et al. | Mushroom toxicity recognition based on multigrained cascade forest | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN113360643A (zh) | 一种基于短文本分类的电子病历数据质量评价方法 | |
CN117497140A (zh) | 一种基于细粒度提示学习的多层次抑郁状态检测方法 | |
CN112434145A (zh) | 一种基于图像识别和自然语言处理的看图作诗方法 | |
CN115062602B (zh) | 对比学习的样本构造方法、装置及计算机设备 | |
Tamaazousti | On the universality of visual and multimodal representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200204 |
|
WD01 | Invention patent application deemed withdrawn after publication |