CN112800232A - 基于大数据的案件自动分类、优化方法及训练集修正方法 - Google Patents
基于大数据的案件自动分类、优化方法及训练集修正方法 Download PDFInfo
- Publication number
- CN112800232A CN112800232A CN202110352881.3A CN202110352881A CN112800232A CN 112800232 A CN112800232 A CN 112800232A CN 202110352881 A CN202110352881 A CN 202110352881A CN 112800232 A CN112800232 A CN 112800232A
- Authority
- CN
- China
- Prior art keywords
- case
- text
- category
- cases
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000012937 correction Methods 0.000 title claims abstract description 14
- 238000005457 optimization Methods 0.000 title claims abstract description 7
- 238000013145 classification model Methods 0.000 claims abstract description 54
- 238000012795 verification Methods 0.000 claims abstract description 14
- 238000010200 validation analysis Methods 0.000 claims description 15
- 238000012417 linear regression Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于大数据的案件自动分类、优化方法及训练集修正方法,通过融合多个模型、进行多次训练验证的过程,并对不同模型赋予不同投票权重,使得分类模型更加准确,并且在训练样本较少时同样适用,通过融合多个文本分类模型对法律案件进行分类,帮助工作人员分类管理,提高了案件分类的准确率,提高了工作效率,节约了大量人力物力。
Description
技术领域
本发明涉及案件分类和自然语言处理研究领域,具体涉及基于大数据的案件自动分类、优化方法及训练集修正方法。
背景技术
目前的法律案件分类仍然是传统的人工处理、人工解决问题,然而由于中国人口基数大,社会问题复杂,使得案件总量多、涉及到的领域繁杂,工作人员需要通过人工理解案件申请人的申诉事实、理由和目的,并正确的做出分类,耗时耗力。工作人员需要根据案件文本人工决定案件大致分类,缺乏智能化的案件自动处理工具。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前缺乏对法律案件的自动分类方法,在训练样本不足时,现有的文本分类模型难以准确分类,历史案件中存在标签不准确的问题,缺乏案件的自动分类的策略。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于大数据的案件自动分类、优化方法及训练集修正方法,通过融合多个文本分类模型对法律案件进行分类,提高了案件分类的准确率,提高案件分类工作效率,节约了大量的人力物力。技术方案如下:
第一方面,提供了一种基于大数据的法律案件自动分类方法,该方法包括如下步骤:
融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类。
获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集。
选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型。
对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),…,train(K),取出第i部分训练集train(i),i=1,2,…,K,采用剩余K-1部分的训练集来训练文本分类模型M(i),即依次得到M(1),M(2),…,M(K),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PYtrain(i),train(i)每个样本自身的真实标签记作Ytrain(i),这样当i遍历1~K每个值时,可得到每个样本的预测标签PYtrain(1),PYtrain(2),…,PYtrain(K),其对应的样本真实标签为Ytrain(1),Ytrain(2),…,Ytrain(K),将PYtrain(1),PYtrain(2),…,PYtrain(K)依次拼接作为线性回归模型的输入,Ytrain(1),Ytrain(2),…,Ytrain(K)依次拼接为输出,训练得到相应的第二层线性回归模型L(M),利用训练得到的K个文本分类模型M(1),M(2),…,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PYvalidation,再利用训练好的第二层线性回归模型L(M)以PYvalidation作为输入进行预测,并与验证集的真实标签Yvalidation进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M);
当M分别取第一层基础模型中的Logistic分类模型,记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:
分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即针对一个新的案件,通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1)。
优选的,该方法还包括,利用关键词进行分类;
将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语;对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1);
将关键词进行广义扩充,广义词语是指包含了2~n个关键词的集合,n为案件文本关键词的个数,对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中的每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以外的案件中词语b出现的次数+1);
对于每个词语与类别的相关性进行标准化变换,记作关联系数:
进一步的,当关键词与类别的汉语文字相同时,即包含了该关键词的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
进一步的,对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列,去除类别中出现词语次数<阈值的词语,去除噪音。
对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到。
结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测:
对于一个新的案件, 通过这两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2);
当Z1=Z2时:直接预测新的案件最终类别为Z1;
当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
优选的,该方法还包括,根据相似历史案例进行分类:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T。
对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度)。
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为案件的关键词的个数,文本长度是指文本中中文字符的个数。
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别Z3,其对应的预测概率P(Z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值。
结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测:
对于一个新的案件,通过这两种算法可以分别得到两个预测类别Z1,Z3以及预测概率P(Z1),P(Z3)。
当Z1=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
优选的, 该方法还可以结合综合分类模型进行分类和利用关键词进行分类和根据相似历史案例进行分类的3种分类结果进行最终预测:
对于一个新的案件, 通过这三种算法可以分别得到三个预测类别Z1,Z2,Z3以及预测概率P(Z1),P(Z2),P(Z3);
当Z1=Z2=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z2,Z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))大于阈值,则最终类别为Z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))小于阈值,P(Z3)大于阈值,则最终类别为Z3;其他情况最终预测类别均取值为两个相同的类别。
当Z1,Z2,Z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:
通过融合多个模型、进行多次训练验证的过程,并对不同模型赋予不同投票权重,使得分类模型更加准确,并且在训练样本较少时同样适用;通过融合多个文本分类模型对法律案件进行分类,帮助工作人员分类管理,提高了案件分类的准确率,提高了工作效率,节约了大量人力物力。
另外通过融合模型、关键词算法和/或历史案例匹配、标签修正等方法,使得在历史样本不足以及样本分类不够准确的情况下同样适用。通过扩展广义词语,使得案件文本的相似度更加准确;通过标签的检验,解决出现训练样本和测试样本等历史案件的标签不准确问题。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。第一方面:本公开实施例提供了一种基于大数据的法律案件自动分类方法,该方法包括如下步骤:
融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类。
获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集。
选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型;
对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),…,train(K) 。单独取出第i部分训练集train(i),i=1,2,…,K,利用剩余K-1部分的训练集来训练文本分类模型M(i),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PYtrain(i), train(i)每个样本自身的真实标签记作Ytrain(i)。这样当i遍历1~K每个值时,可得到每个样本的预测标签PYtrain(1),PYtrain(2),…,PYtrain(K),其对应的样本真实标签为Ytrain(1),Ytrain(2),…,Ytrain(K),将PYtrain(1),PYtrain(2),…,PYtrain(K)依次拼接作为线性回归模型的输入,Ytrain(1),Ytrain(2),…,Ytrain(K)依次拼接为输出,训练得到相应的第二层线性回归模型L(M)。利用在i遍历1~K时分别训练得到的K个文本分类模型M(1),M(2),…,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PYvalidation,再利用训练好的第二层线性回归模型L(M)以PYvalidation作为输入进行预测,并与验证集的真实标签Yvalidation进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M)。
当M分别取第一层基础模型中的Logistic分类模型记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:
分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1);由于第二层是多分类的线性回归模型,所以可以得到每个类别的概率。
通过单一的分类方法进行最终分类结果的确认往往存在一定的局限性,综合考虑了根据关键词进行分类和/或根据相似历史案例进行分类的结果进行综合确定最终的分类结果,大大提高了分类的准确率。
方法还包括,利用关键词进行分类;
将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语。对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1)。
分子分母同时加上常数1是为了避免出现分母为0的特殊情况。从表达式可以看出R(a,C)越大,则词语a在类别C中经常出现,而其他类别中很少出现,所以当一个新的案件中包含词语a时,则很大可能是属于类别C。
但在中文中,有时候单一词语难以完全刻画真实意图,当多个词语共同出现时才能确定类别。所以将词语进行广义扩充,不单单是指单一一个词语,广义词语是指包含了2~n个关键词的集合,n为关键词的个数。对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以外的案件中词语b出现的次数+1)。
为了保证不同词语相互比较的尺度相同,对于每个词语与类别的相关性进行标准化变换,记作关联系数:
特别的,当词语与类别相同时,表明包含了该词语的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列。进一步的,还可以去除类别中出现词语次数<阈值的词语,可以避免出现噪声词语的情况,例如某些词语日常很少使用,只是偶然在某类别中出现了,在计算相关性时,由于分母过小,即使分子比较小,但整体值仍然偏大的,就会带来噪声干扰。
对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到。
结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测。
对于一个新的案件,通过这两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2)。
当Z1=Z2时:直接预测新的案件最终类别为Z1
当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
该方法还包括,根据相似历史案例进行分类。
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取好的每个历史案件,去除案件文本中的标点符号。对于一个新的未知类别的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T(去除标点符号后)的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度)。
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。可以看出,当相似性越大时,说明Y与T的文本重合度越高,则归属到同一类别的概率越大。
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别Z3,其对应的预测概率P(Z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值。
结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测。
对于一个新的案件,通过这三种算法可以分别得到三个预测类别Z1,Z2,Z3以及预测概率P(Z1),P(Z2),P(Z3)。
当Z1=Z2=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z2,Z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))大于阈值,则最终类别为Z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))小于阈值,P(Z3)大于阈值,则最终类别为Z3;其他情况最终预测类别均取值为两个相同的类别。
当Z1,Z2,Z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
除此之外,当然也可以结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测。
对于一个新的案件,通过这两种算法可以分别得到两个预测类别Z1,Z3以及预测概率P(Z1),P(Z3)。
当Z1=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
第二方面,提供了一种基于大数据的法律案件自动分类优化方法;
采用综合分类模型进行分类时,根据历史的法律案件对新的法律案件进行预测,方法的前提是需要默认历史法律案件的类别即标签是准确的,但实际上,历史案件会存在着在处理时存在误分类的问题,此时历史样本的标签就不准确,那么就会导致新案件的预测也随之错误。所以需要对历史案件的标签进行检验并修正。
对所有可能的实现方式中任一项所述的一种基于大数据的法律案件自动分类方法中所用的训练样本的标签进行修正:
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似度越大,其距离越小。
其中S为文本相似性,其计算方法为:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组。
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
第三方面,提供了一种训练集的修正方法,该方法包括:
计算文本相似性:从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似时,其距离也较小。
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组。
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
Claims (8)
1.一种基于大数据的法律案件自动分类方法,其特征在于,该方法包括如下步骤:
融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类:
获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集;
选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型;
对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),…,train(K),取出第i部分训练集train(i),i=1,2,…,K,采用剩余K-1部分的训练集来训练文本分类模型M(i),即依次得到M(1),M(2),…,M(K),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PYtrain(i),train(i)每个样本自身的真实标签记作Ytrain(i),这样当i遍历1~K每个值时,可得到每个样本的预测标签PYtrain(1),PYtrain(2),…,PYtrain(K),其对应的样本真实标签为Ytrain(1),Ytrain(2),…,Ytrain(K),将PYtrain(1),PYtrain(2),…,PYtrain(K)依次拼接作为线性回归模型的输入,Ytrain(1),Ytrain(2),…,Ytrain(K)依次拼接为输出,训练得到相应的第二层线性回归模型L(M),利用训练得到的K个文本分类模型M(1),M(2),…,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PYvalidation,再利用训练好的第二层线性回归模型L(M)以PYvalidation作为输入进行预测,并与验证集的真实标签Yvalidation进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M);
当M分别取第一层基础模型中的Logistic分类模型,记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:
分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即针对一个新的案件,通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1)。
2.根据权利要求1所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,利用关键词进行分类;
将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语;对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1);
将关键词进行广义扩充,广义词语是指包含了2~n个关键词的集合,n为案件文本关键词的个数,对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中的每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以外的案件中词语b出现的次数+1);
对于每个词语与类别的相关性进行标准化变换,记作关联系数:
对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到;
结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测:
对于一个新的案件,通过两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2);
当Z1=Z2时:直接预测新的案件最终类别为Z1;
当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
3.根据权利要求2所述的一种基于大数据的法律案件自动分类方法,其特征在于,当关键词与类别的汉语文字相同时,即包含了该关键词的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
4.根据权利要求2所述的一种基于大数据的法律案件自动分类方法,其特征在于,对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列,去除类别中出现词语次数<阈值的词语,去除噪音。
5.根据权利要求1所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,根据相似历史案例进行分类:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度);
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为案件的关键词的个数,文本长度是指文本中中文字符的个数;
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别Z3,其对应的预测概率P(Z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值;
结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测:
对于一个新的案件,通过两种算法可以分别得到两个预测类别Z1,Z3以及预测概率P(Z1),P(Z3);
当Z1=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
6.根据权利要求2-4任一项所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,根据相似历史案例进行分类:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;
对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度);
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为案件的关键词的个数,文本长度是指文本中中文字符的个数;
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别,其对应的预测概率为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值;
结合综合分类模型进行分类和利用关键词进行分类和根据相似历史案例进行分类的3种分类结果进行最终预测:
对于一个新的案件,通过三种算法可以分别得到三个预测类别Z1,Z2,Z3以及预测概率P(Z1),P(Z2),P(Z3);
当Z1=Z2=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z2,Z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))大于阈值,则最终类别为Z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))小于阈值,P(Z3)大于阈值,则最终类别为Z3;其他情况最终预测类别均取值为两个相同的类别;
当Z1,Z2,Z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
7.一种基于大数据的法律案件自动分类优化方法,其特征在于,该方法包括:
对权利要求1-6任一项所述的一种基于大数据的法律案件自动分类方法中所用的训练样本的标签进行修正:
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似度越大,其距离越小;
其中S为文本相似性,其计算方法为:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数;
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组;
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
8.一种训练集的修正方法,其特征在于,该方法包括:
计算文本相似性:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数;
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似度越大,其距离越小;
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组;
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110352881.3A CN112800232B (zh) | 2021-04-01 | 2021-04-01 | 一种基于大数据的案件自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110352881.3A CN112800232B (zh) | 2021-04-01 | 2021-04-01 | 一种基于大数据的案件自动分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800232A true CN112800232A (zh) | 2021-05-14 |
CN112800232B CN112800232B (zh) | 2021-08-06 |
Family
ID=75816043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110352881.3A Active CN112800232B (zh) | 2021-04-01 | 2021-04-01 | 一种基于大数据的案件自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800232B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806542A (zh) * | 2021-09-18 | 2021-12-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
CN115346084A (zh) * | 2022-08-15 | 2022-11-15 | 腾讯科技(深圳)有限公司 | 样本处理方法、装置、电子设备、存储介质及程序产品 |
CN115935245A (zh) * | 2023-03-10 | 2023-04-07 | 吉奥时空信息技术股份有限公司 | 一种政务热线案件自动分类分拨方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915356A (zh) * | 2014-03-13 | 2015-09-16 | 中国移动通信集团上海有限公司 | 一种文本分类校正方法及装置 |
CN109902172A (zh) * | 2019-01-31 | 2019-06-18 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN110347825A (zh) * | 2019-06-14 | 2019-10-18 | 北京物资学院 | 一种短英文影评分类方法及装置 |
CN111368060A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 对话机器人的自学习方法、装置、系统、电子设备及介质 |
CN111782807A (zh) * | 2020-06-19 | 2020-10-16 | 西北工业大学 | 一种基于多方法集成学习的自承认技术债务检测分类方法 |
-
2021
- 2021-04-01 CN CN202110352881.3A patent/CN112800232B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915356A (zh) * | 2014-03-13 | 2015-09-16 | 中国移动通信集团上海有限公司 | 一种文本分类校正方法及装置 |
CN109902172A (zh) * | 2019-01-31 | 2019-06-18 | 深度好奇(北京)科技有限公司 | 案情文本分类方法、装置以及存储介质 |
CN110347825A (zh) * | 2019-06-14 | 2019-10-18 | 北京物资学院 | 一种短英文影评分类方法及装置 |
CN111368060A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 对话机器人的自学习方法、装置、系统、电子设备及介质 |
CN111782807A (zh) * | 2020-06-19 | 2020-10-16 | 西北工业大学 | 一种基于多方法集成学习的自承认技术债务检测分类方法 |
Non-Patent Citations (3)
Title |
---|
丁勇 等: "基于主题和关键词特征的比较文本分类方法", 《计算机工程与应用》 * |
何涛 等: "基于堆叠模型的司法短文本多标签分类", 《计算机技术与发展》 * |
佚名: "模型融合整理--------投票、stacking、blending", 《HTTPS://BLOG.CSDN.NET/U011537121/ARTICLE/DETAILS/84855899?UTM_TERM=软投票模型&UTM_MEDIUM=DISTRIBUTE.PC_AGGPAGE_SEARCH_RESULT.NONE-TASK-BLOG-2~ALL~SOBAIDUWEB~DEFAULT-0-84855899&SPM=3001.4430》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806542A (zh) * | 2021-09-18 | 2021-12-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
CN113806542B (zh) * | 2021-09-18 | 2024-05-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
CN115346084A (zh) * | 2022-08-15 | 2022-11-15 | 腾讯科技(深圳)有限公司 | 样本处理方法、装置、电子设备、存储介质及程序产品 |
CN115935245A (zh) * | 2023-03-10 | 2023-04-07 | 吉奥时空信息技术股份有限公司 | 一种政务热线案件自动分类分拨方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112800232B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800232B (zh) | 一种基于大数据的案件自动分类方法 | |
CN111309912B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN112732934B (zh) | 电网设备分词词典和故障案例库构建方法 | |
CN110851718B (zh) | 一种基于长短时记忆网络以及用户评论的电影推荐方法 | |
CN110705607B (zh) | 一种基于循环重标注自助法的行业多标签降噪方法 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN113221960B (zh) | 一种高质量漏洞数据收集模型的构建方法及收集方法 | |
WO2020024444A1 (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN114398891B (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN116128544A (zh) | 一种电力营销异常营业数据的主动稽核方法和系统 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN115438190B (zh) | 一种配电网故障辅助决策知识抽取方法及系统 | |
CN116306909A (zh) | 一种实现模型训练的方法、计算机存储介质及终端 | |
CN113610112B (zh) | 飞机装配质量缺陷辅助决策方法 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN114662486A (zh) | 一种基于机器学习的突发事件敏感词检测方法 | |
CN114896402A (zh) | 一种文本关系抽取方法、装置、设备和计算机存储介质 | |
CN111274404B (zh) | 一种基于人机协同的小样本实体多领域分类方法 | |
CN114579761A (zh) | 信息安全知识实体关系连接预测方法、系统及介质 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN111078840B (zh) | 一种基于文档向量的电影评论情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |