CN112800232A - 基于大数据的案件自动分类、优化方法及训练集修正方法 - Google Patents

基于大数据的案件自动分类、优化方法及训练集修正方法 Download PDF

Info

Publication number
CN112800232A
CN112800232A CN202110352881.3A CN202110352881A CN112800232A CN 112800232 A CN112800232 A CN 112800232A CN 202110352881 A CN202110352881 A CN 202110352881A CN 112800232 A CN112800232 A CN 112800232A
Authority
CN
China
Prior art keywords
case
text
category
cases
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110352881.3A
Other languages
English (en)
Other versions
CN112800232B (zh
Inventor
周金明
陈贵龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co Ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co Ltd filed Critical Nanjing Inspector Intelligent Technology Co Ltd
Priority to CN202110352881.3A priority Critical patent/CN112800232B/zh
Publication of CN112800232A publication Critical patent/CN112800232A/zh
Application granted granted Critical
Publication of CN112800232B publication Critical patent/CN112800232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于大数据的案件自动分类、优化方法及训练集修正方法,通过融合多个模型、进行多次训练验证的过程,并对不同模型赋予不同投票权重,使得分类模型更加准确,并且在训练样本较少时同样适用,通过融合多个文本分类模型对法律案件进行分类,帮助工作人员分类管理,提高了案件分类的准确率,提高了工作效率,节约了大量人力物力。

Description

基于大数据的案件自动分类、优化方法及训练集修正方法
技术领域
本发明涉及案件分类和自然语言处理研究领域,具体涉及基于大数据的案件自动分类、优化方法及训练集修正方法。
背景技术
目前的法律案件分类仍然是传统的人工处理、人工解决问题,然而由于中国人口基数大,社会问题复杂,使得案件总量多、涉及到的领域繁杂,工作人员需要通过人工理解案件申请人的申诉事实、理由和目的,并正确的做出分类,耗时耗力。工作人员需要根据案件文本人工决定案件大致分类,缺乏智能化的案件自动处理工具。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前缺乏对法律案件的自动分类方法,在训练样本不足时,现有的文本分类模型难以准确分类,历史案件中存在标签不准确的问题,缺乏案件的自动分类的策略。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于大数据的案件自动分类、优化方法及训练集修正方法,通过融合多个文本分类模型对法律案件进行分类,提高了案件分类的准确率,提高案件分类工作效率,节约了大量的人力物力。技术方案如下:
第一方面,提供了一种基于大数据的法律案件自动分类方法,该方法包括如下步骤:
融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类。
获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集。
选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型。
对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),…,train(K),取出第i部分训练集train(i),i=1,2,…,K,采用剩余K-1部分的训练集来训练文本分类模型M(i),即依次得到M(1),M(2),…,M(K),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PYtrain(i),train(i)每个样本自身的真实标签记作Ytrain(i),这样当i遍历1~K每个值时,可得到每个样本的预测标签PYtrain(1),PYtrain(2),…,PYtrain(K),其对应的样本真实标签为Ytrain(1),Ytrain(2),…,Ytrain(K),将PYtrain(1),PYtrain(2),…,PYtrain(K)依次拼接作为线性回归模型的输入,Ytrain(1),Ytrain(2),…,Ytrain(K)依次拼接为输出,训练得到相应的第二层线性回归模型L(M),利用训练得到的K个文本分类模型M(1),M(2),…,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PYvalidation,再利用训练好的第二层线性回归模型L(M)以PYvalidation作为输入进行预测,并与验证集的真实标签Yvalidation进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M);
当M分别取第一层基础模型中的Logistic分类模型,记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:
Figure 222997DEST_PATH_IMAGE002
分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即针对一个新的案件,通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1)。
优选的,该方法还包括,利用关键词进行分类;
将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语;对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1);
将关键词进行广义扩充,广义词语是指包含了2~n个关键词的集合,n为案件文本关键词的个数,对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中的每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以外的案件中词语b出现的次数+1);
对于每个词语与类别的相关性进行标准化变换,记作关联系数:
Figure 555889DEST_PATH_IMAGE004
x是狭义或广义词语。
进一步的,当关键词与类别的汉语文字相同时,即包含了该关键词的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
进一步的,对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列,去除类别中出现词语次数<阈值的词语,去除噪音。
对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到。
结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测:
对于一个新的案件, 通过这两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2);
当Z1=Z2时:直接预测新的案件最终类别为Z1;
当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
优选的,该方法还包括,根据相似历史案例进行分类:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T。
对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度)。
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为案件的关键词的个数,文本长度是指文本中中文字符的个数。
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别Z3,其对应的预测概率P(Z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值。
结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测:
对于一个新的案件,通过这两种算法可以分别得到两个预测类别Z1,Z3以及预测概率P(Z1),P(Z3)。
当Z1=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
优选的, 该方法还可以结合综合分类模型进行分类和利用关键词进行分类和根据相似历史案例进行分类的3种分类结果进行最终预测:
对于一个新的案件, 通过这三种算法可以分别得到三个预测类别Z1,Z2,Z3以及预测概率P(Z1),P(Z2),P(Z3);
当Z1=Z2=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z2,Z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))大于阈值,则最终类别为Z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))小于阈值,P(Z3)大于阈值,则最终类别为Z3;其他情况最终预测类别均取值为两个相同的类别。
当Z1,Z2,Z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:
通过融合多个模型、进行多次训练验证的过程,并对不同模型赋予不同投票权重,使得分类模型更加准确,并且在训练样本较少时同样适用;通过融合多个文本分类模型对法律案件进行分类,帮助工作人员分类管理,提高了案件分类的准确率,提高了工作效率,节约了大量人力物力。
另外通过融合模型、关键词算法和/或历史案例匹配、标签修正等方法,使得在历史样本不足以及样本分类不够准确的情况下同样适用。通过扩展广义词语,使得案件文本的相似度更加准确;通过标签的检验,解决出现训练样本和测试样本等历史案件的标签不准确问题。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。第一方面:本公开实施例提供了一种基于大数据的法律案件自动分类方法,该方法包括如下步骤:
融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类。
获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集。
选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型;
对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),…,train(K) 。单独取出第i部分训练集train(i),i=1,2,…,K,利用剩余K-1部分的训练集来训练文本分类模型M(i),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PYtrain(i), train(i)每个样本自身的真实标签记作Ytrain(i)。这样当i遍历1~K每个值时,可得到每个样本的预测标签PYtrain(1),PYtrain(2),…,PYtrain(K),其对应的样本真实标签为Ytrain(1),Ytrain(2),…,Ytrain(K),将PYtrain(1),PYtrain(2),…,PYtrain(K)依次拼接作为线性回归模型的输入,Ytrain(1),Ytrain(2),…,Ytrain(K)依次拼接为输出,训练得到相应的第二层线性回归模型L(M)。利用在i遍历1~K时分别训练得到的K个文本分类模型M(1),M(2),…,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PYvalidation,再利用训练好的第二层线性回归模型L(M)以PYvalidation作为输入进行预测,并与验证集的真实标签Yvalidation进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M)。
当M分别取第一层基础模型中的Logistic分类模型记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:
Figure 370262DEST_PATH_IMAGE002
分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1);由于第二层是多分类的线性回归模型,所以可以得到每个类别的概率。
通过单一的分类方法进行最终分类结果的确认往往存在一定的局限性,综合考虑了根据关键词进行分类和/或根据相似历史案例进行分类的结果进行综合确定最终的分类结果,大大提高了分类的准确率。
方法还包括,利用关键词进行分类;
将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语。对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1)。
分子分母同时加上常数1是为了避免出现分母为0的特殊情况。从表达式可以看出R(a,C)越大,则词语a在类别C中经常出现,而其他类别中很少出现,所以当一个新的案件中包含词语a时,则很大可能是属于类别C。
但在中文中,有时候单一词语难以完全刻画真实意图,当多个词语共同出现时才能确定类别。所以将词语进行广义扩充,不单单是指单一一个词语,广义词语是指包含了2~n个关键词的集合,n为关键词的个数。对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以外的案件中词语b出现的次数+1)。
为了保证不同词语相互比较的尺度相同,对于每个词语与类别的相关性进行标准化变换,记作关联系数:
Figure 130407DEST_PATH_IMAGE004
x是狭义或广义词语。
特别的,当词语与类别相同时,表明包含了该词语的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列。进一步的,还可以去除类别中出现词语次数<阈值的词语,可以避免出现噪声词语的情况,例如某些词语日常很少使用,只是偶然在某类别中出现了,在计算相关性时,由于分母过小,即使分子比较小,但整体值仍然偏大的,就会带来噪声干扰。
对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到。
结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测。
对于一个新的案件,通过这两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2)。
当Z1=Z2时:直接预测新的案件最终类别为Z1
当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
该方法还包括,根据相似历史案例进行分类。
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取好的每个历史案件,去除案件文本中的标点符号。对于一个新的未知类别的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T(去除标点符号后)的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度)。
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。可以看出,当相似性越大时,说明Y与T的文本重合度越高,则归属到同一类别的概率越大。
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别Z3,其对应的预测概率P(Z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值。
结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测。
对于一个新的案件,通过这三种算法可以分别得到三个预测类别Z1,Z2,Z3以及预测概率P(Z1),P(Z2),P(Z3)。
当Z1=Z2=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z2,Z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))大于阈值,则最终类别为Z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))小于阈值,P(Z3)大于阈值,则最终类别为Z3;其他情况最终预测类别均取值为两个相同的类别。
当Z1,Z2,Z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
除此之外,当然也可以结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测。
对于一个新的案件,通过这两种算法可以分别得到两个预测类别Z1,Z3以及预测概率P(Z1),P(Z3)。
当Z1=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
第二方面,提供了一种基于大数据的法律案件自动分类优化方法;
采用综合分类模型进行分类时,根据历史的法律案件对新的法律案件进行预测,方法的前提是需要默认历史法律案件的类别即标签是准确的,但实际上,历史案件会存在着在处理时存在误分类的问题,此时历史样本的标签就不准确,那么就会导致新案件的预测也随之错误。所以需要对历史案件的标签进行检验并修正。
对所有可能的实现方式中任一项所述的一种基于大数据的法律案件自动分类方法中所用的训练样本的标签进行修正:
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似度越大,其距离越小。
其中S为文本相似性,其计算方法为:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组。
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
第三方面,提供了一种训练集的修正方法,该方法包括:
计算文本相似性:从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似时,其距离也较小。
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组。
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (8)

1.一种基于大数据的法律案件自动分类方法,其特征在于,该方法包括如下步骤:
融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类:
获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集;
选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型;
对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),…,train(K),取出第i部分训练集train(i),i=1,2,…,K,采用剩余K-1部分的训练集来训练文本分类模型M(i),即依次得到M(1),M(2),…,M(K),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PYtrain(i),train(i)每个样本自身的真实标签记作Ytrain(i),这样当i遍历1~K每个值时,可得到每个样本的预测标签PYtrain(1),PYtrain(2),…,PYtrain(K),其对应的样本真实标签为Ytrain(1),Ytrain(2),…,Ytrain(K),将PYtrain(1),PYtrain(2),…,PYtrain(K)依次拼接作为线性回归模型的输入,Ytrain(1),Ytrain(2),…,Ytrain(K)依次拼接为输出,训练得到相应的第二层线性回归模型L(M),利用训练得到的K个文本分类模型M(1),M(2),…,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PYvalidation,再利用训练好的第二层线性回归模型L(M)以PYvalidation作为输入进行预测,并与验证集的真实标签Yvalidation进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M);
当M分别取第一层基础模型中的Logistic分类模型,记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:
Figure 451762DEST_PATH_IMAGE001
分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即针对一个新的案件,通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1)。
2.根据权利要求1所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,利用关键词进行分类;
将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语;对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1);
将关键词进行广义扩充,广义词语是指包含了2~n个关键词的集合,n为案件文本关键词的个数,对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中的每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以外的案件中词语b出现的次数+1);
对于每个词语与类别的相关性进行标准化变换,记作关联系数:
Figure 588345DEST_PATH_IMAGE002
x是狭义或广义词语;
对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到;
结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测:
对于一个新的案件,通过两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2);
当Z1=Z2时:直接预测新的案件最终类别为Z1;
当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
3.根据权利要求2所述的一种基于大数据的法律案件自动分类方法,其特征在于,当关键词与类别的汉语文字相同时,即包含了该关键词的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
4.根据权利要求2所述的一种基于大数据的法律案件自动分类方法,其特征在于,对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列,去除类别中出现词语次数<阈值的词语,去除噪音。
5.根据权利要求1所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,根据相似历史案例进行分类:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度);
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为案件的关键词的个数,文本长度是指文本中中文字符的个数;
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别Z3,其对应的预测概率P(Z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值;
结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测:
对于一个新的案件,通过两种算法可以分别得到两个预测类别Z1,Z3以及预测概率P(Z1),P(Z3);
当Z1=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
6.根据权利要求2-4任一项所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,根据相似历史案例进行分类:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;
对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度);
其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为案件的关键词的个数,文本长度是指文本中中文字符的个数;
通过计算Y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别,其对应的预测概率为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值;
结合综合分类模型进行分类和利用关键词进行分类和根据相似历史案例进行分类的3种分类结果进行最终预测:
对于一个新的案件,通过三种算法可以分别得到三个预测类别Z1,Z2,Z3以及预测概率P(Z1),P(Z2),P(Z3);
当Z1=Z2=Z3时:直接预测新的案件最终类别为Z1;
当Z1,Z2,Z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))大于阈值,则最终类别为Z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如Z1=Z2且与Z3不同,而max(P(Z1), P(Z2))小于阈值,P(Z3)大于阈值,则最终类别为Z3;其他情况最终预测类别均取值为两个相同的类别;
当Z1,Z2,Z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
7.一种基于大数据的法律案件自动分类优化方法,其特征在于,该方法包括:
对权利要求1-6任一项所述的一种基于大数据的法律案件自动分类方法中所用的训练样本的标签进行修正:
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似度越大,其距离越小;
其中S为文本相似性,其计算方法为:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数;
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组;
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
8.一种训练集的修正方法,其特征在于,该方法包括:
计算文本相似性:
从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数;
计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作A,B,则两个案件间的距离为:dis(A,B)=1/S(A,B),可以看出,当两个案件相似度越大,其距离越小;
将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组;
对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
CN202110352881.3A 2021-04-01 2021-04-01 一种基于大数据的案件自动分类方法 Active CN112800232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110352881.3A CN112800232B (zh) 2021-04-01 2021-04-01 一种基于大数据的案件自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110352881.3A CN112800232B (zh) 2021-04-01 2021-04-01 一种基于大数据的案件自动分类方法

Publications (2)

Publication Number Publication Date
CN112800232A true CN112800232A (zh) 2021-05-14
CN112800232B CN112800232B (zh) 2021-08-06

Family

ID=75816043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110352881.3A Active CN112800232B (zh) 2021-04-01 2021-04-01 一种基于大数据的案件自动分类方法

Country Status (1)

Country Link
CN (1) CN112800232B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统
CN115346084A (zh) * 2022-08-15 2022-11-15 腾讯科技(深圳)有限公司 样本处理方法、装置、电子设备、存储介质及程序产品
CN115935245A (zh) * 2023-03-10 2023-04-07 吉奥时空信息技术股份有限公司 一种政务热线案件自动分类分拨方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915356A (zh) * 2014-03-13 2015-09-16 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN110347825A (zh) * 2019-06-14 2019-10-18 北京物资学院 一种短英文影评分类方法及装置
CN111368060A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 对话机器人的自学习方法、装置、系统、电子设备及介质
CN111782807A (zh) * 2020-06-19 2020-10-16 西北工业大学 一种基于多方法集成学习的自承认技术债务检测分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915356A (zh) * 2014-03-13 2015-09-16 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN110347825A (zh) * 2019-06-14 2019-10-18 北京物资学院 一种短英文影评分类方法及装置
CN111368060A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 对话机器人的自学习方法、装置、系统、电子设备及介质
CN111782807A (zh) * 2020-06-19 2020-10-16 西北工业大学 一种基于多方法集成学习的自承认技术债务检测分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
丁勇 等: "基于主题和关键词特征的比较文本分类方法", 《计算机工程与应用》 *
何涛 等: "基于堆叠模型的司法短文本多标签分类", 《计算机技术与发展》 *
佚名: "模型融合整理--------投票、stacking、blending", 《HTTPS://BLOG.CSDN.NET/U011537121/ARTICLE/DETAILS/84855899?UTM_TERM=软投票模型&UTM_MEDIUM=DISTRIBUTE.PC_AGGPAGE_SEARCH_RESULT.NONE-TASK-BLOG-2~ALL~SOBAIDUWEB~DEFAULT-0-84855899&SPM=3001.4430》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统
CN113806542B (zh) * 2021-09-18 2024-05-17 上海幻电信息科技有限公司 文本分析方法及系统
CN115346084A (zh) * 2022-08-15 2022-11-15 腾讯科技(深圳)有限公司 样本处理方法、装置、电子设备、存储介质及程序产品
CN115935245A (zh) * 2023-03-10 2023-04-07 吉奥时空信息技术股份有限公司 一种政务热线案件自动分类分拨方法

Also Published As

Publication number Publication date
CN112800232B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN112800232B (zh) 一种基于大数据的案件自动分类方法
CN111309912B (zh) 文本分类方法、装置、计算机设备及存储介质
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN110851718B (zh) 一种基于长短时记忆网络以及用户评论的电影推荐方法
CN110705607B (zh) 一种基于循环重标注自助法的行业多标签降噪方法
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN114398891B (zh) 基于日志关键词生成kpi曲线并标记波段特征的方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和系统
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及系统
CN107480126B (zh) 一种工程材料类别智能识别方法
CN110362828B (zh) 网络资讯风险识别方法及系统
CN115357718B (zh) 主题集成服务重复材料发现方法、系统、设备和存储介质
CN115438190B (zh) 一种配电网故障辅助决策知识抽取方法及系统
CN116306909A (zh) 一种实现模型训练的方法、计算机存储介质及终端
CN113610112B (zh) 飞机装配质量缺陷辅助决策方法
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN114662486A (zh) 一种基于机器学习的突发事件敏感词检测方法
CN114896402A (zh) 一种文本关系抽取方法、装置、设备和计算机存储介质
CN111274404B (zh) 一种基于人机协同的小样本实体多领域分类方法
CN114579761A (zh) 信息安全知识实体关系连接预测方法、系统及介质
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN111078840B (zh) 一种基于文档向量的电影评论情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant