CN111723208B - 基于条件分类树的法律判决文书多分类方法、装置和终端 - Google Patents
基于条件分类树的法律判决文书多分类方法、装置和终端 Download PDFInfo
- Publication number
- CN111723208B CN111723208B CN202010595021.8A CN202010595021A CN111723208B CN 111723208 B CN111723208 B CN 111723208B CN 202010595021 A CN202010595021 A CN 202010595021A CN 111723208 B CN111723208 B CN 111723208B
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- subset
- case
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002411 adverse Effects 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于条件分类树的法律判决文书多分类方法、装置和终端,方法包括以下步骤:S1、先验信息抽取:抽取能对数据集进行粗粒度划分的先验信息,形成特征域;S2、文本聚类:基于能对数据集进行粗粒度划分的先验信息进行聚类操作,得到初始类别;S3、基于特征域生成叶节点;S4、对一篇未知文本f进行分类时,首先根据贝叶斯概率模型将其归入某个初始类别,然后通过分类树推断其具体所属类别。本发明通过先验知识将复杂的多分类任务转化为二分类任务的组合,在分枝过程中确定最优划分方式使分类器数量最小化,通过这种方式减小由于待分类类别增加而对分类效果带来的不良影响。
Description
技术领域
本发明属于信息技术领域,特别涉及一种基于条件分类树的法律判决文书多分类方法、装置和终端。
背景技术
随着互联网的飞速发展,各种资源信息日渐丰富甚至呈爆炸式增长;而文字承载着丰富的信息,对文本的研究越来越需要被重视。对文本数据的管理工作十分重要,文本自动分类目的是为人们提供有力的自动化文本管理工具。
在法律领域,罪刑需要根据犯罪嫌疑人所造成的事件客观结果、主观动机以及相关法律条文进行判断,具有一套严谨的逻辑体系。但机器学习的过程常常是人类无法直观理解的“黑箱”,导致很多法学领域的专家对使用机器学习方法进行罪刑判定的不信任。因此,对于法律判决文书的分类模型,其分类的逻辑性及可理解性较为重要。以决策树为代表的在逻辑上为树状的算法由于其可理解性等优点而被广泛应用于多个领域,为了克服已有算法的一些缺陷,学者们根据类似的思路改进、提出了大量应用于不同领域的树算法。
以犯罪的客观结果作为先验信息建立的条件分类树模型不仅能够降低由于待分类类别增加对任务带来的不良影响,而且符合判案逻辑、具备高度的可解释性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种利用先验知识挖掘分类规则的框架,针对不同类型的知识、不同领域的文本,其聚类算法、分枝算法以及分类器可以根据实际需求进行灵活调整的基于条件分类树的法律判决文书多分类方法、装置和终端。
本发明的目的是通过以下技术方案来实现的:一种基于条件分类树的法律判决文书多分类方法,包括以下步骤:
S1、先验信息抽取:抽取能对数据集进行粗粒度划分的先验信息,形成特征域;
S2、文本聚类:基于能对数据集进行粗粒度划分的先验信息进行聚类操作,得到初始类别;
S3、基于特征域生成叶节点;
S4、对一篇未知文本f进行分类时,首先根据贝叶斯概率模型将其归入某个初始类别,然后通过分类树推断其具体所属类别。
进一步地,所述能对数据集进行粗粒度划分的先验信息包括与违法行为、违法后果以及作案工具高度相关的特征词。
进一步地,所述步骤S1具体实现方法为:
S11、为每个特征词构建频率向量和判别向量,频率向量和判别向量都是1×n的向量,n为待分类的文本种类总数;
对于一个特征词的频率向量,向量中每个位置对应一类文本L,这个位置上的数值为L中包含这个特征词的文本比例;
判别向量基于频率向量进行构造,运用统计学中小概率事件的原理:设定显著性水平α,对于一个最大值为M的频率向量,把它所有数值小于α×M的位置变成0,其他位置变成1,得到判别向量;
S12、基于频率向量和判别向量进行计算,为每个特征词打分;
对于任意一个特征词w,设它的频率向量为F_vec,判别向量为D_vec;w的得分为:
分布越集中的特征词得分越高,出现频率越高的特征词得分越高;
S13、分别计算每个特征词对每一类文本的代表性得分R_score,特征词w对第i类文本的代表性得分为:
其中,F_vec是w的频率向量,F_vec[i]是向量中对于第i类文本的数值;
S14、根据S13得到的代表性得分,分别为每一类文本构建特征域;具体实现方法为:引入覆盖率定义,对于任意特征域F,F对文本集合a的覆盖率C为:
其中tf为集合a中含有F中任一特征的文本数量,t为集合a的文本数量;
对于任意一类文本,从代表性得分最高的单词开始,运用如下规则自上而下地进行搜索:如果添加这个特征词,特征域对这一类文本的覆盖率增加,那么就把这个特征词加入特征域,反之则跳过;当覆盖率达到100%或预先设定的最低要求时结束检索,得到特征域。
进一步地,所述步骤S2具体实现方法为:以每类案件的特征域作为条件分类树的先验知识,对于包含N种类型的案件(d1、d2…dN)的集合D,记集合中任意一类案件dk的特征域为fk;
将D中包含的文本以案件类别为单位进行聚类,得到子集序列D1、D2…Dn,n≤N;记序列中子集Di中任意一种案件的特征域为Fis,子集Dj中任意一种案件的特征域为记为Fjm;
理想情况下,对子集序列有如下要求:
引入基于覆盖率的距离定义:集合A到集合B的距离为集合B中所有案件类型的特征域各自对集合A覆盖率的最大值的倒数:
该距离公式的描述了案件特征域的相似程度;
每次任选一种案件作为中心子集,计算其他案件子集到它的距离,将距离小于预设阈值的案件子集并入中心子集中;
重复上述距离计算与合并的流程,直到其他所有子集到中心子集的距离均大于预设阈值为止,这时的中心子集就是聚类完成的一个子集;
对剩余的子集递归地重复上述操作直到聚类完成。
进一步地,所述步骤S3具体实现方法为:对聚类后得到的各个子集递归地进行如下操作:
判断子集中包含的案件种类数量,如果子集中只包含一种案件,则直接生成叶节点;否则,生成内部节点,基于只出现在子集中某一种案件类型中的特征生成叶节点;并为这个子集中的案件重新构建特征域,然后以相对最优的方式(同样使用S2中的聚类方法,但是如果基于原有距离阈值无法得到两个以上的新子集,则逐渐提高距离阈值,直到得到两个以上新子集为止)对包含多种案件的子集进行划分得到新子集,并根据划分训练一个分类器,生成分类器节点;对于每次划分后得到的新子集,继续判断其包含的案件种类数量;直到所有案件都归入叶节点为止。
本发明的一种基于条件分类树的法律判决文书多分类装置,包括
文本聚类模块,用于对数据集进行聚类操作,得到初始类别;
文本划分模块,用于对数据集进行粗粒度划分;
分类器节点生成模块,用于根据文本划分结果训练得到分类器;
树状结构控制模块,用于递归地进行聚类、划分以及节点生成;
朴素贝叶斯预分类模块,用于将待分类模块归于某一初始类别;
分类树预测模块,用于进行文本分类任务。
本发明还提供一种基于条件分类树的法律判决文书多分类终端,包括处理器和存储器,所述处理器包括上述的分类装置。
本发明的有益效果是:本发明提供了一种以先验知识为驱动的文本分类算法、装置、终端,其生长过程类似于决策树,因此也具备决策树可解释性强的优点,但与决策树不同的是,条件分类树除了生成叶节点与内部节点以外,还生成分类器节点,在生长过程中实现了对先验知识与分类规则的充分挖掘,核心思想是通过先验知识将复杂的多分类任务转化为二分类任务的组合,在分枝过程中确定最优划分方式使分类器数量最小化,通过这种方式减小由于待分类类别增加而对分类效果带来的不良影响。条件分类树的应用并不局限于该领域,它提供了一种利用先验知识挖掘分类规则的框架,针对不同类型的知识、不同领域的文本,其聚类算法、分枝算法以及分类器可以根据实际需求进行灵活调整。对关键词类型的先验信息给出更一般的定义:在不同类别之间分布高度不均的特征。条件分类树将这些特征在训练集中的分布特性作为它们在总体数据中的分布特性的估计,并利用它们的分布特性挖掘分类规则。因此提供给模型的先验信息能够脱离专业的领域知识的范畴,只需从训练样本中筛选出满足上述定义要求的特征即可,这使得条件分类树或能成为一种具有通用性潜力的多分类算法、装置、终端。
附图说明
图1为本发明的基于条件分类树的法律判决文书多分类方法的模型构建流程图;
图2为本发明的聚类算法流程图;
图3为本发明的条件分类树生成方法的流程图;
图4为一个实施例中本发明的模型结构图,图中省略了第二类叶节点;
图5为本发明的基于条件分类树的法律判决文书多分类装置的结构示意图。
具体实施方式
本发明中的文本信息的知识图谱关系抽取方法可以应用于本发明实施例的基于改进条件分类树的法律判决文书多分类装置,该文本信息分类的装置可以配置于文本信息的多分类终端内,该分类终端可以是计算机设备或者服务器等。
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于条件分类树的法律判决文书多分类方法,包括以下步骤:
S1、先验信息抽取:抽取能对数据集进行粗粒度划分的先验信息,形成特征域;
能对数据集进行粗粒度划分的先验信息包括与违法行为、违法后果以及作案工具高度相关的特征词。
S1具体实现方法为:
S11、进行去停用词等数据预处理操作后,为每个特征词构建频率向量和判别向量,频率向量和判别向量都是1×n的向量,n为待分类的文本种类总数;
对于一个特征词的频率向量,向量中每个位置对应一类文本L,这个位置上的数值为L中包含这个特征词的文本比例;
判别向量基于频率向量进行构造,运用统计学中小概率事件的原理:设定显著性水平α,对于一个最大值为M的频率向量,把它所有数值小于α×M的位置变成0,其他位置变成1,得到判别向量;
S12、基于频率向量和判别向量进行计算,为每个特征词打分;
对于任意一个特征词w,设它的频率向量为F_vec,判别向量为D_vec;w的得分为:
分别越集中的特征词得分越高,出现频率越高的特征词得分越高;
S13、分别计算每个特征词对每一类文本的代表性得分R_score,特征词w对第i类文本的代表性得分为:
其中,F_vec是w的频率向量,F_vec[i]是向量中对于第i类文本的数值;
S14、根据S13得到的代表性得分,分别为每一类文本构建特征域;具体实现方法为:引入覆盖率定义,对于任意特征域F,F对文本集合a的覆盖率C为:
其中tf为集合a中含有F中任一特征的文本数量,t为集合a的文本数量;
对于任意一类文本,从代表性得分最高的单词开始,运用如下规则自上而下地进行搜索:如果添加这个特征词,特征域对这一类文本的覆盖率增加,那么就把这个特征词加入特征域,反之则跳过;当覆盖率达到100%或预先设定的最低要求时结束检索,得到特征域。
S2、文本聚类:基于能对数据集进行粗粒度划分的先验信息进行聚类操作,得到初始类别;如图2所示,本步骤具体实现方法为:以每类案件的特征域作为条件分类树的先验知识,对于包含N种类型的案件(d1、d2…dN)的集合D,记集合中任意一类案件dk的特征域为fk;
将D中包含的文本以案件类别为单位进行聚类,得到子集序列D1、D2…Dn,n≤N;记序列中子集Di中任意一种案件的特征域为Fis,子集Dj中任意一种案件的特征域为记为Fjm;
理想情况下,对子集序列有如下要求:
即要求在聚类后子集的特征域之间完全不重叠的前提下,得到的子集尽可能多。由于特征域的本质是文本关键词,当数据量很大时,相关度不高的案件之间的特征域可能会有少量重叠,这会使得聚类后每个子集的规模特别大,因此需要放宽条件(5),因此引入基于覆盖率的距离定义:集合A到集合B的距离为集合B中所有案件类型的特征域各自对集合A覆盖率的最大值的倒数:
该距离公式的描述了案件特征域的相似程度;但由于同一客观结果对不同案件的覆盖率不同,所以这种距离在运算上是不可逆的:通常情况下distance(A→B)不等于distance(B→A)。
图2描述了基于以上距离定义的聚类算法流程,每次任选一种案件作为中心子集,计算其他案件子集到它的距离,将距离小于预设阈值的案件子集并入中心子集中,这时中心子集的特征域更新为它包含的所有案件的特征域的并集;
每次任选一种案件作为中心子集,计算其他案件子集到它的距离,将距离小于预设阈值的案件子集并入中心子集中;
重复上述距离计算与合并的流程,直到其他所有子集到中心子集的距离均大于预设阈值为止,这时的中心子集就是聚类完成的一个子集;
对剩余的子集递归地重复上述操作直到聚类完成。
S3、基于特征域生成叶节点;对聚类后得到的各个子集递归地进行如下操作:
判断子集中包含的案件种类数量,如果子集中只包含一种案件,则直接生成叶节点(第一类叶节点);否则,生成内部节点,基于只出现在子集中某一种案件类型中的特征生成叶节点(第二类叶节点);并为这个子集中的案件重新构建特征域,然后以相对最优的方式(同样使用S2中的聚类方法,但是如果基于原有距离阈值无法得到两个以上的新子集,则逐渐提高距离阈值,直到得到两个以上新子集为止)对包含多种案件的子集进行划分得到新子集,并根据划分训练一个分类器,生成分类器节点;对于每次划分后得到的新子集,继续判断其包含的案件种类数量;直到所有案件都归入叶节点为止。
本实施例以其中一个子集Dj为例,如图3所示,假设Dj包含多种类型的案件:
S31、基于特征域生成叶节点:根据S1中的特征域构建方法,为Dj中所有类型的案件重新构造特征域,在新构造的特征域中,把那些只出现在特定一种案件类型中的特征作为分类的依据,生成叶节点(第二类叶节点),这类叶节点位于Dj对应的内部节点之后,拥有直接对案件进行判定的功能;即如果特征w只出现在案件类型d的文本中,那么基于w生成对应d的第二类叶节点,如果一篇归类于子集Dj的待分类文本包含特征w,那么判定这篇文本属于d类型案件;
S32、根据最优分组方式抽取对应数据作为训练集:运用S2中的聚类方法,基于S31中更新后的特征域对Dj进行聚类,如果基于原有的距离阈值无法得到多个新子集,那么逐渐提高阈值,直到得到多个新子集Dj1,Dj2……Djn(n为聚类后得到的新子集数量)为止。抽取每个新子集对应的数据作为训练集,每一个新子集所属的数据对应一种标签:Dj1,Dj2……Djn中的数据对应的标签为1,2……n;
S33、特征选择、文本向量生成:分类模型的选择可以根据实际情况进行调整。对于逻辑回归、SVM等传统模型,需要进行特征选择操作,这里的特征选择方法与S1中构造特征域的方法不同,在本步骤中,用卡方统计量或信息增益等传统特征选择方法来进行特征选择,并通过词集模型构建文本向量;
S34、训练分类器:确定分类器后,根据当前训练集进行训练,并保存模型参数;
S35、生成分类器节点:将S34中得到的分类器作为分类器节点,置于Dj对应的内部节点之后。特别的,对于第一次聚类得到的子集,使用基于特征域的朴素贝叶斯模型作为分类器节点,称为预分类节点;
假设一篇陌生文本具备结果特征X={x1,x2...,xn},条件分类树第一层聚类后的子集序列为D1,D2,…,Dn,其中特征域与X有交集的子集为D'1,D'2,…,D'v(2≤v≤n)。假设结果特征之间相互独立,根据贝叶斯定理:
将文本归入P(D'i丨X)最大的一类,其中P(X)对所有类为常数,所以只需求P(X丨D'i)P(D'i)最大即可。使用拉普拉斯估计法估计概率:
其中fik为子集D'i中包含xk的文本数,fi为D'i包含的文本数,f为训练集所有文本的数量;
S36、根据新子集Dj1,Dj2……Djn生成叶节点或内部节点,位于S35中生成的分类器节点之后,对于Dji(i=1,2……n),如果Dji只包含一种案件,则生成叶节点(第一类叶节点),否则生成内部节点,对这个内部节点再次进行S31到S36的操作,直到所有类型的案件都归于叶节点为止。
S4、对一篇未知文本f进行分类时,首先根据贝叶斯概率模型将其归入某个初始类别,然后通过分类树推断其具体所属类别。推断流程为:
第一类叶节点与第二类叶节点地位不同,前者位于分类器节点之后,而后者直接与上层内部节点相连接,拥有最高的优先级:只有当未知文本无法通过第二类叶节点进行归类时,才通过分类器节点进入下一层内部节点或者第一类叶节点。
在一个包含十种常见案件的实施例中,分类树的具体结构如图4所示,从图中可知,每一个内部节点中包含的案件都具有某些相似特征,分类树的推断过程符合人类认知逻辑。
如图5所示,本发明的一种基于条件分类树的法律判决文书多分类装置,包括
文本聚类模块,用于对数据集进行聚类操作,得到初始类别;
文本划分模块,用于对数据集进行粗粒度划分;
分类器节点生成模块,用于根据文本划分结果训练得到分类器;
树状结构控制模块,用于递归地进行聚类、划分以及节点生成(包括根节点、叶节点、内部节点和分类器节点);
朴素贝叶斯预分类模块,用于将待分类模块归于某一初始类别;
分类树预测模块,用于进行文本分类任务。
本发明还提供了一种基于改进条件分类树的法律判决文书多分类终端,包括处理器和存储器,所述存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时如上述的基于改进条件分类树的法律判决文书多分类方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.一种基于条件分类树的法律判决文书多分类方法,其特征在于,包括以下步骤:
S1、先验信息抽取:抽取能对数据集进行粗粒度划分的先验信息,形成特征域;具体实现方法为:
S11、为每个特征词构建频率向量和判别向量,频率向量和判别向量都是1×n的向量,n为待分类的文本种类总数;
对于一个特征词的频率向量,向量中每个位置对应一类文本L,这个位置上的数值为L中包含这个特征词的文本比例;
判别向量基于频率向量进行构造,运用统计学中小概率事件的原理:设定显著性水平α,对于一个最大值为M的频率向量,把它所有数值小于α×M的位置变成0,其他位置变成1,得到判别向量;
S12、基于频率向量和判别向量进行计算,为每个特征词打分;
对于任意一个特征词w,设它的频率向量为F_vec,判别向量为D_vec;w的得分为:
分布越集中的特征词得分越高,出现频率越高的特征词得分越高;
S13、分别计算每个特征词对每一类文本的代表性得分R_score,特征词w对第i类文本的代表性得分为:
其中,F_vec是w的频率向量,F_vec[i]是向量中对于第i类文本的数值;
S14、根据S13得到的代表性得分,分别为每一类文本构建特征域;具体实现方法为:引入覆盖率定义,对于任意特征域F,F对文本集合a的覆盖率C为:
其中tf为集合a中含有F中任一特征的文本数量,t为集合a的文本数量;
对于任意一类文本,从代表性得分最高的单词开始,运用如下规则自上而下地进行搜索:如果添加这个特征词,特征域对这一类文本的覆盖率增加,那么就把这个特征词加入特征域,反之则跳过;当覆盖率达到100%或预先设定的最低要求时结束检索,得到特征域;
S2、文本聚类:基于能对数据集进行粗粒度划分的先验信息进行聚类操作,得到初始类别;
S3、基于特征域生成叶节点;具体实现方法为:对聚类后得到的各个子集递归地进行如下操作:
判断子集中包含的案件种类数量,如果子集中只包含一种案件,则直接生成叶节点;否则,生成内部节点,基于只出现在子集中某一种案件类型中的特征生成叶节点;并为这个子集中的案件重新构建特征域,然后以相对最优的方式对包含多种案件的子集进行划分得到新子集,并根据划分训练一个分类器,生成分类器节点;对于每次划分后得到的新子集,继续判断其包含的案件种类数量;直到所有案件都归入叶节点为止;
S4、对一篇未知文本f进行分类时,首先根据贝叶斯概率模型将其归入某个初始类别,然后通过分类树推断其具体所属类别。
2.根据权利要求1所述的基于条件分类树的法律判决文书多分类方法,其特征在于,所述能对数据集进行粗粒度划分的先验信息包括与违法行为、违法后果以及作案工具高度相关的特征词。
3.根据权利要求1所述的基于条件分类树的法律判决文书多分类方法,其特征在于,所述步骤S2具体实现方法为:以每类案件的特征域作为条件分类树的先验知识,对于包含N种类型的案件(d1、d2…dN)的集合D,记集合中任意一类案件dk的特征域为fk;
将D中包含的文本以案件类别为单位进行聚类,得到子集序列D1、D2…Dn,n≤N;记序列中子集Di中任意一种案件的特征域为Fis,子集Dj中任意一种案件的特征域为记为Fjm;
理想情况下,对子集序列有如下要求:
引入基于覆盖率的距离定义:集合A到集合B的距离为集合B中所有案件类型的特征域各自对集合A覆盖率的最大值的倒数:
该距离公式的描述了案件特征域的相似程度;
每次任选一种案件作为中心子集,计算其他案件子集到它的距离,将距离小于预设阈值的案件子集并入中心子集中;
重复上述距离计算与合并的流程,直到其他所有子集到中心子集的距离均大于预设阈值为止,这时的中心子集就是聚类完成的一个子集;
对剩余的子集递归地重复上述操作直到聚类完成。
4.一种基于条件分类树的法律判决文书多分类装置,用于实现如权利要求1~3任意一项所述的基于条件分类树的法律判决文书多分类方法,其特征在于:包括
文本聚类模块,用于对数据集进行聚类操作,得到初始类别;
文本划分模块,用于对数据集进行粗粒度划分;
分类器节点生成模块,用于根据文本划分结果训练得到分类器;
树状结构控制模块,用于递归地进行聚类、划分以及节点生成;
朴素贝叶斯预分类模块,用于将待分类模块归于某一初始类别;
分类树预测模块,用于进行文本分类任务。
5.一种基于条件分类树的法律判决文书多分类终端,其特征在于:包括处理器和存储器,所述处理器包括权利要求4所述的分类装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010595021.8A CN111723208B (zh) | 2020-06-28 | 2020-06-28 | 基于条件分类树的法律判决文书多分类方法、装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010595021.8A CN111723208B (zh) | 2020-06-28 | 2020-06-28 | 基于条件分类树的法律判决文书多分类方法、装置和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723208A CN111723208A (zh) | 2020-09-29 |
CN111723208B true CN111723208B (zh) | 2023-04-18 |
Family
ID=72569179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010595021.8A Active CN111723208B (zh) | 2020-06-28 | 2020-06-28 | 基于条件分类树的法律判决文书多分类方法、装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723208B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254655B (zh) * | 2021-07-05 | 2021-09-17 | 北京邮电大学 | 文本分类方法、电子设备及计算机存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182058B1 (en) * | 1997-02-28 | 2001-01-30 | Silicon Graphics, Inc. | Bayes rule based and decision tree hybrid classifier |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN103955703A (zh) * | 2014-04-25 | 2014-07-30 | 杭州电子科技大学 | 一种基于朴素贝叶斯的医疗影像疾病分类方法 |
CN105760493A (zh) * | 2016-02-18 | 2016-07-13 | 国网江苏省电力公司电力科学研究院 | 一种电力营销服务热点95598工单自动分类方法 |
CN105956382A (zh) * | 2016-04-26 | 2016-09-21 | 北京工商大学 | 基于改进型cart决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法 |
CN106530108A (zh) * | 2016-12-15 | 2017-03-22 | 西南石油大学 | 一种基于因素表示的油气层损害智能识别方法与系统 |
CN106709824A (zh) * | 2016-12-15 | 2017-05-24 | 华南理工大学 | 一种基于网络文本语义分析的建筑评价方法 |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN109471942A (zh) * | 2018-11-07 | 2019-03-15 | 合肥工业大学 | 基于证据推理规则的中文评论情感分类方法及装置 |
CN109635254A (zh) * | 2018-12-03 | 2019-04-16 | 重庆大学 | 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7287015B2 (en) * | 2004-09-30 | 2007-10-23 | International Business Machines Corporation | Methods and apparatus for transmitting signals through network elements for classification |
US20110188715A1 (en) * | 2010-02-01 | 2011-08-04 | Microsoft Corporation | Automatic Identification of Image Features |
-
2020
- 2020-06-28 CN CN202010595021.8A patent/CN111723208B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182058B1 (en) * | 1997-02-28 | 2001-01-30 | Silicon Graphics, Inc. | Bayes rule based and decision tree hybrid classifier |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN103955703A (zh) * | 2014-04-25 | 2014-07-30 | 杭州电子科技大学 | 一种基于朴素贝叶斯的医疗影像疾病分类方法 |
CN105760493A (zh) * | 2016-02-18 | 2016-07-13 | 国网江苏省电力公司电力科学研究院 | 一种电力营销服务热点95598工单自动分类方法 |
CN105956382A (zh) * | 2016-04-26 | 2016-09-21 | 北京工商大学 | 基于改进型cart决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法 |
CN106530108A (zh) * | 2016-12-15 | 2017-03-22 | 西南石油大学 | 一种基于因素表示的油气层损害智能识别方法与系统 |
CN106709824A (zh) * | 2016-12-15 | 2017-05-24 | 华南理工大学 | 一种基于网络文本语义分析的建筑评价方法 |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN109471942A (zh) * | 2018-11-07 | 2019-03-15 | 合肥工业大学 | 基于证据推理规则的中文评论情感分类方法及装置 |
CN109635254A (zh) * | 2018-12-03 | 2019-04-16 | 重庆大学 | 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法 |
Non-Patent Citations (3)
Title |
---|
Huan Yang等.Interpretable legal judgment prediction based on improved conditional classification tree.《Developments of Artificial Intelligence Technologies in Computation and Robotics: Proceedings of the 14th International FLINS Conference (FLINS 2020)》.2020,第12卷第336-343页. * |
Mehdi Allahyari等.A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques.《https://arxiv.org/abs/1707.02919》.2017,第1-13页. * |
包立伟.面向信息检索的文本自动分类技术研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2013,(第6期),第I138-1590页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111723208A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ibrahim et al. | Cluster representation of the structural description of images for effective classification | |
Karthikeyan et al. | Probability based document clustering and image clustering using content-based image retrieval | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
Gabryel | The Bag-of-Words Method with Different Types of Image Features and Dictionary Analysis. | |
Ihou et al. | A new latent generalized dirichlet allocation model for image classification | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
Tian et al. | MCA-NN: Multiple correspondence analysis based neural network for disaster information detection | |
Yang et al. | Three-way multi-granularity learning towards open topic classification | |
Wang et al. | Learning to group and label fine-grained shape components | |
CN111723208B (zh) | 基于条件分类树的法律判决文书多分类方法、装置和终端 | |
Abdollahpour et al. | Image classification using ontology based improved visual words | |
Singh et al. | A deep learning approach for human face sentiment classification | |
Prieto et al. | Open set classification of untranscribed handwritten text image documents | |
Barveen et al. | Meme Expressive Classification in Multimodal State with Feature Extraction in Deep Learning | |
Shah et al. | A review on supervised machine learning text categorization approaches | |
Ashraf et al. | Adaptive Feature Selection and Hyper-spectral Image Classification using Manifold Learning Techniques | |
Marin-Castro et al. | Automatic image annotation using a semi-supervised ensemble of classifiers | |
Saad et al. | Efficient content based image retrieval using SVM and color histogram | |
US11537647B2 (en) | System and method for decision driven hybrid text clustering | |
Zhang et al. | Multifeature analysis and semantic context learning for image classification | |
AU2021107101A4 (en) | A machine learning based system for classification using deviation parameters | |
Diou et al. | Vitalas at trecvid-2008 | |
CN114036946B (zh) | 一种文本特征提取及辅助检索的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |