CN110765266A - 一种裁判文书相似争议焦点合并方法及系统 - Google Patents
一种裁判文书相似争议焦点合并方法及系统 Download PDFInfo
- Publication number
- CN110765266A CN110765266A CN201910893064.1A CN201910893064A CN110765266A CN 110765266 A CN110765266 A CN 110765266A CN 201910893064 A CN201910893064 A CN 201910893064A CN 110765266 A CN110765266 A CN 110765266A
- Authority
- CN
- China
- Prior art keywords
- dispute
- dispute focus
- clustering
- focus
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 230000014509 gene expression Effects 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000005054 agglomeration Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 2
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 claims description 2
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 claims description 2
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种裁判文书相似争议焦点合并方法及系统,所述方法包括:解析裁判文书结构;获得待处理争议焦点;分类争议焦点;分类待处理争议焦点并存储;对待处理的争议焦点进行分词;提取争议焦点的文本特征,将分词后的争议焦点文本转化成有语义信息的文本特征向量;对得到的文本特征向量进行聚类;基于聚类结果,获得待处理争议焦点的合并结果;本方法及系统以满足司法审判实务为落脚点,通过合并相似或相同争议焦点建立案件之间的关联,实现争议焦点维度的相似案例检索或推荐。
Description
技术领域
本发明涉及文本智能处理领域,具体地,涉及一种裁判文书相似争议焦点合并方法及系统。
背景技术
在民事、行政案件中,法官总结案件各方当事人核心分歧点形成案件争议焦点。由于法律规范的稳定性、社会生活的重复性等,不同地区、不同时间发生的案件,其争议焦点可能相似甚至完全相同,历史案件的争议焦点处理对后续案件的相似或相同争议焦点具有重要参考价值。现有技术中缺少相应的方法来实现案件相似争议焦点的合并。
发明内容
本发明以满足司法审判实务为落脚点,旨在通过合并相似或相同争议焦点建立案件之间的关联,实现争议焦点维度的相似案例检索或推荐。对于在办案件中某一个或几个疑难点,本发明提供了一种检索相似争议焦点的技术路径,快速精准地帮助使用者找到有相似争议焦点的在先案件,提供裁判思路、论证方法的参考。
为实现上述发明目的,本发明一方面提供了一种裁判文书相似争议焦点合并方法,所述方法包括:
步骤1:解析裁判文书的结构,选取解析后的裁判文书中的诉讼参与人信息段落、法院认定事实段落、法院说理段落在后续步骤中使用;
步骤2:利用第一正则表达式提取待处理的裁判文书法院认定事实段落和法院说理段落的争议焦点;
步骤3:利用第二正则表达式提取待处理的裁判文书诉讼参与人信息段落的诉讼当事人及第三人的姓名或名称信息;
步骤4:用步骤3提取的信息替换步骤2提取的争议焦点的诉讼当事人及第三人的姓名或名称信息,得到待处理争议焦点;
步骤5:将争议焦点分为四类,总结第一至第三类争议焦点的正则表达式,获得第三正则表达式;
步骤6:利用第三正则表达式分类步骤4得到的待处理争议焦点,如果待处理争议焦点与第三正则表达式匹配成功,则待处理争议焦点为第一至第三类争议焦点中的一类;否则,待处理争议焦点为第四类争议焦点,存储分类后的争议焦点;
步骤7:对步骤6中存储的争议焦点进行分词;
步骤8:提取争议焦点的文本特征,将分词后的争议焦点文本转化成有语义信息的文本特征向量;
步骤9:对聚类步骤8得到的文本特征向量进行聚类;
步骤10:基于聚类结果,获得待处理争议焦点的合并结果。
优选的,裁判文书法院认定事实段落和法院说理段落匹配第一正则表达式,若匹配成功,则截取符合第一正则表达式的上下文作为争议焦点。
优选的,所述步骤7具体包括:总结裁判文书的停用词表;基于停用词表对步骤6存储的争议焦点做去除停用词处理,对去除停用词后的争议焦点进行分词。
优选的,步骤8采用的争议焦点文本特征提取方法为以下方式之一:采用词袋模型提取特征、采用TF-IDF提取特征、采用LSA提取特征、采用Word2Vec提取特征和采用Doc2Vec提取特征。
优选的,对聚类步骤8得到的文本特征向量进行聚类,具体包括:
步骤A:分别采用K-Means聚类法和凝聚式层次聚类法对聚类步骤8得到的文本特征向量进行聚类;
步骤B:使用V-measure准则比较两种聚类方法的结果,选择较优的一种作为最终的聚类结果,具体包括:
步骤(1):基于标注数据集计算均一性p,即计算每个聚类簇中正确聚类的样本数占该聚类簇中的样本数的比例。如果一个聚类簇只包含一类样本,则满足均一性。计算公式为其中k表示总的聚类数,Ci表示标注的真实结果,Ki表示根据聚类算法得到的聚类结果。
步骤(2):基于标注数据集计算完整性r,即计算每个聚类中正确分类的样本数占该类别样本总数的比例。如果将同类别的样本归类到同一聚类簇,则满足完整性。计算公式为其中k表示总的聚类数,Ci表示标注的真实结果,Ki表示根据聚类算法得到的聚类结果。
优选的,使用K-Means聚类法对聚类步骤8得到的文本特征向量进行聚类,具体包括:
步骤a:首先设置K值,K表示将第四类争议焦点分为K个簇;
步骤b:从步骤8得到的文本特征向量中随机选择K个作为初始化的聚类中心,即质心;
步骤c:逐个计算所有的文本特征向量与K个质心的欧式距离,将文本特征向量分到欧式距离最近的质心所在的簇;
步骤d:计算K个簇中文本特征向量的均值作为K个簇的新质心,并计算每个簇中所有文本特征向量到质心距离的平方和RSS;
步骤e:循环步骤c和步骤d,直到聚类结果不再发生变化,得到最终的聚类结果,计算得到最终的RSS;
步骤f:对每一个指定的K,完成步骤a-e,都能够得到一个聚类结果和最终的RSS,画出RSS-K的折线图,随着K增大RSS逐渐减小,寻找折线图的拐点,拐点处对应的K值为最终选定的聚类数,保留拐点的聚类结果。
优选的,使用凝聚式层次聚类法对聚类步骤8得到的文本特征向量进行聚类,具体包括:
步骤Ⅰ:将每条争议焦点对应的文本特征向量看作一个簇;
步骤Ⅱ:使用ward距离计算簇间距离;
步骤Ⅲ:将簇间距离最小的两个簇合并为一个簇;
步骤Ⅳ:重复步骤Ⅱ和步骤Ⅲ,直到所有争议焦点合并为一个簇;
步骤Ⅴ:利用目标函数确定簇数K的值,其中λ代表每增加一个簇时的惩罚量,目标函数包含失真率和复杂度两个要素,选取每个簇中所有文本特征向量到质心距离的平方和RSS衡量失真率,选取簇的数目K衡量模型复杂度。
步骤VI:画出K-λ变化图,寻找K-λ变化图的拐点,选取拐点对应的K值作为最终聚类的簇数,保留拐点的聚类结果。
优选的,所述方法还包括步骤11:
推定提取到的争议焦点及其分类结果为审判实务中出现过的争议焦点及正确合并结果。对此推定做如下验证:抽取一定数量的不包含“争议焦点”及类似表述的裁判文书,判断这部分裁判文书中是否包含实质意义上的争议焦点,如有,则判断该实质意义上的争议焦点是否已经被涵盖在提取的争议焦点及分类中,若抽取文书中的争议焦点均被涵盖,则认为推定结果成立。
优选的,将争议焦点分为四类:第一类是重复案由争议焦点,第二类是程序性争议焦点,第三类是法律性争议焦点,第四类是事实类争议焦点。
另一方面,与本发明中的方法对应,本发明还提供了一种裁判文书相似争议焦点合并系统,所述系统包括:
解析单元,用于解析裁判文书的结构行,获得解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落;
争议焦点提取单元,用于利用第一正则表达式提取待处理的裁判文书法院认定事实段落和法院说理段落的争议焦点;
诉讼参与人提取单元,用于利用第二正则表达式提取待处理的裁判文书诉讼参与人信息段落的诉讼当事人及第三人的姓名或名称信息;
待处理争议焦点获得单元,用于用诉讼参与人提取单元提取的信息替换争议焦点提取单元提取的争议焦点的诉讼当事人及第三人的姓名或名称信息,得到待处理争议焦点;
第三正则表达式获得单元,用于将争议焦点分为四类,总结第一至第三类争议焦点的正则表达式,获得第三正则表达式;
待处理争议焦点分类单元,用于利用第三正则表达式分类待处理争议焦点,如果待处理争议焦点与第三正则表达式匹配成功,则待处理争议焦点为第一至第三类争议焦点中的一类;否则,待处理争议焦点为第四类争议焦点,存储分类后的争议焦点;
分词单元,用于对待处理争议焦点分类单元存储的争议焦点进行分词;
特征提取单元,用于提取争议焦点的文本特征,将分词后的争议焦点文本转化成有语义信息的文本特征向量;
聚类单元,用于对聚类特征提取单元得到的文本特征向量进行聚类;
输出单元,用于基于聚类结果,获得待处理争议焦点的合并结果。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明能够实现相似或相同争议焦点的合并,对使用者而言,检索到某一争议焦点即完成相似争议焦点的检索,辅之以案情事实、裁判时间等其他维度,实现争议焦点维度的相似案件的精准推荐或检索,为复杂疑难的在办案件提供重要参考,提升审判质效,有助于将有限的司法资源发挥出最大功效。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是本发明中一种裁判文书相似争议焦点合并方法的流程示意图;
图2是本发明中一种裁判文书相似争议焦点合并系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参考图1,本发明提出了一种裁判文书中争议焦点的合并方法,在结构化解析裁判文书的基础上,提取争议焦点、原被告信息,用“原告”、“被告”替换争议焦点的原被告姓名或名称信息,以减少噪声干扰;使用多种方法提取文本特征,将原始文本转换成含有语义信息的文本特征向量;使用多种无监督的机器学习方法对文本特征向量进行聚类,将相似的争议焦点聚为一类,实现争议焦点的合并。
步骤1:综合审理程序、文书类型、案件类型等多个维度,总结多样化的裁判文书结构化模板,实现裁判文书结构化解析,选取结构化解析后的裁判文书的“诉讼参与人信息”、“法院认定事实”、“法院说理”三个部分在后续步骤中使用。
步骤2:总结裁判文书争议焦点的范式,整理为提取争议焦点的正则表达式。提取待处理的裁判文书的争议焦点,主要方法为:在裁判文书的“法院认定事实”和“法院说理”段落匹配争议焦点正则表达式,如果匹配成功,则截取符合正则表达式的上下文作为争议焦点。
步骤3:利用正则方法抽取裁判文书“诉讼参与人信息”段落的诉讼当事人及第三人的姓名或名称信息。
步骤4:利用步骤3提取的信息替换步骤2中提取的争议焦点的诉讼当事人及第三人的姓名或名称信息,得到一般意义上的争议焦点,用于支撑争议焦点的合并。
步骤5:在不同的三级案由下将争议焦点分为四类:第一类是重复案由争议焦点,第二类是程序性争议焦点,第三类是法律性争议焦点,第四类是事实类争议焦点。总结前三类争议焦点的正则表达式。
步骤6:根据步骤5中的正则表达式,分类步骤4的争议焦点,如果匹配不成功,则推定属于第四类争议焦点。
步骤7:在不同的三级案由下,总结停用词表,便于后续使用。
步骤8:去掉步骤6保存的争议焦点的停用词,并对其进行分词。
步骤9:提取文本特征,将步骤8分词后的文本转化成有语义信息的文本特征向量。采用的特征提取方法有:词袋模型、TF-IDF、LSA、Word2Vec、Doc2Vec,根据最终结果选取效果最好的方法。
步骤10:使用K-Means聚类法对步骤9得到的文本特征向量进行聚类。具体方法是:
步骤10.1:首先设置K值,K表示将第四类争议焦点分为K个簇;
步骤10.2:从步骤9得到的有语义信息的文本特征向量中随机选择K个作为初始化的聚类中心,即质心;
步骤10.3:逐个计算所有的文本特征向量与K个质心的欧式距离,将文本特征向量分到欧式距离最近的质心所在的簇;
步骤10.4:计算K个簇中文本特征向量的均值作为这K个簇的新质心,并计算每个簇中所有文本特征向量到质心距离的平方和RSS;
步骤10.5:循环步骤10.3和步骤10.4,直到聚类结果不再发生变化,得到最终聚类结果,计算得到最终的RSS。
步骤10.6:对每一个指定的K,完成步骤10.1-10.5,都能够得到一个聚类结果和最终的RSS,画出RSS-K的折线图,随着K增大RSS逐渐减小,寻找折线图的拐点,即经过拐点之后RSS的减小变得平缓,拐点对应的K值为最终选定的聚类数,保留拐点的聚类结果。
步骤11:使用凝聚式层次聚类法对步骤9得到的文本特征向量进行聚类,具体方法是:
步骤11.1:将每条争议焦点对应的文本特征向量看作一个簇;
步骤11.2:使用ward距离计算簇间距离;
步骤11.3:将簇间距离最小的两个簇合并为一个簇;
步骤11.4:重复步骤11.2和步骤11.3,直到所有争议焦点合并为一个簇;
步骤11.5:利用目标函数确定簇数K的值,其中λ代表每增加一个簇时的惩罚量,目标函数包含失真率和复杂度两个要素,选取每个簇中所有文本特征向量到质心距离的平方和RSS衡量失真率,选取簇的数目K衡量模型复杂度。
步骤11.6:画出K-λ变化图,寻找变化图的拐点,即经过拐点之后K的减小变得平缓,选取拐点对应的K值作为最终聚类的簇数,保留拐点的聚类结果。
步骤12:比较步骤10和步骤11的聚类结果,选择较好的一种作为最终聚类结果。
步骤13:推定提取到的争议焦点及其分类结果为审判实务中出现过的争议焦点及正确合并结果。对推定做如下验证:随机抽取约500份不包含形式意义上“争议焦点”的历史判决书,人工判断其是否包含实质意义上的争议焦点,如有,则判断其是否已经在归类的争议焦点,若抽取的判决书的争议焦点均被覆盖,则认为推定结果成立。通过本步骤,验证形式意义上争议焦点是否涵盖实务中所有类型的争议焦点。请参考图2,本发明实施例提供了一种裁判文书相似争议焦点合并系统,所述系统包括:
解析单元,用于结构化解析裁判文书,选取结构化解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落三个部分;
争议焦点提取单元,用于利用第一正则表达式提取待处理的裁判文书法院认定事实段落和法院说理段落的争议焦点;
诉讼参与人提取单元,用于利用第二正则表达式提取待处理的裁判文书诉讼参与人信息段落的诉讼当事人及第三人的姓名或名称信息;
待处理争议焦点获得单元,用于用诉讼参与人提取单元提取的信息替换争议焦点提取单元提取的争议焦点的诉讼当事人及第三人的姓名或名称信息,得到待处理争议焦点;
第三正则表达式获得单元,用于将争议焦点分为四类,总结第一至第三类争议焦点的正则表达式,获得第三正则表达式;
待处理争议焦点分类单元,用于利用第三正则表达式分类待处理争议焦点,如果待处理争议焦点与第三正则表达式匹配成功,则待处理争议焦点为第一至第三类争议焦点中的一类;否则,待处理争议焦点为第四类争议焦点,存储分类后的争议焦点;
分词单元,用于对待处理争议焦点分类单元存储的争议焦点进行分词;
特征提取单元,用于提取争议焦点的文本特征,将分词后的争议焦点文本转化成有语义信息的文本特征向量;
聚类单元,用于对特征提取单元得到的文本特征向量进行聚类;
输出单元,用于基于聚类结果,获得待处理争议焦点的合并结果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种裁判文书相似争议焦点合并方法,其特征在于,所述方法包括:
步骤1:解析裁判文书的结构,获得解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落;
步骤2:利用第一正则表达式提取待处理的裁判文书中法院认定事实段落和法院说理段落的争议焦点;
步骤3:利用第二正则表达式提取待处理的裁判文书诉讼参与人信息段落的诉讼当事人及第三人的姓名或名称信息;
步骤4:用步骤3提取的信息替换步骤2提取的争议焦点的诉讼当事人及第三人的姓名或名称信息,得到待处理争议焦点;
步骤5:将争议焦点分为四类,总结第一至第三类争议焦点的正则表达式,获得第三正则表达式;
步骤6:利用第三正则表达式分类步骤4得到的待处理争议焦点,如果待处理争议焦点与第三正则表达式匹配成功时,则待处理争议焦点为第一至第三类争议焦点中的一类;否则,待处理争议焦点为第四类,存储分类后的争议焦点;
步骤7:对步骤6存储的争议焦点进行分词;
步骤8:提取争议焦点的文本特征,将分词后的争议焦点文本转化成有语义信息的文本特征向量;
步骤9:对步骤8得到的文本特征向量进行聚类;
步骤10:基于聚类结果,获得待处理争议焦点的合并结果。
2.根据权利要求1所述的一种裁判文书相似争议焦点合并方法,其特征在于,裁判文书法院认定事实段落和法院说理段落匹配第一正则表达式,如果匹配成功则截取符合第一正则表达式的上下文作为争议焦点。
3.根据权利要求1所述的一种裁判文书相似争议焦点合并方法,其特征在于,所述步骤7具体包括:总结裁判文书的停用词表;基于停用词表,对步骤6存储的争议焦点做去除停用词处理,对去除停用词后的争议焦点进行分词。
4.根据权利要求1所述的一种裁判文书相似争议焦点合并方法,其特征在于,步骤8采用的争议焦点文本特征提取方法为以下方式之一:采用词袋模型提取特征、采用TF-IDF提取特征、采用LSA提取特征、采用Word2Vec提取特征和采用Doc2Vec提取特征。
5.根据权利要求1所述的一种裁判文书相似争议焦点合并方法,其特征在于,对步骤8得到的文本特征向量进行聚类,具体包括:
步骤A:分别采用K-Means聚类法和凝聚式层次聚类法对步骤8得到的文本特征向量进行聚类;
步骤B:使用V-measure准则比较两种聚类方法的结果,选择较优的一种作为最终的聚类结果,具体包括:
步骤(1):基于标注数据集计算均一性p,即计算每个聚类簇中正确聚类的样本数占该聚类簇中的样本数的比例;如果一个聚类簇只包含一类样本,则满足均一性;计算公式为其中k表示总的聚类数,Ci表示标注的真实结果,Ki表示根据聚类算法得到的聚类结果;
步骤(2):基于标注数据集计算完整性r,即计算每个聚类中正确分类的样本数占该类别样本总数的比例;如果将同类别的样本归类到同一聚类簇,则满足完整性;计算公式为其中k表示总的聚类数,Ci表示标注的真实结果,Ki表示根据聚类算法得到的聚类结果;
6.根据权利要求5所述的一种裁判文书相似争议焦点合并方法,其特征在于,使用K-Means聚类法对步骤8得到的文本特征向量进行聚类,具体包括:
步骤a:首先设置K值,K表示将第四类争议焦点分为K个簇;
步骤b:从步骤8得到的文本特征向量中随机选择K个文本特征向量作为初始化的聚类中心,即质心;
步骤c:逐个计算所有的文本特征向量与K个质心的欧式距离,将文本特征向量分到欧式距离最近的质心所在的簇;
步骤d:计算K个簇中文本特征向量的均值作为K个簇的新质心,并计算每个簇中所有文本特征向量到质心距离的平方和RSS;
步骤e:循环步骤c和步骤d,直到聚类结果不再发生变化,得到最终聚类结果,计算得到最终的RSS;
步骤f:对每一个指定的K,完成步骤a-e,都能够得到一个聚类结果和最终的RSS,画出RSS-K的折线图,随着K增大RSS逐渐减小,寻找折线图的拐点,拐点对应的K值为最终选定的聚类数,保留拐点的聚类结果。
7.根据权利要求5所述的一种裁判文书相似争议焦点合并方法,其特征在于,使用凝聚式层次聚类法对步骤8得到的文本特征向量进行聚类,具体包括:
步骤Ⅰ:将每条争议焦点对应的文本特征向量看作一个簇;
步骤Ⅱ:使用ward距离计算簇间距离;
步骤Ⅲ:将簇间距离最小的两个簇合并为一个簇;
步骤Ⅳ:重复步骤Ⅱ和步骤Ⅲ,直到所有争议焦点合并为一个簇;
步骤Ⅴ:利用目标函数确定簇数K的值,其中λ代表每增加一个簇时的惩罚量;目标函数包含失真率和复杂度两个因素,选取每个簇中所有文本特征向量到质心距离的平方和RSS衡量失真率,选取簇的数目K衡量模型复杂度;
步骤VI:画出K-λ变化图,在K-λ变化图中寻找拐点,选取拐点对应的K值作为最终的聚类簇数,保留拐点的聚类结果。
8.根据权利要求1所述的一种裁判文书相似争议焦点合并方法,其特征在于,所述方法还包括步骤11:
推定提取到的争议焦点及其分类结果为审判实务中出现过的争议焦点及正确合并结果;对此推定做如下验证:抽取一定数量的不包含争议焦点及类似表述的裁判文书,判断这部分裁判文书中是否包含实质意义上的争议焦点,如有,则判断该争议焦点是否已经涵盖在提取的争议焦点及分类中,若抽取文书中的争议焦点均被覆盖,则认为推定结果成立。
9.根据权利要求1所述的一种裁判文书相似争议焦点合并方法,其特征在于,将争议焦点分为四类:第一类是重复案由争议焦点,第二类是程序性争议焦点,第三类是法律性争议焦点,第四类是事实类争议焦点。
10.一种裁判文书相似争议焦点合并系统,其特征在于,所述系统包括:
解析单元,用于解析裁判文书的结构,获得解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落;
争议焦点提取单元,用于利用第一正则表达式提取待处理的裁判文书法院认定事实段落和法院说理段落的争议焦点;
诉讼参与人提取单元,用于利用第二正则表达式提取待处理的裁判文书诉讼参与人信息段落的诉讼当事人及第三人的姓名或名称信息;
待处理争议焦点获得单元,用于用诉讼参与人提取单元提取的信息替换争议焦点提取单元提取的争议焦点的诉讼当事人及第三人的姓名或名称,得到待处理争议焦点;
第三正则表达式获得单元,用于将争议焦点分为四类,总结第一至第三类争议焦点的正则表达式,获得第三正则表达式;
待处理争议焦点分类单元,用于利用第三正则表达式分类待处理争议焦点,如果待处理争议焦点与第三正则表达式匹配成功,则待处理争议焦点为第一至第三类争议焦点中的一类;否则,待处理争议焦点为第四类争议焦点,存储分类后的争议焦点;
分词单元,用于对待处理争议焦点分类单元存储的争议焦点进行分词;
特征提取单元,用于提取争议焦点的文本特征,将分词后的争议焦点文本转化成有语义信息的文本特征向量;
聚类单元,用于对特征提取单元得到的文本特征向量进行聚类;
输出单元,用于基于聚类结果,获得待处理争议焦点的合并结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893064.1A CN110765266B (zh) | 2019-09-20 | 2019-09-20 | 一种裁判文书相似争议焦点合并方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893064.1A CN110765266B (zh) | 2019-09-20 | 2019-09-20 | 一种裁判文书相似争议焦点合并方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765266A true CN110765266A (zh) | 2020-02-07 |
CN110765266B CN110765266B (zh) | 2022-07-22 |
Family
ID=69330714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910893064.1A Active CN110765266B (zh) | 2019-09-20 | 2019-09-20 | 一种裁判文书相似争议焦点合并方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765266B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737420A (zh) * | 2020-08-07 | 2020-10-02 | 四川大学 | 一种基于争议焦点的类案检索方法及系统及装置及介质 |
CN111753538A (zh) * | 2020-06-12 | 2020-10-09 | 鼎富智能科技有限公司 | 离婚纠纷裁判文书要素提取方法及装置 |
CN111814477A (zh) * | 2020-07-06 | 2020-10-23 | 重庆邮电大学 | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 |
CN113468323A (zh) * | 2021-06-01 | 2021-10-01 | 成都数之联科技有限公司 | 争议焦点类别及相似判断方法及系统及装置及推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108280149A (zh) * | 2018-01-04 | 2018-07-13 | 东南大学 | 一种基于多维度分类标签的医患纠纷类案件推荐方法 |
CN109359175A (zh) * | 2018-09-07 | 2019-02-19 | 平安科技(深圳)有限公司 | 电子装置、诉讼数据处理的方法及存储介质 |
CN109460468A (zh) * | 2018-10-23 | 2019-03-12 | 出门问问信息科技有限公司 | 法律相关文本的归类方法、归类装置及相应的电子设备 |
CN109992664A (zh) * | 2019-03-12 | 2019-07-09 | 平安科技(深圳)有限公司 | 争议焦点的标注分类方法、装置、计算机设备和存储介质 |
-
2019
- 2019-09-20 CN CN201910893064.1A patent/CN110765266B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108280149A (zh) * | 2018-01-04 | 2018-07-13 | 东南大学 | 一种基于多维度分类标签的医患纠纷类案件推荐方法 |
CN109359175A (zh) * | 2018-09-07 | 2019-02-19 | 平安科技(深圳)有限公司 | 电子装置、诉讼数据处理的方法及存储介质 |
CN109460468A (zh) * | 2018-10-23 | 2019-03-12 | 出门问问信息科技有限公司 | 法律相关文本的归类方法、归类装置及相应的电子设备 |
CN109992664A (zh) * | 2019-03-12 | 2019-07-09 | 平安科技(深圳)有限公司 | 争议焦点的标注分类方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
于涛: "《基于索引行聚类的英语动词型式自动识别与提取研究》", 《中国优秀博硕士学位论文全文数据库(博士) 哲学与人文科学辑》 * |
白尔摩斯: "《https://www.jianshu.com/p/1049db259d38》", 9 December 2018 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753538A (zh) * | 2020-06-12 | 2020-10-09 | 鼎富智能科技有限公司 | 离婚纠纷裁判文书要素提取方法及装置 |
CN111814477A (zh) * | 2020-07-06 | 2020-10-23 | 重庆邮电大学 | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 |
CN111814477B (zh) * | 2020-07-06 | 2022-06-21 | 重庆邮电大学 | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 |
CN111737420A (zh) * | 2020-08-07 | 2020-10-02 | 四川大学 | 一种基于争议焦点的类案检索方法及系统及装置及介质 |
CN113468323A (zh) * | 2021-06-01 | 2021-10-01 | 成都数之联科技有限公司 | 争议焦点类别及相似判断方法及系统及装置及推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110765266B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765266B (zh) | 一种裁判文书相似争议焦点合并方法及系统 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
CN105787025A (zh) | 网络平台公共账号分类方法及装置 | |
CN112199501A (zh) | 一种科技信息文本分类方法 | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
TWI254880B (en) | Method for classifying electronic document analysis | |
CN109446520B (zh) | 用于构建知识库的数据聚类方法及装置 | |
CN108470035B (zh) | 一种基于判别混合模型的实体-引文相关性分类方法 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN116881463A (zh) | 基于数据的艺术多模态语料库构建系统 | |
CN111368131A (zh) | 用户关系识别方法、装置、电子设备及存储介质 | |
CN116881451A (zh) | 基于机器学习的文本分类方法 | |
CN110750712A (zh) | 基于数据驱动的软件安全需求推荐方法 | |
CN114943285B (zh) | 互联网新闻内容数据智能审核系统 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN102789466A (zh) | 一种提问标题质量判定方法、提问引导方法及其装置 | |
CN112668284B (zh) | 一种法律文书分段方法及系统 | |
CN108733824B (zh) | 考虑专家知识的交互式主题建模方法及装置 | |
CN112632229A (zh) | 文本聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |