CN111400445A - 一种基于相似文本的案件繁简分流方法 - Google Patents
一种基于相似文本的案件繁简分流方法 Download PDFInfo
- Publication number
- CN111400445A CN111400445A CN202010160701.7A CN202010160701A CN111400445A CN 111400445 A CN111400445 A CN 111400445A CN 202010160701 A CN202010160701 A CN 202010160701A CN 111400445 A CN111400445 A CN 111400445A
- Authority
- CN
- China
- Prior art keywords
- case
- text
- cases
- sample
- shunted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于相似文本的案件繁简分流方法,包括如下步骤:1)建立数据库,并在数据库中储存样本案件的文本信息;2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行分流。本发明提供的基于相似文本的案件繁简分流方法,解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点,可以广泛应用于案件分流领域。
Description
技术领域
本发明涉及数据处理分流领域,具体涉及一种基于相似文本的案件繁简分流方法。
背景技术
随着我国经济社会的快速发展,同时受人口基数的影响,全国各级法院面临的审判工作压力越来越严重,“案多人少”的矛盾将持续加剧。通常,一个案件应当由三位法官组成合议庭进行审理,根据三位法官各自的意见,按照少数服从多数的原则决定最终的判决结果,以此来保证判决结果的正确性。为了缓解“案多人少”的现实状况,尽可能保证所有案件都能得到及时的处理,我国法律规定了由一位法官独自审理的案件审理程序,即“简易程序”。这是一种效率至上、兼顾公平的方法,它的逻辑是,如果一个案件的事实清楚简单,那么没有必要投入三位法官进行审理,因为这三位法官的意见极有可能完全一致,没有差别。简易程序的出现有效缓解了“案多人少”的矛盾,但对于什么样的案件应当使用简易程序、什么样的案件应当使用普通程序,以及如何从大量的新收案件中区分这两类案件,目前都存在问题和困难。
通常将应当使用简易程序的案件称为“简案”,应当使用普通程序的案件称为“繁案”,因此,“繁案”不一定是案情复杂、重大的案件,它只是作为“简案”的对称,也包括一些案情比较普通、但达不到使用简易程序的标准的案件。
案件繁简分流目前存在一些问题和困难。传统的案件繁简分流方法采用人工识别的方式,由立案庭法官根据经验推断,很难保证科学性。其次,案件的繁简本质上不是两个类别,而是一个尺度。也就是说,繁简应当是一个程度,需要以科学的方式进行量化,而不是直接贴上繁、简的标签。如何对案件的繁简程度进行量化,目前没有合理的方法。最后,现实中需要繁简分流的案件越来越多,繁简分流的最终目的是减轻法官的工作负担,但是如果把繁简分流也交给法官来做,那么繁简分流本身也将成为一项工作负担,再实行繁简分流则毫无意义。这些问题和困难制约着繁简分流的现实落地。
发明内容
针对上述问题,本发明的目的是提供一种基于相似文本的案件繁简分流方法,旨在解决案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点。
为实现上述目的,本发明采取以下技术方案:一种基于相似文本的案件繁简分流方法,其包括以下步骤:1)建立数据库,并在数据库中储存样本案件的文本信息;2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行繁简分流。
进一步的,所述步骤2)中,获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值的方法,包括以下步骤:2.1)获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度;2.2)设定相似度阈值,若待分流案件与该样本案件的文本相似度不小于相似度阈值,则认为该样本案件为待分流案件的相似文本案件;2.3)重复步骤2.1)~2.2),判断数据库中所有样本案件是否为待分流案件的相似文本案件,得到所有样本案件中的相似文本案件的数量;2.4)计算相似文本案件在所有样本案件中所占的比例,作为待分流案件的相似度比例值。
进一步的,所述步骤2.1)中,获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度的方法,包括以下步骤:2.1.1)建立文本相似度计算模型,所述文本相似度计算模型包括嵌入层、长短期记忆神经网络层、卷积神经网络层、额外特征层和输出层;2.1.2)将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间,得到待分流案件和样本案件的文本特征矩阵,并输出到长短期记忆神经网络层和卷积神经网络层;2.1.3)在长短期记忆神经网络层中分别提取待分流案件与样本案件的第一文本特征信息,同时在卷积神经网络层中分别提取待分流案件与样本案件的第二文本特征信息,将长短期记忆神经网络层与卷积神经网络层中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层;2.1.4)在额外特征层中,分别根据待分流案件和样本文件的第一文本特征信息和第二文本特征信息得到二者的总的文本特征信息,根据二者的总的文本特征信息,计算得到待分流案件和样本文件的法律重叠词分数和法律要素对比向量;2.1.5)在输出层中,综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量,以计算待分流案件与样本案件的文本相似度。
进一步的,所述步骤2.1.2)中,将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间,得到待分流案件和样本案件的文本特征矩阵的方法,包括以下步骤:首先,去掉待分流案件和样本案件中对后续处理可能造成干扰的字符;其次,根据预设的文本向量维度阈值,对去除干扰后的待分流案件和样本案件进行处理,使得待分流案件和样本案件的向量维度统一;最后,使用Google中的Word2vec模型和相应的参数,将待分流案件和样本案件映射成数值矩阵,作为待分流案件和样本案件的文本特征矩阵。
进一步的,所述步骤2.1.4)中,获取待分流案件和样本文件的总的特征向量信息、法律重叠词分数和法律要素对比向量的方法为:首先,将长短期记忆神经网络层与卷积神经网络层的输出结果拼接到一起,得到待分流案件和样本文件的总的特征向量,即文本特征信息;然后,基于待分流案件和样本文件的文本特征信息,利用法律语言库,得到二者的法律重叠词分数;最后,根据法律文本的描述,按照法律上的规则提取相应的事实要素,比较待分流案件和样本文件描述的事实要素是否相同,形成一个0-1向量,作为法律要素对比向量。
进一步的,所述基于待分流案件和样本文件的文本特征信息,利用法律语言库,得到二者的法律重叠词分数的方法,包括以下步骤:首先,根据待分流案件与样本案件的文本特征信息,获得二者的文本特征信息中的重叠词;其次,根据法律语言库,去除重叠词中不在法律语言库中的部分,得到的法律重叠词;最后,计算法律重叠词占二者的文本特征信息中的总词数的比例,该比例即为法律重叠词分数。
进一步的,所述步骤2.2)中,所述相似度阈值为0.5。
进一步的,所述步骤3)中,根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行分流的方法为:设定相似度比例阈值,若所有样本案件中的相似文本案件所占的比例不小于相似度比例阈值,则将待分流案件分为简案,否则将待分流案件分为繁案。
进一步的,所述步骤3)中,所述相似度比例阈值为0.08。
本发明由于采取以上技术方案,其具有以下优点:1、本发明提供的基于相似文本的案件繁简分流方法,解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点,为利用信息技术解决案多人少的社会问题提供了解决方案。通过该方法分流得到的简案,能够保证其案件情况与较多的现有案件类似,从而方便于法官单人进行审理,而不易出现错判的情况;有利于在减轻法官负担的情况下尽可能地维持判决公平。2、本发明建立的文本相似度计算模型中,通过在额外特征层设置法律语言库,计算得到待分流案件和样本案件的法律重叠词分数以及法律要素比对向量,模拟了法官在判断相似案件时的思维过程,贴近了司法实务,保证了对于法律案件进行繁简分流的准确性。3、本发明中相似度阈值和相似度比例阈值均可以根据实际需要进行设置,便于根据实际法院的工作负担状况进行调整,更具有灵活性。因此,本发明可以广泛应用于法律案件的分流中。
附图说明
图1为本发明提供的基于相似文本的案件繁简分流方法的流程图;
图2为本发明实施例提供的文本相似度计算模型的示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
通过对现有案件中的繁案与简案的分流情况进行分析可发现,繁案之间的案件事实差别很大,而简案之间的案件事实往往十分类似,会大量、反复地在现实中发生。比如,对于所有的盗窃罪案件而言,几乎所有的简案事实都是盗窃钱包、手机等物品,而繁案的事实则更具戏剧性、多样性,比如盗窃电缆、医疗设备等等,彼此之间的案件事实差别很大。由此,能够得出如下结论,也即上述方法能够实现案件繁简分流的原理:简案必为大量、重复发生的案件,因此简案与简案之间的文本相似度通常较高;而繁案与繁案之间,繁案与简案之间的文本相似度通常较低。本发明正是在此基础上,通过文本相似度来对案件繁简进行分流。
参照图1,为本发明提供的基于相似文本的案件繁简分流方法的流程图,该方法包括以下步骤;
1)建立数据库,并在数据库中储存大量样本案件的文本信息;
2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;
3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行繁简分流。
优选地,上述步骤1)中,在计算机中建立数据库后,在数据库中储存大量样本案件的文本信息时,文本信息为描述案件事实的文本,选择样本案件的原则为:样本案件以近期案件为宜,数量应足够多,如2万件以上,样本案件文本可从中国裁判文书网(http://wenshu.court.gov.cn/)获取,并去除其中重复、空白、混淆的文本。
优选地,上述步骤2)中,获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值的方法,包括以下步骤:
2.1)获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算得到待分流案件与该样本案件的文本相似度;
2.2)设定相似度阈值,若待分流案件与该样本案件的文本相似度不小于相似度阈值,则认为该样本案件为待分流案件的相似文本案件;
2.3)重复步骤2.1)~2.2),判断数据库中所有样本案件是否为待分流案件的相似文本案件,得到数据库中所有样本案件中的相似文本案件的数量;
2.4)计算相似文本案件在所有样本案件中所占的比例,作为待分流案件的相似度比例值。
优选地,上述步骤2.1)中,计算待分流案件与任一样本案件的文本相似度时,包括以下步骤:
2.1.1)建立文本相似度计算模型;
2.1.2)基于建立的文本相似度计算模型分别提取待分流案件与该样本案件的文本特征信息,并基于提取的文本特征信息,计算待分流案件与该样本案件的文本相似度。
优选地,文本相似度计算模型包括嵌入层1、长短期记忆神经网络层(LSTM层)2、卷积神经网络层(CNN层)3、额外特征层4和输出层5。
具体地,嵌入层1即Embedding层,负责对输入文本进行预处理,并提取输入文本的文本特征矩阵,文本预处理是将输入文本规范化的过程。具体的,包括以下步骤:首先,去掉输入文本中对后续处理可能造成干扰的字符,比如特殊的标点符号、不可见字符、乱码等;其次,根据预设的文本向量维度阈值,对去除干扰后的输入文本进行处理,使得输入文本的向量维度保持统一,同时避免维度过短或者过长,例如,分别设最大单词数量和最小单词数量分别为n和q,若输入文本的长度大于最大单词数据n,则将输入文本中超出最大数量n的部分直接舍去,若输入文本的长度小于最小单词数量q,则重复该输入文本到统一长度;最后,使用Google已有的Word2vec模型和相应的参数,将输入文本映射成数值矩阵,作为输入文本的文本特征矩阵输出到LSTM层2和CNN层3。
LSTM层2使用一个记忆单元存储信息,同时,利用三种门结构在训练过程中的比例关系,来实现长距离条件下的单词间依赖关系的记忆功能。本层直接引用已有的LSTM模型和对应参数,根据输入文本的文本特征矩阵,得到输入文本的特征向量,将其作为输入文本的第一文本特征信息,输出到额外特征层4。
CNN层3使用经典的三层结构,其输入为嵌入层1输出的文本特征矩阵,该文本特征矩阵的每一行代表一个单词向量,因此,卷积核在文本特征矩阵上以行为单位进行移动,每次处理一个单词向量。具体包括以下步骤:第一,定义一个卷积核,其步长设为S;第二,设定非线性激活函数,记为F,本发明中使用Sigmoid函数;第三,依次提取S个相邻单词的局部特征C,并将卷积核每次处理得到的局部特征C存入一个集合W;第四,依据1-max pooling的池化方式,从集合W中计算出最具代表性的特征C,作为输入文本的第二文本特征信息,并输出至额外特征层4。
额外特征层4中,是先将LSTM层2和CNN层3的输出结果拼接到一起,得到输入文本的总的特征向量(即文本特征信息);然后,利用法律语言库,在额外特征层4得到法律重叠词分数和法律要素比对向量。本实施例中,该法律语言库涉及民、刑、行政等多个部门法领域,共计1300多个词汇。
法律重叠词分数的计算方法为:根据待分流案件与样本案件的文本特征信息,获得二者的文本特征信息中的重叠词;根据法律语言库,去除重叠词中不在法律语言库中的部分,得到的法律重叠词;计算法律重叠词占二者的文本特征信息中的总词数的比例,将该比例称为法律重叠词分数。具体的,定义关于待分流案件的一个集合A,集合A中的元素为待分流案件文本里包含的全部法律专用词。同样的,定义关于样本案件文本的集合B。那么,法律重叠词分数为A∩B/(|A|+|B|),其中|A|为集合A内的元素个数。
法律要素比对向量,是指根据法律文本的描述,按照法律上的规则提取相应的事实要素,比较两个输入文本描述的事实要素是否相同,形成一个0-1向量。该向量的形成过程模拟了法官在判断相似案件时的思维过程,贴近了司法实务,对判定法律文本的相似性具有重要的指导意义。
输出层5中,主要用于设计预测函数,以输出最终的相似度计算结果。预测函数的输入是一个拼接的向量,该向量把作为对比的两个文本的总的特征向量,法律重叠词分数K及法律要素比对向量P拼接到一起,并通过softmax分类器来预测最终的相似度结果。
优选地,上述步骤2.1.2)中,利用该文本相似度计算模型进行文本相似度计算时,具体包括如下步骤:
①将待分流案件与该样本案件的文本信息分别映射到嵌入层1的高维向量空间,对二者文本信息进行预处理,再提取二者的文本特征矩阵,将二者的文本特征矩阵同时输出到长短期记忆神经网络层2和卷积神经网络层3;
②在长短期记忆神经网络层2中分别提取待分流案件与样本案件的第一文本特征信息,同时在卷积神经网络层3中分别提取待分流案件与样本案件的第二文本特征信息,将长短期记忆神经网络层2与卷积神经网络层3中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层4;
③在额外特征层4中,将待分流案件的第一文本特征信息与第二文本特征信息拼接,并将样本案件的第一文本特征信息与第二文本特征信息拼接,分别得到待分流案件的文本特征信息与样本案件的文本特征信息;额外特征层4中储存有法律语言库,以在额外特征层中得到法律重叠词分数,并在额外特征层4中得到法律要素对比向量;
④在输出层5中,综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量,以计算待分流案件与样本案件的文本相似度。
优选地,步骤2.2)中,相似度阈值是以相似度为依据,划分案件事实相似和不相似的一个界限,这个界限应当有一个最佳值,其具体设定值与文本相似度的计算方法有关,且需要反复实验才能确定;在一个具体实施例中,相似度阈值设定为0.5。
优选地,步骤3)中,相似度比例阈值与相似度阈值的含义是完全不同的,也可以根据实际需要确定。相似度比例阈值是以相似文本案件所占的比例为依据,划分案件繁简类别的一个界限,例如,根据统计,近期使用了简易程序进行审理的案件占总案件的比例约为8%,储存了大量样本案件的数据库中的简案比例也约为8%,则相似度比例阈值优选设定为0.08,表示若待分流案件与数据库中至少8%的样本案件的文本相似度较高,则分为简案,否则分为繁案;另外,相似度比例阈值也可根据实际法院的工作负担状况进行调整,以将新案中合适比例的案件分为简案。
综上,本发明提供的基于相似文本的案件繁简分流方法,解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点,为利用信息技术解决案多人少的社会问题提供了解决方案。且在计算文本相似度时,结合了LSTM、CNN各自的特点,并引入了法律上的判断逻辑,使文本相似度的计算更加科学、准确,进而使得案件的繁简分流更加科学、准确。通过该方法分流得到的简案,能够保证其案件情况与较多的现有案件类似,从而方便于法官单人进行审理,而不易出现错判的情况;有利于在减轻法官负担的情况下尽可能地维持判决公平。
以上给出一种具体的实施方式,但本发明不局限于所描述的实施方式。本发明的基本思路在于上述方案,对本领域普通技术人员而言,根据本发明的教导,设计出各种变形的模型、公式、参数并不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行的变化、修改、替换和变形仍落入本发明的保护范围内。
Claims (9)
1.一种基于相似文本的案件繁简分流方法,其特征在于,包括以下步骤;
1)建立数据库,并在数据库中储存样本案件的文本信息;
2)获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值;
3)根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行繁简分流。
2.如权利要求1所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤2)中,获取待分流案件的文本信息,并与数据库中的各样本案件进行相似度分析,得到待分流案件的相似度比例值的方法,包括以下步骤:
2.1)获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度;
2.2)设定相似度阈值,若待分流案件与该样本案件的文本相似度不小于相似度阈值,则认为该样本案件为待分流案件的相似文本案件;
2.3)重复步骤2.1)~2.2),判断数据库中所有样本案件是否为待分流案件的相似文本案件,得到所有样本案件中的相似文本案件的数量;
2.4)计算相似文本案件在所有样本案件中所占的比例,作为待分流案件的相似度比例值。
3.如权利要求2所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤2.1)中,获取待分流案件的文本信息,并与数据库中的任一样本案件进行比较,计算待分流案件与该样本案件的文本相似度的方法,包括以下步骤:
2.1.1)建立文本相似度计算模型,所述文本相似度计算模型包括嵌入层、长短期记忆神经网络层、卷积神经网络层、额外特征层和输出层;
2.1.2)将待分流案件与该样本案件的文本信息分别映射到嵌入层,得到待分流案件和样本案件的文本特征矩阵,并输出到长短期记忆神经网络层和卷积神经网络层;
2.1.3)在长短期记忆神经网络层中分别提取待分流案件与样本案件的第一文本特征信息,同时在卷积神经网络层中分别提取待分流案件与样本案件的第二文本特征信息,并将长短期记忆神经网络层与卷积神经网络层中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层;
2.1.4)在额外特征层中,分别根据待分流案件和样本文件的第一文本特征信息和第二文本特征信息得到二者的总的文本特征信息,根据二者的总的文本特征信息,计算得到待分流案件和样本文件的法律重叠词分数和法律要素对比向量;
2.1.5)在输出层中,综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量,计算得到待分流案件与样本案件的文本相似度。
4.如权利要求3所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤2.1.2)中,将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间,得到待分流案件和样本案件的文本特征矩阵的方法,包括以下步骤:
首先,去掉待分流案件和样本案件中对后续处理可能造成干扰的字符;
其次,根据预设的文本向量维度阈值,对去除干扰后的待分流案件和样本案件进行处理,使得待分流案件和样本案件的向量维度统一;
最后,使用Google中的Word2vec模型和相应的参数,将待分流案件和样本案件映射成数值矩阵,作为待分流案件和样本案件的文本特征矩阵。
5.如权利要求3所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤2.1.4)中,获取待分流案件和样本文件的总的特征向量信息、法律重叠词分数和法律要素对比向量的方法为:
首先,将长短期记忆神经网络层与卷积神经网络层的输出结果拼接到一起,得到待分流案件和样本文件的总的特征向量,即文本特征信息;
然后,基于待分流案件和样本文件的文本特征信息,利用法律语言库,得到二者的法律重叠词分数;
最后,根据法律文本的描述,按照法律上的规则提取相应的事实要素,比较待分流案件和样本文件描述的事实要素是否相同,形成一个0-1向量,作为法律要素对比向量。
6.如权利要求5所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述基于待分流案件和样本文件的文本特征信息,利用法律语言库,得到二者的法律重叠词分数的方法,包括以下步骤:
首先,根据待分流案件与样本案件的文本特征信息,获得二者的文本特征信息中的重叠词;
其次,根据法律语言库,去除重叠词中不在法律语言库中的部分,得到的法律重叠词;
最后,计算法律重叠词占二者的文本特征信息中的总词数的比例,该比例即为法律重叠词分数。
7.如权利要求2所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤2.2)中,所述相似度阈值为0.5。
8.如权利要求1所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤3)中,根据得到的相似度比例值以及预设的相似度比例阈值,对待分流案件进行分流的方法为:
设定相似度比例阈值,若所有样本案件中的相似文本案件所占的比例不小于相似度比例阈值,则将待分流案件分为简案,否则将待分流案件分为繁案。
9.如权利要求1所述的一种基于相似文本的案件繁简分流方法,其特征在于,所述步骤3)中,所述相似度比例阈值为0.08。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160701.7A CN111400445B (zh) | 2020-03-10 | 2020-03-10 | 一种基于相似文本的案件繁简分流方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160701.7A CN111400445B (zh) | 2020-03-10 | 2020-03-10 | 一种基于相似文本的案件繁简分流方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400445A true CN111400445A (zh) | 2020-07-10 |
CN111400445B CN111400445B (zh) | 2023-09-19 |
Family
ID=71434464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010160701.7A Active CN111400445B (zh) | 2020-03-10 | 2020-03-10 | 一种基于相似文本的案件繁简分流方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400445B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708885A (zh) * | 2020-06-09 | 2020-09-25 | 西安交通大学 | 一种案件智能分流方法及装置 |
CN112733521A (zh) * | 2021-01-16 | 2021-04-30 | 江苏网进科技股份有限公司 | 一种用于确认法律案件相似关系的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060129593A1 (en) * | 2004-06-23 | 2006-06-15 | Slovak Marc B | Computerized system and method for creating aggregate profile reports regarding litigants, attorneys, law firms, judges, and cases by type and by court from court docket records |
CN105930473A (zh) * | 2016-04-25 | 2016-09-07 | 安徽富驰信息技术有限公司 | 一种基于随机森林技术的相似文件检索方法 |
CN106126695A (zh) * | 2016-06-30 | 2016-11-16 | 张春生 | 一种相似案件检索方法及装置 |
CN107729509A (zh) * | 2017-10-23 | 2018-02-23 | 中国电子科技集团公司第二十八研究所 | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
CN109299263A (zh) * | 2018-10-10 | 2019-02-01 | 上海观安信息技术股份有限公司 | 文本分类方法、电子设备及计算机程序产品 |
CN110472011A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 一种诉讼成本预测方法、装置及终端设备 |
-
2020
- 2020-03-10 CN CN202010160701.7A patent/CN111400445B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060129593A1 (en) * | 2004-06-23 | 2006-06-15 | Slovak Marc B | Computerized system and method for creating aggregate profile reports regarding litigants, attorneys, law firms, judges, and cases by type and by court from court docket records |
CN105930473A (zh) * | 2016-04-25 | 2016-09-07 | 安徽富驰信息技术有限公司 | 一种基于随机森林技术的相似文件检索方法 |
CN106126695A (zh) * | 2016-06-30 | 2016-11-16 | 张春生 | 一种相似案件检索方法及装置 |
CN107729509A (zh) * | 2017-10-23 | 2018-02-23 | 中国电子科技集团公司第二十八研究所 | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
CN109299263A (zh) * | 2018-10-10 | 2019-02-01 | 上海观安信息技术股份有限公司 | 文本分类方法、电子设备及计算机程序产品 |
CN110472011A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 一种诉讼成本预测方法、装置及终端设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708885A (zh) * | 2020-06-09 | 2020-09-25 | 西安交通大学 | 一种案件智能分流方法及装置 |
CN112733521A (zh) * | 2021-01-16 | 2021-04-30 | 江苏网进科技股份有限公司 | 一种用于确认法律案件相似关系的方法 |
CN112733521B (zh) * | 2021-01-16 | 2023-07-04 | 江苏网进科技股份有限公司 | 一种用于确认法律案件相似关系的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111400445B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN110188192B (zh) | 一种多任务网络构建与多尺度的罪名法条联合预测方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
CN110222184A (zh) | 一种文本的情感信息识别方法及相关装置 | |
CN107301165A (zh) | 一种试题难度分析方法及系统 | |
CN117076693A (zh) | 一种数字人教师多模态大语言模型预训练学科语料库的构建方法 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
CN106445915A (zh) | 一种新词发现方法及装置 | |
CN111400445A (zh) | 一种基于相似文本的案件繁简分流方法 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN113011196A (zh) | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN112380346A (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
CN118296118A (zh) | 建筑标准知识问答模型构建方法、计算机程序产品、存储介质及电子设备 | |
CN117592470A (zh) | 大语言模型驱动的低成本公报数据抽取方法 | |
Hu | Research and implementation of railway technical specification question answering system based on deep learning | |
CN112836501A (zh) | 一种基于Bert+BiLSTM+CRF的知识元自动抽取方法 | |
US20190188270A1 (en) | Generating an executable code based on a document | |
CN115759085A (zh) | 基于提示模型的信息预测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |