CN109582950A - 一种裁判文书说理评估方法 - Google Patents
一种裁判文书说理评估方法 Download PDFInfo
- Publication number
- CN109582950A CN109582950A CN201811143966.5A CN201811143966A CN109582950A CN 109582950 A CN109582950 A CN 109582950A CN 201811143966 A CN201811143966 A CN 201811143966A CN 109582950 A CN109582950 A CN 109582950A
- Authority
- CN
- China
- Prior art keywords
- law
- assessment
- law article
- judgement
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005259 measurement Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000007430 reference method Methods 0.000 claims description 2
- 230000000750 progressive effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000007246 mechanism Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于计算相似度的裁判文书说理评估方法,主要步骤包括:切分法条前后件;使用XML解析技术提取出文书中的关键信息;构建法律专有停用词库,输入文本预处理等;将输入文本输入进模型中得到文本匹配结果;若是“法条与结论”的评估,使用“匹配关键字,比较量刑程度”的思路来判断逻辑是否一致;综合每一项评估主体的计算结果,将清晰简明的评估结果反馈给系统用户。本发明模拟法官检验裁判文书是否存在说理缺少关键环节、说理不充分、判决结果不合理的真实应用场景,每篇文书的评估速度约为8~10秒,速度较快,对于常见的9种刑事案件的评估准确率较高,能够满足真实应用场景下的使用要求。
Description
技术领域
本发明涉及一种裁判文书说理评估方法,具体涉及一种基于TensorFlow CNN的文本相似度方法,属于自然语言处理领域。
背景技术
裁判文书是司法审判的最终产物,是当事人听得见、看得到的主要载体,也是法制宣传教育的生动教材。它所体现的,不仅仅有法官的个人素质,还有国家司法机构的形象。裁判文书的精髓是“说理”,说理部分将法官裁判的过程以书面化的形式呈现,不仅仅体现了法官的专业素质,还展现了国家司法机构对公平公正的解读。具有针对性、逻辑性、充分性的强有力说理,能够让人民群众感受到公平正义,对于服判息诉、定纷止争有着至关重要的作用。
然而在现实生活中,由于种种原因,比如法官工作量巨大、力不从心,某些法官的责任意识淡薄,文书起草制度、文书评估制度、法官评价机制不尽合理等,时常有“简单粗暴”的文书面世。这些裁判文书的说理不充分甚至几乎没有说理,难免让人民群众对审判结果的合理性产生疑惑,让法院对司法权的行使显得蛮横、粗暴,影响司法公信力,对国家司法及司法机关的形象造成不好的影响。因此,规范化裁判文书的说理部分,使裁判文书达到“法”与“理”的有机统一,使判决结果合理化、公正化,是十分有必要的。
为了提升裁判文书的质量,国家及各级政府也出台了法律法规,促进文书上网公开化,要求法院在案件审理过程中,统一适用法律,有效回应争议热点,做到说理透彻、释理清晰。如此一来,审判人员往往需要多次讨论、再三确认,确保文书说理在逻辑上清晰明了,裁决结果合情合理。然而,我国目前案件审判的现状是案多人少,一个法院往往每天要审理多起案件,平均到每位法官手中约有3~6起。这些原因使得法官书写文书的工作负担非常大。因此,裁判文书说理部分的书写成为了一个规模宏大的工程,如果能够借助某个工具来验证文书说理部分,就能够减轻法官的工作负担,保证案件判决的准确程度。
案件事实、引用法条、判决结论是通过引用法条串联起来的一条逻辑链。其中,引用法条是承前启后的一环。引用法条的文本具有以下特点:(1)除了语义连接词之外,使用的主要是专业法律术语,具有高度的专用性;(2)将多种具有关联的、可能的事件概括在一个法律条款中,具有高度的抽象性。在这些特点下,单纯地从字符层面来分析引用法条与案件事实、引用法条与判决结论之间的关系难以取得令人满意的效果,还需要从文字表达的语义层面来分析文本之间存在的相关性。在自然语言处理中,有着多种模型来计算文本相似程度。本发明以卷积神经网络中的CNN模型为基础,提出了一种Attention-based神经网络方法。Attention机制由Volodymyr等人源于人类在观察图像时注意力集中在图像的某个局部区域的启发而提出的,对图像的不同区域赋予不同的权重,使得模型能够做出更加精准的判断。该机制最初用于数字图像处理领域,随后被广泛应用到机器翻译、图像标注、关系抽取等自然语言处理问题中。本发明以 Attention-based神经网络模型为基础,裁判文书、常用刑法民法法律文件为数据源,着重研究了一种基于计算相似度的裁判文书说理评估方法。
发明内容
本发明是一种基于计算相似度的裁判文书说理评估方法,提供对裁判文书说理部分进行评估的方法,包括法条前后件切分,抽取文书关键信息,对文书的案件事实、引用法条、判决结论进行中文分词并去除停用词,建立评估模型并根据不同评估类型进行评估主体到借鉴体的相似度计算,评估引用法条和判决结论的逻辑一致性,综合文本相似度计算结果,得到无对应内容的评估主体,输出文书说理的评估结果。该方法能有效去除与案情表达无关的词语,降低模型训练的复杂度,该方法从语义层面度量法条与事实、法条与结论的相似度,能准确获得与评估主体有关和无关的评估借鉴体,并给系统用户以反馈,符合真实情况下,法官检验裁判文书是否存在说理缺少关键环节、说理不充分、判决结果不合理的工作场景。
1.本发明所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于包含以下步骤:
步骤(1)根据提取出的法条前后件模式,进行法条前后件切分;
步骤(2)解析裁判文书,提取文书关键信息;
步骤(3)建立停用词典,对文本进行预处理;
步骤(4)根据评估类型,计算某两种信息(事实与法条、结论与法条)之间的相似度;
步骤(5)根据评估类型,综合文本相似度计算结果,得到无对应内容的元素;
步骤(6)根据评估类型,输出评估结果。
2.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(1)中根据从大量法律法规文件中提取出来的法条前后件模式,对常用的刑法和民法的法律法规文件中的条款进行法条前后件切分。
3.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(2)中提取裁判文书的关键信息,比如案件的基本信息、裁判说理的案件事实、引用法条、判决结论。具体子步骤包括:
步骤(2.1)使用XML解析从裁判文书中抽取出文首、诉讼记录、分析过程、判决结果、文尾、引用法律等节点;
步骤(2.2)从文首节点中提取出案件案号、案件类型等信息,从诉讼记录节点中提取出案件当事人、指控罪名、案件案由、认定事实、指控段落等信息,从文尾节点中提取出裁判时间、审判人员等信息,从引用法律节点提取出引用法条等信息;
4.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(3)中建立停用词典,对文本进行预处理。具体子步骤包括:
步骤(3.1)先构建中文常用的停用词库:包括标点符号、序列编号、语气词、语义连词等;再构建法律专用停用词库:计算在某一特定案由下所有文档中出现的每个词语的词频,计算它们的类别信息熵,按照文档频次和类别信息熵进行降序排序,筛选出文档频次大于某一阈值,类别信息熵大于某一阈值的词作为停用词库;
步骤(3.2)对得到的案件事实、引用法条、判决结论信息,使用“;”和“。”进行切割,得到对应的案件事实集合F={f1,f2,...,fn}、引用法条集合L={l1,l2,...,ln}、判决结论集合J={j1,j2,...,jn}。对于每一个fi、li、ji,进行中文分词,筛选出词性为名词n、动词v和形容词a的词语,将其转化成由词语组成的列表;
步骤(3.3)对于得到的词语列表,使用已经构建的通用中文停用词库和法律专用停用词库对其进行去停用词处理;
5.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(4)中根据评估类型,计算某两种信息(事实与法条、结论与法条)之间的相似度。若评估类型为引用法条和判决结论之间的评估,还需要判断二者间的逻辑一致性。具体子步骤包括:
步骤(4.1)将两段文本的词语列表输入到一个LSTM层中进行向量化进行补位,得到固定长度的词向量数组;
步骤(4.2)将两个词向量数组输入到一个Attention层中,分别使用“dotproduction”的方式得到二者的Attention相关度矩阵α、β;
步骤(4.3)将得到的Attention矩阵作为一个一层CNN模型的输入层,并经过最大池化提取该矩阵的特征,输出两个一维向量Vα、Vβ。Vα、Vβ分别代表评估主体到评估借鉴体的Attention特征以及评估借鉴体到评估主体的Attention特征;
步骤(4.4)将两段文本的词语列表输入到一个CNN模型中并进行最大池化操作,得到两个一维向量Vμ、 Vν。Vμ、Vν分别代表两段文本的文本特征。
步骤(4.5)使用concat的方式将Vα、Vβ、Vμ、Vν结合在一起,输入一个两层全连接神经网络进行训练,得到0/1分类各自可能性,选择可能性大的输出作为最终分类结果。
若评估类型为引用法条和判决结论之间的评估,还需要进行步骤(4.6)~步骤(4.8)的操作。
步骤(4.6)使用正则表达式分别匹配判决结果和引用法条的主刑、附加刑、刑罚制度的类型;
步骤(4.7)针对引用到的主刑、附加刑、刑罚制度中的每一项,提取具体的量刑程度;
步骤(4.8)将量刑程度中的中文数字表达转化为阿拉伯数字形式,对于引用法条和判决结论中的每一项,两两匹配主刑、附加刑、刑罚制度的关键字,对于对应的部分,判断判决结果中的量刑是否在引用法条规定的量刑程度范围之内,返回判断的结果。
6.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(5)中根据评估类型,综合文本相似度计算结果,得到无对应内容的元素。具体子步骤包括:
步骤(5.1)对于评估类型的主体中的每一项,逐一计算它和评估类型的借鉴体中每一项之间的相似度;
步骤(5.2)若相似度为“相关”的,则把评估类型的主体、借鉴体、相似度组合在一起,加入到返回结果中;
步骤(5.3)若相似度为“不相关”的,则跳过;
步骤(5.4)若存在评估类型的主体中的一项,评估类型的借鉴体中的每一项和它都是不相关的,则把评估类型的主体、“无对应内容”加入到返回结果中。
7.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(6)根据评估类型,输出评估结果。
本发明与现有技术相比,其显著优点是:使用XML解析技术提取出文书中的关键要素,避免了全篇幅使用文书引入其他无关信息的问题,减少不必要的特征词汇对说理评估结果的影响;通过计算词语的文档频率、类别频率、类别信息熵来自动构建法律专有的停用词库,并将其与中文常用的通用停用词库结合,大大节省了人工构造停用词库需要耗费的时间,减少了不相关词汇对最终评估结果造成的影响;为了防止过拟合,将得到的词语列表向量化并扩充到固定长度,将两个词语向量输入到预先定义好的模型中,得到计算结果;符合真实应用场景下,法官检验裁判文书是否存在说理缺少关键环节、说理不充分、判决结果不合理的需求。目前,每篇文书的评估速度约为8~10秒,速度较快,能够满足真实应用场景下的性能要求。
附图说明
图1基于计算相似度的裁判文书说理评估方法流程图
图2解析XML以获取特定节点内容的代码
图3裁判文书关键信息提取示例图
图4法律专有停用词库示例图
图5相似度计算流程图
图6系统运行示例图
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于解决裁判文书说理评估问题,提出一种基于计算相似度的裁判文书说理评估方法。使用XML解析技术提取出文书中的关键要素,避免了全篇幅使用文书引入其他无关信息的问题,减少不必要的特征词汇对说理评估结果的影响;通过计算词语的文档频率、类别频率、类别信息熵来自动构建法律专有的停用词库,并将其与中文常用的通用停用词库结合,大大节省了人工构造停用词库需要耗费的时间,减少了不相关词汇对最终评估结果造成的影响;为了防止过拟合,将得到的词语列表向量化并扩充到固定长度,将两个词语向量输入到预先定义好的模型中,得到计算结果;符合真实应用场景下,法官检验裁判文书是否存在说理缺少关键环节、说理不充分、判决结果不合理的需求。目前,每篇文书的评估速度约为8~10秒,速度较快,能够满足真实应用场景下的性能要求。本发明概括来说主要包括以下步骤:
步骤(1)根据提取出的法条前后件模式,进行法条前后件切分;
步骤(2)解析裁判文书,提取文书关键信息;
步骤(3)建立停用词典,对文本进行预处理;
步骤(4)根据评估类型,计算某两种信息(事实与法条、结论与法条)之间的相似度;
步骤(5)根据评估类型,综合文本相似度计算结果,得到无对应内容的元素;
步骤(6)根据评估类型,输出评估结果。
上述一种基于计算相似度的裁判文书说理评估方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。
1.案件事实、引用法条、判决结论是通过引用法条串联起来的一条逻辑链。其中,引用法条是承前启后的一环。引用法条的通用模式为“可能出现的事实的抽象描述+对于处理方法的解释”,若不作区分处理,用引用法条的全文去分别计算它与案件事实、判决结论之间的关系,会导致其中的一部分文字与案件事实或者判决结论完全无关,降低文本相似度的准确率。反之,若能够对引用法条做切分,在计算相似度的时候分别取法条的对应部分计算,能够保证计算结果的准确性。因此,首先需要对引用法条做前后件切分工作,是后期准确计算相似度的基础。
2.为了从裁判文书中获得与说理评估有关的内容段落,去除无用数据,提高系统性能,在步骤2中需要提取裁判文书中的关键信息。具体步骤是:
步骤(2.1)提取裁判文书文首、诉讼记录、分析过程、判决结果、文尾、引用法律节点元素。由于裁判文书具有半结构化的特点,一篇结构完整的裁判文书主要由文首、案件基本情况、原告诉称、被告辩称、证据、查明事实、判决结果、判决原因、引用法律条文、文尾等部分组成,不同部分的内容具有不同的可采信度,为了减少噪音数据,提高相似度结果计算的准确性,降低复杂度,提升系统性能,需要提取裁判文书中合适的文书信息。本发明使用XML解析技术来提取特定的节点,获取特定节点内容的代码如图2所示。
步骤(2.2)使用XML解析技术从上一步骤得到的特定节点中提取说理评估需要使用到的信息。比如:从文首节点中提取出案件案号、案件类型等信息,从诉讼记录节点中提取出案件当事人、指控罪名、案件案由、认定事实、指控段落等信息,从文尾节点中提取出裁判时间、审判人员等信息,从引用法律节点提取出引用法条等信息。裁判文书提取得到的关键信息如图3所示。
3.为了去除噪声数据,提高主题模型的训练效果,在计算相似度之前需要对数据进行预处理,具体步骤是:
步骤(3.1)先构建中文常用的停用词库:包括标点符号、序列编号、语气词、语义连词等;再构建法律专有停用词库:计算在某一特定案由下所有文档中出现的每个词语的词频,计算它们的类别信息熵,按照文档频次和类别信息熵进行降序排序,筛选出文档频次大于2000,类别信息熵大于2.0的词作为停用词库,法律专有停用词库示例如图4所示。接着去除分词结果中的停用词,包括去除中文通用停用词,法律专有停用词,去除词语长度小于2的词,去除高频词语,去除低频词语;
步骤(3.2)对得到的案件事实、引用法条、判决结论信息,使用“;”和“。”进行切割,得到对应的案件事实集合F={f1,f2,...,fn}、引用法条集合L={l1,l2,...,ln}、判决结论集合J={j1,j2,...,jn}。对于每一个fi、li、ji,进行中文分词,通过观察分析结果,我们发现大多数有意义的词基本都属于“n”、”v”、“a”三个词性,因此,我们选取词性为“n”、“v”、“a”的词语保留,将其转化成由词语组成的列表;
步骤(3.3)对于得到的词语列表,使用已经构建的通用中文停用词库和法律专用停用词库对其进行去停用词处理。
4.为了把事实与法条、结论与法条的评估区分开来,需要根据评估类型,选择某两种类型的文本,进行相似度的计算。本发明对事实与法条、结论与法条的评估,从文本相似度和语义相似度层面考虑,分别构建FL模型与LJ模型。将词列表向量化后,输入到对应的模型中,即可得到预测的分类结果。对应的相似度计算流程图如图5所示。具体子步骤包括:
步骤(4.1)先考虑语义相似度。要计算语义相似度,需要得到两段文本的词向量。获取词向量的方式有很多种,常用的是RNN(Recurrent Neural Network)。传统RNN的关键依赖于前一时刻的计算。因此,最后时刻的隐藏状态可以表示整个输入的语序信息。它可以很方便的将任意长度的输入映射成固定的自定义的长度的输出向量,且不丢失语序信息。但是RNN面临梯度爆炸和梯度消失的问题,当输入序列过长时,RNN无法捕获长距离的信息。因此使用RNN的一种变形LSTM(Long-Short-Term Memory)。LSTM 引入了三个门——输入门、遗忘门、输出门——来达到信息的持久化。其中遗忘门决定丢弃哪些信息、输入门决定什么值需要更新,输出门控制什么值需要输出。通过门机制,LSTM能够更好的捕获输入数据中的语序信息。因此,将两段文本的词语列表输入到一个LSTM层中进行向量化进行补位,得到固定长度的词向量数组,以此捕获输入文本的语序信息;
步骤(4.2)虽然LSTM能够捕获输入文本的语序信息,但是却不能获取文本之间的关系。比如,在计算“事实与法条”相似度的时候,我们需要知道某个事实对应的是法条的哪个前件,即该事实关注法条哪部分词语。LSTM无法获取这部分的信息,Attention机制可以很好地解决这个问题。Attention机制源自数字图像处理领域,对图像的不同部分赋予不同的权重,使得模型能够做出更加精准的判断。因此,构建一个Attention层,将两个词向量数组输入到该Attention层中,分别使用“dot production”的方式得到二者的 Attention相关度矩阵,并对矩阵的每一行执行softmax操作得到矩阵α,β;以“事实与法条”的FL模型为例:矩阵α的第i行,第j列代表F的第i个输入word对L的第j个输入word的Attention权重,两个word之间相关度越高,权重越大。具体计算式如下:
a(t)=softmax(RM(1,t),...,RM(|L|,t))
α=[a(1),a(2),...,a(|F|)]
步骤(4.3)Attention矩阵作为表示两文本的词之间的对应关注度,它同其他任何矩阵一样,也存在一些无用信息。为了清除这些无用信息,将得到的Attention矩阵作为一个一层CNN模型的输入层,并经过最大池化提取该矩阵的特征,输出两个一维向量Vα、Vβ。Vα、Vβ分别代表评估主体到评估借鉴体的Attention 特征以及评估借鉴体到评估主体的Attention特征。这样在训练时,模型不需要以来Attention矩阵中的具体对应的值,而只需要根据Attention的特征来进行判别,且很好的过滤了Attention矩阵中的噪声,让模型在训练时能够更加专注于Attention矩阵中的重要信息;
步骤(4.4)步骤(4.1)~步骤(4.3)关注两段文本的语义相似度。为了较为全面的判定两段文本的关系,我们还需兼顾二者的文本相似度,即二者所使用的词汇较为接近,词汇之间的分布结构也较为接近。我们不直接使用输入文本向量进行对比,而是将输入文本抽象成能代表该文本主要信息的特征向量,对两个文本的特征向量进行操作。这样做能够减少输入数据中的噪声的干扰,能够更好的比较二者的文本相似度。因此,我们采用CNN来完成文本特征向量的提取,将两段文本的词语列表输入到一个CNN模型中并进行最大池化操作,得到两个一维向量Vμ、Vν。Vμ、Vν分别代表两段文本的文本特征;
步骤(4.5)以“事实与法条”的FL模型为例:对于事实和法条来说,一个法条前件可能对应很多种事实,由于每种事实的代表词汇不同,所以不同事实种类之间文本特征可能相差很大,但是语义相关特征相似,因为对应同一个法条前件。因此,对于文本特征来说,在判别事实和法条关系时有了语义相关特征的辅助会识别的更加精确。另外,拥有代表词汇的一类事实可能对应不同法条中的多个法条前件,可能对应不同的语义相关特征。因此,对于语义特征来说,在判别事实与法条关系时结合文本特征也能识别的更加精确。基于这个思想,我们采用了最简单的concat的方式将上述四个向量Vα、Vβ、Vμ、Vν结合在一起,输入一个两层全连接神经网络进行训练,得到0/1分类各自可能性,选择可能性大的输出作为最终分类结果。这样能够最大程度地保留语义相关信息以及文本特征信息,方便模型在训练时自动寻找四个向量之间的关系;
若评估类型为引用法条和判决结论之间的评估,还需要进行步骤(4.6)~步骤(4.8)的操作。这是因为“法条与结论”的评估,除了需要计算相似性之外,还有考虑逻辑一致性。比如“处三年以下有期徒刑”和“判处有期徒刑一年两个月”、“判处有期徒刑五年”的文本相似度可能非常接近,但是只和第一个在逻辑上一致。由于我国刑法的量刑部分比较统一,基本上由主刑、附加刑、刑罚执行制度中的一个或多个组成,再辅以具体的量刑程度。所以逻辑上比较单一,可以考虑不借助第三方的文本处理库,直接用“匹配关键字、比较量刑程度”的思路来实现。
步骤(4.6)使用正则表达式分别匹配判决结果和引用法条的主刑、附加刑、刑罚制度的类型;
步骤(4.7)针对引用到的主刑、附加刑、刑罚制度中的每一项,提取具体的量刑程度;
步骤(4.8)裁判文书使用较规范的语言表达,使用中文数字来表达量刑程度。然而,中文数字难以直接比较大小,需要将量刑程度中的中文数字表达转化为阿拉伯数字形式,对于引用法条和判决结论中的每一项,两两匹配主刑、附加刑、刑罚制度的关键字,对于对应的部分,判断判决结果中的量刑是否在引用法条规定的量刑程度范围之内,返回判断的结果。
5.至此,在不同的评估类型下,裁判文书中的案件事实集合、引用法条集合、判决结论集合中的每一项,都已经两两计算了相似度及逻辑一致性(如果有),然而,为了反馈给用户简明易懂的信息,还需要综合文本相似度计算结果,得到无对应内容的元素。具体子步骤包括:
步骤(5.1)对于评估类型的主体中的每一项,逐一计算它和评估类型的借鉴体中每一项之间的相似度;
步骤(5.2)若二者相似度为“相关”的,则把评估类型的主体、借鉴体、相似度组合在一起,加入到返回结果中;
步骤(5.3)若相似度为“不相关”的,则跳过该项借鉴体,计算评估主体和下一项借鉴体的相似度和逻辑一致性;
步骤(5.4)每一项评估主体的计算完成后,若其和对应的评估借鉴体中的每一项都不相关,则把该项评估主体、“无对应内容”加入到返回结果中。
6.将评估结果反馈给系统用户。在实验评估时,本发明针对九种常见刑事案由的裁判文书进行实验,系统运行示例图如图6所示,单篇文书评估的平均时间为9秒。可见,该方法在刑事案由的裁判文书说理评估,具有一定的参考价值。
上面已经参考附图对根据本发明实施的基于计算相似度的裁判文书说理评估方法进行了详细描述。本发明具有如下优点:使用XML解析技术提取出文书中的关键信息,避免了全篇幅使用文书引入其他无关信息的问题,减少不必要的特征词汇对说理评估结果的影响;通过计算词语的文档频率、类别频率、类别信息熵来自动构建法律专有的停用词库,并将其与中文常用的通用停用词库结合,大大节省了人工构造停用词库需要耗费的时间,减少了不相关词汇对最终评估结果造成的影响;为了防止过拟合,将得到的词语列表向量化并扩充到固定长度,将两个词语向量输入到预先定义好的模型中,即可得到计算结果。
需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且为了简明起见,这里省略对已知方法技术的详细描述。当前的示例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (7)
1.本专利公开了一种基于计算相似度的裁判文书说理评估方法,其特征在于包含以下步骤:
步骤(1)根据提取出的法条前后件模式,进行法条前后件切分;
步骤(2)解析裁判文书,提取文书关键信息;
步骤(3)建立停用词典,对文本进行预处理;
步骤(4)根据评估类型,计算某两种信息(事实与法条、结论与法条)之间的相似度;
步骤(5)根据评估类型,综合文本相似度计算结果,得到无对应内容的元素;
步骤(6)根据评估类型,输出评估结果。
2.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(1)中根据从大量法律法规文件中提取出来的法条前后件模式,对常用的刑法和民法的法律法规文件中的条款进行法条前后件切分。
3.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(2)中提取裁判文书的关键信息,比如案件的基本信息、裁判说理的案件事实、引用法条、判决结论。具体子步骤包括:
步骤(2.1)使用XML解析从裁判文书中抽取出文首、诉讼记录、分析过程、判决结果、文尾、引用法律等节点;
步骤(2.2)从文首节点中提取出案件案号、案件类型等信息,从诉讼记录节点中提取出案件当事人、指控罪名、案件案由、认定事实、指控段落等信息,从文尾节点中提取出裁判时间、审判人员等信息,从引用法律节点提取出引用法条等信息。
4.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(3)中建立停用词典,对文本进行预处理。具体子步骤包括:
步骤(3.1)先构建中文常用的停用词库:包括标点符号、序列编号、语气词、语义连词等;再构建法律专用停用词库:计算在某一特定案由下所有文档中出现的每个词语的词频,计算它们的类别信息熵,按照文档频次和类别信息熵进行降序排序,筛选出文档频次大于某一阈值,类别信息熵大于某一阈值的词作为停用词库;
步骤(3.2)对得到的案件事实、引用法条、判决结论信息,使用“;”和“。”进行切割,得到对应的案件事实集合F={f1,f2,...,fn}、引用法条集合L={l1,l2,...,ln}、判决结论集合J={j1,j2,...,jn}。对于每一个fi、li、ji,进行中文分词,筛选出词性为名词n、动词v和形容词a的词语,将其转化成由词语组成的列表;
步骤(3.3)对于得到的词语列表,使用已经构建的通用中文停用词库和法律专用停用词库对其进行去停用词处理。
5.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(4)中根据评估类型,计算某两种信息(事实与法条、结论与法条)之间的相似度。若评估类型为引用法条和判决结论之间的评估,还需要判断二者间的逻辑一致性。具体子步骤包括:
步骤(4.1)将两段文本的词语列表输入到一个LSTM层中进行向量化进行补位,得到固定长度的词向量数组;
步骤(4.2)将两个词向量数组输入到一个Attention层中,分别使用“dot production”的方式得到二者的Attention相关度矩阵α、β;
步骤(4.3)将得到的Attention矩阵作为一个一层CNN模型的输入层,并经过最大池化提取该矩阵的特征,输出两个一维向量Vα、Vβ。Vα、Vβ分别代表评估主体到评估借鉴体的Attention特征以及评估借鉴体到评估主体的Attention特征;
步骤(4.4)将两段文本的词语列表输入到一个CNN模型中并进行最大池化操作,得到两个一维向量Vμ、Vv。Vμ、Vv分别代表两段文本的文本特征;
步骤(4.5)使用concat的方式将Vα、Vβ、Vμ、Vv结合在一起,输入一个两层全连接神经网络进行训练,得到0/1分类各自可能性,选择可能性大的输出作为最终分类结果。
若评估类型为引用法条和判决结论之间的评估,还需要进行步骤(4.6)~步骤(4.8)的操作。
步骤(4.6)使用正则表达式分别匹配判决结果和引用法条的主刑、附加刑、刑罚制度的类型;
步骤(4.7)针对引用到的主刑、附加刑、刑罚制度中的每一项,提取具体的量刑程度;
步骤(4.8)将量刑程度中的中文数字表达转化为阿拉伯数字形式,对于引用法条和判决结论中的每一项,两两匹配主刑、附加刑、刑罚制度的关键字,对于对应的部分,判断判决结果中的量刑是否在引用法条规定的量刑程度范围之内,返回判断的结果。
6.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(5)中根据评估类型,综合文本相似度计算结果,得到无对应内容的元素。具体子步骤包括:
步骤(5.1)对于评估类型的主体中的每一项,逐一计算它和评估类型的借鉴体中每一项之间的相似度;(说明:评估类型的主体:“XX到XX的评估”中的前一项。如“事实到法条的评估”,评估类型的主体为事实;评估类型的借鉴体:“XX到XX的评估”中的后一项。如“事实到法条的评估”,评估类型的借鉴体为法条)
步骤(5.2)若相似度为“相关”的,则把评估类型的主体、借鉴体、相似度组合在一起,加入到返回结果中;
步骤(5.3)若相似度为“不相关”的,则跳过;
步骤(5.4)若存在评估类型的主体中的一项,评估类型的借鉴体中的每一项和它都是不相关的,则把评估类型的主体、“无对应内容”加入到返回结果中。
7.根据权利要求1所述的一种基于计算相似度的裁判文书说理评估方法,其特征在于步骤(6)根据评估类型,输出评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811143966.5A CN109582950A (zh) | 2018-09-25 | 2018-09-25 | 一种裁判文书说理评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811143966.5A CN109582950A (zh) | 2018-09-25 | 2018-09-25 | 一种裁判文书说理评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109582950A true CN109582950A (zh) | 2019-04-05 |
Family
ID=65920135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811143966.5A Pending CN109582950A (zh) | 2018-09-25 | 2018-09-25 | 一种裁判文书说理评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582950A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188350A (zh) * | 2019-05-22 | 2019-08-30 | 北京百度网讯科技有限公司 | 文本一致性计算方法及装置 |
CN110377618A (zh) * | 2019-06-17 | 2019-10-25 | 平安科技(深圳)有限公司 | 裁决结果分析方法、装置、计算机设备和存储介质 |
CN110738039A (zh) * | 2019-09-03 | 2020-01-31 | 平安科技(深圳)有限公司 | 一种案件辅助信息的提示方法、装置、存储介质和服务器 |
CN111461932A (zh) * | 2020-04-09 | 2020-07-28 | 北京北大软件工程股份有限公司 | 基于大数据的行政处罚自由裁量权合理性评估方法及装置 |
CN111581447A (zh) * | 2020-05-11 | 2020-08-25 | 吉林大学 | 一种裁判文书评查方法 |
CN111858682A (zh) * | 2020-08-04 | 2020-10-30 | 西安交通大学 | 一种基于深度学习的裁判文书逻辑评估方法及系统 |
CN113344750A (zh) * | 2020-03-02 | 2021-09-03 | 中国司法大数据研究院有限公司 | 一种案件审判瑕疵等级的判定方法和系统 |
CN115982388A (zh) * | 2023-03-06 | 2023-04-18 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107632968A (zh) * | 2017-05-22 | 2018-01-26 | 南京大学 | 一种面向裁判文书的证据链关系模型的构建方法 |
CN107704563A (zh) * | 2017-09-29 | 2018-02-16 | 广州多益网络股份有限公司 | 一种问句推荐方法及系统 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
US20180268023A1 (en) * | 2017-03-16 | 2018-09-20 | Massachusetts lnstitute of Technology | System and Method for Semantic Mapping of Natural Language Input to Database Entries via Convolutional Neural Networks |
-
2018
- 2018-09-25 CN CN201811143966.5A patent/CN109582950A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268023A1 (en) * | 2017-03-16 | 2018-09-20 | Massachusetts lnstitute of Technology | System and Method for Semantic Mapping of Natural Language Input to Database Entries via Convolutional Neural Networks |
CN107632968A (zh) * | 2017-05-22 | 2018-01-26 | 南京大学 | 一种面向裁判文书的证据链关系模型的构建方法 |
CN107704563A (zh) * | 2017-09-29 | 2018-02-16 | 广州多益网络股份有限公司 | 一种问句推荐方法及系统 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
Non-Patent Citations (3)
Title |
---|
MENGTING HE等: "Evaluation System for Reasoning Description of Judgment Documents Based on TensorFlow CNN", 《INTERNATIONAL CONFERENCE OF PIONEERING COMPUTER SCIENTISTS, ENGINEERS AND EDUCATORS 2019》 * |
YIXUAN DONG等: "Establish Evidence Chain Model on Chinese Criminal Judgment Documents Using Text Similarity Measure", 《INTERNATIONAL CONFERENCE OF PIONEERING COMPUTER SCIENTISTS, ENGINEERS AND EDUCATORS 2018》 * |
周博通 等: "InsunKBQA: 一个基于知识库的问答系统", 《智能计算机与应用》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188350B (zh) * | 2019-05-22 | 2021-06-01 | 北京百度网讯科技有限公司 | 文本一致性计算方法及装置 |
CN110188350A (zh) * | 2019-05-22 | 2019-08-30 | 北京百度网讯科技有限公司 | 文本一致性计算方法及装置 |
CN110377618A (zh) * | 2019-06-17 | 2019-10-25 | 平安科技(深圳)有限公司 | 裁决结果分析方法、装置、计算机设备和存储介质 |
CN110377618B (zh) * | 2019-06-17 | 2024-01-05 | 平安科技(深圳)有限公司 | 裁决结果分析方法、装置、计算机设备和存储介质 |
CN110738039A (zh) * | 2019-09-03 | 2020-01-31 | 平安科技(深圳)有限公司 | 一种案件辅助信息的提示方法、装置、存储介质和服务器 |
WO2021042560A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 一种案件辅助信息的提示方法、装置、存储介质和服务器 |
CN113344750A (zh) * | 2020-03-02 | 2021-09-03 | 中国司法大数据研究院有限公司 | 一种案件审判瑕疵等级的判定方法和系统 |
CN111461932A (zh) * | 2020-04-09 | 2020-07-28 | 北京北大软件工程股份有限公司 | 基于大数据的行政处罚自由裁量权合理性评估方法及装置 |
CN111461932B (zh) * | 2020-04-09 | 2024-05-14 | 北京北大软件工程股份有限公司 | 基于大数据的行政处罚自由裁量权合理性评估方法及装置 |
CN111581447A (zh) * | 2020-05-11 | 2020-08-25 | 吉林大学 | 一种裁判文书评查方法 |
CN111858682A (zh) * | 2020-08-04 | 2020-10-30 | 西安交通大学 | 一种基于深度学习的裁判文书逻辑评估方法及系统 |
CN115982388A (zh) * | 2023-03-06 | 2023-04-18 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
CN115982388B (zh) * | 2023-03-06 | 2024-04-19 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582950A (zh) | 一种裁判文书说理评估方法 | |
CN108073673B (zh) | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 | |
CN108763484A (zh) | 一种基于lda主题模型的法条推荐方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN111145052A (zh) | 司法文书的结构化分析方法及系统 | |
CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN107025299B (zh) | 一种基于加权lda主题模型的金融舆情感知方法 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110990564A (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
CN101520802A (zh) | 一种问答对的质量评价方法和系统 | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN106294324B (zh) | 一种基于自然语言句法分析树的机器学习情感分析器 | |
CN108536801A (zh) | 一种基于深度学习的民航微博安保舆情情感分析方法 | |
CN102098332A (zh) | 一种内容审核方法和装置 | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN107145514A (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
CN112365372B (zh) | 一种面向裁判文书的质量检测及评估方法及系统 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190405 |