CN112365372B - 一种面向裁判文书的质量检测及评估方法及系统 - Google Patents
一种面向裁判文书的质量检测及评估方法及系统 Download PDFInfo
- Publication number
- CN112365372B CN112365372B CN202011072091.1A CN202011072091A CN112365372B CN 112365372 B CN112365372 B CN 112365372B CN 202011072091 A CN202011072091 A CN 202011072091A CN 112365372 B CN112365372 B CN 112365372B
- Authority
- CN
- China
- Prior art keywords
- document
- case
- evaluated
- legal
- judge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000011156 evaluation Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000010606 normalization Methods 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims description 43
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 19
- 238000012512 characterization method Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013441 quality evaluation Methods 0.000 abstract description 6
- 238000001303 quality assessment method Methods 0.000 abstract description 4
- 239000003795 chemical substances by application Substances 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 230000008520 organization Effects 0.000 description 7
- 238000011158 quantitative evaluation Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及裁判文书质量评估技术领域,尤其涉及一种面向裁判文书的质量检测及评估方法及系统。其方法包括步骤:S1.输入待评估裁判文书X;S2.提取待评估裁判文书X中的各信息项,所述信息项中包含对应的多个信息点;S3.根据步骤S2中提取的信息项对所述待评估裁判文书X的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度进行检测与评估;S4.根据检测与评估结果对待评估裁判文书X的质量进行评分。该发明优点在于文书质量评估方面涉及广泛、细致、严谨且灵活,并且给出了各个指标的具体地量化计算方法,使裁判文书的质量评估更加具化。
Description
技术领域
本发明涉及裁判文书质量评估技术领域,尤其涉及一种面向裁判文书的质量检测及评估方法及系统。
背景技术
随着我国社会主义法治社会建设脚步逐步加快,全国最高人民法院文书的制作提出了“公开是原则,不公开是例外”的基本原则,并全国各级法院裁判文书的一律依法在网上文书库中进行公开。因此,裁判文书必须保证零差错、质量必须保持严格要求。例如在裁判文书方面,传统的文书撰写与校对都是人工完成,这样弊端是花费时间长、容易出现各种常见低级错误且不易发现、在法律引用方面存在局限性等错误,无法及时发现并去核对及修正问题。要借力科技手段,普及文书智能纠错软件,将智能纠错与人工审核有机结合,作为文书制发、上网公开流程的重点环节。
近年,在裁判文书质量评估方面也做了一些相关研究。申请号为CN201910876106.0的中国专利,公开了通过预先建立裁判文书说理完备性检测模型,检测诉请文本与说理文本、诉请文本与判决文本的匹配情况。在该发明中,将两文本匹配情况转为为二分类问题,采用机器学习算法,对于诉请文本的任意一条诉请,与其正确回应的说理文本/判决结果句子确定为正样本,与其非正确回应的说理句子/判决结果为负样本。在《中国应用法学》的2018年第2期中,作者为杨贝的论文《裁判文书说理的量化评估-以2017年北京市判决书论证质量调查为例》中通过将论证理论转化为说理评价机制,量化评价裁判文书说理完全可能,且通过调查获取的北京裁判文书数据体现了量化评价在描述、发现、分析说理问题方面的显著优势。
然而上述的裁判文书质量评估方法中,都存在一定的局限性,主要表现在(1)大多数基于说理方面进行检测,对于裁判文书的语句规范性缺少系统地分析与评价,如整体篇章完整度、审判环节时效性、错别字与歧义词语频繁使用等;(2)裁判文书不仅要考虑到诉请文本、说理文本、判决结论等方面,还缺乏考虑文书中举证情况与案件事实认定的关联程度;(3)只涉及到裁判文书评估指标,但是具体地量化计算方法未涉及到。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种面向裁判文书的质量检测及评估方法及系统。
为了实现以上目的,本发明采用以下技术方案:
一种面向裁判文书的质量检测及评估方法,包括步骤:
S1.输入待评估裁判文书X;
S2.提取待评估裁判文书X中的各信息项,所述信息项中包含对应的多个信息点;
S3.根据步骤S2中提取的信息项对所述待评估裁判文书X的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度进行检测与评估;
S4.根据检测与评估结果对待评估裁判文书X的质量进行评分。
作为优选方案,步骤S3中,对待评估裁判文书X的语言规范性进行检测与评估包括整体篇幅完整性、信息项撰写顺序准确性、撰写语句准确性、案由准确性、审判流程时序性、案件审判时效性的检测与评估;对待评估裁判文书X的法律引用规范性进行检测与评估包括法律名称规范性以及法律引用顺序性的检测与评估;对待评估裁判文书X的说理规范性进行检测与评估包括案件事实说理全面性、真实证据对事实认定支持度的检测与评估。
作为优选方案,对待评估裁判文书X的案件审判时效性进行检测与评估包括如下步骤:
A1.获取待评估裁判文书X中涉及的时间节点,并以时间节点为关键标签将待评估裁判文书X涉及的案件划分为多个审判环节;
A2.命名实体词获取,具体包括:采用深度学习算法制定训练抽取模型,并将待评估裁判文书X的多个审判环节内容进行预处理后输入到训练抽取模型中,获得相关的命名实体词,累积每个审判环节中涉及到的命名实体词数量;
A3.表征案件主题关键词抽取,具体包括:计算经预处理后审判环节中剩余词语的tf-idf特征权重值,将tf-idf特征权重值大于一定阈值的词语作为表征案件主题关键词,并统计各审判环节中表征案件主题关键词个数;
A4.计算待评估裁判文书X的案件审判时效性Efficiency(X),计算公式如下:
其中,h为案件中一共涉及的审判环节数量,tstart_i表示案件第i个审判环节的开始时间,tend_i表示案件第i个审判环节的结束时间;|Ri(x)|表示案件第i个审判环节内涉及到的原告以及被告人数的总数;|Neri(x)|表示案件第i个审判环节内涉及到的命名实体词数量;|Keysi(x)|表示案件第i个审判环节内涉及到的表征案件主题关键词个数。
作为优选方案,所述案件事实说理全面性的检测与评估包括以下步骤:
B1.获取待评估裁判文书X表征案件事实内容各部分的信息项;
B2.命名实体词获取,将待评估裁判文书X表征案件事实内容各部分的信息项的内容进行预处理后输入到训练抽取模型中,获得相关的命名实体词,累积表征案件事实内容的每项信息项中涉及到的命名实体词数量;
B3.表征案件主题关键词抽取,具体包括:计算经预处理信息项中剩余词语的tf-idf特征权重值,将tf-idf特征权重值大于一定阈值的词语作为表征案件主题关键词,并统计各信息项中表征案件主题关键词个数;
B4.合并重复的表征案件主题关键词与命名实体词,具体包括:采用Word2vec词向量方法将相似表征案件主题关键词和命名实体词进行合并,合并后的表征案件主题关键词和命名实体词统称为重要词语,采用Keys={key1,key2,...,keyn}表示;第i个重要词语在表征案件事实内容的K项信息项中的词频采用KeysNumi={k(num)i1,k(num)i2,...,k(num)iK}表示;
B5.计算重要词语在各信息项的均匀普遍性Universal(keys),计算公式如下:
其中,k(num)iw表示第i个重要词语在表征案件事实内容的第w项信息项中的词频,表示i个重要词语在表征案件事实内容的K项信息项中出现的总数,Nw表示表征案件事实内容的第w项信息项预处理后剩余词语数量;
B6.计算待评估裁判文书X的案件事实说理全面性Universal(X),计算公式如下:
Universal(X)=1-Universal(key)。
作为优选方案,所述真实证据对事实认定支持度的检测与评估包括以下步骤:
C1、获取原告诉请内容Hp={hp_1,hp_2,...,hp_n}和与之对应被告辩称文本内容Hq={hq_1,hq_2,...,hq_n},以及根据文书中真实证据书写格式和规则,确定已经进行质证的真实证据E={e1,e2,...,en};
C2、在未得到法院质证的真实证据前,根据原告与被告供述的事实与理由确定原告的第i项诉请和被告的第i项辩称真实发生的概率分别为P(hP_i)、P(hq_i),具体计算公式分别为:
其中,表示原告陈述第i项诉请内容的事实与理由中的命名实体词个数,表示被告陈述第i项辩称内容的事实与理由中的命名实体词个数;/>表示原告陈述第i项诉请内容的实体词个数,/>表示被告陈述第i项辩称内容的实体词个数;
C3、获取原告诉请内容Hp={hp_1,hp_2,...,hp_n}在真实证据E={e1,e2,...,en}下发生的概率P(Hp|E)={P(hp_1|e1),P(hp_2|e2),...,P(hp_n|en)}以及被告辩称内容Hq={hq_1,hq_2,...,hq_n}在真实证据E={e1,e2,...,en}下发生的概率P(Hq|E)={P(hq_1|e1),P(hq_2|e2),...,P(hq_n|en)};
C4、根据贝叶斯定理,采用似然比检验真实证据与事实认定的支持度LR,计算公式具体为:其中LRi表示原告与被告的第i对诉请与辩称的真实证据与事实认定的支持度,P(ei|hp_i)表示原告第i项诉请得到真实证据的支持度,P(ei|hq_i)表示被告第i项辩称得到真实证据的支持度;
C5、统计待评估裁判文书X中所有的LR值,得到待评估裁判文书X真实证据对于事实认定支持度proof_suppot(X),计算公式如下:
作为优选方案,所述原告诉请内容在真实证据下发生的概率,计算方法具体包括:构造训练数据模式以及匹配标签,输入自定义双层卷积神经网络中进行训练,获取待评估裁判文书X的认定事实、真实证据、原告诉请内容,输入训练好的自定义双层卷积神经网络,经过嵌入层、池化层计算,最后通过softmax层分类,将输出概率作为原告诉请内容在真实证据下发生的概率;
所述被告辩称内容在真实证据下发生的概率,计算方法具体包括:构造训练数据模式以及匹配标签,输入自定义双层卷积神经网络中进行训练,获取待评估裁判文书X的认定事实、真实证据、被告辩称内容,输入训练好的自定义双层卷积神经网络,经过嵌入层、池化层计算,最后通过softmax层分类,将输出概率作为被告辩称内容在真实证据下发生的概率。
作为优选方案,步骤S3中,对待评估裁判文书X的案件信息与适用法条的关联度进行检测与评估具体包括以下步骤:
D1.文本预处理,包括:对法条和裁判文书进行文本预处理,包括分词、过滤停用词;
D2.以文书案由分类构建优秀文书库进行结构化处理;
D3.建立法条属性库以及建立文书与法条交互信息库,所述属性包括关键词、案由类型、人物属性、事件属性,所述文书与法条交互信息是指裁判文书对法条的引用情况;
D4.基于案件事实与法条引用的法条排序模型构建,包括案件事实与法条隐含特征提取、利用排序模型Listwise进行排序输出以及利用交叉熵损失函数进行优化训练;
D5.采用待评估裁判文书X中实际引用法条在所述适用法条排序列表的排名度来衡量案件信息与适用法条的关联度,计算公式如下:
其中nlaw为待评估裁判文书X中实际所使用的法条数;law_ranki为待评估裁判文书X中实际所使用的第i条法条在所述适用法条排序列表中的排名顺序。
作为优选方案,步骤D4中,具体包括如下步骤:
a、获取一类案由下的裁判文书集合和法条集合,根据所述法条和所述裁判文书的属性共现次数,构建文书与法条关联特征向量矩阵V,
其中,Casen表示第n个裁判文书,Lawn表示第m个法条,Vnm表示第n个裁判文书与第m个法条的属性共现次数;
b、采用LFM隐含语义模型的矩阵分解原理,将文书与法条关联特征向量矩阵V分解为文书隐含特征矩阵J与法条隐含特征矩阵O;
其中Jnf表示第n个文书的第f个隐含特征,Omf表示第m个法条的第f个隐含特征,Prof表示第f个隐含特征;
c、根据所述文书隐含特征矩阵J与法条隐含特征矩阵O的内积计算文书与法条的内在联系,得到每个文书对应的法条引用列表;
d、将每个文书对应的法条引用列表作为训练样例,利用排序模型Listwise进行排序输出,并利用交叉熵损失函数进行优化训练。
作为优选方案,步骤S4中,具体包括如下步骤:
E1.采用层次分析法确定各一级指标和各二级指标的权重,所述一级指标为语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度,二级指标为一级指标下包括的多个检测与评估对象;
E2.将一级指标及其相关二级指标分数标准归一化处理,映射到[0-1]之间,并根据所述二级指标分数及对应权重计算每一项一级指标分数;
E3.根据计算所得每项一级指标分数及权重计算裁判文书质量分数。
本发明还提供一种面向裁判文书的质量检测及评估系统,包括输入模块、提取模块、检测与评估模块、评分模块;
输入模块,用于输入待评估裁判文书X;
提取模块,用于提取待评估裁判文书X中的各信息项,所述信息项中包含对应的多个信息点;
检测与评估模块,用于根据提取模块提取的信息项对所述待评估裁判文书X的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度进行检测与评估;
评分模块,用于根据检测与评估结果对待评估裁判文书X的质量进行评分。
本发明与现有技术相比,有益效果是:
1、从裁判文书的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度这四个角度去进行评判,使得文书质量评估方面涉及广泛、细致、严谨且灵活。
2、不仅考虑了不同的针对裁判文书的质量评估指标,还给出了各个指标的具体地量化计算方法,使裁判文书的质量评估更加具化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种面向裁判文书的质量检测及评估方法的总体框架图;
图2为一种面向裁判文书的质量检测及评估系统的结构图。
具体实施方式
以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
实施例一:
参照图1,本实施例提供了一种面向裁判文书的质量检测及评估方法,包括步骤:
S1.输入待评估裁判文书X;
S2.提取待评估裁判文书X中的各信息项,所述信息项中包含对应的多个信息点;
S3.根据步骤S2中提取的信息项对所述待评估裁判文书X的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度进行检测与评估;
S4.根据检测与评估结果对待评估裁判文书X的质量进行评分。
步骤S1之前,还包括数据采集步骤,所需的数据指裁判文书和法条库,并根据法律类别对应分类,本实施例以民事案件为主进行说明;裁判文书包括整理后并且按照案由分类的优秀裁判文书库和待评估裁判文书,民事案件案由参考最高人民法院发布的《民事案件案由规定》,刑事裁判文书采用标题提取关键词作为案由,以此分类构建刑事文书库;法条库建立是从各大司法官方网站上采集各案由各类案件所需的所有法条,按编号、法律名称、章数、节数、条数、具体内容等数据格式进行存储。
步骤S2中,裁判文书是非结构化数据,无法被计算机直接使用,需要对裁判文书进行信息提取,并将其转化为计算机可以理解的结构化数据。由于文书在制作过程中非常严谨和规范,其结构内容和书写格式都有比较明确标准和相对固定的位置,信息项即裁判文书中的信息要素,信息点即每个信息项中包含的各个重要信息,如“原告信息人”有姓名、性别、民族、出生日期、身份证号码、居住信息等这些信息点。本实施例以民事裁判文书进行举例说明,如根据《人民法院民事裁判文书制作规范》中规定,将其划分为标题、原告人信息、原告代理律师信息、被告人信息、被告代理律师信息、案件由来、原告诉称、原告证据、被告辩称、事实认定、判决理由与依据、判决结果、尾部、落款和其他等十五大信息项。其中,原被告代理律师信息为非必选项,其他十三部分为必填项,主要是采用段落顺序、关键词提示、段首、段后标签字符等相关正则表达式方式提取。具体提取规则如下表1所示。表1中or表示或,and表示与,=表示为相应值。段首标签表示以某个标签开头,前段标签是指前段信息项,段末标签指以某个标签结尾。
表1裁判文书信息提取规则表
而虽然刑事文书没有相关的制作规范,但是根据中国裁判文书网上及收集的优秀文书库,可以大类分为7类,即一审公诉案件、一审自诉案件、二审公诉案件、二审自诉案件、一审裁定、二审维持原判、二审发回重新审理,其提取的信息项与民事文书类似,但是关键词提示、段首、段落标签字词有部分不同。例如:一审公诉案件,开头部分是“公诉机关XXX人民检察院”,自诉案件中原告人一般为:自诉人,对应的律师为诉讼代理人。
具体的:
步骤S3中,对待评估裁判文书X的语言规范性进行检测与评估包括整体篇幅完整性、信息项撰写顺序准确性、撰写语句准确性、案由准确性、审判流程时序性、案件审判时效性的检测与评估。
1、裁判文书应该包括步骤S2中所提取信息项,并且各信息项中包含对应的信息点。完整文书包括必选项为标题、原告人信息、被告人信息、案件由来、原告诉称、原告证据、被告辩称、事实认定、判决理由、判决结果、尾部、落款和其他等十三部分,其中每部分还包含若干内容,具体如下:
原告人信息与被告人信息均分为自然人和组织机构两种情况,“自然人”为原被告信息有:姓名、性别、民族、出生日期、身份证号码、居住信息等;“机构”为原被告信息有:公司名称、住所地、组织机构代码、法定代理人名字、职务等;委托代理人可以是律师,需要姓名、执业证号、机构名称等;也可以是其他人,需要姓名、出生日期、性别、住所地。其各信息点检测均可使用正则表达式或者撰写规则进行检测;
案件由来主要包括案件名称和来源,则使用正则表达式‘本院于.*年.*月.*日(公开|因涉及.*不公开)开庭审理了本案,原告.*及其诉讼代理人.*,被告.*及其诉讼代理人.*等到庭参加诉讼。’进行匹配,如果缺少信息,并且进行记录。
判决理由包括案件性质、案由、争议焦点、引用法律法规、判决依据等;这部分检测均使用自然语言处理工具包结合正则表达式进行提取确定;
判决结果包括当事人全称、执行时间、给付金额撰写格式规范等;
尾部包括诉讼费用负担和告知事项;
落款包括署名、日期、核对戳等;
则待评估裁判文书X的整体篇幅完整性completeness(X)定义为:
其中,xinfolack_ik代表k类案由的待评估裁判文书X中第i项必填信息项中缺失信息点个数,xinfototal_ik代表k类案由裁判文书第i项必填信息项中信息点总数,λik代表k类案由裁判文书第i项信息项的权重,λik的计算方式为:
其中,m代表k类案由裁判文书第i项信息项应具有的篇幅长度,n代表优秀裁判文书库中所有k类案由裁判文书第i项信息项的平均篇幅长度,篇幅长度指裁判文书文本经过预处理后得到的词语个数(具体指动词和名词)。
2、信息项撰写顺序准确性表示裁判文书每部分的内容排版顺序是否存在不合理或者紊乱或者重复的错误,则待评估裁判文书X的信息项撰写顺序准确性write_orderly(X)定义为:
其中,xdisorder代表待评估裁判文书X中顺序紊乱的信息项个数,xtotal_k代表k类案由裁判文书所有的必填信息项个数;
3、撰写语句准确性包括是否有歧义词语、错别字、标点符号使用规范等,主要是通过对整篇裁判文书进行文本切词,将裁判文书逐字逐句的进行切词进行用词检测。错别字和歧义词检测可以采用开源机器语言工具包与自定义错词、词语、歧义词组进行检测,标点符号检测采用《人民法院裁判文书制作规范》中第六项对标点符号检测。则待评估裁判文书X的撰写语句准确性word_accuary(X)定义为:
其中,Xword_mistake代表待评估裁判文书X中歧义词语个数,Xword_error代表待评估裁判文书X中错别字个数,Xpunctuations_error表示待评估裁判文书X中使用错误的标点符号个数;Xword_total表示进行切词并文本处理后字、词以及文书制定规范中的要求的标点符号个数;
4、案由是人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称。每年高院会公布最新的民事案由库,采用正则表达式在文书“案件由来”信息项提取案由,并且根据案件审判日期所属年份匹配对应年份的案由库。则该案由准确性brief_accuary(X)表示为:
其中,文书中提取的“案由”与对应的案由库匹配成功,说明案由准确性为1;否则为0。
由于刑事文书没有关于案由规定,刑事文书这部分无需进行检测与评估。
5、在每个案件信息表中的日期都具有时序性,根据规则抽取出文书的日期有如下:立案日期、收案日期、开庭公告时间、传票发送时间、开庭审理日期、民事判决书时间、结案日期。而这些时间是有先后顺序,例如案发日期、证据中出现时间日期等。则预先建立一套符合案件发展逻辑日期检测规则。具体方案如下:立案日期>收案日期>传票发送日期>开庭公告日期>民事判决日期>结案日期,同时日期之间的时间差是有规定的,如简易程序审理案件,应在立案之日起三个月内审理。因此可能由于人为或者意外出现时间顺序问题,需要制定时间配置规则,检测案件审理流程的时序规范性。则待评估裁判文书X的审判流程时序性wordflow_order(X)定义为:
其中,xdate代表待评估裁判文书X中出现符合案件发展逻辑的日期;xdata_total代表文书中出现的所有日期。
6、案件审判时效性表示司法机关对案件审判效率,由于案件的难易程度不一样,因此采用单一审判时间量是不够合理、科学的,本文中根据评估审判流程时序性时出现的时间节点计算单位时间内工作效率,以天为单位,以出现的事件信息量为司法工作人员工作量;首先获取案件的重要时间节点,并以时间节点为关键标签将案件划分为若干审判环节,计算每个审判环节所需时间。然后获取案件每个审判环节涉及到命名实体词,包括出现人员数量、机构名称、表征事件主题关键词数量。具体步骤如下:
A1.以评估审判流程时序性时出现的时间节点为关键标签将案件划分为若干审判环节;
A2.命名实体词获取,具体包括:根据待评估裁判文书X的结构,制定启发式规则抽取人名实体和机构名实体,启发式规则具体为:原告/被告+NAME,如果长度小于4,那么抽取NAME为人名实体,反之长度大于4且一般含有“公司/办事处/集团/股份”等词,抽取NAME为机构名实体,遍历整篇文章,提取包含人名或机构名的实体子句作为自然标注语料,以上述方法获得具有大量自然标注语料的裁判文书,根据上述原理,采用深度学习算法(bi-lstm/lda/crf其中组合或者一种算法)制定训练抽取模型,并且将待评估裁判文书X的多个审判环节内容进行预处理后输入到训练抽取模型中,获得相关的命名实体词,累积每个审判环节中涉及到的命名实体词数量,预处理包括分词、去除停用词等;
A3.表征案件主题关键词抽取,具体包括:计算经预处理后审判环节中剩余词语的tf-idf特征权重值,tf-idf特征权重值计算要考虑词语长度、词性(动词、名词、动名词一般表征事件信息量较多)、词跨度(词出现的范围,局部还是全局性)、专属词汇权重(是否与案由词相似)、词位置等,将tf-idf特征权重值大于一定阈值的词语作为表征案件主题关键词,并统计各审判环节中表征案件主题关键词个数;
A4.计算待评估裁判文书X的案件审判时效性Efficiency(X),计算公式如下:
其中,h为案件中一共涉及的审判环节数量,tstart_i表示案件第i个审判环节的开始时间,tend_i表示案件第i个审判环节的结束时间;|Ri(x)|表示案件第i个审判环节内涉及到的原告以及被告人数的总数;|Neri(x)|表示案件第i个审判环节内涉及到的命名实体词数量,包括人名(第三人)、机构名、地名、数字型实体等(除去表征案件时间节点的日期);|Keysi(x)|表示案件第i个审判环节内涉及到的表征案件主题关键词个数。
步骤S3中对待评估裁判文书X的法律引用规范性进行检测与评估包括法律名称规范性以及法律引用顺序性的检测与评估。
7、裁判文书应该依法引用相关法律、法规等规范性法律文件作为裁判依据,因此法律名称规范性则直接反映了裁判文书撰写质量。《最高人民法院关于裁判文书引用法律、法规等规范性法律文件的规定》与《人民法院民事裁判文书制作规范》严格规定了在法律法规引用时必须使用正确法律名称。方法如下:
(1).根据正则表达式将法条名称拆分为法律名称和法条编号;(2).直接根据提取得法律名称在法条库中进行查找,如果查找失败,对法规名进行相关文本处理;(3).处理后继续在法条库中进行匹配,如果未进行匹配,则说明该法律名称为非法名称;则引用法律名称规范性lawname_accuary(X)定义为:
/>
其中,xlawname_accuary代表引用法律法规符合规范的条数;xlaw代表该文书类引用的所有法律法规条;
8、《最高人民法院关于裁判文书引用法律、法规等规范性法律文件的规定》第二条明确中规定“并列引用多个规范性法律文件的,引用顺序如下:法律及法律解释、行政法规、地方性法规、自治条例或者单行条例、司法解释。同时引用两部以上法律的,应当先引用基本法律,后引用其他法律。引用包括实体法和程序法的,先引用实体法,后引用程序法。”因此,(1).采用正则表达式抽取裁判文书“事实认定”、“判决理由”中涉及到的法律条文;(2).制定法律引用优先级顺序表,分别检测每个部分法律引用顺序性,累积记录引用顺序错误法律。则法律法规引用顺序性lawname_ordey(X)表示为:
其中,l表示总共有l个引用法律法规的信息项个数,xlaw_order_i代表第i个信息项出现引用法律法规顺序性正确数量;xlaw代表文书全文中引用法律法规数量。
步骤S3中对待评估裁判文书X的说理规范性进行检测与评估包括案件事实说理全面性、真实证据对事实认定支持度的检测与评估。
9、裁判文书表征案件事实内容包括原告(或者公诉人)诉请与被告辩称、事实与理由、法院认为、经人民法院认定的证据与事实认定等信息项组成。但是有些信息项描述过于简单,例如有些文书罗列一系列的证据后,以“经法院审理查明”就确定相关的事实认,导致表征案件事实部分的说理功能完全消失。这些信息项应该都是围绕判决原被告诉请和辩称这一主题进行说理论证的过程,文书中不仅要详细记录原告被诉请和辩称内容,还要结合本院查明证据、事实进行有效说理说理。因此表征案件事实内容各部分的信息项的关键词、命名实体词的分布应该都是均匀、普遍性的。本文思路为:如果某类词均匀分布在表征案件事实的各信息项中,则表明案件各信息项描述的内容均匀普遍,则说理论证也较为详细。方法如下:
B1.获取待评估裁判文书X表征案件事实内部的各信息项,信息项包括原告诉讼请求、被告诉讼请求、原告事实与理由、被告事实与理由、原告证据、被告证据、法院认为部分、经人民法院认定的证据与事实认定等;
B2.命名实体词获取,具体包括:根据待评估裁判文书X的结构,制定启发式规则抽取人名实体和机构名实体,启发式规则具体为:原告/被告+NAME,如果长度小于4,那么抽取NAME为人名实体,反之长度大于4且一般含有“公司/办事处/集团/股份”等词,抽取NAME为机构名实体,遍历整篇文章,提取包含人名或机构名的实体子句作为自然标注语料,以上述方法获得具有大量自然标注语料的裁判文书,根据上述原理,采用深度学习算法(bi-lstm/lda/crf其中组合或者一种算法)制定训练抽取模型,并且将待评估裁判文书X表征案件事实内容各部分的信息项的内容进行预处理后输入到训练抽取模型中,获得相关的命名实体词,累积表征案件事实内容的每项信息项中涉及到的命名实体词数量,预处理包括分词、去除停用词等,且记录每个信息项预处理后剩余词语数量:
B3.表征案件主题关键词抽取,具体包括:计算经预处理后信息项中剩余词语的tf-idf特征权重值,tf-idf特征权重值计算要考虑词语长度、词性(动词、名词、动名词一般表征事件信息量较多)、词跨度(词出现的范围,局部还是全局性)、专属词汇权重(是否与案由词相似)、词位置等,将tf-idf特征权重值大于一定阈值的词语作为表征案件主题关键词,并统计各信息项中表征案件主题关键词个数;
B4.合并重复的表征案件主题关键词与命名实体词,具体包括:采用Word2vec词向量方法将相似表征案件主题关键词和命名实体词进行合并,合并后的表征案件主题关键词和命名实体词统称为重要词语,采用Keys={key1,key2,...,keyn}表示;第i个重要词语在表征案件事实内容的K项信息项中的词频采用KeysNumi={k(num)i1,k(num)i2,...,k(num)iK}表示;
B5.计算重要词语在各信息项的均匀普遍性Universal(keys),计算公式如下:
其中,k(num)iw表示第i个重要词语在表征案件事实内容的第w项信息项中的词频,表示i个重要词语在表征案件事实内容的K项信息项中出现的总数,Nw表示表征案件事实内容的第w项信息项预处理后剩余词语数量;
B6.当Universal(keys)的值越接近0,表示文书案件事实部分每个重要词分布较均匀普遍,说明待测文书在原告被诉请和辩称内容,查明证据与事实,法院论证推理等各个环节说理均衡合理,为了进一步量化评估计算,将计算待评估裁判文书X的案件事实说理全面性Universal(X)的计算公式定义为:
Universal(X)=1-Universal(keys) (11)
10、对于证据的分析是民事裁判文书中对双方争议焦点和事实最重要的判断,更是实现案件实体审理结果的最直接依据。本文的思路为:根据文书证据(各种真实的证据、真实的事实与理由)、法院的事实认定模拟成原因、论点,而原告诉请还是被告辩称作为2个相反的论据,采用深度学习方法计算在文书证据下,分别支持原告方观点的概率和被告方观点的概率,在采用似然比检验方法,在得知审判结论的条件下,计算该证据对结论的支持度。具体步骤如所示:
C1、获取原告诉请内容Hp={hp_1,hp_2,...,hp_n}和与之对应被告辩称文本内容Hq={hq_1,hq_2,...,hq_n},以及根据文书中真实证据书写格式和规则,确定已经进行质证的真实证据E={e1,e2,...,en};
C2、在未得到法院质证的真实证据前,根据原告与被告供述的事实与理由确定原告的第i项诉请和被告的第i项辩称真实发生的概率分别为P(hP_i)、P(hq_i),具体计算公式分别为:
/>
其中,表示原告陈述第i项诉请内容的事实与理由中的命名实体词个数,表示被告陈述第i项辩称内容的事实与理由中的命名实体词个数;/>表示原告陈述第i项诉请内容的实体词个数,/>表示被告陈述第i项辩称内容的实体词个数;
C3、获取原告诉请内容Hp={hp_1,hp_2,...,hp_n}在证据E={e1,e2,...,en}发生的概率P(Hp|E)={P(hp_1|e1),P(hp_2|e2),...,P(hp_n|en)}以及被告辩称内容Hq={hq_1,hq_2,...,hq_n}在证据E={e1,e2,...,en}发生的概率P(Hq|E)={P(hq_1|e1),P(hq_2|e2),...,P(hq_n|en)},具体方法如下:本处的思想是:给定一个原因(文书中的真实证据)和一个观点(文书中认定事实),从两个论据(原告诉请内容和被告辩称内容,一般都是对立情况)中选择一个正确的论据,使得原因可以支持观点,因此需要文书中认定事实、真实证据、原告诉请/被告辩称组成三元组,作为模型中的训练数据;构造训练数据模式[认定事实、真实证据、原告诉请内容]以及匹配标签(原告诉请属实为1,不属实为0),即用[R,E,HP]和[0,1]表示;[认定事实、真实证据、被告辩称内容]以及匹配标签(被告辩称属实为1,不属实为0),即用[R,E,Hq]和[0,1]表示;将其原告诉请在真实证据下发生的概率P(Hp|E)、被告辩称在真实证据下发生的概率P(Hq|E)转为判断以上两组数据模式的匹配度;采用自定义双层卷积神经网络进行匹配度计算,将样本数据中的认定事实、真实证据、原告诉请内容认定事实、真实数据、被告辩称内容分别输入双层卷积神经网络模型中,经过嵌入层、池化层计算,最后通过softmax层分类,最后将输出概率作为在真实证据下原告诉请内容发生概率,或者被告诉请发生的概率;
C4、根据贝叶斯定理,采用似然比检验真实证据与事实认定的支持度LR,计算公式具体为:
其中,LRi表示原告与被告的第i对诉请与辩称的真实证据与事实认定的支持度,P(ei|hp_i)表示原告诉请得到真实证据的支持度,P(ei|hq_i)表示被告第i项辩称得到真实证据的支持度,如果,P(ei|hp_i)>P(ei|hq_i)则原告第i项诉请内容得到证据的支持;否则是被告辩称内容得到证据的支持;
C5、统计待评估裁判文书X中所有的LR值,得到待评估裁判文书X真实证据对于事实认定支持度proof_suppot(X),计算公式如下:
11、检测案情事实与适用法条的关联度需要预先建立的模型学习到正确的法条,之后再与文书中实际引用法条进行对比,进而判断案情事实与适用法条的关联度。具体方法如下:
D1.文本预处理:包括法条和裁判文书预处理;将原告诉请及证据、被告辩称及证据、事实认定等统称为案情详情作为文本预处理,进行分词、过滤停用词;
D2.以文书案由分类构建优秀文书库进行结构化处理:《民事案件案由规定》民事裁判文书小类可分为400多类,按照大类可分为43类,本文中采用大类分类;但是刑事裁判文书案由没有相关法律规定,可以根据每个裁判文书标题内容进行正则与规则方式提取;文书结构化处理首先按照步骤S2中进行,除了采用正则与规则的结合的方法将每个法条分开保存,而且获取文书案件事实的关键词、所关联的人物属性、事件属性等;
D3.建立法条属性库和简单的文书-法条交互信息库:文书-法条交互信息库是指文书对法条的引用情况(如果引用采用“1”表示,反之未引用,采用“0”表示),主要是在后续步骤b、c、d中统计法条属性;法条属性库指的是法条提取关键词/关键词短语、法条所适用的案由类型、法条所适用人物属性(关系、年龄、地点)、事件属性(时间、地点、具体场景)等,具体步骤如下:
a、过滤常用法条:常用法条指的是大概率情况出现于每类案由裁判文书的法条,,如《中华人民共和国诉讼法》关于诉讼费计算这类法条需去除;本文设置在民事文书且每类案由文书出现概率均大于阈值ycivil为常用法条;设置在刑事文书且每类案由文书出现概率均大于阈值ycriminal为常用法条,例如《中华人民共和国民事诉讼法》关于诉讼费计算这类法条需去除;阈值ycivil、阈值ycriminal的具体设置均根据优秀文书库汇总后的法条条文情况而定。
b、提取法条关键词短语:采用textrank的方法提取每条法律条文的关键词短语,如《婚姻法》第十条提取的关键词短语为:婚姻无效、情形、重婚、禁止结婚、亲属关系、婚前、患有、不应当、疾病、未治愈、未到、法定婚龄;
c、获取每条法条所关联的案由类型:统计每条法条适用不同案由类型文书的篇数,并且进行排序,记录排名前M案由名称;
d、法条条文适合人物属性(关系、年龄、地点)、事件属性(事件关键词、事件、地点)等:采用正则与规则的结合的方法,提取法条适用人物属性、事件属性;
D4.基于案件事实与法条引用的法条排序模型构建过程:设某类别案由的文书集合Xexcellent={x1,x2,x3,...,xn},与此涉及到该案由类型下所有法律条文集合为Law={law1,law2,law3,...,lawm},对于待评估的文书,从该类案由下法条集合中找到适合的法条集合Lawn1={law1,law2,...,lawn1},并且对相关法条集合进行排序计算输出;
具体思路:
训练阶段,首先构造训练数据,选择步骤D2、D3中描述的文书属性以及法条属性为训练数据,进行量化表示每个文书与法条的进行内在联系关系,构成文书与法条关联特征向量,但其都属于文本数据,需要对其进行特征向量表示(用one-hot表示,1表示是,0表示否)。然后,引用程度采用关键词短语(关键词短语1,关键词短语2,关键词短语3,...,关键词短语c)、案由类型(案由1,案由2,...,案由c)、关系(当事人关系1,当事人关系2,...,当事人关系c)、年龄段(年龄段1,年龄段2,年龄段3,...,年龄段c)、地点(地点1,地点2,...,地点c)等这些属性共现次数,构建文书与法条关联特征向量矩阵V,
其中,Casen表示第n个裁判文书,Lawm表示第m个法条,vnm表示第n个裁判文书与第m个法条的属性共现次数;采用LFM(隐含语义模型)利用矩阵分解技术,将文书与法条关联特征向量矩阵V分解为文书隐含特征矩阵J和法条隐含特征矩阵O。
其中jnf表示第n个文书的第f个隐含特征,omf表示第m个法条的第f个隐含特征,Prof表示第f个隐含特征;文书隐含特征矩阵J和法条隐含特征矩阵O中的行Ji和Oi分别代表文书和法条的隐含特征向量,根据隐含语义模型原理,则有V=J*OT,则文书Case与法条Law的内在联系计算公式如:
其中,jCase表示文书的隐含特征矩阵,oT Law表示法条Law的隐含特征矩阵转置,Pro表示隐含特征因子数;表示第n个文书第f个隐含特征因子对应值;/>表示第m个法条第f个隐含特征因子对应值;
上述说明文书Case与法律条文Law的内在联系等于文书隐含特征向量与法律条文隐含特征向量内积,因此根据公式(16)得到每个文书-法条列表
将每个文书对应的法条引用列表作为训练样例,利用排序模型Listwise进行排序输出,Listwise常用方法有AdaRank,SoftRank,LambdaMART等,并利用交叉熵损失函数进行优化训练,损失函数使用训练数据的法条列表与排序模型输出的法条列表的概率的交叉熵定义。交叉熵能够在某种程度上度量两个列表之间的距离,如果交叉熵越小即损失函数取值越小,说明文书列表排列的内在联系和实际训练数据集所展示的文书-法条列表排列的内在联系也大约相似,也就是说模型越接近待评估文书对法条的引用程度排序,因此通过优化文书在训练数据和排序模型输出的法条列表之间的距离,来达到优化文书全部的法条排序列表的目的。
损失函数C(J,O)定义如下所示:
其中,n是文书数量,m是法条数量,I(.)是指示函数,vi,l是训练数据时第i个文书与第l个法条内在联系,如果vi,l大于0,I(.)等于1,否则为0;vi,k是排序模型输出时第i个文书与第k个法条内在联系,是正则化项,λ为调整因子,防止过拟合,需要反复进行试验获取;g(.)为logistic函数,即g(x)=1/(1+exp(-x))。
在训练过程中,损失函数通过交替固定变量的梯度下降算法进行优化,即针对J和O进行偏导数,从而优化文书和法条的隐含特征的提取,以便后续的特征选择和训练排序学习模型时使用。
D5.采用待评估裁判文书X中实际引用法条在模型预测的排名度来衡量文书与法条关联度,计算公式如下:
其中nlaw为文书中实际所使用的法条数;law_ranki为文书中实际所使用的法条在排序模型中排名顺序。
步骤S4中,对待评估裁判文书X的质量进行评分的具体过程如下:
E1.确定判断矩阵,采用层次分析法确定各一级指标和各二级指标权重,首先根据层次分析法模型,将文书质量量化评估模型作为目标层,将一级指标作为准则层,将二级指标作为因子层,然后根据层次结构图,构建A-Bi(i=1,2,3,4)判断矩阵:其中各一级指标之间相对于其上一层次目标A的重要性程度打分形式可用比较1-9级标度表打分法确定,具体打分值的定量评价可以咨询专家。A层表示目标:裁判文书质量量化评估,B层表示一级指标,为4个,C层表示二级指标,为11个。具体参照图1。
E2.计算权重系数,根据已构造的判断矩阵,计算判断矩阵的最大特征值和对对应的特征向量,将特征向量归一化后便可以得到判断矩阵的权重向量。对于A-Bi(i=1,2,3,4)的判断矩阵,经数学方法计算出最大特征向量λA,其对应的归一化特征向量ωA={ωA1,ωA2,ωA3,ωA4},其中ωA表示准则Bi对于待测文书质量A的权重。同理对于二级指标判断矩阵B1-Ci(i=1,2,3,4,5,6)计算的最大特征值对应的归一化特征向量为对应一级指标的B1下各个二级指标的权重值;对于二级指标判断矩阵B2-Ci(i=7,8)计算的最大特征值/>对应的归一化特征向量/>为对应一级指标的B2下各个二级指标的权重值;对于二级指标判断矩阵B3-Ci(i=9,10)计算的最大特征值/>对应的归一化特征向量/>为对应一级指标的B3下各个二级指标的权重值;对于二级指标判断矩阵B4-Ci(i=1)计算的最大特征值/>对应的归一化特征向量/>为对应一级指标的B4下各个二级指标的权重值;
E3.判断矩阵一致性检验,得到计算的最大特征值λmax,通过计算公式(19)可得到一致性CI指标取值,其中,n表示三级指标个数,取值为0到11。
E4.层次总排序,选出最优方案,确定一级指标和二级指标的权重。
E5.将一级指标及其相关二级评估指标分数标准归一化处理,映射到[0-1]之间,如果一级指标下有二级指标,则需要根据公式(20)进行计算其一级指标总分数Score(Bi),具体如下:
其中,si代表第某个一级指标中第i二级指标所得分数,wi表示对应一级指标中第i二级指标所占权重,n1代表具有某个一级指标的二级指标数量,四个一级指标对应的二级指标依次是6个、2个、2个、1个。
然后根据计算所得每项一级指标分数及权重进行量化计算裁判文书质量分数score(A),计算公式如下:
其中,Bi代表第i个一级指标所得分数,代表对应一级指标所占权重。
由上述所有内容可知,本发明对于裁判文书的质量评判方法优势在于:
1、文书质量评估方面涉及广泛、细致、严谨,且灵活性。考虑到语句规范性和法律引用规范性各个信息点,针对不同类别案由,可灵活设置不同权重的计算方法;
2、从文书案件事实的各个信息项要素均衡分布出发,建立关键词、实体词归并思路,采用数学统计的方法量化评估重要词语在说理文本中的分布情况;
3、文书证据与事实认定支持度评估方面,采用深度学习算法计算在真实证据下原告/被告诉请/辩称内容的发生的概率,再采用贝叶斯定理与似然比方法、确定真实证据与事实认定支持度。
4、文书事实与适用法条关联度评估方面:结合文书_法律条文交互信息、各自属性信息,采用listrank_MF模型构造训练数据的特征向量,再采用排序学习算法,训练排序模型,选择待测文书的法条集合,再根据实际文书法条在排序中出现的位置进行信息熵值计算,得到案件事实与适用法条的关联度。
实施例二:
参照图2,本实施例提供了一种面向裁判文书的质量检测及评估系统,包括输入模块、提取模块、检测与评估模块、评分模块;
输入模块,用于输入待评估裁判文书X;
提取模块,用于提取待评估裁判文书X中的各信息项,所述信息项中包含对应的多个信息点;
检测与评估模块,用于根据提取模块提取的信息项对所述待评估裁判文书X的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度进行检测与评估;
评分模块,用于根据检测与评估结果对待评估裁判文书X的质量进行评分。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围内。
Claims (8)
1.一种面向裁判文书的质量检测及评估方法,其特征在于,包括步骤:
S1.输入待评估裁判文书X;
S2.提取待评估裁判文书X中的各信息项,所述信息项中包含对应的多个信息点;
S3.根据步骤S2中提取的信息项对所述待评估裁判文书X的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度进行检测与评估;其中,对待评估裁判文书X的语言规范性进行检测与评估包括整体篇幅完整性、信息项撰写顺序准确性、撰写语句准确性、案由准确性、审判流程时序性、案件审判时效性的检测与评估;对待评估裁判文书X的法律引用规范性进行检测与评估包括法律名称规范性以及法律引用顺序性的检测与评估;对待评估裁判文书X的说理规范性进行检测与评估包括案件事实说理全面性、真实证据对事实认定支持度的检测与评估;其中对待评估裁判文书X的案件审判时效性进行检测与评估包括如下步骤:
A1.获取待评估裁判文书X中涉及的时间节点,并以时间节点为关键标签将待评估裁判文书X涉及的案件划分为多个审判环节;
A2.命名实体词获取,具体包括:采用深度学习算法制定训练抽取模型,并将待评估裁判文书X的多个审判环节内容进行预处理后输入到训练抽取模型中,获得相关的命名实体词,累积每个审判环节中涉及到的命名实体词数量;
A3.表征案件主题关键词抽取,具体包括:计算经预处理后审判环节中剩余词语的tf-idf特征权重值,将tf-idf特征权重值大于一定阈值的词语作为表征案件主题关键词,并统计各审判环节中表征案件主题关键词个数;
A4.计算待评估裁判文书X的案件审判时效性Efficiency(X),计算公式如下:
其中,h为案件中一共涉及的审判环节数量,tstart_i表示案件第i个审判环节的开始时间,tend_i表示案件第i个审判环节的结束时间;|Ri(x)|表示案件第i个审判环节内涉及到的原告以及被告人数的总数;|Neri(x)|表示案件第i个审判环节内涉及到的命名实体词数量;|Keysi(x)|表示案件第i个审判环节内涉及到的表征案件主题关键词个数;
S4.根据检测与评估结果对待评估裁判文书X的质量进行评分。
2.根据权利要求1所述的一种面向裁判文书的质量检测及评估方法,其特征在于,所述案件事实说理全面性的检测与评估包括以下步骤:
B1.获取待评估裁判文书X表征案件事实内容各部分的信息项;
B2.命名实体词获取,将待评估裁判文书X表征案件事实内容各部分的信息项的内容进行预处理后输入到训练抽取模型中,获得相关的命名实体词,累积表征案件事实内容的每项信息项中涉及到的命名实体词数量;
B3.表征案件主题关键词抽取,具体包括:计算经预处理信息项中剩余词语的tf-idf特征权重值,将tf-idf特征权重值大于一定阈值的词语作为表征案件主题关键词,并统计各信息项中表征案件主题关键词个数;
B4.合并重复的表征案件主题关键词与命名实体词,具体包括:采用Word2vec词向量方法将相似表征案件主题关键词和命名实体词进行合并,合并后的表征案件主题关键词和命名实体词统称为重要词语,采用Keys={key1,key2,...,keyn}表示;第i个重要词语在表征案件事实内容的K项信息项中的词频采用KeysNumi={k(num)i1,k(num)i2,...,k(num)iK}表示;
B5.计算重要词语在各信息项的均匀普遍性Universal(keys),计算公式如下:
其中,k(num)iw表示第i个重要词语在表征案件事实内容的第w项信息项中的词频,表示i个重要词语在表征案件事实内容的K项信息项中出现的总数,Nw表示表征案件事实内容的第w项信息项预处理后剩余词语数量;
B6.计算待评估裁判文书X的案件事实说理全面性Universal(X),计算公式如下:
Universal(X)=1-Universal(keys)。
3.根据权利要求1所述的一种面向裁判文书的质量检测及评估方法,其特征在于,所述真实证据对事实认定支持度的检测与评估包括以下步骤:
C1、获取原告诉请内容Hp={hp_1,hp_2,...,hp_n}和与之对应被告辩称文本内容Hq={hq_1,hq_2,...,hq_n},以及根据文书中真实证据书写格式和规则,确定已经进行质证的真实证据E={e1,e2,...,en};
C2、在未得到法院质证的真实证据前,根据原告与被告供述的事实与理由确定原告的第i项诉请和被告的第i项辩称真实发生的概率分别为P(hP_i)、P(hq_i),具体计算公式分别为:
其中,表示原告陈述第i项诉请内容的事实与理由中的命名实体词个数,/>表示被告陈述第i项辩称内容的事实与理由中的命名实体词个数;/>表示原告陈述第i项诉请内容的实体词个数,/>表示被告陈述第i项辩称内容的实体词个数;
C3、获取原告诉请内容Hp={hp_1,hp_2,...,hp_n}在真实证据E={e1,e2,...,en}下发生的概率P(Hp|E)={P(hp_1|e1),P(hp_2|e2),...,P(hp_n|en)}以及被告辩称内容Hq={hq_1,hq_2,...,hq_n}在真实证据E={e1,e2,...,en}下发生的概率P(Hq|E)={P(hq_1|e1),P(hq_2|e2),...,P(hq_n|en)};
C4、根据贝叶斯定理,采用似然比检验真实证据与事实认定的支持度LR,计算公式具体为:其中LRi表示原告与被告的第i对诉请与辩称的真实证据与事实认定的支持度,P(ei|hp_i)表示原告第i项诉请得到真实证据的支持度,P(ei|hq_i)表示被告第i项辩称得到真实证据的支持度;
C5、统计待评估裁判文书X中所有的LR值,得到待评估裁判文书X真实证据对于事实认定支持度proof_sup pot(X),计算公式如下:
4.根据权利要求3所述的一种面向裁判文书的质量检测及评估方法,其特征在于,所述原告诉请内容在真实证据下发生的概率,计算方法具体包括:构造训练数据模式以及匹配标签,输入自定义双层卷积神经网络中进行训练,获取待评估裁判文书X的认定事实、真实证据、原告诉请内容,输入训练好的自定义双层卷积神经网络,经过嵌入层、池化层计算,最后通过softmax层分类,将输出概率作为原告诉请内容在真实证据下发生的概率;
所述被告辩称内容在真实证据下发生的概率,计算方法具体包括:构造训练数据模式以及匹配标签,输入自定义双层卷积神经网络中进行训练,获取待评估裁判文书X的认定事实、真实证据、被告辩称内容,输入训练好的自定义双层卷积神经网络,经过嵌入层、池化层计算,最后通过softmax层分类,将输出概率作为被告辩称内容在真实证据下发生的概率。
5.根据权利要求1所述的一种面向裁判文书的质量检测及评估方法,其特征在于,步骤S3中,对待评估裁判文书X的案件信息与适用法条的关联度进行检测与评估具体包括以下步骤:
D1.文本预处理,包括:对法条和裁判文书进行文本预处理,包括分词、过滤停用词;
D2.以文书案由分类构建优秀文书库进行结构化处理;
D3.建立法条属性库以及建立文书与法条交互信息库,所述属性包括关键词、案由类型、人物属性、事件属性,所述文书与法条交互信息是指裁判文书对法条的引用情况;
D4.基于案件事实与法条引用的法条排序模型构建,包括案件事实与法条隐含特征提取、利用排序模型Listwise进行排序输出以及利用交叉熵损失函数进行优化训练;
D5.采用待评估裁判文书X中实际引用法条在所述适用法条排序列表的排名度来衡量案件信息与适用法条的关联度,计算公式如下:
其中nlaw为待评估裁判文书X中实际所使用的法条数;law_ranki为待评估裁判文书X中实际所使用的第i条法条在所述适用法条排序列表中的排名顺序。
6.根据权利要求5所述的一种面向裁判文书的质量检测及评估方法,其特征在于,步骤D4中,具体包括如下步骤:
a、获取一类案由下的裁判文书集合和法条集合,根据所述法条和所述裁判文书的属性共现次数,构建文书与法条关联特征向量矩阵V,
其中,Casen表示第n个裁判文书,Lawn表示第m个法条,Vnm表示第n个裁判文书与第m个法条的属性共现次数;
b、采用LFM隐含语义模型的矩阵分解原理,将文书与法条关联特征向量矩阵V分解为文书隐含特征矩阵J与法条隐含特征矩阵O;
其中Jnf表示第n个文书的第f个隐含特征,Omf表示第m个法条的第f个隐含特征,Prof表示第f个隐含特征;
c、根据所述文书隐含特征矩阵J与法条隐含特征矩阵O的内积计算文书与法条的内在联系,得到每个文书对应的法条引用列表;
d、将每个文书对应的法条引用列表作为训练样例,利用排序模型Listwise进行排序输出,并利用交叉熵损失函数进行优化训练。
7.根据权利要求1所述的一种面向裁判文书的质量检测及评估方法,其特征在于,步骤S4中,具体包括如下步骤:
E1.采用层次分析法确定各一级指标和各二级指标的权重,所述一级指标为语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度,二级指标为一级指标下包括的多个检测与评估对象;
E2.将一级指标及其相关二级指标分数标准归一化处理,映射到[0-1]之间,并根据所述二级指标分数及对应权重计算每一项一级指标分数;
E3.根据计算所得每项一级指标分数及权重计算裁判文书质量分数。
8.一种实现权利要求1所述的一种面向裁判文书的质量检测及评估方法的面向裁判文书的质量检测及评估系统,其特征在于,包括输入模块、提取模块、检测与评估模块、评分模块;
输入模块,用于输入待评估裁判文书X;
提取模块,用于提取待评估裁判文书X中的各信息项,所述信息项中包含对应的多个信息点;
检测与评估模块,用于根据提取模块提取的信息项对所述待评估裁判文书X的语言规范性、法律引用规范性、说理规范性以及案件信息与适用法条的关联度进行检测与评估;
评分模块,用于根据检测与评估结果对待评估裁判文书X的质量进行评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072091.1A CN112365372B (zh) | 2020-10-09 | 2020-10-09 | 一种面向裁判文书的质量检测及评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072091.1A CN112365372B (zh) | 2020-10-09 | 2020-10-09 | 一种面向裁判文书的质量检测及评估方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365372A CN112365372A (zh) | 2021-02-12 |
CN112365372B true CN112365372B (zh) | 2024-01-12 |
Family
ID=74508147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011072091.1A Active CN112365372B (zh) | 2020-10-09 | 2020-10-09 | 一种面向裁判文书的质量检测及评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365372B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988972A (zh) * | 2021-03-19 | 2021-06-18 | 浪潮云信息技术股份公司 | 一种基于数据模型的行政处罚案卷评查方法及系统 |
CN113822042B (zh) * | 2021-08-10 | 2022-06-17 | 深圳市长亮科技股份有限公司 | 一种信息处理方法及装置、存储介质、计算设备 |
CN114040045A (zh) * | 2021-10-23 | 2022-02-11 | 林章建 | 数字化快速判决装置及其手机载体 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886223A (zh) * | 2017-10-25 | 2018-04-06 | 南京擎盾信息科技有限公司 | 民事案件复杂度指标评价方法及系统 |
CN109409625A (zh) * | 2018-08-16 | 2019-03-01 | 上海绿狮智能信息科技股份有限公司 | 一种对法律事务进行量化评估的方法 |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
CN110717843A (zh) * | 2019-10-21 | 2020-01-21 | 南京大学 | 一种可复用的法条推荐框架 |
CN110851591A (zh) * | 2019-09-17 | 2020-02-28 | 河北省讯飞人工智能研究院 | 一种裁判文书的质量评估方法、装置、设备及存储介质 |
JP2020098594A (ja) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | 情報処理方法、自然言語処理方法及び情報処理装置 |
CN111401047A (zh) * | 2018-12-29 | 2020-07-10 | 北京国双科技有限公司 | 法律文书的争议焦点生成方法、装置及计算机设备 |
CN111597331A (zh) * | 2019-12-29 | 2020-08-28 | 东南大学 | 一种基于贝叶斯网络的裁判文书分类方法 |
-
2020
- 2020-10-09 CN CN202011072091.1A patent/CN112365372B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886223A (zh) * | 2017-10-25 | 2018-04-06 | 南京擎盾信息科技有限公司 | 民事案件复杂度指标评价方法及系统 |
CN109409625A (zh) * | 2018-08-16 | 2019-03-01 | 上海绿狮智能信息科技股份有限公司 | 一种对法律事务进行量化评估的方法 |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
JP2020098594A (ja) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | 情報処理方法、自然言語処理方法及び情報処理装置 |
CN111401047A (zh) * | 2018-12-29 | 2020-07-10 | 北京国双科技有限公司 | 法律文书的争议焦点生成方法、装置及计算机设备 |
CN110851591A (zh) * | 2019-09-17 | 2020-02-28 | 河北省讯飞人工智能研究院 | 一种裁判文书的质量评估方法、装置、设备及存储介质 |
CN110717843A (zh) * | 2019-10-21 | 2020-01-21 | 南京大学 | 一种可复用的法条推荐框架 |
CN111597331A (zh) * | 2019-12-29 | 2020-08-28 | 东南大学 | 一种基于贝叶斯网络的裁判文书分类方法 |
Non-Patent Citations (2)
Title |
---|
一则民事裁判文书的评价性手段初探;王婕;;科技信息(第30期);全文 * |
面向法院裁判文书的质量检测技术研究;李嘉伟;中国优秀硕士学位论文全文数据库(第2019-01期);第1-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112365372A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059311B (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
CN112365372B (zh) | 一种面向裁判文书的质量检测及评估方法及系统 | |
CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
EP2711849A2 (en) | Learning opinion-related patterns for contextual and domain-dependent opinion detection | |
US20090216524A1 (en) | Method and system for estimating a sentiment for an entity | |
CN111401040B (zh) | 一种适用于word文本的关键词提取方法 | |
Takala et al. | Gold-standard for Topic-specific Sentiment Analysis of Economic Texts. | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN112035658A (zh) | 基于深度学习的企业舆情监测方法 | |
CN111966944A (zh) | 一种多层级用户评论安全审核的模型构建方法 | |
CN115130465A (zh) | 文献数据集上知识图谱实体标注错误识别方法和系统 | |
Gao et al. | Sentiment classification for stock news | |
CN113010684A (zh) | 民事诉判图谱的构建方法及系统 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN115422371A (zh) | 一种基于软件测试知识图谱的检索方法 | |
CN113742469B (zh) | 基于Pipeline处理和ES储存问答系统构建方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN111597793B (zh) | 基于sao-adv结构的论文创新性的测度方法 | |
CN112395484A (zh) | 一种面向自动驾驶汽车的用户满意度评价方法 | |
Hathout | Acquisition of morphological families and derivational series from a machine readable dictionary | |
Çelebi et al. | Automatic question answering for Turkish with pattern parsing | |
Rawal et al. | Semi-automated clinical lexicon induction and its use in cohort selection from clinical notes | |
Aboelela et al. | Ontology-Based Approach for Feature Level Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |