CN113239206A

CN113239206A - 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置

Info

Publication number: CN113239206A
Application number: CN202110677488.1A
Authority: CN
Inventors: 王燕玲
Original assignee: Guangdong Bowei Chuangyuan Technology Co ltd
Current assignee: Guangdong Bowei Chuangyuan Technology Co ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-08-10
Anticipated expiration: 2041-06-18
Also published as: CN113239206B

Abstract

本发明涉及一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置，包括一种存储装置以及所处理的如下步骤，A）建立法律关系分类词库；B）识别电子标签；C）裁判文书的字段提取与电子标签归类；D）用户选择性校正，将修正逻辑反馈至法律关系分类词库；E）输出与数据直接相关的用户自定义图表或直接相关的多元线性分析结果。本发明可以建立在亿级数量的全量裁判文书数据库之上，数据准确度高，接入灵活，并且电子标签的标注与校正依照NLP深度学习，提高了打标的准确度，同时，还可以帮助用户明白数据背后的关联和含义。

Description

一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置

技术领域

本发明涉及的是文本分类分析技术领域，具体来说，涉及的是一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置。

背景技术

裁判文书是包含判决书、裁定书、调解书、决定书等多种类型的由人民法院依法作出的具有法律意义的文书的统称，而裁判文书的内容具有时代以及地区意义，是随着发展而不断更新自身内容的表达形式，是一种不断变化不断升级的文书体裁，对于裁判文书的研究，有助于理解法制社会的发展脉络，从而找出不同时期不同场合下执法尺度相关的变化情况。

而现有的裁判文书录入系统，对于语言不断变化的现代汉语来说，在把握裁判文书的不同关键字段的特点方面仍然精确度较佳，尤其是多种可以被认为是同一含义的不同词汇，在拾取精度上尚达不到较佳效果，同时，不能很好地根据不同类别的字段建立一目了然的数据表格，并将数据输出成更加直观且能够看出执法尺度变化规律的表格文字形式，因此，不利于执法人员对自身业务水平的提高以及法治社会的健全快速发展。

现有技术中，存在有诸如面向裁判文书的文本信息抽取方法、基于信息提取的裁判文书分类方法、裁判文书结构化处理方法及系统的相关方案，上述的技术方案中均对于提高信息提取精度以及归纳作出了设想以及解释说明，但是，对于字段信息及其关联的数据数值没有一个很好的整理和总结，尤其是不能让查询者很好地完成快速准确地裁判文书录入及后续的资讯分类分析操作，因此仍有值得改进的方面。

发明内容

针对背景技术中存在的技术缺陷，本发明提出一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置，解决了上述技术问题以及满足了实际需求，具体的技术方案如下所示：

一种裁判文书精准化数据归类分析方法，包括如下处理步骤，

A）裁判文书数据库基于NLP学习或手动录入建立裁判文书的多字段归类的法律关系分类词库；

B）法律关系分类词库将录入的归类后多字段识别为电子标签；

C）依照电子标签对电子录入或转成电子形式录入的裁判文书进行匹配的字段提取，同时，对与现有电子标签近似但不吻合的字段进行提取，并归类到近似的电子标签中；

D）将提取完字段的裁判文书重新展示于显示媒介，由用户进行选择性校正，将校正后的字段匹配至用户设定的电子标签，一并录入裁判文书数据库，同时，将校正后的电子标签与被校正字段建立修正逻辑反馈至法律关系分类词库；

E）根据裁判文书所匹配的电子标签，输出与数据直接相关的用户自定义图表，且该用户自定义图表须关联所依托数据类型以及数值大小，输出由数据类型与其数值大小捆绑输出的文字性直接叙述或通过同一电子标签下的数值大小直接相关的多元线性分析结果，由用户选择性展示。

本发明较优的方案之一，所述步骤A中，手动录入为单人本地录入、单人异地录入、多人本地录入以及多人异地录入，其中，法律关系分类词库在录过程中，识别用户录入的第一个非库内已有电子标签字符后，触发自动保存进度并同步云端，或者是每隔固定时间触发自动保存进度并同步云端。

本发明较优的方案之一，所述步骤B中，法律关系分类词库识别的多字段，按照以下级别递增的依据优先度对法律关系分类词库的电子标签进行逐级匹配，以先匹配到的为准，依据同步到云端的最新用户自定义电子标签、司法文书规则中的同义词或近义词、中国汉语词典最新版的同义词或近义词。

本发明较优的方案之一，法律关系分类词库中已完成电子标签化的字段，其电子标签的命名为本词库内使用频度最高、次高、中位数、次低与最低的词作为该电子标签的指引向量，并按照一定周期或用户自定义进行语义转换-颗粒度转换-数据标准化-数据压缩，将最新的结果数据同步于本词库的快取区内。

本发明较优的方案之一，所述步骤D中，将每一次成功匹配电子标签的字段，以及用户每进行一次电子标签的匹配校正、裁判文书数据库将校正后的字段一并在显示媒介上显示，将字段与校正后的电子标签进行关联，并删除该字段在先的关联关系。

本发明较优的方案之一，所述步骤E中，自定义图表的类型包括纯数字表格、柱状图、条形图、饼状图、环形图、线性图与二维面积图。

本发明较优的方案之一，裁判文书数据库定期从记载裁判文书的网站进行数据下载，并自主重复步骤A至步骤E的内容，对通过手动录入但在裁判文书数据库中已有的同一裁判文书进行电子标签匹配逻辑的比对，对匹配度较低的裁判文书的逻辑关系优先度提升，直至该逻辑关系正确匹配的次数增加至标准值，该标准值为不小于5的整数。

一种存储装置，一个或多个处理器以及一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行一种裁判文书精准化数据归类分析方法。

本发明具有的有益效果在于：

1、可以建立在亿级数量的全量裁判文书数据库之上，通过规则与算法将文书数据进行清洗、核对与校验，数据准确度更高，且数据接入更加灵活；

2、电子标签的标注与校正依照NLP深度学习，更加具有逻辑度以及灵活度，让用户可以更加精确地定位到需要的字段内容，并且随时修正匹配逻辑，提高了打标的准确度；

3、让裁判文书内所有需要的字段以及相关数值数据都能更加高效地归纳以及整理，帮助用户能够直接获得通过字段及其相关数值数据所推导出的逻辑规律以及逻辑联系，从而明白数据背后的原理。

具体实施方式

下面对本发明的实施方式进行说明。

在本发明中，裁判文书数据库应当被视为与司法大数据库同等或者同样的全量数据库，应当具有在线联网的云端分析处理能力，基于NLP学习或手动录入的方式将法律关系分类词库的建立，实际上是任何一个具有智能水平的数据库在初始阶段需要经历的过程，让系统具备基础的识别以及提取的能力，这与现有技术中的其他裁判文书录入方式别无二致；而将归类后的法律关系分类词库中的字段，转化成电子标签，则是为电子标签化的字段增加了向量机制，让符合该电子标签的字段类型能够被正确指向，从而执行该电子标签下应当执行的相关操作。

诸如，当检索者通过“赔偿额”这一字段进行数据检索时，实际该字段指向的电子标签“赔偿额”（假定）是涵盖了包括“赔偿额”、“赔偿金额”、“赔款”、“补偿款”等语义近似且指代基本一致的其他词汇，利用该电子标签，提取出所有包含这一字段的相关裁判文书，并通过高亮或者突出显示等其他形式以显示媒介展示给检索者，从而直观地让检索者找到所有信息，同时，通过该电子标签，再提取出直接相关的具体金额数量，并以法律关系逻辑关系，在NLP算法的帮助下，找出与该电子标签直接相关的电子标签条目及其相关数据信息，令整个精准化数据分类的执行更有效率。

而结合语言文字的不断演变造成的表达差异，系统在建立早期是无法识别差异的，同样以“赔偿额”来距离，也就是当裁判文书中出现类似于“偿还”这种不带金额标志的词汇时，系统很可能不能很好地进行识别，如果按照现有技术中的大多数信息归纳处理方式的判定，会出现要么识别要么不识别的情况，这样一来不利于系统字段提取精度的提高，因此，在本发明中，对于这类近似但是难以判定是否直接关联的字段，会全部首先被关联到语义最为接近——语义接近指的是符合中国汉语词典、司法文书规则以及已有自定义词语，在文字构成、词汇性质、语义配合等方面满足近义或同意的不同词语——的电子标签中，由检索者手动将该字段进行校正重新划分，而对于语义难以确定的字段，则交由用户主动校正，而这部分字段则由系统在NLP算法的帮助下，重新进行强化学习的步骤，从而完成对字段的关联和再划分，并将相关逻辑应用至下一次的字段识别之中，从而充分提高了裁判文书内各种简单、复杂字段的识别精度以及提取效率。

同时，利用上述提取出目标电子标签对应的全部字段后，应当输出成与数据直接相关的用户自定义图表，且该用户自定义图表须关联所依托数据类型以及数值大小，具体来说是“赔偿额”相关的全部字段所关联的数字数据均按照裁判文书的条目或者是自定义诸如“年份”、“地区”、“法院”归类的数据集合，输出成按照条目以及条目顺序相关的表格、图表或者图像，并且，根据同一条目下的数据大小关系，按照固定格式套用的方式，输出由数据类型与其数值大小捆绑输出的文字性直接叙述。

诸如，“按照年度顺序，‘赔偿额’呈‘递增’趋势，并且‘某某年’的额度最高”这样的直接描述，而不作任何基于主观的分析，方便检索者直观的理解数据之间的变化趋势或者是特殊值，从而根据对应的数据数值作更加合适的分析。或者是，通过同一电子标签下的数值大小直接相关的多元线性分析结果，利用多元线性分析结果，分析不同的字段之间的关系，诸如，通过分析“自首”、“退赃退赔”、“受贿数额（受贿罪）”相关的数据，可以寄检索出超过1000份的有效值，从重，可以得到非标准化系数、标准化系数以及标准化系数占比、T值等等各个数值，在套用相关公式后，可以得到由F值与SIG值直接推导而出的值为0.0，从而判定，在“自首”、“退赃退赔”、“受贿数额（受贿罪）”中，至少存在一个变量与“刑量适用”有明显线性关系这样的结论，并选择性地向检索者进行展示，让检索者能够更加直观地找到具有直接关联的字段，并准确定位分析相关字段之间的各种联系，获得更加准确的信息，同时，该线性分析结果，可以让系统的NLP算法得以利用，从而更好地完善法律关系分类词库。

本发明较优的方案之一，所述步骤A中，手动录入为单人本地录入、单人异地录入、多人本地录入以及多人异地录入，其中，法律关系分类词库在录过程中，识别用户录入的第一个非库内已有电子标签字符后，触发自动保存进度并同步云端，或者是每隔固定时间触发自动保存进度并同步云端，利用多种录入形式，完善了裁判文书的数据录入的效率，同时，通过引入多人协作的功能，让标签数据库的建立更加高效，同时，触发自动保存进度的方式可以让数据库的更新更加实时，让进度共享，提高了字段录入标签化的效率。

本发明较优的方案之一，所述步骤B中，法律关系分类词库识别的多字段，按照以下级别递增的依据优先度对法律关系分类词库的电子标签进行逐级匹配，以先匹配到的为准，依据同步到云端的最新用户自定义电子标签、司法文书规则中的同义词或近义词、中国汉语词典最新版的同义词或近义词，一般来说，用户自定义电子标签是最为接近实际应用的词库，因而准确度会更高，而司法文书规则中则是针对现有法律关系词库的一个很好的归纳总结，可以提供最为基础且全面的法律关系数据，至于现代汉语词典则是作为最后手段，当系统无法通过前两个依据定义字段对应的电子标签时，则可以利用现代汉语词典进行大量抓取，方便后续的人工校正以及NLP学习，从而实现“大数据+司法文书规则+先进算法”的智能模型的构建，浓缩了训练数据清洗内部规律的相关能力。

本发明较优的方案之一，法律关系分类词库中已完成电子标签化的字段，其电子标签的命名为本词库内使用频度最高、次高、中位数、次低与最低的词作为该电子标签的指引向量，并按照一定周期或用户自定义进行语义转换-颗粒度转换-数据标准化-数据压缩，将最新的结果数据同步于本词库的快取区内，从而令数据可以应用命名识别与实体消歧的操作，更加高效地抽取数据之间的关系，从而完成“数据纠正-删除重复项-修正数据逻辑-语义转换-颗粒度转换-数据标准化-数据压缩”数据清洗过程。

本发明较优的方案之一，所述步骤D中，将每一次成功匹配电子标签的字段，以及用户每进行一次电子标签的匹配校正、裁判文书数据库将校正后的字段一并在显示媒介上显示，将字段与校正后的电子标签进行关联，并删除该字段在先的关联关系，系统通过不断重复上述过程，完成用户实证分析的数据、维度、模型和结果的存储，并且能够通过NLP算法或者手动校正的方式，完成数据校验，同时，用户的手动校正，可以视为手动的字段划取操作，让校正更加智能化以及快速化，让数据有据可查，保证数据校验的质量。

本发明较优的方案之一，所述步骤E中，自定义图表的类型包括纯数字表格、柱状图、条形图、饼状图、环形图、线性图与二维面积图，通过多种不同类型的图表形式，可以让字段及其关联数据数值的展示更加具有直观性，同时检索者通过上述图表，能够更加直观地观察到不同字段之间的数字关系，以满足不同的研究需求。

本发明较优的方案之一，裁判文书数据库定期从记载裁判文书的网站进行数据下载，并自主重复步骤A至步骤E的内容，对通过手动录入但在裁判文书数据库中已有的同一裁判文书进行电子标签匹配逻辑的比对，对匹配度较低的裁判文书的逻辑关系优先度提升，直至该逻辑关系正确匹配的次数增加至标准值，该标准值为不小于5的整数。由于裁判文书的录入如果完全依赖于维护人员手动，那么效率无疑会十分低下。因此应当按照用户自定义的周期节点，定时从在线网站或者是视为在线数据库的裁判文书存储资料库中下载相关文书，让整个系统可以实时更新数据库，降低维护人员的更新工作量。同时系统需要自动地对更新下来的裁判文书作全字段提取以及电子标签化的工作，这一步是脱离人工的NLP自动学习处理过程，可能会存在精度误差，因此，可以利用手动录入的时机，当出现与系统中已有的同样文书时，通过用户的手动校正来提高识别的精度，并按照不同的优先度来判定识别的逻辑的好坏，高优先度的逻辑可以被更多地应用于后续的数据归类分析中，而低优先度的逻辑在不断修正后，可以重新上升到高优先度逻辑中，用以提高整个分析归类系统的处理能力和智能化程度。

其中，所述存储器包括但不限于硬盘和光盘。存储器可用于存储应用程序以及各功能模块，处理器运行存储在存储器的应用程序，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括但不限于硬盘。外存储器可以包括但不限于光盘。本发明所公开的存储器只作为例子而非作为限定。

处理器是终端设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

本发明具有的有益效果在于：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种裁判文书精准化数据归类分析方法，其特征在于，包括如下步骤，

2.根据权利要求1所述的裁判文书精准化数据归类分析方法，其特征在于，所述步骤A中，手动录入为单人本地录入、单人异地录入、多人本地录入以及多人异地录入，其中，法律关系分类词库在录过程中，识别用户录入的第一个非库内已有电子标签字符后，触发自动保存进度并同步云端，或者是每隔固定时间触发自动保存进度并同步云端。

3.根据权利要求2所述的裁判文书精准化数据归类分析方法，其特征在于，所述步骤B中，法律关系分类词库识别的多字段，按照以下级别递增的依据优先度对法律关系分类词库的电子标签进行逐级匹配，以先匹配到的为准，依据同步到云端的最新用户自定义电子标签、司法文书规则中的同义词或近义词、中国汉语词典最新版的同义词或近义词。

4.根据权利要求1或3所述的裁判文书精准化数据归类分析方法，其特征在于，法律关系分类词库中已完成电子标签化的字段，其电子标签的命名为本词库内使用频度最高、次高、中位数、次低与最低的词作为该电子标签的指引向量，并按照一定周期或用户自定义进行语义转换-颗粒度转换-数据标准化-数据压缩，将最新的结果数据同步于本词库的快取区内。

5.根据权利要求1所述的裁判文书精准化数据归类分析方法，其特征在于，所述步骤D中，将每一次成功匹配电子标签的字段，以及用户每进行一次电子标签的匹配校正、裁判文书数据库将校正后的字段一并在显示媒介上显示，将字段与校正后的电子标签进行关联，并删除该字段在先的关联关系。

6.根据权利要求1所述的裁判文书精准化数据归类分析方法，其特征在于，所述步骤E中，自定义图表的类型包括纯数字表格、柱状图、条形图、饼状图、环形图、线性图与二维面积图。

7.根据权利要求1所述的裁判文书精准化数据归类分析方法，其特征在于，裁判文书数据库定期从记载裁判文书的网站进行数据下载，并自主重复步骤A至步骤E的内容，对通过手动录入但在裁判文书数据库中已有的同一裁判文书进行电子标签匹配逻辑的比对，对匹配度较低的裁判文书的逻辑关系优先度提升，直至该逻辑关系正确匹配的次数增加至标准值，该标准值为不小于5的整数。

8.一种存储装置，其特征在于，一个或多个处理器以及一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行根据权利要求1至7中任意一项所述的裁判文书精准化数据归类分析方法。