CN113239208A

CN113239208A - 一种基于知识图谱的标注训练模型

Info

Publication number: CN113239208A
Application number: CN202110489924.2A
Authority: CN
Inventors: 王燕玲
Original assignee: Guangdong Bowei Chuangyuan Technology Co ltd
Current assignee: Guangdong Bowei Chuangyuan Technology Co ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-08-10

Abstract

本发明公开了一种基于知识图谱的标注训练模型，模型由计算机执行，其中的逻辑流程包括基于系统的盗窃罪量刑监测理论模型绘制基本知识图谱；基于裁决文书网或手动添加文书数据创建数据集，并对裁决文书预处理；基于经过预处理的裁决文书进行文本预标注，并对文本预标注进行标签处理；基于经过文本预标注的裁决文书进行命名实体抽取实体信息，并进行文本三元组标注构建新知识图谱，完善基本知识图谱，将提取到数据和实体信息加入到知识库中存储。本发明通过对裁决文书进行信息抽取和标注，进行分析推导和提取融合，不断完善知识图谱，训练得出与其最相关的数学模型或算法参数，为精准量刑提供更成熟的参考结论。

Description

一种基于知识图谱的标注训练模型

技术领域

本市发明涉及司法文件文字识别技术领域，具体讲是一种基于知识图谱的标注训练模型。

背景技术

法律文书是司法案件数据的主要表现形式，人民法院在互联网公布的裁判文书所形成的大量司法大数据，成为分析盗窃罪量刑规律、构建量刑监测模型的重要素材。为了便于后续的识别与提取，也为了使量刑监测的算法模型在运行过程中不受其他信息的干扰，让模型的设置更加科学合理，需要对裁判文书中的司法数据进行数据分析、数据预处理，对给定的裁判文书分段打标签。

裁判文书在结构上由标题、正文与结尾三部分组成；主要包含审判机构名称、文书种类编号、涉案人员信息、案件发生过程、裁判认定结果、参审人员姓名和审理时间等。对于一份刑事裁判文书而言，应准确识别、采集、标注和关联案件中的信息。在上述提取目标中，在文本形式上特点明显，都遵循一定的字符模式，因此可采取模式匹配的方式，通过构建正则表达式模型对其进行定向提取。但任何犯罪都具备若干基本情节，这些用以定罪和量刑的情节是最基础的犯罪形式，反映了犯罪行为的基本情况，而定罪情节和量刑情节这两种信息的内容形式多变，构词规范复杂，不遵循特定的字符模式，提取难度较大。

而知识图谱是一种大规模语义网络，也是提升司法智慧的技术保障，其中包含实体、概念、属性、关系等信息。盗窃罪量刑知识图谱就是通过将盗窃罪的犯罪事实梳理细化分解为定罪情节要素和量刑情节要素等案件要素，建立起描述案件事实与裁判结果之间关系的结构化语义知识库，从而客观反映犯罪与刑罚之间的关系，有利于裁决文书的信息提取。

专利CN109472424B公开了一种犯罪实际刑期的预测方法、装置、存储介质挤服务器，根据用户输入的相应条件通过匹配算法在案例数据库中匹配出对应的判决案例，提取判决案例中的刑期、年份、月份和地区等参数进行可视化处理，并获取预测结果，极大的增加了预测结果的准确性，提高法官和律师的工作效率。但缺乏对于提取的参数缺乏准确的识别与判断，缺少对提取的参数进行结构化处理、搭建知识图谱，以及训练出与其最相关的数学模型或算法参数，无法根据情节推导量刑结果，为精准量刑提供更成熟的参考结论。

发明内容

针对背景技术中存在的技术缺陷，本发明提出一种基于知识图谱的标注训练模型，解决了上述技术问题以及满足了实际需求，具体的技术方案如下所示：

一种基于知识图谱的标注训练模型，所述模型由计算机执行，其中的逻辑流程包括：

基于系统的盗窃罪量刑监测理论模型从法律法规和司法判决文书中抽取结构化与半结构化文本数据，通过设置定罪情节要素和量刑情节要素等知识要素，绘制盗窃罪量刑情节的基本知识图谱；

基于裁决文书网大量的文书数据提取裁决文书自动同步数据，或手动在所述数据集详情页面直接添加文书数据创建数据集，并对裁决文书预处理；

基于经过预处理的裁决文书，对其中半结构化、非结构化的数据，例如罪名、情节类型和情节要素等进行文本预标注，并对所述文本预标注进行标签处理；

基于经过文本预标注的裁决文书进行命名实体，所述命名实体为根据所述基本知识图谱中不同案件实体的相互关系抽取实体信息，并运用命名实体识别技术为抽取出的实体信息进行文本三元组标注；

根据所述命名实体的所述文本三元组标注构建新知识图谱，基于所述基本知识图谱与所述新知识图谱的关系，完善所述基本知识图谱，将提取到的高质量数据和实体信息，经过审核后加入到知识库中进行信息存储。

作为本发明进一步的技术方案，所述基本知识图谱为通过对《刑法》、《量刑指导意见》、《量刑细则》所规定的量刑情节进行分类处理和归纳总结，事先人为地定义好盗窃罪案件信息实体之间的关系，以情节为基本变量，以法律逻辑展开，形成系统完整的量刑因素图谱规则。

作为本发明进一步的技术方案，创建所述数据集包括从裁决文书网爬取裁决文书或手动根据需上传文本的基本情况完成设置后上传裁决文书，所述裁决文书预处理包括文书分类、去重、去噪和分句语料预处理，所述文本分类包括未标注文本和已标注文本。

作为本发明进一步的技术方案，所述文本预标注包括对未标注文本添加标签、对所有文本添加或删除标签以及基于文本或标签的修改标注，所述文本预标注的对象可添加至少一个标签。

作为本发明进一步的技术方案，所述标签处理具体为：对所述裁决文书的标签进行标注，提取规则，再进行校对，判断标注的文本内容和标注规则是否匹配，若匹配，则执行所述命名实体，若不匹配，则返回，重新标注。

作为本发明进一步的技术方案，所述抽取实体信息为基于NLP分析模型自动实时、明确地对大量裁决文书信息进行分析推导和提取融合，结合模式匹配的方法，运用正则表达式，抽取判决文书中的特定表述及要素。

作为本发明进一步的技术方案，所述文本三元组标注的要素包括实体标签、关系标签和特定的规则，所述实体标签基于所述命名实体抽取到的实体信息得到，所述关系标签基于所述基本知识图谱中不同案件实体的相互关系组合得到，所述特定规则是指实体和标签是匹配对应关系，有所述基本知识图谱确定。

作为本发明进一步的技术方案，完善所述基本知识图谱具体为：将所述基本知识图谱和所述新知识图谱进行比较，确定相比较于所述基本知识图谱所述新知识图谱增加的实体、概念、属性、关系等信息，并将新增的信息扩充到所述基本知识图谱中。

本发明具有的有益效果在于：基于系统和互联网的大数据将批量的裁判文书中半结构化、非结构化的数据进行语义标注与特征抽取，形成结构化程度较好且富含语义信息的标签存储于案例库，实现从“沉睡的”大量数据向支持模型运行的“有价值的”信息转化。按照“知识图谱构建——情节提取——模型训练”技术路线，采用正则表达式、命名实体识别、指代技术等方式识别和提取法律文书的情节要素，并在模型中使用了NLP技术——BERT，做案情信息分类，获得更好的情节要素描述表示，还为模型提供了要素信息优先级的解释，之后对提取的信息进行结构化处理、搭建知识图谱，用数学变量来描述数据的特点和规律，训练得出与其最相关的数学模型或算法参数，人工智能模型将通过模拟现实中的量刑过程，根据情节推导量刑结果，为精准量刑提供更成熟的参考结论。

附图说明

图1为本发明的逻辑流程示意图。

具体实施方式

下面结合附图与相关实施例对本发明的实施方式进行说明，需要指出的是，以下相关实施例仅是为了更好说明本发明本身而举的优选实施例，而本发明的实施方式不局限于如下的实施例中，并且本发明涉及本技术领域的相关必要部件，应当视为本技术领域内的公知技术，是本技术领域所属的技术人员所能知道并掌握的。

在本发明的描述中，需要理解的是，术语“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了使子描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，一种基于知识图谱的标注训练模型，所述模型由计算机执行，其中的逻辑流程包括：

盗窃罪量刑监测理论模型的构建离不开信息技术的支持，需要将司法审判领域知识和信息技术相结合，以实证方法来发掘隐藏于大量个案之中的规律。标注训练模型为理论模型提供的技术支撑是按照“知识图谱构建——情节提取——模型训练”技术路线展开，具体而言，该标注训练模型基于系统的所述盗窃罪量刑监测理论模型从法律法规和司法判决文书中抽取结构化与半结构化文本数据，通过设置定罪情节要素和量刑情节要素等知识要素，自顶向下参考法律法规内容，提取高质量数据以及其中的本体和模式信息，如法定定罪量刑的实体信息，并加入到知识库中绘制盗窃罪量刑情节的所述基本知识图谱。再从裁决文书网爬取人民法院公布的裁判文书所形成的大量司法大数据，对裁判文书中的司法数据进行数据分析、数据预处理。通过对经过预处理的裁决文书进行所述文本预标注，使量刑监测的算法模型在运行过程中不受其他信息的干扰，让模型的设置更加科学合理，也为了便于后续的识别与提取。最后采用正则表达式、命名实体识别、指代技术等方式识别和提取法律文书的情节要素，并在模型中使用了NLP技术——BERT，做案情信息分类，获得了更好的情节要素描述表示，还为模型提供了要素信息优先级的解释，引入结构化的语义知识库，将描述案件事实数据粒度通过关系抽取的方式从文档级别降级到标签级别，聚合大量知识标签，构建适用于司法领域的能精准量刑的所述新知识图谱，用数学变量来描述数据的特点和规律，训练得出与其最相关的数学模型或算法参数，人工智能模型将通过模拟现实中的量刑过程，根据情节推导量刑结果，为精准量刑提供更成熟的参考结论。

司法知识图谱是司法智能应用的基础，使用人工智能技术构建盗窃罪知识图谱是实现量刑监测模型的首要步骤。知识图谱是知识的一种结构化图解表示，是一种大规模语义网络，也是提升司法智慧的技术保障，其中包含实体、概念、属性、关系等信息。从所述基本知识图谱融入法律情景模式的角度出发，所述基本知识图谱就是通过将盗窃罪的犯罪事实梳理细化分解为定罪情节要素和量刑情节要素等案件要素，建立起描述案件事实与裁判结果之间关系的结构化语义知识库，从而客观反映犯罪与刑罚之间的关系。由于人工智能技术能够将案件潜在的定罪情节和量刑情节进行关联提取，所以在此阶段将情节设置明确，有助于优化机器模型，提高识别的精准度。比如在定罪情节方面，“盗窃金额”可以细分为“数额较大”“数额巨大”“数额特别巨大”，并与具体金额挂钩。

建立训练模型需要大量的裁决文书数据，通过网络爬取人民法院在互联网公布的裁判文书所形成的大量司法大数据，或者通过手动自主上传文书数据创建所述数据集，并对所述裁决文书预处理包括文书分类、去重、去噪和分句语料预处理，其主要包含裁判文书标题、正文与结尾三部分组成；其中标题部分主要包含审判机构名称与文书种类编号；正文部分主要包含涉案人员信息、案件发生过程、裁判认定结果；结尾主要包含参审人员姓名与审理时间。手动添加的裁决文书的文件格式支持“txt”或“csv”，且一次上传文件的总大小不能超过8MB。

由于模型训练过程需要大量有标签的数据，因此在模型训练之前需对没有标签的文本添加标签。还可以对已标注文本进行修改、删除和重新标注。文本标注支持多标签，即一个标注对象可添加多个标签。其中，标注标签应该基于上述所述裁决文书预处理得到的内容包含以下信息：对于一份刑事裁判文书而言，应准确识别、采集、标注和关联案件中的信息，包括但不限于被告人姓名、罪名、审判结构、裁判年份、法院层级、审理程序、文书性质、定罪情节、量刑情节、主刑、缓刑等内容。

信息抽取技术是数据挖掘领域对半结构化、非结构化的文本数据进行预处理的关键技术，所述抽取实体信息的过程是指从文本中抽取指定的事件、事实等信息，并形成结构化存储的过程。在法律情景之下，自然语言处理技术的实质是让机器模型能够从法律文书的法律语言中（自然语言的一种状态）准确提取相应情节。具体而言，就是基于设计好的盗窃罪案件本体框架，将批量的裁判文书中半结构化、非结构化的数据进行语义标注与特征抽取，形成结构化程度较好且富含语义信息的标签存储于案例库，实现从“沉睡的”大量数据向支持模型运行的“有价值的”信息转化。基于NLP分析模型从上述标签中自动实时、明确地对大量司法文本信息进行分析推导和提取融合，结合模式匹配的方法，运用正则表达式，抽取判决文书中的特定表述及要素，并运用命名实体识别技术为抽取出的实体进行类型标注。

三元组标注适用于标注出语句当中形如（主语/Subject，谓词/Predicate，宾语/Object）结构化知识的场景，标注时不但可以标注出语句当中的实体，还可以标注出实体之间的关系，其在依存句法分析、信息抽取等自然语言处理任务中经常用到。所述文本三元组类型的数据标注，需要关注两种标签：所述实体标签和所述关系标签。所述实体标签基于所述命名实体抽取到的实体信息得到，所述关系标签基于所述基本知识图谱中不同案件实体的相互关系组合得到。所述文本三元组标注支持设置多个所述实体标签和所述关系标签。一个文本数据中，也可以标注多个所述实体标签和所述关系标签。

知识图谱的构建技术在实践中主要分为自顶向下和自底向上两种方式。所述基本知识图谱是基于系统的盗窃罪量刑监测理论模型构建完成后，应综合运用人工智能和大数据技术，从法律法规和司法判决文书中抽取结构化与半结构化文本数据，通过设置定罪情节要素和量刑情节要素等知识要素，参考法律法规内容，提取高质量数据以及其中的本体和模式信息，如法定定罪量刑的实体信息，并加入到知识库中实现图谱构建。

而所述新知识图谱是通过自底向上实现构建的，所述新知识图谱结构是借助人工智能的技术手段，采集公开的法律文书，通过对大量裁判文书进行学习和分析，从中提取法定、酌定情节实体信息，部分经过人工审核后加入到知识库中进行构建的。所述基本知识图谱和所述新知识图谱经过“实体识别——信息抽取——知识融合——知识存储”等环节持续迭代更新，构建盗窃罪量刑情节新的知识图谱，用数学变量来描述数据的特点和规律，训练得出与其最相关的数学模型或算法参数，人工智能模型将通过模拟现实中的量刑过程，根据情节推导量刑结果，为精准量刑提供更成熟的参考结论，以确保量刑规范化、精准化。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于知识图谱的标注训练模型，其特征在于，所述模型由计算机执行，其中的逻辑流程包括：

2.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，所述基本知识图谱为通过对《刑法》、《量刑指导意见》、《量刑细则》所规定的量刑情节进行分类处理和归纳总结，事先人为地定义好盗窃罪案件信息实体之间的关系，以情节为基本变量，以法律逻辑展开，形成系统完整的量刑因素图谱规则。

3.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，创建所述数据集包括从裁决文书网爬取裁决文书或手动根据需上传文本的基本情况完成设置后上传裁决文书，所述裁决文书预处理包括文书分类、去重、去噪和分句语料预处理，所述文本分类包括未标注文本和已标注文本。

4.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，所述文本预标注包括对未标注文本添加标签、对所有文本添加或删除标签以及基于文本或标签的修改标注，所述文本预标注的对象可添加至少一个标签。

5.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，所述标签处理具体为：对所述裁决文书的标签进行标注，提取规则，再进行校对，判断标注的文本内容和标注规则是否匹配，若匹配，则执行所述命名实体，若不匹配，则返回，重新标注。

6.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，所述抽取实体信息为基于NLP分析模型自动实时、明确地对大量裁决文书信息进行分析推导和提取融合，结合模式匹配的方法，运用正则表达式，抽取判决文书中的特定表述及要素。

7.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，所述文本三元组标注的要素包括实体标签、关系标签和特定的规则，所述实体标签基于所述命名实体抽取到的实体信息得到，所述关系标签基于所述基本知识图谱中不同案件实体的相互关系组合得到，所述特定规则是指实体和标签是匹配对应关系，有所述基本知识图谱确定。

8.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，完善所述基本知识图谱具体为：将所述基本知识图谱和所述新知识图谱进行比较，确定相比较于所述基本知识图谱所述新知识图谱增加的实体、概念、属性、关系等信息，并将新增的信息扩充到所述基本知识图谱中。