CN116629258A

CN116629258A - 基于复杂信息项数据的司法文书的结构化分析方法及系统

Info

Publication number: CN116629258A
Application number: CN202310904474.8A
Authority: CN
Inventors: 王乐凯; 李嵩; 彭功仁; 陈宝龙; 周海龙; 周超; 陆佃杰
Original assignee: Beiming Chenggong Software Shandong Co ltd
Current assignee: Beiming Chenggong Software Shandong Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116629258B

Abstract

本发明公开了基于复杂信息项数据的司法文书的结构化分析方法及系统，该方法包括以下步骤：对原始司法文书中文本数据进行数据清洗；对文本进行基础处理；从关键信息中提取案件相关的实体信息；识别关键信息中描述实体信息的关键事件；分析关键信息中关键事件之间的关联关系；将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类；评估不同司法文书之间的相似程度；将结构化数据整合，形成可视化报告。本发明将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据的过程中，利用改进K‑means算法帮助用户更好地处理高维度数据和非球形簇等问题，提高聚类的质量和准确性。

Description

基于复杂信息项数据的司法文书的结构化分析方法及系统

技术领域

本发明属于检察领域，尤其是基于复杂信息项数据的司法文书的结构化分析方法及系统。

背景技术

司法文书是指由司法机关制作的文书，包括判决书、裁定书、调解书等。它们记录了法院审理案件的过程和结果，是司法活动的重要产物。司法文书具有法律效力，对于当事人的权利和义务具有约束力。在司法实践中，司法文书扮演着非常重要的角色，是司法公正、透明的重要体现。

目前解析司法文书的方法主要有以下几种：

1、传统的手工解析法：即采用人工阅读、理解、分析文书内容的方法，通过专业人员进行判断和归纳；

2、基于机器学习或深度学习等技术，对司法文书进行自动分析、解析和抽取信息。这些技术能够识别文本中的实体和关系，以及提取出重要的信息和结论；

3、将司法文书中的各个实体和关系构建成知识图谱，并进行可视化展示和查询。通过这种方式，可以更加直观地理解和分析司法文书中的内容。

上述方法中均可可以实现司法文书的解析，但是当司法文书中出现语言多样性、语义复杂性时，其单个方法的解决可能存在应用范围较窄，造成司法文书解析过程效率的低下。

在现有技术中，公开号为CN108197163A的中国专利公开了一种基于裁判文书的结构化处理方法，包括采用自然语言处理技术和高级机器学习技术，自动实现基于案由文本的关键词提取的案件类型分类，从而通过构建案件层次结构和设计的提取规则进行结构化处理，本发明通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进，并得到案例的类标签；根据不同案例类型创建不同层次框架，结合设计的提取规则，得到裁判文书的结构化处理。但该方法在对实体信息标注时未采用命名实体识别技术，标注效率低，同时在进行结构化处理时，未考虑关键事件及其关联关系，不能很好理解案件的发展轨迹和关键节点，影响结构化数据质量和准确性，且未对结构化数据按照目录结构和分析结果进行整合形成可视化报告，数据可读性不足。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

发明目的：提供基于复杂信息项数据的司法文书的结构化分析方法及系统，以克服现有相关技术所存在的上述技术问题。

技术方案：基于复杂信息项数据的司法文书的结构化分析方法及系统，该结构化分析方法包括以下步骤：

S1、对原始司法文书中文本数据进行数据清洗；

S2、基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息；

S3、通过命名实体识别技术，从关键信息中提取案件相关的实体信息；

S4、识别关键信息中描述实体信息的关键事件，构建业务知识树；

S5、分析关键信息中关键事件之间的关联关系；

S6、将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据；

S7、利用文本相似度计算评估不同司法文书之间的相似程度，并通过检索引擎查找相关文书信息；

S8、将结构化数据按照目录结构和分析结果进行整合，形成可视化报告。

在进一步的实施例中，所述基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息包括以下步骤：

S21、使用分词工具将文本数据拆分成若干词汇，并为每个词汇分配一个词性标签；

S22、选择BERT预训练模型并加载权值和配置文件；

S23、将文本中的词汇输入到BERT预训练模型中，得到每个词汇的高维向量表示；

S24、根据词汇的高维向量表示的相似性，将词汇进行初步聚类；

S25、在每个聚类中，结合词性标签信息，挑选最具代表性且符合预期词性的词汇作为关键词，并生成关键词列表。

在进一步的实施例中，所述通过命名实体识别技术，从关键信息中提取案件相关的实体信息包括以下步骤：

S31、通过选择和构建不同的特征来捕捉关键信息中的局部和全局信息；

S32、根据训练集中的特征和标签构建最大熵模型；

S33、使用训练集中的数据对最大熵模型进行训练；

S34、使用验证集对训练好的最大熵模型进行评估，并检验最大熵模型的能力；

S35、将训练好的最大熵模型应用于关键词列表，通过最大熵模型预测各类命名实体及文本中的位置。

在进一步的实施例中，所述识别关键信息中描述实体信息的关键事件，构建业务知识树包括以下步骤：

S41、通过规则匹配，根据实体信息间的关系和上下文信息，识别出关键事件；

S42、根据司法文书领域和需求，确定知识树的层级结构；

S43、将关键事件按照预设的层级结构分类，并在每个层级内，将关键事件按照时间顺序、因果关系的逻辑关系进行排序；

S44、将分类后的关键事件按照层级结构和逻辑顺序组织起来，形成完整的业务知识树。

在进一步的实施例中，所述分析关键信息中关键事件之间的关联关系包括以下步骤：

S51、从业务知识树中提取各个层级的关键事件；

S52、使用自然语言处理技术，分析文本数据中关键事件之间的关联关系；

S53、将识别出的关联关系用图形或表格的形式进行可视化展示，以便更直观地理解关键事件之间的联系；

S54、根据关联关系的强度和方向，对业务知识树进行修正和优化，并不断更新和优化关键事件之间的关联关系分析。

在进一步的实施例中，所述将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据包括以下步骤：

S61、文本数据中提取实体信息、关键事件和关联关系，将这些信息转换为特征向量；

S62、根据实体信息、关键事件和关联关系的向量表示，计算对象的密度，并设定正数值作为密度半径；

S63、按照密度大小，对对象空间进行网格划分；

S64、观察每个网格中所有对象的密度分布并选择适当的初始聚类中心；

S65、按照密度顺序检查其他对象，确定其他对象是否可以作为聚类中心；

S66、将其他对象代入原始K-means算法中，进行反复迭代，对网格进行聚类；

S67、将聚类结果映射回实体信息、关键事件和关联关系的文本表示，并根据设定的分类体系，为每个聚类分配类别标签；

S68、将按照分类体系归类的实体信息、关键事件和关联关系输出为结构化数据。

在进一步的实施例中，所述根据实体信息、关键事件和关联关系的向量表示，计算对象的密度，并设定正数值作为密度半径包括以下步骤：

S621、将实体信息、关键事件和关联关系的向量表示进行加权求和，形成综合特征向量；

S622、通过余弦相似度计算对象之间的相似性；

S623、对于每个对象，统计在其密度半径范围内的其他对象数量，并以此作为该对象的密度，并设定密度阈值。

在进一步的实施例中，所述将其他对象代入原始K-means算法中，进行反复迭代，对网格进行聚类包括以下步骤：

S661、随机选择k个点作为初始簇中心，将每个网格点分配到距离它最近的簇中心所在的簇中；

S662、针对每个簇，计算该簇中所有网格点的平均值，将计算结果作为新的簇中心；

S663、对没有被分配到任何一个簇中的其他对象，将其他对象添加到与其他对象最近的簇中，并重新计算该簇的中心；

S664、重复上述步骤，直到达到预定的迭代次数。

在进一步的实施例中，所述利用文本相似度计算评估不同司法文书之间的相似程度，并通过检索引擎查找相关文书信息包括以下步骤：

S71、将预处理好的司法文书文本转换为特征向量，并根据特征向量计算文本之间的相似度；

S72、使用倒排索引等技术建立文书数据的索引；

S73、输入一个查询文书并转换为特征向量，并利用检索引擎在索引中快速查找与该查询文书具有较高相似度的文书；

S74、设置一个相似度阈值，当计算出的相似度大于该阈值时，认为两个文书是相关的。

根据本发明的另一个方面，还提供了基于复杂信息项数据的司法文书的结构化分析系统，该系统包括：数据清洗模块、文本处理模块、实体识别模块、业务知识树构建模块、关联分析模块、归类整理模块、相似检索模块及可视报告模块；

所述数据清洗模块，用于对原始司法文书中文本数据进行数据清洗。

所述文本处理模块，用于基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息。

所述实体识别模块，用于通过命名实体识别技术，从关键信息中提取案件相关的实体信息。

所述业务知识树构建模块，用于识别关键信息中描述实体信息的关键事件，构建业务知识树。

所述关联分析模块，用于分析关键信息中关键事件之间的关联关系。

所述归类整理模块，用于将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据。

所述相似检索模块，用于利用文本相似度计算评估不同司法文书之间的相似程度，并通过检索引擎查找相关文书信息；

所述可视报告模块，用于将结构化数据按照目录结构和分析结果进行整合，形成可视化报告。

有益效果

1、本发明基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息；深度学习算法和自然语言处理技术能够自动学习和理解文本的语义和结构信息，从而提取出关键信息，与传统的方法相比，深度学习算法能够更好地处理文本数据中的复杂关系和非线性特征。

2、本发明通过命名实体识别技术，从关键信息中提取案件相关的实体信息；命名实体识别技术可以识别出文本中具有特定含义的实体，如人名、地名、机构名等，从而可以更加准确地抽取出与案件相关的信息，为后续的分析提供更加丰富的信息。

3、本发明识别关键信息中描述实体信息的关键事件，构建业务知识树；通过识别关键事件，可以更好地理解文本内容，从而将关键信息按照一定的分类体系进行组织和归纳，构建业务知识树，这样可以更好地理解案件的发展轨迹和关键节点，为后续分析提供更加深入的信息，通过分析关键事件之间的关联关系，可以更好地理解案件的发展过程，并进行更加精细化的分析。

4、本发明将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据，将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据的过程中，改进K-means算法可以帮助用户更好地处理高维度数据和非球形簇等问题，提高聚类的质量和准确性；同时，改进后的算法可以加速计算过程，提供更丰富的可视化效果，使得结构化数据更加清晰和易于理解和应用。

5、利用文本相似度计算可以帮助确定不同司法文书之间的相似程度，从而更好地了解司法案例和相关规定，同时，通过检索引擎查找相关文书信息可以帮助补充数据集和扩充搜索范围，提高分析的全面性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于复杂信息项数据的司法文书的结构化分析方法的流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

根据本发明的实施例，提供了基于复杂信息项数据的司法文书的结构化分析方法及系统。

如图1所示，根据本发明一个实施例，提供了基于复杂信息项数据的司法文书的结构化分析方法，该结构化分析方法包括以下步骤：

S1、对原始司法文书中文本数据进行数据清洗。

具体的，如果司法文书是以HTML格式存储，需要先去除HTML标签。同时，还需要删除一些特殊字符（例如“&”、“*”、“%”等）和无用空格；停用词是指那些没有实际意义，但在文本中频繁出现的词语，例如“的”、“是”、“在”等。需要将这些停用词去除，以减少文本处理的负担，对于英文文本，可以使用Porter算法或Snowball算法对单词进行词干提取，将单词转化为其基本形式。这样可以减少同一词根的多种变形，从而简化文本处理。对于中文文本，需要进行中文分词，将连续的汉字切割成一个一个有实际含义的词语。这样可以更好地理解文本内容。在进行文本分析时，一些低频词往往没有实际意义，但会增加处理时间和复杂度。因此需要将这些低频词删除。对于可能存在的拼写错误或语法错误，可以使用自然语言处理工具（例如NLTK、Spacy等）进行检测和纠正。将文本转换为统一的格式，例如将所有字母转换为小写字母、将数字转换为词语等。这样可以减少文本处理的复杂度和不必要的干扰。

S2、基于深度学习算法和自然语言处理技术对文本进行基础处理（如分词、词性标注等），并提取关键信息。

优选的，所述基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息包括以下步骤：

S22、选择BERT预训练模型并加载权值和配置文件；

具体的，高维向量表示（High-Dimensional Vector Representation），是一种将文本或对象表示成高维向量的技术。在这种表示方法中，每个文本或对象被转换为一个包含多个数值的向量，这些数值反映了该文本或对象在不同维度上的特征。即将每个单词表示成一个高维向量，这些向量可以通过无监督学习算法来训练得到。通过将文本或对象表示成高维向量，我们可以利用向量之间的相似性来计算它们之间的关系，从而实现文本分类、相似度匹配等任务。

S3、通过命名实体识别技术，从关键信息中提取案件相关的实体信息（如人物、组织、地点等）。

优选的，所述通过命名实体识别技术，从关键信息中提取案件相关的实体信息包括以下步骤：

S32、根据训练集中的特征和标签构建最大熵模型；

S33、使用训练集中的数据对最大熵模型进行训练；

具体的，训练集和验证集的出处可以是任何一个语料库或者已有的数据集，最大熵模型是一种常见的分类模型，其核心思想是在满足已知约束条件的前提下，最大化模型的熵值。在构建最大熵模型时，需要确定用于描述样本特征的约束条件和权重。这些约束条件可以是单个特征或多个特征的组合，而权重则用于衡量各个特征之间的相对重要性，将训练好的模型应用于新的数据时，需要先对数据进行与训练集相同的预处理和特征表示，并使用模型进行预测。在预测命名实体或文本位置时，可以使用联合模型（例如条件随机场）来考虑文本中各个实体之间的关系。

S4、识别关键信息中描述实体信息的关键事件（如立案、庭审、判决等），构建业务知识树。

优选的，所述识别关键信息中描述实体信息的关键事件，构建业务知识树包括以下步骤：

S42、根据司法文书领域和需求，确定知识树的层级结构；

S5、分析关键信息中关键事件之间的关联关系（如因果关系、时间顺序等）。

优选的，所述分析关键信息中关键事件之间的关联关系包括以下步骤：

S51、从业务知识树中提取各个层级的关键事件；

S6、将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据。

优选的，所述将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据包括以下步骤：

此外，在聚类分析中，对象的密度是指某个数据点周围其他数据点的数量或紧密程度。通常通过计算目标数据点与其邻近数据点之间的平均距离来衡量密度。较高密度表示该数据点周围有更多相似的数据点，而较低密度表示数据点在空间中比较疏散。

S63、按照密度大小，对对象空间进行网格划分；

此外，对象空间是指用于存储和处理数据对象（如实体信息、关键事件和关联关系向量表示）的多维空间。在这个空间中，每个数据对象都可以被表示为一个坐标点。聚类算法的目标是在对象空间中找到一组具有相似性的对象，并将它们划分为一个或多个簇。

此外，密度分布是指对象空间中数据点的密度沿着各个维度的分布情况。观察密度分布有助于了解数据集的潜在结构、异常值和趋势。在聚类分析中，密度分布可以帮助我们选择合适的初始聚类中心，从而提高算法的性能和准确性。

优选的，所述根据实体信息、关键事件和关联关系的向量表示，计算对象的密度，并设定正数值作为密度半径包括以下步骤：

S622、通过余弦相似度计算对象之间的相似性；

优选的，所述将其他对象代入原始K-means算法中，进行反复迭代，对网格进行聚类包括以下步骤：

S664、重复上述步骤，直到达到预定的迭代次数。

S7、利用文本相似度计算评估不同司法文书之间的相似程度，并通过检索引擎查找相关文书信息。

优选的，所述利用文本相似度计算评估不同司法文书之间的相似程度，并通过检索引擎查找相关文书信息包括以下步骤：

S72、使用倒排索引等技术建立文书数据的索引；

具体的，在开始制作报告之前，需要明确报告的目标和受众群体。不同的目标和受众群体需要不同类型和不同深度的分析内容，收集原始数据，根据需要进行清洗、去重、格式转换等操作，以便于后续的分析和可视化，针对目标和受众确定相应的分析方法和指标，并使用相应的工具和算法进行数据分析和处理，提取出关键信息，根据分析结果和目标受众的需求，设计报告的框架和结构，包括目录结构、分析结果展示方式、数据可视化方案等，根据报告结构和分析结果，选择合适的数据可视化工具和图表类型进行图表设计，包括柱状图、折线图、散点图、地图等，将分析结果和数据可视化图表按照报告框架进行整合，在相应的位置展示，对整合后的报告进行排版和美化，包括字体、颜色、背景等方面的设计，使报告更加易于阅读和理解。

根据本发明的另一个实施例，还提供了基于复杂信息项数据的司法文书的结构化分析系统，该系统包括：数据清洗模块、文本处理模块、实体识别模块、业务知识树构建模块、关联分析模块、归类整理模块、相似检索模块及可视报告模块；

所述数据清洗模块，用于对原始司法文书中文本数据进行数据清洗；

所述文本处理模块，用于基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息；

所述实体识别模块，用于通过命名实体识别技术，从关键信息中提取案件相关的实体信息；

所述业务知识树构建模块，用于识别关键信息中描述实体信息的关键事件，构建业务知识树；

所述关联分析模块，用于分析关键信息中关键事件之间的关联关系；

所述归类整理模块，用于将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据；

综上所述，借助于本发明的上述技术方案，本发明基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息；深度学习算法和自然语言处理技术能够自动学习和理解文本的语义和结构信息，从而提取出关键信息，与传统的方法相比，深度学习算法能够更好地处理文本数据中的复杂关系和非线性特征；本发明通过命名实体识别技术，从关键信息中提取案件相关的实体信息；命名实体识别技术可以识别出文本中具有特定含义的实体，如人名、地名、机构名等，从而可以更加准确地抽取出与案件相关的信息，为后续的分析提供更加丰富的信息；本发明识别关键信息中描述实体信息的关键事件，构建业务知识树；通过识别关键事件，可以更好地理解文本内容，从而将关键信息按照一定的分类体系进行组织和归纳，构建业务知识树，这样可以更好地理解案件的发展轨迹和关键节点，为后续分析提供更加深入的信息，通过分析关键事件之间的关联关系，可以更好地理解案件的发展过程，并进行更加精细化的分析；本发明将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据；本发明将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据的过程中，改进K-means算法可以帮助用户更好地处理高维度数据和非球形簇等问题，提高聚类的质量和准确性。同时，改进后的算法可以加速计算过程，提供更丰富的可视化效果，使得结构化数据更加清晰和易于理解和应用；利用文本相似度计算可以帮助确定不同司法文书之间的相似程度，从而更好地了解司法案例和相关规定，同时，通过检索引擎查找相关文书信息可以帮助补充数据集和扩充搜索范围，提高分析的全面性和准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，该结构化分析方法包括以下步骤：

S1、对原始司法文书中文本数据进行数据清洗；

S2、基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息；包括以下步骤：

S22、选择BERT预训练模型并加载权值和配置文件；

S25、在每个聚类中，结合词性标签信息，挑选最具代表性且符合预期词性的词汇作为关键词，并生成关键词列表；

S3、通过命名实体识别技术，从关键信息中提取案件相关的实体信息；包括以下步骤：

S32、根据训练集中的特征和标签构建最大熵模型；

S33、使用训练集中的数据对最大熵模型进行训练；

S35、将训练好的最大熵模型应用于关键词列表，通过最大熵模型预测各类命名实体及文本中的位置；

S5、分析关键信息中关键事件之间的关联关系；

2.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述识别关键信息中描述实体信息的关键事件，构建业务知识树包括以下步骤：

S42、根据司法文书领域和需求，确定知识树的层级结构；

3.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述分析关键信息中关键事件之间的关联关系包括以下步骤：

S51、从业务知识树中提取各个层级的关键事件；

4.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据包括以下步骤：

S63、按照密度大小，对对象空间进行网格划分；

5.根据权利要求4所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述根据实体信息、关键事件和关联关系的向量表示，计算对象的密度，并设定正数值作为密度半径包括以下步骤：

S622、通过余弦相似度计算对象之间的相似性；

6.根据权利要求4所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述将其他对象代入原始K-means算法中，进行反复迭代，对网格进行聚类包括以下步骤：

S664、重复上述步骤，直到达到预定的迭代次数。

7.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述利用文本相似度计算评估不同司法文书之间的相似程度，并通过检索引擎查找相关文书信息包括以下步骤：

S72、使用倒排索引技术建立文书数据的索引；

8.基于复杂信息项数据的司法文书的结构化分析系统，用于实现上述权利要求1-7中任一项所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，该系统包括：数据清洗模块、文本处理模块、实体识别模块、业务知识树构建模块、关联分析模块、归类整理模块、相似检索模块及可视报告模块；