CN118761475A

CN118761475A - 一种基于知识图谱的案件笔录中多重证据关联方法

Info

Publication number: CN118761475A
Application number: CN202411253905.XA
Authority: CN
Inventors: 秦振凯; 陈文彬; 聂家杰; 徐铭朝
Original assignee: Guangxi Police College; Guangdong Wantong Information Technology Co ltd
Current assignee: Guangxi Police College; Guangdong Wantong Information Technology Co ltd
Priority date: 2024-09-09
Filing date: 2024-09-09
Publication date: 2024-10-11
Anticipated expiration: 2044-09-09
Also published as: CN118761475B

Abstract

本发明公开了一种基于知识图谱的案件笔录中多重证据关联方法，S1、生成语义分析的基础数据集；S2、对基础数据集进行命名实体识别，提取出案件笔录中的关键实体；S3、对提取出的结构化数据进行关系抽取，识别出不同实体之间的时间关系、空间关系、因果关系以及证据之间的逻辑关联；S4、构建加权超图结构，利用加权超图对多实体之间的关系进行建模和表示；S5、将加权超图中的节点和超边信息映射到案件笔录知识图谱中；S6、利用图谱查询和超图分析技术，对构建的案件笔录知识图谱和加权超图进行联合分析，生成证据关联分析结果；S7、根据证据关联分析结果，生成案件分析报告。本发明显著提升了案件分析的自动化程度和处理效率。

Description

一种基于知识图谱的案件笔录中多重证据关联方法

技术领域

本发明涉及案件笔录技术领域，尤其涉及一种基于知识图谱的案件笔录中多重证据关联方法。

背景技术

随着信息技术的发展，大量的司法案件数据以数字化形式存储，尤其是案件笔录，通常以非结构化的文本形式存在，案件笔录一般都案件的核心信息，包括人物、地点、时间、事件和证据，但由于其非结构化特性，处理和分析案件笔录的过程往往十分复杂且耗时，司法人员在进行案件分析时，需要从海量的案件笔录中提取相关信息，并建立各类证据之间的关联，这不仅耗费大量人力，还容易因人为因素导致错误或遗漏，影响案件的审理和决策效率。

现有技术中，司法系统已经尝试通过自然语言处理技术对案件笔录进行自动化处理，包括利用命名实体识别技术提取文本中的关键信息，或通过规则引擎和机器学习模型识别证据之间的简单关联，然而，这些技术方案存在明显的局限性，首先，现有的自然语言处理技术在应对复杂的法律术语和语境时，准确率往往不够理想，尤其在处理跨文本的复杂关系时，容易产生错误识别或信息遗漏，其次，现有技术更多地侧重于单一证据的提取与分析，缺乏对多重证据之间复杂关联关系的全面分析能力，使得在处理涉及多个证人、多个物证或复杂时间线的案件时，难以构建出完整的案件进展路径，导致司法人员在决策时缺乏全面的依据，此外，现有的系统通常采用简单的图结构表示证据之间的关系，难以应对多实体、多关系的复杂场景，尤其是在大规模案件数据分析中，这种方法的效率和效果均不理想。

针对上述现有技术的不足，本申请提出了一种基于知识图谱的案件笔录中多重证据关联方法，旨在解决现有技术中存在的信息处理效率低、多重证据关联分析不足的问题，为司法人员提供更加全面、可靠的决策支持。

发明内容

本发明的一个目的在于提出一种基于知识图谱的案件笔录中多重证据关联方法，本发明能够在大规模案件数据中高效、准确地识别出关键证据和其间的关系，显著提升了案件分析的自动化程度和处理效率。

根据本发明实施例的一种基于知识图谱的案件笔录中多重证据关联方法，包括如下步骤：

S1、利用自然语言处理技术对非结构化案件笔录进行预处理，包括文本的分词、词性标注以及句法分析，生成语义分析的基础数据集；

S2、对基础数据集进行命名实体识别，提取出案件笔录中的关键实体，包括人物、地点、时间、事件和证据信息，将关键实体标记为结构化数据；

S3、对提取出的结构化数据进行关系抽取，识别出不同实体之间的时间关系、空间关系、因果关系以及证据之间的逻辑关联；

S4、构建加权超图结构，利用加权超图对多实体之间的关系进行建模和表示，所述加权超图节点表示案件笔录中的关键实体，超边表示不同实体之间的关联关系，超边的权重用于描述关联关系的强度或重要性；

S5、将加权超图中的节点和超边信息映射到案件笔录知识图谱中；

S6、利用图谱查询和超图分析技术，对构建的案件笔录知识图谱和加权超图进行联合分析，自动识别和推导案件中多重证据之间的关联关系，生成证据关联分析结果；

S7、根据证据关联分析结果，生成案件分析报告。

可选的，所述S1包括以下步骤：

S11、对非结构化案件笔录的文本数据进行分词处理，将连续的案件笔录原始文本数据T拆分为词语序列W；

S12、对词语序列W进行词性标注，生成词性标注序列P；

S13、对词性标注序列P进行句法分析，生成句法依存关系树D：

D = (N, E)；

其中，N表示句法分析中的节点集，每个节点对应一个词语及其词性标注，E表示句法依存关系的边集，每条边表示词语之间的语法依赖关系；

S14、基于句法依存关系树D提取句子中的主谓宾结构及修饰关系，形成结构化的语义片段；

S15、将语义片段构建为语义分析的基础数据集：

；

其中，基础数据集包括语义片段、词性标注序列P和词语序列W。

可选的，所述S2包括以下步骤：

S21、从语义分析的基础数据集中每个语义片段进行命名实体识别，识别出案件笔录中的关键实体E，所述关键实体包括人物、地点、时间、事件和证据信息，生成实体集合：

；

其中，表示命名实体识别过程中的单个关键实体，k为识别出的关键实体数量；

S22、对每个关键实体进行属性标记，标记为结构化数据；

S23、将标记后的结构化数据与原始基础数据集进行关联，生成扩展的结构化数据集：

。

可选的，所述S3包括以下步骤：

S31、从扩展的结构化数据集中提取每个关键实体及相关联的属性信息；

S32、对提取的关键实体与其他实体之间的关联进行分析，识别实体之间的时间关系，时间关系定义为实体之间在时间轴上的先后顺序；

S33、识别实体之间的空间关系，其中，空间关系定义为实体在空间位置上的相对关系；

S34、识别实体之间的因果关系，因果关系定义为一个关键实体的发生导致或影响了另一个实体的发生；

S35、识别实体之间的逻辑关联，逻辑关联定义为证据之间存在的相互依赖关系或矛盾关系；

S36、结合步骤S32至S35所识别的时间关系、空间关系、因果关系和逻辑关联，进行多重证据的综合关联分析，识别案件笔录中多重证据之间的关系，并整合到扩展的结构化数据集中，生成包含实体及其多重关联关系的数据集：

；

其中，k为关键实体的总数量，分别为时间关系、空间关系、因果关系和逻辑关联的权重系数，用于调节不同类型关系在多重证据关联分析中的重要性，分别表示时间关系、空间关系、因果关系和逻辑关联的矩阵元素，描述不同实体间的具体关系，为一个二值函数，定义为：

。

可选的，所述S4包括以下步骤：

S41、从关系数据集中提取每个关键实体及其相关的多重关联关系，其中，表示关键实体与另一个关键实体之间的多重证据关联关系，包括时间关系、空间关系、因果关系和逻辑关联的组合，对于每个关键实体，其与另一个关键实体之间的关联关系表示为：

；

其中，、、和分别为时间关系、空间关系、因果关系和逻辑关联在多重证据关联分析中的影响因子；

S42、构建聚合节点加权超图结构，其中，为聚合节点集，每个聚合节点由相关的关键实体集合组成：

；

其中，f是聚合函数，实体集合聚合为一个节点；

S43、在聚合节点加权超图结构中，每条超边连接多个聚合节点，结合每个聚合节点内部的多个实体间的多重关联关系，并加权后用于超边权重的计算，超边权重通过以下公式计算：

；

其中，、、和为在超边权重计算中各类关系的权重系数，表示在超边中连接的两个聚合节点和，分别表示聚合节点和中包含的具体实体，和是聚合节点和中的实体集合，和是实体集合中的单个实体；

S44、利用聚合节点加权超图对多实体之间的关系进行建模和表示，对于每个聚合节点及其相连的超边，聚合节点间的总关系强度表示为：

；

其中，为指示函数，当聚合节点和通过超边直接或间接相连时取值为1，否则为0，表示在超图中聚合节点间的总关联强度。

可选的，所述S5包括以下步骤：

S51、构建初始案件笔录知识图谱：

；

其中，表示节点集，初始节点集为空集，将用于存储案件笔录中提取的实体，表示边集，初始边集为空集，将用于存储实体间的关系；

S52、将聚合节点加权超图中的每个聚合节点映射到案件笔录知识图谱中的节点：

；

其中，为映射函数，表示聚合节点中各个实体的特征向量，为对应的权重系数；

S53、将聚合节点加权超图中的超边拆分为案件笔录知识图谱中的边：

；

其中，为超边拆分函数，为关系强度函数，表示两个聚合节点和之间的关系强度，为拆分后的边；

S54、将聚合节点加权超图中的超边权重映射为案件笔录知识图谱边的属性权重：

；

其中，为映射函数，为权重映射函数，将超边的权重信息与拆分后的关系结合，为权重系数，为节点的影响因子，为相关联的节点数目；

S55、在案件笔录知识图谱中引入关系节点或聚合关系：

；

其中，为关系节点构建函数，为关系权重系数，表示每个节点在聚合关系中的重要性，为关系影响因子，为节点与其关联关系之间的权重计算，为关系强度调节因子。

可选的，所述S6包括以下步骤：

S61、基于案件笔录知识图谱和聚合节点加权超图，定义图谱查询函数用于接收查询条件q，并在图谱和超图中执行联合查询操作，生成初步查询结果集：

；

其中，表示案件知识图谱中的节点，表示图谱中的边，表示超图中的聚合节点，q为查询条件，指定需要检索的多重证据关联的类型和范围；

S62、对查询结果集进行超图分析，应用超图分析函数识别和推导多重证据之间的复杂关联关系，生成证据关联分析结果：

；

其中，为超图分析函数，用于评估超边中的多重证据关联，为指示函数，当查询结果集与超边存在交集时取值为1，否则为0；

S63、基于证据关联分析结果推导案件中的潜在关联关系，生成最终的证据关联分析报告：

；

其中，为节点与边的关联度量函数，为边的关联强度与分析结果之间的映射函数，表示最终的证据关联分析报告，包含案件中所有相关的多重证据关联关系及其推导结果。

可选的，所述S7包括以下步骤：

S71、根据证据关联分析报告中的分析结果，提取关键证据关联，定义关键证据关联集，用于表示案件中与核心事实相关的主要证据及其关联；

S72、根据关键证据关联集，推导案件进展路径，定义进展路径集，用于表示案件中事件的发生顺序及其关联路径：

；

其中，表示案件进展路径，为路径生成函数，根据关键证据关联集生成路径，为路径重要度量函数，衡量路径在案件进展中的重要性，为路径重要度阈值，超过该阈值的路径被纳入进展路径集；

S73、识别并标注潜在的证据冲突，定义证据冲突集，用于记录案件中存在矛盾或不一致的证据及其关系；

S74、综合步骤S71至S73的结果，生成最终的案件分析报告，案件分析报告包括关键证据关联、案件进展路径及潜在的证据冲突。

本发明的有益效果是：

（1）本发明通过自然语言处理技术对非结构化的案件笔录进行预处理，包括文本分词、词性标注、句法分析，自动提取案件中的关键实体和关系，并将结构化地映射到案件笔录知识图谱中，不仅提高了信息提取的准确性，还为后续多重证据的智能关联分析打下了坚实的基础，相比于传统的单一信息提取方法，本发明能够在大规模案件数据中高效、准确地识别出关键证据和其间的关系，显著提升了案件分析的自动化程度和处理效率。

（2）本发明引入了聚合节点加权超图结构，通过将相关实体聚合为节点，并在加权超图中对多实体之间的复杂关系进行建模与分析，极大地简化了复杂案件中的关系表示，聚合节点不仅降低了超图的复杂度，使得图结构在大规模案件数据中依然保持高效和清晰，而且通过对超边的加权处理，能够精确表示不同证据之间关联的强度和重要性，在处理涉及多个证人、物证的复杂案件时，能够更直观地展示证据之间的多维度关联，并减少计算复杂度，为司法人员提供了更为清晰的分析依据。

（3）本发明通过将案件笔录知识图谱与聚合节点加权超图相结合，对多重证据之间的复杂关联关系进行深入分析，并通过图谱查询和超图分析技术自动识别和推导案件中的潜在关联关系，涵盖了时间、空间、因果和逻辑多维度的关联，生成完整的证据关联分析结果，为案件审理提供全方位的决策支持。

（4）本发明基于多重证据关联分析结果，生成包含关键证据关联、案件进展路径、证据关系结构及潜在证据冲突的案件分析报告，直观展示了案件中的核心证据及其关联路径，并且可以标注可能存在的证据冲突。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于知识图谱的案件笔录中多重证据关联方法的流程图；

图2为本发明提出的一种基于知识图谱的案件笔录中多重证据关联方法中聚合节点加权超图的构建及其在知识图谱中的映射示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1-2，一种基于知识图谱的案件笔录中多重证据关联方法，包括如下步骤：

S4、构建加权超图结构，利用加权超图对多实体之间的关系进行建模和表示，加权超图节点表示案件笔录中的关键实体，超边表示不同实体之间的关联关系，超边的权重用于描述关联关系的强度或重要性；

S7、根据证据关联分析结果，生成案件分析报告。

本实施方式中，S1包括以下步骤：

S12、对词语序列W进行词性标注，生成词性标注序列P；

D = (N, E)；

S15、将语义片段构建为语义分析的基础数据集：

；

本实施方式中，S2包括以下步骤：

S21、从语义分析的基础数据集中每个语义片段进行命名实体识别，识别出案件笔录中的关键实体E，关键实体包括人物、地点、时间、事件和证据信息，生成实体集合：

；

S22、对每个关键实体进行属性标记，标记为结构化数据；

。

本实施方式中，S3包括以下步骤：

S32、对提取的关键实体与其他实体之间的关联进行分析，识别实体之间的时间关系，时间关系定义为实体之间在时间轴上的先后顺序，表示为；

；

。

本实施方式中，S4包括以下步骤：

；

其中，f是聚合函数，实体集合聚合为一个节点；

；

本实施方式中，S5包括以下步骤：

S51、构建初始案件笔录知识图谱：

；

S55、在案件笔录知识图谱中引入关系节点或聚合关系：

；

本实施方式中，S6包括以下步骤：

；

本实施方式中，S7包括以下步骤：

；

S73、识别并标注潜在的证据冲突，定义证据冲突集，用于记录案件中存在矛盾或不一致的证据及其关系：

；

其中，为冲突度量函数，衡量证据和证据之间的矛盾程度，证据就是关键实体，为冲突度阈值，超过该阈值的证据对被视为存在冲突，并纳入证据冲突集；

本发明通过自然语言处理技术对非结构化的案件笔录进行预处理，包括文本分词、词性标注、句法分析，自动提取案件中的关键实体和关系，并将结构化地映射到案件笔录知识图谱中，不仅提高了信息提取的准确性，还为后续多重证据的智能关联分析打下了坚实的基础，相比于传统的单一信息提取方法，本发明能够在大规模案件数据中高效、准确地识别出关键证据和其间的关系，显著提升了案件分析的自动化程度和处理效率。

本发明引入了聚合节点加权超图结构，通过将相关实体聚合为节点，并在加权超图中对多实体之间的复杂关系进行建模与分析，极大地简化了复杂案件中的关系表示，聚合节点不仅降低了超图的复杂度，使得图结构在大规模案件数据中依然保持高效和清晰，而且通过对超边的加权处理，能够精确表示不同证据之间关联的强度和重要性，在处理涉及多个证人、物证的复杂案件时，能够更直观地展示证据之间的多维度关联，并减少计算复杂度，为司法人员提供了更为清晰的分析依据。

本发明通过将案件笔录知识图谱与聚合节点加权超图相结合，对多重证据之间的复杂关联关系进行深入分析，并通过图谱查询和超图分析技术自动识别和推导案件中的潜在关联关系，涵盖了时间、空间、因果和逻辑多维度的关联，生成完整的证据关联分析结果，为案件审理提供全方位的决策支持。

本发明基于多重证据关联分析结果，生成包含关键证据关联、案件进展路径、证据关系结构及潜在证据冲突的案件分析报告，直观展示了案件中的核心证据及其关联路径，并且可以标注可能存在的证据冲突。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，包括如下步骤：

S7、根据证据关联分析结果，生成案件分析报告。

2.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，所述S1包括以下步骤：

S12、对词语序列W进行词性标注，生成词性标注序列P；

D = (N, E)；

S15、将语义片段构建为语义分析的基础数据集：

；

3.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，所述S2包括以下步骤：

；

S22、对每个关键实体进行属性标记，标记为结构化数据；

。

4.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，所述S3包括以下步骤：

；

。

5.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，所述S4包括以下步骤：

；

其中，f是聚合函数，实体集合聚合为一个节点；

；

6.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，所述S5包括以下步骤：

S51、构建初始案件笔录知识图谱：

；

S55、在案件笔录知识图谱中引入关系节点或聚合关系：

；

7.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，所述S6包括以下步骤：

；

S63、基于证据关联分析结果推导案件中的潜在关联关系，生成最终的证据关联分析报告。

8.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法，其特征在于，所述S7包括以下步骤：

；