CN118761475A - 一种基于知识图谱的案件笔录中多重证据关联方法 - Google Patents
一种基于知识图谱的案件笔录中多重证据关联方法 Download PDFInfo
- Publication number
- CN118761475A CN118761475A CN202411253905.XA CN202411253905A CN118761475A CN 118761475 A CN118761475 A CN 118761475A CN 202411253905 A CN202411253905 A CN 202411253905A CN 118761475 A CN118761475 A CN 118761475A
- Authority
- CN
- China
- Prior art keywords
- relationship
- evidence
- case
- entities
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 56
- 230000001364 causal effect Effects 0.000 claims abstract description 22
- 238000012098 association analyses Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 230000002123 temporal effect Effects 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 50
- 230000002776 aggregation Effects 0.000 claims description 45
- 238000004220 aggregation Methods 0.000 claims description 45
- 238000010219 correlation analysis Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 17
- 239000012634 fragment Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000008094 contradictory effect Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 6
- 230000004931 aggregating effect Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010921 in-depth analysis Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的案件笔录中多重证据关联方法,S1、生成语义分析的基础数据集;S2、对基础数据集进行命名实体识别,提取出案件笔录中的关键实体;S3、对提取出的结构化数据进行关系抽取,识别出不同实体之间的时间关系、空间关系、因果关系以及证据之间的逻辑关联;S4、构建加权超图结构,利用加权超图对多实体之间的关系进行建模和表示;S5、将加权超图中的节点和超边信息映射到案件笔录知识图谱中;S6、利用图谱查询和超图分析技术,对构建的案件笔录知识图谱和加权超图进行联合分析,生成证据关联分析结果;S7、根据证据关联分析结果,生成案件分析报告。本发明显著提升了案件分析的自动化程度和处理效率。
Description
技术领域
本发明涉及案件笔录技术领域,尤其涉及一种基于知识图谱的案件笔录中多重证据关联方法。
背景技术
随着信息技术的发展,大量的司法案件数据以数字化形式存储,尤其是案件笔录,通常以非结构化的文本形式存在,案件笔录一般都案件的核心信息,包括人物、地点、时间、事件和证据,但由于其非结构化特性,处理和分析案件笔录的过程往往十分复杂且耗时,司法人员在进行案件分析时,需要从海量的案件笔录中提取相关信息,并建立各类证据之间的关联,这不仅耗费大量人力,还容易因人为因素导致错误或遗漏,影响案件的审理和决策效率。
现有技术中,司法系统已经尝试通过自然语言处理技术对案件笔录进行自动化处理,包括利用命名实体识别技术提取文本中的关键信息,或通过规则引擎和机器学习模型识别证据之间的简单关联,然而,这些技术方案存在明显的局限性,首先,现有的自然语言处理技术在应对复杂的法律术语和语境时,准确率往往不够理想,尤其在处理跨文本的复杂关系时,容易产生错误识别或信息遗漏,其次,现有技术更多地侧重于单一证据的提取与分析,缺乏对多重证据之间复杂关联关系的全面分析能力,使得在处理涉及多个证人、多个物证或复杂时间线的案件时,难以构建出完整的案件进展路径,导致司法人员在决策时缺乏全面的依据,此外,现有的系统通常采用简单的图结构表示证据之间的关系,难以应对多实体、多关系的复杂场景,尤其是在大规模案件数据分析中,这种方法的效率和效果均不理想。
针对上述现有技术的不足,本申请提出了一种基于知识图谱的案件笔录中多重证据关联方法,旨在解决现有技术中存在的信息处理效率低、多重证据关联分析不足的问题,为司法人员提供更加全面、可靠的决策支持。
发明内容
本发明的一个目的在于提出一种基于知识图谱的案件笔录中多重证据关联方法,本发明能够在大规模案件数据中高效、准确地识别出关键证据和其间的关系,显著提升了案件分析的自动化程度和处理效率。
根据本发明实施例的一种基于知识图谱的案件笔录中多重证据关联方法,包括如下步骤:
S1、利用自然语言处理技术对非结构化案件笔录进行预处理,包括文本的分词、词性标注以及句法分析,生成语义分析的基础数据集;
S2、对基础数据集进行命名实体识别,提取出案件笔录中的关键实体,包括人物、地点、时间、事件和证据信息,将关键实体标记为结构化数据;
S3、对提取出的结构化数据进行关系抽取,识别出不同实体之间的时间关系、空间关系、因果关系以及证据之间的逻辑关联;
S4、构建加权超图结构,利用加权超图对多实体之间的关系进行建模和表示,所述加权超图节点表示案件笔录中的关键实体,超边表示不同实体之间的关联关系,超边的权重用于描述关联关系的强度或重要性;
S5、将加权超图中的节点和超边信息映射到案件笔录知识图谱中;
S6、利用图谱查询和超图分析技术,对构建的案件笔录知识图谱和加权超图进行联合分析,自动识别和推导案件中多重证据之间的关联关系,生成证据关联分析结果;
S7、根据证据关联分析结果,生成案件分析报告。
可选的,所述S1包括以下步骤:
S11、对非结构化案件笔录的文本数据进行分词处理,将连续的案件笔录原始文本数据T拆分为词语序列W;
S12、对词语序列W进行词性标注,生成词性标注序列P;
S13、对词性标注序列P进行句法分析,生成句法依存关系树D:
D = (N, E);
其中,N表示句法分析中的节点集,每个节点对应一个词语及其词性标注,E表示句法依存关系的边集,每条边表示词语之间的语法依赖关系;
S14、基于句法依存关系树D提取句子中的主谓宾结构及修饰关系,形成结构化的语义片段;
S15、将语义片段构建为语义分析的基础数据集:
;
其中,基础数据集包括语义片段、词性标注序列P和词语序列W。
可选的,所述S2包括以下步骤:
S21、从语义分析的基础数据集中每个语义片段进行命名实体识别,识别出案件笔录中的关键实体E,所述关键实体包括人物、地点、时间、事件和证据信息,生成实体集合:
;
其中,表示命名实体识别过程中的单个关键实体,k为识别出的关键实体数量;
S22、对每个关键实体进行属性标记,标记为结构化数据;
S23、将标记后的结构化数据与原始基础数据集进行关联,生成扩展的结构化数据集:
。
可选的,所述S3包括以下步骤:
S31、从扩展的结构化数据集中提取每个关键实体及相关联的属性信息;
S32、对提取的关键实体与其他实体之间的关联进行分析,识别实体之间的时间关系,时间关系定义为实体之间在时间轴上的先后顺序;
S33、识别实体之间的空间关系,其中,空间关系定义为实体在空间位置上的相对关系;
S34、识别实体之间的因果关系,因果关系定义为一个关键实体的发生导致或影响了另一个实体的发生;
S35、识别实体之间的逻辑关联,逻辑关联定义为证据之间存在的相互依赖关系或矛盾关系;
S36、结合步骤S32至S35所识别的时间关系、空间关系、因果关系和逻辑关联,进行多重证据的综合关联分析,识别案件笔录中多重证据之间的关系,并整合到扩展的结构化数据集中,生成包含实体及其多重关联关系的数据集:
;
其中,k为关键实体的总数量,分别为时间关系、空间关系、因果关系和逻辑关联的权重系数,用于调节不同类型关系在多重证据关联分析中的重要性,分别表示时间关系、空间关系、因果关系和逻辑关联的矩阵元素,描述不同实体间的具体关系,为一个二值函数,定义为:
。
可选的,所述S4包括以下步骤:
S41、从关系数据集中提取每个关键实体及其相关的多重关联关系,其中,表示关键实体与另一个关键实体之间的多重证据关联关系,包括时间关系、空间关系、因果关系和逻辑关联的组合,对于每个关键实体,其与另一个关键实体之间的关联关系表示为:
;
其中,、、和分别为时间关系、空间关系、因果关系和逻辑关联在多重证据关联分析中的影响因子;
S42、构建聚合节点加权超图结构,其中,为聚合节点集,每个聚合节点由相关的关键实体集合组成:
;
其中,f是聚合函数,实体集合聚合为一个节点;
S43、在聚合节点加权超图结构中,每条超边连接多个聚合节点,结合每个聚合节点内部的多个实体间的多重关联关系,并加权后用于超边权重的计算,超边权重通过以下公式计算:
;
其中,、、和为在超边权重计算中各类关系的权重系数,表示在超边中连接的两个聚合节点和,分别表示聚合节点和中包含的具体实体,和是聚合节点和中的实体集合,和是实体集合中的单个实体;
S44、利用聚合节点加权超图对多实体之间的关系进行建模和表示,对于每个聚合节点及其相连的超边,聚合节点间的总关系强度表示为:
;
其中,为指示函数,当聚合节点和通过超边直接或间接相连时取值为1,否则为0,表示在超图中聚合节点间的总关联强度。
可选的,所述S5包括以下步骤:
S51、构建初始案件笔录知识图谱:
;
其中,表示节点集,初始节点集为空集,将用于存储案件笔录中提取的实体,表示边集,初始边集为空集,将用于存储实体间的关系;
S52、将聚合节点加权超图中的每个聚合节点映射到案件笔录知识图谱中的节点:
;
其中,为映射函数,表示聚合节点中各个实体的特征向量,为对应的权重系数;
S53、将聚合节点加权超图中的超边拆分为案件笔录知识图谱中的边:
;
其中,为超边拆分函数,为关系强度函数,表示两个聚合节点和之间的关系强度,为拆分后的边;
S54、将聚合节点加权超图中的超边权重映射为案件笔录知识图谱边的属性权重:
;
其中,为映射函数,为权重映射函数,将超边的权重信息与拆分后的关系结合,为权重系数,为节点的影响因子,为相关联的节点数目;
S55、在案件笔录知识图谱中引入关系节点或聚合关系:
;
其中,为关系节点构建函数,为关系权重系数,表示每个节点在聚合关系中的重要性,为关系影响因子,为节点与其关联关系之间的权重计算,为关系强度调节因子。
可选的,所述S6包括以下步骤:
S61、基于案件笔录知识图谱和聚合节点加权超图,定义图谱查询函数用于接收查询条件q,并在图谱和超图中执行联合查询操作,生成初步查询结果集:
;
其中,表示案件知识图谱中的节点,表示图谱中的边,表示超图中的聚合节点,q为查询条件,指定需要检索的多重证据关联的类型和范围;
S62、对查询结果集进行超图分析,应用超图分析函数识别和推导多重证据之间的复杂关联关系,生成证据关联分析结果:
;
其中,为超图分析函数,用于评估超边中的多重证据关联,为指示函数,当查询结果集与超边存在交集时取值为1,否则为0;
S63、基于证据关联分析结果推导案件中的潜在关联关系,生成最终的证据关联分析报告:
;
其中,为节点与边的关联度量函数,为边的关联强度与分析结果之间的映射函数,表示最终的证据关联分析报告,包含案件中所有相关的多重证据关联关系及其推导结果。
可选的,所述S7包括以下步骤:
S71、根据证据关联分析报告中的分析结果,提取关键证据关联,定义关键证据关联集,用于表示案件中与核心事实相关的主要证据及其关联;
S72、根据关键证据关联集,推导案件进展路径,定义进展路径集,用于表示案件中事件的发生顺序及其关联路径:
;
其中,表示案件进展路径,为路径生成函数,根据关键证据关联集生成路径,为路径重要度量函数,衡量路径在案件进展中的重要性,为路径重要度阈值,超过该阈值的路径被纳入进展路径集;
S73、识别并标注潜在的证据冲突,定义证据冲突集,用于记录案件中存在矛盾或不一致的证据及其关系;
S74、综合步骤S71至S73的结果,生成最终的案件分析报告,案件分析报告包括关键证据关联、案件进展路径及潜在的证据冲突。
本发明的有益效果是:
(1)本发明通过自然语言处理技术对非结构化的案件笔录进行预处理,包括文本分词、词性标注、句法分析,自动提取案件中的关键实体和关系,并将结构化地映射到案件笔录知识图谱中,不仅提高了信息提取的准确性,还为后续多重证据的智能关联分析打下了坚实的基础,相比于传统的单一信息提取方法,本发明能够在大规模案件数据中高效、准确地识别出关键证据和其间的关系,显著提升了案件分析的自动化程度和处理效率。
(2)本发明引入了聚合节点加权超图结构,通过将相关实体聚合为节点,并在加权超图中对多实体之间的复杂关系进行建模与分析,极大地简化了复杂案件中的关系表示,聚合节点不仅降低了超图的复杂度,使得图结构在大规模案件数据中依然保持高效和清晰,而且通过对超边的加权处理,能够精确表示不同证据之间关联的强度和重要性,在处理涉及多个证人、物证的复杂案件时,能够更直观地展示证据之间的多维度关联,并减少计算复杂度,为司法人员提供了更为清晰的分析依据。
(3)本发明通过将案件笔录知识图谱与聚合节点加权超图相结合,对多重证据之间的复杂关联关系进行深入分析,并通过图谱查询和超图分析技术自动识别和推导案件中的潜在关联关系,涵盖了时间、空间、因果和逻辑多维度的关联,生成完整的证据关联分析结果,为案件审理提供全方位的决策支持。
(4)本发明基于多重证据关联分析结果,生成包含关键证据关联、案件进展路径、证据关系结构及潜在证据冲突的案件分析报告,直观展示了案件中的核心证据及其关联路径,并且可以标注可能存在的证据冲突。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于知识图谱的案件笔录中多重证据关联方法的流程图;
图2为本发明提出的一种基于知识图谱的案件笔录中多重证据关联方法中聚合节点加权超图的构建及其在知识图谱中的映射示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1-2,一种基于知识图谱的案件笔录中多重证据关联方法,包括如下步骤:
S1、利用自然语言处理技术对非结构化案件笔录进行预处理,包括文本的分词、词性标注以及句法分析,生成语义分析的基础数据集;
S2、对基础数据集进行命名实体识别,提取出案件笔录中的关键实体,包括人物、地点、时间、事件和证据信息,将关键实体标记为结构化数据;
S3、对提取出的结构化数据进行关系抽取,识别出不同实体之间的时间关系、空间关系、因果关系以及证据之间的逻辑关联;
S4、构建加权超图结构,利用加权超图对多实体之间的关系进行建模和表示,加权超图节点表示案件笔录中的关键实体,超边表示不同实体之间的关联关系,超边的权重用于描述关联关系的强度或重要性;
S5、将加权超图中的节点和超边信息映射到案件笔录知识图谱中;
S6、利用图谱查询和超图分析技术,对构建的案件笔录知识图谱和加权超图进行联合分析,自动识别和推导案件中多重证据之间的关联关系,生成证据关联分析结果;
S7、根据证据关联分析结果,生成案件分析报告。
本实施方式中,S1包括以下步骤:
S11、对非结构化案件笔录的文本数据进行分词处理,将连续的案件笔录原始文本数据T拆分为词语序列W;
S12、对词语序列W进行词性标注,生成词性标注序列P;
S13、对词性标注序列P进行句法分析,生成句法依存关系树D:
D = (N, E);
其中,N表示句法分析中的节点集,每个节点对应一个词语及其词性标注,E表示句法依存关系的边集,每条边表示词语之间的语法依赖关系;
S14、基于句法依存关系树D提取句子中的主谓宾结构及修饰关系,形成结构化的语义片段;
S15、将语义片段构建为语义分析的基础数据集:
;
其中,基础数据集包括语义片段、词性标注序列P和词语序列W。
本实施方式中,S2包括以下步骤:
S21、从语义分析的基础数据集中每个语义片段进行命名实体识别,识别出案件笔录中的关键实体E,关键实体包括人物、地点、时间、事件和证据信息,生成实体集合:
;
其中,表示命名实体识别过程中的单个关键实体,k为识别出的关键实体数量;
S22、对每个关键实体进行属性标记,标记为结构化数据;
S23、将标记后的结构化数据与原始基础数据集进行关联,生成扩展的结构化数据集:
。
本实施方式中,S3包括以下步骤:
S31、从扩展的结构化数据集中提取每个关键实体及相关联的属性信息;
S32、对提取的关键实体与其他实体之间的关联进行分析,识别实体之间的时间关系,时间关系定义为实体之间在时间轴上的先后顺序,表示为;
S33、识别实体之间的空间关系,其中,空间关系定义为实体在空间位置上的相对关系;
S34、识别实体之间的因果关系,因果关系定义为一个关键实体的发生导致或影响了另一个实体的发生;
S35、识别实体之间的逻辑关联,逻辑关联定义为证据之间存在的相互依赖关系或矛盾关系;
S36、结合步骤S32至S35所识别的时间关系、空间关系、因果关系和逻辑关联,进行多重证据的综合关联分析,识别案件笔录中多重证据之间的关系,并整合到扩展的结构化数据集中,生成包含实体及其多重关联关系的数据集:
;
其中,k为关键实体的总数量,分别为时间关系、空间关系、因果关系和逻辑关联的权重系数,用于调节不同类型关系在多重证据关联分析中的重要性,分别表示时间关系、空间关系、因果关系和逻辑关联的矩阵元素,描述不同实体间的具体关系,为一个二值函数,定义为:
。
本实施方式中,S4包括以下步骤:
S41、从关系数据集中提取每个关键实体及其相关的多重关联关系,其中,表示关键实体与另一个关键实体之间的多重证据关联关系,包括时间关系、空间关系、因果关系和逻辑关联的组合,对于每个关键实体,其与另一个关键实体之间的关联关系表示为:
;
其中,、、和分别为时间关系、空间关系、因果关系和逻辑关联在多重证据关联分析中的影响因子;
S42、构建聚合节点加权超图结构,其中,为聚合节点集,每个聚合节点由相关的关键实体集合组成:
;
其中,f是聚合函数,实体集合聚合为一个节点;
S43、在聚合节点加权超图结构中,每条超边连接多个聚合节点,结合每个聚合节点内部的多个实体间的多重关联关系,并加权后用于超边权重的计算,超边权重通过以下公式计算:
;
其中,、、和为在超边权重计算中各类关系的权重系数,表示在超边中连接的两个聚合节点和,分别表示聚合节点和中包含的具体实体,和是聚合节点和中的实体集合,和是实体集合中的单个实体;
S44、利用聚合节点加权超图对多实体之间的关系进行建模和表示,对于每个聚合节点及其相连的超边,聚合节点间的总关系强度表示为:
;
其中,为指示函数,当聚合节点和通过超边直接或间接相连时取值为1,否则为0,表示在超图中聚合节点间的总关联强度。
本实施方式中,S5包括以下步骤:
S51、构建初始案件笔录知识图谱:
;
其中,表示节点集,初始节点集为空集,将用于存储案件笔录中提取的实体,表示边集,初始边集为空集,将用于存储实体间的关系;
S52、将聚合节点加权超图中的每个聚合节点映射到案件笔录知识图谱中的节点:
;
其中,为映射函数,表示聚合节点中各个实体的特征向量,为对应的权重系数;
S53、将聚合节点加权超图中的超边拆分为案件笔录知识图谱中的边:
;
其中,为超边拆分函数,为关系强度函数,表示两个聚合节点和之间的关系强度,为拆分后的边;
S54、将聚合节点加权超图中的超边权重映射为案件笔录知识图谱边的属性权重:
;
其中,为映射函数,为权重映射函数,将超边的权重信息与拆分后的关系结合,为权重系数,为节点的影响因子,为相关联的节点数目;
S55、在案件笔录知识图谱中引入关系节点或聚合关系:
;
其中,为关系节点构建函数,为关系权重系数,表示每个节点在聚合关系中的重要性,为关系影响因子,为节点与其关联关系之间的权重计算,为关系强度调节因子。
本实施方式中,S6包括以下步骤:
S61、基于案件笔录知识图谱和聚合节点加权超图,定义图谱查询函数用于接收查询条件q,并在图谱和超图中执行联合查询操作,生成初步查询结果集:
;
其中,表示案件知识图谱中的节点,表示图谱中的边,表示超图中的聚合节点,q为查询条件,指定需要检索的多重证据关联的类型和范围;
S62、对查询结果集进行超图分析,应用超图分析函数识别和推导多重证据之间的复杂关联关系,生成证据关联分析结果:
;
其中,为超图分析函数,用于评估超边中的多重证据关联,为指示函数,当查询结果集与超边存在交集时取值为1,否则为0;
S63、基于证据关联分析结果推导案件中的潜在关联关系,生成最终的证据关联分析报告:
;
其中,为节点与边的关联度量函数,为边的关联强度与分析结果之间的映射函数,表示最终的证据关联分析报告,包含案件中所有相关的多重证据关联关系及其推导结果。
本实施方式中,S7包括以下步骤:
S71、根据证据关联分析报告中的分析结果,提取关键证据关联,定义关键证据关联集,用于表示案件中与核心事实相关的主要证据及其关联;
S72、根据关键证据关联集,推导案件进展路径,定义进展路径集,用于表示案件中事件的发生顺序及其关联路径:
;
其中,表示案件进展路径,为路径生成函数,根据关键证据关联集生成路径,为路径重要度量函数,衡量路径在案件进展中的重要性,为路径重要度阈值,超过该阈值的路径被纳入进展路径集;
S73、识别并标注潜在的证据冲突,定义证据冲突集,用于记录案件中存在矛盾或不一致的证据及其关系:
;
其中,为冲突度量函数,衡量证据和证据之间的矛盾程度,证据就是关键实体,为冲突度阈值,超过该阈值的证据对被视为存在冲突,并纳入证据冲突集;
S74、综合步骤S71至S73的结果,生成最终的案件分析报告,案件分析报告包括关键证据关联、案件进展路径及潜在的证据冲突。
本发明通过自然语言处理技术对非结构化的案件笔录进行预处理,包括文本分词、词性标注、句法分析,自动提取案件中的关键实体和关系,并将结构化地映射到案件笔录知识图谱中,不仅提高了信息提取的准确性,还为后续多重证据的智能关联分析打下了坚实的基础,相比于传统的单一信息提取方法,本发明能够在大规模案件数据中高效、准确地识别出关键证据和其间的关系,显著提升了案件分析的自动化程度和处理效率。
本发明引入了聚合节点加权超图结构,通过将相关实体聚合为节点,并在加权超图中对多实体之间的复杂关系进行建模与分析,极大地简化了复杂案件中的关系表示,聚合节点不仅降低了超图的复杂度,使得图结构在大规模案件数据中依然保持高效和清晰,而且通过对超边的加权处理,能够精确表示不同证据之间关联的强度和重要性,在处理涉及多个证人、物证的复杂案件时,能够更直观地展示证据之间的多维度关联,并减少计算复杂度,为司法人员提供了更为清晰的分析依据。
本发明通过将案件笔录知识图谱与聚合节点加权超图相结合,对多重证据之间的复杂关联关系进行深入分析,并通过图谱查询和超图分析技术自动识别和推导案件中的潜在关联关系,涵盖了时间、空间、因果和逻辑多维度的关联,生成完整的证据关联分析结果,为案件审理提供全方位的决策支持。
本发明基于多重证据关联分析结果,生成包含关键证据关联、案件进展路径、证据关系结构及潜在证据冲突的案件分析报告,直观展示了案件中的核心证据及其关联路径,并且可以标注可能存在的证据冲突。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,包括如下步骤:
S1、利用自然语言处理技术对非结构化案件笔录进行预处理,包括文本的分词、词性标注以及句法分析,生成语义分析的基础数据集;
S2、对基础数据集进行命名实体识别,提取出案件笔录中的关键实体,包括人物、地点、时间、事件和证据信息,将关键实体标记为结构化数据;
S3、对提取出的结构化数据进行关系抽取,识别出不同实体之间的时间关系、空间关系、因果关系以及证据之间的逻辑关联;
S4、构建加权超图结构,利用加权超图对多实体之间的关系进行建模和表示,所述加权超图节点表示案件笔录中的关键实体,超边表示不同实体之间的关联关系,超边的权重用于描述关联关系的强度或重要性;
S5、将加权超图中的节点和超边信息映射到案件笔录知识图谱中;
S6、利用图谱查询和超图分析技术,对构建的案件笔录知识图谱和加权超图进行联合分析,自动识别和推导案件中多重证据之间的关联关系,生成证据关联分析结果;
S7、根据证据关联分析结果,生成案件分析报告。
2.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,所述S1包括以下步骤:
S11、对非结构化案件笔录的文本数据进行分词处理,将连续的案件笔录原始文本数据T拆分为词语序列W;
S12、对词语序列W进行词性标注,生成词性标注序列P;
S13、对词性标注序列P进行句法分析,生成句法依存关系树D:
D = (N, E);
其中,N表示句法分析中的节点集,每个节点对应一个词语及其词性标注,E表示句法依存关系的边集,每条边表示词语之间的语法依赖关系;
S14、基于句法依存关系树D提取句子中的主谓宾结构及修饰关系,形成结构化的语义片段;
S15、将语义片段构建为语义分析的基础数据集:
;
其中,基础数据集包括语义片段、词性标注序列P和词语序列W。
3.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,所述S2包括以下步骤:
S21、从语义分析的基础数据集中每个语义片段进行命名实体识别,识别出案件笔录中的关键实体E,所述关键实体包括人物、地点、时间、事件和证据信息,生成实体集合:
;
其中,表示命名实体识别过程中的单个关键实体,k为识别出的关键实体数量;
S22、对每个关键实体进行属性标记,标记为结构化数据;
S23、将标记后的结构化数据与原始基础数据集进行关联,生成扩展的结构化数据集:
。
4.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,所述S3包括以下步骤:
S31、从扩展的结构化数据集中提取每个关键实体及相关联的属性信息;
S32、对提取的关键实体与其他实体之间的关联进行分析,识别实体之间的时间关系,时间关系定义为实体之间在时间轴上的先后顺序;
S33、识别实体之间的空间关系,其中,空间关系定义为实体在空间位置上的相对关系;
S34、识别实体之间的因果关系,因果关系定义为一个关键实体的发生导致或影响了另一个实体的发生;
S35、识别实体之间的逻辑关联,逻辑关联定义为证据之间存在的相互依赖关系或矛盾关系;
S36、结合步骤S32至S35所识别的时间关系、空间关系、因果关系和逻辑关联,进行多重证据的综合关联分析,识别案件笔录中多重证据之间的关系,并整合到扩展的结构化数据集中,生成包含实体及其多重关联关系的数据集:
;
其中,k为关键实体的总数量,分别为时间关系、空间关系、因果关系和逻辑关联的权重系数,用于调节不同类型关系在多重证据关联分析中的重要性,分别表示时间关系、空间关系、因果关系和逻辑关联的矩阵元素,描述不同实体间的具体关系,为一个二值函数,定义为:
。
5.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,所述S4包括以下步骤:
S41、从关系数据集中提取每个关键实体及其相关的多重关联关系,其中,表示关键实体与另一个关键实体之间的多重证据关联关系,包括时间关系、空间关系、因果关系和逻辑关联的组合,对于每个关键实体,其与另一个关键实体之间的关联关系表示为:
;
其中,、、和分别为时间关系、空间关系、因果关系和逻辑关联在多重证据关联分析中的影响因子;
S42、构建聚合节点加权超图结构,其中,为聚合节点集,每个聚合节点由相关的关键实体集合组成:
;
其中,f是聚合函数,实体集合聚合为一个节点;
S43、在聚合节点加权超图结构中,每条超边连接多个聚合节点,结合每个聚合节点内部的多个实体间的多重关联关系,并加权后用于超边权重的计算,超边权重通过以下公式计算:
;
其中,、、和为在超边权重计算中各类关系的权重系数,表示在超边中连接的两个聚合节点和,分别表示聚合节点和中包含的具体实体,和是聚合节点和中的实体集合,和是实体集合中的单个实体;
S44、利用聚合节点加权超图对多实体之间的关系进行建模和表示,对于每个聚合节点及其相连的超边,聚合节点间的总关系强度表示为:
;
其中,为指示函数,当聚合节点和通过超边直接或间接相连时取值为1,否则为0,表示在超图中聚合节点间的总关联强度。
6.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,所述S5包括以下步骤:
S51、构建初始案件笔录知识图谱:
;
其中,表示节点集,初始节点集为空集,将用于存储案件笔录中提取的实体,表示边集,初始边集为空集,将用于存储实体间的关系;
S52、将聚合节点加权超图中的每个聚合节点映射到案件笔录知识图谱中的节点:
;
其中,为映射函数,表示聚合节点中各个实体的特征向量,为对应的权重系数;
S53、将聚合节点加权超图中的超边拆分为案件笔录知识图谱中的边:
;
其中,为超边拆分函数,为关系强度函数,表示两个聚合节点和之间的关系强度,为拆分后的边;
S54、将聚合节点加权超图中的超边权重映射为案件笔录知识图谱边的属性权重:
;
其中,为映射函数,为权重映射函数,将超边的权重信息与拆分后的关系结合,为权重系数,为节点的影响因子,为相关联的节点数目;
S55、在案件笔录知识图谱中引入关系节点或聚合关系:
;
其中,为关系节点构建函数,为关系权重系数,表示每个节点在聚合关系中的重要性,为关系影响因子,为节点与其关联关系之间的权重计算,为关系强度调节因子。
7.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,所述S6包括以下步骤:
S61、基于案件笔录知识图谱和聚合节点加权超图,定义图谱查询函数用于接收查询条件q,并在图谱和超图中执行联合查询操作,生成初步查询结果集:
;
其中,表示案件知识图谱中的节点,表示图谱中的边,表示超图中的聚合节点,q为查询条件,指定需要检索的多重证据关联的类型和范围;
S62、对查询结果集进行超图分析,应用超图分析函数识别和推导多重证据之间的复杂关联关系,生成证据关联分析结果:
;
其中,为超图分析函数,用于评估超边中的多重证据关联,为指示函数,当查询结果集与超边存在交集时取值为1,否则为0;
S63、基于证据关联分析结果推导案件中的潜在关联关系,生成最终的证据关联分析报告。
8.根据权利要求1所述的一种基于知识图谱的案件笔录中多重证据关联方法,其特征在于,所述S7包括以下步骤:
S71、根据证据关联分析报告中的分析结果,提取关键证据关联,定义关键证据关联集,用于表示案件中与核心事实相关的主要证据及其关联;
S72、根据关键证据关联集,推导案件进展路径,定义进展路径集,用于表示案件中事件的发生顺序及其关联路径:
;
其中,表示案件进展路径,为路径生成函数,根据关键证据关联集生成路径,为路径重要度量函数,衡量路径在案件进展中的重要性,为路径重要度阈值,超过该阈值的路径被纳入进展路径集;
S73、识别并标注潜在的证据冲突,定义证据冲突集,用于记录案件中存在矛盾或不一致的证据及其关系;
S74、综合步骤S71至S73的结果,生成最终的案件分析报告,案件分析报告包括关键证据关联、案件进展路径及潜在的证据冲突。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411253905.XA CN118761475B (zh) | 2024-09-09 | 2024-09-09 | 一种基于知识图谱的案件笔录中多重证据关联方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411253905.XA CN118761475B (zh) | 2024-09-09 | 2024-09-09 | 一种基于知识图谱的案件笔录中多重证据关联方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118761475A true CN118761475A (zh) | 2024-10-11 |
CN118761475B CN118761475B (zh) | 2025-01-10 |
Family
ID=92938206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411253905.XA Active CN118761475B (zh) | 2024-09-09 | 2024-09-09 | 一种基于知识图谱的案件笔录中多重证据关联方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118761475B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119357599A (zh) * | 2024-12-25 | 2025-01-24 | 合肥市数智城市投资运营有限公司 | 一种案件审讯智能辅助设备及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082197A1 (en) * | 2016-09-22 | 2018-03-22 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
CN112528036A (zh) * | 2020-11-30 | 2021-03-19 | 大连理工大学 | 一种面向证据关联分析的知识图谱自动构建方法 |
CN117131438A (zh) * | 2023-10-27 | 2023-11-28 | 深圳市迪博企业风险管理技术有限公司 | 诉讼文件分析方法、模型训练方法、装置、设备及介质 |
US20240070492A1 (en) * | 2022-08-31 | 2024-02-29 | Seoul National University R&Db Foundation | Reasoning method based on structural attention mechanism for knowledge-based question answering and computing apparatus for performing the same |
-
2024
- 2024-09-09 CN CN202411253905.XA patent/CN118761475B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082197A1 (en) * | 2016-09-22 | 2018-03-22 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
CN112528036A (zh) * | 2020-11-30 | 2021-03-19 | 大连理工大学 | 一种面向证据关联分析的知识图谱自动构建方法 |
US20240070492A1 (en) * | 2022-08-31 | 2024-02-29 | Seoul National University R&Db Foundation | Reasoning method based on structural attention mechanism for knowledge-based question answering and computing apparatus for performing the same |
CN117131438A (zh) * | 2023-10-27 | 2023-11-28 | 深圳市迪博企业风险管理技术有限公司 | 诉讼文件分析方法、模型训练方法、装置、设备及介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119357599A (zh) * | 2024-12-25 | 2025-01-24 | 合肥市数智城市投资运营有限公司 | 一种案件审讯智能辅助设备及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118761475B (zh) | 2025-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021103492A1 (zh) | 一种企业经营风险预测方法和系统 | |
WO2021175009A1 (zh) | 预警事件图谱的构建方法、装置、设备及存储介质 | |
US12099806B2 (en) | Place recognition method based on knowledge graph inference | |
CN115422372A (zh) | 一种基于软件测试的知识图谱构建方法和系统 | |
CN114780733B (zh) | 基于dikw图谱的专利智能修改方法、辅助答复方法及系统 | |
CN115422371A (zh) | 一种基于软件测试知识图谱的检索方法 | |
CN118761475A (zh) | 一种基于知识图谱的案件笔录中多重证据关联方法 | |
CN118643168A (zh) | 基于知识图谱和大模型的施工方案合规性审核系统及方法 | |
CN119357408A (zh) | 基于大语言模型的电力知识图谱构建方法 | |
CN116306923A (zh) | 一种基于知识图谱的评价权重计算方法 | |
CN116414865A (zh) | 一种基于维度模型建模的text2sql优化方法 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN115587190A (zh) | 一种电力领域知识图谱的构建方法、装置及电子设备 | |
CN119557424A (zh) | 一种数据分析方法、系统以及存储介质 | |
CN118691210A (zh) | 一种供应链物资数据管理方法及系统 | |
CN114612246A (zh) | 对象集合识别方法、装置、计算机设备及存储介质 | |
CN119090681A (zh) | 电子合同审核方法、装置、计算机设备和存储介质 | |
CN118606438A (zh) | 数据分析方法、装置、计算机设备、可读存储介质和程序产品 | |
CN118153564A (zh) | 剧本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN117829141A (zh) | 基于攻击模式的动态实体对齐方法 | |
CN118656635A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN114691835A (zh) | 基于文本挖掘的审计计划数据生成方法、装置和设备 | |
CN114036319A (zh) | 一种电力知识抽取方法、系统、装置及存储介质 | |
CN119293266B (zh) | 企业知识图谱构建方法、系统、设备及存储介质 | |
CN119990340B (zh) | 基于知识图谱的网络生成方法、推理方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |