CN114925167A - 一种基于知识图谱的案件处理方法和系统 - Google Patents
一种基于知识图谱的案件处理方法和系统 Download PDFInfo
- Publication number
- CN114925167A CN114925167A CN202210553972.8A CN202210553972A CN114925167A CN 114925167 A CN114925167 A CN 114925167A CN 202210553972 A CN202210553972 A CN 202210553972A CN 114925167 A CN114925167 A CN 114925167A
- Authority
- CN
- China
- Prior art keywords
- case
- data
- graph
- cases
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000006698 induction Effects 0.000 claims 1
- 230000008520 organization Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱的案件处理方法,通过简要案情数据,案件时间和空间范围内的多源数据,构建案件知识图谱,过滤案件知识图谱中孤立案件相关的节点和关系,根据案件间路径的条数,标识不同案件的串并关系,挖掘案件的直接和间接目标人员,实现案件线索的有效汇总,进一步地提高了案件的解决效率。本发明还公开了一种基于知识图谱的案件处理系统。
Description
技术领域
本发明涉及的是知识图谱领域,特别涉及一种基于知识图谱的案件处理方法和系统。
背景技术
随着社会的发展,面对日益庞大的案件信息和日趋复杂的形势,传统的查询、统计方法是根据案件发生的时间、空间、周边人员逐一排查,查找与案件相关的人员,传统方法排查难度大,效率低,且很难发现案件与人、事物之间的潜在不易察觉的行为和联系。因此,需要提供一种有效的案件分析处理的方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于知识图谱的案件处理方法和系统。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种基于知识图谱的案件处理方法,包括:
S100.获取待分析的案件数据,在案件时间和空间范围内采集多源数据;
S200.对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系,对多源数据预处理,对重要案件特征进行离散化处理;
S300.自顶向下构建案件图谱的模式层,导入案件和多源数据,构建加权有向的案件知识图谱;
S400.对案件知识图谱进行独立群体检测,计算所有的连通体id及其节点,去除连通体id中案件节点个数小于2的所有节点和关系集合,过滤图谱中孤立案件相关的节点和关系;
S500.计算任意两个不同案件顶点的双向路径,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析。
进一步地,S100中,在案件时间和空间范围内采集的多源数据,至少包括:车辆卡口数据,wifi终端虚拟身份数据,人脸数据,通讯数据,转账记录数据,人员数据。
进一步地,S200中,对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系具体包括:对于案件数据中没有案件人员身份证号,案件工具,案件金额,案件时间信息,通过预训练的命名实体识别模型,对案件的简要案情进行实体识别,抽取案件相关的案件关联人身份证号,案件工具,案件金额,案件发生时间,补充案件数据,确保案件存在直接相关的人员信息。
进一步地,S200中,对多源数据预处理,对重要案件特征进行离散化处理,具体包括:根据案件关联人身份号分组统计车辆经过次数、mac终端采集次数、人脸采集次数、通话次数、转账次数,对分组统计后的多源数据归一化处理,将数据映射到[0,1]之间,标记为图谱关系的权重值,避免由于量纲不同引起的误差。
进一步地,S300中,构建加权有向的案件知识图谱的方法包括:将案件数据和多源数据组成的图数据作为案件知识图谱的数据层,用数据加载工具将预处理后的结构化数据加载到案件图谱对应的实体、关系和属性数据,其中多源数据归一化后的数据值作为图谱关系的权重值,构成加权有向的案件知识图谱。
进一步地在于,S300中,S400中,对案件知识图谱进行独立群体检测,使用ConnectedComponent算法求解图中的连通体,求解连通体id中案件节点个数小于2的所有节点和关系集合,在图谱中去除该节点、关系集合,过滤图谱中孤立案件相关的节点和关系。
进一步地,S500中,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析,具体包括:遍历计算任意两个不同案件顶点的双向路径,若路径条数为0,表明案件间不存在关联关系;若路径条数为1,表明案件存在串并关系,具有共同嫌疑人,可标识为串并案;若路径条数大于1,表明案件是团伙作案,利用堆优化的Dijkstra算法求解最短路径,最短路径上的人员节点是案件的直接涉案人员,作为案件的直接目标对象,除去最短路径外其他的人员节点为间接的目标对象。
本发明还公开了一种基于知识图谱的案件处理系统,包括:数据采集模块、数据预处理模块、案件图谱构造模块、图谱顶点和关系过滤模块和图谱分析模块;其中:
数据采集模块,用于获取案件原始数据、案件发生的时间、空间范围内的多源数据;
数据预处理模块,用于抽取案件相关的实体、关系,作为案件图谱的数据来源;
案件图谱构造模块,用于构造案件图谱的模式层和数据层;
图谱顶点、关系过滤模块,用于过滤图谱中与待分析案件无关的顶点、关系数据;图谱分析模块,用于根据不同案件的路径分析案件的串并关系,确定不同案件的共同涉嫌涉案人员。
进一步地,数据预处理模块,包括:案件名实体识别单元和多源数据处理单元;其中:
案件名实体识别单元,对于案件数据中没有案件人员身份证号,案件工具,案件金额,案件时间信息,用预训练的命名实体识别模型抽取案件中直接相关的实体信息、关系信息,用于补充案件直接相关的数据;
多源数据处理单元,用于对多源数据进行分组统计,由于采集的数据来源不同,对出现的频次的关系需要进行归一化,将数据映射到[0,1],标记为图谱关系的权重值,避免由于量纲不同引起的误差。
进一步地,案件图谱构造模块,包括:
图谱模式层构建单元,用于根据案件的性质特征,对案件的不同知识要素进行归纳组织,其中,图谱模式数据来源自顶向下抽象出来;
图谱数据层构建单元,用于按照模式层的定义,将数据预处理模块后的数据,导入案件图谱,构建图谱数据层;其中,数据层是模式层所定义关系的实例,可具体化表示模式层。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明公开的一种基于知识图谱的案件处理方法,包括:获取待分析的案件数据,在案件时间和空间范围内采集多源数据;对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系,对多源数据预处理,对重要案件特征进行离散化处理;自顶向下构建案件图谱的模式层,导入案件和多源数据,构建加权有向的案件知识图谱;对案件知识图谱进行独立群体检测,计算所有的连通体id及其节点,去除连通体id中案件节点个数小于2的所有节点和关系集合,过滤图谱中孤立案件相关的节点和关系;计算任意两个不同案件顶点的双向路径,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析。本发明通过简要案情数据,案件时间和空间范围内的多源数据,构建案件知识图谱,过滤图谱中孤立案件相关的节点和关系,根据案件间路径的条数,标识不同案件的串并关系,挖掘案件的目标人员,实现案件线索的有效汇总,进一步地提高了案件的解决效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1中,一种基于知识图谱的案件处理方法的流程图;
图2为本发明实施例1中,一种基于知识图谱的案件处理方法的示例图;
图3为本发明实施例1中,一种基于知识图谱的案件处理系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的问题,本发明实施例提供一种基于知识图谱的案件处理方法和系统。
实施例1
本实施公开了一种基于知识图谱的案件处理方法,如图1于,包括:
S100.获取待分析的案件数据,在案件时间和空间范围内采集多源数据;在本实施例S100中,在案件时间和空间范围内采集的多源数据,至少包括:车辆卡口数据,wifi终端虚拟身份数据,人脸数据,通讯数据,转账记录数据,人员数据。
S200.对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系,对多源数据预处理,对重要案件特征进行离散化处理;
具体的,S200中,对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系具体包括:对于案件数据中没有案件人员身份证号,案件工具,案件金额,案件时间信息,通过预训练的命名实体识别模型,对案件的简要案情进行实体识别,抽取案件相关的案件关联人身份证号,案件工具,案件金额,案件发生时间,补充案件数据,确保案件存在直接相关的人员信息。对多源数据预处理,对重要案件特征进行离散化处理,具体包括:根据案件关联人身份号分组统计车辆经过次数、mac终端采集次数、人脸采集次数、通话次数、转账次数,对分组统计后的多源数据归一化处理,将数据映射到[0,1]之间,标记为图谱关系的权重值,避免由于量纲不同引起的误差。
S300.自顶向下构建案件图谱的模式层,导入案件和多源数据,构建加权有向的案件知识图谱;
在本实施的S300中,构建加权有向的案件知识图谱的方法包括:将案件数据和多源数据组成的图数据作为案件知识图谱的数据层,用数据加载工具将预处理后的结构化数据加载到案件图谱对应的实体、关系和属性数据,其中多源数据归一化后的数据值作为图谱关系的权重值,构成加权有向的案件知识图谱。
S400.对案件知识图谱进行独立群体检测,计算所有的连通体id及其节点,去除连通体id中案件节点个数小于2的所有节点和关系集合,过滤图谱中孤立案件相关的节点和关系;
在本实施例的S400中,对案件知识图谱进行独立群体检测,使用ConnectedComponent算法求解图中的连通体,求解连通体id中案件节点个数小于2的所有节点和关系集合,在图谱中去除该节点、关系集合,过滤图谱中孤立案件相关的节点和关系。其中,ConnectedComponents算法是求解图中的连通体,用图中节点id来表示连通分量,是一种独立群体检测方法,适用于社区网络的社区发现。该算法的核心思想是将自身id传递给邻居节点,能够发送消息的必然是在同一个连通分量中,检测结果用节点id标记所属的连通体。
S500.计算任意两个不同案件顶点的双向路径,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析。
在本实施例的S500中,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析,具体包括:遍历计算任意两个不同案件顶点的双向路径,若路径条数为0,表明案件间不存在关联关系;若路径条数为1,表明案件存在串并关系,具有共同嫌疑人,可标识为串并案;若路径条数大于1,表明案件是团伙作案,利用堆优化的Dijkstra算法求解最短路径,最短路径上的人员节点是案件的直接涉案人员,作为案件的直接目标对象,除去最短路径外其他的人员节点为间接的目标对象。
所述堆优化的Dijkstra算法适用于稀疏图求解最短路径问题,对于稀疏图来说,由于边数与点数相差不大,一个点所能到达的点比较少,所以用邻接表来存储效率比较高。在本实施例中,本案件知识图谱的边数与点数符合稀疏图的性质,堆优化的Dijkstra算法用于求解指定案件起点,到案件图谱中其余待分析的案件的最短路径。
为了更好理解本实施例,如图2,本实施例提供的一种基于知识图谱的案件处理方法的结构示例图。图2中,案件1和案件2在同一个连通体中,以案件2为起点,案件1为终点,查找指定起点到终点的路径,示例中存在两条路径,表明其中案件1和案件2可作为串并案分析。其中有一条路径,经过“王五”与“赵六”,是本连通体中对短路径,“王五”与“赵六”有通话关系,“赵六”与案件1有间接关系,案件1和案件2有串并关系,“王五”和“赵六”涉嫌两个案件。
案件2到案件1中,存在另一条路径经过“李四”、“625xxx”,“王五”与“李四”有同行关系,“李四”与案件1有间接关系,案件1和案件2有串并关系,“王五”和“李四”涉嫌两个案件。在本示例中,“王五”、“李四”、“赵六”三人均是案件1、案件2的涉嫌涉案人员。
本实施例还公开了一种基于知识图谱的案件处理系统,如图3,包括:数据采集模块S10,用于获取案件原始数据、案件发生的时间、空间范围内的多源数据。
数据预处理模块S20,用于抽取案件相关的实体、关系,作为案件图谱的数据来源。
案件图谱构造模块S30,用于构造案件图谱的模式层、数据层。
图谱顶点、关系过滤模块S40,用于过滤图谱中与待分析案件无关的顶点、关系数据。
图谱分析模块S50,用于根据不同案件的路径分析案件的串并关系,确定不同案件的共同涉嫌涉案人员。
在本实施例中,数据预处理模块S20,包括:
案件名实体识别单元,对于案件数据中没有报案人,受害人等信息,用预训练的NER模型抽取案件中直接相关的实体信息、关系信息,用于补充案件直接相关的数据。
多源数据处理单元,用于对多源数据进行分组统计,由于采集的数据来源不同,对出现的频次的关系需要进行归一化,将数据映射到[0,1],标记为图谱关系的权重值,避免由于量纲不同引起的误差。
在本实施例中,案件图谱构造模块S30,包括:
图谱模式层构建单元,模式层是图谱的概念模型和逻辑基础,是对数据层的规范约束,可根据案件的性质特征,对案件的不同知识要素进行归纳组织,数据来源自顶向下抽象出来。
图谱数据层构建单元,数据层是模式层所定义关系的实例,可具体化表示模式层。按照模式层的定义,将数据预处理模块S20后的数据,导入案件图谱,
在本实施例中,图谱顶点、关系过滤模块S40,包括:
对案件知识图谱进行独立群体检测,使用ConnectedComponent算法求解图中的连通体,求解连通体id中案件节点个数<2的所有节点、关系集合,在图谱中去除该节点、关系集合.
在本实施例中,图谱分析模块S50,包括:
路径查找单元,对于不同的连通体,查找任意两个不同案件的所有路径。
最短路径确定单元,对于案件间的有多条路径,利用堆优化的Dijkstra算法求解最短路径,最短路径上的人员节点是案件的直接涉案人员,作为侦破案件的重点排查对象,除去最短路径外其他的人员节点为间接的涉嫌涉案人员。
本实施例公开的一种基于知识图谱的案件处理方法,包括:获取待分析的案件数据,在案件时间和空间范围内采集多源数据;对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系,对多源数据预处理,对重要案件特征进行离散化处理;自顶向下构建案件图谱的模式层,导入案件和多源数据,构建加权有向的案件知识图谱;对案件知识图谱进行独立群体检测,计算所有的连通体id及其节点,去除连通体id中案件节点个数小于2的所有节点和关系集合,过滤图谱中孤立案件相关的节点和关系;计算任意两个不同案件顶点的双向路径,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析。本发明通过简要案情数据,案件时间和空间范围内的多源数据,构建案件知识图谱,过滤图谱中孤立案件相关的节点和关系,根据案件间路径的条数,标识不同案件的串并关系,挖掘案件的目标人员,实现案件线索的有效汇总,进一步地提高了案件的解决效率。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
Claims (10)
1.一种基于知识图谱的案件处理方法,其特征在于,包括:
S100.获取待分析的案件数据,在案件时间和空间范围内采集多源数据;
S200.对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系,对多源数据预处理,对重要案件特征进行离散化处理;
S300.自顶向下构建案件图谱的模式层,导入案件和多源数据,构建加权有向的案件知识图谱;
S400.对案件知识图谱进行独立群体检测,计算所有的连通体id及其节点,去除连通体id中案件节点个数小于2的所有节点和关系集合,过滤图谱中孤立案件相关的节点和关系;
S500.计算任意两个不同案件顶点的双向路径,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析。
2.如权利要求1所述的一种基于知识图谱的案件处理方法,其特征在于,S100中,在案件时间和空间范围内采集的多源数据,至少包括:车辆卡口数据,wifi终端虚拟身份数据,人脸数据,通讯数据,转账记录数据,人员数据。
3.如权利要求1所述的一种基于知识图谱的案件处理方法,其特征在于,S200中,对案件数据中简要案情采用命名实体方法进行识别,抽取案件中直接相关的实体和关系具体包括:对于案件数据中没有案件人员身份证号,案件工具,案件金额,案件时间信息,通过预训练的命名实体识别模型,对案件的简要案情进行实体识别,抽取案件相关的案件关联人身份证号,案件工具,案件金额,案件发生时间,补充案件数据,确保案件存在直接相关的人员信息。
4.如权利要求1所述的一种基于知识图谱的案件处理方法,其特征在于,S200中,对多源数据预处理,对重要案件特征进行离散化处理,具体包括:根据案件关联人身份号分组统计车辆经过次数、mac终端采集次数、人脸采集次数、通话次数、转账次数,对分组统计后的多源数据归一化处理,将数据映射到[0,1]之间,标记为图谱关系的权重值,避免由于量纲不同引起的误差。
5.如权利要求1所述的一种基于知识图谱的案件处理方法,其特征在于,S300中,构建加权有向的案件知识图谱的方法包括:将案件数据和多源数据组成的图数据作为案件知识图谱的数据层,用数据加载工具将预处理后的结构化数据加载到案件图谱对应的实体、关系和属性数据,其中多源数据归一化后的数据值作为图谱关系的权重值,构成加权有向的案件知识图谱。
6.如权利要求1所述的一种基于知识图谱的案件处理方法,其特征在于,S400中,对案件知识图谱进行独立群体检测,使用ConnectedComponent算法求解图中的连通体,求解连通体id中案件节点个数小于2的所有节点和关系集合,在图谱中去除该节点、关系集合,过滤图谱中孤立案件相关的节点和关系。
7.如权利要求1所述的一种基于知识图谱的案件处理方法,其特征在于,S500中,判断相同的案件起点和终点的路径个数,根据路径个数对案件进行分析,具体包括:遍历计算任意两个不同案件顶点的双向路径,若路径条数为0,表明案件间不存在关联关系;若路径条数为1,表明案件存在串并关系,具有共同嫌疑人,可标识为串并案;若路径条数大于1,表明案件是团伙作案,利用堆优化的Dijkstra算法求解最短路径,最短路径上的人员节点是案件的直接涉案人员,作为案件的直接目标对象,除去最短路径外其他的人员节点为间接的目标对象。
8.一种基于知识图谱的案件处理系统,其特征在于,包括:数据采集模块、数据预处理模块、案件图谱构造模块、图谱顶点和关系过滤模块和图谱分析模块;其中:
数据采集模块,用于获取案件原始数据、案件发生的时间、空间范围内的多源数据;
数据预处理模块,用于抽取案件相关的实体、关系,作为案件图谱的数据来源;
案件图谱构造模块,用于构造案件图谱的模式层和数据层;
图谱顶点、关系过滤模块,用于过滤图谱中与待分析案件无关的顶点、关系数据;图谱分析模块,用于根据不同案件的路径分析案件的串并关系,确定不同案件的共同涉嫌涉案人员。
9.如权利要求8所述的一种基于知识图谱的案件处理系统,其特征在于,数据预处理模块,包括:案件名实体识别单元和多源数据处理单元;其中:
案件名实体识别单元,对于案件数据中没有案件人员身份证号,案件工具,案件金额,案件时间信息,用预训练的命名实体识别模型抽取案件中直接相关的实体信息、关系信息,用于补充案件直接相关的数据;
多源数据处理单元,用于对多源数据进行分组统计,由于采集的数据来源不同,对出现的频次的关系需要进行归一化,将数据映射到[0,1],标记为图谱关系的权重值,避免由于量纲不同引起的误差。
10.如权利要求8所述的一种基于知识图谱的案件处理系统,其特征在于,案件图谱构造模块,包括:
图谱模式层构建单元,用于根据案件的性质特征,对案件的不同知识要素进行归纳组织,其中,图谱模式数据来源自顶向下抽象出来;
图谱数据层构建单元,用于按照模式层的定义,将数据预处理模块后的数据,导入案件图谱,构建图谱数据层;其中,数据层是模式层所定义关系的实例,可具体化表示模式层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210553972.8A CN114925167A (zh) | 2022-05-20 | 2022-05-20 | 一种基于知识图谱的案件处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210553972.8A CN114925167A (zh) | 2022-05-20 | 2022-05-20 | 一种基于知识图谱的案件处理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114925167A true CN114925167A (zh) | 2022-08-19 |
Family
ID=82811084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210553972.8A Pending CN114925167A (zh) | 2022-05-20 | 2022-05-20 | 一种基于知识图谱的案件处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114925167A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662559A (zh) * | 2023-02-15 | 2023-08-29 | 北京北明数科信息技术有限公司 | 一种基于大数据技术的案件知识图谱构建平台及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8443005B1 (en) * | 2011-07-12 | 2013-05-14 | Relationship Science LLC | Using an ontology model to validate connectivity in a social graph |
US20140351261A1 (en) * | 2013-05-24 | 2014-11-27 | Sap Ag | Representing enterprise data in a knowledge graph |
CN109191281A (zh) * | 2018-08-21 | 2019-01-11 | 重庆富民银行股份有限公司 | 一种基于知识图谱的团体欺诈识别系统 |
CN109670049A (zh) * | 2018-11-19 | 2019-04-23 | 平安科技(深圳)有限公司 | 图谱路径查询方法、装置、计算机设备和存储介质 |
CN110609908A (zh) * | 2019-09-17 | 2019-12-24 | 北京明略软件系统有限公司 | 案件串并方法及装置 |
CN111506623A (zh) * | 2020-04-08 | 2020-08-07 | 北京百度网讯科技有限公司 | 数据扩充方法、装置、设备以及存储介质 |
CN111753025A (zh) * | 2020-06-24 | 2020-10-09 | 南方科技大学 | 案件信息的自动获取方法、装置、设备和存储介质 |
CN112328802A (zh) * | 2020-09-30 | 2021-02-05 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置和服务器 |
CN112835992A (zh) * | 2020-11-20 | 2021-05-25 | 武汉烽火众智数字技术有限责任公司 | 一种基于知识图谱的路径发现方法及装置 |
WO2021169631A1 (zh) * | 2020-02-29 | 2021-09-02 | 深圳壹账通智能科技有限公司 | 欺诈人员识别方法、装置、设备和存储介质 |
CN113641827A (zh) * | 2021-06-29 | 2021-11-12 | 武汉众智数字技术有限公司 | 一种基于知识图谱的网络诈骗识别方法及系统 |
CN114117065A (zh) * | 2021-11-12 | 2022-03-01 | 国网福建省电力有限公司经济技术研究院 | 基于电力生产统计业务的知识图谱构建方法及系统 |
-
2022
- 2022-05-20 CN CN202210553972.8A patent/CN114925167A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8443005B1 (en) * | 2011-07-12 | 2013-05-14 | Relationship Science LLC | Using an ontology model to validate connectivity in a social graph |
US20140351261A1 (en) * | 2013-05-24 | 2014-11-27 | Sap Ag | Representing enterprise data in a knowledge graph |
CN109191281A (zh) * | 2018-08-21 | 2019-01-11 | 重庆富民银行股份有限公司 | 一种基于知识图谱的团体欺诈识别系统 |
CN109670049A (zh) * | 2018-11-19 | 2019-04-23 | 平安科技(深圳)有限公司 | 图谱路径查询方法、装置、计算机设备和存储介质 |
CN110609908A (zh) * | 2019-09-17 | 2019-12-24 | 北京明略软件系统有限公司 | 案件串并方法及装置 |
WO2021169631A1 (zh) * | 2020-02-29 | 2021-09-02 | 深圳壹账通智能科技有限公司 | 欺诈人员识别方法、装置、设备和存储介质 |
CN111506623A (zh) * | 2020-04-08 | 2020-08-07 | 北京百度网讯科技有限公司 | 数据扩充方法、装置、设备以及存储介质 |
CN111753025A (zh) * | 2020-06-24 | 2020-10-09 | 南方科技大学 | 案件信息的自动获取方法、装置、设备和存储介质 |
CN112328802A (zh) * | 2020-09-30 | 2021-02-05 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置和服务器 |
CN112835992A (zh) * | 2020-11-20 | 2021-05-25 | 武汉烽火众智数字技术有限责任公司 | 一种基于知识图谱的路径发现方法及装置 |
CN113641827A (zh) * | 2021-06-29 | 2021-11-12 | 武汉众智数字技术有限公司 | 一种基于知识图谱的网络诈骗识别方法及系统 |
CN114117065A (zh) * | 2021-11-12 | 2022-03-01 | 国网福建省电力有限公司经济技术研究院 | 基于电力生产统计业务的知识图谱构建方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662559A (zh) * | 2023-02-15 | 2023-08-29 | 北京北明数科信息技术有限公司 | 一种基于大数据技术的案件知识图谱构建平台及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104346379B (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN109284380A (zh) | 基于大数据分析的非法用户识别方法及装置、电子设备 | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN111209317A (zh) | 一种知识图谱异常社区检测方法及装置 | |
CN114925167A (zh) | 一种基于知识图谱的案件处理方法和系统 | |
CN108615359B (zh) | 一种车辆落脚点分析方法和装置 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN111163071A (zh) | 一种未知工业协议识别引擎 | |
CN114529747A (zh) | 保单检测方法、保单检测装置、电子设备及存储介质 | |
CN105701501A (zh) | 一种商标图像识别方法 | |
CN105573984B (zh) | 社会经济指标的识别方法及装置 | |
Langfelder et al. | Package ‘WGCNA’ | |
CN114710344B (zh) | 一种基于溯源图的入侵检测方法 | |
CN111090630A (zh) | 基于多源空间点数据的数据融合处理方法 | |
KR101985961B1 (ko) | 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법 | |
CN113627522B (zh) | 基于关系网络的图像分类方法、装置、设备及存储介质 | |
CN116821087A (zh) | 输电线路故障数据库构建方法、装置、终端及存储介质 | |
CN107943982B (zh) | 内置约束规则的k-means文本聚类方法及装置 | |
CN114124417B (zh) | 一种大规模网络下可扩展性增强的漏洞评估方法 | |
CN112131215B (zh) | 自底向上的数据库信息获取方法及装置 | |
CN114168751A (zh) | 一种基于医学知识概念图的医学文本标签识别方法及系统 | |
CN113986990A (zh) | 一种基于区块链数据挖掘的数据资源采集和标注方法及装置 | |
CN109408727B (zh) | 基于多维感知数据的用户关注信息智能推荐方法及系统 | |
CN113129057A (zh) | 软件造价信息的处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |