CN111324643B - 知识图谱的生成方法、关系挖掘方法、装置、设备和介质 - Google Patents

知识图谱的生成方法、关系挖掘方法、装置、设备和介质 Download PDF

Info

Publication number
CN111324643B
CN111324643B CN202010238498.0A CN202010238498A CN111324643B CN 111324643 B CN111324643 B CN 111324643B CN 202010238498 A CN202010238498 A CN 202010238498A CN 111324643 B CN111324643 B CN 111324643B
Authority
CN
China
Prior art keywords
nodes
attribute information
node
mined
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010238498.0A
Other languages
English (en)
Other versions
CN111324643A (zh
Inventor
杨双全
张阳
刘畅
谢奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010238498.0A priority Critical patent/CN111324643B/zh
Publication of CN111324643A publication Critical patent/CN111324643A/zh
Priority to US17/208,921 priority patent/US20210319329A1/en
Priority to KR1020210037307A priority patent/KR20210040003A/ko
Priority to JP2021049223A priority patent/JP7098775B2/ja
Priority to EP21164298.8A priority patent/EP3859564A3/en
Application granted granted Critical
Publication of CN111324643B publication Critical patent/CN111324643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种知识图谱的生成方法、关系挖掘方法、装置、设备和介质,涉及知识图谱领域。具体实现方案为:获取初始知识图谱,所述初始知识图谱包括多个具有连接关系的节点;从所述初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素,该地图元素包括目标节点和目标边中的至少一项;将所述多个目标地图元素进行合并,生成知识图谱。本实施例使得节点和边能够表达更多的属性信息,提高知识图谱的表达能力;而且,能够减小图结构,在将知识图谱在应用于动态关系挖掘等业务场景中时,能够简化分析流程,减少计算量,提高计算效率。

Description

知识图谱的生成方法、关系挖掘方法、装置、设备和介质
技术领域
本申请涉及计算机技术,尤其涉及知识图谱技术领域。
背景技术
知识图谱(Knowledge Graph)在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
以社交关系知识图谱为例,图谱中的节点代表人,节点之间的边代表人与人之间的关系;以金融知识图谱为例,图谱中的节点代表账户,节点之间的边代表账户与账户间的转账关系。现有的知识图谱的表达能力不足,导致知识图谱在应用于关系挖掘等业务场景中时,难以发挥有效作用。
发明内容
本申请实施例提供了一种知识图谱的生成方法、关系挖掘方法、装置、设备和介质。
第一方面,本申请实施例提供了一种知识图谱的生成方法,包括:
获取初始知识图谱,所述初始知识图谱包括多个具有连接关系的节点;
从所述初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素,地图元素包括目标节点和目标边中的至少一项;
将所述多个目标地图元素进行合并,生成知识图谱。
第二方面,本申请实施例提供了一种基于知识图谱的关系挖掘方法,知识图谱根据任一项知识图谱的生成方法生成,包括:
获取所述知识图谱和待挖掘的动态关系;
根据所述动态关系确定待挖掘信息,所述待挖掘信息包括待挖掘节点和待挖掘属性信息;
根据所述待挖掘信息,确定所述知识图谱中的起始节点和筛选条件;
从所述起始节点起对所述知识图谱进行遍历,并根据所述筛选条件对遍历到的节点进行筛选,得到具有所述动态关系的节点。
第三方面,本申请实施例提供了一种知识图谱的生成装置,包括:
获取模块,用于获取初始知识图谱,所述初始知识图谱包括多个具有连接关系的节点;
确定模块,用于从所述初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素,地图元素包括目标节点和目标边中的至少一项;
生成模块,用于将所述多个目标地图元素进行合并,生成知识图谱。
第四方面,本申请实施例提供了一种基于知识图谱的关系挖掘装置,包括:
获取模块,用于获取所述知识图谱和待挖掘的动态关系;
第一确定模块,用于根据所述动态关系确定待挖掘信息,所述待挖掘信息包括待挖掘节点和待挖掘属性信息;
第二确定模块,用于根据所述待挖掘信息,确定所述知识图谱中的起始节点和筛选条件;
遍历和筛选模块,用于从所述起始节点起对所述知识图谱进行遍历,并根据所述筛选条件对遍历到的节点进行筛选,得到具有所述动态关系的节点。
第五方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行任一实施例所述的知识图谱的生成方法或者基于知识图谱的关系挖掘方法。
第六方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行任一实施例项所述的知识图谱的生成方法或者基于知识图谱的关系挖掘方法。
根据本申请的技术提高知识图谱的表达能力,在知识图谱应用于关系挖掘等业务场景中时能够发挥有效作用。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的第一种知识图谱的生成方法的流程示意图;
图2a是根据本申请实施例提供的第二种知识图谱的生成方法的流程示意图;
图2b是根据本申请实施例提供的初始知识图谱的结构示意图;
图2c是根据本申请实施例提供的对初始知识图谱进行边合并的结构示意图;
图2d是根据本申请实施例提供的对边合并后的知识图谱进行节点合并的结构示意图;
图2e是根据本申请实施例提供的超级节点的结构示意图;
图2f是根据本申请实施例提供的拆分后的节点的示意图;
图3a是根据本申请实施例提供的第三种知识图谱的生成方法的流程示意图;
图3b是根据本申请实施例提供的子图的示意图;
图3c是根据本申请实施例提供的多张子图投影到时空坐标系内的示意图;
图3d是根据本申请实施例提供的时空坐标系下多张子图中相同节点的示意图;
图3e是根据本申请实施例提供的初始知识图谱的结构示意图;
图3f是根据本申请实施例提供的新增虚拟节点连接基站节点和相机节点的示意图;
图3g是根据本申请实施例提供的时空坐标系下新增虚拟节点连接孤立子图的示意图;
图3h是根据本申请实施例提供的初始知识图谱的构建架构图;
图4是根据本申请实施例提供的第一种基于知识图谱的关系挖掘方法的流程示意图;
图5a是根据本申请实施例提供的第二种基于知识图谱的关系挖掘方法的流程示意图;
图5b是根据本申请实施例提供的对可抽象节点和边进行抽象的示意图;
图6是根据本申请实施例提供的第三种基于知识图谱的关系挖掘方法的流程示意图;
图7是根据本申请实施例提供的第四种基于知识图谱的关系挖掘方法的流程示意图;
图8是本申请实施例提供的一种知识图谱的生成装置的结构图;
图9是本申请实施例提供的一种基于知识图谱的关系挖掘装置的结构图;
图10是用来实现本申请实施例的知识图谱的生成方法或基于知识图谱的关系挖掘方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例中,图1是根据本申请实施例提供的第一种知识图谱的生成方法的流程示意图,本实施例适用于对初始知识图谱进行再处理的情况。该方法可以由一种知识图谱的生成装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于电子设备中,可选的,该电子设备可以是终端或服务器。如图1所示,本实施例提供的一种知识图谱的生成方法可以包括:
S110、获取初始知识图谱,初始知识图谱包括多个具有连接关系的节点。
初始知识图谱可为现有技术提供的任一知识图谱,或者采用数据源构建的知识图谱。初始知识图谱包括多个具有连接关系的节点。其中,节点代表实体,节点之间的边代表关系,实体和关系均具有属性信息。
可选的,初始知识图谱中的任两个节点之间均具有直接或间接的连接关系,不存在孤立的子图,即初始知识图谱是联通图,从而避免后续对知识图谱进行应用的过程中,由于非联通图而导致的信息丢失。
S120、从初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素。
具体的,属性信息包括属性信息的值和属性信息的类型,设定属性信息要求包括对属性信息的值和属性信息的类型中的至少一项的要求。目标地图元素包括目标节点和目标边中的至少一项。具体的,对初始知识图谱的各节点和各边进行遍历,查找满足设定属性信息要求的多个节点,或多条边或,多个节点和多条边,如具有时间属性和空间属性(以下简称时空属性)的节点。为了方便描述和区分,将满足设定属性信息要求的节点和边分别称为目标节点和目标边。
S130、将多个目标地图元素进行合并,生成知识图谱。
在一种实施方式中,将多个目标节点合并为一个点,合并后的点保留多个目标节点的属性信息;同时,与多个目标节点分别连接的边就连接到该合并后的节点上。
在另一种实施方式中,将多条目标边合并为一条边,合并后的边保留多条边的属性信息。可选的,如果与不同目标边连接的节点不同,则将不同的节点进行合并,合并后的点保留不同的节点的属性信息。
在又一种实施方式中,将多个目标节点合并为一个点;同时,将多条目标边合并为一条边,具体详见上述描述,此处不再赘述。
本实施例中,通过对初始知识图谱中满足设定属性信息要求的多个目标节点和多条目标边中的至少一项分别进行合并,从而使得节点和边能够表达更多的属性信息,提高知识图谱的表达能力;而且,能够减小图结构,在将知识图谱在应用于动态关系挖掘等业务场景中时,能够简化分析流程,减少计算量,提高计算效率。
本申请实施例中,图2a是根据本申请实施例提供的第二种知识图谱的生成方法的流程示意图,本实施例在上述实施例的基础上进一步优化。
可选的,将操作“从初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素”优化为“如果目标地图元素包括目标节点,从初始知识图谱中,确定任两个节点的属性信息的值之差在设定范围内的多个目标节点;如果目标地图元素包括目标边,从初始知识图谱中,确定两个节点之间属性信息的类型相同的多条目标边”,限定了设定属性信息要求。
进一步的,在操作“将多个目标地图元素进行合并,生成知识图谱”之后,追加“从知识图谱中确定超级节点,超级节点连接的边的数量超过设定值;根据超级节点连接的边的属性信息,将超级节点连接的边划分为多个边集合;根据边集合的数量,将超级节点拆分为相应数量个节点,并将每个边集合中的边连接到拆分后的每个节点上”,避免出现超级节点。
图2a提供的知识图谱的生成方法包括以下步骤:
S210、获取初始知识图谱,初始知识图谱包括多个具有连接关系的节点。
图2b是根据本申请实施例提供的初始知识图谱的结构示意图,图中包括两类节点,分别用P和s开头区分,将同类的各节点用P或s后的数字区分。节点之间的连线表示节点之间的关系,连线上的t1~t6表示时间属性的不同值,通俗讲就是不同的时间。
S220、如果目标地图元素包括目标节点,从初始知识图谱中,确定任两个节点的属性信息的值之差在设定范围内的多个目标节点;如果目标地图元素包括目标边,从初始知识图谱中,确定两个节点之间属性信息的类型相同的多条目标边。
设定范围可以自主设定,根据属性信息的类型不同,设定范围也不同。例如,属性信息的类型为时间,则时间之差的设定范围为1分钟内,2分钟内等;又例如,属性信息的类型为空间,则空间之差的设定范围为100平方米内等。假设,图2b中,s1和s2为目标节点,s3和s4为目标节点,s5和s7为目标节点,s6和s7为目标节点。
图2b中,s1和P1之间的3条边的属性信息的类型为时间,则该3条边为目标边;同理,P1和s2之间的2条边为目标边,s3和P2之间的2条边为目标边,P2和s5之间的2条边为目标边,s7和P3之间的2条边为目标边。
S230、将多个目标地图元素进行合并,生成知识图谱。
可选的,在对目标节点和目标边均进行合并时,可先将多个目标节点进行合并,再将多条目标边进行合并;或者,先将多条目标边进行合并,再将多个目标节点进行合并。
以先将多条目标边进行合并为例,图2c是根据本申请实施例提供的对初始知识图谱进行边合并的结构示意图,图2c将图2b中的目标边进行合并,目标边见S220处记载。合并后的边将各目标边的属性信息存储在邻接表中,邻接表的格式为K(V),K为合并后的边的标识,用T+数字的格式表示,V为各目标边的属性信息,具体的邻接表如图2c所示。
图2d是根据本申请实施例提供的对边合并后的知识图谱进行节点合并的结构示意图。图2d将图2c中的目标节点进行合并,目标节点见S220处记载。与各目标节点分别连接的边也就连接到合并后的节点上。值得说明的是,目标节点合并后,如果重新出现了两个节点之间属性信息的类型相同的多条目标边,则需要对多个目标边进行继续合并,如此目标节点与目标边交替合并,保证知识图谱的充分压缩。具体的,在将目标节点s1和s2进行合并后得到S1,S1与P1之间存在2条目标边,用虚线表示,然后将这2条目标边进行合并,得到一条边,用粗实线表示。合并后的节点将与各目标节点连接的边的属性信息存储在邻接表中,邻接表的格式为KV,K为合并后的边的标识,用ST+数字的格式表示,V为各目标节点的标识和各目标节点连接的边的属性信息,具体的邻接表如图2d所示。
在一应用场景中,同一个行动热点(WIFI)设备采集到了同一个人的大量信息,在此情况下,可能会形成这个人和这个WIFI设备间大量的边信息,可以将这些边合并成为同一条边,而在边的属性上记录下这个人和这个WIFI设备的连接时间等属性信息,从而避免了大量边的存在,压缩了知识图谱的规模。
在另一应用场景中,在某一个店铺中,有大量的WIFI设备,每一个WIFI设备都会有大量的连接到的人,在此情况下,会有大量的节点和边。可以将该店铺中的所有WIFI设备合并为同一个节点。这样,既不影响后续的分析,简化分析流程,同时,还能够将整个知识图谱的规模进一步压缩。
S240、从知识图谱中确定超级节点,超级节点连接的边的数量超过设定值。
在对目标地图元素进行合并后,可能会出现连接有大量边的超级节点。在对超级节点进行分析时,会出现长尾现象和超时现象。
其中,设定值可以自主设定,如100、500等。计算知识图谱中各节点连接的边的数量,将超过设定值的数量对应的节点称为超级节点。图2e是根据本申请实施例提供的超级节点的结构示意图。该超级节点用Sn表示,连接有9条边,7个节点,边的属性信息存储在邻接表中,为了简化,邻接表仅示出了K,即边的标识,用ST+数字的格式表示。假设ST表示时空属性信息,数字表示属性信息的值。
S250、根据超级节点连接的边的属性信息,将超级节点连接的边划分为多个边集合。
具体的,根据连接的边的属性信息的类型或者属性信息的值对超级节点进行拆分。例如,将属性信息的类型相同的边划分到一个边集合中,或者将属性信息的值在相同设定范围内的边划分到一个边集合中。例如,相同设定范围包括8点到12点、12点到15点,则将时间在8点到12点的边划分到一个边集合,时间在12点到15点的边划分到一个边集合。
S260、根据边集合的数量,将超级节点拆分为相应数量个节点,并将每个边集合中的边连接到拆分后的每个节点上。
图2f是根据本申请实施例提供的拆分后的节点的示意图。将时空属性信息的值相同的边划分到一个边集合中,即将属性信息的值为ST1、ST2和ST3的边分别划分到3个边集合中。进而,将超级节点拆分为3个节点,按照边的时空属性信息的值,确定拆分后的节点标识,以示区分,图2f示出了拆分后的3个节点标识分别为S1T1、S2T2和S3T3。接着,将属性信息的值为ST1的边集合连接到S1T1节点上,将属性信息的值为ST2的边集合连接到S2T2节点上,将属性信息的值为ST3的边集合连接到S3T3节点上。
本实施例通过拆分超级节点,将大量的边分摊到各个节点上,提升访问时效性,避免长尾现象和超时现象。
本实施例通过将属性信息的值之差在设定范围内的节点,以及将两个节点之间属性信息的类型相同的边进行合并,在将知识图谱在应用于动态关系挖掘等业务场景中时,可以一次性获取属性信息的值之差在设定范围内的节点,以及两点之间的属性信息的类型相同的边,有利于简化操作;同时,本实施例提供的合并方法更符合实际应用场景,避免对不相关的节点或边进行合并。
本申请实施例中,图3a是根据本申请实施例提供的第三种知识图谱的生成方法的流程示意图,本实施例在上述实施例的基础上进一步优化。
可选的,将操作“获取初始知识图谱”优化为“获取用于生成初始知识图谱的多种类型的多张子图,以及多张子图中节点的信息和边的属性信息;根据节点的信息,将多张子图中的相同节点进行合并,得到中间知识图谱;根据边的属性信息,将中间知识图谱中同一节点连接的、满足设定关联条件的边进行合并,得到初始知识图谱”,提供一种初始知识图谱的生成方法。
图3a提供的知识图谱的生成方法包括以下步骤:
S310、获取用于构建初始知识图谱的多种类型的多张子图,以及多张子图中节点的信息和边的属性信息。
S320、根据节点的信息,将多张子图中的相同节点进行合并,得到中间知识图谱。
同一节点会出现在不同类型的子图中。例如,由某个用户抽象成的节点出现在社会关系子图中和账户关系子图中,则将这个相同节点进行合并。但是,在不同类型的子图中,连接这个相同节点的边需要保留。
遍历多张子图中的每个节点,对任两张子图中的相同节点进行合并,得到一个知识图谱,称为中间知识图谱。可以理解的是,中间知识图谱中不存在相同的节点,而是融合了多张子图中的不同节点,并保留了全部的边。
S330、根据边的属性信息,将中间知识图谱中同一节点连接的、满足设定关联条件的边进行合并,得到初始知识图谱。
遍历同一节点连接的各条边,并获取该各条边的属性信息。将满足设定关联条件的边进行合并。相应地,合并的两条边所对应的另两个节点也需要合并。在实际操作中,可以将另两个节点用一个节点来表示,但保留原始两个节点的信息和属性信息。
可选地,设定关联条件包括但不限于时间属性信息或空间属性信息接近,转账数额属性信息接近,属性信息是否具有保密性。
以属性信息是否具有保密性为例,将均具有保密性的两条边合并,得到知识图谱。假设中间知识图谱中,节点5与节点6连接,表示用户A给用户B转账,对应边的属性信息为匿名转账。节点5与节点7连接,表示用户A给用户C通话,对应边的属性信息为电话号码不可见。可见,节点5连接的两条边的属性信息均具有保密性,则将这两条边合并。相应地,节点6和节点7也合并,合并后的节点同时表示用户B和用户C的信息。
根据边的目标属性信息,将中间知识图谱中同一节点连接的、目标属性信息的值之差在设定范围内的边进行合并,得到知识图谱。其中,目标属性信息包括时间属性信息和空间属性信息中的至少一项。设定范围可以根据实际情况灵活设置,时间之差可以是10分钟或半小时,空间之差可以是10米或50米。假设节点8与节点9连接,表示相机A拍摄到人脸1,对应边的属性信息为10点整,中心大道。节点8与节点10连接,表示相机A拍摄到人脸2,对应边的属性信息为10点5分,中心大道。可见,节点8连接的两条边的时间属性信息接近,空间属性信息相同,则将这两条边合并。相应地,节点9和节点10也合并,合并后的节点同时表示人脸1和人脸2的信息。
进而,在本实施例中,每张子图对应一种类型。图3b示出了5张子图,分别是社会关系子图、账户关系子图、行为关系子图、社交关系子图和身份关系子图。每张子图中,节点由实体抽象得到,边由实体之间的关系抽象得到。例如,某个节点表示用户的身份或者该用户关联的人事地物等信息。边表示该用户与其它用户之间的关系。
其中,每张子图中的节点的信息是节点的唯一标志,可以用节点的名称来表示。边的属性信息包括但不限于边的时间属性信息、空间属性信息、隶属属性信息、等级属性信息等。在一具体示例中,手机被某一个基站记录到对应的信息,则记录为一组点边关系“节点1:手机1;节点2:基站;节点1与节点2之间的边:手机连接基站,边的属性信息:时间,频次”。在另一具体示例中,某个账号给另一个账号转账,则就记录为一组点边关系“节点3:账号A;节点4:帐号B;节点1与节点2之间的边:转账,边的属性信息:转账时间,转账金额,转账的方向等”。
在实际操作中,将多张子图投影到时空坐标系内,如图3c所示。当然,有些关系可能没有时间属性信息或者空间属性信息,可以利用该关系两端的节点的时间属性信息或者空间属性信息作为关系的时间属性信息或者空间属性信息,这样是为了更好的表征关系,进而将相近属性的关系做合并,从而构建知识图谱。
然后,利用表征到同一个时空坐标系的多张子图,可以将相同节点进行合并,如图3d中,虚线圈出了部分相同的节点。
接着,将所有子图都投影到同一个图层平面上。该图层平面上拟合了时空属性,自然地,同一节点连接的时间属性信息或者空间属性信息接近的边就自动合并了,如图3e所示,这样就可以构建一个相对完整的知识图谱,称为初始知识图谱。图3e中,IMSI叫国际移动用户识别码(International Mobile Subscriber Identification Number),是区别移动用户的标志。IMEI(International Mobile Equipment Identity)是国际移动设备识别码的缩写。
S340、从初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素。
S360、将多个目标地图元素进行合并,生成知识图谱。
本申请实施例通过将多张类型的子图中相同的节点合并,实现了多类型子图的合并,初步融合了跨类型信息;进一步将同一节点连接的、满足设定关联条件的边进行合并,实现跨类型信息的充分融合,有效挖掘深层次信息,避免信息缺失和关键证据链断裂,使得知识图谱应用于动态关系挖掘等业务场景中时,能够发挥有效作用。
可选的,在S330之后还包括:如果初始知识图谱中存在孤立子图,查找各孤立子图之间具有关联关系的节点,并在具有关联关系的节点之间通过虚拟节点连接。孤立子图之间的节点是没有直接的连接的,需要挖掘哪些节点存在内部的关联关系,进而连接这些节点。通过打通孤立子图,形成完全连通的知识图谱,保证节点之间均可达,进一步实现了信息融合。
其中,查找各孤立子图之间具有关联关系的节点包括以下两种可选实施方式。
在第一种可选实施方式中,获取各孤立子图中各节点的目标属性信息,根据各节点的目标属性信息,将不同孤立子图中目标属性信息的值之差在设定范围内的节点,作为具有关联关系的节点。其中,目标属性信息包括时间属性信息和空间属性信息中的至少一项。有的节点可能没有时间属性信息或空间属性信息,则将其连接边的时间属性信息或空间属性信息作为该节点的时间属性信息或空间属性信息。与上文类似,设定范围可以根据实际情况灵活设置。
在第二种可选实施方式中,获取各孤立子图之间具有共性信息的节点。其中,共性信息包括相同身份信息。例如,人脸探头子图包括相连接的相机1节点和其拍摄到的人脸节点,车牌探头子图包括相连接的相机2节点和其拍摄到车牌节点。通信子图包括相连接的手机号码1节点和手机号码2节点。投影到同一个图层平面上后,这3个子图均是孤立子图。通过某些渠道获知,人脸、车牌和手机号码1均与某个身份证号关联,则将人脸节点、车牌节点和手机号码1节点指向虚拟节点,那么人脸、车牌和手机号码之间的关系就打通了,3个子图也相应连通了。可选地,共性信息还可以包括相同隶属信息或相同法人信息,如均隶属于某个机构或团体,均具有相同的法人。本实施例对共性信息不作具体限定。
值得说明的是,第一种可选实施方式和第二种可选实施方式可以择一执行或者均执行。均执行时,两种可选实施方式的执行顺序不作限定。择一执行时,可根据两种可选实施方式的可执行性选择合适的步骤。例如,各孤立子图之间不具有共性信息的节点,则可以尝试执行第一种可选实施方式。
进一步的,查找到具有关联关系的节点后,在具有关联关系的节点之间通过虚拟节点连接。
如图3f所示,基站探针子图包括相连接的基站节点和其探测到的手机物理地址节点。人脸探头子图包括相连接的相机节点和其拍摄到的人脸节点。投影到同一个图层平面上后,存在孤立子图。通过寻找发现,基站节点和相机节点的时间属性信息接近,空间属性信息也接近,则基站节点和相机节点为具有关联关系的节点。
如图3f所示,将基站节点和相机节点连接后,对应的手机物理地址节点和人脸节点也就连接起来了,从而挖掘出了手机物理地址和人脸之间的深层次关系。
如图3g所示,投影到同一个图层平面上后,孤立子图之间通过虚拟节点连通。虚拟节点用三角符号表示。
本实施例通过将不同孤立子图中时间属性信息和空间属性信息中至少一项接近的节点进行合并,从而利用时空接近的节点将不同的孤立子图连通起来,充分挖掘孤立子图之间时空接近的信息,构建新的关联关系,实现了深层次的数据挖掘;以及,通过将不同孤立子图中具有共性信息的节点连接起来,从而利用共性信息将不同的孤立子图连通起来,实现了共性信息的充分挖掘。
可选的,获取用于构建知识图谱的多种类型的多张子图,包括:获取多种类型的实体信息和实体之间的直接关系;将每种类型的实体信息抽象为节点,将实体之间的直接关系抽象为边,构建对应类型的子图;将对应类型的子图中具有关联关系的节点进行合并或连接,以实现子图内部节点和关系的融合和打通。
在真实的社会场景中,对象之间的关系描述方式可能是多种多样的,包括了结构化数据,非结构化数据,半结构化数据,还有可能包括文本,视频,音频,图像等各种多模态数据;关系不仅局限于人与人之间,还包括了人与物,物与物等多个维度。将所有的关系做了抽象,抽象出三个维度:实体信息,实体信息之间的直接关系和属性信息;这三个维度分别对应到了节点,边,以及节点和边上的属性信息。同时,为了从各种结构化,非结构化和半结构化的多源异构的多模态数据中提取对应的实体信息,关系和属性信息,提供了如下方法:
图3h是根据本申请实施例提供的初始知识图谱的构建架构图。结合图3h,首先,对多源异构接入的数据进行源端解析,解析方法包括结构化解析、半结构化解析、音频解析、视频解析和图片解析。然后利用解析后的数据,基于源端建模,构建成4WH(包括Who、When、Where和What)和How的方式。源端建模的方法包括:规则引擎,实体-属性-行为-关系(Entity-Property-Action-Relation,EPAR)建模和自然语言处理(NLP,Natural LanguageProcessing)平台建模,从而提取出对应的实体信息和属性信息。
其次,从解析后的数据中,利用与处理、规则库中的规则模板、依存关系分析,关系聚合和主语-谓语-宾语(Subject-Predication-Object,SPO)三元组关系提取等技术,提取出对应的关系;并针对关系做SPO融合和去重等,从而提取出关系。图3h中,提取出的关系包括固定关系、单次关系和持续关系。
接着,将4WH和How进行数据清洗、理解和提取,并接入知识图谱,抽象为知识图谱中的节点和节点的属性信息。提取出的关系抽象为节点之间的边和边的属性信息。之后,如果知识图谱中存在孤立子图,查找各子图之间具有关联关系的节点(即关联节点),在关联节点之间通过虚拟节点连接。为了与虚拟节点进行区分,将抽象为的节点称为实体节点。进一步的,结合关联节点和边的属性信息,将关联节点和关联节点的边的属性信息进行关联,抽象为具有关联节点的属性信息和边的属性信息的节点。
值得说明的是,在抽象为知识图谱中的节点和边时,首先抽象为每种类型的子图。具体将每种类型的实体信息抽象为节点,将实体之间的直接关系抽象为边,构建对应类型的子图;将对应类型的子图中具有关联关系的节点进行合并或连接,以实现子图内部节点和关系的融合和打通。
需要注意的是,实体之间的直接关系指从数据源中直接得到的关系,不需要推理和分析。例如,相机拍摄到车牌,则相机与车牌有直接关系;又例如用户购买物品,则用户与物品有直接关系。
在一示例中,根据所有手机相关的记录,构建一个子图,根据生物特征相关的实体,构建另一个子图;根据车辆相关的实体,构建另一个子图;根据帐号相关的实体,构建另一个子图;根据身份证相关的实体,构建又一个子图。
值得说明的是,此处具有关联关系的节点并不具有直接关系,即没有直接相连。本步骤将没有直接连接的节点进行连接或合并。比如,节点11和节点12是亲戚关系,节点12和节点13是亲戚关系,则节点11和节点13也是亲戚关系,则连接节点11和节点13,实现连个节点的打通。再比如,某人有两个手机号,每个手机号节点都有各自的通话行为,则可以将两个手机号节点合并为1个,实现节点的融合,相应的,两个手机号的通话行为也打通了,即实现了关系的打通。
这样做的好处是,将同一个子图内的所有关系做充分的融合,避免后续因为信息丢失,如丢失某个手机号,或丢失了节点11和节点12的关系,导致关键证据链断裂,而无法得到异常分析结果。
需要说明的是,如果节点是合并后的节点,则应保留原始节点的信息和属性信息;如果边是具有关联关系的节点连接得到的,则将该具有关联关系的节点的属性信息作为边的属性信息。
然后,根据节点的信息,将多张子图中的相同节点进行合并,得到中间知识图谱;根据边的属性信息,将中间知识图谱中同一节点连接的、满足设定关联条件的边进行合并,得到初始知识图谱。最后,采用存储支撑服务:图形数据库(Graph-DB)或缓存服务,将初始知识图谱进行存储。
本申请实施例中,图4是根据本申请实施例提供的第一种基于知识图谱的关系挖掘方法的流程示意图,本实施例适用于对上述各实施例提供的知识图谱进行动态关系挖掘的情况。该方法可以由一种基于知识图谱的关系挖掘装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于电子设备中,可选的,该电子设备可以是终端或服务器。如图4所示,本实施例提供的一种基于知识图谱的关系挖掘方法可以包括:
S410、获取知识图谱和待挖掘的动态关系。
本实施例中知识图谱是上述任一实施例提供的知识图谱,该知识图谱中满足设定属性要求的节点和边中的至少一项分别进行了合并。可选的,该知识图谱是联通图,不存在孤立的子图。
动态关系是会根据时间、空间、实体等信息的不同而动态变化的关系,如关联检索、扩线分析、点属性研判、边属性研判、关联分析、关联推理、团伙挖掘、即席分析、同车关系、同行关系和时空碰撞关系等。
S420、根据动态关系确定待挖掘信息,待挖掘信息包括待挖掘节点和待挖掘属性信息。
现有技术一般采用监控摄像头和WIFI设备等挖掘动态关系。本实施例在知识图谱的基础上,将动态关系的挖掘问题转化为图遍历的问题。基于此,首先根据动态关系中的实体确定节点的信息,根据动态关系中的关系确定属性信息。为了便于描述和区分,将根据动态关系确定的节点和属性信息分别称为待挖掘节点和待挖掘属性信息。待挖掘属性信息可作为节点的属性信息或边的属性信息。
例如,动态关系是同车关系,则确定待挖掘节点包括人物节点和车辆节点,待挖掘属性信息包括时间属性信息和空间属性信息。
S430、根据待挖掘信息,确定知识图谱中的起始节点和筛选条件。
S440、从起始节点起对知识图谱进行遍历,并根据筛选条件对遍历到的节点进行筛选,得到具有动态关系的节点。
起始节点是知识图谱中的任一节点,如对超级节点拆分后的节点、合并后的节点、虚拟节点等。起始节点可以是待挖掘节点或者具有待挖掘属性信息的节点。从起始节点开始对知识图谱进行遍历,得到遍历到的节点。本实施例对遍历方法不作限定,可以是深度优先遍历或者广度优先遍历;本实施例对遍历步数也不作限定,可以是1步、2步或3步等。遍历到的节点可以是末步遍历到的节点,也可以是每一步遍历到的节点,还可以包括起始节点和每一步遍历到的节点。
需要说明的是,知识图谱的遍历类似树的遍历,所谓遍历是指对至少图谱中所有结点的信息的访问,即依次对每个结点访问一次且仅访问一次。
筛选条件是对遍历到的节点进行筛选的条件,使筛选后的节点与待挖掘信息一致,例如筛选后的节点为待挖掘节点,筛选后的节点具有待挖掘属性信息,筛选后的节点的遍历路径具有待挖掘属性信息。该遍历路径包括筛选后的节点与起始节点之间直接连接的边,或间接连接的多条边。
本实施例中,通过根据动态关系确定待挖掘信息,在已对节点和边中的至少一项进行合并的知识图谱的基础上,将动态关系的挖掘问题转化为图遍历的问题;通过根据待挖掘信息确定知识图谱中的起始节点和筛选条件,并从起始节点起对知识图谱进行遍历,从而在合并后的知识图谱中准确找到起始节点进行遍历,并根据筛选条件对遍历到的节点进行筛选。由于知识图谱进行了预先合并,节点和边能够表达更多的属性信息,而且图结构足够小,因此可以从起始节点进行遍历,并对遍历到的节点进行筛选来找到具有动态关系的节点,无需对全量节点进行处理,可适用于在线知识图谱的动态关系挖掘,具有且分析流程简单,计算量少,响应耗时短。
本申请实施例中,图5a是根据本申请实施例提供的第二种基于知识图谱的关系挖掘方法的流程示意图,本实施例在上述实施例的基础上进一步优化。
可选的,在操作“根据待挖掘信息,确定知识图谱中的起始节点和筛选条件”之前,追加“从知识图谱中查找可抽象节点,可抽象节点具有第一类型的待挖掘属性信息、且连接的边具有第二类型的待挖掘属性信息;将可抽象节点和可抽象节点连接的边抽象为具有待挖掘属性信息的节点”,以进行点边融合。
图5a提供的基于知识图谱的关系挖掘方法包括以下步骤:
S510、获取知识图谱和待挖掘的动态关系。
S520、根据动态关系确定待挖掘信息,待挖掘信息包括待挖掘节点和待挖掘属性信息。
S530、从知识图谱中查找可抽象节点,可抽象节点具有第一类型的待挖掘属性信息、且连接的边具有第二类型的待挖掘属性信息。
待挖掘属性信息包括述第一类型的待挖掘属性信息和第二类型的待挖掘属性信息。例如,第一类型的待挖掘属性信息为时间属性信息,第二类型的待挖掘属性信息为空间属性信息。为了方便描述,将具有第一类型的待挖掘属性信息,且连接的边具有第二类型的待挖掘属性信息的节点称为可抽象节点,这里可抽象节点连接的边可以是一条边也可以是两条边。
S540、将可抽象节点和可抽象节点连接的边抽象为具有待挖掘属性信息的节点。
图5b是根据本申请实施例提供的对可抽象节点和边进行抽象的示意图。图5b中可抽象节点为虚拟节点,用三角形表示,具有空间属性信息,其与节点P1和节点P2连接的边具有时间属性信息,分别为t1和t2,则将虚拟节点和具有t1属性信息的边抽象为节点TS1,将虚拟节点和具有t2属性信息的边抽象为节点TS2,如图5b所示。
可选地,将可抽象节点连接的节点,重新连接到抽象为的节点上,例如图5b中将虚拟节点连接的节点P1和节点P2重新连接到节点TS1和节点TS2上,保证连接关系不变。
S550、根据待挖掘信息,确定知识图谱中的起始节点和筛选条件。
S560、从起始节点起对知识图谱进行遍历,并根据筛选条件对遍历到的节点进行筛选,得到具有动态关系的节点。
本实施例中,如果待挖掘属性信息分别分布在节点和节点连接的边上,可将节点和边进行抽象,使得抽象后的节点具有完整的待挖掘属性信息,从而在挖掘动态关系的过程中仅关心节点即可,无需再关心边,提高动态关系的挖掘效率。
本申请实施例中,图6是根据本申请实施例提供的第三种基于知识图谱的关系挖掘方法的流程示意图,本实施例在上述实施例的基础上进一步优化。
可选的,将操作“根据待挖掘信息,确定知识图谱中的起始节点和筛选条件”细化为“将具有待挖掘属性信息的节点确定为起始节点,将待挖掘节点确定为一步遍历筛选条件,将待挖掘属性信息确定为二步遍历筛选条件;或者,将具有第一类型的待挖掘属性信息的节点确定为起始节点,将第二类型的待挖掘属性信息和待挖掘节点确定为一步遍历筛选条件,将待挖掘属性信息确定为二步遍历筛选条件;其中,待挖掘属性信息包括第一类型的待挖掘属性信息和第二类型的待挖掘属性信息。”
图6提供的基于知识图谱的关系挖掘方法包括以下步骤:
S610、获取知识图谱和待挖掘的动态关系。
S620、根据动态关系确定待挖掘信息,待挖掘信息包括待挖掘节点和待挖掘属性信息。
S630、判断知识图谱中是否存在具有待挖掘属性信息的节点,如果存在,跳转到S641,如果不存在,跳转到S642。
可选地,待挖掘属性信息的类型为至少一种。基于此,如果待挖掘属性信息的类型为一种,判断知识图谱中是否存在该种待挖掘属性信息。如果存在,执行S641;如果不存在,结束本次操作。
如果待挖掘属性信息的类型为两种以上,判断知识图谱中是否存在全部类型的待挖掘属性信息,如果存在,执行S641;如果不存在,执行S642。
S641、将具有待挖掘属性信息的节点确定为起始节点,将待挖掘节点确定为一步遍历筛选条件,将待挖掘属性信息确定为二步遍历筛选条件。继续执行S650。
在第一种应用场景中,动态关系是时空碰撞关系,具体给定2个以上的时空点,挖掘同时出现在这些时空点的人物。待挖掘节点包括表征人物身份的节点,如人脸节点、手机节点、车辆节点等;待挖掘属性信息包括与每个时空点分别对应的时间属性信息和空间属性信息。
具体的,将具有与一个时空点对应的时间属性信息和空间属性信息的节点确定为起始节点,将表征人物身份信息的节点确定为一步遍历筛选条件,将与其它时空点对应的时间属性信息和空间属性信息确定为二步遍历筛选条件。
可选的,起始节点可以是知识图谱中原始的节点,还可以是上述实施例中的抽象为的节点。
S642、将具有第一类型的待挖掘属性信息的节点确定为起始节点,将第二类型的待挖掘属性信息和待挖掘节点确定为一步遍历筛选条件,将待挖掘属性信息确定为二步遍历筛选条件;其中,待挖掘属性信息包括第一类型的待挖掘属性信息和第二类型的待挖掘属性信息。继续执行S650。
在第二种应用场景中,动态关系是时空碰撞关系,具体给定2个以上的时空点,挖掘同时出现在这些时空点的人物。待挖掘节点包括表征人物身份的节点,如人脸节点、手机节点、车辆节点等;待挖掘属性信息包括与每个时空点分别对应的时间属性信息和空间属性信息。
具体的,将具有与一个时空点对应的空间属性信息的节点确定为起始节点,将与该时空点对应的时间属性信息和表征人物身份信息的节点确定为一步遍历筛选条件,将与其它时空点对应的时间属性信息和空间属性信息确定为二步遍历筛选条件。
S650、从起始节点起对知识图谱进行遍历,并根据一步遍历筛选条件和二步遍历筛选条件对遍历到的节点进行筛选,得到具有动态关系的节点。
可选的,从起始节点起对知识图谱进行两步遍历后,根据一步遍历筛选条件对一步遍历到的节点进行筛选,进而得到筛选出的节点的一步遍历后的节点;然后根据二步遍历筛选条件对筛选出的节点的一步遍历后的节点进行再次筛选,得到具有动态关系的节点。
可选的,为了减少遍历节点数,提高筛选效率,在每一步遍历结束后对遍历后的节点进行筛选。具体的,从起始节点开始,对知识图谱进行一步遍历,得到一步遍历到的节点;根据一步遍历筛选条件对一步遍历到的节点进行筛选,得到候选节点;从候选节点开始,对知识图谱进行一步遍历,得到二步遍历到的节点;二步遍历筛选条件对二步遍历到的节点进行筛选,得到具有动态关系的节点。
对于上述第一种应用场景,从具有与一个时空点对应的时间属性信息和空间属性信息的节点起,对知识图谱进行一步遍历,得到一步遍历到的节点;从一步遍历到的节点中筛选表征人物身份信息的节点;从表征人物身份信息的节点(即候选节点)开始,对知识图谱进行一步遍历,得到二步遍历到的节点;从二步遍历到的节点中筛选具有与其它时空点对应的时间属性信息和空间属性信息的节点,得到与初始节点和最终筛选后的节点分别连接的、表征人物身份信息的节点。由此经过时空—人—时空的两步遍历,并进行筛选,得到同时出现在这些时空点的人物。
对于上述第二种应用场景,从具有与一个时空点对应的空间属性信息的节点起,对知识图谱进行一步遍历,得到一步遍历到的节点;从一步遍历到的节点中筛选表征人物身份信息、且遍历路径具有与该时空点对应的时间属性信息的节点;从前述筛选出的节点(即候选节点)开始,对知识图谱进行一步遍历,得到二步遍历到的节点;从二步遍历到的节点中筛选具有与其它时空点对应的时间属性信息和空间属性信息的节点,或者,从二步遍历到的节点中筛选具有与其它时空点对应的空间属性信息,且与候选节点之间的遍历路径具有与其它时空点对应的时间属性信息的节点,得到与初始节点和最终筛选后的节点分别连接的、表征人物身份信息的节点。由此经过时空—人—时空的两步遍历,并进行筛选,得到同时出现在这些时空点的人物。
本实施例提供了一种起始节点和筛选条件的确定方法,适用于关联有待挖掘属性信息的待挖掘节点的挖掘;当待挖掘属性信息包括时间属性信息和空间属性信息,待挖掘节点为表征人物身份的节点时,可应用于时空碰撞关系的挖掘。由于知识图谱进行了预先合并,节点和边能够表达更多的属性信息,而且图结构足够小,因此能够通过两步遍历即可,极大地减少了计算量;而且,即使待挖掘属性信息改变,也能及时反馈更新后的节点,支持实时分析。
本申请实施例中,图7是根据本申请实施例提供的第四种基于知识图谱的关系挖掘方法的流程示意图,本实施例在上述实施例的基础上进一步优化。
可选的,将操作“根据待挖掘信息,确定知识图谱中的起始节点和筛选条件”细化为“将待挖掘节点确定为起始节点,将待挖掘属性信息确定为一步遍历筛选条件,将待挖掘节点确定为二步遍历筛选条件。”
图7提供的基于知识图谱的关系挖掘方法包括以下步骤:
S710、获取知识图谱和待挖掘的动态关系。
S720、根据动态关系确定待挖掘信息,待挖掘信息包括待挖掘节点和待挖掘属性信息。
S730、将待挖掘节点确定为起始节点,将待挖掘属性信息确定为一步遍历筛选条件,将待挖掘节点确定为二步遍历筛选条件。
在一种应用场景中,动态关系是同行关系,具体给定1个人物,挖掘与该人物同行的其它人物。待挖掘节点包括表征人物身份的节点,如人脸节点、手机节点、车辆节点等;待挖掘属性信息包括时间属性信息和空间属性信息。需要注意的是,本实施例只限定时间属性信息和空间属性信息的类型,而不限定值。
具体的,将表征该给定人物的身份的节点确定为起始节点,将时间属性信息和空间属性信息确定为一步遍历筛选条件,将表征人物身份的节点确定为二步遍历筛选条件。
S740、从起始节点起对知识图谱进行遍历,并根据一步遍历筛选条件和二步遍历筛选条件对遍历到的节点进行筛选,得到具有动态关系的节点。
可选的,从起始节点起对知识图谱进行两步遍历后,根据一步遍历筛选条件对一步遍历到的节点进行筛选,进而得到筛选出的节点的一步遍历后的节点;然后根据二步遍历筛选条件对筛选出的节点的一步遍历后的节点进行再次筛选,得到具有动态关系的节点。
可选的,为了减少遍历节点数,提高筛选效率,在每一步遍历结束后对遍历后的节点进行筛选。具体的,从起始节点开始,对知识图谱进行一步遍历,得到一步遍历到的节点;根据一步遍历筛选条件对一步遍历到的节点进行筛选,得到候选节点;从候选节点开始,对知识图谱进行一步遍历,得到二步遍历到的节点;二步遍历筛选条件对二步遍历到的节点进行筛选,得到具有动态关系的节点。
对于上述应用场景中,从表征该给定人物的身份的节点起,对知识图谱进行一步遍历,得到一步遍历到的节点;从一步遍历到的节点中筛选具有时间属性和空间属性的节点;从前述筛选出的节点(即候选节点)开始,对知识图谱进行一步遍历,得到二步遍历到的节点;从二步遍历到的节点中筛选表征人物身份的节点,得到与具有时间属性和空间属性的节点分别连接的、表征人物身份信息的节点。由此经过人—时空—人的两步遍历,并进行筛选,得到与给定人物同行的其它人物。
具体的,对二步遍历到的节点进行筛选后,对筛选后的节点按照所连节点的时间属性和空间属性进行聚合,即按照与给定人物共同出现的时空点对其它人物进行聚合;将与给定人物共同出现在2个以上时空点的其它人物确定为同行。
可选的,具有时间属性和空间属性的节点可以是知识图谱中原始的节点,还可以是上述实施例中的抽象为的节点。
本实施例提供了一种起始节点和筛选条件的确定方法,适用于同时关联有待挖掘属性信息的两个以上待挖掘节点的挖掘;当待挖掘属性信息包括时间属性信息和空间属性信息,待挖掘节点为表征人物身份的节点时,可应用于同行关系的挖掘。由于知识图谱进行了预先合并,节点和边能够表达更多的属性信息,而且图结构足够小,因此能够通过两步遍历即可,极大地减少了计算量;而且,即使待挖掘属性信息改变,也能及时反馈更新后的节点,支持实时分析。
本申请实施例中,图8是本申请实施例提供的一种知识图谱的生成装置的结构图,本申请实施例适用于对初始知识图谱进行再处理的情况,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图8所示的一种知识图谱的生成装置800,包括:获取模块801、确定模块802和生成模块803;其中,
获取模块801,用于获取初始知识图谱,初始知识图谱包括多个具有连接关系的节点;
确定模块802,用于从初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素,目标地图元素包括目标节点和目标边中的至少一项;
生成模块803,用于将多个目标地图元素进行合并,生成知识图谱。
本实施例中,通过对初始知识图谱中满足设定属性信息要求的多个目标节点和多条目标边中的至少一项分别进行合并,从而使得节点和边能够表达更多的属性信息,提高知识图谱的表达能力;而且,能够减小图结构,在将知识图谱在应用于动态关系挖掘等业务场景中时,能够简化分析流程,减少计算量,提高计算效率。
可选的,确定模块802具体用于:如果目标地图元素包括目标节点,从初始知识图谱中,确定任两个节点的属性信息的值之差在设定范围内的多个目标节点;如果目标地图元素包括目标边,从初始知识图谱中,确定两个节点之间属性信息的类型相同的多条目标边。
可选的,该装置还包括拆分模块,用于从知识图谱中确定超级节点,超级节点连接的边的数量超过设定值;根据超级节点连接的边的属性信息,将超级节点连接的边划分为多个边集合;根据边集合的数量,将超级节点拆分为相应数量个节点,并将每个边集合中的边连接到拆分后的每个节点上。
可选的,获取模块801包括:获取单元、第一合并单元和第二合并单元。获取单元用于获取用于构建初始知识图谱的多种类型的多张子图,以及多张子图中节点的信息和边的属性信息;第一合并单元用于根据节点的信息,将多张子图中的相同节点进行合并,得到中间知识图谱;第二合并单元用于根据边的属性信息,将中间知识图谱中同一节点连接的、满足设定关联条件的边进行合并,得到初始知识图谱。
可选的,第二合并单元具体用于:根据边的目标属性信息,将中间知识图谱中同一节点连接的、目标属性信息的值之差在设定范围内的边进行合并,得到初始知识图谱,其中,目标属性信息包括时间属性信息和空间属性信息。
可选的,该装置还包括连接模块,连接模块用于如果初始知识图谱中存在孤立子图,查找各孤立子图之间具有关联关系的节点,并在具有关联关系的节点之间通过虚拟节点连接。
可选的,连接模块在查找各孤立子图之间具有关联关系的节点时,具体用于:获取各孤立子图中各节点的目标属性信息,目标属性信息包括时间属性信息和空间属性信息中的至少一项;根据各节点的目标属性信息,将不同孤立子图中目标属性信息的值之差在设定范围内的节点,作为具有关联关系的节点;或者,获取各孤立子图之间具有共性信息的节点;其中,共性信息包括相同身份信息。
本实施例可执行上述任一实施例提供的知识图谱的生成方法,并具体对应的技术效果。
本申请实施例中,图9是本申请实施例提供的一种基于知识图谱的关系挖掘装置的结构图,本申请实施例适用于对上述各实施例提供的知识图谱进行动态关系挖掘的情况,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图9所示的一种基于知识图谱的关系挖掘装置900,包括:获取模块901、第一确定模块902、第二确定模块903和遍历和筛选模块904;其中,
获取模块901,用于获取知识图谱和待挖掘的动态关系;
第一确定模块902,用于根据动态关系确定待挖掘信息,待挖掘信息包括待挖掘节点和待挖掘属性信息;
第二确定模块903,用于根据待挖掘信息,确定知识图谱中的起始节点和筛选条件;
遍历和筛选模块904,用于从起始节点起对知识图谱进行遍历,并根据筛选条件对遍历到的节点进行筛选,得到具有动态关系的节点。
本实施例中,通过根据动态关系确定待挖掘信息,在已对节点和边中的至少一项进行合并的知识图谱的基础上,将动态关系的挖掘问题转化为图遍历的问题;通过根据待挖掘信息确定知识图谱中的起始节点和筛选条件,并从起始节点起对知识图谱进行遍历,从而在合并后的知识图谱中准确找到起始节点进行遍历,并根据筛选条件对遍历到的节点进行筛选。由于知识图谱进行了预先合并,节点和边能够表达更多的属性信息,而且图结构足够小,因此可以从起始节点进行遍历,并对遍历到的节点进行筛选来找到具有动态关系的节点,无需对全量节点进行处理,可适用于在线知识图谱的动态关系挖掘,且分析流程简单,计算量少,响应耗时短。
可选的,待挖掘属性信息包括第一类型的待挖掘属性信息和第二类型的待挖掘属性信息;该装置还包括抽象模块,用于从知识图谱中查找可抽象节点,可抽象节点具有第一类型的待挖掘属性信息、且连接的边具有第二类型的待挖掘属性信息;将可抽象节点和可抽象节点连接的边抽象为具有待挖掘属性信息的节点。
可选的,筛选条件包括一步遍历筛选条件和二步遍历筛选条件;第二确定模块903具体用于:将具有待挖掘属性信息的节点确定为起始节点,将待挖掘节点确定为一步遍历筛选条件,将待挖掘属性信息确定为二步遍历筛选条件;或者,将具有第一类型的待挖掘属性信息的节点确定为起始节点,将第二类型的待挖掘属性信息和待挖掘节点确定为一步遍历筛选条件,将待挖掘属性信息确定为二步遍历筛选条件;其中,待挖掘属性信息包括第一类型的待挖掘属性信息和第二类型的待挖掘属性信息。
可选的,筛选条件包括一步遍历筛选条件和二步遍历筛选条件;第二确定模块903具体用于:将待挖掘节点确定为起始节点,将待挖掘属性信息确定为一步遍历筛选条件,将待挖掘节点确定为二步遍历筛选条件。
可选的,遍历和筛选模块904具体用于:从起始节点开始,对知识图谱进行一步遍历,得到一步遍历到的节点;根据一步遍历筛选条件对一步遍历到的节点进行筛选,得到候选节点;从候选节点开始,对知识图谱进行一步遍历,得到二步遍历到的节点;二步遍历筛选条件对二步遍历到的节点进行筛选,得到具有动态关系的节点。
可选的,待挖掘节点包括表征人物身份的节点;待挖掘属性信息包括时间属性信息和空间属性信息。
本实施例可执行上述任一实施例提供的基于知识图谱的关系挖掘方法,并具体对应的技术效果。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图10所示,是根据本申请实施例的知识图谱的生成方法或基于知识图谱的关系挖掘方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的终端设备,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的知识图谱的生成方法或基于知识图谱的关系挖掘方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的知识图谱的生成方法或基于知识图谱的关系挖掘方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的知识图谱的生成方法或基于知识图谱的关系挖掘方法对应的程序指令/模块(例如,附图8所示的获取模块801、确定模块802和生成模块803;附图9所示的获取模块901、第一确定模块902、第二确定模块903和遍历和筛选模块904)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的知识图谱的生成方法或基于知识图谱的关系挖掘方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据知识图谱的生成方法或基于知识图谱的关系挖掘方法的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至知识图谱的生成方法或基于知识图谱的关系挖掘方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
知识图谱的生成方法或基于知识图谱的关系挖掘方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与知识图谱的生成方法或基于知识图谱的关系挖掘方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种知识图谱的生成方法,其特征在于,包括:
获取用于构建初始知识图谱的多种类型的多张子图,以及多张子图中节点的信息和边的属性信息;根据所述节点的信息,将多张子图中的相同节点进行合并,得到中间知识图谱;根据所述边的属性信息,将所述中间知识图谱中同一节点连接的、满足设定关联条件的边进行合并,得到所述初始知识图谱;所述设定关联条件为时间属性信息或空间属性信息接近,所述初始知识图谱包括多个具有连接关系的节点;
如果所述初始知识图谱中存在孤立子图,查找各所述孤立子图之间具有关联关系的节点;
若孤立子图包括基站探针子图和人脸探头子图,且基站探针子图包括相连接的基站节点和其探测到的手机物理地址节点,人脸探头子图包括相连接的相机节点和其拍摄到的人脸节点,则当基站节点和相机节点的时间属性信息接近,空间属性信息也接近时,确定基站节点和相机节点为具有关联关系的节点;
并在具有关联关系的节点之间通过虚拟节点连接;
从所述初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素,包括:如果所述目标地图元素包括目标节点,从所述初始知识图谱中,确定任两个节点的属性信息的值之差在设定范围内的多个目标节点;如果所述目标地图元素包括目标边,从所述初始知识图谱中,确定两个节点之间属性信息的类型相同的多条目标边;所述属性信息的类型为时间或空间;所述目标地图元素包括目标节点和目标边中的至少一项;
将所述多个目标地图元素进行合并,生成知识图谱。
2.根据权利要求1所述的方法,其特征在于,在所述将所述多个目标地图元素进行合并,生成知识图谱之后,还包括:
从所述知识图谱中确定超级节点,所述超级节点连接的边的数量超过设定值;
根据所述超级节点连接的边的属性信息,将所述超级节点连接的边划分为多个边集合,包括:将时空属性信息的值相同的边划分到一个边集合中;
根据所述边集合的数量,将所述超级节点拆分为相应数量个节点,并将每个边集合中的边连接到拆分后的每个节点上。
3.根据权利要求1所述的方法,其特征在于,所述根据所述边的属性信息,将所述中间知识图谱中同一节点连接的、满足设定关联条件的边进行合并,得到所述初始知识图谱,包括:
根据所述边的目标属性信息,将所述中间知识图谱中同一节点连接的、所述目标属性信息的值之差在设定范围内的边进行合并,得到所述初始知识图谱;
其中,所述目标属性信息包括时间属性信息和空间属性信息中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述查找各所述孤立子图之间具有关联关系的节点,包括:
获取各所述孤立子图中各节点的目标属性信息,所述目标属性信息包括时间属性信息和空间属性信息中的至少一项;
根据所述各节点的目标属性信息,将不同孤立子图中所述目标属性信息的值之差在设定范围内的节点,作为具有关联关系的节点;或者,
所述查找各所述孤立子图之间具有关联关系的节点,包括:
获取各所述孤立子图之间具有共性信息的节点;
其中,所述共性信息包括相同身份信息。
5.一种基于知识图谱的关系挖掘方法,其特征在于,所述知识图谱根据权利要求1-4任一项所述的方法生成,所述方法包括:
获取所述知识图谱和待挖掘的动态关系;
根据所述动态关系确定待挖掘信息,所述待挖掘信息包括待挖掘节点和待挖掘属性信息;若动态关系是同行关系,则待挖掘节点为表征人物身份的节点,待挖掘属性信息包括时间属性信息和空间属性信息;
根据所述待挖掘信息,确定所述知识图谱中的起始节点和筛选条件,包括:将表征人物身份的节点确定为起始节点,将时间属性信息和空间属性信息确定为一步遍历筛选条件,将表征人物身份的节点确定为二步遍历筛选条件;
从所述起始节点起对所述知识图谱进行遍历,并根据所述筛选条件对遍历到的节点进行筛选,得到具有所述动态关系的节点,包括:从表征人物身份的节点起,对知识图谱进行一步遍历,得到一步遍历到的节点;从一步遍历到的节点中筛选具有时间属性和空间属性的节点,作为候选节点;从所述候选节点开始,对所述知识图谱进行一步遍历,得到二步遍历到的节点;从二步遍历到的节点中筛选表征人物身份的节点,得到与具有时间属性和空间属性的节点分别连接的表征人物身份的节点,作为具有所述动态关系的节点;
对筛选后的节点按照所连节点的时间属性和空间属性进行聚合,即按照与给定人物共同出现的时空点对其它人物进行聚合;将与给定人物共同出现在2个以上时空点的其它人物确定为同行。
6.根据权利要求5所述的方法,其特征在于,所述待挖掘属性信息包括第一类型的待挖掘属性信息和第二类型的待挖掘属性信息;第一类型的待挖掘属性信息为时间属性信息,第二类型的待挖掘属性信息为空间属性信息;
在所述根据所述待挖掘信息,确定所述知识图谱中的起始节点和筛选条件之前,还包括:
从所述知识图谱中查找可抽象节点,所述可抽象节点具有第一类型的待挖掘属性信息、且连接的边具有所述第二类型的待挖掘属性信息;
将所述可抽象节点和所述可抽象节点连接的边抽象为具有所述待挖掘属性信息的节点。
7.根据权利要求5所述的方法,其特征在于,所述筛选条件包括一步遍历筛选条件和二步遍历筛选条件;
所述根据所述待挖掘信息,确定所述知识图谱中的起始节点和筛选条件,包括:
将具有待挖掘属性信息的节点确定为起始节点,将所述待挖掘节点确定为所述一步遍历筛选条件,将所述待挖掘属性信息确定为所述二步遍历筛选条件,包括:将具有与一个时空点对应的时间属性信息和空间属性信息的节点确定为起始节点,将表征人物身份信息的节点确定为一步遍历筛选条件,将与其它时空点对应的时间属性信息和空间属性信息确定为二步遍历筛选条件;或者,
将具有第一类型的待挖掘属性信息的节点确定为起始节点,将第二类型的待挖掘属性信息和所述待挖掘节点确定为所述一步遍历筛选条件,将所述待挖掘属性信息确定为所述二步遍历筛选条件,包括:将具有与一个时空点对应的空间属性信息的节点确定为起始节点,将与该时空点对应的时间属性信息和表征人物身份信息的节点确定为一步遍历筛选条件,将与其它时空点对应的时间属性信息和空间属性信息确定为二步遍历筛选条件;其中,所述待挖掘属性信息包括所述第一类型的待挖掘属性信息和所述第二类型的待挖掘属性信息。
8.根据权利要求5所述的方法,其特征在于,所述筛选条件包括一步遍历筛选条件和二步遍历筛选条件;
所述根据所述待挖掘信息,确定所述知识图谱中的起始节点和筛选条件,包括:
将所述待挖掘节点确定为起始节点,将所述待挖掘属性信息确定为所述一步遍历筛选条件,将所述待挖掘节点确定为所述二步遍历筛选条件。
9.一种知识图谱的生成装置,其特征在于,包括:
获取模块,用于获取用于构建初始知识图谱的多种类型的多张子图,以及多张子图中节点的信息和边的属性信息;根据所述节点的信息,将多张子图中的相同节点进行合并,得到中间知识图谱;根据所述边的属性信息,将所述中间知识图谱中同一节点连接的、满足设定关联条件的边进行合并,得到所述初始知识图谱;所述设定关联条件为时间属性信息或空间属性信息接近,所述初始知识图谱包括多个具有连接关系的节点;
确定模块,用于从所述初始知识图谱中,确定满足设定属性信息要求的多个目标地图元素,包括:如果所述目标地图元素包括目标节点,从所述初始知识图谱中,确定任两个节点的属性信息的值之差在设定范围内的多个目标节点;如果所述目标地图元素包括目标边,从所述初始知识图谱中,确定两个节点之间属性信息的类型相同的多条目标边;所述属性信息的类型为时间或空间;所述目标地图元素包括目标节点和目标边中的至少一项;
生成模块,用于将所述多个目标地图元素进行合并,生成知识图谱;
所述装置还用于:如果所述初始知识图谱中存在孤立子图,查找各所述孤立子图之间具有关联关系的节点;若孤立子图包括基站探针子图和人脸探头子图,且基站探针子图包括相连接的基站节点和其探测到的手机物理地址节点,人脸探头子图包括相连接的相机节点和其拍摄到的人脸节点,则当基站节点和相机节点的时间属性信息接近,空间属性信息也接近时,确定基站节点和相机节点为具有关联关系的节点;并在具有关联关系的节点之间通过虚拟节点连接。
10.一种基于知识图谱的关系挖掘装置,其特征在于,包括:
获取模块,用于获取所述知识图谱和待挖掘的动态关系;
第一确定模块,用于根据所述动态关系确定待挖掘信息,所述待挖掘信息包括待挖掘节点和待挖掘属性信息;若动态关系是同行关系,则待挖掘节点为表征人物身份的节点,待挖掘属性信息包括时间属性信息和空间属性信息;
第二确定模块,用于根据所述待挖掘信息,确定所述知识图谱中的起始节点和筛选条件,包括:将表征人物身份的节点确定为起始节点,将时间属性信息和空间属性信息确定为一步遍历筛选条件,将表征人物身份的节点确定为二步遍历筛选条件;
遍历和筛选模块,用于从所述起始节点起对所述知识图谱进行遍历,并根据所述筛选条件对遍历到的节点进行筛选,得到具有所述动态关系的节点,包括:从表征人物身份的节点起,对知识图谱进行一步遍历,得到一步遍历到的节点;从一步遍历到的节点中筛选具有时间属性和空间属性的节点,作为候选节点;从所述候选节点开始,对所述知识图谱进行一步遍历,得到二步遍历到的节点;从二步遍历到的节点中筛选表征人物身份的节点,得到与具有时间属性和空间属性的节点分别连接的表征人物身份的节点,作为具有所述动态关系的节点;
对筛选后的节点按照所连节点的时间属性和空间属性进行聚合,即按照与给定人物共同出现的时空点对其它人物进行聚合;将与给定人物共同出现在2个以上时空点的其它人物确定为同行。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的知识图谱的生成方法,或权利要求5-8中任一项所述的基于知识图谱的关系挖掘方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的知识图谱的生成方法,或权利要求5-8中任一项所述的基于知识图谱的关系挖掘方法。
CN202010238498.0A 2020-03-30 2020-03-30 知识图谱的生成方法、关系挖掘方法、装置、设备和介质 Active CN111324643B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010238498.0A CN111324643B (zh) 2020-03-30 2020-03-30 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
US17/208,921 US20210319329A1 (en) 2020-03-30 2021-03-22 Method and apparatus for generating knowledge graph, method for relation mining
KR1020210037307A KR20210040003A (ko) 2020-03-30 2021-03-23 지식 그래프의 생성 방법, 관계 마이닝 방법, 장치, 기기 및 매체
JP2021049223A JP7098775B2 (ja) 2020-03-30 2021-03-23 ナレッジグラフの生成方法、関係マイニング方法、装置、機器及び媒体
EP21164298.8A EP3859564A3 (en) 2020-03-30 2021-03-23 Method and apparatus for generating knowledge graph, method and apparatus for relation mining, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010238498.0A CN111324643B (zh) 2020-03-30 2020-03-30 知识图谱的生成方法、关系挖掘方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111324643A CN111324643A (zh) 2020-06-23
CN111324643B true CN111324643B (zh) 2023-08-29

Family

ID=71171643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010238498.0A Active CN111324643B (zh) 2020-03-30 2020-03-30 知识图谱的生成方法、关系挖掘方法、装置、设备和介质

Country Status (5)

Country Link
US (1) US20210319329A1 (zh)
EP (1) EP3859564A3 (zh)
JP (1) JP7098775B2 (zh)
KR (1) KR20210040003A (zh)
CN (1) CN111324643B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767432B (zh) * 2020-06-30 2024-04-02 北京百度网讯科技有限公司 共现对象的查找方法和装置
US11556636B2 (en) * 2020-06-30 2023-01-17 Microsoft Technology Licensing, Llc Malicious enterprise behavior detection tool
CN111881301B (zh) * 2020-07-15 2024-06-04 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备和存储介质
CN111782822A (zh) * 2020-07-21 2020-10-16 致诚阿福技术发展(北京)有限公司 一种关系图谱生成方法及装置
CN112215441A (zh) * 2020-11-17 2021-01-12 北京明略软件系统有限公司 预测模型训练方法及系统
CN112612846B (zh) * 2020-12-23 2022-07-26 厦门市美亚柏科信息股份有限公司 一种关联关系可视化的方法和终端
CN112445919A (zh) * 2021-02-01 2021-03-05 深圳追一科技有限公司 知识图谱构建方法和装置、服务器、计算机可读存储介质
CN112925921B (zh) * 2021-04-21 2022-02-22 海南大学 基于dikw图谱的资源识别方法、相关装置及可读介质
CN113535810B (zh) * 2021-06-25 2024-02-27 杨粤湘 一种交通违法对象的挖掘方法、装置、设备及介质
EP4375356A1 (en) 2021-07-20 2024-05-29 Toyo Seikan Group Holdings, Ltd. Means for controlling intracellular reaction utilizing needle-shaped body
CN114092868B (zh) * 2021-09-24 2023-07-21 山东高速建设管理集团有限公司 一种人车溯源监控管理系统及方法
CN113918374B (zh) * 2021-12-08 2022-03-08 云智慧(北京)科技有限公司 一种运维系统的根因分析方法、装置及设备
CN114020934A (zh) * 2022-01-05 2022-02-08 深圳市其域创新科技有限公司 基于知识图谱的空间语义信息的整合方法及系统
CN114282011B (zh) * 2022-03-01 2022-08-23 支付宝(杭州)信息技术有限公司 知识图谱的构建方法和装置、图计算方法及装置
CN114416913B (zh) * 2022-03-28 2022-07-05 支付宝(杭州)信息技术有限公司 一种对知识图谱进行数据分片的方法及装置
CN114490833B (zh) * 2022-04-06 2022-10-11 支付宝(杭州)信息技术有限公司 一种图计算结果可视化方法和系统
CN114723574A (zh) * 2022-04-06 2022-07-08 平安科技(深圳)有限公司 基于人工智能的保险反欺诈识别方法、装置、设备及介质
CN114579826B (zh) * 2022-04-27 2022-08-12 支付宝(杭州)信息技术有限公司 基于知识图谱的任务处理方法及装置
CN114564525B (zh) * 2022-04-28 2022-07-29 支付宝(杭州)信息技术有限公司 基于用户交易数据挖掘用户意图的方法和装置
CN115983385B (zh) * 2023-03-21 2023-08-11 航天宏图信息技术股份有限公司 空间环境实体构建方法及装置
CN116523039B (zh) * 2023-04-26 2024-02-09 华院计算技术(上海)股份有限公司 连铸知识图谱的生成方法及装置、存储介质、终端
CN116186359B (zh) * 2023-05-04 2023-09-01 安徽宝信信息科技有限公司 一种高校多源异构数据的集成管理方法、系统及存储介质
CN116340559B (zh) * 2023-05-17 2023-10-20 阿里巴巴达摩院(杭州)科技有限公司 图数据处理方法
CN117332091B (zh) * 2023-08-29 2024-03-29 泰瑞数创科技(北京)股份有限公司 一种基于语义关系的地理实体时空知识图谱构建方法
CN117319286A (zh) * 2023-09-21 2023-12-29 鸿图百奥科技(广州)有限公司 一种通信数据的传输方法及系统
CN117235285B (zh) * 2023-11-09 2024-02-02 支付宝(杭州)信息技术有限公司 融合知识图谱数据的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710776A (zh) * 2018-12-29 2019-05-03 中国科学技术大学 相册的知识图谱的构建方法
CN110457403A (zh) * 2019-08-12 2019-11-15 南京星火技术有限公司 图网络决策系统、方法及知识图谱的构建方法
CN110472068A (zh) * 2019-08-20 2019-11-19 星环信息科技(上海)有限公司 基于异构分布式知识图谱的大数据处理方法、设备及介质
CN110727804A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 利用知识图谱处理维修案例的方法、装置及电子设备
WO2020039871A1 (ja) * 2018-08-23 2020-02-27 国立研究開発法人物質・材料研究機構 探索システムおよび探索方法
CN110866190A (zh) * 2019-11-18 2020-03-06 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN110929047A (zh) * 2019-12-11 2020-03-27 中国人民解放军国防科技大学 关注邻居实体的知识图谱推理方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249338A (ja) * 1995-03-08 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> データベース概念スキーマ統合支援装置
JP2003162533A (ja) 2001-11-22 2003-06-06 Nec Corp スキーマ統合変換システム、スキーマ統合変換方法およびスキーマ統合変換用プログラム
JP4935405B2 (ja) 2007-02-16 2012-05-23 日本電気株式会社 因果関係分析装置、因果関係分析方法及びプログラム
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US10313365B2 (en) * 2016-08-15 2019-06-04 International Business Machines Corporation Cognitive offense analysis using enriched graphs
US10878309B2 (en) * 2017-01-03 2020-12-29 International Business Machines Corporation Determining context-aware distances using deep neural networks
US20200074322A1 (en) 2018-09-04 2020-03-05 Rovi Guides, Inc. Methods and systems for using machine-learning extracts and semantic graphs to create structured data to drive search, recommendation, and discovery

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020039871A1 (ja) * 2018-08-23 2020-02-27 国立研究開発法人物質・材料研究機構 探索システムおよび探索方法
CN109710776A (zh) * 2018-12-29 2019-05-03 中国科学技术大学 相册的知识图谱的构建方法
CN110457403A (zh) * 2019-08-12 2019-11-15 南京星火技术有限公司 图网络决策系统、方法及知识图谱的构建方法
CN110472068A (zh) * 2019-08-20 2019-11-19 星环信息科技(上海)有限公司 基于异构分布式知识图谱的大数据处理方法、设备及介质
CN110727804A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 利用知识图谱处理维修案例的方法、装置及电子设备
CN110866190A (zh) * 2019-11-18 2020-03-06 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN110929047A (zh) * 2019-12-11 2020-03-27 中国人民解放军国防科技大学 关注邻居实体的知识图谱推理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Querying Knowledge Graphs by Example Entity Tuples;Nandish Jayaram;《IEEE Transactions on Knowledge and Data Engineering》;全文 *

Also Published As

Publication number Publication date
US20210319329A1 (en) 2021-10-14
EP3859564A3 (en) 2021-09-15
EP3859564A2 (en) 2021-08-04
KR20210040003A (ko) 2021-04-12
CN111324643A (zh) 2020-06-23
JP2021119463A (ja) 2021-08-12
JP7098775B2 (ja) 2022-07-11

Similar Documents

Publication Publication Date Title
CN111324643B (zh) 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
CN110941664B (zh) 知识图谱的构建方法、检测方法、装置、设备及存储介质
CN110543586B (zh) 多重用户身份融合方法、装置、设备及存储介质
WO2016095516A1 (zh) 一种复杂事件处理方法、装置及系统
US20150213042A1 (en) Search term obtaining method and server, and search term recommendation system
WO2015139559A1 (zh) 生成数字人的方法及系统
US11968427B2 (en) Video message generation method and apparatus, electronic device, and storage medium
KR102505352B1 (ko) 라이브 방송룸의 사용자 커뮤니케이션 방법, 장치, 기기 및 저장 매체
CN112311571B (zh) 网络拓扑生成方法及装置、电子设备和非暂态存储介质
CN111767321B (zh) 节点关系网络的确定方法、装置、电子设备和存储介质
CN107358535B (zh) 一种社区发现方法及装置
CN111625552A (zh) 数据收集方法、装置、设备和可读存储介质
CN113778403A (zh) 前端代码生成方法和装置
KR20210040327A (ko) 신원 정보 처리 방법, 장치, 전자 기기 및 저장 매체
CN111177481B (zh) 用户标识映射方法及装置
KR20220014865A (ko) 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체
US20210191930A1 (en) Visually mapping nodes and connections in one or more enterprise-level systems
CN108540302B (zh) 一种大数据处理的方法及设备
US10289283B1 (en) Visual analysis for multi-dimensional data
CN112328658A (zh) 用户档案数据处理方法、装置、设备及存储介质
CN111557014A (zh) 提供多个个人资料的方法及系统
CN112069137A (zh) 生成信息的方法、装置、电子设备及计算机可读存储介质
CN109450798A (zh) 路由表信息的管理方法和计算机可读存储介质
CN113691403A (zh) 拓扑节点配置方法、相关装置及计算机程序产品
CN108256957A (zh) 基于用户历史行为的车源搜索结果的展现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant