CN112052338A - 一种知识图谱的构建方法、系统及存储介质 - Google Patents
一种知识图谱的构建方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112052338A CN112052338A CN202010720913.6A CN202010720913A CN112052338A CN 112052338 A CN112052338 A CN 112052338A CN 202010720913 A CN202010720913 A CN 202010720913A CN 112052338 A CN112052338 A CN 112052338A
- Authority
- CN
- China
- Prior art keywords
- information
- knowledge
- nodes
- graph
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种知识图谱的构建方法、系统及存储介质,涉及数据处理技术领域,旨在解决目前的知识图谱难以在降低储存空间的同时保全数据的完整性的问题。本发明提出的知识图谱的构建方法包括以下步骤:在采集区域内部署采集设备,将所述采集设备的信息存储于数据库中;利用所述采集设备采集主体的信息,并将所述主体的信息存储于数据库中;基于所述采集设备的信息和所述主体的信息,构建若干初始知识图谱;将所述初始知识图谱彼此关联起来,生成最终的知识图谱。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种知识图谱的构建方法、系统及存储介质。
背景技术
随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,人们往往难以有效地获取所需的信息。
知识图谱以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。知识图谱旨在描述现实世界中存在的实体以及实体之间的关系,以实现通过对关注的实体进行检索分析来获取与之相关联的其他实体。但是现有技术中的知识图谱表达的内容比较单一,难以体现节点之间和/或边之间深层次的关联性,导致知识图谱难以充分发挥其作用,而且由于数据往往具有多源异构的特点,在对不同类型的数据进行合并时,对计算和存储也是极大的挑战。
发明内容
本发明的主要目的在于提供一种知识图谱的构建方法、系统及存储介质,旨在解决目前的知识图谱难以在降低储存空间的同时保全数据的完整性的问题。
为实现上述目的,本发明提供的一种知识图谱的构建方法,所述知识图谱的构建方法包括以下步骤:
在采集区域内部署采集设备,将所述采集设备的信息存储于数据库中;
利用所述采集设备采集主体的信息,并将所述主体的信息存储于数据库中;
基于所述采集设备的信息和所述主体的信息,构建若干初始知识图谱;
将所述初始知识图谱关联起来,生成最终的知识图谱。
在本申请的一实施例中,所述采集设备的信息至少包括采集设备的唯一标识和采集设备的类型。
在本申请的一实施例中,在利用所述采集设备采集主体的信息之后,将所述主体的信息存储于数据库中之前,还包括以下步骤:基于所述采集设备所采集的主体的信息,调取与所述主体相关联的信息,并存储于数据库中。
在本申请的一实施例中,所述采集设备所采集的所述主体的信息至少包括所述主体的唯一标识、所述主体的类型和采集到所述主体时所对应的时间。
在本申请的一实施例中,所述初始知识图谱包括用于表示所述采集设备和所述主体的信息的节点,以及用于表示所连接的两个节点间的关系的边。
在本申请的一实施例中,基于所述采集设备的信息和所述主体的信息,构建若干初始知识图谱,进一步包括以下步骤:
基于所述采集设备的信息和所述主体的信息,确定所述采集设备和所述主体的对应关系;
根据述采集设备和所述主体的对应关系,对节点及其信息、边及其信息进行提取;
基于所述节点及其信息、边及其信息,构建若干初始知识图谱。
在本申请的一实施例中,将所述初始知识图谱彼此关联起来,生成最终的知识图谱,进一步包括以下步骤:
将采集区域划分为m米ⅹn米的空间网格;
基于相同类型的初始知识图谱,将划分了空间网格的采集区域与所述初始知识图谱相对应;
基于相同类型的初始知识图谱,筛选出在预设时间范围内处于同一所述空间网格内的节点合并成关联节点;
将处于不同空间网格内的存在连接关系的且满足预设的时间差的节点间的边合并成关联边。
在本申请的一实施例中,将所述初始知识图谱关联起来,进一步还包括以下步骤:
基于所述节点的信息,将不同类型的初始知识图谱的节点进行对比;
筛选出存在隐性关系的节点,比较所述存在隐性关系的节点的时间信息或位置信息,若满足预设的时间差或空间差,则将所述存在隐性关系的节点通过虚拟节点进行合并;
在完成相同类型和/或不同类型的知识图谱的关联后,生成最终的知识图谱。
本发明还提供了一种实现上述的知识图谱的构建方法的系统,包括:
采集模块,所述采集模块包括若干采集设备,用于采集所述主体的信息;
构建模块,用于基于所述采集设备和所述主体的信息构建所述初始知识图谱;
合并模块,用于根据所述初始知识图谱的信息,对所述满足预设的要求的节点和/或边进行合并;
生成模块,用于根据合并模块的合并结果,生成最终的知识图谱。
本发明还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述的方法。
本发明具有如下有益效果:
1.通过在采集区域部署采集设备,并利用采集设备采集主体的信息,生成若干初始知识图谱;
2.根据采集设备所采集的主体的信息,调取数据库内的或外接的系统中与主体相关联的信息,对主体的信息进行完善,有助于通过知识图谱更加直观、清楚地获取主体的相关信息;
3.通过将初始知识图谱中的相同的节点进行合并,初步实现了对初级知识图谱中的信息融合;
4.通过预设的时间范围和预设距离的空间网格作为节点的筛选条件,筛选出满足筛选条件的节点,并对筛选后的节点及其满足预设关联条件的边进行合并,在一定程度上可避免同一网格内的节点合并后所对应的边剧增的情况,降低了因出现超级节点,而对计算速率或存储空间造成影响的概率,进一步实现了多源异构的信息的有效融合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的示例性的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图,其中:
图1为本发明实施例一种知识图谱的构建方法的流程示意图;
图2本发明实施例一种知识图谱的构建方法的将节点合并成关联节点后的知识图谱示意图;
图3为本发明实施例一种知识图谱的构建系统的结构图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的示例性的实施例,而不是唯一的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种知识图谱的构建方法,如图1-图3所示,包括以下步骤:
S10在采集区域内部署采集设备,将所述采集设备的信息存储于数据库中。
具体地,在采集区域内部署若干采集设备,采集设备可以为现有技术中的摄像机、治安卡口、基站等,并记录采集设备的信息,并存储于数据库中,采集设备的信息至少包括采集设备的唯一标识和采集设备的类型。通过为采集设备设定唯一标识码,以准确区别各采集设备,进而准确判断采集设备与主体的对应关系,以及便于判断主体的行为轨迹。
S20利用所述采集设备采集主体的信息,并将所述主体的信息存储于数据库中。
具体地,利用采集设备采集主体的信息,基于所述采集设备所采集的主体信息,由数据库或其他外接系统调取与所述主体相关联的信息,并将所述主体的信息和所述与主体相关联的信息一并存储于数据库中。采集设备所采集的所述主体的信息至少包括所述主体的唯一标识、主体的类型和采集到所述主体时所对应的时间,通过记录采集设备采集到主体时对应的时间,以进一步确定主体的行为及其轨迹,进而实现对主体的信息更完善地存储以便于后续对主体的追踪。
例如,主体的类型可以为采集设备如摄像机所采集人脸信息,并基于所述人脸信息,由数据库或其他外接系统,外接系统如公安系统等,调取与该人脸信息相关联的信息,如对应的身份证号码、住址等,主体的唯一标识可以为其身份证号码。
主体的类型可以为采集设备如治安卡口所采集的车牌信息,并基于所述车牌信息,由数据库或其他外接系统,外接系统如公安系统等,调取与该车牌信息相关联的信息,如对应的车主身份信息、车辆的品牌、车辆的违章信息等,主体的唯一标识可以为车主的身份证号码,也可以为车牌号码。
主体的类型可以为采集设备如基站所采集的主体的定位信息或通讯信息,由数据库或其他外接系统,调取与所述定位信息或通讯信息相关联的信息,如定位点周围的建筑物、与主体通讯的用户信息等,主体的唯一表示可以为定位点的经纬度,也可以为自定义的字符或号码。
S30基于所述采集设备的信息和所述主体的信息,构建若干初始知识图谱。
具体地,初始知识图谱包括用于表示所述采集设备和所述主体的节点,以及用于表示所连接的两个节点间的关系的边。节点表示部署于采集区域内的各采集设备以及所述采集设备所采集的主体,节点还应相应地存储有采集设备的信息,边用于将两个相关联的节点相连接,边还存储有相连接的两个节点的连接关系。
S31基于所述采集设备的信息和所述主体的信息,确定所述采集设备和所述主体的对应关系。
具体地,采集设备所采集的数据即所述采集设备的信息和所述主体的信息,往往表示为k-v数据结构、关系型数据结构等的记录类数据。由于数据往往具有多源异构的特点,优选地可创建关于记录类数据与初始知识图谱之间的映射关系的标签,以实现对边的归一化,以解决多元数据结构不一致的问题。
S32根据述采集设备和所述主体的对应关系,对节点及其信息、边及其信息进行提取。
具体地,在确定所述采集设备和所述主体的对应关系后,基于采集设备所采集的数据,即在k-v数据结构、关系型数据结构等的记录类数据中,提取节点及其信息、边及其信息。也就是说,根据所创建关于记录类数据与初始知识图谱之间的映射关系的标签,提取出节点所表示的采集设备或主体的信息,节点与节点之间的边,以及边的信息。节点的信息的表示形式为主体的类型和主体的唯一标识的组合,还可选地加上其他信息;边的信息的表示形式为起点的信息、终点的信息以及关系类型的组合,还可选地加上其他信息,其中,起点的信息和终点的信息可以为起点/终点所对应的主体的任意信息。
例如,当节点A表示行人a,节点B表示采集设备b,则节点A的信息的表示形式为人脸信息、行人a的身份证号码以及采集设备采集到行人a的人脸信息所对应的时间,节点B的信息的表示形式为摄像机、b0(b0为自定义的摄像机的唯一标识)以及采集设备b所在的地理位置信息,连接节点A和节点B的边的表示形式为人脸信息、摄像机以及摄像关系。
S33基于所述节点及其信息、边及其信息,构建若干初始知识图谱。
具体地,将提取得到的提取节点及其信息、边及其信息输入到图数据库中,得到相应的初始知识图谱。
S40将所述初始知识图谱彼此关联起来,生成最终的知识图谱。
S41将采集区域划分为m米ⅹn米的空间网格。
具体地,根据采集区域的面积,和采集区域内所关注的主体的密集程度,对采集区域进行划分。
S42将划分了空间网格的采集区域与所述初始知识图谱相对应。
具体地,将划分了空间网格的采集区域映射至所述初始知识图谱,以实现对所述初始知识图谱划分网格的目的。
S43基于相同类型的初始知识图谱,筛选出在预设时间范围内处于同一所述空间网格内的节点合并成关联节点。
具体地,相同类型的初始知识图谱上的节点所表征的主体往往存在一定的重合,故对表征相同的主体的节点进行合并,有助于提高计算速率以及降低存储的压力。在利用采集设备对主体信息进行采集时,如利用摄像机对人脸或车牌信息进行采集时,在预设的时间段内处于同一空间网格内的节点往往是由于采集时间比较密集而生成的,故将该节点合并成关联节点,并将原来的节点的信息记录于该关联节点上,以实现保全节点信息的同时,对节点进行融合。
S44基于相同类型的初始知识图谱,将处于不同空间网格内的存在连接关系的且满足预设的时间差的节点间的边合并成关联边。
具体地,基于相同类型的初始知识图谱,当在预设时间范围内处于同一所述空间网格内的节点合并成关联节点后,应当对相应的边进行合并,例如同一人脸或车牌在同一地点被采集多条数据,在知识图谱上则显示为人与采集设备间存在多条边,那么将满足预设时间差的边合并为一条边,进而大幅度地减少边的数量,且在一定程度上降低出现超级节点的概率。将处于不同空间网格内的存在连接关系的且满足预设的时间差的节点间的边合并成关联边,即将处于不同空间网格内的关联节点相连接的边合并成关联边,并将原来的边的信息记录于该关联边上,以实现保全边的信息的同时,对边进行融合,以便于后续对数据的提取。
S46基于所述节点的信息,将不同类型的初始知识图谱的节点进行对比。
具体地,由于不同类型的初始知识图谱的节点不能直接进行合并,而节点存储有对应的信息,故可以通过节点进行对比,挖掘存在隐性关系的节点。
例如,如图2所示初始知识图谱至少包括人脸探头图层和车牌探头图层,其中人脸探头图层包括摄像机A和摄像机A拍摄到的表示人脸的节点,车牌探头图层包括摄像机B和摄像机B拍摄到的表示车牌的节点,通过节点的对比,发现人脸和车牌对应的是相同的身份证号码,即存在隐性关系。
S47筛选出存在隐性关系的节点,比较所述存在隐性关系的节点的时间信息或位置信息,若满足预设的时间差或空间差,则将所述存在隐性关系的节点通过虚拟节点进行合并。
具体地,当判断两个节点存在隐形关系时,在一定程度上可以将这两个节点看作相同节点进行处理,具体步骤同S43-S44。当这两个节点满足预设的时间差或空间差时,将其通过虚拟节点进行合并,以实现对不同类型的数据的有效融合。
S48在完成相同类型和/或不同类型的知识图谱的关联后,生成最终的知识图谱。
具体地,由于初始知识图谱有可能仅存在相同类型或不同类型的知识图谱,故完成相同类型和/或不同类型的知识图谱的关联后,生成最终的知识图谱,即完成知识图谱的构建。
根据本发明的实施例,如图3所示,本发明还提供了一种实现上述的知识图谱的构建方法的系统,包括:
采集模块,所述采集模块包括若干采集设备,用于采集所述主体的信息;
构建模块,用于基于所述采集设备和所述主体的信息构建所述初始知识图谱;
合并模块,用于根据所述初始知识图谱的信息,对所述满足预设的要求的节点和/或边进行合并;
生成模块,用于根据合并模块的合并结果,生成最终的知识图谱。
根据本发明的实施例,本发明还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述的方法。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种知识图谱的构建方法,其特征在于,所述知识图谱的构建方法包括以下步骤:
在采集区域内部署采集设备,将所述采集设备的信息存储于数据库中;
利用所述采集设备采集主体的信息,并将所述主体的信息存储于数据库中;
基于所述采集设备的信息和所述主体的信息,构建若干初始知识图谱;
将所述初始知识图谱关联起来,生成最终的知识图谱。
2.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述采集设备的信息至少包括采集设备的唯一标识和采集设备的类型。
3.根据权利要求2所述的知识图谱的构建方法,其特征在于,在利用所述采集设备采集主体的信息之后,将所述主体的信息存储于数据库中之前,还包括以下步骤:基于所述采集设备所采集的主体的信息,调取与所述主体相关联的信息,并存储于数据库中。
4.根据权利要求3所述的知识图谱的构建方法,其特征在于,所述采集设备所采集的所述主体的信息至少包括所述主体的唯一标识、所述主体的类型和采集到所述主体时所对应的时间。
5.根据权利要求4所述的知识图谱的构建方法,其特征在于,所述初始知识图谱包括用于表示所述采集设备和所述主体的信息的节点,以及用于表示所连接的两个节点间的关系的边。
6.根据权利要求5所述的知识图谱的构建方法,其特征在于,基于所述采集设备的信息和所述主体的信息,构建若干初始知识图谱,进一步包括以下步骤:
基于所述采集设备的信息和所述主体的信息,确定所述采集设备和所述主体的对应关系;
根据述采集设备和所述主体的对应关系,对节点及其信息、边及其信息进行提取;
基于所述节点及其信息、边及其信息,构建若干初始知识图谱。
7.根据权利要求5所述的知识图谱的构建方法,其特征在于,将所述初始知识图谱关联起来,进一步包括以下步骤:
将采集区域划分为m米ⅹn米的空间网格;
将划分了空间网格的采集区域与所述初始知识图谱相对应;
基于相同类型的初始知识图谱,筛选出在预设时间范围内处于同一所述空间网格内的节点合并成关联节点;
基于相同类型的初始知识图谱,将处于不同空间网格内的存在连接关系的且满足预设的时间差的节点间的边合并成关联边。
8.根据权利要求7所述的知识图谱的构建方法,其特征在于,将所述初始知识图谱关联起来,进一步还包括以下步骤:
基于所述节点的信息,将不同类型的初始知识图谱的节点进行对比;
筛选出存在隐性关系的节点,比较所述存在隐性关系的节点的时间信息或位置信息,若满足预设的时间差或空间差,则将所述存在隐性关系的节点通过虚拟节点进行合并;
在完成相同类型和/或不同类型的知识图谱的关联后,生成最终的知识图谱。
9.一种实现如权利要求1-8任一项所述的知识图谱的构建方法的系统,其特征在于,包括:
采集模块,所述采集模块包括若干采集设备,用于采集所述主体的信息;
构建模块,用于基于所述采集设备和所述主体的信息构建所述初始知识图谱;
合并模块,用于根据所述初始知识图谱的信息,对所述满足预设的要求的节点和/或边进行合并;
生成模块,用于根据合并模块的合并结果,生成最终的知识图谱。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720913.6A CN112052338A (zh) | 2020-07-24 | 2020-07-24 | 一种知识图谱的构建方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720913.6A CN112052338A (zh) | 2020-07-24 | 2020-07-24 | 一种知识图谱的构建方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052338A true CN112052338A (zh) | 2020-12-08 |
Family
ID=73601272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010720913.6A Pending CN112052338A (zh) | 2020-07-24 | 2020-07-24 | 一种知识图谱的构建方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052338A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685645A (zh) * | 2021-01-13 | 2021-04-20 | 敖客星云(北京)科技发展有限公司 | 基于知识图谱的智能教育推荐方法、系统、设备和介质 |
-
2020
- 2020-07-24 CN CN202010720913.6A patent/CN112052338A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685645A (zh) * | 2021-01-13 | 2021-04-20 | 敖客星云(北京)科技发展有限公司 | 基于知识图谱的智能教育推荐方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Machine learning-based regional scale intelligent modeling of building information for natural hazard risk management | |
CN109828967B (zh) | 一种伴随关系获取方法、系统、设备、存储介质 | |
US20180053110A1 (en) | Method of predicting crime occurrence in prediction target region using big data | |
CN103942811B (zh) | 分布式并行确定特征目标运动轨迹的方法与系统 | |
CN107590250A (zh) | 一种时空轨迹生成方法及装置 | |
CN112332981B (zh) | 一种数据处理的方法和装置 | |
CN116778292B (zh) | 多模态车辆时空轨迹的融合方法、装置、设备及存储介质 | |
CN103177436A (zh) | 物件追踪的方法、系统、计算机程序产品与记录介质 | |
CN114078277A (zh) | 一人一档的人脸聚类方法、装置、计算机设备及存储介质 | |
CN111405249A (zh) | 监控方法、装置及服务器和计算机可读存储介质 | |
CN111125290B (zh) | 一种基于河长制的智能巡河方法、装置及存储介质 | |
WO2021114615A1 (zh) | 行为风险识别的可视化方法、装置、设备及存储介质 | |
CN115346157A (zh) | 入侵检测方法、系统、设备及介质 | |
CN112052338A (zh) | 一种知识图谱的构建方法、系统及存储介质 | |
CN111435435A (zh) | 一种同行人识别方法、装置、服务器及系统 | |
CN106056515A (zh) | 一种社区网格事件聚类特征的提取方法 | |
CN112052337A (zh) | 基于时空关联的目标关系探测方法、系统及存储介质 | |
CN108764215A (zh) | 基于视频的目标搜索追踪方法、系统、服务中心以及终端 | |
CN115203354B (zh) | 一种车码轨迹预关联方法、装置、计算机设备及存储介质 | |
KR20190138350A (ko) | 웨어러블 기기에서 수집한 생체 정보 및 행동 패턴을 활용한 개인별 범죄 피해 확률 예측 시스템 | |
Wang et al. | Urban function zoning using geotagged photos and openstreetmap | |
CN112732446B (zh) | 一种任务处理方法、装置及存储介质 | |
CN114090909A (zh) | 一种图码联侦关联方法、装置、计算机设备及存储介质 | |
CN113568941A (zh) | 一种同轨迹人员的挖掘方法、装置及电子设备 | |
CN114782883A (zh) | 基于群体智能的异常行为检测方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |