CN113918733A - 一种获取目标知识图谱的数据处理系统 - Google Patents

一种获取目标知识图谱的数据处理系统 Download PDF

Info

Publication number
CN113918733A
CN113918733A CN202111536710.2A CN202111536710A CN113918733A CN 113918733 A CN113918733 A CN 113918733A CN 202111536710 A CN202111536710 A CN 202111536710A CN 113918733 A CN113918733 A CN 113918733A
Authority
CN
China
Prior art keywords
field
data
target
list
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111536710.2A
Other languages
English (en)
Other versions
CN113918733B (zh
Inventor
张正义
刘晗喆
傅晓航
林方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202111536710.2A priority Critical patent/CN113918733B/zh
Publication of CN113918733A publication Critical patent/CN113918733A/zh
Application granted granted Critical
Publication of CN113918733B publication Critical patent/CN113918733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种获取目标知识图谱的数据处理系统,包括数据库、处理器和存储有计算机程序的存储器,数据库包括多个原始数据列表,当计算机程序被处理器执行时,实现步骤:获取每一原始数据列表中所有原始字段名且根据原始字段名,构建成字段名列表;基于字段名列表进行预处理,得到关键字段集;基于字段名列表和关键字段集,构建成本体字段名列表;遍历本体字段名列表和关键字段集且根据目标字段名、目标字段名对应的第二字段和关键字段,构建成目标三元组列表,以基于三元组构建目标ID对应的知识图谱,本发明能够减少了对海量数据处理的计算量,优化知识图谱构建过程,提高了获取知识图谱的构建效率和准确度。

Description

一种获取目标知识图谱的数据处理系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种获取目标知识图谱的数据处理系统。
背景技术
在信息技术发展的时代,许多文本或者信息文以pdf、word等数字格式为载体的机器进行可显示,随着数据量的增加,大多数据采取知识图谱的方式进行显示,可以直观的观察到数据的规律,知识图谱(Knowledge Graph)通常指可揭示实体之间的关系的语义网络,其基于数据挖掘、信息处理、图形绘制等手段,利用可视化的图谱将复杂的知识领域形象地展示出来,可在一定程度上体现知识领域的发展规律。
在现有技术中,需要数据列表均是直接构建成三元组,再通过三元组构建成知识图谱,但是,只能每个数据构建成三元组,并生成知识图谱,无法将相同类型实体的采用统一结构进行快速构建,即无法简化构建知识图谱过程,影响知识图谱的构建效率,因此,如何简化构建知识图谱过程,提高知识图谱的构建效率成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种获取目标知识图谱的数据处理系统,减少了对海量数据处理的计算量,优化知识图谱构建过程,提高了获取知识图谱的构建效率和准确度。
本发明一方面提供了一种获取目标知识图谱的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个原始数据列表,当所述计算机程序被处理器执行时,实现以下步骤:
S101、获取每一所述原始数据列表中所有原始字段名且基于所述原始字段名,构建成字段名列表;
S103、基于所述字段名列表中任一字段进行预处理,得到目标关键列表A0且基于A0,确定出M个关键字段列表,以根据A0和M个关键字段列表,构建成关键字段集A=(A0,A1,A2,……,AM),Ai是第i个关键字段列表且Ai中包括第一关键字段和第二关键字段,i=1……M,其中,具体通过如下步骤确定Ai
获取所述字段名列表中任一字段的所有数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,所述字段名列表的字段中每一数据对应的类型标签作为A0的第二关键字段且在所述字段名列表的字段中将所述类型标签对应的数据作为A0的第一关键字段;
基于A0,从任一Ai的第二关键字段中获取每一数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,将Ai-1的第二关键字段作为Ai的第一关键字段且将Ai-1的第二关键字段中每一数据对应的类型标签作为Ai的第二关键字段,构建成Ai
S105、基于每一Ai的第一关键字段和第二关键字段,从所述字段名列表中删除Ai的第一关键字段和Ai的第二关键字段,构建成本体字段名列表;
S107、遍历所有的原始数据列表且基于目标ID,从所述原始数据列表中获取所述目标ID对应的所有原始字段名,并将每个原始字段名作为目标字段名;
S109、遍历所述本体字段名列表和A且基于所述目标字段名,获取所述目标字段名对应的第一记录和第二记录,以根据所述第一记录和所述第二记录,构建成目标三元组列表和目标ID对应的知识图谱,其中,所述第一记录为根据所述目标字段名从所述本体字段名列表中获取的记录,所述第二记录为基于所述第一记录中目标字段名对的关联数据,从任一Ai中获取的记录。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种获取目标知识图谱的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明获取每一所述原始数据列表中所有原始字段名且根据所述原始字段名,构建成字段名列表,基于字段名列表得到关键字段集和本体字段名列表,根据目标ID从关键字段集和本体字段名列表中确定出目标三元组列表并构建成目标ID对应的知识图谱,可见,本发明基于本体字段名列表中两个字段和两个字段之间的关联关系,构建成每一原始数据的三元组,能够生成同一原始数据列表中所有数据对应的知识图谱,无需对原始数据列表中每个数据都确定出三元组和对应的知识图谱,能够优化知识图谱构建过程,提高了构建知识图谱的效率和准确度。
此外,当原始数据进行更新时,只需要更新关键字段集和本体字段名列表,就能够更新全部的知识图谱,无需再将每个数据生成三元组以构成知识图谱,优化知识图谱的更新过程,提高知识图谱的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的获取目标知识图谱的数据处理系统示意图;
图2为本发明实施例提供的获取目标知识图谱的数据处理流程图;
图3为本发明实施例提供的用于更新目标知识图谱的数据处理流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种获取目标知识图谱的数据处理系统,如图1所示,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库中存储N个原始数据列表,当所述计算机程序被处理器执行时,实现以下步骤如图2所示:
S101、获取每一所述原始数据列表中所有原始字段名且基于所述原始字段名,构建成字段名列表。
具体地,所述原始字段名为在原始数据列表中每一字段对应的字段名。
具体地,S101步骤还包括如下步骤:
获取任一原始数据列表中所有原始字段名(B1,B2,B3,……,BS),Bj是指第j个原始字段名,j=2……S,S为原始字段名数量;
基于Bj和Bj对应的所有关联字段名,构建成Bj的关联字段名列表,其中,所述Bj对应的关联字段名是指在原始数据列表中除Bj之外的任一原始字段名;
基于Bj,从负样本列表中获取Bj对应的负样本数据且遍历Bj的关联字段名列表,从Bj的关联字段名列表中删除Bj对应的负样本数据,以构建Bj对应的中间数据列表,其中,所述负样本列表包括第一样本字段和第二样本字段,所述第一样本字段与所述第二样本字段之间无关联关系,所述第一样本字段和所述第二样本字段采用预先设置,还通过如下步骤确定出Bj对应的负样本数据:遍历负样本列表且当Bj与第一样本字段中数据一致时,从第二样本字段中获取Bj对应的数据,作为Bj对应的负样本数据;
基于所有的原始数据列表中每一Bj对应的中间数据列表,构建成原始字段名列表且对原始字段名列表进行去重处理,得到字段名列表,所述字段名列表包括第一字段和第二字段,所述第一字段和所述第二字段之间具有关联关系,其中,本实施例中可以采取任一去重处理的技术方法,在此不再赘述。
进一步地,所述第一字段与所述第二字段之间的关联关系可以采取现有的任一技术方案进行确定,在此不再赘述;采取上述方法能够减少无关联关系的字段名,进而减少基于字段名构建的三元组数量,提高知识图谱构建的效率。
具体地,所述原始字段名为在原始数据列表中每一字段对应的字段名。
S103、基于所述字段名列表中任一字段进行预处理,得到目标关键列表A0且基于A0,确定出M个关键字段列表,以根据A0和M个关键字段列表,构建成关键字段集A=(A0,A1,A2,……,AM),Ai是第i个关键字段列表且Ai中包括第一关键字段和第二关键字段,i=1……M,其中,具体通过如下步骤确定Ai
获取所述字段名列表中任一字段的所有数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,所述字段名列表的字段中每一数据对应的类型标签作为A0的第二关键字段且在所述字段名列表的字段中将所述类型标签对应的数据作为A0的第一关键字段;
基于A0,从任一Ai的第二关键字段中获取每一数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,将Ai-1的第二关键字段作为Ai的第一关键字段且将Ai-1的第二关键字段中每一数据对应的类型标签作为Ai的第二关键字段,构建成Ai
在一具体的实施例中,S103步骤还包括如下步骤:
S1031、获取所述第一字段中每一数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,将所述第一字段的数据作为A0的第一关键字段且将所述第一字段中每一数据对应的类型标签作为A0的第二关键字段,构建成A0;可以理解为:遍历所述第一字段,当两个以上的所述第一字段的数据具有相同类型标签时,将所述类型标签对应的第一字段中数据作为A0的第一关键字段,同时,将每一A0第一关键字段对应的类型标签作为A0的第二关键字段;其中,生成类型标签的过程可以现有技术中的任一技术方案,例如,可以通过人工对所述第一字段的每一记录打标签;
S1033、基于A0,从任一Ai的第二关键字段中获取每一数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,将Ai-1的第二关键字段作为Ai的第一关键字段且将Ai-1的第二关键字段中每一数据对应的类型标签作为Ai的第二关键字段,构建成Ai,可以理解为:从任一Ai的第二关键字段中获取每一数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,Ai-1的第二关键字段作为Ai的第一关键字段,将Ai-1的第二关键字段的类型标签作为Ai的第二关键字段,直到AM的第二关键字段中所有数据为同一原始字段名,即Ai-1与Ai之间为父子关系,Ai为父列表,Ai-1为子列表,能够基于某一ID构建知识图谱时,继承与该ID相关联的所有特征,确保构建知识图谱的完整性和准确性。
进一步地,从N个B中获取所述类型标签,可以理解为所述类型标签∈所有原始字段名,能够有效的删除字段名列表中重复的数据,减少数据量。
S105、基于每一Ai的第一关键字段和第二关键字段,从所述字段名列表中删除Ai的第一关键字段和Ai的第二关键字段,构建成本体字段名列表,其中,所述第一关键字段与所述第二关键字段之间存在关联关系。
具体地,S105步骤还包括如下步骤:
遍历每一Ai且当Ai中第一关键字段中任一数据与所述第一字段的数据一致时,从所述字段名列表中删除Ai中第一关键字段和第一关键字段对应的第二字段的数据,确定出本体字段名列表,可以理解为:本体字段名列表是指删除Ai中第一关键字段和第一关键字段对应的第二字段的数据的字段名列表,能够避免重复计算数据,简化知识图谱的构建过程。
S107、遍历所有的原始数据列表且基于目标ID,从所述原始数据列表中获取所述目标ID对应的所有原始字段名,并将每个原始字段名作为目标字段名。
具体地,所述目标ID是指需查询数据的唯一标识,例如,“轰炸机”、“F-16”、“歼20”等。
具体地,S107步骤还包括如下步骤:
遍历N个所述原始数据列表且当所述目标ID等于所述原始数据中原始字段的数据时,将所述原始字段名作为目标字段名,可以理解为:基于目标ID,在所述原始数据列表中数据与目标ID相等时,将与目标ID对应的所有原始字段名均作为目标字段名。
S109、遍历所述本体字段名列表和A且基于所述目标字段名,获取所述目标字段名对应的第一记录和第二记录,以根据所述第一记录和所述第二记录,构建成目标三元组列表和目标ID对应的知识图谱,其中,所述第一记录为根据所述目标字段名从所述本体字段名列表中获取的记录,所述第二记录为基于所述第一记录中目标字段名对应的关联数据,从每一Ai中获取的记录。
具体地,所述关联数据是指在A或者本体字段名列表中与目标字段名具有关联关系的数据。
具体地,S109步骤还包括如下步骤:
S1091、基于所述目标ID,从所有原始数据列表中获取所述目标ID对应的所有关联数据,将目标ID作为头实体和所述目标ID对应的所有关联数据作为尾实体,以根据所述头实体、所述尾实体以及所述头实体与所述尾实体之间的关联关系作为边关系,构建成所述目标三元组列表,其中,所述头实体、所述尾实体之间的关联关系是所述目标字段名和所述关联数据对应的原始字段名之间的关联关系,能够使得同一字段名下的所有记录构建的三元组采用同一边关系,一方面便于计算,另一方面,优化知识图谱的构建过程;
S1093、遍历所述本体字段名列表且基于所述目标字段名,从所述本体字段名列表中获取所述目标字段名对应的第一记录;
S1095、按照A的排序对每一Ai进行遍历且当基于所述第一记录,从A中获取所述第一记录对应的第二记录;
S1097、将第一记录对应的三元组和所述第二记录对应的三元组插入至所述目标三元组列表中;
S1099、基于所述目标三元组列表,构建成目标ID对应的知识图谱。
具体地,所述第一记录对应的三元组包括:目标字段名作为第一实体、基于所述目标字段名从原始数据列表中获取的数据作为第二实体,第一实体和第二实体之间的关联关系,其中,所述第一实体和所述第二实体之间的关联关系为目标字段名和本体字段名列表中目标字段名对应的数据之间的关联关系。
具体地,所述第二记录对应的三元组包括:目标字段名对应的关联数据作为第三实体,基于第三实体从任一Ai中获取的第三实体关联的数据作为第四实体,第三实体和第四实体之间的关联关系,其中,第三实体和第四实体之间的关联关系为目标字段名对应的关联数据和在Ai中第三实体关联的数据,其是指目标字段名对应的关联数据。
具体地,基于所述目标三元组列表,构建成目标ID对应的知识图谱,本实施例中可以采取现有技术中任一技术方法构建成知识图谱,其中,所述目标ID对应的知识图谱呈树状结构。
本实施例提供了一种获取目标知识图谱的数据处理系统,获取每一所述原始数据列表中所有原始字段名且根据所述原始字段名,构建成字段名列表,基于字段名列表得到关键字段集和本体字段名列表,根据目标ID从关键字段集和本体字段名列表中确定出目标三元组列表并构建成目标ID对应的知识图谱,可见,本发明一方面能够对海量数据处理的计算量,将相同类型实体的采用统一结构进行快速构建,实现快速构建知识图谱;另一方面,能够优化知识图谱构建过程,提高了获取知识图谱的构建效率和准确度。
在另一实施例中,所述系统当所述计算机程序被处理器执行时,实现以下步骤如图3所示:
S201、获取目标数据列表且根据所述目标数据列表中所有字段名作为中间字段名,构建成中间字段列表P=(P1,P2,P3,……,Pm),Pt是指第t个中间字段名,t=2……m,m为中间字段名数量。
具体地,所述目标数据列表是在原始数据集中增加的原始数据列表。
S203、获取原始数据集Q=(Q1,Q2,Q3,……,QN),其中,Qz是指第z个原始数据列表,z=1……N,并遍历Q且当每一Pt与Q中任一Qz的所有字段名均相等时,以基于预设本体架构,构建成目标知识图谱。
具体地,在S203步骤中,获取Qz中所有原始字段名且根据任一所述原始字段名,从所述本体字段名列表中获取所述原始字段名对应的关联数据和从A中获取原始字段名的第一记录和第二记录,以建立预设本体架构。
S205、当某一Pt与Q中任一Qz的所有字段名不相等时,基于P和负样本列表,从所述本体字段名列表中获取第一目标字段名列表和第二目标字段名列表,其中,所述第一目标字段名列表为基于除Pt之前的其他中间字段名构建的列表,所述第二目标字段名列表为基于Pt构建的字段名列表。
S207、根据所述第一目标字段名列表以第一本体架构,得到第一目标三元组列表且根据所述第二目标字段名列表以第二本体架构,得到第二目标三元组列表,以根据第一目标三元组列表和第二目标三元组列表,构建成目标知识图谱。
具体地,第一本体架构是指第一目标字段名对应的本体架构,构建本体架构的方法可以参照S203步骤中构建预设本体架构的方法,在此不再赘述。
具体地,第二本体架构是指第二目标字段名对应的本体架构,构建本体架构的方法可以参照S203步骤中构建预设本体架构的方法,在此不再赘述。
在本实施例中,当原始数据进行更新时,只需要更新关键字段集和本体字段名列表,就能够更新全部的知识图谱,无需将每个数据生成三元组以构成知识图谱,优化知识图谱的更新过程,提高知识图谱的效率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (8)

1.一种获取目标知识图谱的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个原始数据列表,当所述计算机程序被处理器执行时,实现以下步骤:
S101、获取每一所述原始数据列表中所有原始字段名且基于所述原始字段名,构建成字段名列表;
S103、基于所述字段名列表中任一字段进行预处理,得到目标关键列表A0且基于A0,确定出M个关键字段列表,以根据A0和M个关键字段列表,构建成关键字段集A=(A0,A1,A2,……,AM),Ai是第i个关键字段列表且Ai中包括第一关键字段和第二关键字段,i=1……M,其中,具体通过如下步骤确定Ai
获取所述字段名列表中任一字段的所有数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,所述字段名列表的字段中每一数据对应的类型标签作为A0的第二关键字段且在所述字段名列表的字段中将所述类型标签对应的数据作为A0的第一关键字段;
基于A0,从任一Ai的第二关键字段中获取每一数据对应的类型标签,并当每一所述类型标签对应的数据量≥预设的数据量阈值时,将Ai-1的第二关键字段作为Ai的第一关键字段且将Ai-1的第二关键字段中每一数据对应的类型标签作为Ai的第二关键字段,构建成Ai
S105、基于每一Ai的第一关键字段和第二关键字段,从所述字段名列表中删除Ai的第一关键字段和Ai的第二关键字段,构建成本体字段名列表;
S107、遍历所有的原始数据列表且基于目标ID,从所述原始数据列表中获取所述目标ID对应的所有原始字段名,并将每个原始字段名作为目标字段名;
S109、遍历所述本体字段名列表和A且基于所述目标字段名,获取所述目标字段名对应的第一记录和第二记录,以根据所述第一记录和所述第二记录,构建成目标三元组列表和目标ID对应的知识图谱,其中,所述第一记录为根据所述目标字段名从所述本体字段名列表中获取的记录,所述第二记录为基于所述第一记录中目标字段名对的关联数据,从任一Ai中获取的记录。
2.根据权利要求1所述的获取目标知识图谱的数据处理系统,其特征在于,S101步骤还包括如下步骤:
获取任一原始数据列表中所有原始字段名(B1,B2,B3,……,BS),Bj是指第j个原始字段名,j=2……S,S为原始字段名数量;
基于Bj和Bj对应的所有关联字段名,构建成Bj的关联字段名列表,其中,所述Bj对应的关联字段名是指在原始数据列表中除Bj之外的任一原始字段名;
基于Bj,从负样本列表中获取Bj对应的负样本数据且遍历Bj的关联字段名列表,从Bj的关联字段名列表中删除Bj对应的负样本数据,以构建Bj对应的中间数据列表;
基于所有的原始数据列表中每一Bj对应的中间数据列表,构建成原始字段名列表且对原始字段名列表进行去重处理,得到字段名列表,其中,所述字段名列表包括第一字段和第二字段,所述第一字段和所述第二字段之间具有关联关系。
3.根据权利要求2所述的获取目标知识图谱的数据处理系统,其特征在于,所述负样本列表存储于所述数据库中。
4.根据权利要求1所述的获取目标知识图谱的数据处理系统,其特征在于,AM的第二关键字段中所有数据为同一原始字段名。
5.根据权利要求2所述的获取目标知识图谱的数据处理系统,其特征在于,S105步骤还包括如下步骤:
遍历每一Ai且当Ai中第一关键字段中任一数据与所述第一字段的数据一致时,从所述字段名列表中删除Ai中第一关键字段和第一关键字段对应的第二字段的数据,确定出本体字段名列表。
6.根据权利要求1所述的获取目标知识图谱的数据处理系统,其特征在于,S107步骤还包括如下步骤:
遍历N个所述原始数据列表且当所述目标ID等于所述原始数据中原始字段的数据时,将所述原始字段名作为目标字段名。
7.根据权利要求1所述的获取目标知识图谱的数据处理系统,其特征在于,S109步骤还包括如下步骤:
S1091、基于所述目标ID,从所有原始数据列表中获取所述目标ID对应的所有关联数据,将目标ID作为头实体和所述目标ID对应的所有关联数据作为尾实体,以根据所述头实体、所述尾实体以及所述头实体与所述尾实体之间的关联关系作为边关系,构建成所述目标三元组列表,其中,所述头实体、所述尾实体之间的关联关系是所述目标字段名和所述关联数据对应的原始字段名之间的关联关系;
S1093、遍历所述本体字段名列表且基于所述目标字段名,从所述本体字段名列表中获取所述目标字段名对应的第一记录;
S1095、按照A的排序对每一Ai进行遍历且当基于所述第一记录,从A中获取所述第一记录对应的第二记录;
S1097、将第一记录对应的三元组和所述第二记录对应的三元组插入至所述目标三元组列表中;
S1099、基于所述目标三元组列表,构建成目标ID对应的知识图谱。
8.根据权利要求1所述的获取目标知识图谱的数据处理系统,其特征在于,所述目标ID对应的知识图谱呈树状结构。
CN202111536710.2A 2021-12-16 2021-12-16 一种获取目标知识图谱的数据处理系统 Active CN113918733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111536710.2A CN113918733B (zh) 2021-12-16 2021-12-16 一种获取目标知识图谱的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111536710.2A CN113918733B (zh) 2021-12-16 2021-12-16 一种获取目标知识图谱的数据处理系统

Publications (2)

Publication Number Publication Date
CN113918733A true CN113918733A (zh) 2022-01-11
CN113918733B CN113918733B (zh) 2022-03-04

Family

ID=79249009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111536710.2A Active CN113918733B (zh) 2021-12-16 2021-12-16 一种获取目标知识图谱的数据处理系统

Country Status (1)

Country Link
CN (1) CN113918733B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146075A (zh) * 2022-07-11 2022-10-04 中科雨辰科技有限公司 一种获取知识图谱的数据处理系统
CN116644103A (zh) * 2023-05-17 2023-08-25 本原数据(北京)信息技术有限公司 数据排序方法和数据排序装置、计算机设备、存储介质
CN116841756A (zh) * 2023-09-04 2023-10-03 奇点数联(北京)科技有限公司 一种目标增量型数据的采集方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257717A1 (en) * 2018-01-12 2020-08-13 Yangzhou University Automatic construction method of software bug knowledge graph
CN112131273A (zh) * 2020-09-23 2020-12-25 南京数云信息科技有限公司 一种基于Mysql数据库日志的数据关系挖掘方法及装置
CN112182238A (zh) * 2020-09-22 2021-01-05 苏州浪潮智能科技有限公司 一种基于图数据库的知识图谱构建系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257717A1 (en) * 2018-01-12 2020-08-13 Yangzhou University Automatic construction method of software bug knowledge graph
CN112182238A (zh) * 2020-09-22 2021-01-05 苏州浪潮智能科技有限公司 一种基于图数据库的知识图谱构建系统和方法
CN112131273A (zh) * 2020-09-23 2020-12-25 南京数云信息科技有限公司 一种基于Mysql数据库日志的数据关系挖掘方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146075A (zh) * 2022-07-11 2022-10-04 中科雨辰科技有限公司 一种获取知识图谱的数据处理系统
CN115146075B (zh) * 2022-07-11 2023-03-10 中科雨辰科技有限公司 一种获取知识图谱的数据处理系统
CN116644103A (zh) * 2023-05-17 2023-08-25 本原数据(北京)信息技术有限公司 数据排序方法和数据排序装置、计算机设备、存储介质
CN116644103B (zh) * 2023-05-17 2023-11-24 本原数据(北京)信息技术有限公司 基于数据库的数据排序方法和装置、设备、存储介质
CN116841756A (zh) * 2023-09-04 2023-10-03 奇点数联(北京)科技有限公司 一种目标增量型数据的采集方法
CN116841756B (zh) * 2023-09-04 2023-11-10 奇点数联(北京)科技有限公司 一种目标增量型数据的采集方法

Also Published As

Publication number Publication date
CN113918733B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN113918733B (zh) 一种获取目标知识图谱的数据处理系统
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN110168523B (zh) 改变监测跨图查询
CN114168608B (zh) 一种用于更新知识图谱的数据处理系统
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
US20150293958A1 (en) Scalable data structures
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN110023925A (zh) 生成、访问和显示沿袭元数据
CN110163376B (zh) 样本检测方法、媒体对象的识别方法、装置、终端及介质
US20150081717A1 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
WO2013138441A1 (en) Systems, methods, and software for computing reachability in large graphs
US11360953B2 (en) Techniques for database entries de-duplication
CN112883125A (zh) 一种实体数据处理方法、装置、设备和存储介质
CN110888981A (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN111414357A (zh) 地址数据处理方法、装置、系统和存储介质
Wei et al. A path recorder algorithm for Multiple Longest Common Subsequences (MLCS) problems
CN113722600A (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN110674290B (zh) 一种用于重叠社区发现的关系预测方法、装置和存储介质
Zhu et al. Top-k reliability search on uncertain graphs
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN113688257B (zh) 一种基于大规模文献数据的作者姓名同一性判断方法
Huang et al. Institution information specification and correlation based on institutional PIDs and IND tool
CN114579580A (zh) 存储数据的方法、查询数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant