CN113918733B

CN113918733B - 一种获取目标知识图谱的数据处理系统

Info

Publication number: CN113918733B
Application number: CN202111536710.2A
Authority: CN
Inventors: 张正义; 刘晗喆; 傅晓航; 林方
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-04
Anticipated expiration: 2041-12-16
Also published as: CN113918733A

Abstract

本发明涉及一种获取目标知识图谱的数据处理系统，包括数据库、处理器和存储有计算机程序的存储器，数据库包括多个原始数据列表，当计算机程序被处理器执行时，实现步骤：获取每一原始数据列表中所有原始字段名且根据原始字段名，构建成字段名列表；基于字段名列表进行预处理，得到关键字段集；基于字段名列表和关键字段集，构建成本体字段名列表；遍历本体字段名列表和关键字段集且根据目标字段名、目标字段名对应的第二字段和关键字段，构建成目标三元组列表，以基于三元组构建目标ID对应的知识图谱，本发明能够减少了对海量数据处理的计算量，优化知识图谱构建过程，提高了获取知识图谱的构建效率和准确度。

Description

一种获取目标知识图谱的数据处理系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种获取目标知识图谱的数据处理系统。

背景技术

在信息技术发展的时代，许多文本或者信息文以pdf、word等数字格式为载体的机器进行可显示，随着数据量的增加，大多数据采取知识图谱的方式进行显示，可以直观的观察到数据的规律，知识图谱(Knowledge Graph)通常指可揭示实体之间的关系的语义网络，其基于数据挖掘、信息处理、图形绘制等手段，利用可视化的图谱将复杂的知识领域形象地展示出来，可在一定程度上体现知识领域的发展规律。

在现有技术中，需要数据列表均是直接构建成三元组，再通过三元组构建成知识图谱，但是，只能每个数据构建成三元组，并生成知识图谱，无法将相同类型实体的采用统一结构进行快速构建，即无法简化构建知识图谱过程，影响知识图谱的构建效率，因此，如何简化构建知识图谱过程，提高知识图谱的构建效率成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种获取目标知识图谱的数据处理系统，减少了对海量数据处理的计算量，优化知识图谱构建过程，提高了获取知识图谱的构建效率和准确度。

本发明一方面提供了一种获取目标知识图谱的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括N个原始数据列表，当所述计算机程序被处理器执行时，实现以下步骤：

S101、获取每一所述原始数据列表中所有原始字段名且基于所述原始字段名，构建成字段名列表；

S103、基于所述字段名列表中任一字段进行预处理，得到目标关键列表A₀且基于A₀，确定出M个关键字段列表，以根据A₀和M个关键字段列表，构建成关键字段集A=（A₀，A₁，A₂，……，A_M），A_i是第i个关键字段列表且A_i中包括第一关键字段和第二关键字段，i=1……M，其中，具体通过如下步骤确定A_i：

获取所述字段名列表中任一字段的所有数据对应的类型标签，并当每一所述类型标签对应的数据量≥预设的数据量阈值时，所述字段名列表的字段中每一数据对应的类型标签作为A₀的第二关键字段且在所述字段名列表的字段中将所述类型标签对应的数据作为A₀的第一关键字段；

基于A₀，从任一A_i的第二关键字段中获取每一数据对应的类型标签，并当每一所述类型标签对应的数据量≥预设的数据量阈值时，将A_i-1的第二关键字段作为A_i的第一关键字段且将A_i-1的第二关键字段中每一数据对应的类型标签作为A_i的第二关键字段，构建成A_i；

S105、基于每一A_i的第一关键字段和第二关键字段，从所述字段名列表中删除A_i的第一关键字段和A_i的第二关键字段，构建成本体字段名列表；

S107、遍历所有的原始数据列表且基于目标ID，从所述原始数据列表中获取所述目标ID对应的所有原始字段名，并将每个原始字段名作为目标字段名；

S109、遍历所述本体字段名列表和A且基于所述目标字段名，获取所述目标字段名对应的第一记录和第二记录，以根据所述第一记录和所述第二记录，构建成目标三元组列表和目标ID对应的知识图谱，其中，所述第一记录为根据所述目标字段名从所述本体字段名列表中获取的记录，所述第二记录为基于所述第一记录中目标字段名对的关联数据，从任一A_i中获取的记录。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种获取目标知识图谱的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明获取每一所述原始数据列表中所有原始字段名且根据所述原始字段名，构建成字段名列表，基于字段名列表得到关键字段集和本体字段名列表，根据目标ID从关键字段集和本体字段名列表中确定出目标三元组列表并构建成目标ID对应的知识图谱，可见，本发明基于本体字段名列表中两个字段和两个字段之间的关联关系，构建成每一原始数据的三元组，能够生成同一原始数据列表中所有数据对应的知识图谱，无需对原始数据列表中每个数据都确定出三元组和对应的知识图谱，能够优化知识图谱构建过程，提高了构建知识图谱的效率和准确度。

此外，当原始数据进行更新时，只需要更新关键字段集和本体字段名列表，就能够更新全部的知识图谱，无需再将每个数据生成三元组以构成知识图谱，优化知识图谱的更新过程，提高知识图谱的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的获取目标知识图谱的数据处理系统示意图；

图2为本发明实施例提供的获取目标知识图谱的数据处理流程图；

图3为本发明实施例提供的用于更新目标知识图谱的数据处理流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种获取目标知识图谱的数据处理系统，如图1所示，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中存储N个原始数据列表，当所述计算机程序被处理器执行时，实现以下步骤如图2所示：

S101、获取每一所述原始数据列表中所有原始字段名且基于所述原始字段名，构建成字段名列表。

具体地，所述原始字段名为在原始数据列表中每一字段对应的字段名。

具体地，S101步骤还包括如下步骤：

获取任一原始数据列表中所有原始字段名（B₁，B₂，B₃，……，B_S），B_j是指第j个原始字段名，j=2……S，S为原始字段名数量；

基于B_j和B_j对应的所有关联字段名，构建成B_j的关联字段名列表，其中，所述B_j对应的关联字段名是指在原始数据列表中除B_j之外的任一原始字段名；

基于B_j，从负样本列表中获取B_j对应的负样本数据且遍历B_j的关联字段名列表，从B_j的关联字段名列表中删除B_j对应的负样本数据，以构建B_j对应的中间数据列表，其中，所述负样本列表包括第一样本字段和第二样本字段，所述第一样本字段与所述第二样本字段之间无关联关系，所述第一样本字段和所述第二样本字段采用预先设置，还通过如下步骤确定出B_j对应的负样本数据：遍历负样本列表且当B_j与第一样本字段中数据一致时，从第二样本字段中获取B_j对应的数据，作为B_j对应的负样本数据；

基于所有的原始数据列表中每一B_j对应的中间数据列表，构建成原始字段名列表且对原始字段名列表进行去重处理，得到字段名列表，所述字段名列表包括第一字段和第二字段，所述第一字段和所述第二字段之间具有关联关系，其中，本实施例中可以采取任一去重处理的技术方法，在此不再赘述。

进一步地，所述第一字段与所述第二字段之间的关联关系可以采取现有的任一技术方案进行确定，在此不再赘述；采取上述方法能够减少无关联关系的字段名，进而减少基于字段名构建的三元组数量，提高知识图谱构建的效率。

在一具体的实施例中，S103步骤还包括如下步骤：

S1031、获取所述第一字段中每一数据对应的类型标签，并当每一所述类型标签对应的数据量≥预设的数据量阈值时，将所述第一字段的数据作为A₀的第一关键字段且将所述第一字段中每一数据对应的类型标签作为A₀的第二关键字段，构建成A₀；可以理解为：遍历所述第一字段，当两个以上的所述第一字段的数据具有相同类型标签时，将所述类型标签对应的第一字段中数据作为A₀的第一关键字段，同时，将每一A₀第一关键字段对应的类型标签作为A₀的第二关键字段；其中，生成类型标签的过程可以现有技术中的任一技术方案，例如，可以通过人工对所述第一字段的每一记录打标签；

S1033、基于A₀，从任一A_i的第二关键字段中获取每一数据对应的类型标签，并当每一所述类型标签对应的数据量≥预设的数据量阈值时，将A_i-1的第二关键字段作为A_i的第一关键字段且将A_i-1的第二关键字段中每一数据对应的类型标签作为A_i的第二关键字段，构建成A_i，可以理解为：从任一A_i的第二关键字段中获取每一数据对应的类型标签，并当每一所述类型标签对应的数据量≥预设的数据量阈值时，A_i-1的第二关键字段作为A_i的第一关键字段，将A_i-1的第二关键字段的类型标签作为A_i的第二关键字段，直到A_M的第二关键字段中所有数据为同一原始字段名，即A_i-1与A_i之间为父子关系，A_i为父列表，A_i-1为子列表，能够基于某一ID构建知识图谱时，继承与该ID相关联的所有特征，确保构建知识图谱的完整性和准确性。

进一步地，从N个B中获取所述类型标签，可以理解为所述类型标签∈所有原始字段名，能够有效的删除字段名列表中重复的数据，减少数据量。

S105、基于每一A_i的第一关键字段和第二关键字段，从所述字段名列表中删除A_i的第一关键字段和A_i的第二关键字段，构建成本体字段名列表，其中，所述第一关键字段与所述第二关键字段之间存在关联关系。

具体地，S105步骤还包括如下步骤：

遍历每一A_i且当A_i中第一关键字段中任一数据与所述第一字段的数据一致时，从所述字段名列表中删除A_i中第一关键字段和第一关键字段对应的第二字段的数据，确定出本体字段名列表，可以理解为：本体字段名列表是指删除A_i中第一关键字段和第一关键字段对应的第二字段的数据的字段名列表，能够避免重复计算数据，简化知识图谱的构建过程。

S107、遍历所有的原始数据列表且基于目标ID，从所述原始数据列表中获取所述目标ID对应的所有原始字段名，并将每个原始字段名作为目标字段名。

具体地，所述目标ID是指需查询数据的唯一标识，例如，“轰炸机”、“F-16”、“歼20”等。

具体地，S107步骤还包括如下步骤：

遍历N个所述原始数据列表且当所述目标ID等于所述原始数据中原始字段的数据时，将所述原始字段名作为目标字段名，可以理解为：基于目标ID，在所述原始数据列表中数据与目标ID相等时，将与目标ID对应的所有原始字段名均作为目标字段名。

S109、遍历所述本体字段名列表和A且基于所述目标字段名，获取所述目标字段名对应的第一记录和第二记录，以根据所述第一记录和所述第二记录，构建成目标三元组列表和目标ID对应的知识图谱，其中，所述第一记录为根据所述目标字段名从所述本体字段名列表中获取的记录，所述第二记录为基于所述第一记录中目标字段名对应的关联数据，从每一A_i中获取的记录。

具体地，所述关联数据是指在A或者本体字段名列表中与目标字段名具有关联关系的数据。

具体地，S109步骤还包括如下步骤：

S1091、基于所述目标ID，从所有原始数据列表中获取所述目标ID对应的所有关联数据，将目标ID作为头实体和所述目标ID对应的所有关联数据作为尾实体，以根据所述头实体、所述尾实体以及所述头实体与所述尾实体之间的关联关系作为边关系，构建成所述目标三元组列表，其中，所述头实体、所述尾实体之间的关联关系是所述目标字段名和所述关联数据对应的原始字段名之间的关联关系，能够使得同一字段名下的所有记录构建的三元组采用同一边关系，一方面便于计算，另一方面，优化知识图谱的构建过程；

S1093、遍历所述本体字段名列表且基于所述目标字段名，从所述本体字段名列表中获取所述目标字段名对应的第一记录；

S1095、按照A的排序对每一A_i进行遍历且当基于所述第一记录，从A中获取所述第一记录对应的第二记录；

S1097、将第一记录对应的三元组和所述第二记录对应的三元组插入至所述目标三元组列表中；

S1099、基于所述目标三元组列表，构建成目标ID对应的知识图谱。

具体地，所述第一记录对应的三元组包括：目标字段名作为第一实体、基于所述目标字段名从原始数据列表中获取的数据作为第二实体，第一实体和第二实体之间的关联关系，其中，所述第一实体和所述第二实体之间的关联关系为目标字段名和本体字段名列表中目标字段名对应的数据之间的关联关系。

具体地，所述第二记录对应的三元组包括：目标字段名对应的关联数据作为第三实体，基于第三实体从任一A_i中获取的第三实体关联的数据作为第四实体，第三实体和第四实体之间的关联关系，其中，第三实体和第四实体之间的关联关系为目标字段名对应的关联数据和在A_i中第三实体关联的数据，其是指目标字段名对应的关联数据。

具体地，基于所述目标三元组列表，构建成目标ID对应的知识图谱，本实施例中可以采取现有技术中任一技术方法构建成知识图谱，其中，所述目标ID对应的知识图谱呈树状结构。

本实施例提供了一种获取目标知识图谱的数据处理系统，获取每一所述原始数据列表中所有原始字段名且根据所述原始字段名，构建成字段名列表，基于字段名列表得到关键字段集和本体字段名列表，根据目标ID从关键字段集和本体字段名列表中确定出目标三元组列表并构建成目标ID对应的知识图谱，可见，本发明一方面能够对海量数据处理的计算量，将相同类型实体的采用统一结构进行快速构建，实现快速构建知识图谱；另一方面，能够优化知识图谱构建过程，提高了获取知识图谱的构建效率和准确度。

在另一实施例中，所述系统当所述计算机程序被处理器执行时，实现以下步骤如图3所示：

S201、获取目标数据列表且根据所述目标数据列表中所有字段名作为中间字段名，构建成中间字段列表P=（P₁，P₂，P₃，……，P_m），P_t是指第t个中间字段名，t=2……m，m为中间字段名数量。

具体地，所述目标数据列表是在原始数据集中增加的原始数据列表。

S203、获取原始数据集Q=（Q₁，Q₂，Q₃，……，Q_N），其中，Q_z是指第z个原始数据列表，z=1……N，并遍历Q且当每一P_t与Q中任一Q_z的所有字段名均相等时，以基于预设本体架构，构建成目标知识图谱。

具体地，在S203步骤中，获取Q_z中所有原始字段名且根据任一所述原始字段名，从所述本体字段名列表中获取所述原始字段名对应的关联数据和从A中获取原始字段名的第一记录和第二记录，以建立预设本体架构。

S205、当某一P_t与Q中任一Q_z的所有字段名不相等时，基于P和负样本列表，从所述本体字段名列表中获取第一目标字段名列表和第二目标字段名列表，其中，所述第一目标字段名列表为基于除P_t之前的其他中间字段名构建的列表，所述第二目标字段名列表为基于P_t构建的字段名列表。

S207、根据所述第一目标字段名列表以第一本体架构，得到第一目标三元组列表且根据所述第二目标字段名列表以第二本体架构，得到第二目标三元组列表，以根据第一目标三元组列表和第二目标三元组列表，构建成目标知识图谱。

具体地，第一本体架构是指第一目标字段名对应的本体架构，构建本体架构的方法可以参照S203步骤中构建预设本体架构的方法，在此不再赘述。

具体地，第二本体架构是指第二目标字段名对应的本体架构，构建本体架构的方法可以参照S203步骤中构建预设本体架构的方法，在此不再赘述。

在本实施例中，当原始数据进行更新时，只需要更新关键字段集和本体字段名列表，就能够更新全部的知识图谱，无需将每个数据生成三元组以构成知识图谱，优化知识图谱的更新过程，提高知识图谱的效率。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种获取目标知识图谱的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括N个原始数据列表，当所述计算机程序被处理器执行时，实现以下步骤：

S103、基于所述字段名列表中任一字段进行预处理，得到目标关键列表A₀，且基于A₀确定出M个关键字段列表，以根据A₀和M个关键字段列表，构建成关键字段集A=（A₀，A₁，A₂，……，A_M），A_i是第i个关键字段列表且A_i中包括第一关键字段和第二关键字段，i=1……M，其中，具体通过如下步骤确定A_i：

S109、遍历所述本体字段名列表和A，且基于所述目标字段名，获取所述目标字段名对应的第一记录和第二记录，以根据所述第一记录和所述第二记录，构建成目标三元组列表和目标ID对应的知识图谱，其中，所述第一记录为根据所述目标字段名从所述本体字段名列表中获取的记录，所述第二记录为基于所述第一记录中目标字段名对应的关联数据，从任一A_i中获取的记录。

2.根据权利要求1所述的获取目标知识图谱的数据处理系统，其特征在于，S101步骤还包括如下步骤：

基于B_j，从负样本列表中获取B_j对应的负样本数据且遍历B_j的关联字段名列表，从B_j的关联字段名列表中删除B_j对应的负样本数据，以构建B_j对应的中间数据列表；

基于所有的原始数据列表中每一B_j对应的中间数据列表，构建成原始字段名列表且对原始字段名列表进行去重处理，得到字段名列表，其中，所述字段名列表包括第一字段和第二字段，所述第一字段和所述第二字段之间具有关联关系。

3.根据权利要求2所述的获取目标知识图谱的数据处理系统，其特征在于，所述负样本列表存储于所述数据库中。

4.根据权利要求1所述的获取目标知识图谱的数据处理系统，其特征在于，A_M的第二关键字段中所有数据为同一原始字段名。

5.根据权利要求2所述的获取目标知识图谱的数据处理系统，其特征在于，S105步骤还包括如下步骤：

遍历每一A_i且当A_i中第一关键字段中任一数据与所述第一字段的数据一致时，从所述字段名列表中删除A_i中第一关键字段和第一关键字段对应的第二字段的数据，确定出本体字段名列表。

6.根据权利要求1所述的获取目标知识图谱的数据处理系统，其特征在于，S107步骤还包括如下步骤：

遍历N个所述原始数据列表且当所述目标ID等于所述原始数据中原始字段的数据时，将所述原始字段名作为目标字段名。

7.根据权利要求1所述的获取目标知识图谱的数据处理系统，其特征在于，S109步骤还包括如下步骤：

S1091、基于所述目标ID，从所有原始数据列表中获取所述目标ID对应的所有关联数据，将目标ID作为头实体和所述目标ID对应的所有关联数据作为尾实体，以根据所述头实体、所述尾实体以及所述头实体与所述尾实体之间的关联关系作为边关系，构建成所述目标三元组列表，其中，所述头实体、所述尾实体之间的关联关系是所述目标字段名和所述关联数据对应的原始字段名之间的关联关系；

S1095、按照A的排序对每一A_i进行遍历，且基于所述第一记录，从A中获取所述第一记录对应的第二记录；

8.根据权利要求1所述的获取目标知识图谱的数据处理系统，其特征在于，所述目标ID对应的知识图谱呈树状结构。