CN115374106A

CN115374106A - 一种基于知识图谱技术的数据智能分级方法

Info

Publication number: CN115374106A
Application number: CN202210834822.4A
Authority: CN
Inventors: 金震; 张京日; 穆宇浩
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-22
Anticipated expiration: 2042-07-15
Also published as: CN115374106B

Abstract

本发明提供了一种基于知识图谱技术的数据智能分级方法，包括：获取数据物理表之间的血缘关系，根据血缘关系生成数据物理表知识图谱；利用改进的特征向量中心性算法，计算数据物理表知识图谱中物理表的网络权重；获取两个特征数据集，两个特征数据集为：数据物理表的数据访问情况数据集和数据更新频率数据集，基于K‑means聚类算法对所述两个特征数据集进行聚类分析，生成聚类分析结果；根据聚类分析结果和网络权重，基于层次分析法和熵权法，构建数据物理表重要度评估公式；利用数据物理表重要度评估公式对数据物理表进行评估，根据评估结果获得核心关键数据。本发明提高了核心关键数据的识别效率和数据的智能分级水平。

Description

一种基于知识图谱技术的数据智能分级方法

技术领域

本发明涉及知识图谱技术领域，尤其涉及一种基于知识图谱技术的数据智能分级方法。

背景技术

数据管理需要遵循一定的优先级开展，在具体的治理过程中，核心关键数据的识别，对下一步的数据治理、数据分析将起到至关重要的作用。而识别关键数据，通常依赖业务经验、人工定义，存在一定的偏差、盲区；如何精准的识别关键物理表，是需要解决的问题。

发明内容

本发明提供了一种基于知识图谱技术的数据智能分级方法，基于数据物理表的关系，对现有的数据进行重要性评估，提高了核心关键数据的识别效率和数据的智能分级水平。

本发明提供了一种基于知识图谱技术的数据智能分级方法，包括：

S1：获取数据物理表之间的血缘关系，根据血缘关系生成数据物理表知识图谱；

S2：利用改进的特征向量中心性算法，计算数据物理表知识图谱中物理表的网络权重；

S3：获取两个特征数据集，两个特征数据集为：数据物理表的数据访问情况数据集和数据更新频率数据集，基于K-means聚类算法对所述两个特征数据集进行聚类分析，生成聚类分析结果；

S4：根据聚类分析结果和网络权重，基于层次分析法和熵权法，构建数据物理表重要度评估公式；

S5：利用数据物理表重要度评估公式对数据物理表进行评估，根据评估结果获得核心关键数据。

进一步地，S1包括：构建第一本体模型，基于第一本体模型生成数据物理表的知识图谱；所述构建第一本体模型的方法包括：

S101：获取用于创建数据物理表知识图谱的本体模型；

S102：基于预设的本体模型质量评价条件对本体模型进行评价；所述本体模型质量评价条件基于数据的完整性、简洁性、清晰性和可用性制定；

S103：筛选出评价结果符合预设评价结果阈值的第一本体模型。

进一步地，S1包括：

S104：解析数据物理表之间的血缘关系，获取血缘关系的特征类别；

S105：选取所述特征类别中的归属性、层次性、多源性特征，基于预设的关系抽取模型进行关系抽取，获得数据物理表的实体关系；

S106：将数据物理表、数据物理表的实体关系输入第一本体模型，生成数据物理表的知识图谱。

进一步地，S2包括：

S201：采用改进的特征向量中心性算法对数据物理表知识图谱中的实体节点进行重要度分析；所述改进的特征向量中心性算法为基于加权的PageRank算法；

S202：获取实体节点的重要度数组、节点总数、阻尼系数和收敛门限，并进行初始化赋值；

S203：根据初始化赋值，计算实体节点的出弧计数矩阵、出弧权重和矩阵；

S204：对实体节点重要度进行迭代计算，获得连续两次的重要度数组值，计算获得连续两次的重要度数组值的差值；

S205：将所述差值的正无穷范数与收敛门限进行比较，若所述正无穷范数小于收敛门限，则迭代结束，获得排序后的重要度矩阵；

S206：基于排序后的重要度矩阵，获得数据物理表知识图谱物理表的网络权重。

进一步地，S3包括：

S301：获取数据物理表的数据访问情况特征数据集、数据更新频率特征数据集，将数据访问情况特征数据集、数据更新频率特征数据集分别划分为训练集和验证集，并设置P个初始聚类中心；

S302：获取训练集中的每一个样本，计算其与每一个质心的距离，并将其划分到距离最近的质心所属集合；

S303：重新计算每个集合的质心，并计算新的质心与原来质心的第一距离；

S304：若所述第一距离小于预设的距离阈值，则终止聚类，获得P个聚类质心；

S305：若所述第一距离大于预设的距离阈值，则重复步骤S302至S304；

S306：获取测试集中的每一个样本，计算其与P个簇的质心的距离，将所述距离转换成相应的分值进行结果输出，得到聚类分析结果。

进一步地，S4包括：

S401：基于聚类分析结果和网络权重，构建数据物理表的重要度评估指标；

S402：通过层次分析法计算获得重要度评估指标的主观权重；

S403：通过熵权法计算获得重要度评估指标的客观权重；

S404：根据主观权重和客观权重，生成重要度评估指标的复合权重，基于复合权重，生成数据物理表的重要度评估公式。

进一步地，S5包括：

S501：利用数据物理表重要度评估公式对数据物理表进行评估，获得评估结果列表；

S502：基于预设的若干个排序规则，对评估结果列表进行排序，获得若干个排序结果序列；

S503：获取排序结果序列中排序最前的数据结果所对应的数据，将所述数据作为核心关键数据进行推荐。

进一步地，S5还包括根据评估结果列表生成评估级别；

S5011：基于预设的对应规则，设置评估结果与评估级别的对应关系库；

S5012：设置评估级别，将重要度级别分为高级、中级和低级；

S5013：将重要度评估结果输入对应关系库，生成相对应的评估级别。

进一步地，还包括S6，根据数据评估级别进行分类存储：

S601：获取数据级别中的参数，基于所述参数，制定数据分类存储策略；所述参数包括物理表影响下游物理表的个数、数据任务的个数和数据报表的张数；

S602：根据不同的参数，生成相应的分类存储策略；当影响下游物理表的个数大于第一数量阈值范围上限、并且数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围的上限时，生成第一存储策略；

当影响下游物理表的个数位于第一数量阈值范围内、并且数据任务的个数位于第二数量阈值范围内、并且数据报表的张数位于第三数量阈值范围内时，生成第二存储策略；

当影响下游物理表的个数小于第一数量阈值范围下限、并且数据任务的个数小于第二数量阈值范围下限、并且数据报表的张数小于第三数量阈值范围的下限时，生成第三存储策略；

当影响下游物理表的个数位于第一数量阈值范围内，若数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围上限时，生成第一存储策略；

S603：根据所述第一存储策略、第二存储策略、第三存储策略，对数据进行分类存储。

进一步地，包括S7，根据评估级别进行分类展示：

S701：根据预设的数据评估级别，获取数据类别和数据标签；

S702：基于数据级别、数据类别和数据标签，构建数据分级展示模型；

S703：基于数据分级展示模型，结合预设的可视化展示参数，对数据进行可视化处理，获得可视化数据；

S704：将可视化数据以图表形式在可视化设备上进行数据分级展示。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的一种基于知识图谱技术的数据智能分级方法步骤示意图；

图2为本发明的一种基于知识图谱技术的数据智能分级方法筛选本体模式的步骤示意图；

图3为本发明一种基于知识图谱技术的数据智能分级方法的获取网络权重的步骤示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种基于知识图谱技术的数据智能分级方法，如图1所示，包括：

上述技术方案的工作原理为：通过获取数据物理表之间的血缘关系，根据血缘关系生成数据物理表知识图谱，可以保证物理表知识图谱的质量；通过改进的特征向量中心性算法，计算数据物理表知识图谱中物理表的网络权重，为后续的重要度分析提供依据；通过获取数据物理表的数据访问情况数据集和数据更新频率数据集，基于K-means聚类算法对所述两个特征数据集进行聚类分析，生成聚类分析结果，保证了数据分类的有效实施；通过根据聚类分析结果和网络权重，基于层次分析法和熵权法，构建数据物理表重要度评估公式，可以保证重要度评估公式的准确度；最后，利用数据物理表重要度评估公式对数据物理表进行评估，根据评估结果获得核心关键数据。

上述技术方案的有益效果为：采用本实施例提供的方案，本发明基于数据物理表的关系，对现有的数据进行重要性评估，提高了核心关键数据的识别效率和数据的智能分级水平。

在一个实施例中，如图2所示，S1包括：构建第一本体模型，基于第一本体模型生成数据物理表的知识图谱；所述构建第一本体模型的方法包括：

S101：获取用于创建数据物理表知识图谱的本体模型；

上述技术方案的工作原理为：本体即图谱知识模型，是基于知识概念关系抽象而成的知识表示规范，在知识工程中用于对客观事物进行分层的系统化描述；本实施例基于本体构建知识图谱，具体为：构建第一本体模型，基于第一本体模型生成数据物理表的知识图谱；所述构建第一本体模型的方法包括：

S101：获取用于创建数据物理表知识图谱的本体模型；

上述技术方案的有益效果为：采用本实施例提供的方案，通过基于本体模型构建知识图谱，有利于知识图谱构建的质量。

在一个实施例中，S1包括：

上述技术方案的工作原理为：通过数据物理表之间的血缘关系，可以获取到高质量的物理表之间的关系，有利于关系的提取和知识图谱的构建；具体为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过基于物理表之间的血缘关系获得生成知识图谱的实体关系，有利于构建高质量的知识图谱。

在一个实施例中，如图3所示，S2包括：

上述技术方案的工作原理为：特征向量中心性算法将节点的重要性与其关联节点的重要性联系起来，即当与个体相关联的节点在网络中具有更大的影响力时，该个体对网络的间接影响力会更大，这样的个体在网络中也会具有更高的地位。特征向量中心性度量节点在网络中的直接与间接影响力，当节点具有越多邻居且邻居节点重要度越高时其特征向量中心性越强。PageRank算法是Google基于特征向量中心性思想提出的网页重要度评估算法，本实施例根据该算法提出基于加权的PageRank算法，通过带权物理表重要度表征物理表节点中心性，通过阻尼系数等保证结果收敛，规定收敛门限以作为算法终止的依据。具体为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过基于加权的PageRank算法计算出的关键节点，具有较高的有效性和准确性，对提供准确的分析结果具有一定的可靠性。

在一个实施例中，S3包括：

上述技术方案的工作原理为：S3包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过根据聚类算法进行聚类，可以提高数据物理表分类的准确性，有利于更好的分级分析。

在一个实施例中，S4包括：

S402：通过层次分析法计算获得重要度评估指标的主观权重；

S403：通过熵权法计算获得重要度评估指标的客观权重；

上述技术方案的工作原理为：层次分析法是一种主观赋予权重值的方法，虽然得出的评价指标的权重值的合理性通常比较高，但是它的主观随意性却比较大；熵权法是一种客观赋予权重值的方法，它主要体现的是原始数据所代表的信息，使得最终的评估结果极具客观性，但是该种方法并未涉及到专家的经验知识和决策者的意见，导致最后得到的权重值与指标的实际重要性程度不相符。本实施例运用层次分析法获取的主观权重与运用熵权法获取的客观权重进行综合从而获取复合权重，有助于生成科学有效的重要度评估公式；具体为：

S402：通过层次分析法计算获得重要度评估指标的主观权重；

S403：通过熵权法计算获得重要度评估指标的客观权重；

上述技术方案的有益效果为：采用本实施例提供的方案，通过采取复合权重作为数据物理表重要度评估公式的生成依据，可以有效的保证评估公式的准确性。

在一个实施例中，S5包括：

上述技术方案的工作原理为：S5包括：

为了更好的对评估结果进行分级，有必要设置相应的级别阈值，在级别阈值设置上，基于网络权重、数据访问情况、数据更新频率以及血缘关系四个影响因素，设置四个重要度值，并设置相应的调节参数，计算出平均重要度值，通过调节影响因子的数值，可以获得不同的阈值，根据阈值与重要度值进行比较，可以将数据分为不同的级别；

上面公式中，T为全部数据物理表的平均重要度值，其中K为数据中核心关键物理表的的总个数，r代表第r个物理表，1<r<K，W_r是第r个物理表的网络权值的重要度值，α是其对应的调节参数；S_r是第r个物理表的数据访问情况的重要度值，β是其对应的调节参数；R_r是第r个物理表的数据更新频率的重要度值，ε是其对应的调节参数；G_r是第r个物理表的数据的血缘关系的重要度值，δ是其对应的调节参数；

上述技术方案的有益效果为：采用本实施例提供的方案，通过对评估结果列表的排序，可以清晰地显示出核心关键数据；通过设置级别阈值，可以更准确的划分数据级别。

在一个实施例中，S5还包括根据评估结果列表生成评估级别；

上述技术方案的工作原理为：根据评估结果，生成评估级别，有利于更好地区分分级数据；具体包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过生成与评估结果相对应地评估级别，可以提高数据分级区分的效果。

在一个实施例中，还包括S6，根据数据评估级别进行分类存储：

上述技术方案的工作原理为：根据数据评估级别进行分类存储，可以提高存储的质量，从而有利于数据的调用和管理；具体为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过制定不同的而存储策略进行分类存储，可以保证存储的效果，有利于提高数据的管理效率。

在一个实施例中，包括S7，根据评估级别进行分类展示：

S701：根据预设的数据评估级别，获取数据类别和数据标签；

上述技术方案的工作原理为：根据数据的评估级别进行分类展示，并进行可视化的展示，可以直观地显示数据的分类效果；具体为：

S701：根据预设的数据评估级别，获取数据类别和数据标签；

上述技术方案的有益效果为：采用本实施例提供的方案，通过进行数据的分类可视化展示，可以提高数据分类管理的效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于知识图谱技术的数据智能分级方法，其特征在于，包括：

2.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，S1包括：构建第一本体模型，基于第一本体模型生成数据物理表的知识图谱；所述构建第一本体模型的方法包括：

S101：获取用于创建数据物理表知识图谱的本体模型；

3.根据权利要求2所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，S1包括：

4.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，S2包括：

5.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，S3包括：

6.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，S4包括：

S402：通过层次分析法计算获得重要度评估指标的主观权重；

S403：通过熵权法计算获得重要度评估指标的客观权重；

7.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，S5包括：

8.根据权利要求7所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，S5还包括根据评估结果列表生成评估级别；

9.根据权利要求8所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，还包括S6，根据数据评估级别进行分类存储：

10.根据权利要求8所述的一种基于知识图谱技术的数据智能分级方法，其特征在于，包括S7，根据评估级别进行分类展示：

S701：根据预设的数据评估级别，获取数据类别和数据标签；