CN115374106A - 一种基于知识图谱技术的数据智能分级方法 - Google Patents

一种基于知识图谱技术的数据智能分级方法 Download PDF

Info

Publication number
CN115374106A
CN115374106A CN202210834822.4A CN202210834822A CN115374106A CN 115374106 A CN115374106 A CN 115374106A CN 202210834822 A CN202210834822 A CN 202210834822A CN 115374106 A CN115374106 A CN 115374106A
Authority
CN
China
Prior art keywords
data
physical table
importance
evaluation
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210834822.4A
Other languages
English (en)
Other versions
CN115374106B (zh
Inventor
金震
张京日
穆宇浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202210834822.4A priority Critical patent/CN115374106B/zh
Publication of CN115374106A publication Critical patent/CN115374106A/zh
Application granted granted Critical
Publication of CN115374106B publication Critical patent/CN115374106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识图谱技术的数据智能分级方法,包括:获取数据物理表之间的血缘关系,根据血缘关系生成数据物理表知识图谱;利用改进的特征向量中心性算法,计算数据物理表知识图谱中物理表的网络权重;获取两个特征数据集,两个特征数据集为:数据物理表的数据访问情况数据集和数据更新频率数据集,基于K‑means聚类算法对所述两个特征数据集进行聚类分析,生成聚类分析结果;根据聚类分析结果和网络权重,基于层次分析法和熵权法,构建数据物理表重要度评估公式;利用数据物理表重要度评估公式对数据物理表进行评估,根据评估结果获得核心关键数据。本发明提高了核心关键数据的识别效率和数据的智能分级水平。

Description

一种基于知识图谱技术的数据智能分级方法
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种基于知识图谱技术的数据智能分级方法。
背景技术
数据管理需要遵循一定的优先级开展,在具体的治理过程中,核心关键数据的识别,对下一步的数据治理、数据分析将起到至关重要的作用。而识别关键数据,通常依赖业务经验、人工定义,存在一定的偏差、盲区;如何精准的识别关键物理表,是需要解决的问题。
发明内容
本发明提供了一种基于知识图谱技术的数据智能分级方法,基于数据物理表的关系,对现有的数据进行重要性评估,提高了核心关键数据的识别效率和数据的智能分级水平。
本发明提供了一种基于知识图谱技术的数据智能分级方法,包括:
S1:获取数据物理表之间的血缘关系,根据血缘关系生成数据物理表知识图谱;
S2:利用改进的特征向量中心性算法,计算数据物理表知识图谱中物理表的网络权重;
S3:获取两个特征数据集,两个特征数据集为:数据物理表的数据访问情况数据集和数据更新频率数据集,基于K-means聚类算法对所述两个特征数据集进行聚类分析,生成聚类分析结果;
S4:根据聚类分析结果和网络权重,基于层次分析法和熵权法,构建数据物理表重要度评估公式;
S5:利用数据物理表重要度评估公式对数据物理表进行评估,根据评估结果获得核心关键数据。
进一步地,S1包括:构建第一本体模型,基于第一本体模型生成数据物理表的知识图谱;所述构建第一本体模型的方法包括:
S101:获取用于创建数据物理表知识图谱的本体模型;
S102:基于预设的本体模型质量评价条件对本体模型进行评价;所述本体模型质量评价条件基于数据的完整性、简洁性、清晰性和可用性制定;
S103:筛选出评价结果符合预设评价结果阈值的第一本体模型。
进一步地,S1包括:
S104:解析数据物理表之间的血缘关系,获取血缘关系的特征类别;
S105:选取所述特征类别中的归属性、层次性、多源性特征,基于预设的关系抽取模型进行关系抽取,获得数据物理表的实体关系;
S106:将数据物理表、数据物理表的实体关系输入第一本体模型,生成数据物理表的知识图谱。
进一步地,S2包括:
S201:采用改进的特征向量中心性算法对数据物理表知识图谱中的实体节点进行重要度分析;所述改进的特征向量中心性算法为基于加权的PageRank算法;
S202:获取实体节点的重要度数组、节点总数、阻尼系数和收敛门限,并进行初始化赋值;
S203:根据初始化赋值,计算实体节点的出弧计数矩阵、出弧权重和矩阵;
S204:对实体节点重要度进行迭代计算,获得连续两次的重要度数组值,计算获得连续两次的重要度数组值的差值;
S205:将所述差值的正无穷范数与收敛门限进行比较,若所述正无穷范数小于收敛门限,则迭代结束,获得排序后的重要度矩阵;
S206:基于排序后的重要度矩阵,获得数据物理表知识图谱物理表的网络权重。
进一步地,S3包括:
S301:获取数据物理表的数据访问情况特征数据集、数据更新频率特征数据集,将数据访问情况特征数据集、数据更新频率特征数据集分别划分为训练集和验证集,并设置P个初始聚类中心;
S302:获取训练集中的每一个样本,计算其与每一个质心的距离,并将其划分到距离最近的质心所属集合;
S303:重新计算每个集合的质心,并计算新的质心与原来质心的第一距离;
S304:若所述第一距离小于预设的距离阈值,则终止聚类,获得P个聚类质心;
S305:若所述第一距离大于预设的距离阈值,则重复步骤S302至S304;
S306:获取测试集中的每一个样本,计算其与P个簇的质心的距离,将所述距离转换成相应的分值进行结果输出,得到聚类分析结果。
进一步地,S4包括:
S401:基于聚类分析结果和网络权重,构建数据物理表的重要度评估指标;
S402:通过层次分析法计算获得重要度评估指标的主观权重;
S403:通过熵权法计算获得重要度评估指标的客观权重;
S404:根据主观权重和客观权重,生成重要度评估指标的复合权重,基于复合权重,生成数据物理表的重要度评估公式。
进一步地,S5包括:
S501:利用数据物理表重要度评估公式对数据物理表进行评估,获得评估结果列表;
S502:基于预设的若干个排序规则,对评估结果列表进行排序,获得若干个排序结果序列;
S503:获取排序结果序列中排序最前的数据结果所对应的数据,将所述数据作为核心关键数据进行推荐。
进一步地,S5还包括根据评估结果列表生成评估级别;
S5011:基于预设的对应规则,设置评估结果与评估级别的对应关系库;
S5012:设置评估级别,将重要度级别分为高级、中级和低级;
S5013:将重要度评估结果输入对应关系库,生成相对应的评估级别。
进一步地,还包括S6,根据数据评估级别进行分类存储:
S601:获取数据级别中的参数,基于所述参数,制定数据分类存储策略;所述参数包括物理表影响下游物理表的个数、数据任务的个数和数据报表的张数;
S602:根据不同的参数,生成相应的分类存储策略;当影响下游物理表的个数大于第一数量阈值范围上限、并且数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围的上限时,生成第一存储策略;
当影响下游物理表的个数位于第一数量阈值范围内、并且数据任务的个数位于第二数量阈值范围内、并且数据报表的张数位于第三数量阈值范围内时,生成第二存储策略;
当影响下游物理表的个数小于第一数量阈值范围下限、并且数据任务的个数小于第二数量阈值范围下限、并且数据报表的张数小于第三数量阈值范围的下限时,生成第三存储策略;
当影响下游物理表的个数位于第一数量阈值范围内,若数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围上限时,生成第一存储策略;
S603:根据所述第一存储策略、第二存储策略、第三存储策略,对数据进行分类存储。
进一步地,包括S7,根据评估级别进行分类展示:
S701:根据预设的数据评估级别,获取数据类别和数据标签;
S702:基于数据级别、数据类别和数据标签,构建数据分级展示模型;
S703:基于数据分级展示模型,结合预设的可视化展示参数,对数据进行可视化处理,获得可视化数据;
S704:将可视化数据以图表形式在可视化设备上进行数据分级展示。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的一种基于知识图谱技术的数据智能分级方法步骤示意图;
图2为本发明的一种基于知识图谱技术的数据智能分级方法筛选本体模式的步骤示意图;
图3为本发明一种基于知识图谱技术的数据智能分级方法的获取网络权重的步骤示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种基于知识图谱技术的数据智能分级方法,如图1所示,包括:
S1:获取数据物理表之间的血缘关系,根据血缘关系生成数据物理表知识图谱;
S2:利用改进的特征向量中心性算法,计算数据物理表知识图谱中物理表的网络权重;
S3:获取两个特征数据集,两个特征数据集为:数据物理表的数据访问情况数据集和数据更新频率数据集,基于K-means聚类算法对所述两个特征数据集进行聚类分析,生成聚类分析结果;
S4:根据聚类分析结果和网络权重,基于层次分析法和熵权法,构建数据物理表重要度评估公式;
S5:利用数据物理表重要度评估公式对数据物理表进行评估,根据评估结果获得核心关键数据。
上述技术方案的工作原理为:通过获取数据物理表之间的血缘关系,根据血缘关系生成数据物理表知识图谱,可以保证物理表知识图谱的质量;通过改进的特征向量中心性算法,计算数据物理表知识图谱中物理表的网络权重,为后续的重要度分析提供依据;通过获取数据物理表的数据访问情况数据集和数据更新频率数据集,基于K-means聚类算法对所述两个特征数据集进行聚类分析,生成聚类分析结果,保证了数据分类的有效实施;通过根据聚类分析结果和网络权重,基于层次分析法和熵权法,构建数据物理表重要度评估公式,可以保证重要度评估公式的准确度;最后,利用数据物理表重要度评估公式对数据物理表进行评估,根据评估结果获得核心关键数据。
上述技术方案的有益效果为:采用本实施例提供的方案,本发明基于数据物理表的关系,对现有的数据进行重要性评估,提高了核心关键数据的识别效率和数据的智能分级水平。
在一个实施例中,如图2所示,S1包括:构建第一本体模型,基于第一本体模型生成数据物理表的知识图谱;所述构建第一本体模型的方法包括:
S101:获取用于创建数据物理表知识图谱的本体模型;
S102:基于预设的本体模型质量评价条件对本体模型进行评价;所述本体模型质量评价条件基于数据的完整性、简洁性、清晰性和可用性制定;
S103:筛选出评价结果符合预设评价结果阈值的第一本体模型。
上述技术方案的工作原理为:本体即图谱知识模型,是基于知识概念关系抽象而成的知识表示规范,在知识工程中用于对客观事物进行分层的系统化描述;本实施例基于本体构建知识图谱,具体为:构建第一本体模型,基于第一本体模型生成数据物理表的知识图谱;所述构建第一本体模型的方法包括:
S101:获取用于创建数据物理表知识图谱的本体模型;
S102:基于预设的本体模型质量评价条件对本体模型进行评价;所述本体模型质量评价条件基于数据的完整性、简洁性、清晰性和可用性制定;
S103:筛选出评价结果符合预设评价结果阈值的第一本体模型。
上述技术方案的有益效果为:采用本实施例提供的方案,通过基于本体模型构建知识图谱,有利于知识图谱构建的质量。
在一个实施例中,S1包括:
S104:解析数据物理表之间的血缘关系,获取血缘关系的特征类别;
S105:选取所述特征类别中的归属性、层次性、多源性特征,基于预设的关系抽取模型进行关系抽取,获得数据物理表的实体关系;
S106:将数据物理表、数据物理表的实体关系输入第一本体模型,生成数据物理表的知识图谱。
上述技术方案的工作原理为:通过数据物理表之间的血缘关系,可以获取到高质量的物理表之间的关系,有利于关系的提取和知识图谱的构建;具体为:
S104:解析数据物理表之间的血缘关系,获取血缘关系的特征类别;
S105:选取所述特征类别中的归属性、层次性、多源性特征,基于预设的关系抽取模型进行关系抽取,获得数据物理表的实体关系;
S106:将数据物理表、数据物理表的实体关系输入第一本体模型,生成数据物理表的知识图谱。
上述技术方案的有益效果为:采用本实施例提供的方案,通过基于物理表之间的血缘关系获得生成知识图谱的实体关系,有利于构建高质量的知识图谱。
在一个实施例中,如图3所示,S2包括:
S201:采用改进的特征向量中心性算法对数据物理表知识图谱中的实体节点进行重要度分析;所述改进的特征向量中心性算法为基于加权的PageRank算法;
S202:获取实体节点的重要度数组、节点总数、阻尼系数和收敛门限,并进行初始化赋值;
S203:根据初始化赋值,计算实体节点的出弧计数矩阵、出弧权重和矩阵;
S204:对实体节点重要度进行迭代计算,获得连续两次的重要度数组值,计算获得连续两次的重要度数组值的差值;
S205:将所述差值的正无穷范数与收敛门限进行比较,若所述正无穷范数小于收敛门限,则迭代结束,获得排序后的重要度矩阵;
S206:基于排序后的重要度矩阵,获得数据物理表知识图谱物理表的网络权重。
上述技术方案的工作原理为:特征向量中心性算法将节点的重要性与其关联节点的重要性联系起来,即当与个体相关联的节点在网络中具有更大的影响力时,该个体对网络的间接影响力会更大,这样的个体在网络中也会具有更高的地位。特征向量中心性度量节点在网络中的直接与间接影响力,当节点具有越多邻居且邻居节点重要度越高时其特征向量中心性越强。PageRank算法是Google基于特征向量中心性思想提出的网页重要度评估算法,本实施例根据该算法提出基于加权的PageRank算法,通过带权物理表重要度表征物理表节点中心性,通过阻尼系数等保证结果收敛,规定收敛门限以作为算法终止的依据。具体为:
S201:采用改进的特征向量中心性算法对数据物理表知识图谱中的实体节点进行重要度分析;所述改进的特征向量中心性算法为基于加权的PageRank算法;
S202:获取实体节点的重要度数组、节点总数、阻尼系数和收敛门限,并进行初始化赋值;
S203:根据初始化赋值,计算实体节点的出弧计数矩阵、出弧权重和矩阵;
S204:对实体节点重要度进行迭代计算,获得连续两次的重要度数组值,计算获得连续两次的重要度数组值的差值;
S205:将所述差值的正无穷范数与收敛门限进行比较,若所述正无穷范数小于收敛门限,则迭代结束,获得排序后的重要度矩阵;
S206:基于排序后的重要度矩阵,获得数据物理表知识图谱物理表的网络权重。
上述技术方案的有益效果为:采用本实施例提供的方案,通过基于加权的PageRank算法计算出的关键节点,具有较高的有效性和准确性,对提供准确的分析结果具有一定的可靠性。
在一个实施例中,S3包括:
S301:获取数据物理表的数据访问情况特征数据集、数据更新频率特征数据集,将数据访问情况特征数据集、数据更新频率特征数据集分别划分为训练集和验证集,并设置P个初始聚类中心;
S302:获取训练集中的每一个样本,计算其与每一个质心的距离,并将其划分到距离最近的质心所属集合;
S303:重新计算每个集合的质心,并计算新的质心与原来质心的第一距离;
S304:若所述第一距离小于预设的距离阈值,则终止聚类,获得P个聚类质心;
S305:若所述第一距离大于预设的距离阈值,则重复步骤S302至S304;
S306:获取测试集中的每一个样本,计算其与P个簇的质心的距离,将所述距离转换成相应的分值进行结果输出,得到聚类分析结果。
上述技术方案的工作原理为:S3包括:
S301:获取数据物理表的数据访问情况特征数据集、数据更新频率特征数据集,将数据访问情况特征数据集、数据更新频率特征数据集分别划分为训练集和验证集,并设置P个初始聚类中心;
S302:获取训练集中的每一个样本,计算其与每一个质心的距离,并将其划分到距离最近的质心所属集合;
S303:重新计算每个集合的质心,并计算新的质心与原来质心的第一距离;
S304:若所述第一距离小于预设的距离阈值,则终止聚类,获得P个聚类质心;
S305:若所述第一距离大于预设的距离阈值,则重复步骤S302至S304;
S306:获取测试集中的每一个样本,计算其与P个簇的质心的距离,将所述距离转换成相应的分值进行结果输出,得到聚类分析结果。
上述技术方案的有益效果为:采用本实施例提供的方案,通过根据聚类算法进行聚类,可以提高数据物理表分类的准确性,有利于更好的分级分析。
在一个实施例中,S4包括:
S401:基于聚类分析结果和网络权重,构建数据物理表的重要度评估指标;
S402:通过层次分析法计算获得重要度评估指标的主观权重;
S403:通过熵权法计算获得重要度评估指标的客观权重;
S404:根据主观权重和客观权重,生成重要度评估指标的复合权重,基于复合权重,生成数据物理表的重要度评估公式。
上述技术方案的工作原理为:层次分析法是一种主观赋予权重值的方法,虽然得出的评价指标的权重值的合理性通常比较高,但是它的主观随意性却比较大;熵权法是一种客观赋予权重值的方法,它主要体现的是原始数据所代表的信息,使得最终的评估结果极具客观性,但是该种方法并未涉及到专家的经验知识和决策者的意见,导致最后得到的权重值与指标的实际重要性程度不相符。本实施例运用层次分析法获取的主观权重与运用熵权法获取的客观权重进行综合从而获取复合权重,有助于生成科学有效的重要度评估公式;具体为:
S401:基于聚类分析结果和网络权重,构建数据物理表的重要度评估指标;
S402:通过层次分析法计算获得重要度评估指标的主观权重;
S403:通过熵权法计算获得重要度评估指标的客观权重;
S404:根据主观权重和客观权重,生成重要度评估指标的复合权重,基于复合权重,生成数据物理表的重要度评估公式。
上述技术方案的有益效果为:采用本实施例提供的方案,通过采取复合权重作为数据物理表重要度评估公式的生成依据,可以有效的保证评估公式的准确性。
在一个实施例中,S5包括:
S501:利用数据物理表重要度评估公式对数据物理表进行评估,获得评估结果列表;
S502:基于预设的若干个排序规则,对评估结果列表进行排序,获得若干个排序结果序列;
S503:获取排序结果序列中排序最前的数据结果所对应的数据,将所述数据作为核心关键数据进行推荐。
上述技术方案的工作原理为:S5包括:
S501:利用数据物理表重要度评估公式对数据物理表进行评估,获得评估结果列表;
S502:基于预设的若干个排序规则,对评估结果列表进行排序,获得若干个排序结果序列;
S503:获取排序结果序列中排序最前的数据结果所对应的数据,将所述数据作为核心关键数据进行推荐。
为了更好的对评估结果进行分级,有必要设置相应的级别阈值,在级别阈值设置上,基于网络权重、数据访问情况、数据更新频率以及血缘关系四个影响因素,设置四个重要度值,并设置相应的调节参数,计算出平均重要度值,通过调节影响因子的数值,可以获得不同的阈值,根据阈值与重要度值进行比较,可以将数据分为不同的级别;
Figure BDA0003747296540000121
上面公式中,T为全部数据物理表的平均重要度值,其中K为数据中核心关键物理表的的总个数,r代表第r个物理表,1<r<K,Wr是第r个物理表的网络权值的重要度值,α是其对应的调节参数;Sr是第r个物理表的数据访问情况的重要度值,β是其对应的调节参数;Rr是第r个物理表的数据更新频率的重要度值,ε是其对应的调节参数;Gr是第r个物理表的数据的血缘关系的重要度值,δ是其对应的调节参数;
上述技术方案的有益效果为:采用本实施例提供的方案,通过对评估结果列表的排序,可以清晰地显示出核心关键数据;通过设置级别阈值,可以更准确的划分数据级别。
在一个实施例中,S5还包括根据评估结果列表生成评估级别;
S5011:基于预设的对应规则,设置评估结果与评估级别的对应关系库;
S5012:设置评估级别,将重要度级别分为高级、中级和低级;
S5013:将重要度评估结果输入对应关系库,生成相对应的评估级别。
上述技术方案的工作原理为:根据评估结果,生成评估级别,有利于更好地区分分级数据;具体包括:
S5011:基于预设的对应规则,设置评估结果与评估级别的对应关系库;
S5012:设置评估级别,将重要度级别分为高级、中级和低级;
S5013:将重要度评估结果输入对应关系库,生成相对应的评估级别。
上述技术方案的有益效果为:采用本实施例提供的方案,通过生成与评估结果相对应地评估级别,可以提高数据分级区分的效果。
在一个实施例中,还包括S6,根据数据评估级别进行分类存储:
S601:获取数据级别中的参数,基于所述参数,制定数据分类存储策略;所述参数包括物理表影响下游物理表的个数、数据任务的个数和数据报表的张数;
S602:根据不同的参数,生成相应的分类存储策略;当影响下游物理表的个数大于第一数量阈值范围上限、并且数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围的上限时,生成第一存储策略;
当影响下游物理表的个数位于第一数量阈值范围内、并且数据任务的个数位于第二数量阈值范围内、并且数据报表的张数位于第三数量阈值范围内时,生成第二存储策略;
当影响下游物理表的个数小于第一数量阈值范围下限、并且数据任务的个数小于第二数量阈值范围下限、并且数据报表的张数小于第三数量阈值范围的下限时,生成第三存储策略;
当影响下游物理表的个数位于第一数量阈值范围内,若数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围上限时,生成第一存储策略;
S603:根据所述第一存储策略、第二存储策略、第三存储策略,对数据进行分类存储。
上述技术方案的工作原理为:根据数据评估级别进行分类存储,可以提高存储的质量,从而有利于数据的调用和管理;具体为:
S601:获取数据级别中的参数,基于所述参数,制定数据分类存储策略;所述参数包括物理表影响下游物理表的个数、数据任务的个数和数据报表的张数;
S602:根据不同的参数,生成相应的分类存储策略;当影响下游物理表的个数大于第一数量阈值范围上限、并且数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围的上限时,生成第一存储策略;
当影响下游物理表的个数位于第一数量阈值范围内、并且数据任务的个数位于第二数量阈值范围内、并且数据报表的张数位于第三数量阈值范围内时,生成第二存储策略;
当影响下游物理表的个数小于第一数量阈值范围下限、并且数据任务的个数小于第二数量阈值范围下限、并且数据报表的张数小于第三数量阈值范围的下限时,生成第三存储策略;
当影响下游物理表的个数位于第一数量阈值范围内,若数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围上限时,生成第一存储策略;
S603:根据所述第一存储策略、第二存储策略、第三存储策略,对数据进行分类存储。
上述技术方案的有益效果为:采用本实施例提供的方案,通过制定不同的而存储策略进行分类存储,可以保证存储的效果,有利于提高数据的管理效率。
在一个实施例中,包括S7,根据评估级别进行分类展示:
S701:根据预设的数据评估级别,获取数据类别和数据标签;
S702:基于数据级别、数据类别和数据标签,构建数据分级展示模型;
S703:基于数据分级展示模型,结合预设的可视化展示参数,对数据进行可视化处理,获得可视化数据;
S704:将可视化数据以图表形式在可视化设备上进行数据分级展示。
上述技术方案的工作原理为:根据数据的评估级别进行分类展示,并进行可视化的展示,可以直观地显示数据的分类效果;具体为:
S701:根据预设的数据评估级别,获取数据类别和数据标签;
S702:基于数据级别、数据类别和数据标签,构建数据分级展示模型;
S703:基于数据分级展示模型,结合预设的可视化展示参数,对数据进行可视化处理,获得可视化数据;
S704:将可视化数据以图表形式在可视化设备上进行数据分级展示。
上述技术方案的有益效果为:采用本实施例提供的方案,通过进行数据的分类可视化展示,可以提高数据分类管理的效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于知识图谱技术的数据智能分级方法,其特征在于,包括:
S1:获取数据物理表之间的血缘关系,根据血缘关系生成数据物理表知识图谱;
S2:利用改进的特征向量中心性算法,计算数据物理表知识图谱中物理表的网络权重;
S3:获取两个特征数据集,两个特征数据集为:数据物理表的数据访问情况数据集和数据更新频率数据集,基于K-means聚类算法对所述两个特征数据集进行聚类分析,生成聚类分析结果;
S4:根据聚类分析结果和网络权重,基于层次分析法和熵权法,构建数据物理表重要度评估公式;
S5:利用数据物理表重要度评估公式对数据物理表进行评估,根据评估结果获得核心关键数据。
2.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,S1包括:构建第一本体模型,基于第一本体模型生成数据物理表的知识图谱;所述构建第一本体模型的方法包括:
S101:获取用于创建数据物理表知识图谱的本体模型;
S102:基于预设的本体模型质量评价条件对本体模型进行评价;所述本体模型质量评价条件基于数据的完整性、简洁性、清晰性和可用性制定;
S103:筛选出评价结果符合预设评价结果阈值的第一本体模型。
3.根据权利要求2所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,S1包括:
S104:解析数据物理表之间的血缘关系,获取血缘关系的特征类别;
S105:选取所述特征类别中的归属性、层次性、多源性特征,基于预设的关系抽取模型进行关系抽取,获得数据物理表的实体关系;
S106:将数据物理表、数据物理表的实体关系输入第一本体模型,生成数据物理表的知识图谱。
4.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,S2包括:
S201:采用改进的特征向量中心性算法对数据物理表知识图谱中的实体节点进行重要度分析;所述改进的特征向量中心性算法为基于加权的PageRank算法;
S202:获取实体节点的重要度数组、节点总数、阻尼系数和收敛门限,并进行初始化赋值;
S203:根据初始化赋值,计算实体节点的出弧计数矩阵、出弧权重和矩阵;
S204:对实体节点重要度进行迭代计算,获得连续两次的重要度数组值,计算获得连续两次的重要度数组值的差值;
S205:将所述差值的正无穷范数与收敛门限进行比较,若所述正无穷范数小于收敛门限,则迭代结束,获得排序后的重要度矩阵;
S206:基于排序后的重要度矩阵,获得数据物理表知识图谱物理表的网络权重。
5.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,S3包括:
S301:获取数据物理表的数据访问情况特征数据集、数据更新频率特征数据集,将数据访问情况特征数据集、数据更新频率特征数据集分别划分为训练集和验证集,并设置P个初始聚类中心;
S302:获取训练集中的每一个样本,计算其与每一个质心的距离,并将其划分到距离最近的质心所属集合;
S303:重新计算每个集合的质心,并计算新的质心与原来质心的第一距离;
S304:若所述第一距离小于预设的距离阈值,则终止聚类,获得P个聚类质心;
S305:若所述第一距离大于预设的距离阈值,则重复步骤S302至S304;
S306:获取测试集中的每一个样本,计算其与P个簇的质心的距离,将所述距离转换成相应的分值进行结果输出,得到聚类分析结果。
6.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,S4包括:
S401:基于聚类分析结果和网络权重,构建数据物理表的重要度评估指标;
S402:通过层次分析法计算获得重要度评估指标的主观权重;
S403:通过熵权法计算获得重要度评估指标的客观权重;
S404:根据主观权重和客观权重,生成重要度评估指标的复合权重,基于复合权重,生成数据物理表的重要度评估公式。
7.根据权利要求1所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,S5包括:
S501:利用数据物理表重要度评估公式对数据物理表进行评估,获得评估结果列表;
S502:基于预设的若干个排序规则,对评估结果列表进行排序,获得若干个排序结果序列;
S503:获取排序结果序列中排序最前的数据结果所对应的数据,将所述数据作为核心关键数据进行推荐。
8.根据权利要求7所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,S5还包括根据评估结果列表生成评估级别;
S5011:基于预设的对应规则,设置评估结果与评估级别的对应关系库;
S5012:设置评估级别,将重要度级别分为高级、中级和低级;
S5013:将重要度评估结果输入对应关系库,生成相对应的评估级别。
9.根据权利要求8所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,还包括S6,根据数据评估级别进行分类存储:
S601:获取数据级别中的参数,基于所述参数,制定数据分类存储策略;所述参数包括物理表影响下游物理表的个数、数据任务的个数和数据报表的张数;
S602:根据不同的参数,生成相应的分类存储策略;当影响下游物理表的个数大于第一数量阈值范围上限、并且数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围的上限时,生成第一存储策略;
当影响下游物理表的个数位于第一数量阈值范围内、并且数据任务的个数位于第二数量阈值范围内、并且数据报表的张数位于第三数量阈值范围内时,生成第二存储策略;
当影响下游物理表的个数小于第一数量阈值范围下限、并且数据任务的个数小于第二数量阈值范围下限、并且数据报表的张数小于第三数量阈值范围的下限时,生成第三存储策略;
当影响下游物理表的个数位于第一数量阈值范围内,若数据任务的个数大于第二数量阈值范围上限、并且数据报表的张数大于第三数量阈值范围上限时,生成第一存储策略;
S603:根据所述第一存储策略、第二存储策略、第三存储策略,对数据进行分类存储。
10.根据权利要求8所述的一种基于知识图谱技术的数据智能分级方法,其特征在于,包括S7,根据评估级别进行分类展示:
S701:根据预设的数据评估级别,获取数据类别和数据标签;
S702:基于数据级别、数据类别和数据标签,构建数据分级展示模型;
S703:基于数据分级展示模型,结合预设的可视化展示参数,对数据进行可视化处理,获得可视化数据;
S704:将可视化数据以图表形式在可视化设备上进行数据分级展示。
CN202210834822.4A 2022-07-15 2022-07-15 一种基于知识图谱技术的数据智能分级方法 Active CN115374106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210834822.4A CN115374106B (zh) 2022-07-15 2022-07-15 一种基于知识图谱技术的数据智能分级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210834822.4A CN115374106B (zh) 2022-07-15 2022-07-15 一种基于知识图谱技术的数据智能分级方法

Publications (2)

Publication Number Publication Date
CN115374106A true CN115374106A (zh) 2022-11-22
CN115374106B CN115374106B (zh) 2023-05-26

Family

ID=84062293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210834822.4A Active CN115374106B (zh) 2022-07-15 2022-07-15 一种基于知识图谱技术的数据智能分级方法

Country Status (1)

Country Link
CN (1) CN115374106B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701962A (zh) * 2023-08-07 2023-09-05 北京电科智芯科技有限公司 边缘数据处理方法、装置、计算设备及存储介质
CN117473431A (zh) * 2023-12-22 2024-01-30 青岛民航凯亚系统集成有限公司 一种基于知识图谱的机场数据分类分级方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125524A (zh) * 2019-12-20 2020-05-08 四川文轩教育科技有限公司 基于知识图谱的数据分析与数据推送方法
CN111680153A (zh) * 2019-12-17 2020-09-18 北京嘉遁数据科技有限公司 一种基于知识图谱的大数据鉴真方法与系统
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN113032579A (zh) * 2021-03-25 2021-06-25 中国建设银行股份有限公司 一种元数据血缘分析方法、装置、电子设备和介质
CN113254650A (zh) * 2021-06-28 2021-08-13 明品云(北京)数据科技有限公司 一种基于知识图谱的评估推送方法、系统、设备和介质
US20210365823A1 (en) * 2020-04-29 2021-11-25 The 28Th Research Institute Of China Electronics Technology Group Corporation Capacity evaluation method and device based on historical capacity similarity characteristic
CN113779272A (zh) * 2021-09-15 2021-12-10 上海泓笛数据科技有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质
US20210406779A1 (en) * 2020-06-26 2021-12-30 Facebook, Inc. System and methods for feature engineering based on graph learning
CN114611384A (zh) * 2022-02-25 2022-06-10 北京工业大学 基于图神经网络的医学知识图谱节点重要性评估方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680153A (zh) * 2019-12-17 2020-09-18 北京嘉遁数据科技有限公司 一种基于知识图谱的大数据鉴真方法与系统
CN111125524A (zh) * 2019-12-20 2020-05-08 四川文轩教育科技有限公司 基于知识图谱的数据分析与数据推送方法
US20210365823A1 (en) * 2020-04-29 2021-11-25 The 28Th Research Institute Of China Electronics Technology Group Corporation Capacity evaluation method and device based on historical capacity similarity characteristic
US20210406779A1 (en) * 2020-06-26 2021-12-30 Facebook, Inc. System and methods for feature engineering based on graph learning
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN113032579A (zh) * 2021-03-25 2021-06-25 中国建设银行股份有限公司 一种元数据血缘分析方法、装置、电子设备和介质
CN113254650A (zh) * 2021-06-28 2021-08-13 明品云(北京)数据科技有限公司 一种基于知识图谱的评估推送方法、系统、设备和介质
CN113779272A (zh) * 2021-09-15 2021-12-10 上海泓笛数据科技有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质
CN114611384A (zh) * 2022-02-25 2022-06-10 北京工业大学 基于图神经网络的医学知识图谱节点重要性评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAMYONG PARK等: "Estimating node importance in knowledge graphs using graph neural networks", 《PROCEEDINGS OF THE 25TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》 *
吴信东等: "数据治理技术", 《JOURNAL OF SOFTWARE》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701962A (zh) * 2023-08-07 2023-09-05 北京电科智芯科技有限公司 边缘数据处理方法、装置、计算设备及存储介质
CN116701962B (zh) * 2023-08-07 2023-10-27 北京电科智芯科技有限公司 边缘数据处理方法、装置、计算设备及存储介质
CN117473431A (zh) * 2023-12-22 2024-01-30 青岛民航凯亚系统集成有限公司 一种基于知识图谱的机场数据分类分级方法及系统

Also Published As

Publication number Publication date
CN115374106B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN115374106B (zh) 一种基于知识图谱技术的数据智能分级方法
Rao Data mining and clustering techniques
CN115577152B (zh) 基于数据分析的在线图书借阅管理系统
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
CN112800115B (zh) 数据处理方法及数据处理装置
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN113537807A (zh) 一种企业智慧风控方法及设备
KR101625124B1 (ko) 특허 정량분석을 이용한 기술평가 방법
Moslehi et al. A genetic algorithm-based framework for mining quantitative association rules without specifying minimum support and minimum confidence
CN117290462B (zh) 一种数据大模型的智能决策系统及方法
Hsu et al. An integrated framework for visualized and exploratory pattern discovery in mixed data
Inyang et al. Unsupervised Characterization and Visualization of Students' Academic Performance Features.
CN114093426B (zh) 基于基因调控网络构建的标志物筛选方法
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法
CN115374823A (zh) 一种基于tlbo算法的电能质量扰动分类方法及系统
CN114444568A (zh) 一种基于改进聚类算法的不满意原因溯源方法
CN114091961A (zh) 一种基于半监督svm的电力企业供应商评价方法
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
WO1992017853A2 (en) Direct data base analysis, forecasting and diagnosis method
Mukherjee et al. Reversible Cellular Automata: A Natural Clustering Technique.
CN111104571A (zh) 一种基于比特币交易时序序列相似性的用户聚类方法
Luo et al. Adaptive regularization-incorporated latent factor analysis
Pirim Mathematical programming for social network analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant