CN112015723A - 数据等级划分方法、装置、计算机设备和存储介质 - Google Patents

数据等级划分方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112015723A
CN112015723A CN201910451420.4A CN201910451420A CN112015723A CN 112015723 A CN112015723 A CN 112015723A CN 201910451420 A CN201910451420 A CN 201910451420A CN 112015723 A CN112015723 A CN 112015723A
Authority
CN
China
Prior art keywords
target
data
attribute information
dimension
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910451420.4A
Other languages
English (en)
Inventor
杜敏
李圆圆
郑艳霞
温远丽
梁中兵
蒋雨青
姚小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201910451420.4A priority Critical patent/CN112015723A/zh
Publication of CN112015723A publication Critical patent/CN112015723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据等级划分方法、装置、计算机设备和存储介质。所述方法包括:对属性信息进行清洗和标准化,得到标准属性信息;计算标准属性信息的相关矩阵;计算相关矩阵的特征根和标准化特征向量;根据特征根计算累积贡献度,根据累积贡献度确定目标维度;根据特征值和标准化特征向量得到目标维度载荷矩阵,根据目标维度载荷矩阵使用回归算法计算目标维度对应的质量值,根据源数据的质量值确定源数据的等级。采用本方法能够根据数据的等级有效监控和维护数据质量。

Description

数据等级划分方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据等级划分方法、装置、计算机设备和存储介质。
背景技术
随着大数据技术的发展,数据量开始呈现指数增长的趋势,数据已经成为企业最重要的资产之一。在涉及大数据处理的业务场景下,数据量会越来越多,会导致数据存储仓库不断扩大。这种情况使得大量数据存储冗余,用户无法及时感知失效数据或者低价值数据,高价值数据无法重点监控,从而能有效的对数据质量进行监控与维护。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效监控和维护数据质量的数据等级划分方法、装置、计算机设备和存储介质。
一种数据等级划分方法,所述方法包括:
获取源数据对应的属性信息;
对属性信息降维,得到目标维度和目标维度对应的质量值;
从属性信息得到目标维度对应的目标属性信息;
根据目标属性信息计算目标维度对应的权重;
根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
在其中一个实施例中,获取源数据对应的属性信息,包括:
确定源数据中的各个数据表,获取各个数据表对应的属性信息,属性信息用于描述数据表的属性。
在其中一个实施例中,对属性信息降维,得到目标维度和目标维度对应的质量值,包括:
对属性信息进行清洗和标准化,得到标准属性信息;
计算标准属性信息的相关矩阵;
计算相关矩阵的特征根和标准化特征向量;
根据特征根计算累积贡献度,根据累积贡献度确定目标维度;
根据特征值和标准化特征向量得到目标维度载荷矩阵,根据目标维度载荷矩阵使用回归算法计算目标维度对应的质量值。
在其中一个实施例中,在对属性信息降维,得到目标维度和目标维度对应的质量值之后,还包括:
确定属性信息对应的特殊离群点;
接收对特殊离群点的等级配置指令,根据等级配置指令获取特殊离群点对应源数据的等级。
在其中一个实施例中,根据目标属性信息计算目标维度对应的权重,包括:
将目标属性信息归一化,使用归一化的目标属性信息计算目标维度对应的熵值;
使用目标维度对应的熵值计算目标维度对应的差异系数,使用差异系数计算得到目标维度对应的权重。
在其中一个实施例中,根据源数据的质量值确定源数据的等级,包括:
确定源数据中各个数据表的质量值并获取各个数据表对应的数据库标识;
根据数据库标识与业务场景标识的对应关系得到各个数据表对应的业务场景标识;
根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定源数据中各个数据表的等级。
在其中一个实施例中,在根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定各个数据表的等级之后,还包括:
将各个数据表的标识、各个数据表对应数据库的标识和各个数据表的等级关联存储到数据等级数据库中;
接收数据处理指令,解析数据处理指令得到目标数据库标识和对应的目标数据表标识;
根据目标数据库标识和目标数据表标识在数据等级数据库中查找到目标数据表标识对应目标数据表的等级;
根据目标数据表的等级在目标数据表中执行数据处理指令。,
一种数据等级划分装置,所述装置包括:
信息获取模块,用于获取源数据对应的属性信息;
降维模块,用于对属性信息降维,得到目标维度和目标维度对应的质量值;
信息得到模块,用于从属性信息得到目标维度对应的目标属性信息;
权重计算模块,用于根据目标属性信息计算目标维度对应的权重;
等级确定模块,用于根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取源数据对应的属性信息;
对属性信息降维,得到目标维度和目标维度对应的质量值;
从属性信息得到目标维度对应的目标属性信息;
根据目标属性信息计算目标维度对应的权重;
根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取源数据对应的属性信息;
对属性信息降维,得到目标维度和目标维度对应的质量值;
从属性信息得到目标维度对应的目标属性信息;
根据目标属性信息计算目标维度对应的权重;
根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
上述数据等级划分方法、装置、计算机设备和存储介质,通过获取源数据的属性信息,对属性信息降维得到目标维度和目标维度对应的质量值,根据目标维度得到目标属性信息并使用目标属性信息计算目标维度的权重,根据目标维度的权重和目标维度对应的质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。根据数据源等级的不同,采取不同的监控和维护方法,比如,高等级的数据实时进行监控和维护更新,低等级的数据进行删除维护等等,从而能够根据源数据的等级有效监控源数据和对源数据进行维护。
附图说明
图1为一个实施例中数据等级划分方法的应用环境图;
图2为一个实施例中数据等级划分方法的流程示意图;
图3为一个实施例中对属性信息降维的流程示意图;
图4为一个实施例中配置特殊离群点等级的流程示意图;
图5为一个实施例中计算目标维度权重的流程示意图;
图6为一个实施例中确定数据表等级的流程示意图;
图7为一个实施例中数据处理的流程示意图;
图8为一个实施例中数据等级划分装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据等级划分方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取源数据对应的属性信息;对属性信息降维,得到目标维度和目标维度对应的质量值;从属性信息得到目标维度对应的目标属性信息;根据目标属性信息计算目标维度对应的权重;根据目标维度对应的权重和质量值计算得到源数据的质量值,服务器104根据源数据的质量值确定源数据的等级。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据等级划分方法,以该方法应用于图1中的服务器中为例进行说明,包括以下步骤:
S202,获取源数据对应的属性信息。
其中,源数据是指要进行等级划分的数据。该源数据可以是单个数据表的数据,也可以是单个数据库的数据,该数据库中可以有多个数据表,还可以是多个数据库的数据。属性信息是指用于描述源数据属性的信息,该属性信息可以包括多个维度,比如建立时间、更新频率、被访问频率、日活跃度、月活跃度、被调度数、敏感数据占比、更新是否间断、数据为空占比和服务应用数等等。
具体地,服务器从各个不同渠道获取源数据对应的属性信息,属性信息中各个不同的维度对应的数据都从不同的渠道去获取。可以从源数据中进行查找,比如,建表时间、更新频率等直接从源数据中查找。可以从访问日志中获取,比如,被访问频率、日活跃度、月活跃度、被调度数和服务应用数等从访问日志中查找。可以从更新日志中获取,比如,更新频率、更新是否间断等从更新日志中查找。还可以从不同渠道中获取到的数据,并进行计算得到属性信息,比如,从源数据中获取的数据为空的数量,计算出数据为空的占比。也可以从源数据中获取敏感数据的数量,计算敏感数据占比。
S204,对属性信息降维,得到目标维度和目标维度对应的质量值。
其中,目标维度是指降维之后得到的属性信息维度。质量值是指降维后对目标维度的评价得分。
具体地,服务器使用降维算法对属性信息进行降维,得到降维之后的目标维度和目标维度对应的质量值。其中,降维算法可以使用因子分析,因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法,可以使用x=AF+e进行降维计算。其中,x是指要将为的标准化后的属性信息,A为因子载荷矩阵,F为要降维的维度,e为特殊的离散维度。比如,在对属性信息降维之后可以得到五个目标维度,分别是基础性质、活跃度、贡献度、敏感度和稳定性。其中,基础性质用于描述源数据的基础性质,活跃度为源数据自建立起的活跃程度。贡献度用于描述源数据被调度程度。敏感度为源数据中国家规定、企业信息安全规定的敏感数据占比。稳定性是指源数据的稳定程度,从更新间断、数据为空占比和数据分区是否大小为0等体现。
S206,从属性信息得到目标维度对应的目标属性信息。
其中,目标属性信息是目标维度对应的数据。
具体地,当服务器获取到目标维度时,从属性信息中得到目标维度对应的目标属性信息。比如,根据更新间断、数据为空占比和数据分区是否大小为0等得到稳定性。根据建立时间、更新频率等得到基础性质。
S208,根据目标属性信息计算目标维度对应的权重。
具体地,服务器根据目标属性信息使用熵值法计算出目标维度对应的权重。其中,熵值法是指用来判断某个指标的离散程度的数学方法。离散程度越大,对该指标对综合评价的影响越大。可以用熵值判断某个指标的离散程度。
S210,根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
具体地,服务器根据目标维度对应的权重和目标维度对应的质量值利用加权平均计算得到质量值,该质量值就是源数据的质量值。服务器根据源数据的质量值根据预先设置的等级划分规则得到源数据的等级。
在上述数据等级划分方法中,通过获取源数据的属性信息,对属性信息降维得到目标维度和目标维度对应的质量值,根据目标维度得到目标属性信息并使用目标属性信息计算目标维度的权重,根据目标维度的权重和目标维度对应的质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级,根据数据源等级的不同,采取不同的监控和维护方法,比如,高等级的数据实时进行监控和维护,低等级的数据进行删除维护等等。从而能够根据源数据的等级有效监控源数据和对源数据进行维护。
在一个实施例中,步骤S202,即获取源数据对应的属性信息,包括步骤:
确定源数据中的各个数据表,获取各个数据表对应的属性信息,属性信息用于描述数据表的属性。
具体地,服务器确定源数据中包括的各个数据表,获取各个数据表对应的属性信息,该属性信息用于描述对应数据表的属性。该源数据中包括的个数据表可以是同一个数据库中的数据表,也可以是不同数据库中的数据表。可以根据各个数据表的属性信息计算得到各个数据表的等级。即在计算源数据的等级时,可以以数据表为单位计算各个数据表的等级,能够确定每个数据表的等级,方便后续对每个数据表进行监控和维护。
在一个实施例中,如图3所示,步骤S204,即对属性信息降维,得到目标维度和目标维度对应的质量值,包括步骤:
S302,对属性信息进行清洗和标准化,得到标准属性信息。
具体地,服务器对属性信息进行清洗,包括检查数据一致性,处理无效值和缺失值。比如,可以将无效值删除,将缺失值填充为0。然后对清洗后的属性信息进行标准化处理,比如,若源数据是有m个数据表,每个数据表对应的属性信息有n个维度。则将清洗后的属性信息形成数据集,使用
Figure BDA0002075266660000071
使用进行标准化,得到标准化后的数据集。其中,zij是指标准化后的第i个数据表中第j个维度的标准属性信息,xij是第i个数据表中第j个维度的未标准化的属性信息。
Figure BDA0002075266660000072
是第j个维度的均值。
Figure BDA0002075266660000073
是第j个维度的标准差,
S304,计算标准属性信息的相关矩阵。
其中,该相关矩阵用于表示标准属性信息中各个维度之间的线性相关程度。可以使用样本相关系数进行计算。
具体地,服务器使用样本相关系数的计算方法计算标准属性信息的相关矩阵。比如,对标准化后的数据集,使用
Figure BDA0002075266660000074
其中,
Figure BDA0002075266660000075
表示标准属性信息的相关矩阵。cov(yi*yj)是指标准属性信息中第i个维度和第j个维度的协方差。D(yi)是第i个维度的方差,
Figure BDA0002075266660000076
是第j个维度的标准差。
S306,计算相关矩阵的特征根和标准化特征向量。
具体地,服务器根据计算得到的相关矩阵计算出相关矩阵的特征根和标准化特征向量,比如,使用
Figure BDA0002075266660000081
如计算出相关矩阵的特征根。其中λ为要计算的特征根,E为单位矩阵。若属性信息中有n个维度,则会计算得到n个特征根。然后根据
Figure BDA0002075266660000082
根据计算出相关矩阵的标准化特征向量。其中,l为相关矩阵的标准化特征向量。
S308,根据特征根计算累积贡献度,根据累积贡献度确定目标维度。
具体地,服务器根据特征根计算属性信息中各个维度累积贡献度,将超过累计贡献度预设阈值的累积贡献度对应的维度确定为目标维度。累计贡献度预设阈值可以是0.8。可以使用
Figure BDA0002075266660000083
计算得到属性信息中各个维度的累积贡献度。其中,j是指属性信息中的第j个维度。
Figure BDA0002075266660000084
是指计算属性信息中前k个维度的特征根的和。
Figure BDA0002075266660000085
为属性信息中所有特征根的和。则
Figure BDA0002075266660000086
为计算得到的属性信息中第k个维度的累积贡献度,依次从第一个维度开始计算,当k等于n时,得到了属性信息中各个维度的累积贡献度。选择累积贡献度超过预设阈值对应的维度为目标维度,比如,目标维度可以为Q个。
S310,根据特征值和标准化特征向量得到目标维度载荷矩阵,根据目标维度载荷矩阵使用回归算法计算目标维度对应的质量值。
具体地,服务器根据特征值和标准化特征向量利用主成分解方法计算得到目标维度载荷矩阵。可以使用
Figure BDA0002075266660000087
其中A为目标维度载荷矩阵,Q是指目标维度的数量,λQ为第Q个目标维度的特征根,lQ为第Q个目标维度的标准化特征向量。然后根据目标维度载荷矩阵使用回归算法计算目标维度对应的质量值。其中,回归算法是指使用Fj=xjR-1A'计算得到第j个目标维度的得分,其中R为相关矩阵,A'是对A目标维度载荷矩阵实现最大正交旋转,得到的矩阵。
在上述实施例中,通过因子分析法将属性信息进行将维,得到目标维度和目标维度对应的质量值,提高了得到的目标维度的准确性,方便后续使用。
在一个实施例中,如图4所示,在步骤S202之后,即在对属性信息降维,得到目标维度和目标维度对应的质量值之后,还包括步骤:
S402,确定属性信息对应的特殊离群点。
其中,特征离群点是指属性信息中在进行降维后,得到属性信息中特殊的离群属性信息。
具体地,在进行降维之后,服务器得到属性信息中特殊的离群属性信息,即得到属性信息中特殊的离群属性信息。
S404,接收对特殊离群点的等级配置指令,根据等级配置指令获取特殊离群点对应源数据的等级。
具体地,服务器接收到对特殊离群点的等级配置指令,根据等级配置指令德奥特殊离群点即特殊属性信息对应的源数据并获取到对该源数据的配置的等级新,得到该特殊属性信息对应的源数据的等级。
在上述实施例中,通过确定属性信息对应的特殊离群点,接收对特殊离群点的等级配置指令,根据等级配置指令获取特殊离群点对应源数据的等级,可以将特殊的属性信息对应的源数据配置等级,即可以将服务器中所有的源数据都配置对应的等级,避免遗漏,方便后续进行监控和维护。
在一个实施例中,如图5所示,步骤S208,根据目标属性信息计算目标维度对应的权重,包括步骤:
S502,将目标属性信息归一化,使用归一化的目标属性信息计算目标维度对应的熵值。
具体地,服务器将得到的目标属性信息进行归一化处理,根据归一化的目标属性信息计算目标维度对应的熵值。比如,若源数据是有P个数据表,每个数据表对应的目标属性信息有Q个目标维度,可以使用
Figure BDA0002075266660000091
进行归一化计算,其中,Xij为归一化后第i个数据表的目标属性信息中第j个目标维度的值,xij为第i个数据表的目标属性信息中第j个目标维度的值即未归一化的原始值,max(xj)为P个数据表的目标属性信息中第j个目标维度的最大值,min(xj)为P个数据表的目标属性信息中第j个目标维度的最小值。然后根据归一化后的目标属性信息计算出第i个数据表中第j个目标维度的值占m个数据表中第j个目标维度值的总和的比重,可以使用
Figure BDA0002075266660000101
计算出所有数据中各个目标维度的值的比重。其中,Pij表示第i个数据表中第j个目标维度的值占P个数据表中第j个目标维度值的总和的比重。Xij表示第i个数据表中第j个目标维度的值。
Figure BDA0002075266660000102
表示P个数据表中第j个目标维度的值的总和。然后使用Pij计算目标维度的熵值,可以使用
Figure BDA0002075266660000103
计算出第j个目标维度的熵值。其中k为常数,使用
Figure BDA0002075266660000104
计算得到,Q为目标维度的维度数。
S504,使用目标维度对应的熵值计算目标维度对应的差异系数,使用差异系数计算得到目标维度对应的权重。
具体地,服务器使用各个目标维度对应的熵值计算得到各个目标维度对应的差异系数,也称为信息熵冗余度。可以使用dj=1-ej计算得到第j个目标维度的差异系数,然后使用得到的各个差异系数计算得到各个目标维度对应的权重,可以使用
Figure BDA0002075266660000105
其中,
Figure BDA0002075266660000106
表示Q个目标维度的差异系数的和。wj是指计算得到的第j个目标维度的权重。
在一个具体的实施例中,当计算得到各个目标维度的权重wj时,根据目标维度的权重wj和目标维度的质量值Fj使用
Figure BDA0002075266660000111
进行计算得到源数据中各个数据表的质量值。
在上述实施例中,通过将目标属性信息归一化,使用归一化的目标属性信息计算目标维度对应的熵值,使用目标维度对应的熵值计算目标维度对应的差异系数,使用差异系数计算得到目标维度对应的权重,能够精确计算得到各个目标维度对应的权重。
在一个实施例中,如图6所示,步骤S210,即根据源数据的质量值确定源数据的等级,包括步骤:
S602,确定源数据中各个数据表的质量值并获取各个数据表对应的数据库标识。
其中,数据库标识用于唯一标识对应的数据库,每个数据库中存储有多个数据表的数据。
具体地,服务器确定源数据中各个数据表的质量值,然后获取到存储各个数据表的数据库标识。
S604,根据数据库标识与业务场景标识的对应关系得到各个数据表对应的业务场景标识。
业务场景标识用于唯一标识数据库中数据使用的业务场景。不同的业务场景的数据在不同的数据库中,各个不同的数据库都可以存储到关系型数据服务器中。
具体地,服务器根据预先设置好的业务场景的数据存储的数据库的关系,即数据库标识与业务场景标识的对应关系得到源数据中各个数据表对应的业务场景标识。
S606,根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定源数据中各个数据表的等级。
具体地,根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定源数据中各个数据表的等级。其中,不同的业务场景可以设置不同的等级划分规则。比如一个业务场景下的数据库中有多个数据表,得到这多个数据表的质量值,获取这多个数据表质量值的最大值,将最大值五等分,得到划分等级规则。按照五等分后的质量值区间来对该数据库中的数据表划分等级。在一个具体的应用场景中,可以使用五分位算法来对各个数据表的质量值进行划分,根据划分结果确定各个数据表的等级。
在上述实施例中,确定源数据中各个数据表的质量值并获取各个数据表对应的数据库标识,根据数据库标识与业务场景标识的对应关系得到各个数据表对应的业务场景标识,根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定源数据中各个数据表的等级,可以使不同业务场景下的数据根据不同的等级划分规则进行等级划分,提高划分数据等级的精确性。
在一个实施例中,如图7所示,在步骤S606之后,在根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定各个数据表的等级之后,还包括步骤:
S702,将各个数据表的标识、各个数据表对应数据库的标识和各个数据表的等级关联存储到数据等级数据库中。
其中,数据等级数据库是用于存储各个数据表等级信息的数据库。该数据库与业务数据的数据库独立。
具体地,服务器将各个数据表的标识、各个数据表对应数据库的标识和各个数据表的等级关联存储到数据等级数据库中,该数据等级数据库可以是hive数据库。
S704,接收数据处理指令,解析数据处理指令得到目标数据库标识和对应的目标数据表标识。
其中,目标数据库标识是指存储要进行数据处理的数据的数据库的标识。该数据存储在关系型数据库中。目标数据表标识是指存储该数据的数据表的标识。
具体地,服务器接收到对数据库中数据处理指令,该数据处理指令时用于对数据表中的数据进行维护,比如删除无效值,填充空值,也可以删除数据表中数据等等。服务器解析该数据处理指令得到待处理的数据存储的数据库的标识和数据库中数据表的标识。其中,hive数据库和关系型数据可以使用dataX进行数据处理。
S706,根据目标数据库标识和目标数据表标识在数据等级数据库中查找到目标数据表标识对应目标数据表的等级。
具体地,服务器根据目标数据库标识和目标数据表标识在数据等级数据库中查找匹配的数据库标识和数据表标识,然后查找到数据库标识和数据表标识关联的数据等级,即得到目标数据表标识对应的目标数据表的等级。
S708,根据目标数据表的等级在目标数据表中执行数据处理指令。
具体地,服务器根据目标数据表的等级在目标数据库中的目标数据表中执行数据处理指令。比如,目标数据表的等级低,则可以对目标数据表中的数据进行删除。目标数据表的等级高,则可以对目标数据表中的数据进行更新或者进行实时访问监控等等。
在上述实施例中,通过将计算得到的数据表的等级存储到数据等级数据库中,并反推到关系数据库中进行等级结果的应用,可依据数据等级对高价值数据重点监控与低价值数据归档处理,能够有效减少数据存储服务器的数据存储压力,减少存储资源的浪费。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种数据等级划分装置800,包括:信息获取模块802、降维模块804、信息得到模块806、权重计算模块808和等级确定模块810,其中:
信息获取模块802,用于获取源数据对应的属性信息;
降维模块804,用于对属性信息降维,得到目标维度和目标维度对应的质量值;
信息得到模块806,用于从属性信息得到目标维度对应的目标属性信息;
权重计算模块808,用于根据目标属性信息计算目标维度对应的权重;
等级确定模块810,用于根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
在一个实施例中,信息获取模块802,包括:
数据表确定模块,用于确定源数据中的各个数据表,获取各个数据表对应的属性信息,属性信息用于描述数据表的属性。
在一个实施例中,降维模块804,包括:
标准化模块,用于对属性信息进行清洗和标准化,得到标准属性信息;
相关计算模块,用于计算标准属性信息的相关矩阵;
特征计算模块,用于计算相关矩阵的特征根和标准化特征向量;
目标维度确定模块,用于根据特征根计算累积贡献度,根据累积贡献度确定目标维度;
质量值计算模块,用于根据特征值和标准化特征向量得到目标维度载荷矩阵,根据目标维度载荷矩阵使用回归算法计算目标维度对应的质量值。
在一个实施例中,数据等级划分装置800,还包括:
特殊点确定模块,用于确定属性信息对应的特殊离群点。
配置模块,用于接收对特殊离群点的等级配置指令,根据等级配置指令获取特殊离群点对应源数据的等级。
在一个实施例中,权重计算模块808,包括:
熵值计算模块,用于将目标属性信息归一化,使用归一化的目标属性信息计算目标维度对应的熵值;
系数计算模块,用于使用目标维度对应的熵值计算目标维度对应的差异系数,使用差异系数计算得到目标维度对应的权重。
在一个实施例中,等级确定模块810,包括:
数据库标识获取模块,用于确定源数据中各个数据表的质量值并获取各个数据表对应的数据库标识;
场景标识获取模块,用于根据数据库标识与业务场景标识的对应关系得到各个数据表对应的业务场景标识;
表等级确定模块,用于根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定源数据中各个数据表的等级。
在一个实施例中,数据等级划分装置800,还包括:
等级存储模块,用于将各个数据表的标识、各个数据表对应数据库的标识和各个数据表的等级关联存储到数据等级数据库中;
指令接收模块,用于接收数据处理指令,解析数据处理指令得到目标数据库标识和对应的目标数据表标识;
等级查找模块,用于根据目标数据库标识和目标数据表标识在数据等级数据库中查找到目标数据表标识对应目标数据表的等级;
指令执行模块,用于根据目标数据表的等级在目标数据表中执行数据处理指令。
关于数据等级划分装置的具体限定可以参见上文中对于数据等级划分方法的限定,在此不再赘述。上述数据等级划分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储源数据和等级数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据等级划分方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取源数据对应的属性信息;对属性信息降维,得到目标维度和目标维度对应的质量值;从属性信息得到目标维度对应的目标属性信息;根据目标属性信息计算目标维度对应的权重;根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
在一个实施例中,获取源数据对应的属性信息,包括:处理器执行计算机程序时还实现以下步骤:确定源数据中的各个数据表,获取各个数据表对应的属性信息,属性信息用于描述数据表的属性。
在其中一个实施例中,对属性信息降维,得到目标维度和目标维度对应的质量值包括:处理器执行计算机程序时还实现以下步骤:对属性信息进行清洗和标准化,得到标准属性信息;计算标准属性信息的相关矩阵;计算相关矩阵的特征根和标准化特征向量;根据特征根计算累积贡献度,根据累积贡献度确定目标维度;根据特征值和标准化特征向量得到目标维度载荷矩阵,根据目标维度载荷矩阵使用回归算法计算目标维度对应的质量值。
在一个实施例中,在对属性信息降维,得到目标维度和目标维度对应的质量值之后,处理器执行计算机程序时还实现以下步骤:确定属性信息对应的特殊离群点;接收对特殊离群点的等级配置指令,根据等级配置指令获取特殊离群点对应源数据的等级。
在一个实施例中,根据目标属性信息计算目标维度对应的权重包括:处理器执行计算机程序时还实现以下步骤:将目标属性信息归一化,使用归一化的目标属性信息计算目标维度对应的熵值;使用目标维度对应的熵值计算目标维度对应的差异系数,使用差异系数计算得到目标维度对应的权重。
在一个实施例中,根据源数据的质量值确定源数据的等级包括:处理器执行计算机程序时还实现以下步骤:确定源数据中各个数据表的质量值并获取各个数据表对应的数据库标识;根据数据库标识与业务场景标识的对应关系得到各个数据表对应的业务场景标识;根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定源数据中各个数据表的等级。
在一个实施例中,在根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定各个数据表的等级之后,处理器执行计算机程序时还实现以下步骤:将各个数据表的标识、各个数据表对应数据库的标识和各个数据表的等级关联存储到数据等级数据库中;接收数据处理指令,解析数据处理指令得到目标数据库标识和对应的目标数据表标识;根据目标数据库标识和目标数据表标识在数据等级数据库中查找到目标数据表标识对应目标数据表的等级;根据目标数据表的等级在目标数据表中执行数据处理指令。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取源数据对应的属性信息;对属性信息降维,得到目标维度和目标维度对应的质量值;从属性信息得到目标维度对应的目标属性信息;根据目标属性信息计算目标维度对应的权重;根据目标维度对应的权重和质量值计算得到源数据的质量值,根据源数据的质量值确定源数据的等级。
在一个实施例中,获取源数据对应的属性信息,包括:计算机程序被处理器执行时还实现以下步骤:确定源数据中的各个数据表,获取各个数据表对应的属性信息,属性信息用于描述数据表的属性。
在一个实施例中,对属性信息降维,得到目标维度和目标维度对应的质量值,包括:计算机程序被处理器执行时还实现以下步骤:对属性信息进行清洗和标准化,得到标准属性信息;计算标准属性信息的相关矩阵;计算相关矩阵的特征根和标准化特征向量;根据特征根计算累积贡献度,根据累积贡献度确定目标维度;根据特征值和标准化特征向量得到目标维度载荷矩阵,根据目标维度载荷矩阵使用回归算法计算目标维度对应的质量值。
在一个实施例中,在对属性信息降维,得到目标维度和目标维度对应的质量值之后,计算机程序被处理器执行时还实现以下步骤:确定属性信息对应的特殊离群点;接收对特殊离群点的等级配置指令,根据等级配置指令获取特殊离群点对应源数据的等级。
在一个实施例中,根据目标属性信息计算目标维度对应的权重,包括:计算机程序被处理器执行时还实现以下步骤:将目标属性信息归一化,使用归一化的目标属性信息计算目标维度对应的熵值;使用目标维度对应的熵值计算目标维度对应的差异系数,使用差异系数计算得到目标维度对应的权重。
在一个实施例中,根据源数据的质量值确定源数据的等级,包括:计算机程序被处理器执行时还实现以下步骤:确定源数据中各个数据表的质量值并获取各个数据表对应的数据库标识;根据数据库标识与业务场景标识的对应关系得到各个数据表对应的业务场景标识;根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定源数据中各个数据表的等级。
在一个实施例中,在根据业务场景标识获取对应的等级划分规则,按照等级划分规则和各个数据表的质量值确定各个数据表的等级之后,计算机程序被处理器执行时还实现以下步骤:将各个数据表的标识、各个数据表对应数据库的标识和各个数据表的等级关联存储到数据等级数据库中;接收数据处理指令,解析数据处理指令得到目标数据库标识和对应的目标数据表标识;根据目标数据库标识和目标数据表标识在数据等级数据库中查找到目标数据表标识对应目标数据表的等级;根据目标数据表的等级在目标数据表中执行数据处理指令。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据等级划分方法,所述方法包括:
获取源数据对应的属性信息;
对所述属性信息降维,得到目标维度和所述目标维度对应的质量值;
从所述属性信息得到所述目标维度对应的目标属性信息;
根据所述目标属性信息计算所述目标维度对应的权重;
根据所述目标维度对应的权重和质量值计算得到所述源数据的质量值,根据所述源数据的质量值确定所述源数据的等级。
2.根据权利要求1所述的方法,其特征在于,所述获取源数据对应的属性信息,包括:
确定所述源数据中的各个数据表,获取所述各个数据表对应的属性信息,所述属性信息用于描述数据表的属性。
3.根据权利要求1所述的方法,其特征在于,所述对所述属性信息降维,得到目标维度和所述目标维度对应的质量值,包括:
对所述属性信息进行清洗和标准化,得到标准属性信息;
计算所述标准属性信息的相关矩阵;
计算所述相关矩阵的特征根和标准化特征向量;
根据所述特征根计算累积贡献度,根据所述累积贡献度确定目标维度;
根据所述特征值和所述标准化特征向量得到目标维度载荷矩阵,根据所述目标维度载荷矩阵使用回归算法计算目标维度对应的质量值。
4.根据权利要求1所述的方法,其特征在于,在所述对所述属性信息降维,得到目标维度和所述目标维度对应的质量值之后,还包括:
确定所述属性信息对应的特殊离群点;
接收对所述特殊离群点的等级配置指令,根据所述等级配置指令获取所述特殊离群点对应源数据的等级。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标属性信息计算所述目标维度对应的权重,包括:
将所述目标属性信息归一化,使用归一化的目标属性信息计算所述目标维度对应的熵值;
使用所述目标维度对应的熵值计算所述目标维度对应的差异系数,使用所述差异系数计算得到所述目标维度对应的权重。
6.根据权利要求1所述的方法,其特征在于,所述根据所述源数据的质量值确定所述源数据的等级,包括:
确定所述源数据中各个数据表的质量值并获取所述各个数据表对应的数据库标识;
根据所述数据库标识与业务场景标识的对应关系得到所述各个数据表对应的业务场景标识;
根据所述业务场景标识获取对应的等级划分规则,按照所述等级划分规则和所述各个数据表的质量值确定所述源数据中各个数据表的等级。
7.根据权利要求6所述的方法,其特征在于,在所述根据所述业务场景标识获取对应的等级划分规则,按照所述等级划分规则和各个数据表的质量值确定各个数据表的等级之后,还包括:
将所述各个数据表的标识、所述各个数据表对应数据库的标识和所述各个数据表的等级关联存储到数据等级数据库中;
接收数据处理指令,解析所述数据处理指令得到目标数据库标识和对应的目标数据表标识;
根据所述目标数据库标识和所述目标数据表标识在所述数据等级数据库中查找到所述目标数据表标识对应目标数据表的等级;
根据所述目标数据表的等级在所述目标数据表中执行所述数据处理指令。
8.一种数据等级划分装置,其特征在于,所述装置包括:
信息获取模块,用于获取源数据对应的属性信息;
降维模块,用于对所述属性信息降维,得到目标维度和所述目标维度对应的质量值;
信息得到模块,用于从所述属性信息得到所述目标维度对应的目标属性信息;
权重计算模块,用于根据所述目标属性信息计算所述目标维度对应的权重;
等级确定模块,用于根据所述目标维度对应的权重和质量值计算得到所述源数据的质量值,根据所述源数据的质量值确定所述源数据的等级。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910451420.4A 2019-05-28 2019-05-28 数据等级划分方法、装置、计算机设备和存储介质 Pending CN112015723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910451420.4A CN112015723A (zh) 2019-05-28 2019-05-28 数据等级划分方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910451420.4A CN112015723A (zh) 2019-05-28 2019-05-28 数据等级划分方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112015723A true CN112015723A (zh) 2020-12-01

Family

ID=73501571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910451420.4A Pending CN112015723A (zh) 2019-05-28 2019-05-28 数据等级划分方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112015723A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806343A (zh) * 2021-08-05 2021-12-17 北京蜂云科创信息技术有限公司 一种车联网数据质量的评估方法和系统
CN113869642A (zh) * 2021-08-26 2021-12-31 中国环境科学研究院 企业活跃度确定方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141160A (ja) * 2001-10-23 2003-05-16 Internatl Business Mach Corp <Ibm> 情報検索システム、情報検索方法、情報検索を実行させるためのプログラムおよび情報検索を実行させるためのプログラムが記録された記録媒体
CN107122475A (zh) * 2017-05-02 2017-09-01 杭州泰指尚科技有限公司 大数据异常点检测方法及其系统
CN108197795A (zh) * 2017-12-28 2018-06-22 杭州优行科技有限公司 恶意团体账户识别方法、装置、终端及存储介质
CN109447334A (zh) * 2018-10-19 2019-03-08 江苏满运软件科技有限公司 货源信息的数据降维方法、装置、电子设备、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141160A (ja) * 2001-10-23 2003-05-16 Internatl Business Mach Corp <Ibm> 情報検索システム、情報検索方法、情報検索を実行させるためのプログラムおよび情報検索を実行させるためのプログラムが記録された記録媒体
CN107122475A (zh) * 2017-05-02 2017-09-01 杭州泰指尚科技有限公司 大数据异常点检测方法及其系统
CN108197795A (zh) * 2017-12-28 2018-06-22 杭州优行科技有限公司 恶意团体账户识别方法、装置、终端及存储介质
CN109447334A (zh) * 2018-10-19 2019-03-08 江苏满运软件科技有限公司 货源信息的数据降维方法、装置、电子设备、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806343A (zh) * 2021-08-05 2021-12-17 北京蜂云科创信息技术有限公司 一种车联网数据质量的评估方法和系统
CN113806343B (zh) * 2021-08-05 2023-12-19 北京蜂云科创信息技术有限公司 一种车联网数据质量的评估方法和系统
CN113869642A (zh) * 2021-08-26 2021-12-31 中国环境科学研究院 企业活跃度确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109345374B (zh) 风险控制方法、装置、计算机设备和存储介质
CN110752942B (zh) 告警信息的决策方法、装置、计算机设备及存储介质
CN109165840B (zh) 风险预测处理方法、装置、计算机设备和介质
CN108509424B (zh) 制度信息处理方法、装置、计算机设备和存储介质
WO2022105129A1 (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN111784392A (zh) 基于孤立森林的异常用户群组检测方法、装置、设备
WO2018157752A1 (en) Approximate random number generator by empirical cumulative distribution function
CN110287332B (zh) 云环境下仿真模型选择方法与装置
CN111062573A (zh) 员工绩效数据确定方法、装置、介质和计算机设备
CN112151141A (zh) 医疗数据处理方法、装置、计算机设备和存储介质
CN110555164A (zh) 群体兴趣标签的生成方法、装置、计算机设备和存储介质
CN112015723A (zh) 数据等级划分方法、装置、计算机设备和存储介质
CN115237710A (zh) 服务器温度预测方法、装置、计算机设备和存储介质
US9779207B2 (en) Information processing apparatus information processing method, and storage medium
CN115659411A (zh) 数据分析的方法和装置
CN112541595A (zh) 模型构建方法及装置、存储介质及电子设备
Lapko et al. Modified fast algorithm for the bandwidth selection of the kernel density estimation
CN110598124A (zh) 数值属性挖掘方法、装置、计算机设备和存储介质
US20200104725A1 (en) Systems and methods for generating blended variable importance measures corresponding to specific targets
CN115034520A (zh) 风险预测方法、装置、设备及存储介质
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN115170271A (zh) 风险关联企业的聚类方法、装置、设备及存储介质
Taufer et al. Optimal predictive densities and fractional moments
CN114529136A (zh) 基于主成分分析和Topsis的电子部组件评价方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination