CN117278343B - 一种基于大数据平台数据的数据多级输出处理方法 - Google Patents

一种基于大数据平台数据的数据多级输出处理方法 Download PDF

Info

Publication number
CN117278343B
CN117278343B CN202311576085.3A CN202311576085A CN117278343B CN 117278343 B CN117278343 B CN 117278343B CN 202311576085 A CN202311576085 A CN 202311576085A CN 117278343 B CN117278343 B CN 117278343B
Authority
CN
China
Prior art keywords
data
result
platform
big
encryption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311576085.3A
Other languages
English (en)
Other versions
CN117278343A (zh
Inventor
赵志庆
侯玉柱
袁鹏文
余毛猛
王巍
董席峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rongxing Technology Co ltd
Original Assignee
Rongxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rongxing Technology Co ltd filed Critical Rongxing Technology Co ltd
Priority to CN202311576085.3A priority Critical patent/CN117278343B/zh
Publication of CN117278343A publication Critical patent/CN117278343A/zh
Application granted granted Critical
Publication of CN117278343B publication Critical patent/CN117278343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0435Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply symmetric encryption, i.e. same key used for encryption and decryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及大数据平台数据加解密领域,尤其涉及一种基于大数据平台数据的数据多级输出处理方法,包括:S1、利用大数据平台数据进行抽样分析处理得到大数据平台数据抽样分析结果;S2、利用所述大数据平台数据抽样分析结果基于聚类分析得到大数据平台数据聚类分析结果;S3、利用所述大数据平台数据聚类分析结果得到数据多级输出处理结果,提高了数据的加密效率,更重要的是可根据不同数据平台的加密要求匹配对应的加密方案,进一步提高了数据安全性,降低数据泄露的风险。

Description

一种基于大数据平台数据的数据多级输出处理方法
技术领域
本发明涉及大数据平台数据加解密领域,具体涉及一种基于大数据平台数据的数据多级输出处理方法。
背景技术
大数据平台是一种通过内容共享、资源共用、渠道共建和数据共通等形式来进行服务的网络平台,但由于其平台数据来源多样,数据格式和结构复杂,准确地识别所有敏感字段并不容易,需要投入大量时间和资源进行识别和验证。其次,针对不同的敏感字段,需要选择合适的算法和策略进行加密或脱敏,这需要开发人员根据具体情况进行设计和编写,对技术要求较高,同时由于数据格式和结构的不断变化,加密算法也需要不断更新和维护,进一步增加了开发成本和难度。
发明内容
针对现有技术的不足,本发明提供了一种基于大数据平台数据的数据多级输出处理方法,通过聚类算法与多级验证处理,可以提高加解密的准确性和效率,减少数据泄露的风险
为实现上述目的,本发明提供了一种基于大数据平台数据的数据多级输出处理方法,包括:
S1、利用大数据平台数据进行抽样分析处理得到大数据平台数据抽样分析结果;
S2、利用所述大数据平台数据抽样分析结果基于聚类分析得到大数据平台数据聚类分析结果;
S3、利用所述大数据平台数据聚类分析结果得到数据多级输出处理结果。
优选的,所述利用大数据平台数据进行抽样分析处理得到大数据平台数据抽样分析结果包括:
S1-1、获取大数据平台数据对应源数据;
S1-2、利用所述大数据平台数据对应源数据基于水塘抽样法进行抽样处理得到源数据抽样结果;
S1-3、利用所述源数据抽样结果进行数据向量化处理得到源数据向量结果;
S1-4、利用所述源数据向量结果作为大数据平台数据抽样分析结果;
其中,所述源数据包括数据字段名称与基础源数据。
进一步的,利用所述源数据抽样结果进行数据向量化处理得到源数据向量结果包括:
S1-3-1、分别获取源数据抽样结果对应数据类型与数据字段名称作为源数据第一特征与源数据第二特征;
S1-3-2、利用所述源数据第一特征对源数据抽样结果进行向量化处理得到源数据第一向量结果;
S1-3-3、利用所述源数据第二特征对源数据抽样结果进行向量化处理得到源数据第二向量结果;
S1-3-4、判断所述源数据第一向量结果与源数据第二向量结果是否完整对应,若是,则利用所述源数据第一向量结果与源数据第二向量结果作为源数据向量结果,否则,执行S1-3-5;
S1-3-5、判断所述源数据第一特征与大数据平台数据是否对应,若是,则返回S1-3-3,否则,执行S1-3-6;
S1-3-6、判断所述源数据第二特征与大数据平台数据是否对应,若是,则返回S1-3-4,否则,执行S1-3-1。
进一步的,利用所述大数据平台数据抽样分析结果基于聚类分析得到大数据平台数据聚类分析结果包括:
S2-1、根据所述大数据平台数据抽样分析结果对应数据字段名称与基础源数据分别作为第一聚类特征与第二聚类特征;
S2-2、利用所述大数据平台数据抽样分析结果根据第一聚类特征与第二聚类特征基于K-means聚类分析算法得到大数据平台数据聚类分析结果。
优选的,利用所述大数据平台数据聚类分析结果得到数据多级输出处理结果包括:
S3-1、利用所述大数据平台数据聚类分析结果进行加密分类处理得到大数据平台数据加密分类结果;
S3-2、利用所述大数据平台数据加密分类结果进行修正处理得到大数据平台数据加密修正结果;
S3-3、利用所述大数据平台数据加密修正结果得到数据多级输出处理结果。
进一步的,利用所述大数据平台数据聚类分析结果进行加密分类处理得到大数据平台数据加密分类结果包括:
S3-1-1、利用所述大数据平台数据聚类分析结果对应源数据第一向量结果作为第一筛选阈值;
S3-1-2、利用所述大数据平台数据聚类分析结果对应源数据第二向量结果作为第二筛选阈值;
S3-1-3、判断所述第一筛选阈值是否大于第二筛选阈值,若是,则利用大于第一筛选阈值作为第一分类范围,大于第二筛选阈值且小于等于第一筛选阈值作为第二分类范围,小于等于第二筛选阈值作为第三分类范围,并执行S3-1-4,否则,返回S3-1-1;
S3-1-4、判断所述大数据平台数据聚类分析结果是否对应第一分类范围,若是,则利用所述大数据平台数据聚类分析结果直接输出大数据平台数据加密分类结果,否则,执行S3-1-5;
S3-1-5、判断所述大数据平台数据聚类分析结果是否对应第二分类范围,若是,执行S3-1-6,否则,利用所述大数据平台数据聚类分析结果对应数据字段名称作为大数据平台数据加密分类结果;
S3-1-6、判断大数据平台数据聚类分析结果对应聚类分析结果或数据字段名称是否任一存在加密需求,若是,则根据所述聚类分析结果或数据字段名称作为大数据平台数据加密分类结果,否则,利用所述大数据平台数据聚类分析结果对应数据字段名称作为大数据平台数据加密分类结果。
进一步的,利用所述大数据平台数据加密分类结果进行修正处理得到大数据平台数据加密修正结果包括:
S3-2-1、利用所述大数据平台数据加密分类结果进行多级处理得到大数据平台数据多级处理结果;
S3-2-2、利用所述大数据平台数据多级处理结果进行数据对称性校验处理得到大数据平台数据加密修正结果。
进一步的,利用所述大数据平台数据加密分类结果进行多级处理得到大数据平台数据多级处理结果包括:
S3-2-1-1、利用所述大数据平台数据加密分类结果进行ETL任务处理分别依次得到大数据平台数据抽取结果、大数据平台数据转换结果与大数据平台数据加载结果;
S3-2-1-2、利用所述大数据平台数据抽取结果与大数据平台数据转换结果作为大数据平台数据多级处理标签;
S3-2-1-3、利用所述大数据平台数据加载结果作为数据清洗输出结果;
S3-2-1-4、根据所述数据清洗输出结果的加密需求基于加密算法得到大数据平台数据加密结果;
S3-2-1-5、利用所述大数据平台数据多级处理标签与大数据平台数据加密结果作为大数据平台数据多级处理结果;
其中,所述ETL任务处理包括数据抽取、数据转换与数据加载,所述加密需求包括对称加密需求与非对称加密需求。
进一步的,利用所述大数据平台数据多级处理结果进行数据对称性校验处理得到大数据平台数据加密修正结果包括:
S3-2-2-1、判断所述大数据平台数据多级处理结果的大数据平台数据多级处理标签与大数据平台数据是否完全对应,若是,则直接执行S3-2-2-4,否则,执行S3-2-2-2;
S3-2-2-2、判断所述大数据平台数据多级处理标签的大数据平台数据抽取结果与大数据平台数据抽样分析结果是否完全对应,若是,则执行S3-2-2-3,否则,返回S2-1;
S3-2-2-3、判断所述大数据平台数据多级处理标签的大数据平台数据转换结果与大数据平台数据加密分类结果是否完全对应,若是,则执行S3-2-2-4,否则,返回S3-1-4;
S3-2-2-4、判断所述大数据平台数据多级处理结果的大数据平台数据加密结果对应加密过程一致性是否对应,若是,则输出所述大数据平台数据加密结果作为大数据平台数据加密修正结果,否则,返回S3-2-1-4;
其中,所述加密过程一致性为数据类型与加密算法相互对应。
进一步的,利用所述大数据平台数据加密修正结果得到数据多级输出处理结果包括:
S3-3-1、获取所述大数据平台数据加密修正结果对应源数据字段血缘关系作为数据解密过程标志;
S3-3-2、根据所述大数据平台数据加密修正结果对应加密算法获取大数据平台数据加密修正结果对应解密算法;
S3-3-3、利用所述大数据平台数据加密修正结果基于对应解密算法得到大数据平台数据的数据解密字段;
S3-3-4、利用所述数据解密字段基于数据解密过程标志获取数据解密字段的下游关联数据;
S3-3-5、判断所述下游关联数据与大数据平台数据对应源数据是否对应,若是,则利用所述数据解密字段与下游关联数据作为数据多级输出处理结果,否则,执行S3-3-6;
S3-3-6、判断所述源数据字段血缘关系与ETL任务处理是否为关联状态,若是,则利用所述数据解密字段与下游关联数据作为数据多级输出处理结果,否则,返回S3-2-1-1;
其中,所述关联状态为源数据字段血缘关系与ETL任务处理的衍生字段为相互关联状态。
与最接近的现有技术相比,本发明具有的有益效果:
通过获取大数据平台源数据的字段名称以及相应的实际数据,并将每条实际数据均进行部分数据抽样以及对抽样后的部分数据进行向量转换,可以作为聚类模型的标准输入,在聚类模型中进行数据种类划分,生成抽样后的部分数据所对应的实际数据与不同数据种类之间的相似度,基于相似度划分数据种类为其匹配加密方案,加密过程自动执行,减少人工干预,并且是将每条实际数据均进行部分数据抽样以及向量转换,无需抽取完整的数据,缩短了运算的时间,提高了数据的加密效率,更重要的是可根据不同数据平台的加密要求匹配对应的加密方案,进一步提高了数据安全性,降低数据泄露的风险。
附图说明
图1是本发明提供的一种基于大数据平台数据的数据多级输出处理方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:本发明提供了一种基于大数据平台数据的数据多级输出处理方法,如图1所示,包括:
S1、利用大数据平台数据进行抽样分析处理得到大数据平台数据抽样分析结果;
S2、利用所述大数据平台数据抽样分析结果基于聚类分析得到大数据平台数据聚类分析结果;
S3、利用所述大数据平台数据聚类分析结果得到数据多级输出处理结果。
S1具体包括:
S1-1、获取大数据平台数据对应源数据;
S1-2、利用所述大数据平台数据对应源数据基于水塘抽样法进行抽样处理得到源数据抽样结果;
S1-3、利用所述源数据抽样结果进行数据向量化处理得到源数据向量结果;
S1-4、利用所述源数据向量结果作为大数据平台数据抽样分析结果;
其中,所述源数据包括数据字段名称与基础源数据。
本实施例中,一种基于大数据平台数据的数据多级输出处理方法,所述水塘抽样法通过选择第一个对象,以1/2的概率选择第二个,以1/3的概率选择第三个,以此类推,以1/m的概率选择第m个对象。当该过程结束时,每一个对象具有相同的选中概率,即1/n,在当前方案中对于源数据数量不定的前提下,有着较好的实施效果,原理式如下:
其中,P为抽取概率,m为抽取样本数据,n为抽取样本总量,
所述水塘抽样法原理实施代码如下:
array S[N]; // 源数据总量
array R[k]; // 水库
for(int i = 0; i<k; ++i){
R[i] = S[i];
}
for(int i = k; i <N; ++i){
p = random(i); //[0,i] 随机一个数,1/i的概率
if(p<k){
R[p] = S[i];
}
}
S1-3具体包括:
S1-3-1、分别获取源数据抽样结果对应数据类型与数据字段名称作为源数据第一特征与源数据第二特征;
S1-3-2、利用所述源数据第一特征对源数据抽样结果进行向量化处理得到源数据第一向量结果;
S1-3-3、利用所述源数据第二特征对源数据抽样结果进行向量化处理得到源数据第二向量结果;
S1-3-4、判断所述源数据第一向量结果与源数据第二向量结果是否完整对应,若是,则利用所述源数据第一向量结果与源数据第二向量结果作为源数据向量结果,否则,执行S1-3-5;
S1-3-5、判断所述源数据第一特征与大数据平台数据是否对应,若是,则返回S1-3-3,否则,执行S1-3-6;
S1-3-6、判断所述源数据第二特征与大数据平台数据是否对应,若是,则返回S1-3-4,否则,执行S1-3-1。
本实施例中,一种基于大数据平台数据的数据多级输出处理方法,S1-3-5与S1-3-6在实际方案运行中为保证流程合理以及执行顺畅而设置的程序防呆步骤,通过源数据的两个向量获取直接数值进而验证与初始数据的一致性保证后续执行的基础正确。
S2具体包括:
S2-1、根据所述大数据平台数据抽样分析结果对应数据字段名称与基础源数据分别作为第一聚类特征与第二聚类特征;
S2-2、利用所述大数据平台数据抽样分析结果根据第一聚类特征与第二聚类特征基于K-means聚类分析算法得到大数据平台数据聚类分析结果。
S3具体包括:
S3-1、利用所述大数据平台数据聚类分析结果进行加密分类处理得到大数据平台数据加密分类结果;
S3-2、利用所述大数据平台数据加密分类结果进行修正处理得到大数据平台数据加密修正结果;
S3-3、利用所述大数据平台数据加密修正结果得到数据多级输出处理结果。
S3-1具体包括:
S3-1-1、利用所述大数据平台数据聚类分析结果对应源数据第一向量结果作为第一筛选阈值;
S3-1-2、利用所述大数据平台数据聚类分析结果对应源数据第二向量结果作为第二筛选阈值;
S3-1-3、判断所述第一筛选阈值是否大于第二筛选阈值,若是,则利用大于第一筛选阈值作为第一分类范围,大于第二筛选阈值且小于等于第一筛选阈值作为第二分类范围,小于等于第二筛选阈值作为第三分类范围,并执行S3-1-4,否则,返回S3-1-1;
S3-1-4、判断所述大数据平台数据聚类分析结果是否对应第一分类范围,若是,则利用所述大数据平台数据聚类分析结果直接输出大数据平台数据加密分类结果,否则,执行S3-1-5;
S3-1-5、判断所述大数据平台数据聚类分析结果是否对应第二分类范围,若是,执行S3-1-6,否则,利用所述大数据平台数据聚类分析结果对应数据字段名称作为大数据平台数据加密分类结果;
S3-1-6、判断大数据平台数据聚类分析结果对应聚类分析结果或数据字段名称是否任一存在加密需求,若是,则根据所述聚类分析结果或数据字段名称作为大数据平台数据加密分类结果,否则,利用所述大数据平台数据聚类分析结果对应数据字段名称作为大数据平台数据加密分类结果。
本实施例中,一种基于大数据平台数据的数据多级输出处理方法,所述第一筛选阈值与第二筛选阈值在实际执行中,若存在人工设定数值可进行替换,若无外部设定,则方案自运行实现逻辑自洽。
本实施例中,一种基于大数据平台数据的数据多级输出处理方法,S3-1-6涉及任一存在加密需求为实施中,聚类分析结果或数据字段名称存在加密请求。
S3-2具体包括:
S3-2-1、利用所述大数据平台数据加密分类结果进行多级处理得到大数据平台数据多级处理结果;
S3-2-2、利用所述大数据平台数据多级处理结果进行数据对称性校验处理得到大数据平台数据加密修正结果。
S3-2-1具体包括:
S3-2-1-1、利用所述大数据平台数据加密分类结果进行ETL任务处理分别依次得到大数据平台数据抽取结果、大数据平台数据转换结果与大数据平台数据加载结果;
S3-2-1-2、利用所述大数据平台数据抽取结果与大数据平台数据转换结果作为大数据平台数据多级处理标签;
S3-2-1-3、利用所述大数据平台数据加载结果作为数据清洗输出结果;
S3-2-1-4、根据所述数据清洗输出结果的加密需求基于加密算法得到大数据平台数据加密结果;
S3-2-1-5、利用所述大数据平台数据多级处理标签与大数据平台数据加密结果作为大数据平台数据多级处理结果;
其中,所述ETL任务处理包括数据抽取、数据转换与数据加载,所述加密需求包括对称加密需求与非对称加密需求。
S3-2-2具体包括:
S3-2-2-1、判断所述大数据平台数据多级处理结果的大数据平台数据多级处理标签与大数据平台数据是否完全对应,若是,则直接执行S3-2-2-4,否则,执行S3-2-2-2;
S3-2-2-2、判断所述大数据平台数据多级处理标签的大数据平台数据抽取结果与大数据平台数据抽样分析结果是否完全对应,若是,则执行S3-2-2-3,否则,返回S2-1;
S3-2-2-3、判断所述大数据平台数据多级处理标签的大数据平台数据转换结果与大数据平台数据加密分类结果是否完全对应,若是,则执行S3-2-2-4,否则,返回S3-1-4;
S3-2-2-4、判断所述大数据平台数据多级处理结果的大数据平台数据加密结果对应加密过程一致性是否对应,若是,则输出所述大数据平台数据加密结果作为大数据平台数据加密修正结果,否则,返回S3-2-1-4;
其中,所述加密过程一致性为数据类型与加密算法相互对应。
本实施例中,一种基于大数据平台数据的数据多级输出处理方法,S3-2-2-2、S3-2-2-3与S3-2-2-4分别对应聚类抽样验证、分类结果验证与加密过程一致性验证,当数据加密完成后,对应原始数据为达到保密需求,存在删除等情况,因此需要进行对前序步骤逐级验证,避免了敏感数据泄露的可能性。
S3-3具体包括:
S3-3-1、获取所述大数据平台数据加密修正结果对应源数据字段血缘关系作为数据解密过程标志;
S3-3-2、根据所述大数据平台数据加密修正结果对应加密算法获取大数据平台数据加密修正结果对应解密算法;
S3-3-3、利用所述大数据平台数据加密修正结果基于对应解密算法得到大数据平台数据的数据解密字段;
S3-3-4、利用所述数据解密字段基于数据解密过程标志获取数据解密字段的下游关联数据;
S3-3-5、判断所述下游关联数据与大数据平台数据对应源数据是否对应,若是,则利用所述数据解密字段与下游关联数据作为数据多级输出处理结果,否则,执行S3-3-6;
S3-3-6、判断所述源数据字段血缘关系与ETL任务处理是否为关联状态,若是,则利用所述数据解密字段与下游关联数据作为数据多级输出处理结果,否则,返回S3-2-1-1;
其中,所述关联状态为源数据字段血缘关系与ETL任务处理的衍生字段为相互关联状态。
本实施例中,一种基于大数据平台数据的数据多级输出处理方法,具体实施步骤如下:
获取大数据平台源数据,大数据平台源数据包括字段名称以及相应的实际数据,通过对大数据平台源数据中的每条实际数据均进行部分数据抽样,以此判断数据种类。其中,数据种类可以包括手机号、身份证、地址、姓名、银行卡等。
作为一个示例,例如对手机号、身份证以及银行卡等数值型数据进行部分数据抽样,通常对前六位进行部分数据抽样,对身份证进行部分数据抽样时,身份证长度仅存在15位(第一代身份证)或者18位(第二代身份证)两种长度,以18位身份证为例,身份证号码由四个部分组成,分别为地址码、出生日期码、顺序码和校验码。其中身份证中的前六位代表地址码,地址码由三个部分组成,分别为省份、地市和区县;中间八位代表出生日期码,出生日期码由三个部分组成,分别为年、月和日;后三位代表顺序码,表示为同一地址码所标示的区域范围内,对同年同月同日生人编订的顺序码,顺序码的奇数分配给男性,偶数分配给女性;最后一位代表校验码。因此根据身份证号码的编制规则,仅通过抽取前六位就可以划分数据种类。对手机号进行部分数据抽样时,手机号一般以344的方式进行区隔,其中国家码(+86)通常不需要填写,手机号的前三位代表网络识别码,中间四位代表地区编码,最后四位代表用户号码,通过抽取手机号的前六位,识别到前三位所代表的网络就可以划分数据种类。对银行卡进行部分数据抽样时,银行卡长度一般在16位或者19位,以16位银行卡为例,银行卡号的前六位代表发卡行标识代码;中间9位代表个人标识码;最后一位代表校验码。因此,根据银行卡号的编制规则,仅通过抽取前六位就可以划分数据种类。
作为一个示例,例如对地址和姓名等非数值型数据进行部分数据抽样,地址通常由省(自治区、直辖市)、市(自治州、区)和县(自治县、街道)等三级编制单位来划分,无需获取完整地址数据,通过对地址进行部分数据抽样对应国家现行的省市县,就可以划分数据种类,同样的对于姓名的部分抽样可以根据《百家姓》进行数据种类的划分。
获取到大数据平台源数据之后,对大数据平台源数据中的每条实际数据均进行部分数据抽样,将抽样后的部分数据进行向量转换,对于数值形式的数据,将每条数据中的前六位数值都作为一个元素进行转换;对于非数值形式的数据,将每条数据中的部分文本词语进行向量转换,通过将部分文本词语中的部分字符(可以是字母或者汉字)转换成数字形式,将文本信息表示成能够表达文本含义的向量,用数值向量来表示文本的含义,则将每个文本词语都转换成了向量。
将转换为向量的部分数据输入到聚类模型中进行数据分类,通过使用机器学习算法对数据进行训练和分类,例如使用决策树和K-means聚类分析等算法,这里以K-means聚类分析为例,聚类分析是指对抽样后的部分数据依据一定算法进行分析与计算,将其进行类别划分,同类当中的部分数据具备尽量大的相似性,不同类当中的部分数据之间的差异性尽可能大。通过计算两个向量之间的夹角余弦值来得到抽样后的部分数据所对应的实际数据与不同数据种类之间的相似度。
在将转换为向量的部分数据输入到聚类模型中进行数据分类之后,首先建立部分数据所对应的实际数据所在数据种类的标准数据组,标准数据组需要与数据种类准确对应,例如建立的手机号的标准数据组可以为移动、联通以及电信,这三种网络所对应的识别码都属于手机号的数据种类,并将标准数据组进行向量转换,生成若干个标准向量。
例如,在使用one-hot编码中,通常是将每一个抽样后的部分数据使用一个长度为N的向量来表示,N通常等于编码中词典的数量。采用N位状态寄存器来对N个状态进行编码,是分类变量作为二进制向量的表述。先将待处理的文本进行分词或者N-gram预处理,去除重复后得到相应的词典。例如词典中有3个词语{‘姓名’,‘手机号’,‘地址’},则对应的one-hot编码为{‘1000’,‘0100’,‘0010’}。
建立了标准数据组之后,需要将抽样后的部分数据依据所建立的标准数据组逐个分类,实现数据种类的划分。同样的,标准数据组中的标准数据也采用one-hot编码进行向量转换,转换成若干个标准向量。
根据划分后的数据种类,为其匹配对应的加密方案,其中,对某些敏感信息例如身份证和手机号等通过脱敏规则进行数据变形处理,保护隐私数据等信息安全;还通过修改原始大数据平台源数据表的加密等级为大数据平台源数据设置不同的加密方案,加密等级可以包括一级加密、二级加密、三级加密三个等级,其加密重要程度由强至弱依次排列,根据不同大数据平台的加密需求匹配对应的加密方案,例如国家大数据平台需要查看人员的敏感信息,那么人员的敏感信息属于密级较高的数据,国家大数据平台则可以获取到相应加密方案的解密密钥查看数据,若是电商大数据平台查看人员的敏感信息,对于密级较高的数据则无法获取解密密钥来查看数据;还可以通过元数据擦除的方式,也就是将原始大数据平台源数据表在元数据中删除,实现对用户逻辑上不可见,减少数据泄露的风险。对于已知的数据种类,可以预先制定好相应的加密方案,而对于未知的数据种类,可以通过标记种类标签等方式自动匹配对应的加密方案,或者提供多种加密方案供用户选择。
需要说明的是,在数据加密过程中,可以采用对称加密、非对称加密等不同的加密算法,以及加密哈希函数等工具,确保数据的机密性和完整性。除此之外还实施全面的监控和日志审计,确保加密过程的正常进行和安全性。加密监控是包括对加密速度、加密算法执行情况等进行监控,而日志审计则记录了加密过程中的所有操作和事件,方便后续审计和问题追踪。
根据加密方案生成对应的数据仓库任务(ETL,Extract-Transform-Load),将加密后的实际数据从来源端经过抽取、转换、加载,清洗至数据存储库中,其中,相关程序在频繁运行中不可避免的会产生大量错误数据,或者重复信息等,因此加密后的实际数据在进入数据存储库前需要进行数据清洗。
在一些实施例中,将清洗至数据存储库中的实际数据通过任务血缘分析和字段血缘分析,查找出与实际数据相关的下游字段,将加密方案也写入至下游字段的元数据信息中。所有下游字段的元数据信息均存储在一个统一的元数据存储库中,以便后续的查询和审计操作。其中,若通过下游字段在进行批量查询和精确查询等场景时,由于将加密方案也写入至下游字段的元数据信息中,因此无法查看敏感数据,从而保障数据安全,降低数据泄露带来的风险。在加密过程中,可以采用对称加密、非对称加密等不同的加密算法,以及加密哈希函数等工具,确保数据的机密性和完整性。
为了将加密后的数据进行解密同时为了确保数据的安全性,对加密方案进行解密时密钥管理系统根据所述大数据平台源数据设置的不同的密级获取对应的密钥,并由密钥管理系统对大数据平台进行认证和鉴权。
在数据最终展示端,通过统一的解密接口或函数进行解密,用户无需关心加密方案,可直接进行解密。同时,为了数据安全考虑,可以采用密钥管理系统来保护解密的密钥,确保只有授权且认证成功后才能访问和使用解密后的数据,密钥管理系统根据大数据平台源数据设置的不同的密级获取对应的密钥,当密钥管理系统对数据平台身份认证成功时,则展示解密后的大数据平台源数据信息;当密钥管理系统对数据平台身份认证失败时,则不展示解密后的大数据平台源数据信息。
需要说明的是,在数据解密过程中,实施全面的监控和日志审计,确保解密过程的正常进行和安全性。加密监控是包括对加密速度、加密算法执行情况等进行监控,而日志审计则也记录了解密过程中的所有操作和事件,方便后续审计和问题追踪。
如上述流程,其中获取大数据平台源数据包括字段名称以及相应的实际数据,对大数据平台源数据中的每条实际数据均进行部分数据抽样,将抽样后的部分数据进行向量转换,对于数值形式的数据,将每条数据中的前六位数值都作为一个元素进行转换;对于非数值形式的数据,将每条数据中的部分文本词语进行向量转换,通过计算两个向量之间的夹角余弦值来得到抽样后的部分数据所对应的实际数据与不同数据种类之间的相似度,根据获取到的字段名称以及相似度综合判断数据种类,匹配对应的加密方案,其中对于未知的数据种类和待修正数据的数据种类进行专家干预调整,来实现数据种类的划分,进一步优化加密方案。将加密方案通过ETL任务得到的加密信息及对应的字段名称记录至元数据数据库中,并且在大平台数据的加密和解密过程中,均实施全面的监控和审计,确保加密和解密过程中的数据安全性。
由此,本发明通过获取大数据平台源数据的字段名称以及相应的实际数据,并将每条实际数据均进行部分数据抽样以及对抽样后的部分数据进行向量转换,可以作为聚类模型的标准输入,在聚类模型中进行数据种类划分,生成抽样后的部分数据所对应的实际数据与不同数据种类之间的相似度,基于相似度划分数据种类为其匹配加密方案,加密过程自动执行,减少人工干预,并且是将每条实际数据均进行部分数据抽样以及向量转换,无需抽取完整的数据,缩短了运算的时间,提高了数据的加密效率,更重要的是可根据不同数据平台的加密要求匹配对应的加密方案,进一步提高了数据安全性,降低数据泄露的风险。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.一种基于大数据平台数据的数据多级输出处理方法,其特征在于,包括:
S1、利用大数据平台数据进行抽样分析处理得到大数据平台数据抽样分析结果;
S1-1、获取大数据平台数据对应源数据;
S1-2、利用所述大数据平台数据对应源数据基于水塘抽样法进行抽样处理得到源数据抽样结果;
S1-3、利用所述源数据抽样结果进行数据向量化处理得到源数据向量结果;
S1-4、利用所述源数据向量结果作为大数据平台数据抽样分析结果;
其中,所述源数据包括数据字段名称与基础源数据;
S2、利用所述大数据平台数据抽样分析结果基于聚类分析得到大数据平台数据聚类分析结果;
S2-1、根据所述大数据平台数据抽样分析结果对应数据字段名称与基础源数据分别作为第一聚类特征与第二聚类特征;
S2-2、利用所述大数据平台数据抽样分析结果根据第一聚类特征与第二聚类特征基于K-means聚类分析算法得到大数据平台数据聚类分析结果;
S3、利用所述大数据平台数据聚类分析结果得到数据多级输出处理结果;
S3-1、利用所述大数据平台数据聚类分析结果进行加密分类处理得到大数据平台数据加密分类结果;
S3-2、利用所述大数据平台数据加密分类结果进行修正处理得到大数据平台数据加密修正结果;
S3-3、利用所述大数据平台数据加密修正结果得到数据多级输出处理结果。
2.如权利要求1所述的一种基于大数据平台数据的数据多级输出处理方法,其特征在于,利用所述源数据抽样结果进行数据向量化处理得到源数据向量结果包括:
S1-3-1、分别获取源数据抽样结果对应数据类型与数据字段名称作为源数据第一特征与源数据第二特征;
S1-3-2、利用所述源数据第一特征对源数据抽样结果进行向量化处理得到源数据第一向量结果;
S1-3-3、利用所述源数据第二特征对源数据抽样结果进行向量化处理得到源数据第二向量结果;
S1-3-4、判断所述源数据第一向量结果与源数据第二向量结果是否完整对应,若是,则利用所述源数据第一向量结果与源数据第二向量结果作为源数据向量结果,否则,执行S1-3-5;
S1-3-5、判断所述源数据第一特征与大数据平台数据是否对应,若是,则返回S1-3-3,否则,执行S1-3-6;
S1-3-6、判断所述源数据第二特征与大数据平台数据是否对应,若是,则返回S1-3-4,否则,执行S1-3-1。
3.如权利要求1所述的一种基于大数据平台数据的数据多级输出处理方法,其特征在于,利用所述大数据平台数据聚类分析结果进行加密分类处理得到大数据平台数据加密分类结果包括:
S3-1-1、利用所述大数据平台数据聚类分析结果对应源数据第一向量结果作为第一筛选阈值;
S3-1-2、利用所述大数据平台数据聚类分析结果对应源数据第二向量结果作为第二筛选阈值;
S3-1-3、判断所述第一筛选阈值是否大于第二筛选阈值,若是,则利用大于第一筛选阈值作为第一分类范围,大于第二筛选阈值且小于等于第一筛选阈值作为第二分类范围,小于等于第二筛选阈值作为第三分类范围,并执行S3-1-4,否则,返回S3-1-1;
S3-1-4、判断所述大数据平台数据聚类分析结果是否对应第一分类范围,若是,则利用所述大数据平台数据聚类分析结果直接输出大数据平台数据加密分类结果,否则,执行S3-1-5;
S3-1-5、判断所述大数据平台数据聚类分析结果是否对应第二分类范围,若是,执行S3-1-6,否则,利用所述大数据平台数据聚类分析结果对应数据字段名称作为大数据平台数据加密分类结果;
S3-1-6、判断大数据平台数据聚类分析结果对应聚类分析结果或数据字段名称是否任一存在加密需求,若是,则根据所述聚类分析结果或数据字段名称作为大数据平台数据加密分类结果,否则,利用所述大数据平台数据聚类分析结果对应数据字段名称作为大数据平台数据加密分类结果。
4.如权利要求3所述的一种基于大数据平台数据的数据多级输出处理方法,其特征在于,利用所述大数据平台数据加密分类结果进行修正处理得到大数据平台数据加密修正结果包括:
S3-2-1、利用所述大数据平台数据加密分类结果进行多级处理得到大数据平台数据多级处理结果;
S3-2-2、利用所述大数据平台数据多级处理结果进行数据对称性校验处理得到大数据平台数据加密修正结果。
5.如权利要求4所述的一种基于大数据平台数据的数据多级输出处理方法,其特征在于,利用所述大数据平台数据加密分类结果进行多级处理得到大数据平台数据多级处理结果包括:
S3-2-1-1、利用所述大数据平台数据加密分类结果进行ETL任务处理分别依次得到大数据平台数据抽取结果、大数据平台数据转换结果与大数据平台数据加载结果;
S3-2-1-2、利用所述大数据平台数据抽取结果与大数据平台数据转换结果作为大数据平台数据多级处理标签;
S3-2-1-3、利用所述大数据平台数据加载结果作为数据清洗输出结果;
S3-2-1-4、根据所述数据清洗输出结果的加密需求基于加密算法得到大数据平台数据加密结果;
S3-2-1-5、利用所述大数据平台数据多级处理标签与大数据平台数据加密结果作为大数据平台数据多级处理结果;
其中,所述ETL任务处理包括数据抽取、数据转换与数据加载,所述加密需求包括对称加密需求与非对称加密需求。
6.如权利要求5所述的一种基于大数据平台数据的数据多级输出处理方法,其特征在于,利用所述大数据平台数据多级处理结果进行数据对称性校验处理得到大数据平台数据加密修正结果包括:
S3-2-2-1、判断所述大数据平台数据多级处理结果的大数据平台数据多级处理标签与大数据平台数据是否完全对应,若是,则直接执行S3-2-2-4,否则,执行S3-2-2-2;
S3-2-2-2、判断所述大数据平台数据多级处理标签的大数据平台数据抽取结果与大数据平台数据抽样分析结果是否完全对应,若是,则执行S3-2-2-3,否则,返回S2-1;
S3-2-2-3、判断所述大数据平台数据多级处理标签的大数据平台数据转换结果与大数据平台数据加密分类结果是否完全对应,若是,则执行S3-2-2-4,否则,返回S3-1-4;
S3-2-2-4、判断所述大数据平台数据多级处理结果的大数据平台数据加密结果对应加密过程一致性是否对应,若是,则输出所述大数据平台数据加密结果作为大数据平台数据加密修正结果,否则,返回S3-2-1-4;
其中,所述加密过程一致性为数据类型与加密算法相互对应。
7.如权利要求5所述的一种基于大数据平台数据的数据多级输出处理方法,其特征在于,利用所述大数据平台数据加密修正结果得到数据多级输出处理结果包括:
S3-3-1、获取所述大数据平台数据加密修正结果对应源数据字段血缘关系作为数据解密过程标志;
S3-3-2、根据所述大数据平台数据加密修正结果对应加密算法获取大数据平台数据加密修正结果对应解密算法;
S3-3-3、利用所述大数据平台数据加密修正结果基于对应解密算法得到大数据平台数据的数据解密字段;
S3-3-4、利用所述数据解密字段基于数据解密过程标志获取数据解密字段的下游关联数据;
S3-3-5、判断所述下游关联数据与大数据平台数据对应源数据是否对应,若是,则利用所述数据解密字段与下游关联数据作为数据多级输出处理结果,否则,执行S3-3-6;
S3-3-6、判断所述源数据字段血缘关系与ETL任务处理是否为关联状态,若是,则利用所述数据解密字段与下游关联数据作为数据多级输出处理结果,否则,返回S3-2-1-1;
其中,所述关联状态为源数据字段血缘关系与ETL任务处理的衍生字段为相互关联状态。
CN202311576085.3A 2023-11-24 2023-11-24 一种基于大数据平台数据的数据多级输出处理方法 Active CN117278343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311576085.3A CN117278343B (zh) 2023-11-24 2023-11-24 一种基于大数据平台数据的数据多级输出处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311576085.3A CN117278343B (zh) 2023-11-24 2023-11-24 一种基于大数据平台数据的数据多级输出处理方法

Publications (2)

Publication Number Publication Date
CN117278343A CN117278343A (zh) 2023-12-22
CN117278343B true CN117278343B (zh) 2024-02-02

Family

ID=89204910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311576085.3A Active CN117278343B (zh) 2023-11-24 2023-11-24 一种基于大数据平台数据的数据多级输出处理方法

Country Status (1)

Country Link
CN (1) CN117278343B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426425A (zh) * 2015-11-04 2016-03-23 华中科技大学 一种基于移动信令的大数据营销方法
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统
WO2021217931A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的字段抽取方法、装置、电子设备及介质
CN114817408A (zh) * 2022-05-10 2022-07-29 中国平安财产保险股份有限公司 调度资源识别方法、装置、电子设备及存储介质
CN115168326A (zh) * 2022-05-11 2022-10-11 国网山东省电力公司电力科学研究院 Hadoop大数据平台分布式能源数据清洗方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151165B2 (en) * 2018-08-30 2021-10-19 Microsoft Technology Licensing, Llc Data classification using data flow analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426425A (zh) * 2015-11-04 2016-03-23 华中科技大学 一种基于移动信令的大数据营销方法
WO2021217931A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的字段抽取方法、装置、电子设备及介质
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统
CN114817408A (zh) * 2022-05-10 2022-07-29 中国平安财产保险股份有限公司 调度资源识别方法、装置、电子设备及存储介质
CN115168326A (zh) * 2022-05-11 2022-10-11 国网山东省电力公司电力科学研究院 Hadoop大数据平台分布式能源数据清洗方法及系统

Also Published As

Publication number Publication date
CN117278343A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
US9489414B2 (en) Prefix burrows-wheeler transformations for creating and searching a merged lexeme set
CN111352907A (zh) 流水文件解析方法、装置、计算机设备和存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN110569629A (zh) 二进制代码文件溯源方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN108932434B (zh) 一种基于机器学习技术的数据加密方法及装置
CN113742763A (zh) 一种基于政务敏感数据混淆加密方法及系统
CN116825259B (zh) 一种基于物联网的医疗数据管理方法
CN117278343B (zh) 一种基于大数据平台数据的数据多级输出处理方法
WO2020233322A1 (zh) 一种基于描述熵的大数据移动软件相似性智能检测方法
CN116611092A (zh) 一种基于多因子的数据脱敏方法及装置、溯源方法及装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
US20200175321A1 (en) Computer architecture for identifying data clusters using correlithm objects and machine learning in a correlithm object processing system
CN114338058A (zh) 一种信息处理方法、装置和存储介质
CN112463161A (zh) 基于联邦学习的代码注释生成方法、系统及装置
CN116136866B (zh) 基于知识图谱的中文新闻摘要事实性知识校正方法和装置
CN116821879B (zh) 一种可视化的系统角色管理系统
US11580676B1 (en) Method for embedding user information in webpages and electronic device implementing method
CN115082045B (zh) 数据校对方法、装置、计算机设备和存储介质
CN114722819B (zh) 一种实体类型分类识别方法、装置、设备和介质
CN117272353B (zh) 一种数据加密存储保护系统及方法
CN117278271B (zh) 一种属性基加密的数据传输方法及系统
CN116266261A (zh) 一种基于反向查重生成检测报告的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant