CN116415295A - 数据安全处理方法、装置及相关产品 - Google Patents
数据安全处理方法、装置及相关产品 Download PDFInfo
- Publication number
- CN116415295A CN116415295A CN202310262644.7A CN202310262644A CN116415295A CN 116415295 A CN116415295 A CN 116415295A CN 202310262644 A CN202310262644 A CN 202310262644A CN 116415295 A CN116415295 A CN 116415295A
- Authority
- CN
- China
- Prior art keywords
- data
- processed
- key value
- value pairs
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000002372 labelling Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 40
- 238000013441 quality evaluation Methods 0.000 claims description 31
- 238000005520 cutting process Methods 0.000 claims description 18
- 238000003066 decision tree Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 claims 3
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Abstract
本申请公开了一种基于键值对的数据处理方法、装置及相关产品。方法包括:获取待处理数据;对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据,从而提供了快速的数据处理方案,保证了数据供给的实时性以及安全性。
Description
技术领域
本申请涉及隐私计算技术领域,特别是涉及一种数据安全处理方法、装置及相关产品。
背景技术
大数据的快速发展,使得数据的价值逐渐在体现,但是随之而来的数据安全问题也受到广泛关注。一旦数据收到恶意攻击被窃取,会给用户和数据管理者造成极大的损失和影响。
为此,为了防止数据被窃取,在数据存储或者使用过程中,都需要对数据进行安全处理。但是,目前对数据进行安全处理时,由于数据量较大,导致数据处理的速度较慢,无法保证数据需求的实时性。
发明内容
基于上述问题,本申请实施例提供了一种数据安全处理方法、装置及相关产品。
本申请实施例公开了如下技术方案:
一种基于键值对的数据处理方法,其包括:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
可选地,所述的方法,还包括:基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集;
所述对所述待处理数据进行格式化,生成键值对,包括:对所述待处理数据对应的每个待处理数据子集分别进行格式化,以生成键值对。
可选地,所述基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集,包括:
对所述待处理数据进行质量评估,得到质量评估值;
基于所述质量评估值,确定数据分割点。
可选地,所述对所述待处理数据进行质量评估,得到质量评估值,包括:
计算所述待处理数据的信息熵;
根据所述信息熵,得到质量评估值。
可选地,所述计算所述待处理数据的信息熵,包括:
对所述特征属性名称在所述待处理数据中出现的概率进行评估;
根据评估的概率,计算所述待处理数据的信息熵。
可选地,所述根据所述信息熵,得到质量评估值,包括:
将所述待处理数据映射为实向量;
将所述信息熵注入到所述实向量中,以得到质量评估值。
可选地,所述的方法,还包括:
获取目标数据集包括的若干个数据块;
对每个数据块进行属性标注处理,得到所述每个数据块对应的属性特征向量;
根据所述属性特征向量的维度,构建决策树的节点;
对不同数据块之间的属性特征向量进行相似度计算得到属性特征向量间相似度;
基于所述属性特征向量间相似度对所述若干个数据块进行序列化重组得到若干个数据子集;
在所述若干个数据子集中添加噪声,并与所述决策树的节点进行匹配,以生成决策树,以基于所述决策树,获取所述待处理数据。
可选地,所述的方法,还包括:对目标数据进行切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
可选地,所述的方法,还包括:针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到所述待处理数据的特征属性名称以及对应的赋值。
可选地,所述的方法,还包括:调用设定的放回式数据抽样机制,以从目标数据中抽取样本数据,以基于抽取到的样本数据形成待切块处理数据集,以在进行所述切块处理时,具体针对所述待切块处理数据集。
可选地,所述对目标数据进行切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据,包括:对目标数据进行横向或者纵向切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
一种基于键值对的数据处理装置,其包括:
数据获取单元,用于获取待处理数据;
格式化单元,用于对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
缓存单元,用于确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
扰动单元,用于在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
可选地,所述格式化单元还用于基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集,以对所述待处理数据对应的每个待处理数据子集分别进行格式化,以生成键值对。
可选地,所述格式化单元具体用于对所述待处理数据进行质量评估,得到质量评估值;以及基于所述质量评估值,确定数据分割点。
可选地,所述格式化单元具体用于计算所述待处理数据的信息熵;以及根据所述信息熵,得到质量评估值。
可选地,所述格式化单元具体用于对所述特征属性名称在所述待处理数据中出现的概率进行评估;以及根据评估的概率,计算所述待处理数据的信息熵。
可选地,所述格式化单元具体用于将所述待处理数据映射为实向量;以及将所述信息熵注入到所述实向量中,以得到质量评估值。
可选地,所述的装置,还包括:切块单元,用于对目标数据进行切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
可选地,所述的装置,还包括:标注单元,用于针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到所述待处理数据的特征属性名称以及对应的赋值。
可选地,所述的装置,还包括:抽取单元,用于调用设定的放回式数据抽样机制,以从目标数据中抽取样本数据,以基于抽取到的样本数据形成待切块处理数据集,以在进行所述切块处理时,具体针对所述待切块处理数据集。
可选地,所述切块单元具体用于对目标数据进行横向或者纵向切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
一种电子设备,其包括存储器以及处理器,所述存储器上存储有可执行程序,所述处理器运行所述可执行程序时执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
一种计算机存储介质,所述计算机存储介质存储有计算机可执行程序,所述计算机可执行程序被执行时,执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
一种计算机程序产品,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被执行时,执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
本申请实施例提供的方案中,通过获取待处理数据;对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据,从而提供了快速的数据处理方案,保证了数据供给的实时性以及安全性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种基于键值对的数据处理方法的流程示意图。
图2为本申请一种基于键值对的数据处理装置的结构示意图。
图3为本申请实施例一种电子设备的结构示意图。
图4为本申请实施例中电子设备的硬件结构示意图。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请一种基于键值对的数据处理方法的流程示意图。如图1所示,其包括:
S101、获取待处理数据;
S102、对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
S103、确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
S104、在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
可选地,所述的方法,还包括:基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集;
所述对所述待处理数据进行格式化,生成键值对,包括:对所述待处理数据对应的每个待处理数据子集分别进行格式化,以生成键值对。
可选地,所述基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集,包括:
对所述待处理数据进行质量评估,得到质量评估值;
基于所述质量评估值,确定数据分割点。
可选地,所述对所述待处理数据进行质量评估,得到质量评估值,包括:
计算所述待处理数据的信息熵;
根据所述信息熵,得到质量评估值。
可选地,一实施例中,所述的方法,还包括:
获取目标数据集包括的若干个数据块;
对每个数据块进行属性标注处理,得到所述每个数据块对应的属性特征向量;
根据所述属性特征向量的维度,构建决策树的节点;
对不同数据块之间的属性特征向量进行相似度计算得到属性特征向量间相似度;
基于所述属性特征向量间相似度对所述若干个数据块进行序列化重组得到若干个数据子集;
在所述若干个数据子集中添加噪声,并与所述决策树的节点进行匹配,以生成决策树,以基于所述决策树,获取所述待处理数据,从而获取数据的效率。可选地,所述的方法,还包括:
访问目标数据源,以从所述目标数据源获取目标数据,并将从同一所述目标数据源获取到的所有目标数据组成目标数据集;
针对所述目标数据集,进行数据切块处理,得到若干个数据块。
可选地,所述对每个数据块进行属性标注处理,得到所述每个数据块对应的属性特征向量,包括:通过并行标注处理任务,对若干个数据块进行并行属性标注处理,得到所述每个数据块对应的属性特征向量。
可选地,所述通过并行标注处理任务,对若干个数据块进行并行属性标注处理,得到所述每个数据块对应的属性特征向量,包括:获取分布式处理集群中控制节点发布的调度命令,以启动并行标注处理任务;根据所述并行标注处理任务,创建并行标注处理线程,以将所述若干个数据块逐一分配到标注处理线程上,以进行并行属性标注处理。
可选地,所述针对所述目标数据集,进行数据切块处理,得到若干个数据块,包括:基于所述标注处理线程的数量,针对所述目标数据集,进行数据切块处理,得到若干个数据块,使得所述数据块的数量与所述标注处理线程的数量对等。
可选地,所述针对所述目标数据集,进行数据切块处理,得到若干个数据块,包括:基于所述标注处理线程的数量和单个所述标注处理线程的数据处理量,针对所述目标数据集,进行数据切块处理,得到若干个数据块,使得单个所述数据块的数据量与单个所述标注处理线程的数据量对等。
可选地,所述通过并行标注处理任务,对若干个数据块进行并行属性标注处理,得到所述每个数据块对应的属性特征向量,包括:所述并行标注处理任务加载预先设定的数据属性特征集合,针对所述目标数据集对应的若干个数据块,进行并行属性标注处理,得到所述每个数据块对应的属性特征向量。
可选地,所述并行标注处理任务加载预先设定的数据属性特征集合,针对所述目标数据集对应的若干个数据块,进行并行属性标注处理,到所述每个数据块对应的属性特征向量,包括:所述并行标注处理任务加载预先设定的数据属性特征集合,并根据正则匹配,针对所述目标数据集对应的若干个数据块,进行并行属性标注处理,得到所述每个数据块对应的属性特征向量。
可选地,所述针对所述目标数据集对应的若干个数据块,进行并行属性标注处理,得到所述每个数据块对应的属性特征向量,包括:
针对所述目标数据集对应的若干个数据块,进行并行属性标注处理,并给每个数据块赋予属性标注值;
根据所属标注值,得到每个数据块对应的属性特征向量。
可选地,所述针对所述目标数据集,进行数据切块处理,得到若干个数据块,之前还包括:从所述目标数据集中抽取样本数据,以基于抽取到的样本数据形成待切块处理数据集,以在进行所述数据切块处理时,具体针对所述待切块处理数据集。
可选地,所述的方法,还包括:调用设定的放回式数据抽样机制,以从所述目标数据集中抽取样本数据,以基于抽取到的样本数据形成待切块处理数据集,以在进行所述数据切块处理时,具体针对所述待切块处理数据集。
可选地,所述计算所述待处理数据的信息熵,包括:
对所述特征属性名称在所述待处理数据中出现的概率进行评估;
根据评估的概率,计算所述待处理数据的信息熵。
可选地,所述根据所述信息熵,得到质量评估值,包括:
将所述待处理数据映射为实向量;
将所述信息熵注入到所述实向量中,以得到质量评估值。
可选地,所述的方法,还包括:对目标数据进行切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
可选地,所述的方法,还包括:针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到所述待处理数据的特征属性名称以及对应的赋值。比如,获取分布式处理集群中控制节点发布的调度命令;根据所述调度命令,将所述若干个数据块逐一分配到一标注节点上,以进行并行属性标注处理。
可选地,所述的方法,还包括:调用设定的放回式数据抽样机制,以从目标数据中抽取样本数据,以基于抽取到的样本数据形成待切块处理数据集,以在进行所述切块处理时,具体针对所述待切块处理数据集,也相当于增加了随机噪声,保证数据安全;另外,还以使得数据块之间存在相同的数据内容,不同数据块之间也允许数据内容重复存在的情况,相当于增加了随机噪声,提高了数据的安全性
可选地,所述对目标数据进行切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据,包括:对目标数据进行横向或者纵向切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
比如,在进行横向切块处理时,基于所述标注节点的数量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得所述数据块的数量与所述标注节点的数量对等。
比如,在进行纵向切块处理时,基于所述标注节点的数量和单个所述标注节点的数据处理量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得单个所述数据块的数据量与单个所述标注节点的数据量对等,从而使得并形处理时具有良好的并行性,能够极大减少运行时间。
进一步,在并行标注时,可以基于预先设定的数据属性特征集合,针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到每个目标数据对应的属性特征向量。
比如,所述基于预先设定的数据属性特征集合,针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到每个目标数据对应的属性特征向量,包括:根据正则匹配,基于预先设定的数据属性特征集合,针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到每个目标数据对应的属性特征向量。
所述基于预先设定的数据属性特征集合,针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到每个目标数据对应的属性特征向量,包括:
基于预先设定的数据属性特征集合,针对所述目标数据对应的若干个数据块,进行并行属性标注处理,并给每个数据块赋予属性标注值;
根据所属标注值,得到每个目标数据对应的属性特征向量。
所述的方法,还可以包括:对所述目标数据对应的属性特征向量进行哈希运算,得的哈希特征向量,以缓存在数据仓库中。
图2为本申请一种基于键值对的数据处理装置的结构示意图。如图2所示,其包括:
数据获取单元201,用于获取待处理数据;
格式化单元202,用于对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
缓存单元203,用于确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
扰动单元204,用于在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
可选地,所述格式化单元还用于基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集,以对所述待处理数据对应的每个待处理数据子集分别进行格式化,以生成键值对。
可选地,所述格式化单元具体用于对所述待处理数据进行质量评估,得到质量评估值;以及基于所述质量评估值,确定数据分割点。
可选地,所述格式化单元具体用于计算所述待处理数据的信息熵;以及根据所述信息熵,得到质量评估值。
可选地,所述格式化单元具体用于对所述特征属性名称在所述待处理数据中出现的概率进行评估;以及根据评估的概率,计算所述待处理数据的信息熵。
可选地,所述格式化单元具体用于将所述待处理数据映射为实向量;以及将所述信息熵注入到所述实向量中,以得到质量评估值。
可选地,所述的装置,还包括:切块单元,用于对目标数据进行切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
可选地,所述的装置,还包括:标注单元,用于针对所述目标数据对应的若干个数据块,进行并行属性标注处理,得到所述待处理数据的特征属性名称以及对应的赋值。
可选地,所述的装置,还包括:抽取单元,用于调用设定的放回式数据抽样机制,以从目标数据中抽取样本数据,以基于抽取到的样本数据形成待切块处理数据集,以在进行所述切块处理时,具体针对所述待切块处理数据集。
可选地,所述切块单元具体用于对目标数据进行横向或者纵向切块处理,得到若干数据块,以所述数据块为单位确定所述待处理数据。
图3为本申请实施例一种电子设备的结构示意图。如图3所示,其包括存储器以及处理器,所述存储器上存储有可执行程序,所述处理器运行所述可执行程序时执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
一种计算机存储介质,所述计算机存储介质存储有计算机可执行程序,所述计算机可执行程序被执行时,执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
图4为本申请实施例中电子设备的硬件结构示意图;如图4所示,该电子设备的硬件结构可以包括:电子设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元406加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
电子设备400中的多个部件连接至I/O接口405,包括:输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备,输入单元406可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个装置和处理。例如,在一些实施例中,上述步骤可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元40*。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述步骤。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器410、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
一种计算机程序产品,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被执行时,执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于装置实施例,所以描述得比较简单,相关之处参见装置实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块提示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于键值对的数据处理方法,其特征在于,包括:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
2.根据权利要求1所述的方法,其特征在于,所述的方法,还包括:基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集;
所述对所述待处理数据进行格式化,生成键值对,包括:对所述待处理数据对应的每个待处理数据子集分别进行格式化,以生成键值对。
3.根据权利要求2所述的方法,其特征在于,所述基于确定的数据切割点,对所述待处理数据进行切割处理得到待处理数据子集,包括:
对所述待处理数据进行质量评估,得到质量评估值;
基于所述质量评估值,确定数据分割点。
4.根据权利要求3所述的方法,其特征在于,所述对所述待处理数据进行质量评估,得到质量评估值,包括:
计算所述待处理数据的信息熵;
根据所述信息熵,得到质量评估值。
5.根据权利要求4所述的方法,其特征在于,所述计算所述待处理数据的信息熵,包括:
对所述特征属性名称在所述待处理数据中出现的概率进行评估;
根据评估的概率,计算所述待处理数据的信息熵。
6.根据权利要求4所述的方法,其特征在于,所述根据所述信息熵,得到质量评估值,包括:
将所述待处理数据映射为实向量;
将所述信息熵注入到所述实向量中,以得到质量评估值。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述的方法,还包括:
获取目标数据集包括的若干个数据块;
对每个数据块进行属性标注处理,得到所述每个数据块对应的属性特征向量;
根据所述属性特征向量的维度,构建决策树的节点;
对不同数据块之间的属性特征向量进行相似度计算得到属性特征向量间相似度;
基于所述属性特征向量间相似度对所述若干个数据块进行序列化重组得到若干个数据子集;
在所述若干个数据子集中添加噪声,并与所述决策树的节点进行匹配,以生成决策树,以基于所述决策树,获取所述待处理数据。
8.一种基于键值对的数据处理装置,其特征在于,包括:
数据获取单元,用于获取待处理数据;
格式化单元,用于对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
缓存单元,用于确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
扰动单元,用于在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
9.一种电子设备,其包括存储器以及处理器,所述存储器上存储有可执行程序,所述处理器运行所述可执行程序时执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
10.一种计算机存储介质,所述计算机存储介质存储有计算机可执行程序,所述计算机可执行程序被执行时,执行如下步骤:
获取待处理数据;
对所述待处理数据进行格式化,以生成键值对,其中,所述键值对中的键为所述待处理数据的特征属性名称,所述键值对中的值为所述特征属性名称的赋值;
确定具有相同键的键值对,以将具有相同键的所有键值对写入到实时创建的同一缓存数据池中;
在所述缓存数据池本地,对其中的所有键值对添加噪声扰动,以生成伪真实数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310262644.7A CN116415295A (zh) | 2023-03-14 | 2023-03-14 | 数据安全处理方法、装置及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310262644.7A CN116415295A (zh) | 2023-03-14 | 2023-03-14 | 数据安全处理方法、装置及相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116415295A true CN116415295A (zh) | 2023-07-11 |
Family
ID=87049031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310262644.7A Pending CN116415295A (zh) | 2023-03-14 | 2023-03-14 | 数据安全处理方法、装置及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415295A (zh) |
-
2023
- 2023-03-14 CN CN202310262644.7A patent/CN116415295A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378413A (zh) | 神经网络模型处理方法、装置以及电子设备 | |
WO2017185616A1 (zh) | 文件存储方法及电子设备 | |
JP7397094B2 (ja) | リソース構成方法、リソース構成装置、コンピューター機器、及びコンピュータープログラム | |
CN112087487B (zh) | 模型训练任务的调度方法、装置、电子设备及存储介质 | |
WO2014194642A1 (en) | Systems and methods for matching users | |
CN113209633A (zh) | 镜像的处理方法、装置、电子设备及可读存储介质 | |
CN112418259B (zh) | 一种基于直播过程中用户行为的实时规则的配置方法、计算机设备及可读存储介质 | |
CN112084017B (zh) | 一种内存管理方法、装置、电子设备及存储介质 | |
US20170150214A1 (en) | Method and apparatus for data processing | |
WO2014146441A1 (en) | Method, server and system for processing task data | |
CN109688183A (zh) | 群控设备识别方法、装置、设备及计算机可读存储介质 | |
CN111258958A (zh) | 一种数据获取方法、数据提供方法及装置 | |
CN110652728B (zh) | 一种游戏资源管理方法、装置、电子设备及存储介质 | |
CN109815298B (zh) | 一种人物关系网确定方法、装置及存储介质 | |
CN108289115B (zh) | 一种信息处理方法及系统 | |
CN116415295A (zh) | 数据安全处理方法、装置及相关产品 | |
CN111258959A (zh) | 一种数据获取方法、数据提供方法及装置 | |
CN113556368A (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN115270161A (zh) | 基于加密插件的加密方法、装置及相关产品 | |
CN115563160A (zh) | 数据处理方法、装置、计算机设备和计算机可读存储介质 | |
CN116226922A (zh) | 数据安全处理方法、装置及相关产品 | |
CN111346372A (zh) | 一种基于数据备份的游戏登录加载方法、装置及服务器 | |
CN116415133A (zh) | 数据纯净度的计算方法、装置 | |
CN116484202A (zh) | 数据的异常检测方法、装置及相关产品 | |
CN116225341A (zh) | 基于同态加密的数据清洗方法、装置及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |