CN111428251B - 数据处理方法和装置 - Google Patents
数据处理方法和装置 Download PDFInfo
- Publication number
- CN111428251B CN111428251B CN202010190814.1A CN202010190814A CN111428251B CN 111428251 B CN111428251 B CN 111428251B CN 202010190814 A CN202010190814 A CN 202010190814A CN 111428251 B CN111428251 B CN 111428251B
- Authority
- CN
- China
- Prior art keywords
- data
- simulation
- processed
- content
- rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000004088 simulation Methods 0.000 claims abstract description 128
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 9
- 238000000586 desensitisation Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000033772 system development Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种数据处理方法和装置。所述方法包括:在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息;根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略;利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,其中所述模拟数据与所述待处理数据的数据格式相同,且所述模拟数据与所述待处理数据的内容的相似度符合预先设置的相似度高的判断条件;输出所述模拟数据。
Description
技术领域
本申请实施例涉及信息处理领域,尤指一种数据处理方法和装置。
背景技术
随着互联网应用的普及和人们对互联网的依赖,互联网的安全问题也日益凸显。恶意程序、各类钓鱼和欺诈继续保持高速增长,同时黑客攻击和大规模的个人信息技术窃取频发,与各种网络攻击大幅增长相伴的,是大量网民个人信息的被技术性窃取与财产损失的不断增加。
在日常工作中,需要大量的生产数据对系统研发、测试、数据分析以及系统演示等工作进行支持。此时,如果数据系统提供的数据不经处理,那么会产生核心数据边界不可控的问题。开发人员如果因为一己私利倒卖关键数据,将对企业造成不可估量的影响。敏感数据的处理能够将研发、测试、数据分析环境中的数据进行脱敏处理,杜绝内部泄密。
图1(a)、图1(b)和图1(c)均为相关技术中核心数据的传输方法的示意图;在上述示意图中,可以采用数据脱敏或者加密算法,更有甚者进行物理隔离;开发人员只能在企业内部开发,直接切断数据传输的可能性。在处理数据脱敏后,数据的真实性发生变化较大,会对开发、测试、分析和演示等工作有很大的不便。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种数据处理方法和装置。
为了达到本申请实施例目的,本申请实施例提供了一种数据处理方法,包括:
在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息;
根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略;
利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,其中所述模拟数据与所述待处理数据的数据格式相同,且所述模拟数据与所述待处理数据的内容的相似度符合预先设置的相似度高的判断条件;
输出所述模拟数据。
一种数据处理装置,包括:
第一获取模块,用于在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息;
确定模块,用于根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略;
处理模块,用于利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,其中所述模拟数据与所述待处理数据的数据格式相同,且所述模拟数据与所述待处理数据的内容的相似度符合预先设置的相似度高的判断条件;
输出模块,用于输出所述模拟数据。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上文任一项中所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息,根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略,再利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,输出所述模拟数据,生成接近真实数据的模拟数据,在实现对数据的脱敏操作的前提下,解决数据外泄可能造成的影响。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1(a)为相关技术中核心数据的传输方法的第一示意图;
图1(b)为相关技术中核心数据的传输方法的第二示意图;
图1(c)为相关技术中核心数据的传输方法的第三示意图;
图2为本申请实施例提供的数据处理方法的流程图;
图3为本申请实施例提供的数据规则提取操作的示意图;
图4为本申请实施例提供的模拟规则集的获取操作的示意图;
图5为本申请实施例提供的数据模拟操作的示意图;
图6为本申请实施例提供的数据处理装置的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
在实现本申请过程中,发明人对相关技术进行了技术分析,发现相关技术至少存在如下问题,包括:
采用数据脱敏会导致数据丢失真实性,不利于通过数据分析来得出结论或者发现问题。
采用数据加密会导致数据格式发生变化,不利于系统研发、测试以及数据分析工作的进行。
采用物理隔离不能支持远程工作或者对外演示,数据无法正常使用。
由于上述对数据处理均存在不同方面的缺陷,本申请提出如下解决方案,具体包括:
图2为本申请实施例提供的数据处理方法的流程图。如图2所示,所述方法包括:
步骤201、在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息;
在一个示例性实施例中,核心数据的判断条件可以采用穷举的方式列举中需要脱敏的数据,其中待处理数据可以为门牌号信息、身份证证号信息、手机号等。
在一个示例性实施例中,待处理数据的内容的特征信息可以为数据格式、该数据的生成策略信息、数据内容的形式规则、长度信息中的至少一个。
其中数据的生成策略可以为内容的生成策略,以中国公民的身份证的证号信息为例,其生成策略为2位(省份编号)+4位(市区县编号)+8位(年月日)+4位(校验码)。
步骤202、根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略;
在一个示例性实施例中,目标数据模拟策略的选择是根据内容的特征信息来确定,以保证内容的长度不变、数据格式不变或者新生成的模拟数据与待处理数据具有较高的相似度。
步骤203、利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,其中所述模拟数据与所述待处理数据的数据格式相同,且所述模拟数据与所述待处理数据的内容的相似度符合预先设置的相似度高的判断条件;
在一个示例性实施例中,由于模拟数据与待处理数据的数据格式相同,有利于系统研发、测试以及数据分析工作的;模拟数据与所述待处理数据的内容的相似度高,生成接近真实数据的模拟数据,在实现对数据的脱敏操作的前提下,解决数据外泄可能造成的影响。
步骤204、输出所述模拟数据。
本申请实施例提供的方法,在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息,根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略,再利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,输出所述模拟数据,生成接近真实数据的模拟数据,在实现对数据的脱敏操作的前提下,解决数据外泄可能造成的影响。
在一个示例性实施例中,所述数据模拟策略是通过获取样本数据,从样本距中提取样本数据的规则,再根据提取的规则,梳理、归纳、总结规则集;在利用规则集中的规则进行回归性测试,对比模拟数据与样本数据相似度;最后,根据测试数据反复迭代,优化模拟算法,得到固化的模拟算法。
在一个示例性实施例中,所述数据模拟策略是通过如下方式得到,包括:
获取等待执行模拟操作的数据,得到样本数据集,其中所述样本数据集包括N条数据;
将所述样本数据中每条数据切分成m份,并提取出m份规则,其中M为正整数;
在得到N条数据中每条数据对应的m份规则后,从N*m条规则中选择X条规则作为所述样本数据集对应的候选规则;
分别利用每条候选规则对所述样本数据集中的数据进行处理,得到每个候选规则对应的模拟数据,并计算所述模拟数据与样本数据集中的数据的相似度信息;
如果所述X条候选规则中有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件,则确定该规则为该样本数据集对应的数据模拟策略;否则,重新选择所述X条候选规则,再进行数据模拟操作,直到有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件为止;
其中,N、m和X均为正整数。
步骤A1、样本数据采集
首先要采集需要模拟的数据样本,系统用户通过样本采集器,管理用户权限内的样本数据集。
步骤A2、提取样本规则
通过对样本数据的深度学习和理解,依托与行业内优秀业务人员的历史经验,对样本数据进行规则提取,提取到的规则需满足“可理解性、保真性、准确性、可伸缩性、通用性”这五点。
步骤A3、根据提取的规则,梳理、归纳、集成规则集
图3为本申请实施例提供的数据规则提取操作的示意图。如图3所示,每份数据样本都会进行多方面多轮次的规则提取,假设一份数据样本有N条数据,那么每条数据都可能会提取出多个规则,该条数据的多个规则是根据规则提取算法将该条数据切分成m份,并提取出m份规则,这m份规则也就组成了一个规则组M{m1,m2,m3…},则N条数据总计有N*m份规则;从N*m份规则中选择X个规则,造成数据规则集Y。
步骤A4、进行回归性测试,对比模拟数据与样本数据相似度;
利用数据规则集Y,通过模拟算法输出第一版模拟数据A′,并与样本数据A进行比对分析,判断数据A′与A的相似度。
步骤A5、根据测试数据反复迭代,优化模拟算法;
根据得到相似度判断得到的数据规则集Y是否满足从业人员设定的相似度阈值,若不能满足,则需要调整3中的参数X,多次迭代直到相似度可达到从业人员设定的阈值。
在一个示例性实施例中,所述X个候选规则是通过如下方式得到的,包括:
获取所述N*M条规则中每条规则的权重;
根据每条规则的权重,计算每个规则的加权平均值;
利用每个规则的加权平均值对规则进行排序,选择加权平均值最大的X个规则作为候选规则。
图4为本申请实施例提供的模拟规则集的获取操作的示意图。如图4所示,在没有其他判断依据的前提下,无法判别哪条数据规则是有效的。本方案通过对多个数据规则组内的每个规则赋予一定的权重{w1,w2,w3...},在把整份数据样本N条数据提取的N*M条规则进行加权,并取得每个规则的加权均值。对N*M个规则加权均值排序,设定参数X,取加权均值在前X的规则,并组成模拟规则集Y。
在一个示例性实施例中,所述数据模拟策略是根据数据的内容、数据分布特征、数据格式和数据的敏感度中至少一个信息确定的。
在一个示例性实施例中,所述数据模拟策略包括如下至少一个,包括:
1、同源模拟,按照待处理数据的生成算法,生成一组新的数据,作为所述待处理数据的模拟数据;
图5为本申请实施例提供的数据模拟操作的示意图;如图5所示,通对核心数据的业务沉淀和经验积累,总结归纳出行业核心数据的原有生成算法,称之为同源模拟,固化成系统内置算法。
2、数据移位,按照所述待处理数据的数据分布规则,对所述待处理数据中的内容进行移位操作,得到所述待处理数据的模拟数据;
数据分布规则是针对数学领域中特定数据表达式设置的,包括数组、矩阵等。
例如,一组数组A{1,2,3,4,5,6},为保证数组A的数据分布不被破坏,通过数据移位算法:数组A*系数o,得出模拟数据A′{3,4,5,6,1,2},其中o表示移位执行的次数。
格式模拟,将待处理数据中符合预设的第一内容格式的目标内容替换为符合预设的第二内容格式的内容,作为所述待处理数据的模拟数据;
比如案件代码B,为保证数据格式不被篡改,从业人员可自定义格式模拟算法:AABB-AABB′。
顺序混淆,将所述待处理的数据内容进行重新排序,将重新排序后的内容作为待处理数据的模拟数据;
例如,针对单一数据敏感性较低,数据“abcdefg”可通过顺序混淆算法得到“gdefbac”。
本申请实施例提供的方法,更加注重模拟数据的“可理解性、保真性、准确性、可伸缩性、通用性”,为数据应用的多种场景提供支持。多种模拟算法可单独作用,亦可多重作用与某条数据,尽量使模拟数据在保有真实性的情况下,对核心数据做到安全保密,彻底杜绝数据泄露的信息安全事件。
图6为本申请实施例提供的数据处理装置的结构图。如图6所示,图6所示装置包括:
第一获取模块,用于在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息;
确定模块,用于根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略;
处理模块,用于利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,其中所述模拟数据与所述待处理数据的数据格式相同,且所述模拟数据与所述待处理数据的内容的相似度符合预先设置的相似度高的判断条件;
输出模块,用于输出所述模拟数据。
在一个示例性实施例中,所述装置还包括:
第二获取模块,用于获取等待执行模拟操作的数据,得到样本数据集,其中所述样本数据集包括N条数据;
提取模块,用于将所述样本数据中每条数据切分成m份,并提取出m份规则,其中M为正整数;
选择模块,用于在得到N条数据中每条数据对应的m份规则后,从N*m条规则中选择X条规则作为所述样本数据集对应的候选规则;
确定模块,用于分别利用每条候选规则对所述样本数据集中的数据进行处理,得到每个候选规则对应的模拟数据,并计算所述模拟数据与样本数据集中的数据的相似度信息;如果所述X条候选规则中有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件,则确定该规则为该样本数据集对应的数据模拟策略;否则,重新选择所述X条候选规则,再进行数据模拟操作,直到有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件为止;
其中,N、m和X均为正整数。
在一个示例性实施例中,所述选择模块包括:
获取单元,用于获取所述N*M条规则中每条规则的权重;
计算单元,用于根据每条规则的权重,计算每个规则的加权平均值;
选择单元,用于利用每个规则的加权平均值对规则进行排序,选择加权平均值最大的X个规则作为候选规则。
在一个示例性实施例中,所述数据模拟策略是根据数据的内容、数据分布特征、数据格式和数据的敏感度中至少一个信息确定的。
在一个示例性实施例中,所述数据模拟策略包括如下至少一个,包括:
同源模拟,按照待处理数据的生成算法,生成一组新的数据,作为所述待处理数据的模拟数据;
数据移位,按照所述待处理数据的数据分布规则,对所述待处理数据中的内容进行移位操作,得到所述待处理数据的模拟数据;
格式模拟,将待处理数据中符合预设的第一内容格式的目标内容替换为符合预设的第二内容格式的内容,作为所述待处理数据的模拟数据;
顺序混淆,将所述待处理的数据内容进行重新排序,将重新排序后的内容作为待处理数据的模拟数据。
本申请实施例提供的装置,在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息,根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略,再利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,输出所述模拟数据,生成接近真实数据的模拟数据,在实现对数据的脱敏操作的前提下,解决数据外泄可能造成的影响。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上文任一项中所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于 RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (7)
1.一种数据处理方法,包括:
在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息;
根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略;
利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,其中所述模拟数据与所述待处理数据的数据格式相同,且所述模拟数据与所述待处理数据的内容的相似度符合预先设置的相似度高的判断条件;
输出所述模拟数据;
其中,所述数据模拟策略是通过如下方式得到,包括:
获取等待执行模拟操作的数据,得到样本数据集,其中所述样本数据集包括N条数据;
将所述样本数据中每条数据切分成m份,并提取出m份规则,其中M为正整数;
在得到N条数据中每条数据对应的m份规则后,从N*m条规则中选择X条规则作为所述样本数据集对应的候选规则;
分别利用每条候选规则对所述样本数据集中的数据进行处理,得到每个候选规则对应的模拟数据,并计算所述模拟数据与样本数据集中的数据的相似度信息;
如果X条候选规则中有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件,则确定该规则为该样本数据集对应的数据模拟策略;否则,重新选择所述X条候选规则,再进行数据模拟操作,直到有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件为止;
其中,N、m和X均为正整数;
其中,所述数据模拟策略包括如下至少一个,包括:
同源模拟,按照待处理数据的生成算法,生成一组新的数据,作为所述待处理数据的模拟数据;
数据移位,按照所述待处理数据的数据分布规则,对所述待处理数据中的内容进行移位操作,得到所述待处理数据的模拟数据;
格式模拟,将待处理数据中符合预设的第一内容格式的目标内容替换为符合预设的第二内容格式的内容,作为所述待处理数据的模拟数据;
顺序混淆,将所述待处理的数据内容进行重新排序,将重新排序后的内容作为待处理数据的模拟数据。
2.根据权利要求1所述的方法,其特征在于,所述X条候选规则是通过如下方式得到的,包括:
获取所述N*m条规则中每条规则的权重;
根据每条规则的权重,计算每个规则的加权平均值;
利用每个规则的加权平均值对规则进行排序,选择加权平均值最大的X个规则作为候选规则。
3.根据权利要求1或2所述的方法,其特征在于,所述数据模拟策略是根据数据的内容、数据分布特征、数据格式和数据的敏感度中至少一个信息确定的。
4.一种数据处理装置,包括:
第一获取模块,用于在接收到符合核心数据的判断条件的待处理数据后,获取所述待处理数据的内容的特征信息;
确定模块,用于根据所述内容的特征信息,从预先存储的数据模拟策略中,确定所述内容的特征信息对应的目标数据模拟策略;
处理模块,用于利用所述目标数据模拟策略对所述待处理数据进行处理,得到模拟数据,其中所述模拟数据与所述待处理数据的数据格式相同,且所述模拟数据与所述待处理数据的内容的相似度符合预先设置的相似度高的判断条件;
输出模块,用于输出所述模拟数据;
其中,所述装置还包括:
第二获取模块,用于获取等待执行模拟操作的数据,得到样本数据集,其中所述样本数据集包括N条数据;
提取模块,用于将所述样本数据集 中每条数据切分成m份,并提取出m份规则,其中M为正整数;
选择模块,用于在得到N条数据中每条数据对应的m份规则后,从N*m条规则中选择X条规则作为所述样本数据集对应的候选规则;
确定模块,用于分别利用每条候选规则对所述样本数据集中的数据进行处理,得到每个候选规则对应的模拟数据,并计算所述模拟数据与样本数据集中的数据的相似度信息;如果X条候选规则中有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件,则确定该规则为该样本数据集对应的数据模拟策略;否则,重新选择所述X条候选规则,再进行数据模拟操作,直到有规则能使模拟数据与样本数据集中的数据的相似度信息满足所述相似度高的判断条件为止;
其中,N、m和X均为正整数;
其中,所述数据模拟策略包括如下至少一个,包括:
同源模拟,按照待处理数据的生成算法,生成一组新的数据,作为所述待处理数据的模拟数据;
数据移位,按照所述待处理数据的数据分布规则,对所述待处理数据中的内容进行移位操作,得到所述待处理数据的模拟数据;
格式模拟,将待处理数据中符合预设的第一内容格式的目标内容替换为符合预设的第二内容格式的内容,作为所述待处理数据的模拟数据;
顺序混淆,将所述待处理的数据内容进行重新排序,将重新排序后的内容作为待处理数据的模拟数据。
5.根据权利要求4所述的装置,其特征在于,所述选择模块包括:
获取单元,用于获取所述N*m条规则中每条规则的权重;
计算单元,用于根据每条规则的权重,计算每个规则的加权平均值;
选择单元,用于利用每个规则的加权平均值对规则进行排序,选择加权平均值最大的X个规则作为候选规则。
6.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190814.1A CN111428251B (zh) | 2020-03-18 | 2020-03-18 | 数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190814.1A CN111428251B (zh) | 2020-03-18 | 2020-03-18 | 数据处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428251A CN111428251A (zh) | 2020-07-17 |
CN111428251B true CN111428251B (zh) | 2023-04-28 |
Family
ID=71546474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010190814.1A Active CN111428251B (zh) | 2020-03-18 | 2020-03-18 | 数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428251B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425666A (zh) * | 2012-05-16 | 2013-12-04 | 富士通株式会社 | 信息处理装置和信息处理方法 |
WO2017157038A1 (zh) * | 2016-03-17 | 2017-09-21 | 华为技术有限公司 | 数据处理的方法、装置和设备 |
CN109583226A (zh) * | 2018-10-26 | 2019-04-05 | 平安科技(深圳)有限公司 | 数据脱敏处理方法、装置及电子设备 |
CN110110543A (zh) * | 2019-03-14 | 2019-08-09 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN110442803A (zh) * | 2019-08-09 | 2019-11-12 | 网易传媒科技(北京)有限公司 | 由计算设备执行的数据处理方法、装置、介质和计算设备 |
CN110502546A (zh) * | 2019-08-22 | 2019-11-26 | 郑州阿帕斯科技有限公司 | 一种数据处理方法及装置 |
CN110765195A (zh) * | 2019-10-23 | 2020-02-07 | 北京锐安科技有限公司 | 一种数据解析方法、装置、存储介质及电子设备 |
CN110825920A (zh) * | 2019-10-22 | 2020-02-21 | 厦门市美亚柏科信息股份有限公司 | 数据处理方法和装置 |
-
2020
- 2020-03-18 CN CN202010190814.1A patent/CN111428251B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425666A (zh) * | 2012-05-16 | 2013-12-04 | 富士通株式会社 | 信息处理装置和信息处理方法 |
WO2017157038A1 (zh) * | 2016-03-17 | 2017-09-21 | 华为技术有限公司 | 数据处理的方法、装置和设备 |
CN109583226A (zh) * | 2018-10-26 | 2019-04-05 | 平安科技(深圳)有限公司 | 数据脱敏处理方法、装置及电子设备 |
CN110110543A (zh) * | 2019-03-14 | 2019-08-09 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN110442803A (zh) * | 2019-08-09 | 2019-11-12 | 网易传媒科技(北京)有限公司 | 由计算设备执行的数据处理方法、装置、介质和计算设备 |
CN110502546A (zh) * | 2019-08-22 | 2019-11-26 | 郑州阿帕斯科技有限公司 | 一种数据处理方法及装置 |
CN110825920A (zh) * | 2019-10-22 | 2020-02-21 | 厦门市美亚柏科信息股份有限公司 | 数据处理方法和装置 |
CN110765195A (zh) * | 2019-10-23 | 2020-02-07 | 北京锐安科技有限公司 | 一种数据解析方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111428251A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109922032B (zh) | 用于确定登录账户的风险的方法、装置、设备及存储介质 | |
CN107809371B (zh) | 共享资源显示方法及装置 | |
CN112003870A (zh) | 一种基于深度学习的网络加密流量识别方法及装置 | |
CN110705996B (zh) | 基于特征掩码的用户行为识别方法、系统、及装置 | |
CN110795732A (zh) | 基于SVM的Android移动网络终端恶意代码的动静结合检测方法 | |
CN111159697B (zh) | 一种密钥检测方法、装置及电子设备 | |
CN111400705A (zh) | 一种应用程序的检测方法、装置及设备 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
CN105956469A (zh) | 文件安全性识别方法和装置 | |
CN109711189B (zh) | 数据脱敏方法及装置、存储介质、终端 | |
CN111783073A (zh) | 黑产识别方法、装置及可读存储介质 | |
CN113886821A (zh) | 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质 | |
CN113051601B (zh) | 敏感数据识别方法、装置、设备和介质 | |
CN111047146B (zh) | 一种企业用户的风险识别方法、装置及设备 | |
CN111444364B (zh) | 一种图像检测方法和装置 | |
CN111428251B (zh) | 数据处理方法和装置 | |
CN111988327A (zh) | 威胁行为检测和模型建立方法、装置、电子设备及存储介质 | |
CN110956170A (zh) | 生成护照机读码样本的方法、装置、设备及存储介质 | |
CN112819486B (zh) | 用于身份证明的方法和系统 | |
CN114417397A (zh) | 行为画像的构建方法、装置、存储介质及计算机设备 | |
CN114840634A (zh) | 信息存储方法、装置、电子设备和计算机可读介质 | |
CN111507397A (zh) | 一种异常数据的分析方法及装置 | |
CN113452648A (zh) | 检测网络攻击的方法、装置、设备和计算机可读介质 | |
CN109214212A (zh) | 信息防泄露方法及装置 | |
CN118157998B (zh) | 电力网络流量异常检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |