CN111427916A

CN111427916A - 一种数据模拟方法和装置

Info

Publication number: CN111427916A
Application number: CN202010227514.6A
Authority: CN
Inventors: 李亚南; 池宗洋; 李伟; 贾文玉; 张晓波
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-17
Anticipated expiration: 2040-03-27
Also published as: CN111427916B

Abstract

本申请实施例公开了一种数据模拟方法和装置。所述方法包括：获取样本数据集，其中所述样本数据集包括需要模拟的数据；循环执行如下操作，直到得到的预发生模拟数据与需要模拟的数据的内容相似度符合预设的相似度判断条件，且数据格式相同，包括：根据所述样本数据集，确定符合预设的泛化能力强的判断条件的规则信息，其中所述规则信息携带有所述需要模拟的数据的生成规则，和/或，数据字典中的各个表之间的关联关系；从所述规则信息中确定目标规则；利用所述目标规则对所述需要模拟的数据进行数据模拟操作，得到预发生模拟数据；在预发生模拟数据与需要模拟的数据的相似度符合相似度判断条件后，利用得到的目标规则进行数据模拟操作。

Description

一种数据模拟方法和装置

技术领域

本申请实施例涉及信息处理领域，尤指一种数据模拟方法和装置。

背景技术

针对公安行业来说，数据保密性要求很高，所以公安数据都在内网环境，但在日常项目中经常出现合作企业的内部人员需要提取客户数据做系统设计和问题分析。在此过程中客户数据安全性得不到保证，容易产生安全事故。简单的敏感数据脱敏容易造成数据不真实，验证无法通过的问题；而借助于人工参与制定相应的行业数据规则进行模拟数据生成，时间成本和人力成本都耗费巨大。

为了解决模拟数据生成费力、失真等问题，在产品开发、测试和验证模型中，往往需要一定量的有一定意义的数据来测试代码。在实际应用中，可以通过数据分析获得对于数据的整体认识，将这些认识编辑成数据字典，数据模拟器就是用于根据这样的数据字典生成模拟实际的数据。

由于数据模拟器只能生成某种类型的字段，对于字段及其表间的关联却无法模拟的。相关技术提出，从数据字典中提取各表的变量信息以及表间的关联信息；根据提取的变量信息和表间的关联信息，生成数据字典中所有表的模拟数据，使所述模拟数据符合表间的关联信息。

在实际应用中，该模拟数据的生成方案存在运营成本高和准确性有待提高等问题。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种数据模拟方法和装置。

为了达到本申请实施例目的，本申请实施例提供了一种数据模拟方法，包括：

获取样本数据集，其中所述样本数据集包括需要模拟的数据；

循环执行如下操作，直到得到的预发生模拟数据与需要模拟的数据的内容相似度符合预设的相似度判断条件，且数据格式相同，包括：

根据所述样本数据集，确定符合预设的泛化能力强的判断条件的规则信息，其中所述规则信息携带有所述需要模拟的数据的生成规则，和/或，数据字典中的各个表之间的关联关系；

从所述规则信息中确定目标规则；

利用所述目标规则对所述需要模拟的数据进行数据模拟操作，得到预发生模拟数据；

在预发生模拟数据与需要模拟的数据的相似度符合相似度判断条件后，利用得到的目标规则进行数据模拟操作。

一种数据模拟装置，包括：

获取模块，用于获取样本数据集，其中所述样本数据集包括需要模拟的数据；

处理模块，用于循环执行如下操作，直到得到的预发生模拟数据与需要模拟的数据的内容相似度符合预设的相似度判断条件，且数据格式相同，包括：

根据所述样本数据集，确定符合预设的泛化能力强的判断条件的规则信息，其中所述规则信息携带有所述需要模拟的数据的生成规则，和/或，数据字典中的各个表之间的关联关系；从所述规则信息中确定目标规则；利用所述目标规则对所述需要模拟的数据进行数据模拟操作，得到预发生模拟数据；

模拟模块，用于在预发生模拟数据与需要模拟的数据的相似度符合相似度判断条件后，利用得到的目标规则进行数据模拟操作。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上文所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文中所述的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：

通过获取样本数据集，并对该样本数据集执行循环操作，以确定该样本数据集对应的目标规则，使得利用该目标规则进行数据模拟所产生的数据与需要模拟的数据的内容符合相似度判断条件且数据格式相同，在保证数据脱敏的前提下，保证模拟数据生成接近真实的数据，且能够通过安全验证操作。

本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例的实施例一起用于解释本申请实施例的技术方案，并不构成对本申请实施例技术方案的限制。

图1为本申请实施例提供的数据模拟方法的流程图；

图2为本申请实施例提供的数据模拟方法的另一流程图；

图3为本申请实施例提供的数据模拟装置的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互任意组合。

在实现本申请过程中，发明人对相关技术进行了技术分析，发现相关技术至少存在如下问题，包括：

首先，相关技术中需要从业人员根据自身的业务经验和行业规则对数据样本进行数据规则和表间关联关系的提取，其中提取操作所依据的规则是由人为制定的，由于个人对事物的认知是有盲区、有局限性的，只会关注最具特点的显性规则特征，对于数据隐藏的潜在特征很难发现；

其次，参与提取规则设置的从业人员经验不一，对事物不能形成统一的认识。相同的一组数据，不同的人员提取的规则不一，权重不同，噪音规则很多，这对识别有效的数据规则的统一性造成巨大困扰。

最后，随着时间的推移，不断维护着一个规则系统，随着数据量的急剧增大，系统规则的完善将会过于复杂，并且对专家经验的要求越来越高，需要投入更多的人力成本。

基于上述分析可知，本申请实施例需要提供一种简便且能够尽量生成接近真实数据的模拟数据，同时满足数据格式的要求以便通过对应的安全校验。

图1为本申请实施例提供的数据模拟方法的流程图。如图1所示，图1所示方法包括：

步骤101、获取样本数据集，其中所述样本数据集包括需要模拟的数据；

在一个示例性实施例中，获取需要模拟的数据样本，生成样本数据库，其中该信息的采集可以从该信息所应用的系统中采集。其中，该数据样本可以为一个字段集，一张数据表或者整个数据库。

以某企业中的数据为例，需要对该企业的A数据进行模拟，则从该企业中采集该数据作为样本数据。

步骤102、循环执行如下操作，直到得到的预发生模拟数据与需要模拟的数据的内容相似度符合预设的相似度判断条件，且数据格式相同，包括：

通过循环执行如下操作在实现对数据的脱敏操作的前提下，利用对内容的相似度判断条件，保证生成接近真实数据的模拟数据；通过保证二者的数据格式相同，保证模拟数据能够通过安全验证，来确定所需使用的目标规则；

步骤102A、根据所述样本数据集，确定符合预设的泛化能力强的判断条件的规则信息，其中所述规则信息携带有所述需要模拟的数据的生成规则，和/或，数据字典中的各个表之间的关联关系；

在一个示例性实施例中，泛化能力强的判断条件是用于判断该规则信息是否适合样本数据集中的数据，如果该规则能够适合绝大多数的样本数据，则表示该规则信息泛化能力强；否则，表示该规则信息泛化能力弱，其中适合的样本数据的比例可以根据实际需要设置。

数据的生成规则可以为数据的格式和内容中各字段的设置要求；其中，以身份证信息和手机号码信息为例，上述两个信息的内容的长度和各字段的设置均有对应的设置要求信息。

数据字典包括多条表项，其中，每条表项包含：表名、变量名、规则、格式、范围、分布。其中，所述表间的关联信息包括父表与子表的关系；其中，若第一表中存在第二表中的id变量，则表明第一表示是第二表的父表，第二表示是第一表的子表；子表的模拟数据生成至少基于父表的id变量、时间变量。

步骤102B、从所述规则信息中确定目标规则；

在一个示例性实施例中，在得到的规则信息中选择目标规则，可以根据该目标规则所应有的场景来确定，该场景可以根据行业和业务进行划分，以实现选择的目标规则能够适合该应用场景的使用。

步骤102C、利用所述目标规则对所述需要模拟的数据进行数据模拟操作，得到预发生模拟数据；

步骤103、在预发生模拟数据与需要模拟的数据的相似度符合相似度判断条件后，利用得到的目标规则进行数据模拟操作。

本申请实施例提供的方法，通过获取样本数据集，并对该样本数据集执行循环操作，以确定该样本数据集对应的目标规则，使得利用该目标规则进行数据模拟所产生的数据与需要模拟的数据的内容符合相似度判断条件且数据格式相同，在保证数据脱敏的前提下，保证模拟数据生成接近真实的数据，且能够通过安全验证操作。

下面对本申请实施例提供的方法进行说明：

在一个示例性实施例中，所述根据所述样本数据集，确定符合预设的泛化能力强的判断条件的规则信息，包括：

对所述样本数据集中的数据进行正负样本的识别；

利用机器学习对正负样本的数据的内容进行识别，得到所述需要模拟的数据的生成规则；和/或，在利用所述正负样本得到数据字典后，利用机器学习对所述数据字典中的各个表之间的关联关系进行学习，得到数据字典中的各个表之间的关联关系。

通过对海量数据进行机器学习的方法，选取泛化能力强的有效规则模型算法，可以找出一些很难被显性规则发现的特征和结果，克服相关技术中人工识别成本高和识别范围有局限性的问题。

在一个示例性实施例中，所述从所述规则信息中确定目标规则，包括：

判断所述规则信息是否预先设置的筛选条件，其中所述筛选条件是根据所述需要模拟的数据所属的行业和/或业务确定的；

将符合所述筛选条件的规则确定为目标规则。

该筛选条件可以为由业务经验的人员进行配置，作为专家规则；将机器学习迭代中加入专家规则的判断，对机器学习生成的数据算法相互佐证，提高机器学习的准确率和减少迭代次数。

在一个示例性实施例中，所述利用得到的目标规则进行数据模拟操作，包括：

根据需要模拟数据的内容，对所述目标规则进行变形操作，得到变形后的目标规则；

利用变形后的目标规则，对需要模拟的数据进数据模拟操作。

在保证数据形式或者真实性的前提下，对数据规则进行规则变形，并生成数据模拟库。其中，变形方式可以通过位移保证数据的长度，或者，对内容进行混淆保证的单条数据的真实性，或者，时间推移保证了日期类数据的格式。

通过对目标规则进行变形，可以实现个性化的设置，减少相似业务中规则相同的发生，提高数据模拟操作的结果的区别度。

本申请实施例通过“机器学习+专家规则”的方式，在保证数据真实性和关联关系的情况下，快速有效的提取数据模拟规则和表间关系，可实现对单字段、单表、多表、整库的数据模拟，为数据关联分析和系统测试等工作提供支持。

图2为本申请实施例提供的数据模拟方法的另一流程图。如图2所示，图2所示方法包括：

1、采集样本数据；

获取需要模拟的数据样本，如一个字段集，一张数据表或者整个数据库，生成样本数据库，其中该信息的采集可以从该信息所应用的系统中采集。

2、数据预处理，并提取样本数据正负样本；

通过对样本数据的清洗、转化、分析等预处理工作，提取出数据的正负样本。该过程包括如下至少一个：

a)删除重复数据信息；

b)处理无效值和空值；

c)基于业务规则的异常值处理；(如：年龄为-1明显不符合规则)

d)将代码值进行归一化处理。

3、通过机器学习挖掘数据生成规则和表间关系；

通过机器学习对提取出的正负样本进行学习，根据神经网络在提取规则时的优势从样本数据中提取模糊规则。其中朴素提取规则仅是对样本数据粗糙的挖掘。参照模糊控制中的模糊化思路，可在挖掘问题中引入模糊语言变量，根据隶属函数的训练，模糊语言的筛选，属性间是否存在相关性的判断等问题，利用神经网络中的BP算法提出了双向训练算法。在已完成训练的网络进行网络剪裁，最后在完成剪裁的网络上，先确定候选规则再利用聚类结果从候选规则中提取模糊规则。

4、融合行业专家对数据生成规则进行规则清洗；

根据机器学习得到的数据生成规则和表间关系，在融合行业专家对该数据的理解，相互佐证消除显而易见的噪音规则，得到较完备的数据规则库。

5、模拟数据预发生；

利用规则清洗得到的数据规则，通过数据生成器，生成预发生模拟数据。

6、比对模拟数据和实际样本数据，迭代优化规则；

将预发生的模拟数据和实际样本数据进行比对，寻找差异，反复迭代优化模型算法，直到预发生模拟数据和实际数据相吻合。

7、生成实际模拟数据；

本申请实施例提供的方法，通过机器学习方式得到数据生成规则和表间关系，减少大量的人工处理所耗费的人力，再融合行业专家的知识沉淀，对机器学习得到的规则进行噪音删除，反复迭代规则挖掘模型，提高得到数据生成规则的效率，保证数据的真实性。通过规则变形，应对不同的场景，可生成不同的数据模拟规则，适合不同的应用场景。。

图3为本申请实施例提供的数据模拟装置的结构图。如图3所示，图3所示装置包括：

在一个示例性实施例中，所述处理模块通过如下方方式得到规则信息，包括：

对所述样本数据集中的数据进行正负样本的识别；

在一个示例性实施例中，所述处理模块通过如下方方式得到目标规则，包括：

将符合所述筛选条件的规则确定为目标规则。

在一个示例性实施例中，所述模拟模块包括：

变形单元，用于根据需要模拟数据的内容，对所述目标规则进行变形操作，得到变形后的目标规则；

模拟单元，用于利用变形后的目标规则，对需要模拟的数据进数据模拟操作。

本申请实施例提供的装置，通过获取样本数据集，并对该样本数据集执行循环操作，以确定该样本数据集对应的目标规则，使得利用该目标规则进行数据模拟所产生的数据与需要模拟的数据的内容符合相似度判断条件且数据格式相同，在保证数据脱敏的前提下，保证模拟数据生成接近真实的数据，且能够通过安全验证操作。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上文任一项中所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种数据模拟方法，包括：

从所述规则信息中确定目标规则；

2.根据权利要求1所述的方法，其特征在于，所述根据所述样本数据集，确定符合预设的泛化能力强的判断条件的规则信息，包括：

对所述样本数据集中的数据进行正负样本的识别；

3.根据权利要求1所述的方法，其特征在于，所述从所述规则信息中确定目标规则，包括：

将符合所述筛选条件的规则确定为目标规则。

4.根据权利要求1至3任一所述的方法，其特征在于，所述利用得到的目标规则进行数据模拟操作，包括：

5.一种数据模拟装置，包括：

6.根据权利要求5所述的装置，其特征在于，所述处理模块通过如下方方式得到规则信息，包括：

对所述样本数据集中的数据进行正负样本的识别；

7.根据权利要求5所述的装置，其特征在于，所述处理模块通过如下方方式得到目标规则，包括：

将符合所述筛选条件的规则确定为目标规则。

8.根据权利要求5至7任一所述的装置，其特征在于，所述模拟模块包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。