CN111625523B

CN111625523B - 数据合成的方法、装置和设备

Info

Publication number: CN111625523B
Application number: CN202010312562.5A
Authority: CN
Inventors: 孙尉嘉; 杜雨诺
Original assignee: Shenyang Paike Power Technology Co ltd
Current assignee: Shenyang Paike Power Technology Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-08-08
Anticipated expiration: 2040-04-20
Also published as: CN111625523A

Abstract

本发明实施例公开了数据合成的方法、装置和设备，该方法包括：获取原始数据；将原始数据分为键值数据和剩余数据；根据键值数据生成新键值；将剩余数据进行处理得到离散数据和连续数据；对离散数据进行卡方分布处理得到新离散数据；对连续数据进行因子处理得到字符型数据和合并数字数据；根据字符数据生成新连续字符数据；根据数字数据Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；将新键值、新离散数据、新连续字符数据、新连续数字数据和时间型数据进行数据合成。本发明可以批量生成与原始数据拥有相同集特征的合成数据，以满足大量机器学习所需训练集问题及其他研究需求。

Description

数据合成的方法、装置和设备

技术领域

本发明实施例涉及数据合成技术领域，具体涉及数据合成的方法、装置和设备。

背景技术

数据合成技术(Data Synthetic)，也称测试数据生成技术，其目的是根据已有数据集的特征生成有相同集特征的数据集。当前的数据合成技术中，如果存在离散型数据与连续性数据并存的数据集，对于连续型数据的特征提取以及生成算法并没有一个好的方案。

对于数据安全问题的处理手段，仍然是以脱敏技术为主。以差分隐私算法为例：该算法主要是针对差分攻击来进行数据保护，差分攻击，指通过观察输出或者中间参数，利用算法进行反向推倒来逆推出输入数据的手段。举例说明：如果攻击者知道了一组数据的平均值，那么当添加新的数据时，只要重新获取数据均值，就可以推导出新添数据的具体值。差分隐私的做法是给数据添加“噪声”来保护真实数据，比如拉普拉斯噪声，这种手段可以有效的避免差分攻击造成的损害，但仍然存在一些不足：无法通过这种算法得到多于原数据条数的数据，例：原始数据10万条，生成的数据也是10万条。

发明内容

本发明实施例的目的在于提供数据合成的方法、装置和设备，用以解决现有数据合成无法得到多余原始数据条数的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种数据合成的方法，包括：获取原始数据；将所述原始数据分为键值数据和剩余数据；根据所述键值数据生成新键值；将所述剩余数据进行处理得到离散数据和连续数据；对所述离散数据进行卡方分布处理得到新离散数据；对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据，并将所述时间数据进行因子化得到第二数字数据，进而根据所述第一数字数据和所述第二数字数据得到合并数字数据；根据所述字符数据生成新连续字符数据；根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。

根据本发明的一个实施例，所述根据所述字符数据生成新连续字符数据，包括：根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。

根据本发明的一个实施例，所述将所述原始数据分为所述键值数据和所述剩余数据，包括：对所述原始数据进行数据清洗；对所述数据清洗后的原始数据，采用根据主键约束得到所述键值数据和所述剩余数据。

第二方面，本发明实施例还提供一种数据合成的装置，包括：原始数据获取模块，用于获取原始数据；处理模块，用于将所述原始数据分为键值数据和剩余数据，根据所述键值数据生成新键值，并将所述剩余数据进行处理得到离散数据和连续数据；所述处理模块还用于对所述离散数据进行卡方分布处理得到新离散数据，并对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据，并将所述时间数据进行因子化得到第二数字数据，进而根据所述第一数字数据和所述第二数字数据得到合并数字数据；所述处理模块还用于根据所述字符数据生成新连续字符数据，根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。

根据本发明的一个实施例，所述处理模块用于根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。

根据本发明的一个实施例，所述处理模块用于对所述原始数据进行数据清洗；对所述数据清洗后的原始数据，采用根据主键约束得到所述键值数据和所述剩余数据。

第三方面，本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的数据合成的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，包含一个或多个程序指令，所述一个或多个程序指令用于被执行如第一方面所述的数据合成的方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例提供的数据合成的方法、装置和设备，类比数据库内的数据特征与数据，数据的各个特征列可以看作是边缘分布函数，数据的每一个特征都可以看作多维空间的一个维度，而各个数据特征维度所组成的数据可以看为联合分布函数，在这个前提下描述各个特征之间的关系以及它们与完整数据之间的关系。本发明可以批量生成与原始数据拥有相同集特征的合成数据，以满足大量机器学习所需训练集问题及其他研究需求。

附图说明

图1为本发明实施例的数据合成的方法的流程图。

图2为本发明实施例的数据合成的装置的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1为本发明实施例的数据合成的方法的流程图。如图1所示，本发明实施例的数据合成的方法，包括：

S1：获取原始数据。

具体地，由数据库或其他源读取原始数据，这些原始数据作为进行数据合成的基础数据。

S2：将原始数据分为键值数据和剩余数据(即图1中的其他数据)。

具体地，对原始数据进行数据清洗，使用0值代替NULL。依靠主键，联合主键特点(唯一性且非空)找出主键及然后对数据进行类型区分，并将键值从数据主体中去除。主键往往没有实际意义，比如成交编号等。

S3：根据键值数据生成新键值。

S4：将剩余数据进行处理得到离散数据和连续数据。

具体地，将去除主键值后的剩余数据按照数据类型分为字符型，数字型数据及时间类数据和离散数据。其中，类型区分的方式可以利用Java连接SQL，读取数据库内存储的数据类型，与自设类型或java类型建立匹配关系。在本实施例中，离散类数据是指性别，交易方式这种离散类数据。

S5：对离散数据进行卡方分布处理得到新离散数据。

具体地，离散数据，获取所有非重取值，计算各种情况所占总量的百分比。卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

卡方校验的步骤包括：

(1)提出原假设：

H₀：总体X的分布函数为F(x).

如果总体分布为离散型，则假设具体为：

H₀：总体X的分布律为P{X＝x_i}＝p_{i，i＝1，2，...}。

(2)将总体X的取值范围分成k个互不相交的小区间A1，A2，A3，…，Ak，如可取A1＝(a0，a1]，A2＝(a1，a2]，...，Ak＝(ak-1,ak)。

其中a0可取-∞，ak可取+∞，区间的划分视具体情况而定，但要使每个小区间所含的样本值个数不小于5，而区间个数k不要太大也不要太小。

(3)把落入第i个小区间的Ai的样本值的个数记作fi，成为组频数(真实值)，所有组频数之和f1+f2+...+fk等于样本容量n。

(4)当H0为真时，根据所假设的总体理论分布，可算出总体X的值落入第i个小区间Ai的概率pi，于是，npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。

(5)当H0为真时，n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近，当H0不真时，则fi/n与pi相差很大。基于这种思想，皮尔逊引进如下检验统计量：

在0假设成立的情况下服从自由度为k-1的卡方分布。

得到的数值结果与卡方分布表进行查询对比，可以推得两个离散数据间的关系。

S6：对连续数据进行因子处理得到字符型数据、第一数字数据和时间数据，并将时间数据进行因子化得到第二数字数据，进而根据第一数字数据和第二数字数据得到合并数字数据。其中，对于时间数据，因为表内的时间格式可能多种多样，需要将格式进行统一化处理XXXX-XX-XX XX:XX:XX的格式，再进行数字化处理转为连续数据。

S7：根据字符数据生成新连续字符数据。

具体地，对于连续字符型数据字段，首先判断所有(非空)数据长度以及字符涵盖范围(数字，字母，中文，符合)，如果均为定长，则生成等长字符，若长度不同值比较多，则在发现长度范围及涵盖范围内随机生成字符数据。在本实施例中，使用抽取转换装载ETL生成新连续字符数据。

S8：根据合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据。

具体地，由于过程的计算需要作用域和值域都为(0，1)首先利用Pobs函数求出累积概率密度作为数据向(0，1)之间的映射。

计算各列数据的标准差与均值，求得正态分布模型以利用正态分布近似模拟边缘分布情况。

将模拟得到的边缘分布代入Copula过程算式或使用内置函数如fitcopula函数来进行Copula拟合，进而获得分布模型。

在分布模型上进行随机抽样取点，每个点的各个坐标即是生成新的数据。

对于生成的数据采取算式数据检验，查找表内所有符合乘积，加法，减法，立方等算式关系的算式数据。对于所有因变量，从Copula过程生成的自变量导入算式求得结果。

在生成完其他数据后，按照键值的取值范围，字符长度等特征生成新的键值，将键值按照原位置插回表内。

S9：将新键值、新离散数据、新连续字符数据、新连续数字数据和时间型数据进行数据合成。

本发明实施例提供的数据合成的方法，类比数据库内的数据特征与数据，数据的各个特征列可以看作是边缘分布函数，数据的每一个特征都可以看作多维空间的一个维度，而各个数据特征维度所组成的数据可以看为联合分布函数，在这个前提下描述各个特征之间的关系以及它们与完整数据之间的关系。本发明可以批量生成与原始数据拥有相同集特征的合成数据，以满足大量机器学习所需训练集问题及其他研究需求。

图2为本发明实施例的数据合成的装置的结构框图。如图2所示，本发明实施例的数据合成的装置，包括：原始数据获取模块100和处理模块200。

其中，原始数据获取模块100用于获取原始数据。

处理模块200用于将原始数据分为键值数据和剩余数据，根据键值数据生成新键值，并将剩余数据进行处理得到离散数据和连续数据。处理模块200还用于对离散数据进行卡方分布处理得到新离散数据，并对连续数据进行因子处理得到字符型数据、第一数字数据和时间数据，并将时间数据进行因子化得到第二数字数据，进而根据第一数字数据和第二数字数据得到合并数字数据。处理模块200还用于根据字符数据生成新连续字符数据，根据合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；将新键值、新离散数据、新连续字符数据、新连续数字数据和时间型数据进行数据合成。

在本发明的一个实施例中，处理模块200用于根据字符数据使用抽取转换装载ETL生成新连续字符数据。

在本发明的一个实施例中，处理模块200用于对原始数据进行数据清洗；对数据清洗后的原始数据，采用根据主键约束得到键值数据和剩余数据。

需要说明的是，本发明实施例的数据合成的装置的具体实施方式与本发明实施例的数据合成的方法的具体实施方式类似，具体参见数据合成的方法部分的描述，为了减少冗余，不做赘述。

另外，本发明实施例的数据合成的装置的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的数据合成的方法。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的数据合成的方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种数据合成的方法，其特征在于，包括：

由数据库或其他源读取原始数据；

将所述原始数据分为键值数据和剩余数据；

根据所述键值数据生成新键值；

将所述剩余数据进行处理得到离散数据和连续数据；具体地，将去除主键值后的剩余数据按照数据类型分为字符型，数字型数据及时间类数据和离散数据；其中，类型区分的方式是利用Java连接SQL，读取数据库内存储的数据类型，与自设类型或java类型建立匹配关系；

对所述离散数据进行卡方分布处理得到新离散数据；

对所述连续数据进行因子处理得到字符数据、第一数字数据和时间数据，并将所述时间数据进行因子化得到第二数字数据，进而根据所述第一数字数据和所述第二数字数据得到合并数字数据；

根据所述字符数据生成新连续字符数据；

根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；

将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成，生成与所述原始数据拥有相同集特征的合成数据，作为大量机器学习所需训练集数据。

2.根据权利要求1所述的数据合成的方法，其特征在于，所述根据所述字符数据生成新连续字符数据，包括：

根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。

3.根据权利要求1所述的数据合成的方法，其特征在于，所述将所述原始数据分为所述键值数据和所述剩余数据，包括：

对所述原始数据进行数据清洗；

对所述数据清洗后的原始数据，采用根据主键约束得到所述键值数据和所述剩余数据。

4.一种数据合成的装置，其特征在于，包括：

原始数据获取模块，用于由数据库或其他源获取原始数据；

处理模块，用于将所述原始数据分为键值数据和剩余数据，根据所述键值数据生成新键值，并将所述剩余数据进行处理得到离散数据和连续数据；具体地，将去除主键值后的剩余数据按照数据类型分为字符型，数字型数据及时间类数据和离散数据；其中，类型区分的方式是利用Java连接SQL，读取数据库内存储的数据类型，与自设类型或java类型建立匹配关系；

所述处理模块还用于对所述离散数据进行卡方分布处理得到新离散数据，并对所述连续数据进行因子处理得到字符数据、第一数字数据和时间数据，并将所述时间数据进行因子化得到第二数字数据，进而根据所述第一数字数据和所述第二数字数据得到合并数字数据；所述处理模块还用于根据所述字符数据生成新连续字符数据，根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成，生成与所述原始数据拥有相同集特征的合成数据，作为大量机器学习所需训练集数据。

5.根据权利要求4所述的数据合成的装置，其特征在于，所述处理模块用于根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。

6.根据权利要求4所述的数据合成的装置，其特征在于，所述处理模块用于对所述原始数据进行数据清洗；对所述数据清洗后的原始数据，采用根据主键约束得到所述键值数据和所述剩余数据。

7.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-3任一项所述的数据合成的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如权利要求1-3任一项所述的数据合成的方法。