CN104252515B

CN104252515B - 一种数据生成方法和装置

Info

Publication number: CN104252515B
Application number: CN201310641713.1A
Authority: CN
Inventors: 蔡立宇; 贾西贝
Original assignee: Shenzhen Huaao Data Technology Co Ltd
Current assignee: Shenzhen Huaao Data Technology Co Ltd
Priority date: 2013-12-04
Filing date: 2013-12-04
Publication date: 2017-06-16
Anticipated expiration: 2033-12-04
Also published as: CN104252515A

Abstract

本申请提供了一种数据生成方法，包括：获取数据库中同一属性数据序列；根据所述数据序列按照预置规则生成数据规则；根据所述数据规则生成所述数据序列中空缺数据。本发明实施例还提供了对应的装置。本发明实施例通过计算当前数据序列的数据规则，根据数据规则补齐当前数据序列，实现了自动补齐空缺数据的功能。

Description

一种数据生成方法和装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种数据生成方法和装置。

背景技术

数据的自动生成在数据查漏、数据修复和软件测试等领域有着广泛的应用。但常见的数据生成方式过于依赖对用户定义规则的依赖。另一方面，常见的实际数据其表示往往是同义而不同形式的。比如，“1层1号” 和“1楼2号” 实际上是同一个类型的表达，但分别用了带“层”和“楼”的形式来表达。这就让自动化数据生成前，对现有数据的规律难于捕捉。

发明内容

本申请所要解决的技术问题是提供一种可以自动补齐空缺数据的数据生成方法和装置。

为了解决上述问题，本申请公开了一种数据生成方法，包括：

获取数据库中同一属性数据序列；

根据所述数据序列按照预置规则生成数据规则；

根据所述数据规则生成所述数据序列中空缺数据。

进一步，所述根据数据规则生成所述数据序列中空缺数据后还包括：

为所述空缺数据增加预定标识。

进一步，所述根据数据序列按照预置规则生成数据规则包括：

将数据序列中的数据拆分成至少一个族；

对每一个族，分别计算其上下边界Vi(值域)；

再将各族的值域做交集，形成一个新的数据集合U；

利用该数据集合U的顺序作为数据规则。

进一步，所述根据数据规则生成所述数据序列中空缺数据包括：

根据所述数据规则查找当前数据序列与数据集合U的补集N；

将所述补集N作为空缺数据。

本申请还提供了一种数据生成装置，包括：

数据获取模块，用于获取数据库中同一属性数据序列；

规则生成模块，用于根据所述数据序列按照预置规则生成数据规则；

数据生成模块，用于根据所述数据规则生成所述数据序列中空缺数据。

进一步，所述装置还包括：

标识模块，用于为所述空缺数据增加预定标识。

进一步，所述规则生成模块还包括：

拆分模块，用于将数据序列中的数据拆分成至少一个族；

值域计算模块，用于对每一个族，分别计算其上下边界Vi(值域)；

集合计算模块，用于再将各族的值域做交集，形成一个新的数据集合U；

规则生成子模块，用于利用该数据集合U的顺序作为数据规则。

进一步，所述数据生成模块还用于：

根据所述数据规则查找当前数据序列与数据集合U的补集N；

将所述补集N作为空缺数据。

与现有技术相比，本申请包括以下优点：通过计算当前数据序列的数据规则，根据数据规则补齐当前数据序列，实现了自动补齐空缺数据的功能。

附图说明

图1是本发明一种数据生成方法一实施例的流程图；

图2是本发明一种数据生成装置一实施例的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请一种数据生成方法，包括：

步骤S101、获取数据库中同一属性数据序列；

在数据库中可能保存有同一属性的数据序列，比如房屋编号采用A栋12号形式的数据排列。在数据库中所有属性为房屋编号（可以是某个特定小区的房屋编号）的数据序列提取出来。

步骤S102、根据所述数据序列按照预置规则生成数据规则；

将数据序列中的数据拆分成至少一个族；

对每一个族，分别计算其上下边界Vi(值域)；

再将各族的值域做交集，形成一个新的数据集合U；

利用该数据集合U的顺序作为数据规则。

在步骤S102中，假设已有的数据都具有相同的族Si, i= 0,1,2…n分布。则”最小覆盖”算法可描述为如下：对于每一个族，分别计算其上下边界Vi(值域)。再将各族的值域做交集，形成一个新的数据集合U。U中非已有数据的部分便是新产生的数据。

举例来说，假设已有如下三个数据样本{1A3, 2A1, 3B3},族的划分根据数字和字母而区别，各族的数值变化遵循自有规律：即数字按自然数增加，字母则按A-Z进行增加。则上述样本的族分布为{自然数+字母+自然数}，三个族的上下限分别为[1,3]、[A,B]和[1,3]。各值域的交集将得到如下数据集U:

{1A1,1A2,1A3,1B1,1B2,1B3,2A1,2A2,2A3,2B1,2B2,2B3,3A1,3A2,3A3,3B1,3B2,3B3}

最小覆盖算法取各族现有数据的值域为数据产生的上下边界，故所生成的数据集合为在现有数据基础上较小的一个扩展。但此处仅为展示生成数据一个可行方法，并不是唯一的方法。

步骤S103、根据所述数据规则生成所述数据序列中空缺数据。

为所述空缺数据增加预定标识。

根据所述数据规则查找当前数据序列与数据集合U的补集N；

将所述补集N作为空缺数据。

如果步骤S101中获取到某小区的房屋编号数据序列为（A栋01号、A栋03号、A栋04号、B栋01号、B栋02号……D栋15号）；通过步骤S102可以计算出的数据集合U（A栋01号、A栋02号……A栋15号、B栋01号……B栋15号、C栋01号……C栋15号），原数据序列与该数据集合U之间的补集N即是空缺数据。

本发明实施例通过计算当前数据序列的数据规则，根据数据规则补齐当前数据序列，实现了自动补齐空缺数据的功能。

参照图2为本发明一种数据生成装置一实施例的结构示意图。

本申请提供的数据生成装置，包括：

数据获取模块21，用于获取数据库中同一属性数据序列；

规则生成模块22，用于根据所述数据序列按照预置规则生成数据规则；

数据生成模块23，用于根据所述数据规则生成所述数据序列中空缺数据。

进一步，所述装置还包括：

标识模块24，用于为所述空缺数据增加预定标识。

进一步，所述规则生成模块22还包括：

拆分模块221，用于将数据序列中的数据拆分成至少一个族；

值域计算模块222，用于对每一个族，分别计算其上下边界Vi(值域)；

集合计算模块223，用于再将各族的值域做交集，形成一个新的数据集合U；

规则生成子模块224，用于利用该数据集合U的顺序作为数据规则。

进一步，所述数据生成模块23还用于：

根据所述数据规则查找当前数据序列与数据集合U的补集N；

将所述补集N作为空缺数据。

假设已有如下三个数据样本{1A3, 2A1, 3B3},族的划分根据数字和字母而区别，各族的数值变化遵循自有规律：即数字按自然数增加，字母则按A-Z进行增加。则通过规则生成模块22计算可知道上述样本的族分布为{自然数+字母+自然数}，三个族的上下限分别为[1,3]、[A,B]和[1,3]。各值域的交集将得到如下数据集U:

{1A1,1A2,1A3,1B1,1B2,1B3,2A1,2A2,2A3,2B1,2B2,2B3,3A1,3A2,3A3,3B1,3B2,3B3}

规则生成模块22采用最小覆盖算法取各族现有数据的值域为数据产生的上下边界，故所生成的数据集合为在现有数据基础上较小的一个扩展。但此处仅为展示生成数据一个可行方法，并不是唯一的方法。

如果数据获取模块21获取到某小区的房屋编号数据序列为（A栋01号、A栋03号、A栋04号、B栋01号、B栋02号……D栋15号）；规则生成模块22可以计算出的数据集合U（A栋01号、A栋02号……A栋15号、B栋01号……B栋15号、C栋01号……C栋15号），数据生成模块23则取原数据序列与该数据集合U之间的补集N即是空缺数据。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种数据生成方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据生成方法，其特征在于，包括：

获取数据库中同一属性数据序列；

根据所述数据序列按照预置规则生成数据规则；

根据所述数据规则生成所述数据序列中空缺数据；

其中，所述根据数据序列按照预置规则生成数据规则包括：

将数据序列中的数据拆分成至少一个族；

对每一个族，分别计算其值域；

再将各族的值域做交集，形成一个新的数据集合U；

利用该数据集合U的顺序作为数据规则；

其中，所述根据数据规则生成所述数据序列中空缺数据包括：

根据所述数据规则查找当前数据序列与数据集合U的补集N；

将所述补集N作为空缺数据。

2.根据权利要求1所述的方法，其特征在于，所述根据数据规则生成所述数据序列中空缺数据后还包括：

为所述空缺数据增加预定标识。

3.一种数据生成装置，其特征在于，包括：

数据获取模块，用于获取数据库中同一属性数据序列；

数据生成模块，用于根据所述数据规则生成所述数据序列中空缺数据；

其中，所述规则生成模块还包括：

拆分模块，用于将数据序列中的数据拆分成至少一个族；

值域计算模块，用于对每一个族，分别计算其值域；

规则生成子模块，用于利用该数据集合U的顺序作为数据规则；

其中，所述数据生成模块还用于：

根据所述数据规则查找当前数据序列与数据集合U的补集N；

将所述补集N作为空缺数据。

4.根据权利要求3所述的装置，其特征在于，所述装置还包括：

标识模块，用于为所述空缺数据增加预定标识。