CN109241205A

CN109241205A - 一种可用于大批量生成关系型模拟数据的方法

Info

Publication number: CN109241205A
Application number: CN201811393036.5A
Authority: CN
Inventors: 王晟
Original assignee: NANJING AXON TECHNOLOGY Co Ltd
Current assignee: NANJING AXON TECHNOLOGY Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-01-18

Abstract

本发明公开了一种可用于大批量生成关系型模拟数据的方法，在运行过程中首先根据数据模板中的分区字段定义，生成一个或者多个分区字段构成的序列，从序列的第一个分区集合开始，通过模拟器以及逻辑规则生成一个本地文件，待该本地文件导入到Hive仓库指定位置后，进入第二个分区集合开始进行模拟，此时将会生成第二个本地文件。第二个本地文件将逐行参照首个本地文件，平移不变的关键字段，在符合逻辑规则的前提下改变剩余的字段。

Description

一种可用于大批量生成关系型模拟数据的方法

技术领域

本发明涉及数据模拟技术领域，尤其涉及一种可用于大批量生成关系型模拟数据的方法。

背景技术

现有技术中手工编写的测试数据量往往较小，距离生产环境实际的数据量存在若干个数量级的差距；手工编写的测试数据经过实际测试，往往会发现存在脏数据，即不满足约束条件或者是不完整的数据。而通过手工调整这些脏数据，代价巨大却收效甚微；根据以往大数据项目上线经验，在生产环境上运行后，经常出现测试环境中无法复现的问题。例如可能存在分布不均衡的超大数据集导致计算任务在shuffle期间运行失败，而测试环境因为手工无法生成如此大量的数据集而难以及早发现此类隐藏问题。

发明内容

基于现有技术中的缺陷，本发明一种可用于大批量生成关系型模拟数据的方法，具体方案是包括以下步骤：

S1：采用excel文件建立数据模板；

S2：根据标准式数据模板建立数据字典，在数据字典中对部分枚举类型的字段进行预先配置；

S3：根据数据字典确定某字段的生成规则；

S4：根据数据模板的定义创建并维护模拟器实例；

S5：对同一张hive表中的字段进行分区存储；根据数据模板中的分区字段定义生成一个或多个分区字段构成的序列，从序列的第一个分区集合开始通过模拟器以及逻辑规则生成一个本地文件，

S6：通过Spark批处理任务将本地文件导入到hive仓库中。

进一步的，采用随机指定的方式对枚举类型的字段进行模拟。

所述数据模板对hive表的字段名、字段类型、字段模拟生成规则、字段和字段之间的联系进行定义。

由于采用了上述技术方案，本发明提供的一种可用于大批量生成关系型模拟数据的方法，本方法根据需求方提供的关系型数据结构，在测试环境通过手工编写少量的测试数据存入hive仓库，并进行后续的功能和性能测试。本发明根据需求方提供的关系型数据结构为基础生成大批量即以亿条记录为单位的测试数据集；既可以满足数据中的各种约束条件，例如字段唯一性、表和表之间的一对一、一对多、多对多等关系约束，同时还满足数据中的各种约束条件，例如字段唯一性、表和表之间的一对一、一对多、多对多等关系约束。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图。

图2为本发明方法的实施例示意图。

图3为本发明方法的实施例示意图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1-图3所示的一种可用于大批量生成关系型模拟数据的方法，包括以下步骤：

S1：采用excel文件建立数据模板；其中该模板中定义了hive表的字段名、字段类型、字段模拟生成规则，以及字段和字段之间的联系。

S2：根据标准式数据模板建立数据字典，在数据字典中对部分枚举类型的字段进行预先配置，

S3：根据数据字典确定某字段的生成规则；其中采用多种模拟器来确定字段的生成规则。模拟器是一个可扩展的抽象逻辑单元，用于确定某字段的生成规则。本发明工具已经提供了一批常用的模拟器实例和模拟器工厂，使用者可以根据项目实际情况自行扩展模拟器实例。本发明工具提供的主要模拟器实例：

(1)姓名模拟器：可以根据事先配置好的中文字库，模拟出中文姓名；

(2)日期模拟器：可以根据指定的起始和结束日期，在这期间模拟出随机日期；

(3)字典模拟器：可以根据事先配置好的字典列表，随机选择其中的枚举值；

(4)数字模拟器：可以根据指定的取值区间，随机生成数字；

(5)联动模拟器：将两个或者两个以上的字段组成联动字段，采用联动式的字典模拟器(目前仅支持联动字典，例如省/市/区三级字典联动)随机生成联动枚举值；

(6)序列模拟器：可以按照指定区间的最小值开始，按顺序生成数字直到区间最大值结束。

S4：根据数据模板的定义创建并维护模拟器实例；在实际的模拟数据生产过程中，根据数据模板中的定义，由模拟器工厂创建并维护模拟器实例。

S5：对同一张hive表中的字段进行分区存储；根据数据模板中的分区字段定义生成一个或多个分区字段构成的序列，从序列的第一个分区集合开始通过模拟器以及逻辑规则生成一个本地文件。

进一步的，同一张hive表不同分区，除了分区字段本身的变化外，普通字段取值有以下规律：

(1)部分关键字取值是固定的，例如用户的ID、手机号等。这些字段不能随着分区的改变而改变，否则将会模拟出脏数据；

(2)不同分区的关键字段并非一一对应，总是存在少量数据不能完全重叠的部分，例如加入了新用户的数据或者缺失了部分老用户的数据；

(3)部分字段随着分区的增长(分区通常含有日期或者月份这样的增长字段)，取值必须渐渐变大。例如上网流量日表，后一天的已使用流量总是要大于前一天的值；

(4)不管分区字段如何变化，分区以内部分字段是存在一定的逻辑关系的，例如字段1+字段2必须小于字段3，否则的话将会破坏数据逻辑规则。

S6：通过Spark批处理任务将本地文件导入到hive仓库中。以hive表分区为单位，生，成并落地到本地磁盘文件，通过Spark批处理任务或者ThriftServer的JDBC接口，将该本地文件导入到hive仓库中。

本发明公开的一种可用于大批量生成关系型模拟数据的方法，在运行过程中首先根据数据模板中的分区字段定义，生成一个或者多个分区字段构成的序列，从序列的第一个分区集合开始，通过模拟器以及逻辑规则生成一个本地文件，待该本地文件导入到Hive仓库指定位置后，进入第二个分区集合开始进行模拟，此时将会生成第二个本地文件。第二个本地文件将逐行参照首个本地文件，平移不变的关键字段，在符合逻辑规则的前提下改变剩余的字段。第二个本地文件生成后，导入Hive仓库指定位置，并且将首个本地文件予以删除，节约本地磁盘空间。接下来以第二个本地文件为参照进行第三个本地文件模拟生成，后续以此类推。

因此本方法具有如下效果：本方法的测试环境可用性增强，能够在这个环境上及早发现项目中存在的问题点；另外经过简单的模拟器和字段规则定制，在测试环境中模拟出生产环境中的数据特点，方便开发人员进行问题复现和定位，同时可以在开发之前模拟出测试数据，便于开发方案的制定，有效缩短项目开发和上线周期。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种可用于大批量生成关系型模拟数据的方法，其特征在于包括以下步骤：

S1：采用excel文件建立数据模板；

S3：根据数据字典确定某字段的生成规则；

S4：根据数据模板的定义创建并维护模拟器实例；

S6：通过Spark批处理任务将本地文件导入到hive仓库中。

2.根据权利要求1所述的一种可用于大批量生成关系型模拟数据的方法，其特征还在于：采用随机指定的方式对枚举类型的字段进行模拟。

3.根据权利要求1所述的一种可用于大批量生成关系型模拟数据的方法，其特征还在于：所述数据模板对hive表的字段名、字段类型、字段模拟生成规则、字段和字段之间的联系进行定义。