CN109753495A

CN109753495A - 一种通用结构化大数据生成方法

Info

Publication number: CN109753495A
Application number: CN201910080069.2A
Authority: CN
Inventors: 刘祥; 孟建; 刘伟鹏
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-14

Abstract

本发明公开了一种通用结构化大数据生成方法和系统，属于大数据技术领域，该方法将数据结构化，结构化数据分类包括大数据表、小数据表和文本文档，其中，大数据表中包含40个常用类型字段；小数据表中包含4个字段的整型及不同的取值范围；文本文档描述不同字符串的内容。本发明可以快速完成数据准备工作，且可以生成百亿、千亿级的结构化数据，生成的数据定义具有广泛性、代表性和业务真实性，在大数据平台选型、性能测试中可以快速构件测试数据，节省设计数据方案的人力和时间成本。

Description

一种通用结构化大数据生成方法

技术领域

本发明涉及大数据技术领域，具体涉及一种通用结构化大数据生成方法。

背景技术

随着新一代计算机技术的发展，大数据应用越来越广泛、如医疗行业、保险行业、公众服务等，越来越多的行业将数据视为重要资产，将数据规模化、集中化、智能化，来推动产业发展，让数据创造价值。由于大数据的量级较大，有百亿、千亿级数量、TB、PB级的容量，因此对大数据平台的性能要求也就非常高。

POC测试，即Proof of Concept，是业界流行的针对客户具体应用的验证性测试，根据用户对采用系统提出的性能要求和扩展需求的指标，在选用服务器上进行真实数据的运行，对承载用户数据量和运行时间进行实际测算，并根据用户未来业务扩展的需求加大数据量以验证系统和平台的承载能力和性能变化。在大数据平台POC测试中、基础数据准备是非常重要的一个环节，有时为了准备大量的数据而耗费数天、数周的时间、而且准备出来的数据不全，不科学不能覆盖常规数据结构场景。如何快速生成高质量的测试数据、在短时间内生成百亿、千亿级结构化数据，提升大数据平台测试的数据内容的真实性、数据量的真实性是亟待解决的问题。

发明内容

本发明的技术任务是提供一种通用结构化大数据生成方法，可以生成百亿、千亿级的结构化数据，生成的数据定义具有广泛性和代表性。

本发明解决其技术问题所采用的技术方案是：

一种通用结构化大数据生成方法，该方法将数据结构化，结构化数据分类包括大数据表、小数据表和文本文档，

大数据表中包含40个常用类型字段；小数据表中包含4个字段的整型及不同的取值范围；文本文档描述不同字符串的内容。

依据大数据测试选型经验来设计大数据表与小数据表结构并快速生成指定容量的数据，该方法可以快速完成大数据结构定义，快速完成数据准备工作，可以生成百亿、千亿级的结构化数据，生成的数据定义具有广泛性、代表性，业务真实性。

优选的，所述大数据表中的常用数据类型选取包含日期、整型、浮点和字符串四种常用基础类型。

进一步的，大数据表中整型数据的取值范围定义在0-100000，划分为4个字段，每个字段取值范围不同，小数据表针对整型0-100000定义四个字段。

进一步的，浮点数的取值为-100到100，并保留6个小数。

进一步的，字符串类型的字段选取4、8、20、32、64、128、256、512、8192字节，对于长度为64-8192字节的内容从文本文档中随机读取内容写入。

优选的，大数据表中的字段类型还包括常用的长度和数值范围。

优选的，生成的大数据表一条记录≥16K且≤20K，小数据表每表数据16字节。

具体的，该方法通过大数据平台生成数据的方式如下：

a)、规则定义，包括大数据表结构规则、小数据表结构规则和文件内容规则；

b)、进行工具开发，通过代码实现规则定义；

c)、大数据平台加载、导入和解析结构化数据文件；

d)、通过b)和c)生成结构化数据文件：数据文件1、数据文件2和数据文件3。

进一步的，代码实现规则定义包括：实现规则定义；结构化数据输出到文件中；可控制单个文件大小。

本发明的一种通用结构化大数据生成方法与现有技术相比，具有以下有益效果：

使用该方法生成通用的结构化大数据，可以快速完成数据准备工作，且可以生成百亿、千亿级的结构化数据，生成的数据定义具有广泛性、代表性和业务真实性。

该方法可以快速构建符合通用业务场景的数据模板，在大数据平台选型、性能测试中可以快速构件测试数据，节省设计数据方案的人力和时间成本，解决了传统大数据平台选型测试时，数据构建与实际应用场景不相符、构建出的数据质量不佳、待海量数据生成后发现不符合业务场景等问题。

附图说明

图1是本发明通用结构化大数据生成方法通过大数据平台生成数据的示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

一种通用结构化大数据生成方法，该方法将数据结构化，结构化数据分为一个大数据表、一个小数据表和一个文本文档。

大数据表中包含40个常用类型字段；基于大数据测试的经验对于数据类型或字段类型选取包含日期、整型、浮点和字符串四种常用基础类型，另外包括常用的长度和数值范围等字段类型。

将大数据表中整型数据的取值范围定义在0-100000，划分为四个字段，每个字段取值范围不同；浮点数的取值为-100到100，并保留6个小数；对于字符串类型的字段选取4、8、20、32、64、128、256、512、8192字节，对于长度为64-8192字节的内容从文本文档中随机读取内容写入。该方案生成的大数据表一条记录在18K左右。

小数据表中包含4个字段的整型及不同的取值范围。小数据表主要是针对整型0-100000定义了四个字段，不同字段取值不一样。小数据表的每表数据16个字节。

文本文档描述不同字符串的内容。

大表数据结构如下表所示：

样本数据格式如下：(包含多种语言)

小表数据结构如下所示：

序号	字段名	字段类型	长度	随机生成方式
					1	BA	整型	－	随机产生，范围为0-10。
2	BB	整型	－	随机产生，范围为0-1000。
					3	BC	整型	－	随机产生，范围为0-10000。
4	BD	整型	－	随机产生，范围为0-100000。

通过大数据平台生成数据的方式如下：

b)、进行工具开发，通过代码实现规则定义；包括

1、实现规则定义；

2、结构化数据输出到文件中；

3、可控制单个文件大小。

c)、大数据平台加载、导入和解析结构化数据文件；

将数据结构化，数据分类分为大表数据、小表数据，数据字段类型为通用业务系统的常用字段类型，通过代码或工具手段根据本发明的通用结构化大数据生成方法即可快速生成百亿、千亿大数据测试中通用的结构化数据。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

Claims

1.一种通用结构化大数据生成方法，其特征在于将数据结构化，结构化数据分类包括大数据表、小数据表和文本文档，其中，

2.根据权利要求1所述的一种通用结构化大数据生成方法，其特征在于所述大数据表中的常用数据类型包含日期、整型、浮点和字符串。

3.根据权利要求2所述的一种通用结构化大数据生成方法，其特征在于大数据表中整型数据的取值范围定义在0-100000，划分为4个字段，每个字段取值范围不同。

4.根据权利要求3所述的一种通用结构化大数据生成方法，其特征在于浮点数的取值为-100到100，并保留6个小数。

5.根据权利要求4所述的一种通用结构化大数据生成方法，其特征在于字符串类型的字段选取4、8、20、32、64、128、256、512、8192字节，对于长度为64-8192字节的内容从文本文档中随机读取内容写入。

6.根据权利要求2所述的一种通用结构化大数据生成方法，其特征在于大数据表中的字段类型还包括常用的长度和数值范围。

7.根据权利要求1所述的一种通用结构化大数据生成方法，其特征在于生成的大数据表一条记录≥16K且≤20K，小数据表每表数据16字节。

8.根据权利要求1所述的一种通用结构化大数据生成方法，其特征在于该方法通过大数据平台生成数据的方式如下：

b)、进行工具开发，通过代码实现规则定义；

c)、大数据平台加载、导入和解析结构化数据文件；

9.根据权利要求8所述的一种通用结构化大数据生成方法，其特征在于代码实现规则定义包括：实现规则定义；结构化数据输出到文件中；可控制单个文件大小。