CN109753495A - 一种通用结构化大数据生成方法 - Google Patents

一种通用结构化大数据生成方法 Download PDF

Info

Publication number
CN109753495A
CN109753495A CN201910080069.2A CN201910080069A CN109753495A CN 109753495 A CN109753495 A CN 109753495A CN 201910080069 A CN201910080069 A CN 201910080069A CN 109753495 A CN109753495 A CN 109753495A
Authority
CN
China
Prior art keywords
data
big data
generation method
big
universal architecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910080069.2A
Other languages
English (en)
Inventor
刘祥
孟建
刘伟鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201910080069.2A priority Critical patent/CN109753495A/zh
Publication of CN109753495A publication Critical patent/CN109753495A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种通用结构化大数据生成方法和系统,属于大数据技术领域,该方法将数据结构化,结构化数据分类包括大数据表、小数据表和文本文档,其中,大数据表中包含40个常用类型字段;小数据表中包含4个字段的整型及不同的取值范围;文本文档描述不同字符串的内容。本发明可以快速完成数据准备工作,且可以生成百亿、千亿级的结构化数据,生成的数据定义具有广泛性、代表性和业务真实性,在大数据平台选型、性能测试中可以快速构件测试数据,节省设计数据方案的人力和时间成本。

Description

一种通用结构化大数据生成方法
技术领域
本发明涉及大数据技术领域,具体涉及一种通用结构化大数据生成方法。
背景技术
随着新一代计算机技术的发展,大数据应用越来越广泛、如医疗行业、保险行业、公众服务等,越来越多的行业将数据视为重要资产,将数据规模化、集中化、智能化,来推动产业发展,让数据创造价值。由于大数据的量级较大,有百亿、千亿级数量、TB、PB级的容量,因此对大数据平台的性能要求也就非常高。
POC测试,即Proof of Concept,是业界流行的针对客户具体应用的验证性测试,根据用户对采用系统提出的性能要求和扩展需求的指标,在选用服务器上进行真实数据的运行,对承载用户数据量和运行时间进行实际测算,并根据用户未来业务扩展的需求加大数据量以验证系统和平台的承载能力和性能变化。在大数据平台POC测试中、基础数据准备是非常重要的一个环节,有时为了准备大量的数据而耗费数天、数周的时间、而且准备出来的数据不全,不科学不能覆盖常规数据结构场景。如何快速生成高质量的测试数据、在短时间内生成百亿、千亿级结构化数据,提升大数据平台测试的数据内容的真实性、数据量的真实性是亟待解决的问题。
发明内容
本发明的技术任务是提供一种通用结构化大数据生成方法,可以生成百亿、千亿级的结构化数据,生成的数据定义具有广泛性和代表性。
本发明解决其技术问题所采用的技术方案是:
一种通用结构化大数据生成方法,该方法将数据结构化,结构化数据分类包括大数据表、小数据表和文本文档,
大数据表中包含40个常用类型字段;小数据表中包含4个字段的整型及不同的取值范围;文本文档描述不同字符串的内容。
依据大数据测试选型经验来设计大数据表与小数据表结构并快速生成指定容量的数据,该方法可以快速完成大数据结构定义,快速完成数据准备工作,可以生成百亿、千亿级的结构化数据,生成的数据定义具有广泛性、代表性,业务真实性。
优选的,所述大数据表中的常用数据类型选取包含日期、整型、浮点和字符串四种常用基础类型。
进一步的,大数据表中整型数据的取值范围定义在0-100000,划分为4个字段,每个字段取值范围不同,小数据表针对整型0-100000定义四个字段。
进一步的,浮点数的取值为-100到100,并保留6个小数。
进一步的,字符串类型的字段选取4、8、20、32、64、128、256、512、8192字节,对于长度为64-8192字节的内容从文本文档中随机读取内容写入。
优选的,大数据表中的字段类型还包括常用的长度和数值范围。
优选的,生成的大数据表一条记录≥16K且≤20K,小数据表每表数据16字节。
具体的,该方法通过大数据平台生成数据的方式如下:
a)、规则定义,包括大数据表结构规则、小数据表结构规则和文件内容规则;
b)、进行工具开发,通过代码实现规则定义;
c)、大数据平台加载、导入和解析结构化数据文件;
d)、通过b)和c)生成结构化数据文件:数据文件1、数据文件2和数据文件3。
进一步的,代码实现规则定义包括:实现规则定义;结构化数据输出到文件中;可控制单个文件大小。
本发明的一种通用结构化大数据生成方法与现有技术相比,具有以下有益效果:
使用该方法生成通用的结构化大数据,可以快速完成数据准备工作,且可以生成百亿、千亿级的结构化数据,生成的数据定义具有广泛性、代表性和业务真实性。
该方法可以快速构建符合通用业务场景的数据模板,在大数据平台选型、性能测试中可以快速构件测试数据,节省设计数据方案的人力和时间成本,解决了传统大数据平台选型测试时,数据构建与实际应用场景不相符、构建出的数据质量不佳、待海量数据生成后发现不符合业务场景等问题。
附图说明
图1是本发明通用结构化大数据生成方法通过大数据平台生成数据的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
一种通用结构化大数据生成方法,该方法将数据结构化,结构化数据分为一个大数据表、一个小数据表和一个文本文档。
大数据表中包含40个常用类型字段;基于大数据测试的经验对于数据类型或字段类型选取包含日期、整型、浮点和字符串四种常用基础类型,另外包括常用的长度和数值范围等字段类型。
将大数据表中整型数据的取值范围定义在0-100000,划分为四个字段,每个字段取值范围不同;浮点数的取值为-100到100,并保留6个小数;对于字符串类型的字段选取4、8、20、32、64、128、256、512、8192字节,对于长度为64-8192字节的内容从文本文档中随机读取内容写入。该方案生成的大数据表一条记录在18K左右。
小数据表中包含4个字段的整型及不同的取值范围。小数据表主要是针对整型0-100000定义了四个字段,不同字段取值不一样。小数据表的每表数据16个字节。
文本文档描述不同字符串的内容。
依据大数据测试选型经验来设计大数据表与小数据表结构并快速生成指定容量的数据,该方法可以快速完成大数据结构定义,快速完成数据准备工作,可以生成百亿、千亿级的结构化数据,生成的数据定义具有广泛性、代表性,业务真实性。
大表数据结构如下表所示:
样本数据格式如下:(包含多种语言)
小表数据结构如下所示:
序号 字段名 字段类型 长度 随机生成方式
1 BA 整型 随机产生,范围为0-10。
2 BB 整型 随机产生,范围为0-1000。
3 BC 整型 随机产生,范围为0-10000。
4 BD 整型 随机产生,范围为0-100000。
通过大数据平台生成数据的方式如下:
a)、规则定义,包括大数据表结构规则、小数据表结构规则和文件内容规则;
b)、进行工具开发,通过代码实现规则定义;包括
1、实现规则定义;
2、结构化数据输出到文件中;
3、可控制单个文件大小。
c)、大数据平台加载、导入和解析结构化数据文件;
d)、通过b)和c)生成结构化数据文件:数据文件1、数据文件2和数据文件3。
将数据结构化,数据分类分为大表数据、小表数据,数据字段类型为通用业务系统的常用字段类型,通过代码或工具手段根据本发明的通用结构化大数据生成方法即可快速生成百亿、千亿大数据测试中通用的结构化数据。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (9)

1.一种通用结构化大数据生成方法,其特征在于将数据结构化,结构化数据分类包括大数据表、小数据表和文本文档,其中,
大数据表中包含40个常用类型字段;小数据表中包含4个字段的整型及不同的取值范围;文本文档描述不同字符串的内容。
2.根据权利要求1所述的一种通用结构化大数据生成方法,其特征在于所述大数据表中的常用数据类型包含日期、整型、浮点和字符串。
3.根据权利要求2所述的一种通用结构化大数据生成方法,其特征在于大数据表中整型数据的取值范围定义在0-100000,划分为4个字段,每个字段取值范围不同。
4.根据权利要求3所述的一种通用结构化大数据生成方法,其特征在于浮点数的取值为-100到100,并保留6个小数。
5.根据权利要求4所述的一种通用结构化大数据生成方法,其特征在于字符串类型的字段选取4、8、20、32、64、128、256、512、8192字节,对于长度为64-8192字节的内容从文本文档中随机读取内容写入。
6.根据权利要求2所述的一种通用结构化大数据生成方法,其特征在于大数据表中的字段类型还包括常用的长度和数值范围。
7.根据权利要求1所述的一种通用结构化大数据生成方法,其特征在于生成的大数据表一条记录≥16K且≤20K,小数据表每表数据16字节。
8.根据权利要求1所述的一种通用结构化大数据生成方法,其特征在于该方法通过大数据平台生成数据的方式如下:
a)、规则定义,包括大数据表结构规则、小数据表结构规则和文件内容规则;
b)、进行工具开发,通过代码实现规则定义;
c)、大数据平台加载、导入和解析结构化数据文件;
d)、通过b)和c)生成结构化数据文件:数据文件1、数据文件2和数据文件3。
9.根据权利要求8所述的一种通用结构化大数据生成方法,其特征在于代码实现规则定义包括:实现规则定义;结构化数据输出到文件中;可控制单个文件大小。
CN201910080069.2A 2019-01-28 2019-01-28 一种通用结构化大数据生成方法 Pending CN109753495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910080069.2A CN109753495A (zh) 2019-01-28 2019-01-28 一种通用结构化大数据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910080069.2A CN109753495A (zh) 2019-01-28 2019-01-28 一种通用结构化大数据生成方法

Publications (1)

Publication Number Publication Date
CN109753495A true CN109753495A (zh) 2019-05-14

Family

ID=66406374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910080069.2A Pending CN109753495A (zh) 2019-01-28 2019-01-28 一种通用结构化大数据生成方法

Country Status (1)

Country Link
CN (1) CN109753495A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597781A (zh) * 2020-05-19 2020-08-28 浪潮软件集团有限公司 非结构化大数据生成方法、系统、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186639A (zh) * 2011-12-31 2013-07-03 腾讯科技(北京)有限公司 数据生成方法及系统
CN104572122A (zh) * 2015-01-28 2015-04-29 中国工商银行股份有限公司 一种软件应用数据的生成装置及方法
CN105095325A (zh) * 2014-05-23 2015-11-25 中兴通讯股份有限公司 一种测试数据的生成方法及装置
CN105389384A (zh) * 2015-12-03 2016-03-09 万达信息股份有限公司 一种医疗隐私数据交换文件生成方法
CN105868364A (zh) * 2016-03-29 2016-08-17 中国电子科技集团公司第二十八研究所 一种基于字节流的结构化数据表示方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186639A (zh) * 2011-12-31 2013-07-03 腾讯科技(北京)有限公司 数据生成方法及系统
CN105095325A (zh) * 2014-05-23 2015-11-25 中兴通讯股份有限公司 一种测试数据的生成方法及装置
CN104572122A (zh) * 2015-01-28 2015-04-29 中国工商银行股份有限公司 一种软件应用数据的生成装置及方法
CN105389384A (zh) * 2015-12-03 2016-03-09 万达信息股份有限公司 一种医疗隐私数据交换文件生成方法
CN105868364A (zh) * 2016-03-29 2016-08-17 中国电子科技集团公司第二十八研究所 一种基于字节流的结构化数据表示方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597781A (zh) * 2020-05-19 2020-08-28 浪潮软件集团有限公司 非结构化大数据生成方法、系统、存储介质及电子设备
CN111597781B (zh) * 2020-05-19 2023-06-02 浪潮软件集团有限公司 非结构化大数据生成方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
Baron Probability and statistics for computer scientists
CN104615667A (zh) 一种基础数据生成方法、测试用数据生成方法及其装置
North A method for implementing a statistically significant number of data classes in the Jenks algorithm
CN105808437B (zh) 基于测试用例数据表的自动化测试方法及系统
CN108985066A (zh) 一种智能合约安全漏洞检测方法、装置、终端及存储介质
CN113836038B (zh) 测试数据构造方法、装置、设备及存储介质
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN110765280B (zh) 地址识别方法和装置
CN113961473A (zh) 数据测试方法、装置、电子设备及计算机可读存储介质
US20220269820A1 (en) Artificial intelligence based data redaction of documents
Garrard Geoprocessing with python
Brenskelle et al. Maximizing human effort for analyzing scientific images: A case study using digitized herbarium sheets
CN101770388A (zh) 获取芯片代码信息的方法和装置
CN109753495A (zh) 一种通用结构化大数据生成方法
CN113902404A (zh) 基于人工智能的员工晋升分析方法、装置、设备及介质
Borges et al. Towards two-tier citizen sensing
CN104424596B (zh) 基于通信日志的报文分析方法以及生产报文分析工具
CN115496166A (zh) 多任务处理方法、装置、电子设备及存储介质
CN113434650A (zh) 问答对扩展方法、装置、电子设备及可读存储介质
Scholes Applying the significant-digit law to simplify grading of chemical engineering students design projects
Morrison et al. Applying data structures in exams
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN112651862A (zh) 学生学业发展方向规划方法、装置、设备及可读存储介质
CN114492413B (zh) 文本校对方法、装置和电子设备
O’Leary-Driscoll et al. Studying Latina/o Undergraduates' Scientific Literacy in an Immersive Science Research Experience

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514