CN114238343A

CN114238343A - 基于大数据的多维度可变性自动化造数据模型的实现方法

Info

Publication number: CN114238343A
Application number: CN202111585538.XA
Authority: CN
Inventors: 阎星娥; 赵万亮; 刘慰慰; 杨昆; 严荣明; 张�林; 王月铭; 武红年; 卢鹏程; 张新阳
Original assignee: Nanjing Huafei Data Technology Co ltd
Current assignee: Nanjing Huafei Data Technology Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-25
Anticipated expiration: 2041-12-23
Also published as: CN114238343B

Abstract

本发明基于大数据的多维度可变性自动化造数据模型的实现方法，造数据模型依次包括基于SSM架构的界面平台、数据配置模块、基于structs架构的数据处理模块、数据存储输出模块。整个算法实现流程包括对客户端输入的数据进行分析，配置管理模块进行配置管理，并由数据处理模块统一调配前台需求和相关配置，进行造数据工作，最终将数据输出给对应的数据库或者文件。本发明解决了开发人员和测试人员造数据的难题，不仅支持各种结构化的文件输出，也支持当前主流数据库入库，真正实现了全自动化造数据，缩减了人力成本的同时，也从根本上提高了工作效率，大数据测试，能够通过放大现象的方式来发现更多问题，规避更多风险。

Description

基于大数据的多维度可变性自动化造数据模型的实现方法

技术领域

本发明是基于大数据需求下的自动化造数据工具的实现方法，该工具主要特点是大数据、多维度、可变性、高效性，为开发以及测试人员提供多样性、可验证的数据，通过扩大测试数据量来达到放大产品缺陷的目的，规避更多风险。

背景技术

人类进入大数据时代以来，如何高效、准确的处理大数据信息已经是我们不得不面对的问题，作为一个测试人员，深知在测试过程中测试数据的重要性，大数据前情下人工造数据不仅会耗费大量的人力财力，由于数据多样性，人工疲劳所带来的失误也是不可避免的，当前市场各种数据分析工具多种多样，但是却从未出现过较为系统的造数据工具。

传统意义上的造数据方法，应用范围较窄复用性低，大数据下ETL处理难，缺少工具；无数据、缺数据、自行采数受限多；搭建爬虫团队成本较高。现在的造数据方法很好的解决了以上历史遗留问题。

发明内容

本发明的目的是针对人工造数据方法以及传统造数据方法的不足之处，提供一个基于structs架构的造数据工具以及其所涵盖模型的算法，通过该工具及提供的算法，可以塑造出一个为研发人员自测、测试人员测试提供大数据量的工具平台，通过扩大测试数据量来达到放大产品缺陷的目的，支持服务器后台运行以及界面化设置，满足不同需求。

本发明是采取以下技术方案实现的：

基于大数据的多维度可变性自动化造数据模型的实现方法，所述的造数据模型依次包括界面平台、数据配置模块、数据处理模块、数据存储输出模块;

所述界面平台部分用于获取用户需求；

所述数据配置模块用于将经过调研支持的数据格式进行配置，部分数据还按照一定算法进行了存储，为后续造数据工作做好准备；

所述数据处理模块将界面平台中获取的用户需求部分同数据配置模块通过设定方法进行融合，产生对应的数据，并暂时存放在缓存中；

所述数据存储输出模块用于将以上所产生的数据进行输出，支持输出方式的多样化，数据存储输出模块包含文件输出模块和数据库输出模块；

包括如下步骤：

1）界面平台通过ssm架构引入jar包，对系统进行二次封装，提供一个可视化的界面平台；

2）数据配置模块提前将调研数据按照一定数据结构进行存储，为后续数据获取提供离线的知识库；

3）数据处理模块从步骤1）的前台界面获取用户需求的数据以及数据格式，通过与提前配置好的数据配置模块匹配，产生需要的数据，并将数据暂时存放在内存中，等待数据存储输出模块将数据进行整合后输出；

4）数据存储输出模块将步骤3）中获得的分析计算的结果数据进行输出或者存储。

文件输出格式为：csv、txt、excel、bcp；数据库输出格式包括：oracle、postgresql、mysql、sqlserver、hive，所述数据模块基于structs架构。

所述数据存储模块中的数据分为地址数据与其他数据，

所述地址数据集成到一棵基于B-树的多路搜索树中，并将上述数据组成深度为10的多路搜索树，所述搜索树的根结点分别作为子结点合并到一个统一的根结点中；

其他数据利用已经封装好的JMockData方法通过正则表达式反向模拟数据。

数据处理模块对多路搜索树进行遍历，具体过程如下：

3-1）模块方位任意一个结点P，若其子孙结点不为空，则将P入栈，记录P结点孩子结点个数num,并取得一个随机数m(1<=m<=num),该随机数对应的data值作为新的P结点，然后对新的结点P做相同处理；

3-2）若其子孙结点为空，则取栈顶元素进行出栈操作；

3-3）直到栈中元素为空并且P为NULL，完成全部元素出栈；

3-4）出栈的数据依次排列，则为需要获取的地址数据。

所述数据存储模块中的数据存储输出模块，由一个抽象的基类为中心，每一个输出方式的支持，都继承并实现该基类。

步骤3-1）中的结点为树中每一个有数据的点，步骤3-1）中子孙结点为以某结点为根的子树中的任一结点。

本发明对比现有背景技术有如下的有益效果：

本发明解决了开发人员和测试人员造数据的难题，提供了可视化的界面操作，用户只需要进行界面操作就能够得到测试数据；同时使用二次开发的B-树进行存储大数据，提高了查询性能的同时也解决了海量数据离线缓存的问题；输出方式的多样性，不仅支持各种结构化的文件输出，也支持当前主流数据库入库，真正实现了全自动化造数据，缩减了人力成本的同时，也从根本上提高了工作效率，大数据测试，能够通过放大现象的方式来发现更多问题，规避更多风险。

附图说明

以下将结合附图对本发明作进一步说明：

图1是本发明所述的B-树二次开发后的存储模型示意图；

图2是图1部分节点对照表；

图3是本发明模型的实现架构图总图；

图4是本发明模型实现架构图的配置管理部分和数据处理部分详情示意图；

图5是本发明模型实现架构图的数据存储输出部分详情示意图；

图6是本发明模型conf配置下的数据样例示意图；

图7是本发明所述的方法实现方式流程示意图。

具体实施方式

参照附图1～6，在使用本发明方法前，需要搭建有存储需求的数据库，其余方面不受平台限制，具有较好的兼容性。

图3中整个实现流程包括界面平台、数据配置模块、数据处理模块、数据存储输出模块。客户端或者接口提供分析请求，服务端解析后提交到数据处理模块，分析需求并生成数据，最终结果入库或者以文件形式输出。具体包括如下步骤：

1）界面平台

从外部接入需求，由于需求的多样性和复杂性，通过ssm架构引入jar包，将参数进行封装，以直观化的界面平台方式展现给用户，用户以拖拽方式传入参数，或者可以通过手动输入参数，平台将参数进行格式统一、字典转换等处理后，发给配置处理模块；

2）数据配置模块

数据配置分为两部分，一部分是以conf文件夹下properties文件为主，一部分是以B-树存储的数据，另一部分是以字典表的形式存储于数据库中；

2-1）Conf配置部分用户可以根据自己需求进行自定义更改，增加或者删除的格式附件中已经给出；

图6即是以手机号码为例的conf配置结果示意图。

2-2）以地址为例的数据类型，存储在B-树中，需要遍历B-树读取数据；

2-3）以证件号码等编码类数据，则是存储部分规则于数据库中，如地市编码、或者国籍编码；

3）数据处理模块

由数据存储输出模块从1）中获取用户从界面上传来的参数，从2）数据配置模块获取数据，通过以下方法匹配数据：

将前台传来的参数进行切分、拼接等操作，经过2）中所述处理后，通过对配置的控制读取，将两者进行连接，此时将数据暂存缓存中；

所述数据存储模块中的数据分为地址数据与其他数据：

数据处理模块对多路搜索树进行遍历，具体过程如下：

3-2）若其子孙结点为空，则取栈顶元素进行出栈操作；

3-3）直到栈中元素为空并且P为NULL，完成全部元素出栈；

3-4）出栈的数据依次排列，则为需要获取的地址数据。

步骤3-1）中的结点为树中每一个有数据的点。

步骤3-1）中子孙结点为以某结点为根的子树中的任一结点。

4）数据存储输出模块

数据存储输出模块将步骤3）中获得的分析计算的结果数据进行输出或者存储。

4-1）如果输出格式指定为数据库，则解析所给数据库连接串，建立与数据库的连接后，将数据多线程分批写入；

4-2）如果输出格式指定为文件输出，首先建立同各个文件输出格式之间的接口，将数据内容按照多线程写入后，将输出文件以zip包形式发送到前台，用户从前台就可以直接获取所需要数据。

Claims

1.一种基于大数据的多维度可变性自动化造数据模型的实现方法，所述的造数据模型依次包括界面平台、数据配置模块、数据处理模块、数据存储输出模块;

所述界面平台部分用于获取用户需求；

其特征在于：包括如下步骤：

2）数据配置模块提前将调研数据进行存储，为后续数据获取提供离线的知识库；

2.根据权利要求1所述的基于大数据的多维度可变性自动化造数据模型的实现方法，其特征在于：文件输出格式为：csv、txt、excel、bcp；数据库输出格式包括：oracle、postgresql、mysql、sqlserver、hive，所述数据模块基于structs架构。

3.根据权利要求1所述的基于大数据的多维度可变性自动化造数据模型的实现方法，其特征在于，所述数据存储模块中的数据分为地址数据与其他数据，

所述其他数据利用已经封装好的JMockData方法通过正则表达式反向模拟数据。

4.根据权利要求3所述的基于大数据的多维度可变性自动化造数据模型的实现方法，其特征在于，所述数据处理模块对多路搜索树进行遍历，具体过程如下：

3-1）模块访问任意一个结点P，若其子孙结点不为空，则将P入栈，记录P结点孩子结点个数num,并取得一个随机数m(1<=m<=num),该随机数对应的data值作为新的P结点，然后对新的结点P做相同处理；

3-2）若其子孙结点为空，则取栈顶元素进行出栈操作；

3-3）重复上述步骤直到栈中元素为空并且P为NULL，完成全部元素出栈；

3-4）出栈的数据依次排列，则为需要获取的地址数据，

5.根据权利要求4所述的基基于大数据的多维度可变性自动化造数据模型的实现方法,其特征在于，步骤3-1）中的结点为树中每一个有数据的点，步骤3-1）中子孙结点为以某结点为根的子树中的任一结点。