CN114238343A - 基于大数据的多维度可变性自动化造数据模型的实现方法 - Google Patents

基于大数据的多维度可变性自动化造数据模型的实现方法 Download PDF

Info

Publication number
CN114238343A
CN114238343A CN202111585538.XA CN202111585538A CN114238343A CN 114238343 A CN114238343 A CN 114238343A CN 202111585538 A CN202111585538 A CN 202111585538A CN 114238343 A CN114238343 A CN 114238343A
Authority
CN
China
Prior art keywords
data
module
node
output
manufacturing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111585538.XA
Other languages
English (en)
Other versions
CN114238343B (zh
Inventor
阎星娥
赵万亮
刘慰慰
杨昆
严荣明
张�林
王月铭
武红年
卢鹏程
张新阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huafei Data Technology Co ltd
Original Assignee
Nanjing Huafei Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huafei Data Technology Co ltd filed Critical Nanjing Huafei Data Technology Co ltd
Priority to CN202111585538.XA priority Critical patent/CN114238343B/zh
Publication of CN114238343A publication Critical patent/CN114238343A/zh
Application granted granted Critical
Publication of CN114238343B publication Critical patent/CN114238343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明基于大数据的多维度可变性自动化造数据模型的实现方法,造数据模型依次包括基于SSM架构的界面平台、数据配置模块、基于structs架构的数据处理模块、数据存储输出模块。整个算法实现流程包括对客户端输入的数据进行分析,配置管理模块进行配置管理,并由数据处理模块统一调配前台需求和相关配置,进行造数据工作,最终将数据输出给对应的数据库或者文件。本发明解决了开发人员和测试人员造数据的难题,不仅支持各种结构化的文件输出,也支持当前主流数据库入库,真正实现了全自动化造数据,缩减了人力成本的同时,也从根本上提高了工作效率,大数据测试,能够通过放大现象的方式来发现更多问题,规避更多风险。

Description

基于大数据的多维度可变性自动化造数据模型的实现方法
技术领域
本发明是基于大数据需求下的自动化造数据工具的实现方法,该工具主要特点是大数据、多维度、可变性、高效性,为开发以及测试人员提供多样性、可验证的数据,通过扩大测试数据量来达到放大产品缺陷的目的,规避更多风险。
背景技术
人类进入大数据时代以来,如何高效、准确的处理大数据信息已经是我们不得不面对的问题,作为一个测试人员,深知在测试过程中测试数据的重要性,大数据前情下人工造数据不仅会耗费大量的人力财力,由于数据多样性,人工疲劳所带来的失误也是不可避免的,当前市场各种数据分析工具多种多样,但是却从未出现过较为系统的造数据工具。
传统意义上的造数据方法,应用范围较窄复用性低,大数据下ETL处理难,缺少工具;无数据、缺数据、自行采数受限多;搭建爬虫团队成本较高。现在的造数据方法很好的解决了以上历史遗留问题。
发明内容
本发明的目的是针对人工造数据方法以及传统造数据方法的不足之处,提供一个基于structs架构的造数据工具以及其所涵盖模型的算法,通过该工具及提供的算法,可以塑造出一个为研发人员自测、测试人员测试提供大数据量的工具平台,通过扩大测试数据量来达到放大产品缺陷的目的,支持服务器后台运行以及界面化设置,满足不同需求。
本发明是采取以下技术方案实现的:
基于大数据的多维度可变性自动化造数据模型的实现方法,所述的造数据模型依次包括界面平台、数据配置模块、数据处理模块、数据存储输出模块;
所述界面平台部分用于获取用户需求;
所述数据配置模块用于将经过调研支持的数据格式进行配置,部分数据还按照一定算法进行了存储,为后续造数据工作做好准备;
所述数据处理模块将界面平台中获取的用户需求部分同数据配置模块通过设定方法进行融合,产生对应的数据,并暂时存放在缓存中;
所述数据存储输出模块用于将以上所产生的数据进行输出,支持输出方式的多样化,数据存储输出模块包含文件输出模块和数据库输出模块;
包括如下步骤:
1)界面平台通过ssm架构引入jar包,对系统进行二次封装,提供一个可视化的界面平台;
2)数据配置模块提前将调研数据按照一定数据结构进行存储,为后续数据获取提供离线的知识库;
3)数据处理模块从步骤1)的前台界面获取用户需求的数据以及数据格式,通过与提前配置好的数据配置模块匹配,产生需要的数据,并将数据暂时存放在内存中,等待数据存储输出模块将数据进行整合后输出;
4)数据存储输出模块将步骤3)中获得的分析计算的结果数据进行输出或者存储。
文件输出格式为:csv、txt、excel、bcp;数据库输出格式包括:oracle、postgresql、mysql、sqlserver、hive,所述数据模块基于structs架构。
所述数据存储模块中的数据分为地址数据与其他数据,
所述地址数据集成到一棵基于B-树的多路搜索树中,并将上述数据组成深度为10的多路搜索树,所述搜索树的根结点分别作为子结点合并到一个统一的根结点中;
其他数据利用已经封装好的JMockData方法通过正则表达式反向模拟数据。
数据处理模块对多路搜索树进行遍历,具体过程如下:
3-1)模块方位任意一个结点P,若其子孙结点不为空,则将P入栈,记录P结点孩子结点个数num,并取得一个随机数m(1<=m<=num),该随机数对应的data值作为新的P结点,然后对新的结点P做相同处理;
3-2)若其子孙结点为空,则取栈顶元素进行出栈操作;
3-3)直到栈中元素为空并且P为NULL,完成全部元素出栈;
3-4)出栈的数据依次排列,则为需要获取的地址数据。
所述数据存储模块中的数据存储输出模块,由一个抽象的基类为中心,每一个输出方式的支持,都继承并实现该基类。
步骤3-1)中的结点为树中每一个有数据的点,步骤3-1)中子孙结点为以某结点为根的子树中的任一结点。
本发明对比现有背景技术有如下的有益效果:
本发明解决了开发人员和测试人员造数据的难题,提供了可视化的界面操作,用户只需要进行界面操作就能够得到测试数据;同时使用二次开发的B-树进行存储大数据,提高了查询性能的同时也解决了海量数据离线缓存的问题;输出方式的多样性,不仅支持各种结构化的文件输出,也支持当前主流数据库入库,真正实现了全自动化造数据,缩减了人力成本的同时,也从根本上提高了工作效率,大数据测试,能够通过放大现象的方式来发现更多问题,规避更多风险。
附图说明
以下将结合附图对本发明作进一步说明:
图1是本发明所述的B-树二次开发后的存储模型示意图;
图2是图1部分节点对照表;
图3是本发明模型的实现架构图总图;
图4是本发明模型实现架构图的配置管理部分和数据处理部分详情示意图;
图5是本发明模型实现架构图的数据存储输出部分详情示意图;
图6是本发明模型conf配置下的数据样例示意图;
图7是本发明所述的方法实现方式流程示意图。
具体实施方式
参照附图1~6,在使用本发明方法前,需要搭建有存储需求的数据库,其余方面不受平台限制,具有较好的兼容性。
图3中整个实现流程包括界面平台、数据配置模块、数据处理模块、数据存储输出模块。客户端或者接口提供分析请求,服务端解析后提交到数据处理模块,分析需求并生成数据,最终结果入库或者以文件形式输出。具体包括如下步骤:
1) 界面平台
从外部接入需求,由于需求的多样性和复杂性,通过ssm架构引入jar包,将参数进行封装,以直观化的界面平台方式展现给用户,用户以拖拽方式传入参数,或者可以通过手动输入参数,平台将参数进行格式统一、字典转换等处理后,发给配置处理模块;
2) 数据配置模块
数据配置分为两部分,一部分是以conf文件夹下properties文件为主,一部分是以B-树存储的数据,另一部分是以字典表的形式存储于数据库中;
2-1)Conf配置部分用户可以根据自己需求进行自定义更改,增加或者删除的格式附件中已经给出;
图6即是以手机号码为例的conf配置结果示意图。
2-2)以地址为例的数据类型,存储在B-树中,需要遍历B-树读取数据;
2-3)以证件号码等编码类数据,则是存储部分规则于数据库中,如地市编码、或者国籍编码;
3) 数据处理模块
由数据存储输出模块从1)中获取用户从界面上传来的参数,从2)数据配置模块获取数据,通过以下方法匹配数据:
将前台传来的参数进行切分、拼接等操作,经过2)中所述处理后,通过对配置的控制读取,将两者进行连接,此时将数据暂存缓存中;
所述数据存储模块中的数据分为地址数据与其他数据:
其他数据利用已经封装好的JMockData方法通过正则表达式反向模拟数据。
所述地址数据集成到一棵基于B-树的多路搜索树中,并将上述数据组成深度为10的多路搜索树,所述搜索树的根结点分别作为子结点合并到一个统一的根结点中;
数据处理模块对多路搜索树进行遍历,具体过程如下:
3-1)模块方位任意一个结点P,若其子孙结点不为空,则将P入栈,记录P结点孩子结点个数num,并取得一个随机数m(1<=m<=num),该随机数对应的data值作为新的P结点,然后对新的结点P做相同处理;
3-2)若其子孙结点为空,则取栈顶元素进行出栈操作;
3-3)直到栈中元素为空并且P为NULL,完成全部元素出栈;
3-4)出栈的数据依次排列,则为需要获取的地址数据。
所述数据存储模块中的数据存储输出模块,由一个抽象的基类为中心,每一个输出方式的支持,都继承并实现该基类。
步骤3-1)中的结点为树中每一个有数据的点。
步骤3-1)中子孙结点为以某结点为根的子树中的任一结点。
4) 数据存储输出模块
数据存储输出模块将步骤3)中获得的分析计算的结果数据进行输出或者存储。
文件输出格式为:csv、txt、excel、bcp;数据库输出格式包括:oracle、postgresql、mysql、sqlserver、hive,所述数据模块基于structs架构。
4-1)如果输出格式指定为数据库,则解析所给数据库连接串,建立与数据库的连接后,将数据多线程分批写入;
4-2)如果输出格式指定为文件输出,首先建立同各个文件输出格式之间的接口,将数据内容按照多线程写入后,将输出文件以zip包形式发送到前台,用户从前台就可以直接获取所需要数据。
本发明解决了开发人员和测试人员造数据的难题,提供了可视化的界面操作,用户只需要进行界面操作就能够得到测试数据;同时使用二次开发的B-树进行存储大数据,提高了查询性能的同时也解决了海量数据离线缓存的问题;输出方式的多样性,不仅支持各种结构化的文件输出,也支持当前主流数据库入库,真正实现了全自动化造数据,缩减了人力成本的同时,也从根本上提高了工作效率,大数据测试,能够通过放大现象的方式来发现更多问题,规避更多风险。

Claims (5)

1.一种基于大数据的多维度可变性自动化造数据模型的实现方法,所述的造数据模型依次包括界面平台、数据配置模块、数据处理模块、数据存储输出模块;
所述界面平台部分用于获取用户需求;
所述数据配置模块用于将经过调研支持的数据格式进行配置,部分数据还按照一定算法进行了存储,为后续造数据工作做好准备;
所述数据处理模块将界面平台中获取的用户需求部分同数据配置模块通过设定方法进行融合,产生对应的数据,并暂时存放在缓存中;
所述数据存储输出模块用于将以上所产生的数据进行输出,支持输出方式的多样化,数据存储输出模块包含文件输出模块和数据库输出模块;
其特征在于:包括如下步骤:
1)界面平台通过ssm架构引入jar包,对系统进行二次封装,提供一个可视化的界面平台;
2)数据配置模块提前将调研数据进行存储,为后续数据获取提供离线的知识库;
3)数据处理模块从步骤1)的前台界面获取用户需求的数据以及数据格式,通过与提前配置好的数据配置模块匹配,产生需要的数据,并将数据暂时存放在内存中,等待数据存储输出模块将数据进行整合后输出;
4)数据存储输出模块将步骤3)中获得的分析计算的结果数据进行输出或者存储。
2.根据权利要求1所述的基于大数据的多维度可变性自动化造数据模型的实现方法,其特征在于:文件输出格式为:csv、txt、excel、bcp;数据库输出格式包括:oracle、postgresql、mysql、sqlserver、hive,所述数据模块基于structs架构。
3.根据权利要求1所述的基于大数据的多维度可变性自动化造数据模型的实现方法,其特征在于,所述数据存储模块中的数据分为地址数据与其他数据,
所述地址数据集成到一棵基于B-树的多路搜索树中,并将上述数据组成深度为10的多路搜索树,所述搜索树的根结点分别作为子结点合并到一个统一的根结点中;
所述其他数据利用已经封装好的JMockData方法通过正则表达式反向模拟数据。
4.根据权利要求3所述的基于大数据的多维度可变性自动化造数据模型的实现方法,其特征在于,所述数据处理模块对多路搜索树进行遍历,具体过程如下:
3-1)模块访问任意一个结点P,若其子孙结点不为空,则将P入栈,记录P结点孩子结点个数num,并取得一个随机数m(1<=m<=num),该随机数对应的data值作为新的P结点,然后对新的结点P做相同处理;
3-2)若其子孙结点为空,则取栈顶元素进行出栈操作;
3-3)重复上述步骤直到栈中元素为空并且P为NULL,完成全部元素出栈;
3-4)出栈的数据依次排列,则为需要获取的地址数据,
所述数据存储模块中的数据存储输出模块,由一个抽象的基类为中心,每一个输出方式的支持,都继承并实现该基类。
5.根据权利要求4所述的基基于大数据的多维度可变性自动化造数据模型的实现方法,其特征在于,步骤3-1)中的结点为树中每一个有数据的点,步骤3-1)中子孙结点为以某结点为根的子树中的任一结点。
CN202111585538.XA 2021-12-23 2021-12-23 基于大数据的多维度可变性自动化造数据模型的实现方法 Active CN114238343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111585538.XA CN114238343B (zh) 2021-12-23 2021-12-23 基于大数据的多维度可变性自动化造数据模型的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111585538.XA CN114238343B (zh) 2021-12-23 2021-12-23 基于大数据的多维度可变性自动化造数据模型的实现方法

Publications (2)

Publication Number Publication Date
CN114238343A true CN114238343A (zh) 2022-03-25
CN114238343B CN114238343B (zh) 2022-10-28

Family

ID=80761699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111585538.XA Active CN114238343B (zh) 2021-12-23 2021-12-23 基于大数据的多维度可变性自动化造数据模型的实现方法

Country Status (1)

Country Link
CN (1) CN114238343B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103574A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种格式化输出书版小样文件内容的方法及系统
CN102915340A (zh) * 2012-02-29 2013-02-06 浙江工商大学 一种扩展的基于b+树对象文件系统
CN103677825A (zh) * 2013-12-10 2014-03-26 国家电网公司 基于Java多线程通用数据处理框架及其构建方法
CN104426770A (zh) * 2013-09-09 2015-03-18 中兴通讯股份有限公司 路由查找方法及装置、B-Tree树结构的构建方法
CN104866585A (zh) * 2015-05-28 2015-08-26 华北计算技术研究所 一种试验试飞数据综合处理系统
CN105005606A (zh) * 2015-07-03 2015-10-28 华南理工大学 基于MapReduce的XML数据查询方法和系统
CN105354298A (zh) * 2015-11-01 2016-02-24 长春理工大学 基于Hadoop的大规模社交网络分析方法及其分析平台
CN107704608A (zh) * 2017-10-17 2018-02-16 北京览群智数据科技有限责任公司 一种olap多维分析和数据挖掘系统
CN110851357A (zh) * 2019-11-04 2020-02-28 紫光云技术有限公司 一种基于多数据库类型的测试数据自动构造方法
CN111400178A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 接口自动造数方法、装置、计算机设备及存储介质
CN113377652A (zh) * 2021-06-10 2021-09-10 中国工商银行股份有限公司 测试数据生成方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103574A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种格式化输出书版小样文件内容的方法及系统
CN102915340A (zh) * 2012-02-29 2013-02-06 浙江工商大学 一种扩展的基于b+树对象文件系统
CN104426770A (zh) * 2013-09-09 2015-03-18 中兴通讯股份有限公司 路由查找方法及装置、B-Tree树结构的构建方法
CN103677825A (zh) * 2013-12-10 2014-03-26 国家电网公司 基于Java多线程通用数据处理框架及其构建方法
CN104866585A (zh) * 2015-05-28 2015-08-26 华北计算技术研究所 一种试验试飞数据综合处理系统
CN105005606A (zh) * 2015-07-03 2015-10-28 华南理工大学 基于MapReduce的XML数据查询方法和系统
CN105354298A (zh) * 2015-11-01 2016-02-24 长春理工大学 基于Hadoop的大规模社交网络分析方法及其分析平台
CN107704608A (zh) * 2017-10-17 2018-02-16 北京览群智数据科技有限责任公司 一种olap多维分析和数据挖掘系统
CN110851357A (zh) * 2019-11-04 2020-02-28 紫光云技术有限公司 一种基于多数据库类型的测试数据自动构造方法
CN111400178A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 接口自动造数方法、装置、计算机设备及存储介质
CN113377652A (zh) * 2021-06-10 2021-09-10 中国工商银行股份有限公司 测试数据生成方法及装置

Also Published As

Publication number Publication date
CN114238343B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN103902698B (zh) 一种数据存储系统和存储方法
CN110309196A (zh) 区块链数据存储和查询方法、装置、设备及存储介质
CA2783451C (en) Method and system of adapting a data model to a user interface component
Vyawahare et al. A hybrid database approach using graph and relational database
US7831614B2 (en) System and method for generating SQL using templates
CN103810224A (zh) 信息持久化和查询方法及装置
CN114238488B (zh) 一种多专业数字化成果集成与数据交互方法及系统
CN110427471B (zh) 一种基于知识图谱的自然语言问答方法及系统
CN109376153A (zh) 一种基于NiFi的数据写入图数据库的系统及方法
CN107870949A (zh) 数据分析作业依赖关系生成方法和系统
CN113918605A (zh) 数据查询方法、装置、设备以及计算机存储介质
AGGOUNE et al. A method for transforming object-relational to document-oriented databases
CN116991750B (zh) 利用多线程和分布式代理实现大并发模拟的压力测试方法
CN113076300A (zh) 数据迁移后的数据校验方法及装置
CN114461723A (zh) 一种基于Spark计算引擎的数据差异比较方法及装置
CN114238343B (zh) 基于大数据的多维度可变性自动化造数据模型的实现方法
CN116578612A (zh) 锂电池成品检测数据资产构建方法
CN110399396A (zh) 高效的数据处理
CN106407266B (zh) 一种三维计算结果格式化提取方法和装置
CN117609101B (zh) 一种用户大数据多引擎压测的方法
CN110647588A (zh) 一种对任意复杂关系数据模型自动填写所有表格及大数据自动测试的通用算法
Diván et al. Articulating heterogeneous data streams with the attribute-relation file format
US20240086495A1 (en) Auto-Triage Failures In A/B Testing
CN106951427A (zh) 一种业务对象的数据抽取方法及装置
Bhandari et al. Enhancement of a Transformation Algorithm to Migrate SQL Database into NoSQL Graph Database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant