CN111737147A - 批量数据生成方法、装置、计算机设备及存储介质 - Google Patents

批量数据生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111737147A
CN111737147A CN202010702444.5A CN202010702444A CN111737147A CN 111737147 A CN111737147 A CN 111737147A CN 202010702444 A CN202010702444 A CN 202010702444A CN 111737147 A CN111737147 A CN 111737147A
Authority
CN
China
Prior art keywords
information
data generation
data
item
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010702444.5A
Other languages
English (en)
Other versions
CN111737147B (zh
Inventor
胡倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010702444.5A priority Critical patent/CN111737147B/zh
Publication of CN111737147A publication Critical patent/CN111737147A/zh
Application granted granted Critical
Publication of CN111737147B publication Critical patent/CN111737147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Abstract

本发明公开了批量数据生成方法、装置、计算机设备及存储介质。方法包括:根据数据生成请求配置得到信息采集程序,采集得到初始数据信息并通过筛选后得到筛选数据信息,根据项目信息及统计模板对筛选数据信息进行统计得到统计信息,根据统计信息、数据生成请求对数据生成模板进行配置得到数据生成任务,将数据生成任务分发至数据生成服务器以获取对应的虚拟数据信息。本发明基于数据采集技术,可对所采集得到的真实数据进行筛选并统计得到统计信息,根据统计信息中真实数据的分布情况配置数据生成任务以生成对应的虚拟数据信息,可大幅提升虚拟数据信息的真实性,从而满足软件产品测试过程中对测试数据真实性的要求。

Description

批量数据生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据采集技术领域,属于智慧城市中智能数据生成相关的应用场景,尤其涉及一种批量数据生成方法、装置、计算机设备及存储介质。
背景技术
软件测试是保证并提高软件质量的重要手段,它是软件生命周期中不可或缺的重要环节。软件测试过程中,测试数据的生成是其核心问题,也是软件测试的关键与难点所在,生成合适的测试数据是高效地进行软件测试的基础。
在现有技术中,为提高对软件产品进行测试的质量,通常需要准备大量的虚拟数据信息作为测试数据,现有的数据生成方法虽然可大批量生成虚拟数据信息,但所生成的虚拟数据信息因真实性不足往往会脱离测试的实际需求,严重影响了对软件产品进行测试的效率及质量,无法满足软件产品测试过程中对测试数据真实性的要求。因此,现有的技术方法在生成海量虚拟数据信息时存在真实性不足的问题。
发明内容
本发明实施例提供了一种批量数据生成方法、装置、计算机设备及存储介质,旨在解决现有技术方法在生成海量虚拟数据信息时所存在的真实性不足的问题。
第一方面,本发明实施例提供了一种批量数据生成方法,其包括:
接收用户输入的数据生成请求,根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置,得到配置的信息采集程序;
执行所述配置的信息采集程序得到对应的初始数据信息,根据所述数据生成请求对所述初始数据信息进行筛选,得到对应的筛选数据信息;
根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计,获取与每一项目对应的统计信息,其中所述项目信息中包含多个项目;
根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务;
将所述数据生成任务分发至多台所述数据生成服务器,获取多台所述数据生成服务器执行所述数据生成任务所生成的虚拟数据信息。
第二方面,本发明实施例提供了一种批量数据生成装置,其包括:
信息采集程序配置单元,用于接收用户输入的数据生成请求,根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置,得到配置的信息采集程序;
筛选数据信息获取单元,用于执行所述配置的信息采集程序得到对应的初始数据信息,根据所述数据生成请求对所述初始数据信息进行筛选,得到对应的筛选数据信息;
统计信息获取单元,用于根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计,获取与每一项目对应的统计信息,其中所述项目信息中包含多个项目;
数据生成任务获取单元,用于根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务;
虚拟数据信息获取单元,用于将所述数据生成任务分发至多台所述数据生成服务器,获取多台所述数据生成服务器执行所述数据生成任务所生成的虚拟数据信息。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的批量数据生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的批量数据生成方法。
本发明实施例提供了一种批量数据生成方法、装置、计算机设备及存储介质。根据数据生成请求配置得到信息采集程序,采集得到初始数据信息并通过筛选后得到筛选数据信息,根据项目信息及统计模板对筛选数据信息进行统计得到统计信息,根据统计信息、数据生成请求对数据生成模板进行配置得到数据生成任务,将数据生成任务分发至数据生成服务器以获取对应的虚拟数据信息。通过上述方法,可对所采集得到的真实数据进行筛选并统计得到统计信息,根据统计信息中真实数据的分布情况配置数据生成任务以生成对应的虚拟数据信息,可大幅提升虚拟数据信息的真实性,从而满足软件产品测试过程中对测试数据真实性的要求。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的批量数据生成方法的流程示意图;
图2为本发明实施例提供的批量数据生成方法的应用场景示意图;
图3为本发明实施例提供的批量数据生成方法的子流程示意图;
图4为本发明实施例提供的批量数据生成方法的另一子流程示意图;
图5为本发明实施例提供的批量数据生成方法的另一子流程示意图;
图6为本发明实施例提供的批量数据生成方法的另一子流程示意图;
图7为本发明实施例提供的批量数据生成方法的另一流程示意图;
图8为本发明实施例提供的批量数据生成方法的另一子流程示意图;
图9为本发明实施例提供的批量数据生成装置的示意性框图;
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1及图2,图1是本发明实施例提供的批量数据生成方法的流程示意图,图2为本发明实施例提供的批量数据生成方法的应用场景示意图。该批量数据生成方法应用于管理服务器10中,该方法通过安装于管理服务器10中的应用软件进行执行,管理服务器10与多台数据生成服务器20进行通信,每一台数据生成服务器20对应连接一台分布式存储单元30,管理服务器10可通过发送程序指令至数据生成服务器20以对数据生成服务器20进行管理,管理服务器10即是用于获取用户所输入的数据生成请求以数据生成任务并将其发至数据生成服务器20以完成虚拟数据信息生成的服务器端,数据生成服务器20即是所构建的用于执行来自管理服务器10的程序指令以完成虚拟数据生成的分布式服务器,分布式存储单元30即是用于对数据生成服务器20所生成的虚拟数据信息进行分布式存储的存储设备,分布式存储单元30中所存储的虚拟数据信息可经数据生成服务器20传输至管理服务器10。如图1所示,该方法包括步骤S110~S150。
S110、接收用户输入的数据生成请求,根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置,得到配置的信息采集程序。
若接收到用户所输入的数据生成请求,根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置以得到完成配置的信息采集程序。数据生成请求即为用户所输入的请求信息,管理服务器接收到数据生成请求后可根据该数据生成请求生成对应的虚拟数据信息,其中,用户可以是管理服务器的管理员。管理服务器接收到数据生成请求后,需根据数据生成请求及网络地址集合对信息采集程序进行配置,网络地址集合即为管理服务器中所预存的对各类数据信息进行爬取的网络地址的集合,例如,网络地址集合可以是工商业政府网站、税务部门网站、财经网站或招聘网站等网站的网络地址信息所组成的集合;信息采集程序即为对相应网站上的数据信息进行采集的程序,可对信息参加程序中的参数值进行配置,以通过完成配置的信息采集程序采集得到相应的数据信息。
在一实施例中,如图3所示,步骤S110包括子步骤S111和S112。
S111、根据所述数据生成请求中的数据类型,获取所述网络地址集合中与所述数据类型相匹配的网络地址信息;S112、根据所述网络地址信息及所述数据生成请求中的项目信息对所述信息采集程序中的参数值进行配置,以得到完成配置的信息采集程序。
数据生成请求中包括数据类型,数据类型即为所需生成的虚拟数据信息的具体类型,例如,数据类型可以是“企业信息”或“个人信息”。网络地址集合中包含多个网站的网络地址信息,每一网络地址信息与一个数据类型相对应,可根据数据生成请求中的数据类型获取网络地址集合中相匹配的网络地址信息。
例如,工商业政府网站、税务部门网站或财经网站均与“企业信息”这一数据类型相对应,招聘网站与“个人信息”这一数据类型相对应,若数据生成请求中的数据类型为“企业信息”,则可将工商业政府网站、税务部门网站及财经网站作为与该数据类型相匹配的网络地址信息。
数据生成请求中还包括项目信息,项目信息即为所需生成的虚拟数据信息中每一条数据所必须包含的具体项目,也即是进行信息采集时所必须采集的具体项目。
例如,若数据生成请求中的数据类型为“企业信息”,项目信息可以包括企业名称、注册地址、注册时间、所属行业、统一征信码、法人代表、组织机构代码、企业开户储蓄卡账号、企业法人身份证号码、企业邮箱、邮编、企业注册资金等等项目。
可根据所得到的网络地址信息及项目信息对信息采集程序中的参数值进行配置,其中,信息采集程序中的参数值包括采集网页以及采集项目信息,则可根据所得到的网络地址信息对信息采集程序中的采集网页进行配置,可根据项目信息对信息采集程序中的采集项目信息进行配置,得到完成配置的信息采集程序。
S120、执行所述配置的信息采集程序得到对应的初始数据信息,根据所述数据生成请求对所述初始数据信息进行筛选,得到对应的筛选数据信息。
执行所述完成配置的信息采集程序以采集得到对应的初始数据信息,根据所述数据生成请求对所述初始数据信息进行筛选以得到对应的筛选数据信息。执行完成配置的信息采集程序,也即是从信息采集程序所配置的网络地址信息对应的网站中获取与采集项目信息对应的数据信息,所得到的数据信息为初始数据信息,通过数据生成请求对初始数据信息进行筛选即可得到对应的筛选数据信息,筛选数据信息可作为生成虚拟数据信息的基础,因此筛选数据信息满足数据生成请求的情况下,对应生成的虚拟数据信息也满足数据生成请求。
在一实施例中,如图4所示,步骤S120包括子步骤S121和S122。
S121、根据所述数据生成请求中与所述项目信息对应的项目范围确定筛选范围;S122、根据所述筛选范围对所述初始数据信息进行筛选以得到对应的筛选数据信息。
具体的,数据生成请求还包含与项目信息对应的项目范围,项目范围可包含项目信息中每一项目所设置的范围信息,项目范围也可仅包含项目信息中部分项目所设置的范围信息,根据项目范围可确定对应的筛选范围,根据筛选范围对初始数据进行筛选,即可获取包含于筛选范围内的筛选数据信息。
例如,项目范围中与“注册地址”这一项目对应的范围信息为“广东省”,与“注册时间”这一项目对应的范围信息为“2000年-2020年”,与“所属行业”这一项目对应的范围信息为“‘金融’及‘互联网’”,则将上述三个项目对应的范围信息的组合作为对应的筛选范围,并对初始数据信息进行筛选以获取满足该筛选范围的筛选数据信息。
S130、根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计,获取与每一项目对应的统计信息,其中所述项目信息中包含多个项目。
根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计以获取与每一项目对应的统计信息。统计模板即为管理服务器中预存的用于对筛选数据信息进行统计的模板,统计模板中包含对每一项目进行统计的规则信息,可获取统计模板中与项目信息对应的项目统计规则,并根据项目统计规则对筛选数据信息进行统计,得到每一项目对应统计信息,项目的统计信息即为对筛选数据信息中该项目的数据分布情况进行统计的信息。
在一实施例中,如图5所示,步骤S130包括子步骤S131和S132。
S131、根据所述项目信息所包含的项目,获取所述统计模板中与每一所述项目对应的项目统计规则。
根据所述项目信息所包含的项目,获取所述统计模板中与每一所述项目对应的项目统计规则。项目信息中包含多个项目,可获取统计模板中与每一项目对应的项目统计规则。 例如,对“注册地址”这一项目对应的项目统计规则为统计该项目的数据中一线城市、二线城市、其他城市的比例;对“注册时间”这一项目对应的项目统计规则为统计该项目的数据中“2000年-2005年”、“2006年-2010年”、“2010年-2015年”、“2016年-2020年”的比例;对统一征信码这一项目对应的项目统计规则为统计该项目的数据中字符的数量及字符的格式,字符的格式即为其中所包含每一字符可以为数字、大写字母、小写字母或汉字的格式信息;项目的数据中字符的数量或格式也可采用预设方式进行设置,例如,可对身份证号中所包含字符的数量、电话号码中所包含字符的数量、邮箱中所包含字符的格式、邮编中所包含字符的格式进行预先设置。
S132、根据与每一所述项目对应的项目统计规则对所述筛选数据信息进行分项目统计,以获取与每一所述项目对应的统计信息。
对所述筛选数据信息进行分项目统计,也即是根据每一项目对应的项目统计规则对筛选数据信息中对应项目的数据分别进行统计,得到每一项目对应的统计信息。
例如,对筛选数据信息中与“注册地址”这一项目对应的数据进行统计后,得到对应的统计信息为一线城市:P1=35%、二线城市:P2=40%、其他城市:P3=25%。
在一实施例中,如图6所示,步骤S130之后还包括步骤S1310。
S1310、根据预置的数据验证规则对每一所述项目对应的统计信息进行验证得到是否验证通过的验证结果。
根据预置的数据验证规则对每一所述项目对应的统计信息进行验证得到是否验证通过的验证结果;若验证结果为通过,执行所述根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务的步骤。所得到的筛选数据信息中所包含的多个项目之间可能存在相互关联的关系,可通过数据验证规则对多个项目关联的项目所对应的统计信息是否符合数据验证规则进行验证,以得到对应的验证结果。若验证结果为不通过,则向用户反馈修改提示信息,用户修改统计项目后重新生成统计信息,并再次根据数据验证规则进行验证,如此循环,直到所得到的验证结果为通过,以使所得到的统计信息符合预设的质量标准,以此可提高所生成的虚拟数据信息的质量。
例如,若项目对应的统计信息中包含对“身份证号”这一项目进行统计所得到的统计信息,则根据数据验证规则对项目信息中是否包含“年龄”这一项目进行判断,若不包含则得到验证不通过的验证结果;若包含则得到验证通过的验证结果。若验证结果为不通过,则用户可提交对项目信息进行修改的修改信息,以在项目信息中补充“年龄”这一项目,则可得到对“年龄”进行统计的统计信息,则后续所生成的虚拟数据信息中也可包含“年龄”这一项目。
S140、根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务。
根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置以得到对应的数据生成任务。数据生成模板即为管理服务器中预存的可用于生成虚拟数据信息的模板,数据生成模板中包含多个需配置参数值的参数,根据所得到的统计信息及数据生成请求对数据生成模板中相应参数的参数值进行配置,以得到配置参数值的数据生成任务并对应生成虚拟数据信息。
在一实施例中,如图7所示,步骤S140包括子步骤S141、S142和S143。
S141、根据所述数据生成请求中的数据量对所述数据生成模板中的数据量信息进行配置;S142、根据所述项目信息对所述数据生成模板中的生成项目信息进行配置;S143、根据所述统计信息对所述数据生成模板中生成项目信息中每一项目对应的分布范围进行配置。
具体的,数据生成模板中所需配置的参数包括数据量信息、生成项目信息及与生成项目信息中每一项目对应的分布范围,数据量信息即为虚拟数据信息中所需生成的数据的具体数量,生成项目信息即为虚拟数据信息中每一条数据所需生成的具体项目,分布范围即为对虚拟数据信息的每一项目中数据分布进行限定的范围信息。可根据数据生成请求中的数据量对数据生成模板中的数据量信息进行配置,根据数据生成请求中的项目信息对对应生成项目信息进行配置,根据每一项目对应的统计信息对生成项目信息中相应项目的数据分布进行配置,对数据生成模板进行配置后即可得到对应的数据生成任务。
例如,数据生成请求中的数据量为1000万,则将数据生成模板中的数据量信息对应配置为1000万;数据生成请求中的项目信息为“企业名称、注册地址、注册时间、所属行业、统一征信码及法人代表”,则将生成项目信息对应配置为“企业名称、注册地址、注册时间、所属行业、统一征信码及法人代表”这六个项目;与“注册地址”这一项目对应的统计信息为一线城市:P1=35%、二线城市:P2=40%、其他城市:P3=25%,则根据该统计信息对“注册地址”这一项目的分布范围进行配置。
S150、将所述数据生成任务分发至多台所述数据生成服务器,获取多台所述数据生成服务器执行所述数据生成任务所生成的虚拟数据信息。
将所述数据生成任务发送至多台数据生成服务器进行执行,以获取所述多台数据生成服务器所生成的虚拟数据信息。由于对软件产品进行测试所使用的虚拟数据信息通常为海量数据信息,为提高虚拟数据信息的生成效率,可通过多台数据生成服务器并发处理以同时生成虚拟数据信息,具体的,可将数据生成任务分别发送至多台数据生成服务器,以通过数据生成服务器生成相应的虚拟数据信息。若所需生成的虚拟数据信息的数量较少,也可仅通过一台数据生成服务器执行数据生成任务生成对应的虚拟数据信息。数据生成服务器可以是采用Spark计算引擎所搭建的并发服务器,每一数据生成服务器均可单独对数据生成任务进行执行并生成与该数据生成服务器对应的部分虚拟数据信息。
在一实施例中,如图8所示,步骤 S150包括子步骤S151、S152和S153。
S151、根据所述数据生成服务器的数量及所述数据量信息确定平均数据量,根据所述平均数据量对所述数据生成任务中所配置的数据量信息进行更新;S152、将所述数据生成任务分别发送至每一台所述数据生成服务器进行执行。
具体的,可根据数据量信息及数据生成服务器的数量确定数据平均量,并将数据生成任务中所配置的数据量信息进行更新为该数据平均量,之后将数据生成任务分别发送至数据生成服务器进行执行,每一台数据生成服务器所生成的一部分虚拟数据信息均存储至与该数据生成服务器对应的一台分布式存储单元中,获取所有数据生成服务器所生成的数据信息即为所得到完整的虚拟数据信息,所得到的虚拟数据信息可作为对软件产品进行测试的测试数据进行使用。在生成虚拟数据信息的过程中,会依据每一项目的分布范围,对虚拟数据信息的每一条数据中相应项目的数据进行填充,通过这一方式所生成的虚拟数据信息,可大幅提升虚拟数据信息的真实性,从而满足软件产品测试过程中对测试数据真实性的要求,进而提高对软件产品进行测试的效率及质量。
例如,对虚拟数据信息的某一条数据中与“注册地址”这一项目对应的数据进行填充时,首先随机生成一个属于(0,100]的正整数,“注册地址”这一项目对应的分布范围为一线城市:P1=35%、二线城市:P2=40%、其他城市:P3=25%,根据该项目的分布范围确定对应的三个分布区间分别为(0,35]、(35,75]、(75,100],若随机数为60,则该随机数落入上述的第二个分布区间(35,75],则将该条数据中与“注册地址”这一项目对应的数据填充为广东省内任意一个二线城市。
S153、获取与每一台数据生成服务器对应的分布式存储单元中所存储的部分所述虚拟数据信息,以获取完整的所述虚拟数据信息。
与此同时,可将每一台数据生成服务器所生成的一部分虚拟数据信息存储至与每一数据生成服务器对应的分布式存储单元中,获取所有分布式存储单元中所存储的数据信息即可得到完整的虚拟数据信息。具体的,每一数据生成服务器均对应连接一台分布式存储单元,分布式存储单元可采用是采用HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)所搭建的存储单元。通过将每一数据生成服务器对应的部分虚拟数据存储至相应的分布式存储单元中,可提高对虚拟数据信息进行存储及读取的效率。
本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含批量数据生成的应用场景中,从而推动智慧城市的建设。
在本发明实施例所提供的批量数据生成方法中,根据数据生成请求配置得到信息采集程序,采集得到初始数据信息并通过筛选后得到筛选数据信息,根据项目信息及统计模板对筛选数据信息进行统计得到统计信息,根据统计信息、数据生成请求对数据生成模板进行配置得到数据生成任务,将数据生成任务分发至数据生成服务器以获取对应的虚拟数据信息。通过上述方法,可对所采集得到的真实数据进行筛选并统计得到统计信息,根据统计信息中真实数据的分布情况配置数据生成任务以生成对应的虚拟数据信息,可大幅提升虚拟数据信息的真实性,从而满足软件产品测试过程中对测试数据真实性的要求。
本发明实施例还提供一种批量数据生成装置,该批量数据生成装置用于执行前述批量数据生成方法的任一实施例。具体地,请参阅图9,图9是本发明实施例提供的批量数据生成装置的示意性框图。该批量数据生成装置可以配置于管理服务器10中。
如图9所示,批量数据生成装置100包括信息采集程序配置单元110、筛选数据信息获取单元120、统计信息获取单元130、数据生成任务获取单元140和虚拟数据信息获取单元150。
信息采集程序配置单元110,用于接收用户输入的数据生成请求,根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置,得到配置的信息采集程序。
在一实施例中,所述信息采集程序配置单元110包括子单元:网络地址信息获取单元及参数值配置单元。
网络地址信息获取单元,用于根据所述数据生成请求中的数据类型,获取所述网络地址集合中与所述数据类型相匹配的网络地址信息;参数值配置单元,用于根据所述网络地址信息及所述数据生成请求中的项目信息对所述信息采集程序中的参数值进行配置,以得到完成配置的信息采集程序。
筛选数据信息获取单元120,用于执行所述配置的信息采集程序得到对应的初始数据信息,根据所述数据生成请求对所述初始数据信息进行筛选,得到对应的筛选数据信息。
在一实施例中,所述筛选数据信息获取单元120包括子单元:筛选范围确定单元及筛选单元。
筛选范围确定单元,用于根据所述数据生成请求中与所述项目信息对应的项目范围确定筛选范围;筛选单元,用于根据所述筛选范围对所述初始数据信息进行筛选以得到对应的筛选数据信息。
统计信息获取单元130,用于根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计,获取与每一项目对应的统计信息,其中所述项目信息中包含多个项目。
在一实施例中,所述统计信息获取单元130包括子单元:项目统计规则获取单元及筛选数据信息统计单元。
项目统计规则获取单元,用于根据所述项目信息所包含的项目,获取所述统计模板中与每一所述项目对应的项目统计规则;筛选数据信息统计单元,用于根据与每一所述项目对应的项目统计规则对所述筛选数据信息进行分项目统计,以获取与每一所述项目对应的统计信息。
在一实施例中,所述批量数据生成装置还包括子单元:统计信息验证单元。
统计信息验证单元,用于根据预置的数据验证规则对每一所述项目对应的统计信息进行验证得到是否验证通过的验证结果。
数据生成任务获取单元140,用于根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务。
在一实施例中,所述数据生成任务获取单元140包括子单元:数据量信息配置单元、生成项目信息配置单元及分布范围配置单元。
数据量信息配置单元,用于根据所述数据生成请求中的数据量对所述数据生成模板中的数据量信息进行配置;生成项目信息配置单元,用于根据所述项目信息对所述数据生成模板中的生成项目信息进行配置;分布范围配置单元,用于根据所述统计信息对所述数据生成模板中生成项目信息中每一项目对应的分布范围进行配置。
虚拟数据信息获取单元150,用于将所述数据生成任务分发至多台所述数据生成服务器,获取多台所述数据生成服务器执行所述数据生成任务所生成的虚拟数据信息。
在一实施例中,所述虚拟数据信息获取单元150包括子单元:数据量信息更新单元、数据生成任务发送单元及数据信息获取单元。
数据量信息更新单元,用于根据所述数据生成服务器的数量及所述数据量信息确定平均数据量,根据所述平均数据量对所述数据生成任务中所配置的数据量信息进行更新;数据生成任务发送单元,用于将所述数据生成任务分别发送至每一台所述数据生成服务器进行执行;数据信息获取单元,用于获取与每一台数据生成服务器对应的分布式存储单元中所存储的部分所述虚拟数据信息,以获取完整的所述虚拟数据信息。
在本发明实施例所提供的批量数据生成装置应用上述批量数据生成方法,根据数据生成请求配置得到信息采集程序,采集得到初始数据信息并通过筛选后得到筛选数据信息,根据项目信息及统计模板对筛选数据信息进行统计得到统计信息,根据统计信息、数据生成请求对数据生成模板进行配置得到数据生成任务,将数据生成任务分发至数据生成服务器以获取对应的虚拟数据信息。通过上述方法,可对所采集得到的真实数据进行筛选并统计得到统计信息,根据统计信息中真实数据的分布情况配置数据生成任务以生成对应的虚拟数据信息,可大幅提升虚拟数据信息的真实性,从而满足软件产品测试过程中对测试数据真实性的要求。
上述批量数据生成装置可以实现为计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是即是用于执行批量数据生成方法以完成虚拟数据信息生成的服务器端,例如,企业所设置的服务器等。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行批量数据生成方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行批量数据生成方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图10中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的批量数据生成方法中对应的功能。
本领域技术人员可以理解,图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的批量数据生成方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种批量数据生成方法,应用于管理服务器中,所述管理服务器与多台数据生成服务器进行通信,其特征在于,包括:
接收用户输入的数据生成请求,根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置,得到配置的信息采集程序,其中,所述数据生成请求包含数据类型及项目信息;
执行所述配置的信息采集程序得到对应的初始数据信息,根据所述数据生成请求对所述初始数据信息进行筛选,得到对应的筛选数据信息;
根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计,获取与每一项目对应的统计信息,其中所述项目信息中包含多个项目;
根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务;
将所述数据生成任务分发至多台所述数据生成服务器,获取多台所述数据生成服务器执行所述数据生成任务所生成的虚拟数据信息。
2.根据权利要求1所述的批量数据生成方法,其特征在于,所述根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置,得到配置的信息采集程序,包括:
根据所述数据生成请求中的数据类型,获取所述网络地址集合中与所述数据类型相匹配的网络地址信息;
根据所述网络地址信息及所述数据生成请求中的项目信息对所述信息采集程序中的参数值进行配置,以得到完成配置的信息采集程序。
3.根据权利要求1所述的批量数据生成方法,其特征在于,所述数据生成请求还包括项目范围,所述根据所述数据生成请求对所述初始数据信息进行筛选,得到对应的筛选数据信息,包括:
根据所述数据生成请求中与所述项目信息对应的项目范围确定筛选范围;
根据所述筛选范围对所述初始数据信息进行筛选以得到对应的筛选数据信息。
4.根据权利要求1所述的批量数据生成方法,其特征在于,所述根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计,获取与每一项目对应的统计信息,包括:
根据所述项目信息所包含的项目,获取所述统计模板中与每一所述项目对应的项目统计规则;
根据与每一所述项目对应的项目统计规则对所述筛选数据信息进行分项目统计,以获取与每一所述项目对应的统计信息。
5.根据权利要求1所述的批量数据生成方法,其特征在于,还包括:
根据预置的数据验证规则对每一所述项目对应的统计信息进行验证得到是否验证通过的验证结果;若验证结果为通过,执行所述根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务的步骤。
6.根据权利要求1所述的批量数据生成方法,其特征在于,所述数据生成请求还包括数据量,所述根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务,包括:
根据所述数据生成请求中的数据量对所述数据生成模板中的数据量信息进行配置;
根据所述项目信息对所述数据生成模板中的生成项目信息进行配置;
根据所述统计信息对所述数据生成模板中生成项目信息中每一项目对应的分布范围进行配置。
7.根据权利要求1所述的批量数据生成方法,其特征在于,每一台所述数据生成服务器对应连接一台分布式存储单元,所述将所述数据生成任务分发至多台数据生成服务器,获取多台所述数据生成服务器执行所述数据生成任务所生成的虚拟数据信息,包括:
根据所述数据生成服务器的数量及所述数据量信息确定平均数据量,根据所述平均数据量对所述数据生成任务中所配置的数据量信息进行更新;
将所述数据生成任务分别发送至每一台所述数据生成服务器进行执行;
获取与每一台数据生成服务器对应的分布式存储单元中所存储的部分所述虚拟数据信息,以获取完整的所述虚拟数据信息。
8.一种批量数据生成装置,其特征在于,包括:
信息采集程序配置单元,用于接收用户输入的数据生成请求,根据所述数据生成请求及预存的网络地址集合对预置的信息采集程序进行配置,得到配置的信息采集程序,其中,所述数据生成请求包含数据类型及项目信息;
筛选数据信息获取单元,用于执行所述配置的信息采集程序得到对应的初始数据信息,根据所述数据生成请求对所述初始数据信息进行筛选,得到对应的筛选数据信息;
统计信息获取单元,用于根据所述项目信息及预存的统计模板对所述筛选数据信息进行统计,获取与每一项目对应的统计信息,其中所述项目信息中包含多个项目;
数据生成任务获取单元,用于根据所述统计信息及所述数据生成请求对预存的数据生成模板进行配置,得到对应的数据生成任务;
虚拟数据信息获取单元,用于将所述数据生成任务分发至多台所述数据生成服务器,获取多台所述数据生成服务器执行所述数据生成任务所生成的虚拟数据信息。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的批量数据生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的批量数据生成方法。
CN202010702444.5A 2020-07-21 2020-07-21 批量数据生成方法、装置、计算机设备及存储介质 Active CN111737147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010702444.5A CN111737147B (zh) 2020-07-21 2020-07-21 批量数据生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010702444.5A CN111737147B (zh) 2020-07-21 2020-07-21 批量数据生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111737147A true CN111737147A (zh) 2020-10-02
CN111737147B CN111737147B (zh) 2021-01-15

Family

ID=72655312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010702444.5A Active CN111737147B (zh) 2020-07-21 2020-07-21 批量数据生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111737147B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267333A (zh) * 2007-06-15 2008-09-17 南京联创科技股份有限公司 自动变更采集代理的业务系统监控方法
CN105069096A (zh) * 2015-08-06 2015-11-18 厦门二五八集团有限公司 一种自定义表单的架构方法及架构系统
CN105608220A (zh) * 2016-01-08 2016-05-25 浪潮软件集团有限公司 一种基于分布式消息系统的采集方法及装置
US20170316122A1 (en) * 2016-04-27 2017-11-02 Linkedin Corporation Model-based matching for removing selection bias in quasi-experimental testing of mobile applications
CN109376287A (zh) * 2018-09-21 2019-02-22 平安科技(深圳)有限公司 房产图谱构建方法、装置、计算机设备及存储介质
CN109376273A (zh) * 2018-09-21 2019-02-22 平安科技(深圳)有限公司 企业信息图谱构建方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267333A (zh) * 2007-06-15 2008-09-17 南京联创科技股份有限公司 自动变更采集代理的业务系统监控方法
CN105069096A (zh) * 2015-08-06 2015-11-18 厦门二五八集团有限公司 一种自定义表单的架构方法及架构系统
CN105608220A (zh) * 2016-01-08 2016-05-25 浪潮软件集团有限公司 一种基于分布式消息系统的采集方法及装置
US20170316122A1 (en) * 2016-04-27 2017-11-02 Linkedin Corporation Model-based matching for removing selection bias in quasi-experimental testing of mobile applications
CN109376287A (zh) * 2018-09-21 2019-02-22 平安科技(深圳)有限公司 房产图谱构建方法、装置、计算机设备及存储介质
CN109376273A (zh) * 2018-09-21 2019-02-22 平安科技(深圳)有限公司 企业信息图谱构建方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111737147B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN108156237B (zh) 产品信息推送方法、装置、存储介质和计算机设备
CN110300172B (zh) 一种区块链数据的共识方法及相关设备
CN103685308B (zh) 一种钓鱼网页的检测方法及系统、客户端、服务器
CN112669138B (zh) 数据处理方法及相关设备
WO2021254027A1 (zh) 一种可疑社团的识别方法、装置、存储介质和计算机设备
CN108876213B (zh) 基于区块链的产品管理方法、装置、介质及电子设备
CN107451819B (zh) 一种基于用户操作行为特征的身份验证方法和装置
CN112689848A (zh) 一种区块链数据的共识方法及相关设备
CN110597719B (zh) 一种用于适配测试的图像聚类方法、装置及介质
CN112181832B (zh) 测试数据生成方法、装置、计算机设备及存储介质
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
CN110647895A (zh) 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN112835682B (zh) 一种数据处理方法、装置、计算机设备和可读存储介质
WO2022126975A1 (zh) 客户信息校验方法、装置、计算机设备及存储介质
CN111737147B (zh) 批量数据生成方法、装置、计算机设备及存储介质
CN107679889B (zh) 一种潜在客户的识别方法及终端设备
US11179639B1 (en) Fraud detection system
CN110633304B (zh) 组合特征筛选方法、装置、计算机设备及存储介质
CN107679865B (zh) 一种基于触压面积的身份验证方法和装置
CN116521945A (zh) 用于区块链加密货币交易溯源的资金关联图构建方法及控制系统
CN112882707B (zh) 一种渲染方法、装置、存储介质及电子设备
CN113688206A (zh) 基于文本识别的趋势分析方法、装置、设备及介质
CN114723394A (zh) 基于人工智能的授信流程配置方法及相关设备
CN113900936A (zh) 基于关联特征分析的接口测试方法、装置、设备及介质
CN112016975A (zh) 产品筛选方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant