CN114996150A - 测试数据生成方法和装置、电子设备及存储介质 - Google Patents

测试数据生成方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114996150A
CN114996150A CN202210688781.2A CN202210688781A CN114996150A CN 114996150 A CN114996150 A CN 114996150A CN 202210688781 A CN202210688781 A CN 202210688781A CN 114996150 A CN114996150 A CN 114996150A
Authority
CN
China
Prior art keywords
data
splicing
field
rule
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210688781.2A
Other languages
English (en)
Inventor
雷志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210688781.2A priority Critical patent/CN114996150A/zh
Publication of CN114996150A publication Critical patent/CN114996150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种测试数据生成方法和装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取产品的历史业务数据,并获取与产品的新业务匹配的配置信息,配置信息包括数据替换规则和数据拼接规则。基于此,根据数据替换规则,从历史业务数据中识别出待替换字段,并在历史业务数据中对待替换字段进行数据替换,得到数据替换结果。根据数据拼接规则,从历史业务数据中识别出待拼接字段,并获取待拼接字段对应的拼接数据,再根据待拼接字段和拼接数据进行拼接处理,得到数据拼接结果。最后,根据数据替换结果和数据拼接结果,确定用于对产品进行测试的测试数据,有利于有效预估产品业务改动如何对历史业务数据造成预期之外的影响,改善测试效果。

Description

测试数据生成方法和装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种测试数据生成方法和装置、电子设备及存储介质。
背景技术
在大数据场景下,微小的数据变动都可能对产品运行产生难以估料的关联影响,因此在产品上线新业务之前,通常会利用人工制造的生产数据对产品进行测试。然而,实践中发现,人工制造生产数据的方式仍无法有效预估产品业务改动如何对历史业务数据造成预期之外的影响,导致测试效果不佳。
发明内容
本申请实施例的主要目的在于提出一种测试数据生成方法和装置、电子设备及存储介质,旨在改善测试效果。
为实现上述目的,本申请实施例的第一方面提出了一种测试数据生成方法,所述方法包括:
获取产品的历史业务数据;获取与所述产品的新业务匹配的配置信息,所述配置信息包括数据替换规则和数据拼接规则,所述数据替换规则用于指定待替换字段以及对所述待替换字段进行数据替换,所述数据拼接规则用于指定待拼接字段以及对所述待拼接字段进行数据拼接;根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果;根据所述数据拼接规则,从所述历史业务数据中识别出所述待拼接字段,并获取所述待拼接字段对应的拼接数据,再根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果;根据所述数据替换结果和所述数据拼接结果,确定用于对所述产品进行测试的测试数据。
一些可选的实施方式中,所述根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果,包括:获取用于数据替换的操作语句模板;根据所述数据替换规则和所述操作语句模板,生成与所述数据替换规则对应的第一操作语句;利用所述第一操作语句,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果。
一些可选的实施方式中,所述根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果,包括:
从所述数据替换规则中获取第一替换规则;从所述历史业务数据中识别出所述第一替换规则指示的第一字段以及所述第一字段对应的第一历史取值,并根据所述第一替换规则获取用于替换所述第一历史取值的目标取值;在所述历史业务数据中,利用所述目标取值替换所述第一历史取值,得到第一替换结果;
和/或,从所述数据替换规则中获取第二替换规则;从所述历史业务数据中识别出所述第二替换规则指示的第二字段以及所述第二字段对应的第二历史取值,并根据所述第二替换规则获取为所述第二历史取值指定的数据生成信息;根据所述数据生成信息和所述第二历史取值生成新取值;在所述历史业务数据中,利用所述新取值替换所述第二历史取值,得到第二替换结果。
一些可选的实施方式中,所述根据所述数据生成信息和所述第二历史取值生成新取值,包括:在所述数据生成信息中包括指定取值的情况下,根据所述第二历史取值和所述指定取值确定第一取值范围,并从所述第一取值范围中获取至少一个用于替换所述第二历史取值的新取值;和/或,在所述数据生成信息中包括第二取值范围的情况下,从所述第二取值范围中获取至少一个用于替换所述第二历史取值的新取值。
一些可选的实施方式中,所述根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果,包括:对所述拼接数据进行划分处理,得到至少两个拼接值;将每个所述拼接值分别与所述待拼接字段进行拼接处理,得到所述拼接值对应的拼接结果。
一些可选的实施方式中,所述根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果,包括:对所述拼接数据进行划分处理,得到至少两个新字段;从所述历史业务数据中识别出与所述待拼接字段相关的参考数据;将每个所述新字段分别与所述参考数据进行拼接处理,得到所述新字段对应的拼接结果。
一些可选的实施方式中,所述获取与所述产品的新业务匹配的配置信息,包括:获取与所述产品的新业务对应的业务关键词,并构建所述业务关键词对应的第一向量表示;根据所述历史业务数据,为所述历史业务数据中包括的每个历史字段构建所述历史字段对应的第二向量表示;根据所述第一向量表示和所述第二向量表示,计算每个所述历史字段与所述业务关键词之间对应的相关度;从所述历史业务数据中包括的所有历史字段中筛选出相关度满足预设条件的目标字段;根据所述目标字段,生成与所述新业务匹配的配置信息。
为实现上述目的,本申请实施例的第二方面提出了一种测试数据生成装置,所述装置包括:
获取模块,用于获取产品的历史业务数据,以及获取与所述产品的新业务匹配的配置信息,所述配置信息包括数据替换规则和数据拼接规则,所述数据替换规则用于指定待替换字段以及对所述待替换字段进行数据替换,所述数据拼接规则用于指定待拼接字段以及对所述待拼接字段进行数据拼接;
替换模块,用于根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果;
拼接模块,用于根据所述数据拼接规则,从所述历史业务数据中识别出所述待拼接字段,并获取所述待拼接字段对应的拼接数据,再根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果;
确定模块,用于根据所述数据替换结果和所述数据拼接结果,确定用于对所述产品进行测试的测试数据。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
本申请提出的测试数据生成方法和装置、电子设备及存储介质,其通过获取与新业务匹配的数据替换规则和数据拼接规则,根据数据替换规则从产品的历史业务数据中识别出待替换字段以进行数据替换,以及根据数据拼接规则从历史业务数据中识别出待拼接字段以与拼接数据进行拼接处理,从而根据数据替换结果和数据拼接结果确定用于新业务测试的测试数据,这样既能够通过字段替换和拼接的方式模拟历史业务数据,更加贴近实际应用场景,又实现了基于新业务需求进行批量的数据制造,进而有效预估产品业务改动如何对历史业务数据造成预期之外的影响,有利于改善产品测试效果,使得测试结果更具有代表性。
附图说明
图1是本申请实施例提供的测试数据生成方法的流程图;
图2是图1中的步骤S110的流程图;
图3是图1中的步骤S120的流程图;
图4是本申请实施例提供的测试数据生成装置的结构示意图;
图5是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
基于此,本申请实施例提供了一种测试数据生成方法和装置、电子设备及存储介质,旨在改善测试效果。
本申请实施例提供的测试数据生成方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的测试数据生成方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的测试数据生成方法,涉及人工智能技术领域。本申请实施例提供的测试数据生成方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现测试数据生成方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
图1是本申请实施例提供的测试数据生成方法的流程图,图1中的方法可以包括但不限于包括步骤S100至步骤S140。
步骤S100:获取产品的历史业务数据。
在本申请实施例中,历史业务数据是指产品发生业务更新之前,在历史版本的产品实际投入使用的过程中所采集的真实业务数据。历史业务数据可以包括多个历史字段以及每个历史字段对应的字段值,历史字段可以是用于表示事物特征或属性的变量,比如姓名、编号或年龄等,而相应的字段值用于表示历史字段的具体取值或属性,可以理解,字段值可以是对数值、数值范围、字符或子字段等其他数据类型的记录,对此不做具体限定。
步骤S110:获取与产品的新业务匹配的配置信息,配置信息包括数据替换规则和数据拼接规则。
在本申请实施例中,数据替换规则用于指定待替换字段以及对待替换字段进行数据替换的规则,数据拼接规则用于指定待拼接字段以及对待拼接字段进行数据拼接的规则。可以理解,根据实际需求,配置信息中还可以包括其他数据生成规则,比如随机生成数据,对此不做具体限定。
步骤S120:根据数据替换规则,从历史业务数据中识别出待替换字段,并在历史业务数据中对待替换字段进行数据替换,得到数据替换结果。
步骤S130:根据数据拼接规则,从历史业务数据中识别出待拼接字段,并获取待拼接字段对应的拼接数据,再根据待拼接字段和拼接数据进行拼接处理,得到数据拼接结果。
步骤S140:根据数据替换结果和数据拼接结果,确定用于对产品进行测试的测试数据。
本申请实施例所示意的步骤S100至步骤S140,既能够通过字段替换和拼接的方式模拟历史业务数据,更加贴近实际应用场景,又实现了基于新业务需求进行批量的数据制造,进而有效预估产品业务改动如何对历史业务数据造成预期之外的影响,有利于改善产品测试效果,使得测试结果更具有代表性。
请参阅图2,在一些可选的实施方式中,步骤S110具体可以包括以下步骤S111至步骤S115。
步骤S111:获取与产品的新业务对应的业务关键词,并构建业务关键词对应的第一向量表示。
步骤S112:根据历史业务数据,为历史业务数据中包括的每个历史字段构建历史字段对应的第二向量表示。
在步骤S111和步骤S112中,生成第一向量表示和第二向量表示的方式均包括但不限于Word2Vec或Glove等词嵌入(word embedding)算法。
步骤S113:根据第一向量表示和第二向量表示,计算每个历史字段与业务关键词之间对应的相关度。
在步骤S113中,相关度表示每个历史字段与业务关键词之间的相关程度。一种可选的实现方式中,计算相关度可以采用基于余弦相似度、皮尔逊相关系数或欧式距离的相似度算法等,对此不做具体限定。
另一种可选的实现方式中,还可以构建并训练相似度模型,从而通过训练好的相似度模型实现上述步骤S111至S113。该相似度模型可以为transformer模型、BERT模型或者深度神经网络(Deep Neural Networks,DNN)模型等,不做限定。
可选的,该相似度模型的训练过程包括:获取关键词样本以及与关键词样本相关的业务数据样本,并将业务数据样本和关键词样本输入至相似度模型中。通过相似度模型对业务数据样本和关键词样本进行编码处理,分别得到第三向量表示和第四向量表示,再通过相似度模型对第三向量表示和第四向量表示进行相似度计算,得到目标相似度。通过相似度模型的损失函数计算目标相似度与指定相似度阈值的偏差值,并根据偏差值对相似度模型的损失函数进行优化,对损失函数的模型损失进行反向传播,不断地调整模型参数,直至最新的目标相似度大于或者等于指定相似度阈值,停止对相似度模型的优化,得到符合要求的相似度模型。
步骤S114:从历史业务数据中包括的所有历史字段中筛选出相关度满足预设条件的目标字段。
其中,预设条件可以由人为指定,对此不做具体限定。具体的,预设条件可以为指定阈值(比如0.8或0.9等),当相关度大于或等于指定阈值时,判定相关度满足预设条件,而当相关度小于指定阈值时,判定相关度不满足预设条件。
步骤S115:根据目标字段,生成与新业务匹配的配置信息。
可见,通过步骤S111至步骤S115,可以计算历史业务数据中的历史字段与新业务的业务关键词之间的相关度,从而从历史业务数据中筛选出与新业务密切相关的目标字段以进行测试数据的配置,使得测试数据能够进一步挖掘旧业务与新业务之间的深度联系,保证同时覆盖旧业务与新业务的重要业务特征。
在另一些可选的实施方式中,步骤S110还可以包括以下步骤:
首先,获取预设的造数规则信息,并根据造数规则信息生成规则配置模板。其中,造数规则信息用于指定待配置字段以及待配置字段对应的配置规则。待配置字段中至少包括规则分类字段,而相应的配置规则可以包括规则分类字段的描述信息及取值类型(比如整数或字符串等)等。规则分类字段用于指定不同的数据生成规则,这些数据生成规则包括但不限于数据替换规则和数据拼接规则,则规则分类字段的取值包括但不限于用于指定数据替换规则的替换分类值和用于指定数据拼接规则的拼接分类值,比如,为了便于区分,取字母A作为用于替换分类值,取字母B作为拼接分类值。进一步的,待配置字段中还包括与数据生成规则相关的字段,其包括但不限于源数据字段、造数字段和规则适用字段。源数据字段用于表示规则适用字段对应的具体字段值,根据规则分类字段的指示,可以根据造数字段和源数据字段生成新数据。
之后,获取规则配置模板的填入内容,并根据填入内容生成配置信息。可以理解,配置信息中可以包括多个配置记录,而每个配置记录均包括所有待配置字段的字段值。示例性的,参阅下表1和表2所示,表1是本申请实施例中一种造数规则信息的示意表,表2是本申请实施例中一种配置信息的示意表。基于表1所示的造数规则信息,可以构建包括“TYPE”、“FIELD”、“PRE_VALUE”和“NEW_VALUE”这四个待配置字段的规则配置模板。如表2所示,用户可以向规则配置模板中填入四条配置记录,分别为配置记录①、配置记录②、配置记录③和配置记录④。
表1造数规则信息示意表
待配置字段 描述信息 取值类型
PRE_VALUE 源数据 字符串
NEW_VALUE 造数 字符串
FIELD 规则适用字段 字符串
TYPE 规则分类 字符串
表2配置信息示意表一
TYPE FIELD PRE_VALUE NEW_VALUE
A road Tairan1 TrRoad1
A road Tairan2 TrRoad2
A road Tairan3 TrRoad3
A road Tairan4 TrRoad4
具体来说,可以从规则配置模板的填入内容中获取规则分类字段的取值为替换分类值的配置记录以作为数据替换规则,并从规则配置模板的填入内容中获取规则分类字段的取值为拼接分类值的配置记录以作为数据拼接规则。示例性的,在表2中,四条配置记录中的规则分类字段均采用替换分类值A,故可以取这四条配置记录作为数据替换规则。
请参阅图3,在一些可选的实施方式中,步骤S120可以包括但不限于包括以下步骤S121至步骤S123。
步骤S121:获取用于数据替换的操作语句模板。
在本申请实施例中,操作语句模板是基于至少一种数据操作语句构建的模板,数据操作语句至少可以包括数据查询语句和数据处理语句,对此不做限定。其中,数据查询语句用于查询指定数据,其具体与数据操作语言(Data Manipulation Language,DML)相关,而数据操作语言用于对数据库中的对象和数据进行增查改删等基本操作,比如数据操作语言可以包括但不限于结构化查询语言(Structured Query Languages,SQL)。示例性的,数据查询语句对应的操作语句模板可以是“select字段from数据表名称”或“select字段from数据表名称where列运算符值”。数据处理语句具体与配置信息(比如数据替换规则或数据拼接规则)有关,用于根据配置信息的指示进行数据处理。示例性的,以表2为例,可以构建数据处理语句的操作语句模板,用于表示将“NEW_VALUE”的取值替换“PRE_VALUE”的取值,即:
“case
when FIELD=PRE_VALUE then NEW_VALUE
else FIELD end”。
步骤S122:根据数据替换规则和操作语句模板,生成与数据替换规则对应的第一操作语句。
可以理解,第一操作语句至少可以包括第一查询语句和第一处理语句,第一查询语句用于从历史业务数据中获取数据替换规则指示的待替换字段及其相关数据,第一处理语句用于根据数据替换规则的指示对上述待替换字段及其相关数据进行数据替换。
步骤S123:利用第一操作语句,从历史业务数据中识别出待替换字段,并在历史业务数据中对待替换字段进行数据替换,得到数据替换结果。
比如,以表2中的配置记录①为例进行说明,假设历史业务数据的来源为数据表table,则可以根据配置记录①的指示,构建第一查询语句,即:“select*from table whereroad=Tairan1”。以及,还可以构建第一处理语句,以实现基于配置记录①至④的数据替换操作,即:
“case
when road=Tairan1 then TrRoad1
when road=Tairan2 then TrRoad2
when road=Tairan3 then TrRoad3
when road=Tairan4 then TrRoad4
else FIELD end”。
可以理解,现有技术存在大数据场景多、维度多和字段多等问题,若手动编写操作代码,这不仅容易出错,还难以实现一次性造数,无形中增加了任务量,占用研发人员的时间。并且,由于基于HDFS的大数据存储方案对小文件较为敏感,故手动造数可能会造成大量的小文件问题,例如,如果一张源表的分区有2000文件,假如工作人员不注意对该分区进行7次数据查询及插入操作,将会增加14000个小文件,导致资源错配。因此,为了解决上述问题,在本申请实施例中,通过步骤S121至步骤S123,自动读取预先维护的配置信息,并结合已有的操作语句模板生成并执行符合不同数据替换需求的操作语句。基于此,直接运行操作语句,能够实现半自动化造数,速度更快且操作更为简单,并且在一定程度上规避了小文件问题。
可以理解,类似的,在一些可选的实施方式中,也可以获取用于数据拼接的操作语句模板,再根据数据拼接规则和上述用于数据拼接的操作语句模板,生成与数据拼接规则对应的第二操作语句,从而利用第二操作语句实现步骤S130。第二操作语句至少可以包括第二查询语句和第二处理语句,第二查询语句用于从历史业务数据中获取数据拼接规则指示的待拼接字段及其相关数据,第二处理语句用于根据数据拼接规则的指示对上述待拼接字段及其相关数据进行拼接处理。
在另一些实施例的步骤S120中,根据数据替换规则,从历史业务数据中识别出待替换字段,并在历史业务数据中对待替换字段进行数据替换,得到数据替换结果,可以包括但不限于以下至少一种实现方式:
一种实现方式中,从数据替换规则中获取第一替换规则。从历史业务数据中识别出第一替换规则指示的第一字段以及第一字段对应的第一历史取值,并根据第一替换规则获取用于替换第一历史取值的目标取值。在历史业务数据中,利用目标取值替换第一历史取值,得到第一替换结果,能够适用于对一个字段的多种取值分别进行不同替换处理的场合。
可以理解,若取字母A为用于指定第一替换规则的字段值,则表2为一种第一替换规则的示例。其中,以表2中的配置记录①为例,“road”为第一字段,“Tairan1”为第一历史取值,“TrRoad1”是目标取值,故可以在历史业务数据中利用“TrRoad1”替换“road”对应的第一历史取值“Tairan1”。
另一种实现方式中,从数据替换规则中获取第二替换规则。从历史业务数据中识别出第二替换规则指示的第二字段以及第二字段对应的第二历史取值,并根据第二替换规则获取为第二历史取值指定的数据生成信息。根据数据生成信息和第二历史取值生成新取值。在历史业务数据中,利用新取值替换第二历史取值,得到第二替换结果,能够对若干字段进行基于指定取值或取值范围的造数处理。
可见,本申请实施例中,可以直接根据配置的取值信息对历史业务数据进行数据替换,也可以将配置的数据生成信息与历史业务数据相结合,生成新的数据以进行数据替换,数据替换方式更加多样化。
进一步的,在一些可选的实施方式中,根据数据生成信息和第二历史取值生成新取值,可以包括但不限于以下至少一种实现方式:
一种实现方式中,在数据生成信息中包括指定取值的情况下,可以根据第二历史取值和指定取值确定第一取值范围,并从第一取值范围中获取至少一个用于替换第二历史取值的新取值。其中,新取值的数量可以是一个或一个以上,不做限定。请参阅表3,若取字母C为用于指定第二替换规则的字段值,则表3为一种第二替换规则的示例。如表3所示,字段“NEW_VALUE”用于指定数据生成信息,以表3中的配置记录⑤为例,“validAge”为第二字段,“18”为第二历史取值,“99”为指定取值,故可以将第一取值范围确定为[18,99]。
表3配置信息示意表二
TYPE FIELD PRE_VALUE NEW_VALUE
C validAge 18 99
C validAmount {1,3,5,7,9}
具体的,从第一取值范围中获取新取值的方式包括但不限于以下任一种:
从第一取值范围中随机获取至少一个新取值,比如从第一取值范围中[18,99]中随机获得新取值20和30;
或者,首先获取为第二历史取值设定的第一权重p1、为指定取值设定的第二权重p2以及新取值的总数N,且p1+p2=1,N为正整数。之后,获取第一取值范围对应的最小值min、中间值middle和最大值max。可以理解,一方面,若第二历史取值小于指定取值,则第一取值范围对应的最小值min为第二历史取值,相应的最大值max为指定取值,此时,可以从取值范围[min,middle]中随机获取p1×N个新取值,并从取值范围(middle,max]中随机获取p2×N个新取值。另一方面,若第二历史取值大于指定取值,则第一取值范围对应的最小值为指定取值,相应的最大值为第二历史取值,此时,可以从取值范围[min,middle]中随机获取p2×N个新取值,并从取值范围(middle,max]中随机获取p1×N个新取值。可见,通过设定第一权重和第二权重,可以相应调整新取值分别与旧业务和新业务的数据相关度。
另一种实现方式中,在数据生成信息中包括第二取值范围的情况下,可以从第二取值范围中获取至少一个用于替换第二历史取值的新取值。以表3中的配置记录⑥为例进行说明,此时源数据字段“PRE_VALUE”为空,也即第二历史取值为空,数列{1,3,5,7,9}用于指示第二取值范围,故可以从数列{1,3,5,7,9}中随机取至少一个新取值。
在一些实施例的步骤S130中,根据待拼接字段和拼接数据进行拼接处理,得到数据拼接结果,可以包括但不限于以下步骤:对拼接数据进行划分处理,得到至少两个拼接值。将每个拼接值分别与待拼接字段进行拼接处理,得到拼接值对应的拼接结果。
实际应用中,可以通过识别拼接数据中的分隔符,并结合分割函数或预设的正则表达式对拼接数据进行划分处理。具体的,将拼接值与待拼接字段进行拼接处理,可以是从历史业务数据获取包含待拼接字段的目标数据,再将拼接值与目标数据拼接。
示例性的,请参阅表4,若取字母B为拼接分类值,则表4为一种数据拼接规则的示例。在表4中,待拼接字段为“acNum”,字段“NEW_VALUE”用于指定拼接数据。根据分隔符“,”,可以将字符串“D2,D3,D4,D5,D6”划分为“D2”、“D3”、“D4”、“D5”和“D6”这五个拼接值,再将每个拼接值分别与待拼接字段进行拼接处理。
表4配置信息示意表三
TYPE FIELD PRE_VALUE NEW_VALUE
B acNum D1 D2,D3,D4,D5,D6
在另一些实施例的步骤S130中,根据待拼接字段和拼接数据进行拼接处理,得到数据拼接结果,可以包括但不限于以下步骤:对拼接数据进行划分处理,得到至少两个新字段。之后,从历史业务数据中识别出与待拼接字段相关的参考数据。可选的,可以根据数据拼接规则,确定待拼接字段对应的第三历史取值,再从历史业务数据中获取与取值为第三历史取值的待拼接字段所相关的参考数据。基于此,将每个新字段分别与参考数据进行拼接处理,从而得到新字段对应的拼接结果,能够适用于对一个待拼接字段进行多次替换的场合,同时又保留了历史业务数据中待拼接字段的必要数据。
请参阅图4,本申请实施例还提供一种测试数据生成装置,可以实现上述测试数据生成方法,该测试数据生成装置包括获取模块410、替换模块420、拼接模块430和确定模块440,其中:
获取模块410,用于获取产品的历史业务数据,以及获取与产品的新业务匹配的配置信息,配置信息包括数据替换规则和数据拼接规则,数据替换规则用于指定待替换字段以及对待替换字段进行数据替换,数据拼接规则用于指定待拼接字段以及对待拼接字段进行数据拼接;
替换模块420,用于根据数据替换规则,从历史业务数据中识别出待替换字段,并在历史业务数据中对待替换字段进行数据替换,得到数据替换结果;
拼接模块430,用于根据数据拼接规则,从历史业务数据中识别出待拼接字段,并获取待拼接字段对应的拼接数据,再根据待拼接字段和拼接数据进行拼接处理,得到数据拼接结果;
确定模块440,用于根据数据替换结果和数据拼接结果,确定用于对产品进行测试的测试数据。
该测试数据生成装置的具体实施方式与上述测试数据生成方法的具体实施例基本相同,在此不再赘述。
本申请实施例的测试数据生成装置,既能够通过字段替换和拼接的方式模拟历史业务数据,更加贴近实际应用场景,又实现了基于新业务需求进行批量的数据制造,进而有效预估产品业务改动如何对历史业务数据造成预期之外的影响,有利于改善产品测试效果,使得测试结果更具有代表性。
本申请实施例还提供了一种电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述测试数据生成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图5,图5示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器501,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器502,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器502可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器502中,并由处理器501来调用执行本申请实施例的测试数据生成方法;
输入/输出接口503,用于实现信息输入及输出;
通信接口504,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线505,在设备的各个组件(例如处理器501、存储器502、输入/输出接口503和通信接口504)之间传输信息;
其中处理器501、存储器502、输入/输出接口503和通信接口504通过总线505实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述测试数据生成方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1-5中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (10)

1.一种测试数据生成方法,其特征在于,所述方法包括:
获取产品的历史业务数据;
获取与所述产品的新业务匹配的配置信息,所述配置信息包括数据替换规则和数据拼接规则,所述数据替换规则用于指定待替换字段以及对所述待替换字段进行数据替换,所述数据拼接规则用于指定待拼接字段以及对所述待拼接字段进行数据拼接;
根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果;
根据所述数据拼接规则,从所述历史业务数据中识别出所述待拼接字段,并获取所述待拼接字段对应的拼接数据,再根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果;
根据所述数据替换结果和所述数据拼接结果,确定用于对所述产品进行测试的测试数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果,包括:
获取用于数据替换的操作语句模板;
根据所述数据替换规则和所述操作语句模板,生成与所述数据替换规则对应的第一操作语句;
利用所述第一操作语句,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果,包括:
从所述数据替换规则中获取第一替换规则;从所述历史业务数据中识别出所述第一替换规则指示的第一字段以及所述第一字段对应的第一历史取值,并根据所述第一替换规则获取用于替换所述第一历史取值的目标取值;在所述历史业务数据中,利用所述目标取值替换所述第一历史取值,得到第一替换结果;
和/或,从所述数据替换规则中获取第二替换规则;从所述历史业务数据中识别出所述第二替换规则指示的第二字段以及所述第二字段对应的第二历史取值,并根据所述第二替换规则获取为所述第二历史取值指定的数据生成信息;根据所述数据生成信息和所述第二历史取值生成新取值;在所述历史业务数据中,利用所述新取值替换所述第二历史取值,得到第二替换结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据生成信息和所述第二历史取值生成新取值,包括:
在所述数据生成信息中包括指定取值的情况下,根据所述第二历史取值和所述指定取值确定第一取值范围,并从所述第一取值范围中获取至少一个用于替换所述第二历史取值的新取值;
和/或,在所述数据生成信息中包括第二取值范围的情况下,从所述第二取值范围中获取至少一个用于替换所述第二历史取值的新取值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果,包括:
对所述拼接数据进行划分处理,得到至少两个拼接值;
将每个所述拼接值分别与所述待拼接字段进行拼接处理,得到所述拼接值对应的拼接结果。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果,包括:
对所述拼接数据进行划分处理,得到至少两个新字段;
从所述历史业务数据中识别出与所述待拼接字段相关的参考数据;
将每个所述新字段分别与所述参考数据进行拼接处理,得到所述新字段对应的拼接结果。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述获取与所述产品的新业务匹配的配置信息,包括:
获取与所述产品的新业务对应的业务关键词,并构建所述业务关键词对应的第一向量表示;
根据所述历史业务数据,为所述历史业务数据中包括的每个历史字段构建所述历史字段对应的第二向量表示;
根据所述第一向量表示和所述第二向量表示,计算每个所述历史字段与所述业务关键词之间对应的相关度;
从所述历史业务数据中包括的所有历史字段中筛选出相关度满足预设条件的目标字段;
根据所述目标字段,生成与所述新业务匹配的配置信息。
8.一种测试数据生成装置,其特征在于,所述装置包括:
获取模块,用于获取产品的历史业务数据,以及获取与所述产品的新业务匹配的配置信息,所述配置信息包括数据替换规则和数据拼接规则,所述数据替换规则用于指定待替换字段以及对所述待替换字段进行数据替换,所述数据拼接规则用于指定待拼接字段以及对所述待拼接字段进行数据拼接;
替换模块,用于根据所述数据替换规则,从所述历史业务数据中识别出所述待替换字段,并在所述历史业务数据中对所述待替换字段进行数据替换,得到数据替换结果;
拼接模块,用于根据所述数据拼接规则,从所述历史业务数据中识别出所述待拼接字段,并获取所述待拼接字段对应的拼接数据,再根据所述待拼接字段和所述拼接数据进行拼接处理,得到数据拼接结果;
确定模块,用于根据所述数据替换结果和所述数据拼接结果,确定用于对所述产品进行测试的测试数据。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的方法。
10.一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的方法。
CN202210688781.2A 2022-06-17 2022-06-17 测试数据生成方法和装置、电子设备及存储介质 Pending CN114996150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210688781.2A CN114996150A (zh) 2022-06-17 2022-06-17 测试数据生成方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210688781.2A CN114996150A (zh) 2022-06-17 2022-06-17 测试数据生成方法和装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114996150A true CN114996150A (zh) 2022-09-02

Family

ID=83035397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210688781.2A Pending CN114996150A (zh) 2022-06-17 2022-06-17 测试数据生成方法和装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114996150A (zh)

Similar Documents

Publication Publication Date Title
CN107704625B (zh) 字段匹配方法和装置
CN109241141B (zh) 深度学习的训练数据处理方法和装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN111199054A (zh) 一种数据脱敏方法、装置及数据脱敏设备
CN112990281A (zh) 异常投标识别模型训练方法、异常投标识别方法及装置
CN115640394A (zh) 文本分类方法、文本分类装置、计算机设备及存储介质
CN114328277A (zh) 一种软件缺陷预测和质量分析方法、装置、设备及介质
CN114048024A (zh) 任务部署方法、装置、设备、存储介质及产品
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
CN113590771A (zh) 一种数据挖掘方法、装置、设备及存储介质
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
US20130117245A1 (en) Method and system for identification of asset records in a version managed datastore
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN113610215B (zh) 任务处理网络生成、任务处理方法、装置及电子设备
CN114996150A (zh) 测试数据生成方法和装置、电子设备及存储介质
US20220300836A1 (en) Machine Learning Techniques for Generating Visualization Recommendations
CN115543339A (zh) 代码转换方法和装置、计算机设备及存储介质
CN114896294A (zh) 产品测试数据表生成方法、装置、设备及存储介质
CN112287005B (zh) 一种数据处理方法、装置、服务器及介质
CN115099344A (zh) 模型训练方法和装置、用户画像生成方法和装置、设备
CN114492844A (zh) 机器学习工作流的构建方法、装置、电子设备及存储介质
CN113254612A (zh) 知识问答处理方法、装置、设备及存储介质
CN113821418A (zh) 故障跟因分析方法及装置、存储介质和电子设备
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination