CN116204417B - 一种快速生成决策测试数据的方法 - Google Patents
一种快速生成决策测试数据的方法 Download PDFInfo
- Publication number
- CN116204417B CN116204417B CN202310023977.4A CN202310023977A CN116204417B CN 116204417 B CN116204417 B CN 116204417B CN 202310023977 A CN202310023977 A CN 202310023977A CN 116204417 B CN116204417 B CN 116204417B
- Authority
- CN
- China
- Prior art keywords
- data
- test data
- test
- type
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种快速生成决策测试数据的方法,包括:S1:基于需要被测试的决策策略确定出所需测试数据类型;S2:基于每种数据类型的规则配置,确定出所需测试数据类型的生成规则;S3:基于所需测试数据类型的生成规则,生成测试样例数据集,验证是否符合要求;S4:基于所需测试数据量,在测试样例数据集中筛选出所需测试数据;用以提供自动生产测试数据的方法,根据不同类型的数据,任意生成所需要的各种数据,提高测试数据编写效率,快速生成大量的测试数据,提升风控人员编写测试数据的效率,进而导致覆盖的应用场景更广、对策略的测试更全面。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种快速生成决策测试数据的方法。
背景技术
目前,决策引擎提供一组API接口,用于集成业务系统,业务数据从业务系统实时下发决策引擎,决策引擎根据运营管理系统的资源配置信息、决策模型/规则配置信息进行分析计算,计算结果实时输出给业务系统;在决策引擎的测试阶段,分析师和用户可以访问模拟环境,并运行大量测试数据来度量关键绩效指标(KPI)。这样,他们就可以在实际生产部署之前通过评估关键绩效指标指标来进行影响分析。
但是,现有决策引擎大多只是决策的执行器,对开发的策略进行测试依赖上游人工编写测试数据进行测试,效率低,覆盖面不够。
因此,本发明提出了一种快速生成决策测试数据的方法。
发明内容
本发明提供一种快速生成决策测试数据的方法,用以提供自动生产测试数据的方法,根据不同类型的数据,任意生成所需要的各种数据,提高测试数据编写效率,快速生成大量的测试数据,提升风控人员编写测试数据的效率,进而导致覆盖的应用场景更广、对策略的测试更全面。
本发明提供一种快速生成决策测试数据的方法,包括:
S1:基于需要被测试的决策策略确定出所需测试数据类型;
S2:基于每种数据类型的规则配置,确定出所需测试数据类型的生成规则;
S3:基于所需测试数据类型的生成规则,生成测试样例数据集;
S4:基于所需测试数据量,在测试样例数据集中筛选出所需测试数据。
优选的,所述的一种快速生成决策测试数据的方法,S1:基于需要被测试的决策策略确定出所需测试数据类型,包括:
S101:导入需要被测试的决策策略;
S102:确定出决策策略的测试输入数据,将测试输入数据对应的数据类型作为所需测试数据类型。
优选的,所述的一种快速生成决策测试数据的方法,数据类型包括:字符串类型、int类型、double类型、date类型、datetime类型、boolean类型。
优选的,所述的一种快速生成决策测试数据的方法,每种数据类型的规则配置包括:
字符串类型的规则配置包括枚举规则和自定义生成规则;
int类型的规则配置包括枚举规则和随机生成规则以及自定义生成规则;
double类型的规则配置包括枚举规则、随机生成规则、自定义生成规则;
date类型的规则配置包括枚举规则和随机生成规则;
datetime类型的规则配置包括枚举规则和随机生成规则;
boolean类型的规则配置包括枚举规则和随机生成规则。
优选的,所述的一种快速生成决策测试数据的方法,
当数据类型为int类型、double类型、date类型、datetime类型时,则基于用户定义的最大值、最小值、空值比例确定出对应的随机生成规则;
当数据类型为boolean类型时,则基于用户定义的true、false、空置比例确定出对应的随机生成规则。
优选的,所述的一种快速生成决策测试数据的方法,包括:
当规则配置中包含自定义生成规则时,则基于决策策略确定出决策应用场景;
基于决策应用场景确定出所需测试数据中包含的数据类目;
基于预设的数据类目-自定义规则列表,确定出所需测试数据中包含的每个数据类目对应的自定义规则;
基于所需测试数据中包含的每个数据类目对应的自定义规则,确定出对应的自定义生成规则。
优选的,所述的一种快速生成决策测试数据的方法,S4:基于所需测试数据量,在测试样例数据集中筛选出所需测试数据,包括:
S401:对测试样例数据集进行去噪处理,获得有效数据集;
S402:基于测试数据量确定方法,确定出本次测试过程的所需测试数据量;
S403:基于所需测试数据量按照已配置的规则自动生成所需测试数据。
优选的,所述的一种快速生成决策测试数据的方法,S401:对测试样例数据集进行去噪处理,获得有效数据集,包括:
在测试样例数据集中确定出每个数据类目对应的第一测试数据子集,对第一测试数据子集进行去噪,获得第一测试数据集;
基于数据类目组合原则,对测试样例数据集中包含的测试数据进行类目组合,获得第一单组测试数据集,将所有第一单组测试数据集汇总获得有效数据集。
优选的,所述的一种快速生成决策测试数据的方法,S403:基于所需测试数据量按照已配置的规则自动生成所需测试数据,包括:
在有效数据集中确定出每个数据类目对应的第二测试数据子集,基于第二测试数据子集的数据容量确定出对应的筛选间隔量,基于筛选间隔量对应的待筛选矩阵;
基于待筛选矩阵确定出待筛选数据集,基于所需测试数据量按照已配置的规则自动生成所需测试数据。
优选的,所述的一种快速生成决策测试数据的方法,基于待筛选矩阵确定出待筛选数据集,包括:
确定出待筛选矩阵中每个数据在第一序列中的排序序数;
将所有数据类目对应的待筛选矩阵中包含的位置相同且排序序数也相等的数据作为筛选数据,将所有筛选数据汇总获得待筛选数据集。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种快速生成决策测试数据的方法流程图;
图2为本发明实施例中又一种快速生成决策测试数据的方法流程图;
图3为本发明实施例中再一种快速生成决策测试数据的方法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明提供了一种快速生成决策测试数据的方法,参考图1,包括:
S1:基于需要被测试的决策策略确定出所需测试数据类型;
S2:基于每种数据类型的规则配置,确定出所需测试数据类型的生成规则;
S3:基于所需测试数据类型的生成规则,生成测试样例数据集;
S4:基于所需测试数据量,在测试样例数据集中筛选出所需测试数据。
该实施例中,决策策略即为在本发明中需要被测试的表征决策模型的决策逻辑的策略。
该实施例中,所需测试数据类型即为测试决策策略过程中所需的测试数据包含的数据类型。
该实施例中,规则配置即为对应种数据类型预先配置的数据生成方式。
该实施例中,生成规则即为基于每种数据类型的规则配置,确定出每种所需测试数据类型对应的数据生成规则。
该实施例中,测试样例数据集即为基于所需测试数据类型的生成规则生成的每种所需测试数据类型的测试样例数据构成的集合,其中,测试样例数据即为基于所需测试数据类型的生成规则生成的每种所需测试数据类型的用于测试决策策略的数据。
该实施例中,所需测试数据量即为测试决策策略过程中所需的数据量(规模)。
该实施例中,所需测试数据即为基于所需测试数据量在测试样例数据集中筛选出测试决策策略的过程中所需的测试数据。
以上技术的有益效果为:提供自动生产测试数据的方法,根据不同类型的数据,任意生成所需要的各种数据,提高测试数据编写效率,快速生成大量的测试数据,提升风控人员编写测试数据的效率,进而导致覆盖的应用场景更广、对策略的测试更全面。
实施例2:
在实施例1的基础上,所述的一种快速生成决策测试数据的方法,S1:基于需要被测试的决策策略确定出所需测试数据类型,参考图2,包括:
S101:导入需要被测试的决策策略;
S102:确定出决策策略的测试输入数据,将测试输入数据对应的数据类型作为所需测试数据类型。
该实施例中,测试输入数据即为测试决策策略过程中需要的测试数据。
以上技术的有益效果为:基于决策策略被测试过程中需要的测试数据的数据类型,确定出所需数据类型,为后续基于对应的生成规则生成所需测试数据提供了基础。
实施例3:
在实施例1的基础上,所述的一种快速生成决策测试数据的方法,数据类型包括:字符串类型、int类型、double类型、date类型、datetime类型、boolean类型。
以上技术的有益效果为:数据类型包含字符串类型、int类型、double类型、date类型、datetime类型、boolean类型,使得可生成的测试数据的数据类型覆盖范围较广。
实施例4:
在实施例3的基础上,所述的一种快速生成决策测试数据的方法,每种数据类型的规则配置包括:
字符串类型的规则配置包括枚举规则和自定义生成规则;
int类型的规则配置包括枚举规则和随机生成规则以及自定义生成规则;
double类型的规则配置包括枚举规则、随机生成规则、自定义生成规则;
date类型的规则配置包括枚举规则和随机生成规则;
datetime类型的规则配置包括枚举规则和随机生成规则;
boolean类型的规则配置包括枚举规则和随机生成规则。
该实施例中,枚举规则即为基于枚举(enum)关键词来生成一组常量的生成规则,例如:枚举(enum)关键词为颜色(color),则生成的一组常量数据为:红色(red)、蓝色(blue)、黄色(yellow)。
该实施例中,自定义生成规则支持姓名、手机、身份证、邮箱、公司名称、流水号、详细地址等生成规则,也支持扩展其他各种字段生成规则。
该实施例中,随机生成规则即为基于用户定义的限制条件随机生成数据的规则,其中,限制条件可以是限制随机生成的数据的最大值、最小值等。
以上技术的有益效果为:基于每种数据类型预先配置的多种生成方法,可以根据不同类型的数据,任意生成所需要的各种数据,提高测试数据编写效率。
实施例5:
在实施例4的基础上,所述的一种快速生成决策测试数据的方法,
当数据类型为int类型、double类型、date类型、datetime类型时,则基于用户定义的最大值、最小值、空值比例确定出对应的随机生成规则;
当数据类型为boolean类型时,则基于用户定义的true、false、空置比例确定出对应的随机生成规则。
该实施例中,空值比例即为随机生成的数据中空值数量占总数据量的比例。
该实施例中,基于用户定义的最大值、最小值、空值比例确定出对应的随机生成规则,即为;
基于用户定义的最大值、最小值确定出随机生成的数据的数据范围,再添加空值比例作为随机生成规则的限制条件,进而获得随机生成规则。
该实施例中,true即为满足预设条件的逻辑值。
该实施例中,false即为不满足预设条件的逻辑值。
以上技术的有益效果为:确定出不同数据类型对应的个性化的随机生成规则,进而提高了测试数据生成中生成规则的严谨性,保证了测试数据生成过程的正常执行。
实施例6:
在实施例4的基础上,所述的一种快速生成决策测试数据的方法,包括:
当规则配置中包含自定义生成规则时,则基于决策策略确定出决策应用场景;
基于决策应用场景确定出所需测试数据中包含的数据类目;
基于预设的数据类目-自定义规则列表,确定出所需测试数据中包含的每个数据类目对应的自定义规则;
基于所需测试数据中包含的每个数据类目对应的自定义规则,确定出对应的自定义生成规则。
该实施例中,决策应用场景即为被测试的决策策略的决策模型的应用场景,例如用于风控决策。
该实施例中,数据类目即为姓名、手机、身份证、邮箱、公司名称、流水号、详细地址等。
该实施例中,数据类目-自定义规则列表即为包含数据额类目和对应的自定义规则的列表。
该实施例中,自定义规则即为对应数据类目的数据的生成规则,例如姓名的生成规则。
该实施例中,自定义生成规则即为将所需测试数据中包含的每个数据类目对应的自定义规则汇总后获得的用于生成对应数据类型的数据的自定义生成规则。
以上技术的有益效果为:基于决策策略的应用场景对应的包含的数据类目确定出每种数据类目的自定义规则,进而实现基于应用场景个性化确定自定义生成规则,提高了测试数据生成中生成规则的严谨性,保证了测试数据生成过程的正常执行。
实施例7:
在实施例1的基础上,所述的一种快速生成决策测试数据的方法,S4:基于所需测试数据量,在测试样例数据集中筛选出所需测试数据,包括:
S401:对测试样例数据集进行去噪处理,获得有效数据集;
S402:基于测试数据量确定方法,确定出本次测试过程的所需测试数据量;
S403:基于所需测试数据量按照已配置的规则自动生成所需测试数据。
该实施例中,有效数据集即为对测试样例数据集进行去噪处理后获得的数据集。
该实施例中,测试数据量确定方法例如:
采用10倍法则作为对应的测试数据量确定方法,10倍法则即通常需要超出其自由度10倍的数据量,这里的自由度可以是影响决策模型输出的参数,是数据点的一个属性,或者更简单地说,是数据集中的列;
或者将用户输入的数据量作为测试数据量作为对应的测试数据量确定方法。
该实施例中,所需测试数据量即为基于测试数据量确定方法,确定出本次测试过程的所需的测试数据量。
以上技术的有益效果为:通过对测试样例数据进行去噪处理后,再基于对应的所需测试数据量在去噪处理后的有效数据中筛选出所需的测试数据,实现测试数据的最终筛选,保证了测试数据的质量。
实施例8:
在实施例7的基础上,所述的一种快速生成决策测试数据的方法,S401:对测试样例数据集进行去噪处理,获得有效数据集,包括:
在测试样例数据集中确定出每个数据类目对应的第一测试数据子集,对第一测试数据子集进行去噪,获得第一测试数据集,包括:
在测试样例数据集中确定出每个数据类目对应的第一测试数据子集,按照从大到小的顺序对第一测试数据子集中的数据进行排序,获得测试数据排序序列;
计算出测试数据排序序列中相邻数据的差值均值,基于差值均值和偏差系数计算出偏差范围;
判断出测试数据排序序列中相邻数据的差值与差值均值的偏差值是否超出偏差范围,若是,则将测试数据排序序列中超出偏差范围的差值对应的相邻数据标记为异常数据,并将测试数据排序序列中包含的所有异常数据汇总获得待聚类数据集,否则,将测试数据排序序列中包含的所有数据汇总获得待聚类数据集;
对待聚类数据集中包含的数据进行聚类分析,获得多个数据簇,计算出数据簇的聚集度;
判断所有聚集度是否都超过聚集度阈值,若是,则将数据簇作为最终聚类簇,否则,对异常数据集进行重新聚类分析,直至最新获得的数据簇的聚集度都超过聚集度阈值时,则将最新获得的数据簇作为最终聚类簇;
将最终聚类簇中包含的骤变点对应的数据作为噪声数据,将第一测试数据子集中包含的所有噪声数据删除,获得第一测试数据集;
基于数据类目组合原则,对测试样例数据集中包含的测试数据进行类目组合,获得第一单组测试数据集,将所有第一单组测试数据集汇总获得有效数据集。
该实施例中,第一测试数据子集即为测试样例数据集中包含对应数据类目的所有测试数据的子集。
该实施例中,测试数据排序序列即为按照从大到小的顺序对第一测试数据子集中的数据进行排序后获得的序列。
该实施例中,差值均值即为测试数据排序序列中所有相邻数据的差值的均值。
该实施例中,偏差系数即为测试数据排序序列中相邻数据的差值与差值均值的偏差值与差值均值的比值。
该实施例中,基于差值均值和偏差系数计算出偏差范围,即为:
将差值均值和偏差系数的乘积与差值均值的和作为偏差范围上限值,将差值均值与差值均值和偏差系数的乘积的差值作为偏差范围的下限值。
该实施例中,偏差值即为测试数据排序序列中相邻数据的差值与差值均值的差值。
该实施例中,异常数据即为测试数据排序序列中超出偏差范围的差值对应的相邻数据。
该实施例中,待聚类数据集即为异常数据汇总或测试数据排序序列中包含的所有数据汇总后获得的数据集。
该实施例中,数据簇即为对待聚类数据集中包含的数据进行聚类分析后活动的由数据构成的簇。
该实施例中,计算出数据簇的聚集度,包括:
式中,δ为数据簇的聚集度,exp为以自然常数e为底的指数函数,且e的取值为2.72,i为数据簇中包含的当前计算的单个数据,n为数据簇中包含的数据总个数,xi为数据簇中包含的第i个数据;
例如,数据簇包含:11、12、13、14、15,则δ为1.72。
该实施例中,聚集度阈值即为预先设置的聚类分析获得的数据簇被当作最终聚类簇时对应的最小聚集度。
该实施例中,最终聚集簇即为所有聚集度满足聚集度阈值时的数据簇。
该实施例中,噪声数据即为最终聚类簇中包含的骤变点对应的数据。
该实施例中,第一测试数据集即为将第一测试数据子集中包含的所有噪声数据删除后获得的数据集。
该实施例中,基于数据类目组合原则即为将测试样例数据集中包含的每个数据类目对应的测试数据排序排序对齐后的单个数据进行组合(例如将第一个数类目中的第m个数据、第二个数据类目中的第m个数据以及直至第n个数据类目中的第m个数据组合),获得一个包含所有数据类目的单个数据的单组测试数据集。
该实施例中,第一单组测试数据集即为基于数据类目组合原则对测试样例数据集中包含的测试数据进行类目组合获得的包含所有数据类目的单个数据的试数据集。
该实施例中,完整性判断结果即为对第一单组测试数据集进行完整性判断后获得的结果。
该实施例中,有效数据集即为将所有第一单组测试数据集汇总后获得的数据集。
以上技术的有益效果为:通过对测试眼里数据即进行排序后活动的排序序列中相邻数据的差值进行分析,判断测试样例数据集中是否存在相邻数据差值剧增的数据,获得判断结果,基于判断结果确定后续需要聚类的数据集,实现对测试样例数据集的初次筛选,再通过将对待聚类数据集进行聚类分析后获得的数据簇中的骤变点筛选出来,实现对测试样例数据的去噪,最后通过测试过程中需要的数据类目的组合,对去噪后的测试样例数据中多余的数据进行删除,保证了测试样例数据中包含的各种数据类目的测试数据的数量一致,进而实现对测试样例数据的完整去噪过程,使得去噪后的测试样例数据分布均匀,不存在骤变的噪声数据。
实施例9:
在实施例7的基础上,所述的一种快速生成决策测试数据的方法,S403:基于所需测试数据量按照已配置的规则自动生成所需测试数据,包括:
在有效数据集中确定出每个数据类目对应的第二测试数据子集,基于第二测试数据子集的数据容量确定出对应的筛选间隔量,按照从小到大对第一测试数据子集进行排序,获得第一序列;
基于筛选间隔量从第一序列的第一个数据确定出多个起始数据,基于每个起始数据和筛选间隔量对第一序列进行数据筛选,获得每个起始数据对应的子序列;
基于所有子序列搭建出对应数据类目的数据分布矩阵,计算出数据分布矩阵的数据变化均匀度,判断出数据变化均匀度是否不小于数据变化均匀度阈值,若是,则将对应的数据分布矩阵作为待筛选矩阵,并确定出待筛选矩阵中每个数据在第一序列中的排序序数;
否则,基于基于预设间隔量梯度和当前的筛选间隔量确定出新的筛选间隔量,基于新的筛选间隔量从第一序列的第一个数据确定出多个新的起始数据量;
基于新的起始数据量和筛选间隔量对第一序列进行数据筛选,直至获得的新的数据分布矩阵的数据变化均匀度不小于数据变化均匀度阈值时,则将对应的数据分布矩阵作为待筛选矩阵;
基于待筛选矩阵确定出待筛选数据集,基于所需测试数据量按照已配置的规则自动生成所需测试数据;
其中,计算出数据分布矩阵的数据变化均匀度,包括:
式中,θ为数据分布矩阵的数据变化均匀度,p为数据分布矩阵中第p行,q为数据分布矩阵中的总行数,j为数据分布矩阵中的第j列(或者数据分布矩阵的每行中的第j个数据),m为数据分布矩阵的总列数(或者数据分布矩阵的每行中的数据总个数),yjp为数据分布矩阵中第p行的第j个数据,y(j-1)p为数据分布矩阵中第p行的第(j-1)个数据;
例如,矩阵为则θ为1。
该实施例中,第二测试数据子集即为有效数据集中包含的对应数据类目的所有测试数据汇总后获得的数据集。
该实施例中,数据容量即为第二测试数据子集中包含的数据总个数(数据规模)。
该实施例中,基于第二测试数据子集的数据容量确定出对应的筛选间隔量即为:将第二测试数据子集的数据容量的开方值取整后的数值作为筛选间隔量。
该实施例中,筛选间隔量即为在第一序列中从起始数据开始每次数据取样时间隔的数据量。
该实施例中,第一序列即为按照从小到大对第一测试数据子集进行排序后获得的序列。
该实施例中,起始数据的数量与第一次确定的筛选间隔量相等。
该实施例中,起始数据即为从第一序列的第一个数据依次开始确定出的与筛选间隔量个数相等的多个数据。
该实施例中,基于每个起始数据和筛选间隔量对第一序列进行数据筛选,即为:
当筛选数据量为3时,则从第一序列的起始数据开始,每隔3个数据筛选出一个新的数据,直至将第一序列筛选完毕。
该实施例中,子序列即为基于每个起始数据量和筛选间隔量对第一序列进行数据筛选后获得的每个起始数据对应的数据序列。
该实施例中,基于所有子序列搭建出对应数据类目的数据分布矩阵。即为:将第一个子序列作为数据分布矩阵的第一行数据,将第二个子序列作为数据分布矩阵的第二行数据,以此类推,搭建出对应数据类目的数据分布矩阵。
该实施例中,数据分布矩阵即为基于所有子序列搭建出的矩阵。
该实施例中,数据变化均匀度即为表征对应数据分布矩阵的数据分布均匀度。
该实施例中,数据变化均匀度阈值即为当数据分布矩阵被判定为待筛选矩阵时可取值的最小数据变换均匀度。
该实施例中,待筛选矩阵即为数据变化均匀度不小于数据变换均匀度阈值的数据分布矩阵。
该实施例中,新的筛选间隔量即为预设间隔量梯度和当前的筛选间隔量的和。
该实施例中,预设间隔量梯度即为当筛选间隔量为不超过5时,则预设间隔量梯度的取值为1,当筛选间隔量为超过5且不超过10时,则预设间隔量梯度的取值为2,以此类推。
该实施例中,基于所需测试数据量按照已配置的规则自动生成所需测试数据,即为:
按照已配置的规则自动生成所需测试数据量的测试数据作为所需测试数据。
以上技术的有益效果为:基于筛选间隔量的梯度变化搭建出的数据分布矩阵,实现对有效数据集中的数据进行依次递推筛选,保证了筛选出的待筛选数据集中的数据分布均匀度足够大,进而保证了筛选出的测试数据的数据分布均匀度足够大,使测试效果更好。
实施例10:
在实施例9的基础上,所述的一种快速生成决策测试数据的方法,基于待筛选矩阵确定出待筛选数据集,包括:
确定出待筛选矩阵中每个数据在第一序列中的排序序数;
将所有数据类目对应的待筛选矩阵中包含的位置相同且排序序数也相等的数据作为筛选数据,将所有筛选数据汇总获得待筛选数据集;
该实施例中,筛选数据即为所有数据类目对应的待筛选矩阵中包含的位置相同且排序序数也相等的数据。
该实施例中,待筛选数据集即为将所有筛选数据汇总后获得的数据集。
以上技术的有益效果为:通过将待筛选矩阵中位置相同且排序序数相同的数据筛选出作为用于确定所需测试数据的待筛选数据,使得筛选出的所需测试数据既保证了在有效数据集中的数据分布均匀度,也保证了数据类目组合原则之间需要满足的数据组合原则,这样使得筛选出的数据可以按照要求组合成单组的测试数据。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种快速生成决策测试数据的方法,其特征在于,包括:
S1:基于需要被测试的决策策略确定出所需测试数据类型;
S2:基于每种数据类型的规则配置,确定出所需测试数据类型的生成规则;
S3:基于所需测试数据类型的生成规则,生成测试样例数据集;
S4:基于所需测试数据量,在测试样例数据集中筛选出所需测试数据;
其中,步骤S4:基于所需测试数据量,在测试样例数据集中筛选出所需测试数据,包括:
S401:对测试样例数据集进行去噪处理,获得有效数据集;
S402:基于测试数据量确定方法,确定出本次测试过程的所需测试数据量;
S403:基于所需测试数据量按照已配置的规则自动生成所需测试数据;
其中,S401:对测试样例数据集进行去噪处理,获得有效数据集,包括:
在测试样例数据集中确定出每个数据类目对应的第一测试数据子集,对第一测试数据子集进行去噪,获得第一测试数据集,包括:
在测试样例数据集中确定出每个数据类目对应的第一测试数据子集,按照从大到小的顺序对第一测试数据子集中的数据进行排序,获得测试数据排序序列;
计算出测试数据排序序列中相邻数据的差值均值,基于差值均值和偏差系数计算出偏差范围;
判断出测试数据排序序列中相邻数据的差值与差值均值的偏差值是否超出偏差范围,若是,则将测试数据排序序列中超出偏差范围的差值对应的相邻数据标记为异常数据,并将测试数据排序序列中包含的所有异常数据汇总获得待聚类数据集,否则,将测试数据排序序列中包含的所有数据汇总获得待聚类数据集;
对待聚类数据集中包含的数据进行聚类分析,获得多个数据簇,计算出数据簇的聚集度;
判断所有聚集度是否都超过聚集度阈值,若是,则将数据簇作为最终聚类簇,否则,对异常数据集进行重新聚类分析,直至最新获得的数据簇的聚集度都超过聚集度阈值时,则将最新获得的数据簇作为最终聚类簇;
将最终聚类簇中包含的骤变点对应的数据作为噪声数据,将第一测试数据子集中包含的所有噪声数据删除,获得第一测试数据集;
基于数据类目组合原则,对测试样例数据集中包含的测试数据进行类目组合,获得第一单组测试数据集,将所有第一单组测试数据集汇总获得有效数据集。
2.根据权利要求1所述的一种快速生成决策测试数据的方法,其特征在于,S1:基于需要被测试的决策策略确定出所需测试数据类型,包括:
S101:导入需要被测试的决策策略;
S102:确定出决策策略的测试输入数据,将测试输入数据对应的数据类型作为所需测试数据类型。
3.根据权利要求1所述的一种快速生成决策测试数据的方法,其特征在于,数据类型包括:字符串类型、int类型、double类型、date类型、datetime类型、boolean类型。
4.根据权利要求3所述的一种快速生成决策测试数据的方法,其特征在于,每种数据类型的规则配置包括:
字符串类型的规则配置包括枚举规则和自定义生成规则;
int类型的规则配置包括枚举规则和随机生成规则以及自定义生成规则;
double类型的规则配置包括枚举规则、随机生成规则、自定义生成规则;
date类型的规则配置包括枚举规则和随机生成规则;
datetime类型的规则配置包括枚举规则和随机生成规则;
boolean类型的规则配置包括枚举规则和随机生成规则。
5.根据权利要求4所述的一种快速生成决策测试数据的方法,其特征在于,
当数据类型为int类型、double类型、date类型、datetime类型时,则基于用户定义的最大值、最小值、空值比例确定出对应的随机生成规则;
当数据类型为boolean类型时,则基于用户定义的true、false、空置比例确定出对应的随机生成规则。
6.根据权利要求4所述的一种快速生成决策测试数据的方法,其特征在于,包括:
当规则配置中包含自定义生成规则时,则基于决策策略确定出决策应用场景;
基于决策应用场景确定出所需测试数据中包含的数据类目;
基于预设的数据类目-自定义规则列表,确定出所需测试数据中包含的每个数据类目对应的自定义规则;
基于所需测试数据中包含的每个数据类目对应的自定义规则,确定出对应的自定义生成规则。
7.根据权利要求1所述的一种快速生成决策测试数据的方法,其特征在于,S403:基于所需测试数据量按照已配置的规则自动生成所需测试数据,包括:
在有效数据集中确定出每个数据类目对应的第二测试数据子集,基于第二测试数据子集的数据容量确定出对应的筛选间隔量,基于筛选间隔量对应的待筛选矩阵;
基于待筛选矩阵确定出待筛选数据集,基于所需测试数据量按照已配置的规则自动生成所需测试数据。
8.根据权利要求7所述的一种快速生成决策测试数据的方法,其特征在于,基于待筛选矩阵确定出待筛选数据集,包括:
确定出待筛选矩阵中每个数据在第一序列中的排序序数;
将所有数据类目对应的待筛选矩阵中包含的位置相同且排序序数也相等的数据作为筛选数据,将所有筛选数据汇总获得待筛选数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310023977.4A CN116204417B (zh) | 2023-01-09 | 2023-01-09 | 一种快速生成决策测试数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310023977.4A CN116204417B (zh) | 2023-01-09 | 2023-01-09 | 一种快速生成决策测试数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116204417A CN116204417A (zh) | 2023-06-02 |
CN116204417B true CN116204417B (zh) | 2023-10-20 |
Family
ID=86515441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310023977.4A Active CN116204417B (zh) | 2023-01-09 | 2023-01-09 | 一种快速生成决策测试数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116204417B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708738A (zh) * | 2016-12-23 | 2017-05-24 | 上海斐讯数据通信技术有限公司 | 一种软件测试缺陷预测方法及系统 |
CN109408303A (zh) * | 2018-09-19 | 2019-03-01 | Oppo(重庆)智能科技有限公司 | 测试数据分析方法及相关产品 |
CN110297760A (zh) * | 2019-05-22 | 2019-10-01 | 平安普惠企业管理有限公司 | 测试数据的构造方法、装置、设备及计算机可读存储介质 |
CN111176990A (zh) * | 2019-12-23 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于数据决策的测试数据生成方法、装置、计算机设备 |
CN111427759A (zh) * | 2019-01-09 | 2020-07-17 | 北京京东尚科信息技术有限公司 | 测试数据生成方法及装置、电子设备和计算机可读介质 |
US10915437B1 (en) * | 2019-06-26 | 2021-02-09 | Amazon Technologies, Inc. | Framework for performing load testing and profiling of services |
CN114371988A (zh) * | 2021-11-19 | 2022-04-19 | 山东齐鲁数通科技有限公司 | 辅助批量生成测试数据方法、装置、终端及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188122A1 (en) * | 2017-12-20 | 2019-06-20 | Rainforest Qa, Inc. | Electronic product testing systems |
US20210397546A1 (en) * | 2018-10-23 | 2021-12-23 | Tamas Cser | Software test case maintenance |
-
2023
- 2023-01-09 CN CN202310023977.4A patent/CN116204417B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708738A (zh) * | 2016-12-23 | 2017-05-24 | 上海斐讯数据通信技术有限公司 | 一种软件测试缺陷预测方法及系统 |
CN109408303A (zh) * | 2018-09-19 | 2019-03-01 | Oppo(重庆)智能科技有限公司 | 测试数据分析方法及相关产品 |
CN111427759A (zh) * | 2019-01-09 | 2020-07-17 | 北京京东尚科信息技术有限公司 | 测试数据生成方法及装置、电子设备和计算机可读介质 |
CN110297760A (zh) * | 2019-05-22 | 2019-10-01 | 平安普惠企业管理有限公司 | 测试数据的构造方法、装置、设备及计算机可读存储介质 |
US10915437B1 (en) * | 2019-06-26 | 2021-02-09 | Amazon Technologies, Inc. | Framework for performing load testing and profiling of services |
CN111176990A (zh) * | 2019-12-23 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于数据决策的测试数据生成方法、装置、计算机设备 |
CN114371988A (zh) * | 2021-11-19 | 2022-04-19 | 山东齐鲁数通科技有限公司 | 辅助批量生成测试数据方法、装置、终端及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116204417A (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292008A (zh) | 一种基于知识图谱的隐私保护数据发布风险评估方法 | |
CN110930218B (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN115412354B (zh) | 一种基于大数据分析的网络安全漏洞检测方法及系统 | |
WO2020108219A1 (zh) | 基于交通安全风险的群体划分与差异性分析方法及系统 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN114648155A (zh) | 基于天气分型与气象预报的源解析方法及应急响应系统 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN115394358A (zh) | 基于深度学习的单细胞测序基因表达数据插补方法和系统 | |
Tseung et al. | LRMoE: an R package for flexible actuarial loss modelling using mixture of experts regression model | |
CN116204417B (zh) | 一种快速生成决策测试数据的方法 | |
CN112000814A (zh) | 一种基于知识图谱的网络实体行为评估方法 | |
CN116109215A (zh) | 可信数控系统的可信性量化评估方法、装置和计算机设备 | |
CN115759742A (zh) | 企业风险评估方法、装置、计算机设备和存储介质 | |
CN111737319B (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US7801757B2 (en) | Computer implemented customer value model in airline industry | |
CN117828377B (zh) | 一种基于公平加权因子的教育感知聚类方法及系统 | |
CN116596386B (zh) | 一种工程建设项目可行性分析评估方法 | |
CN115329316B (zh) | 权限处理方法、装置、存储介质和电子设备 | |
US20210248267A1 (en) | Privacy-preserving data platform | |
CN117216584A (zh) | 信用评价模型的生成方法、装置、设备和介质 | |
CN115511428A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN118132091A (zh) | 业务模型的处理方法、装置、计算机设备和存储介质 | |
CN115310089A (zh) | 基于正则极限学习机的安卓恶意apk检测方法 | |
CN115689711A (zh) | 一种业务场景下人与人之间关系强度的计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |