CN113326255A

CN113326255A - 有效测试数据的筛选方法、装置、终端设备及存储介质

Info

Publication number: CN113326255A
Application number: CN202110714177.8A
Authority: CN
Inventors: 郭腾达
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-08-31

Abstract

本发明涉及金融科技技术领域，公开了一种有效测试数据的筛选方法、装置、终端设备及存储介质。有效测试数据的筛选方法包括：获取测试环境数据库中各个表的待处理数据；根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值；基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。本申请旨在去掉无效数据的同时，保留具有测试价值的有效数据。

Description

有效测试数据的筛选方法、装置、终端设备及存储介质

技术领域

本发明涉及金融科技(Fi ntech)技术领域，尤其涉及一种有效测试数据的筛选方法、装置、终端设备及存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，但由于金融行业的安全性、实时性以及稳定性等要求，也对技术提出了更高的要求。

环境数据库(environmental database)是指利用计算机信息处理技术，有组织地动态存储大量环境数据的集合系统。可根据不同用户的需要和环境信息的特点，建立不同类型和不同规模的环境数据库，它一般具有数据录入、修改、查询与检索、统计、输出等数据库管理功能。环境数据库是现代环境信息系统的重要组成部分。

现有的环境数据库在测试数据时只对少量有效数据进行反复测试，不对无效数据进行处理，如此，会造成环境数据库中无效数据过多，进而影响数据查询效率，并造成环境数据库空间浪费。然而，如果针对无效数据进行大量处理后只保留指定的少量无效数据，这样又会导致数据缺少多样性，从而容易隐藏一些数据类的缺陷。

发明内容

本发明的主要目的在于提供一种有效测试数据的筛选方法、装置、终端设备及存储介质，旨在去掉无效数据的同时，保留具有测试价值的有效数据。

为实现上述目的，本发明提供一种有效测试数据的筛选方法，所述有效测试数据的筛选方法包括：

获取测试环境数据库中各个表的待处理数据；

根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值；

基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；

判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。

此外，为实现上述目的，本发明还提供一种有效测试数据的筛选装置，所述有效测试数据的筛选装置包括：

获取模块，用于获取测试环境数据库中各个表的待处理数据；

第一计算模块，用于根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值；

第二计算模块，用于基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；以及

筛选模块，用于判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。

其中，本发明有效测试数据的筛选装置在运行时均实现如上所述的有效测试数据的筛选方法的步骤。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的终端任务的有效测试数据的筛选程序，所述终端任务的有效测试数据的筛选程序被所述处理器执行时实现如上所述的有效测试数据的筛选方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机存储介质，所述计算机存储介质上存储有终端任务的有效测试数据的筛选程序，所述终端任务的有效测试数据的筛选程序被处理器执行时实现如上所述的有效测试数据的筛选方法的步骤。

此外，为实现上述目的，本发明还提供计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上所述的有效测试数据的筛选方法的步骤。

本发明提出一种有效测试数据的筛选方法、装置、终端设备及存储介质，通过获取测试环境数据库中各个表的待处理数据；根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值；基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。

本发明通过将测试环境数据库的表中的待处理数据分成关键字段以及非关键字段，分别计算待处理数据中关键字段的第一有效数值以及非关键字段的第二有效数值，再基于待处理数据中所有关键字段的第一有效数值和待处理数据中所有非关键字段的第二有效数值计算待处理数据的最终有效数值。当最终有效数值大于或等于预设有效阈值时，则说明待处理数据中的关键字段占比较高而非关键字段占比较少，应该进行保留；反之当最终有效数值小于预设有效阈值时，则说明待处理数据中的关键字段占比较少而非关键字段较高，因此属于测试价值较低的无效数据，从而被删除。

相较于传统的不对无效数据进行处理的实施方式，或者针对无效数据进行大量处理后只保留指定的少量无效数据的实施方式，本发明通过对比最终有效数值与预设有效阈值的关系，仅将小于所述预设有效阈值的所述最终有效数值对应的非关键字段较多的待处理数据删除，而将大于或等于所述预设有效阈值的所述最终有效数值对应的关键字段较多的待处理数据保留，如此，在去掉无效数据，从而提高测试环境数据库查询效率的同时，又尽可能多地保留了具有测试价值的有效数据，避免了数据类被隐藏的缺陷。

附图说明

图1为本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图；

图2为本发明有效测试数据的筛选方法一实施例的流程示意图；

图3为本发明有效测试数据的筛选方法另一实施例的流程示意图；

图4为本发明有效测试数据的筛选方法又一实施例的流程示意图；

图5为本发明有效测试数据的筛选装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图。

本发明实施例终端设备可以是被配置为对环境数据库进行有效测试数据筛选的设备。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及终端任务的有效测试数据的筛选程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的终端任务的有效测试数据的筛选程序，并执行以下本发明有效测试数据的筛选方法各实施例所述的操作。

基于上述硬件结构，提出本发明有效测试数据的筛选方法的各实施例。

需要说明的是，环境数据库(environmental database)是指利用计算机信息处理技术，有组织地动态存储大量环境数据的集合系统。可根据不同用户的需要和环境信息的特点，建立不同类型和不同规模的环境数据库，它一般具有数据录入、修改、查询与检索、统计、输出等数据库管理功能。环境数据库是现代环境信息系统的重要组成部分。测试环境数据库即处于测试条件下的环境数据库。

针对上述现象，本发明提供一种有效测试数据的筛选方法。在本发明有效测试数据的筛选方法的各实施例中包括以下技术术语：主键、外键、正则表达式以及索引。

这其中，主键(primary key)：主键是能确定一条数据的唯一标识。比如，一条数据包括身份证号，姓名，年龄。身份证号是唯一能确定你这个人的，其他都可能有重复，所以，身份证号是这条数据的主键。

外键(foreign key)：如果公共关键字在一个关系中是主关键字，那么这个公共关键字被称为另一个关系的外键。由此可见，外键表示了两个关系之间的相关联系，以另一个关系的外键作主关键字的表被称为主表，具有此外键的表被称为主表的从表。

正则表达式：正则表达式(regular expression)：描述了一种字符串匹配的模式(pattern)，可以用来检查一个串是否含有某种子串。

索引：在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。

请参照图2，图2为本发明有效测试数据的筛选方法第一实施例的流程示意图，在本实施例中，该有效测试数据的筛选方法应用于有效测试数据的筛选装置上，本发明有效测试数据的筛选方法，包括：

步骤S100、获取测试环境数据库中各个表的待处理数据；

终端设备从测试环境数据库中获取各个表，从而确定出该各个表当中的待处理数据。

具体地，确定表中待处理数据的方式有多种，例如，在本实施例中，终端设备可使用Sql数据适配器(Sqldataadapter)读取测试环境数据库，从而获取该测试环境数据库的各个表当中的待处理数据。

需要说明的是，在本实施例中，测试环境数据库可应用于各种领域以进行数据的存储和管理。例如：测试环境数据库可应用于银行，以便进行客户的个人账户资金、消费情况的记录，或者，该环境数据库也可应用于学校进行学生的个人信息、学习情况的记录。可以理解的，基于实际应用的不同设计需要，本实施例的测试环境数据库还可以应用于其他需要进行大量数据的存储和管理的场合或领域，本发明有效测试数据的筛选方法所涉及的测试环境数据库并不限于上述举例的银行和学校。

此外，测试环境数据库中的表可以是环境数据库中用于存储不同的数据信息的集合。通常地，该表中至少包括两个表示不同含义的字段，并且，不同的表中的字段类型、含义往往不同，如：当测试环境数据库用于银行记录客户的个人账户资金、消费情况时，那么该测试环境数据库中的表中可包含的字段包括客户名称、电话号码、住址、存款余额等信息。

具体地，例如：终端设备在从应用到银行或者学校的测试环境数据库中，获取到下表1时(表1中的字段名称C1-C6代表不同的字段名称)，从而确定出该各个表当中的待处理数据。

表1

另外，表中的字段具有不同的字段类型。在一些实施例中，字段类型包括字符串、数值、日期等。其中字符串包括汉字、英文字母、数字或者符号中至少一种数据类型组成的字符串。如“姓名”、证件号“D4566343”等。日期可以是标准格式为2020-01-01的日期。需要说明的是，字符串类型中不包括单纯由数字字符组成的字符串。

步骤S200、根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值；

需要说明的是，在本实施例中，由于待处理数据中的字段具有不同的字段类型，因此本实施例通过预先为不同的字段类型设置不同的字段类型规则，以根据该字段类型规则计算该待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值。

终端设备在从测试环境数据库中的各个表中获取到待处理数据之后，进一步通过预先将待处理数据中字段分成的关键字段和非关键字段，再根据预设的字段类型规则分别计算关键字段的第一有效数值和非关键字段的第二有效数值。

需要说明的是，本实施例中预先设置了关键字段与非关键字段，以便分别计算待处理数据中关键字段的第一有效数值，以及非关键字段的第二有效数值，为后续计算待处理数据的最终有效数值，排除数据库中的无效数据打下基础。此外，关键字段可以是表中的主键、外键。非关键字段可以是除去主键和外键之外的字段，例如索引等。

进一步地，在一种可行实施例中，步骤S200，可以包括：

步骤S210，根据所述待处理数据中全部字段的字段类型确定字段类型规则，其中，所述字段类型规则包括字符串规则、数值规则以及日期规则中的至少一种；

在终端设备中预先定义了多种字段类型规则，通过确定所述待处理数据中全部字段的字段类型，即可确定各自字段对应的字段类型规则。

需要说明的是，在本实施例中，字符串规则即针对字符串字段的字段类型规则，数值规则针对即针对数值字段的字段类型规则，日期规则即针对日期字段的字段类型规则。可以理解的，为了适用更多的字段类型，在一些实施例中，所述字段类型规则包括字符串规则、数值规则以及日期规则。

步骤S220、根据所述字段类型规则计算全部所述字段各自的中间数值；

终端设备在确定了待处理数据中全部字段中各个字段对应的字段类型规则之后，进一步根据字段类型规则计算全部所述字段各自的中间数值。

进一步地，在一种可行的实施例中，步骤S220，可以包括：

步骤S221、从所述字段类型规则中确定与各所述字段各自字段类型对应的算法规则，其中，所述算法规则的类型数量大于一；

终端设备在确定了待处理数据中全部字段中各个字段对应的字段类型规则之后，先从预先设置的字段类型规则当中，分别确定出与各字段各自的字段类型相对应的多个算法规则。

需要说明的是，终端设备中预先为各个字段类型规则定义了不同的算法规则。在一种可行实施例中，算法规则至少包括第一规则和第二规则，第一规则的权重参数大于第二规则的权重参数，其中，第一规则是与预设基准字段具有第一相似度的字段适用的规则，第二规则是与预设基准字段具有第二相似度的字段适用的规则，第一相似度高于所述第二相似度。

第一规则中字段与预设基准字段的相似度大于第二规则中字段与预设基准字段的相似度，由于字段与预设基准字段的相似度越高，那么字段与预设基准字段越相符合，即字段越具有效性。为了更好地体现字段的有效性，因此赋予第一规则对应的权重参数大于第二规则对应的权重参数。

进一步地，在另一些可行的实施例中，算法规则可设置成三级规则，即强规则、中规则和弱规则。算法规则按与所述预设基准字段的相似度程度分为强规则(和预设基准字段一致)、中规则(和基准字段相似，即匹配度达到预设阈值，如70％-80％的任何值)和弱规则(符合基准字段的最基本特征)。根据规则的强弱，赋予不同的权重参数(如1、3、7等)，例如，强规则设置对应的权重7，中规则设置对应的权重3，弱规则设置对应的权重1。此外，还可根据实际情况设置不同的权重参数。当然，在其他的实施例中也可设置算法规则对应一个规则。

此外，算法规则按生成方式分为手动规则和自动规则，手动规则为针对手动编写的字段，一般是比较精准的值，多用在关键字段上；自动规则为按照每个字段(包括关键字段和非关键字段)的统计等方法自动得到的规则。

具体地，例如，在手动规则中，针对字符串，设置以下字符串规则：

规则RS1：长度与基准字段的长度差异在一定范围内(强规则，权重为7)。需要说明的是，长度差异在一定范围内可根据实际情况设置，例如1-10个字符等，在此不具体限制。

规则RS2：长度和基准字段一致(中规则，权重为3)。

规则RS3：长度大于0(弱规则，权重为1)。

规则RS4：字段类型分布和基准字段一致，即汉字、字母、数字、其他符号的顺序一致，如基准字段是“abc_123”，待处理数据中的字段是“defg_23433”即符合规则(强规则，权重为7)。

规则RS5：字段类型分布和基准字段不一致，但字段类型一致，如基准字段是“abc_123”，待处理数据中的字段是“23433defg_”即符合规则(弱规则，权重为1)。

针对数值，设置以下数值规则：

规则RN1：数值在规定范围内(强规则，权重7)。同理，规定范围可根据实际情况设置，例如1-10个字符等，在此不具体限制。

规则RN2：数值不为空(弱规则，权重为1)。

针对日期，设置以下日期规则：

规则RD1：日期时间在规定时间范围内(强规则，权重7)。需要说明的是，规定时间范围可根据实际情况设置，例如2010年-2020年等，在此不具体限制。

规则RD2：日期时间格式一致(强规则，权重7)(注：此规则针对字段类型是字符串，但实际存储日期的字段)。例如基准的日期格式为2010-01-01.

规则RD3：日期时间不为空(弱规则，权重为1)。

而在自动规则中，针对字符串，设置以下字符串规则：

规则RS1：采用抽样或全量数据，得到N个数据长度(LD1～LDN)，计算每个字段和基准字段的长度LS的差距D1…DN。统计差距为0的数据占比，如果超过25％，则|LD-LS|＝0符合规则。如果不超过25％，则统计差距为0和1的数据占比，如果超过25％则|LD-LS|<＝1符合规则。以此类推，一致统计到大于25％的差距数据占比为止。

规则RS2：判断待处理数据中字段长度LD和基准字段的长度LS，如果LD＝LS则符合规则。

规则RS3：LD>0则符合规则。

规则RS4：如果字段D符合根据基准字段的字段类型及顺序生成的正则表达式REG1，D match REG1则符合规则。

规则RS5：如果字段D符合根据基准字段的字段类型生成的正则表达式REG2，Dmatch REG2则符合规则。

针对数值，设置以下数值规则：

规则RN1：此规则没有自动生成方法，只有手动生成方法。

规则RN2：数据不为空，D is not null则符合规则。

针对日期，设置以下日期规则：

规则RD1：此规则没有字段生成方法，只有手动生成方法。

规则RD2：如果字段D符合根据基准字段的日期格式生成正则表达式REG3，D matchREG3则符合规则。

规则RD3：如果数据D日期不为空，D is not null则符合规则。

需要说明的是，在本实施例中，若待处理数据中各字段的字段类型不符合上述各种字段类型规则，则该各字段的最终有效数值为0，且对于主键、外键、索引都自动识别为关键字段。

步骤S222、针对各所述字段中的第一字段，从各所述算法规则中确定所述第一字段适用的目标规则。

终端设备在确定各个字段对应的算法规则后，从各所述算法规则中确定所述第一字段适用的目标规则，即对照上述手动规则和自动规则中的各种字段类型规则选取对应的适用的目标规则。

需要说明的是，在本实施例中，字段中的第一字段表示各字段中的任一字段。

具体地，例如，下面通过一个典型的实施例进行说明。

如下表2表示一个典型的待处理数据。

表2

以待处理数据D对应的字段名称C1(即100002)为例，其对应的手动规则和自动规则为规则RN1和规则RN2。由于字段100002均适用规则RN1和规则RN2，字段100002的适用规则为规则RN1和规则RN2。所以100002对应规则RN1的权重为7，对应规则RN2的权重为1。

步骤S223、基于所述目标规则在各所述算法规则中的占比和预设分数阈值，计算所述第一字段的中间数值。

终端装备在获得各所述字段中的第一字段的目标规则后，基于该目标规则在各算法规则中的占比和预设分数阈值，计算所述第一字段的中间数值。

进一步的，终端设备计算第一字段的目标规则在各算法规则中的占比的计算过程如下：

终端设备计算第一字段对应的目标规则的权重参数之和；

计算第一字段对应的算法规则的权重参数之和；

计算该目标规则的权重参数之和与该算法规则的权重参数之和的占比。

具体地，例如，终端设备通过借助于上述的手动规则和自动规则，对待处理数据D进行中间数值计算，具体计算情况如下表3所示。

表3

沿用上述步骤S221的例子，由于字段100002对应的算法规则为规则RN1和规则RN2，适用规则为规则RN1和规则RN2。假设预设分数阈值设置为100，那么终端设备对第一字段进行计算，第一字段的中间数值为100*(7+1)/(7+1)＝100。通过上述方式可计算出待处理数据D中其他字段的中间数值。

步骤S230、将全部所述字段中关键字段的中间数值确定为第一有效数值，将全部所述字段中非关键字段的中间数值确定为第二有效数值。

终端设备在计算完待处理数据中各个字段的中间数值后，将全部所述字段中关键字段的中间数值确定为第一有效数值，将全部所述字段中非关键字段的中间数值确定为第二有效数值。

具体地，例如，针对表3中的待处理数据D，待处理数据D的关键字段C1,C2的第一有效数值分别为100，84。待处理数据D的非关键字段C3,C4,C5,C6的第一有效数值分别为100，5，0，100。

需要说明的是，在本实施例中，通过将待处理数据中的字段分成关键字段与非关键字段，为步骤S300分开处理第一有效数值和第二有效数值，得到最终有效数值打下基础。

进一步地，在另一种可行实施例中，步骤S220，可以包括：

S224、从所述字段类型规则中确定与各所述字段各自字段类型对应的算法规则，其中，所述算法规则的类型数量大于一；

S225、针对各所述字段中的第一字段，从各所述算法规则中确定所述第一字段适用的目标规则；

S226、基于所述目标规则在各所述算法规则中的占比和数值占比对照表，确定所述第一字段的中间数值。

例如，表4表示一种数值占比对照表。数值占比对照表表明了目标规则在各所述算法规则中的占比与第一字段的中间数值的对应关系。

占比	0-50％	50-70％	70-100％
				中间数值	30	70	100

表4

确定第一字段的中间数值的过程如下：以待处理数据D的C1字段为例，C1的字段100002对应的算法规则为规则RN1和规则RN2，适用的目标规则为规则RN1和规则RN2。那么终端设备对C1字段的目标规则在各所述算法规则中的占比为(7+1)/(7+1)＝1，即100％。那么C1字段的占比在表4对应的中间数值为100，因此C1字段的中间数值为100。

步骤S300、基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；

终端设备在得到待处理数据的第一有效数值和第二有效数值之后，基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值。

需要说明的是，在本实施例中，由于关键字段对于待处理数据来说是具有测试价值的有效数据，因此在计算待处理数据的最终有效数值时，可以为关键字段设置较高的预设第一比例系数，为非关键字段设置较低的预设第二比例系数。

进一步地，在一种可行实施例中，步骤S300，可以包括：

步骤S310、将所述第一有效数值的平均值与预设第一比例系数的乘积设置为有效参数；

终端设备将待处理数据的第一有效数值的平均值与预设第一比例系数的相乘得到有效参数。

具体地，例如，如上所示的表3中，待处理数据D的第一有效数值为100、84，假设预设第一比例系数为60％，那么有效参数为(100+84)/2*60％＝55.2。

步骤S320、将所述第二有效数值的平均值与预设第二比例系数的乘积设置为普通参数，其中，所述第一比例系数大于所述第二比例系数；

终端设备将待处理数据的第二有效数值的平均值与预设第二比例系数的相乘得到普通参数。

具体地，例如，如上所示的表3中，待处理数据D的第二有效数值为100、5、0、100，假设预设第二比例系数为40％，那么有效参数为(100+5+0+100)/4*40％＝20.5。

下面列举一个具体的实施例进行说明，假定预设有效阈值为70。

终端设备通过查看上表3可知，待处理数据D关键字段的第一有效数值为100、84；待处理数据D非关键字段的第二有效数值为100、5、0、100。

则待处理数据D的最终有效数值为：

(100+84)/2*60％+(100+5+0+100)/4*40％＝55.2+20.5＝75.7。

可见，75.7>70(预设有效阈值)，因此，该待处理数据为有效测试数据。

步骤S330、将所述有效参数和所述普通参数相加得到所述待处理数据的最终有效数值。

终端设备在计算得到有效参数和普通参数之后，通过将所述有效参数和所述普通参数相加得到所述待处理数据的最终有效数值。

具体地，例如，上述步骤S310计算得到的有效参数55.2，与步骤S320计算得到的普通参数20.5相加，那么待处理数据D最终有效数值为55.2+20.5＝75.7。

进一步地，在另一种可行实施例中，步骤S300，还可以包括：

步骤340、将所述第一有效数值和第二有效数值进行求和；

步骤350、对和值按照第一有效数值和第二有效数值的个数求平均值，其中，若出现0，有效数值的个数是总个数减去出现0的次数。

即，终端设备通过查看上表3可知，待处理数据D关键字段的第一有效数值为100、84；待处理数据D非关键字段的第二有效数值为100、5、0、100。其中，0出现一次，因此，有效数值的个数是5，则待处理数据D的最终有效数值：

(100+84+100+5+0+100)/5＝77.8。

可见，77.8>70(预设有效阈值)，因此，该待处理数据为有效测试数据。

本实例例中，通过另一种实施方式来计算最终有效数值，提高最终有效数值计算的灵活性，也提高了后续有效测试数据的筛选的灵活性。

步骤S400、判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。

终端设备在计算得到待处理数据的最终有效数值后，通过判断最终有效数值与预设有效阈值的关系，将小于预设有效阈值的该最终有效数值对应的目标待处理数据进行删除。

需要说明的是，在本实施例中，预设有效阈值用于表示待处理数据的有效性，可将预设有效阈值设置成60、70、80等。应当理解的是，基于实际应用的不同设计需要，终端设备可根据实际情况的不同设置不同的预设有效阈值，本发明有效测试数据的筛选方法并不针对该预设有效阈值的具体大小进行限定。

判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。由于关键字段对应的第一比例系数大于非关键字段对应的第二比例系数。当最终有效数值大于或等于预设有效阈值时，则说明待处理数据中的关键字段较多而非关键字段较少，应该进行保留；反之当最终有效数值小于预设有效阈值时，则说明待处理数据中的关键字段较少而非关键字段较多，属于测试价值较低的无效数据而被删除。

具体地，例如，设置预设有效阈值为70，步骤S300算得的最终有效数值为75.7，最终有效数值大于预设有效阈值，则说明待处理数据中的关键字段较多而非关键字段较少，应该进行保留；反之最终有效数值小于预设有效阈值时，例如最终有效数值为60，则说明待处理数据中的关键字段较少而非关键字段较多，属于测试价值较低的无效数据而被删除。

通过将把表中的每一待处理数据区分为关键字段和非关键字段，可以把最终有效数值倾斜到待处理数据的关键字段上。从而不会让一些比较特殊的待处理数据，例如关键字段质量差，而非关键字段的质量反而好的待处理数据也被筛选出来，使得筛选出来的有效测试数据更加准确。

通过设置预设第一比例系数大于预设第二比例系数，使得待处理数据的最终有效数值中有效参数的比重较大，而待处理数据的最终有效数值中普通参数的比重较小。更有助于突出待处理数据中的关键字段的占比，更有利于筛选具有更多的有效测试数据(即关键字段)，提高数据筛选精准度。

通过将待处理数据划分成关键字段与非关键字段进行计算，更有利于突出待处理数据中关键字段的占比，从而更有利于判断待处理数据的有效性。

反之，如果不设置关键字段，那么最终有效数值为：(100+84+100+5+0+100)/6＝64.83。可见，计算结果不符合有效数据要求。一般情况关键字段的第一有效数值高于非关键字段，所以不设置关键字段会使得最终有效数值下降，导致误将有效测试数据当无效数据进行删除，减少环境数据库中有效测试数据的数量。

另外，本实施例中通过将待处理数据中的字段套用多个算法规则，并对不同的算法规则赋予不同的权重参数，可以从多方面考量待处理数据中的字段的有效性。

相反地，如果不为待处理数据的各个字段设置多种算法规则，每个字段只设置一个规则，并且规则没有权重参数的区别，待处理数据也没有设置关键字段与非关键字段的区分，待处理数据的最终有效数值的计算结果请参照下表5所示。

表5

待处理数据的最终有效数值为(100+100+100+100+0+100)/6＝83.33。

可以看到，如果不为待处理数据的各个字段设置多种算法规则，每个字段只设置一个规则，并且规则没有权重参数的区别，待处理数据也没有设置关键字段与非关键字段的区分，这种情况下，计算得到的待处理数据的最终有效数值的浮动比较大，关键字段的第一有效数值不是100，就是0(即为无效数据)，无法从多方面考量待处理数据中的字段的有效性，容易导致本来一些有效的测试数据丢失。

因此本实施例运用多个算法规则计算字段的中间数值，通过关键字段的第一有效数值和非关键字段的第二有效数值得到的最终有效数值，相比单一的使用一个规则，能够更加准确地进行有效测试数据的筛选。

本实施例提出一种有效测试数据的筛选方法、装置、终端设备及存储介质，通过获取测试环境数据库中各个表的待处理数据；根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值；基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。

本实施例通过将测试环境数据库的表中的待处理数据分成关键字段以及非关键字段，分别计算待处理数据中关键字段的第一有效数值以及非关键字段的第二有效数值，再基于待处理数据中所有关键字段的第一有效数值和待处理数据中所有非关键字段的第二有效数值计算待处理数据的最终有效数值。当最终有效数值大于或等于预设有效阈值时，则说明待处理数据中的关键字段占比较高而非关键字段占比较少，应该进行保留；反之当最终有效数值小于预设有效阈值时，则说明待处理数据中的关键字段占比较少而非关键字段较高，因此属于测试价值较低的无效数据，从而被删除。

相较于传统的不对无效数据进行处理的实施方式，或者针对无效数据进行大量处理后只保留指定的少量无效数据的实施方式，本发明通过对比最终有效数值与预设有效阈值的关系，仅将小于所述预设有效阈值的所述最终有效数值对应的非关键字段较多的待处理数据删除，而将大于或等于所述预设有效阈值的所述最终有效数值对应的关键字段较多的待处理数据保留，如此，在去掉无效数据，从而提高数据库查询效率的同时，又尽可能多地保留了具有测试价值的有效数据，避免了数据类被隐藏的缺陷。

进一步地，基于上述第一实施例，提出本发明有效测试数据的筛选方法的第二实施例，请参照图3，图3为本发明有效测试数据的筛选方法的第二实施例的流程示意图，本实施例与上述第一实施例的主要区别在于，在本实施例中，在上述步骤S100、在所述获取测试环境数据库中各个表的待处理数据的步骤之后，本发明有效测试数据的筛选方法还可以包括：

S500、确定各所述表相互之间的关联关系，以按照所述关联关系对各所述表进行分组。

终端设备在获取测试环境数据库中各个表的待处理数据之后，可根据表中是否具有相同的关键字段确定表之间关联关系，将具有相同的关键字段的表划分至同一组。其中，表中的关键字段可以是主键、外键或索引中的任意一种。

需要说明的是，在一种可行的实施例中，当关键字段为主键时，可通过使用JavaDatabase Connectivity(JDBC)来判断一个数据表的主键。从而将具有相同的主键的表划分至同一组。

具体地，例如，假定表A中具备关键字段身份证号，而表B中具备关键字段身份证号、电话号码，表A和表B中具有相同的关键字段(即身份证号)，则可将表A和表B认为是相互关联的表，从而将表A和表B划分至同组。

需要说明的是，在本实施例中，当关键字段使用外键时，可以通过外键进行内链接查询。从而通过外键关联的表放置在一组有利于提高环境数据库中数据的一致性。

在本实施例中，通过将具有关联关系的表划分至同组，有利于维护测试环境数据库中数据的完整性，且提高数据查询的效率。

进一步地，基于上述第一实施例，提出本发明有效测试数据的筛选方法的第三实施例。请参照图4，图4为本发明有效测试数据的筛选方法的第三实施例的流程示意图，本实施例与上述第一实施例的主要区别在于，在本实施例中，本发明有效测试数据的筛选方法还可以包括：

S600、在各个所述表中确定缺失所述关键字段的待处理数据，其中，所述关键字段包括主键、外键及索引中的任意一种；排除缺失所述关键字段的待处理数据。

需要说明的是，在本实施例中，步骤S600可放在步骤S500之后，也可放在步骤S400之后，本实施例将步骤S600可放在步骤S400进行说明。

此外，在一种可行的实施例中，终端设备通过查询语句(如SELECT语句)查询表中的各个待处理数据，可确定缺失该关键字段的待处理数据。

当终端设备查询到待处理数据的关键字段为空，即可确定缺失该关键字段，该关键字段包括主键、外键及索引中的任意一种，当待处理数据中缺乏关键字段，即待处理数据中缺少了表明数据有效性的关键信息，此时该待处理数据视为无效数据，应该进行删除。

具体地，例如，当表中的一个待处理数据缺乏主键，则该待处理数据为无效数据，则待处理数据缺乏完整性，排除该缺失主键的待处理数据；当表中的一个待处理数据缺乏外键，则无法建立该待处理数据所在的表与其他表的关联关系，缺乏数据的一致性，排除该缺失外键的待处理数据；当表中的一个待处理数据缺乏索引，则无法提高数据查询排序的速度，则该待处理数据为无效数据，排除该缺失索引的待处理数据。

在本实施例中，通过在各个所述表中确定缺失所述关键字段的待处理数据，排除缺失所述关键字段的待处理数据。有利于进一步地排除测试环境数据库中的无效数据，从而在去掉无效数据，即提高测试环境数据库查询效率的同时，尽可能多地保留具有测试价值的的有效数据。

进一步地，本发明还提供一种有效测试数据的筛选装置。请参照图5，图5为本发明有效测试数据的筛选装置一实施例的功能模块示意图。如图5所示，本发明有效测试数据的筛选装置，包括：

获取模块10，用于获取测试环境数据库中各个表的待处理数据

第一计算模块20，用于根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值；

第二计算模块30，用于基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；

筛选模块40，用于判断所述最终有效数值与预设有效阈值的关系，将小于所述预设有效阈值的所述最终有效数值对应的目标待处理数据进行删除。

进一步地，第一计算模块20还包括：

第一确定模块，用于根据所述待处理数据中全部字段的字段类型确定字段类型规则，其中，所述字段类型规则包括字符串规则、数值规则以及日期规则中的至少一种；

第三计算模块，用于根据所述字段类型规则计算全部所述字段各自的中间数值；

第二确定模块，用于将全部所述字段中关键字段的中间数值确定为第一有效数值，将全部所述字段中非关键字段的中间数值确定为第二有效数值。

进一步地，第三计算模块还包括：

第三确定模块，用于从所述字段类型规则中确定与各所述字段各自字段类型对应的算法规则，其中，所述算法规则的类型数量大于一；

第四确定模块针，用于对各所述字段中的第一字段，从各所述算法规则中确定所述第一字段适用的目标规则；

第四计算模块，基于所述目标规则在各所述算法规则中的占比和预设分数阈值，计算所述第一字段的中间数值。

进一步地，所述算法规则至少包括第一规则和第二规则，所述第一规则的权重参数大于所述第二规则的权重参数，其中，所述第一规则是与预设基准字段具有第一相似度的字段适用的规则，所述第二规则是与所述预设基准字段具有第二相似度的字段适用的规则，所述第一相似度高于所述第二相似度。

进一步地，第二计算模块30还包括：

第一设置模块，用于将所述第一有效数值的平均值与预设第一比例系数的乘积设置为有效参数；

第二设置模块，用于将所述第二有效数值的平均值与预设第二比例系数的乘积设置为普通参数，其中，所述第一比例系数大于所述第二比例系数；

相加模块，用于将所述有效参数和所述普通参数相加得到所述待处理数据的最终有效数值。

进一步地，有效测试数据的筛选装置还包括：

分组模块，用于确定各所述表相互之间的关联关系，以按照所述关联关系对各所述表进行分组。

进一步地，有效测试数据的筛选装置还包括：

排除模块，用于在各个所述表中确定缺失所述关键字段的待处理数据，其中，所述关键字段包括主键、外键及索引中的任意一种；排除缺失所述关键字段的待处理数据。

本发明还提供一种计算机存储介质，该计算机存储介质上存储有终端任务的有效测试数据的筛选程序，所述终端任务的有效测试数据的筛选程序被处理器执行时实现如以上任一项实施例所述的有效测试数据的筛选方法的步骤。

本发明计算机存储介质的具体实施例与上述有效测试数据的筛选方法各实施例基本相同，在此不作赘述。

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如以上任一项实施例所述的有效测试数据的筛选方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种有效测试数据的筛选方法，其特征在于，所述有效测试数据的筛选方法包括：

获取测试环境数据库中各个表的待处理数据；

2.如权利要求1所述的有效测试数据的筛选方法，其特征在于，所述根据预设的字段类型规则计算所述待处理数据中关键字段的第一有效数值和非关键字段的第二有效数值的步骤包括：

根据所述待处理数据中全部字段的字段类型确定字段类型规则，其中，所述字段类型规则包括字符串规则、数值规则以及日期规则中的至少一种；

根据所述字段类型规则计算全部所述字段各自的中间数值；

将全部所述字段中关键字段的中间数值确定为第一有效数值，将全部所述字段中非关键字段的中间数值确定为第二有效数值。

3.如权利要求2所述的有效测试数据的筛选方法，其特征在于，根据所述字段类型规则计算全部所述字段各自的中间数值的步骤，包括：

从所述字段类型规则中确定与各所述字段各自字段类型对应的算法规则，其中，所述算法规则的类型数量大于一；

针对各所述字段中的第一字段，从各所述算法规则中确定所述第一字段适用的目标规则；

基于所述目标规则在各所述算法规则中的占比和预设分数阈值，计算所述第一字段的中间数值。

4.如权利要求3所述的有效测试数据的筛选方法，其特征在于，所述算法规则至少包括第一规则和第二规则，所述第一规则的权重参数大于所述第二规则的权重参数，其中，所述第一规则是与预设基准字段具有第一相似度的字段适用的规则，所述第二规则是与所述预设基准字段具有第二相似度的字段适用的规则，所述第一相似度高于所述第二相似度。

5.如权利要求1所述的有效测试数据的筛选方法，其特征在于，所述基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值的步骤，包括：

将所述第一有效数值的平均值与预设第一比例系数的乘积设置为有效参数；

将所述第二有效数值的平均值与预设第二比例系数的乘积设置为普通参数，其中，所述第一比例系数大于所述第二比例系数；

将所述有效参数和所述普通参数相加得到所述待处理数据的最终有效数值。

6.如权利要求1所述的有效测试数据的筛选方法，其特征在于，在所述获取测试环境数据库中各个表的待处理数据的步骤之后，还包括：

确定各所述表相互之间的关联关系，以按照所述关联关系对各所述表进行分组。

7.如权利要求1-6任一项所述的有效测试数据的筛选方法，其特征在于，所述有效测试数据的筛选方法还包括：

在各个所述表中确定缺失所述关键字段的待处理数据，其中，所述关键字段包括主键、外键及索引中的任意一种；

排除缺失所述关键字段的待处理数据。

8.一种有效测试数据的筛选装置，其特征在于，所述有效测试数据的筛选装置包括：

第二计算模块，用于基于所述第一有效数值和所述第二有效数值计算所述待处理数据的最终有效数值；以及，

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的终端任务的有效测试数据的筛选程序，所述终端任务的有效测试数据的筛选程序被所述处理器执行时实现如权利要求1至7中任一项所述的有效测试数据的筛选方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有终端任务的有效测试数据的筛选程序，所述终端任务的有效测试数据的筛选程序被处理器执行时实现如权利要求1至7中任一项所述的有效测试数据的筛选方法的步骤。