CN110109824B

CN110109824B - 大数据自动回归测试方法、装置、计算机设备和存储介质

Info

Publication number: CN110109824B
Application number: CN201910279738.9A
Authority: CN
Inventors: 刘秋菊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2022-05-17
Anticipated expiration: 2039-04-09
Also published as: CN110109824A; WO2020207014A1

Abstract

本发明揭示了一种大数据存储中心自动化回归测试方法、装置、计算机设备和存储介质，属于回归测试技术领域，所述大数据存储中心自动化回归测试方法主要流程有：先将所需要检查的表的表名、所需要检查的表的数量与分配的节点关联写入配置文件，并将分配的线程数和节点关联写入配置文件。然后将所述配置文件发送给上游数据库和大数据中心，使上游数据库和大数据中心按照配置文件中的设置抽取数据，生成查询结果表，发送至测试中心服务器。然后测试中心服务器对比上游数据库和大数据中心分别发来的查询结果表，找出两个表的不同，并将这些不同写入检查结果表反馈。通过这种方法，提高了测试效率，实现了测试场景全覆盖，且能实时监控数据。

Description

大数据自动回归测试方法、装置、计算机设备和存储介质

技术领域

本发明涉及回归测试技术领域，特别是涉及大数据存储中心自动化回归测试方法、装置、计算机设备和存储介质。

背景技术

由于大数据中心是数据存储中心，需要存储所有上游系统的业务数据，数据表存储的数量非常大。

而现有技术，在进行大数据中心测试时，一般都是由相关测试人员通过手动的形式进行回归测试，而大数据存储中心涉及的数据量往往很大，这导致了测试人员在测试过程中工作量巨大，测试时间过长，效率较为低下。这也会导致回归测试只能抽检部分数据无法完全覆盖的所有的数据，造成系统风险，有一定的风险隐患。

发明内容

基于此，为解决相关技术中人工进行大数据回归测试效率较低覆盖不全的技术问题，本发明提供了一种大数据存储中心自动化回归测试方法、装置、计算机设备和存储介质。

第一方面，提供了一种大数据存储中心自动化回归测试方法，包括：

将待检查的表的表名写入配置文件，并根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的数量，并将所述数量与节点进行关联后，写入配置文件；

根据所述上游数据库和大数据中心各节点所需要检查的表的量分配去各节点查询时所占用的线程数，并将所述线程数和节点关联后，写入配置文件；

向上游数据库发送配置文件，以便所述上游数据库的主服务器根据所述配置文件中所分配的去各节点查询时所占用的线程数以及配置文件中的表名，分别在上游数据库各节点的源表对所述需要检查的表的数据量和主键进行查询，并将所述上游数据库对应的数据量和主键的结果，写入第一查询结果表，所述主键是表中的一个或多个字段，每一个主键的值用于唯一地标识表中的一条记录；

向大数据中心发送所述配置文件，以便所述大数据中心的主服务器根据所述配置文件中线程数和节点、所分配的去各节点查询时所占用的线程数以及配置文件中的表名，分别在大数据中心各节点的目标表对所述需要检查的表的数据量和主键进行查询，并将所述大数据中心对应的数据量和主键的结果写入第二查询结果表；

接收所述上游数据库发送的第一查询结果表和所述大数据中心发送的第二查询结果表；

基于第一查询结果表和第二查询结果表中的数据量和主键生成测试结果。在其中一个实施例中，所述基于第一查询结果表和第二查询结果表中的数据量和主键生成测试结果的步骤包括：

将所述第一查询结果表中的数据量和主键和第二查询结果表中对应的数据量和主键输入机器学习模型，获得每一对数据和主键的测试结果；

并将所述测试结果写入测试结果表；

其中，所述机器学习模型的训练过程为：

将正查询结果样本对输入机器学习模型，所述正查询结果样本对是两个数据量样本或者两个主键样本，其中一个数据量样本是另一个数据量样本的相同对象，或者其中一个主键样本是另一个主键样本的相同对象，若输出的判定结果不相同，则调整所述机器学习模型的系数；

将负查询结果样本输入机器学习模型，所述负查询结果样本对是两个数据量样本或者两个主键样本，其中一个数据量样本是另一个数据量样本的不同对象，或者其中一个主键样本是另一个主键样本的不同对象，若输出的判定结果为相同，则调整所述机器学习模型的系数。

在其中一个实施例中，所所述测试结果表包括不相同的数据量和主键，在对比第一查询结果表和第二查询结果表中的数据量和主键，并生成测试结果之后，还包括：

将所述测试结果发送给用户，以便用户根据所述测试结果对所述不相同的数据量和主键进行人工验证。

在其中一个实施例中，述测试结果表包括不相同的数据量和主键，在对比第一查询结果表和第二查询结果表中的数据量和主键，并生成测试结果之后，还包括：

将所述测试结果发送至上游数据库，以便所述上游数据库根据所述测试结果将所述不相同的数据量和主键重新发送至大数据中心。

在其中一个实施例中，所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表的数量。

在其中一个实施例中，所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表所占用存储空间的大小。

在其中一个实施例中，其特征在于，所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表的数量和需要检查的表所占用存储空间的大小的加权和。

第二方面，提供了一种大数据存储中心自动化回归测试装置，包括：

配置文件写入单元，用于将所需要检查的表的表名写入配置文件，并根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的量，并将所述数量与节点关联写入配置文件；

节点线程分配单元，用于根据所述上游数据库和大数据中心各节点所需要检查的表的数量分配去各节点查询时所占用的线程数，并将所述线程数和节点关联写入配置文件；

上游数据查询单元，用于向上游数据库发送配置文件，以便所述上游数据库的主服务器根据所述配置文件中线程数和节点，按照所分配的线程数，根据配置文件中的表名，分别在上游数据库各节点的源表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果，写入第一查询结果表，所述主键是表中的一个或多个字段，它的值用于唯一地标识表中的某一条记录；

下游数据查询单元，用于向大数据中心发送所述配置文件，以便所述大数据中心的主服务器根据所述配置文件中线程数和节点，以及，按照所分配的线程数，根据配置文件中的表名，分别在大数据中心各节点的目标表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果写入第二查询结果表；

查询结果接收单元，用于接收所述上游数据库发送的第一查询结果表和所述大数据中心发送的第二查询结果表；

测试结果生成单元，用于基于第一查询结果表和第二查询结果表中的数据量和主键中不同的数量和主键，生成测试结果。

第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述大数据存储中心自动化回归测试方法的步骤。

第四方面，提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述大数据存储中心自动化回归测试方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

上述大数据存储中心自动化回归测试方法、装置、计算机设备和存储介质，通过将所需要检查的表的表名写入配置文件，然后根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的数量，并将所述数量与节点关联写入配置文件。然后根据所述上游数据库和大数据中心各节点所需要检查的表的数量分配去各节点查询时所占用的线程数，并将所述线程数和节点关联写入配置文件，这样配置文件中就包含有要检查的表的表名、数量以及数量与节点的关系、线程数与节点的关系。然后向上游数据库发送配置文件，这样，所述上游数据库的主服务器就可以根据所述配置文件中线程数和节点，按照所分配的线程数，根据配置文件中的表名，分别在上游数据库各节点的源表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果，写入第一查询结果表，所述主键是表中的一个或多个字段，它的值用于唯一地标识表中的某一条记录，通过主键能够很快的查询需要检查的表，提高了测试的效率的同时还能覆盖所有要检查的内容。同时，也要向大数据中心这一下游数据库发送所述配置文件，同理所述大数据中心的主服务器根据所述配置文件中线程数和节点，以及，按照所分配的线程数，根据配置文件中的表名，分别在大数据中心各节点的目标表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果写入第二查询结果表。获取所述上游数据库发送的第一查询结果表和所述大数据中心发送的第二查询结果表后，就可以根据第一查询结果表和第二查询结果表中的数据量和主键中不同的数量和主键，找出数据的差异，生成测试结果，这样就自动完成了回归测试，既避免了人工测试中的低效，也覆盖了所有的测试内容。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

图1是一个实施例中提供的大数据存储中心自动化回归测试方法的实施环境图。

图2是根据一示例性实施例示出的一种大数据存储中心自动化回归测试方法的流程图。

图3是根据图2对应实施例示出的大数据存储中心自动化回归测试方法中步骤S160的一种具体实现流程图。

图4是根据图2对应实施例示出的另一种大数据存储中心自动化回归测试方法的流程图。

图5是根据图2对应实施例示出的又一种大数据存储中心自动化回归测试方法的流程图。

图6是根据一示例性实施例示出的一种大数据存储中心自动化回归测试装置的框图。

图7示意性示出一种用于实现上述大数据存储中心自动化回归测试方法的电子设备示例框图。

图8示意性示出一种用于实现上述大数据存储中心自动化回归测试方法的计算机可读存储介质。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中提供的大数据存储中心自动化回归测试方法的实施环境图，如图1所示，在所述实施环境中，包括测试中心服务器100、上游数据库200、大数据中心300。

上游数据库200是存储有上游数据的服务器，大数据中心300是存储有下游数据的大数据服务器，包含有多个节点，测试中心服务器100用于从上游数据库200和大数据中心300抽取数据并执行测试。具体过程为，先将所需要检查的表的表名、所需要检查的表的数量与分配的节点关联写入配置文件，并将分配的线程数和节点关联写入配置文件。然后将所述配置文件发送给上游数据库200和大数据中心300，使上游数据库200和大数据中心300按照配置文件中的设置抽取数据，生成查询结果表，发送至测试中心服务器100。然后测试中心服务器100对比上游数据库200和大数据中心300分别发来的查询结果表，找出两个表的不同，并将这些不同写入检查结果表反馈。

需要说明的是测试中心服务器100可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。上游数据库200、大数据中心300可以是多个不同服务器组成的服务器集群，但并不局限于此。中心服务器100、上游数据库200、大数据中心300之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本发明在此不做限制。

如图2所示，在一个实施例中，提出了一种大数据存储中心自动化回归测试方法，所述大数据存储中心自动化回归测试方法可以应用于上述的测试中心服务器100中，具体可以包括以下步骤：

步骤S110，将待检查的表的表名写入配置文件，并根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的数量，并将所述数量与节点进行关联后，写入配置文件。

本发明要进行的测试为回归测试，本发明主要的目的在于提高回归测试的效率，使测试覆盖大多数场景。故在步骤S110中，本发明先配置一个配置文件，将待检查的表的表名信息写入所述配置文件，一个表的表名信息是其唯一的标识信息，需要检查的表的表名信息可以使上游数据库和大数据中心根据表名信息精确定位到所需要检查的表。

然后由于一个表名唯一对应一张表，故再根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的数量(即通过统计表名的数量来确定表的数量)，并将所述数量与节点关联写入配置文件。以便上游数据库和大数据中心各节点根据各自所需要检查的表的数量，统计各自所需要检查的表的量。

所述所需要检查的表的量可以是需要检查的表的数量，也可以是需要检查的表所占用存储空间的大小，还可以是需要检查的表的数量和需要检查的表所占用存储空间的大小的加权和。而之所以将上游数据库和大数据中心各节点所需要检查的表的数量与节点关联写入配置文件而不是所需要检查的表的量，是因为如果要统计所需要检查的表的量就有可能需要向上游数据库和大数据中心各节点查询，这个工作量过于庞杂，而所需要检查的表的数量可以直接根据表名统计，每一个表的表名对应一张表，其工作量大大减少，且所需要检查的表的量为数量时，可以直接将配置文件中的数量作为需要检查的表的量。

步骤S120，根据所述上游数据库和大数据中心各节点所需要检查的表的量分配去各节点查询时所占用的线程数，并将所述线程数和节点关联后，写入配置文件。

将所待检查的表的表名以及上游数据库和大数据中心各节点所需要检查的表的数量均写入配置文件后，就可以根据所述上游数据库和大数据中心各节点所需要检查的表的量分配去各节点查询时所占用的线程数，对于所需要检查的表的量较多的节点，分配较多的线程数，对于所需要检查的表的量较少的节点，分配较少的线程数。

这样分配所占用的线程数，在按照分配的线程数查询的时候，可以使查询过程更稳定，不会出现由于某一节点的大文件将所有线程占用而导致所述节点工作负载过大而查询失败的情况，也不会出现由于某一节点的大文件将所有线程占用而导致其它节点断连过久而查询失败的情况，也不会出现因为某一节点卡死而导致查询失败的情况。使得查询过程的工作负载分配得更为均衡更为合理，又好又快地完成查询过程。

步骤S130，向上游数据库发送配置文件，以便所述上游数据库的主服务器根据所述配置文件中所分配的去各节点查询时所占用的线程数以及配置文件中的表名，分别在上游数据库各节点的源表对所述需要检查的表的数据量和主键进行查询，并将所述上游数据库对应的数据量和主键的结果，写入第一查询结果表，所述主键是表中的一个或多个字段，每一个主键的值用于唯一地标识表中的一条记录。

步骤S140，向大数据中心发送所述配置文件，以便所述大数据中心的主服务器根据所述配置文件中线程数和节点、所分配的去各节点查询时所占用的线程数以及配置文件中的表名，分别在大数据中心各节点的目标表对所述需要检查的表的数据量和主键进行查询，并将所述大数据中心对应的数据量和主键的结果写入第二查询结果表。

将去各节点查询时所占用的线程数和节点关联写入配置文件后，所述配置文件中包含的信息已满足进行查询任务的需求，就可以发送给上游数据库和大数据中心，以便上游数据库和大数据中心根据配置文件中包含的信息进行查询任务。

在进行查询任务时主要对所述需要检查的表的数据量和主键进行查询。

主键，即主关键字，是表中的一个或多个字段，它的值用于唯一地标识表中的一条记录。主关键字是一种唯一关键字，一个表的主键可以由多个关键字共同组成，并且主关键字的列不能包含空值。查询所述需要检查的表的主键相比查询表的内容，能够在表示表的内容的同时，可以加快数据库的查询速度，大幅度缩减查询结果的大小。

最后所述数据量和主键的结果分别写入一张查询结果表，即得到第一查询结果表和第二查询结果表。

步骤S150，接收所述上游数据库发送的第一查询结果表和所述大数据中心发送的第二查询结果表。

得到第一查询结果表和第二查询结果表后，上游数据库200和大数据中心300就可以将所述第一查询结果表和第二查询结果表发送给测试中心服务器100，由测试中心服务器100进行下一步操作。

在发送第一查询结果表和第二查询结果表时，可以按照第一查询结果表和第二查询结果表所占用存储空间的大小分配所占用的线程数。也可以将第一查询结果表和第二查询结果表分成若干部分，按照各部分所占用存储空间的大小来分配所占用的线程数。

步骤S160，基于第一查询结果表和第二查询结果表中的数据量和主键生成测试结果。

最后对比第一查询结果表和第二查询结果表的数据量和主键，得出两个表中不同的数据量和主键。若第一查询结果表和第二查询结果表的数据量不同，则存在有漏传的情况；若第一查询结果表和第二查询结果表存在有不同的主键，则存在有误传或者漏传的情况，这些情况都需要写入测试结果中。以便根据测试结果进行一些后续的处理，例如重新传输或者进行系统维护。

本发明要进行的测试为回归测试，具体来说，就是检测上游数据库向大数据中心传输的数据是否有漏传或者误传。故本发明事先配置一个配置文件，配置文件中包括需要检查的表的表名信息，以便上游数据库和大数据中心根据表名信息查询所需要检查的表的数据量和主键。之所以检查数据量是为了检查有没有漏传，而检查主关键字是为了检查有没有误传。由于本发明涉及的是大数据集群间的测试，数据量会比较大，故需要合理安排测试中各大数据集群节点的传输的速度，故本发明中的配置文件中还包括了事先统计出来的各节点的任务量，以及按照任务量分配的线程数，以保证在数据测试过程中不会断线。

可选的，图3是根据图2对应实施例示出的大数据存储中心自动化回归测试方法中步骤S160的细节描述，所述大数据存储中心自动化回归测试方法中，步骤S160可以包括以下步骤：

步骤S161，将所述第一查询结果表中的数据量和主键和第二查询结果表中对应的数据量和主键输入机器学习模型，获得每一对数据和主键的测试结果。

在对比第一查询结果表和第二查询结果表的数据量和主键时可以通过机器学习模型来执行，这样会使得输出的对比结果有较高的准确率而且随着机器学习模型的深度学习，这个结果会越来越准确。

步骤S162，将所述测试结果写入测试结果表。

其中，所述机器学习模型的训练过程为：

本方案通过机器学习模型来对两个查询结果表中数据量和主键信息进行比对，然后将比对信息写入检查结果表的方式来检测查询结果，找出失败的场景。由于机器学习模型经过训练，在对比测试过程中输出结果会越来越准，提高了测试的准确率。

所述机器学习模型的学习的方式为：在外界输入样本的刺激下不断改变网络的连接权值。学习的本质是对各连接权重进行动态调整。由于每个样本对的两个样本是否相同是已知的，一旦机器学习模型根据各连接权重，对从各样本对施加运算，得到的字段名称和参数要求结果与已知结果不符，其就自动调整各连接权重，直到得到的字段名称和参数要求结果与已知结果相符。这样，就训练好了机器学习模型。然后将第一查询结果表中的的查询结果和第二查询结果表中对应的查询结果输入机器学习模型，就得到了该对查询结果的测试结果。

图4示出了在一个实施例中，图2对应实施例中的步骤S160之后，所述大数据存储中心自动化回归测试方法还可以包括以下步骤：

步骤S170，将所述测试结果发送给用户，以便用户根据所述测试结果对所述不相同的数据量和主键进行人工验证。

当得到测试结果后，还需要把所述测试结果传递到相关测试维护人员(即用户)手中，以方便相关人员根据测试结果中记录的不相同的数据量和主键进行人工验证，找出漏传和误传的数据表，根据漏传和误传的数据表分析失败场景，然后就失败场景进行修复维护，这样就可以修正错误，使得上游数据库和大数据中心之间的数据保持一致，也完成了此次测试的最终目的。

图5示出了在一个实施例中，图2对应实施例中的步骤S160之后，所述大数据存储中心自动化回归测试方法还可以包括以下步骤：

步骤S180，将所述测试结果发送至上游数据库，以便所述上游数据库根据所述测试结果将所述不相同的数据量和主键重新发送至大数据中心。

当得到测试结果后，也可以不用相关人员根据测试结果中记录的不相同的数据量和主键进行人工验证，而是系统自己修复，本方案是将所述测试结果发送至上游数据库，然后上游数据库根据所述测试结果将所述不相同的数据量和主键重新再一次发送至大数据中心，填补覆盖掉之前的错误数据，这样就完成了自我纠正，免去了人工验证维护的繁杂的操作量，提高了测试维护的效率。

可选的，图2对应实施例示出的大数据存储中心自动化回归测试方法中所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表的数量。

可选的，图2对应实施例示出的大数据存储中心自动化回归测试方法中所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表所占用存储空间的大小。

可选的，图2对应实施例示出的大数据存储中心自动化回归测试方法中所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表的数量和需要检查的表所占用存储空间的大小的加权和。

表的数量和表所占用存储空间都能在一定程度上反映出上游数据库和大数据中心查询数据的任务量的大小，而将表的数量和表所占用存储空间这两项按照一定的权重比求加权和，能够覆盖更多的维度，更客观得表示上游数据库和大数据中心查询数据的任务量的大小。

如图6所示，在一个实施例中，提供了一种大数据存储中心自动化回归测试装置，所述大数据存储中心自动化回归测试装置可以集成于上述的测试中心服务器100中，具体可以包括：配置文件写入单元110、节点线程分配单元120、上游数据查询单元130、下游数据查询单元140、查询结果接收单元150、测试结果生成单元160。

配置文件写入单元110，用于将所需要检查的表的表名写入配置文件，并根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的数量，并将所述数量与节点关联写入配置文件；

节点线程分配单元120，用于根据所述上游数据库和大数据中心各节点所需要检查的表的量分配去各节点查询时所占用的线程数，并将所述线程数和节点关联写入配置文件；

上游数据查询单元130，用于向上游数据库发送配置文件，以便所述上游数据库的主服务器根据所述配置文件中线程数和节点，按照所分配的线程数，根据配置文件中的表名，分别在上游数据库各节点的源表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果，写入第一查询结果表，所述主键是表中的一个或多个字段，它的值用于唯一地标识表中的某一条记录；

下游数据查询单元140，用于向大数据中心发送所述配置文件，以便所述大数据中心的主服务器根据所述配置文件中线程数和节点，以及，按照所分配的线程数，根据配置文件中的表名，分别在大数据中心各节点的目标表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果写入第二查询结果表；

查询结果接收单元150，用于接收所述上游数据库发送的第一查询结果表和所述大数据中心发送的第二查询结果表；

测试结果生成单元160，用于基于第一查询结果表和第二查询结果表中的数据量和主键中不同的数量和主键，生成测试结果。

上述装置中各个模块的功能和作用的实现过程具体详见上述大数据存储中心自动化回归测试方法中对应步骤的实现过程，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的电子设备500。图7显示的电子设备500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元510可以执行如图2中所示的步骤S110，将所需要检查的表的表名写入配置文件，并根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的数量，并将所述数量与节点关联写入配置文件；步骤S120，根据所述上游数据库和大数据中心各节点所需要检查的表的数量分配去各节点查询时所占用的线程数，并将所述线程数和节点关联写入配置文件；步骤S130，向上游数据库发送配置文件，以便所述上游数据库的主服务器根据所述配置文件中线程数和节点，按照所分配的线程数，根据配置文件中的表名，分别在上游数据库各节点的源表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果，写入第一查询结果表，所述主键是表中的一个或多个字段，它的值用于唯一地标识表中的某一条记录；步骤S140，向大数据中心发送所述配置文件，以便所述大数据中心的主服务器根据所述配置文件中线程数和节点，以及，按照所分配的线程数，根据配置文件中的表名，分别在大数据中心各节点的目标表对所述需要检查的表的数据量和主键进行查询，并将所述数据量和主键的结果写入第二查询结果表；步骤S150，接收所述上游数据库发送的第一查询结果表和所述大数据中心发送的第二查询结果表；步骤S160，基于第一查询结果表和第二查询结果表中的数据量和主键中不同的数量和主键，生成测试结果。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元(ROM)5203。

存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且，电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器560通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种大数据存储中心自动化回归测试方法，其特征在于，所述方法包括：

根据所述上游数据库和大数据中心各节点所需要检查的表的量来分配去各节点查询时所占用的线程数，并将所述线程数和节点关联后，写入配置文件；

基于第一查询结果表和第二查询结果表中的数据量和主键生成测试结果。

2.如权利要求1所述的方法，其特征在于，所述基于第一查询结果表和第二查询结果表中的数据量和主键生成测试结果的步骤包括：

将所述测试结果写入测试结果表；

其中，所述机器学习模型的训练过程为：

3.如权利要求1所述的方法，其特征在于，所述测试结果表包括不相同的数据量和主键，在对比第一查询结果表和第二查询结果表中的数据量和主键，并生成测试结果之后，还包括：

4.如权利要求1所述的方法，其特征在于，所述测试结果表包括不相同的数据量和主键，在对比第一查询结果表和第二查询结果表中的数据量和主键，并生成测试结果之后，还包括：

5.如权利要求1所述的方法，其特征在于，所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表的数量。

6.如权利要求1所述的方法，其特征在于，所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表所占用存储空间的大小。

7.如权利要求1所述的方法，其特征在于，所述上游数据库和大数据中心各节点所需要检查的表的量是所需要检查的表的数量和需要检查的表所占用存储空间的大小的加权和。

8.一种大数据存储中心自动化回归测试装置，其特征在于，所述装置包括：

配置文件写入单元，用于将待检查的表的表名写入配置文件，并根据所述表名确定上游数据库和大数据中心各节点所需要检查的表的数量，并将所述数量与节点进行关联后，写入配置文件；

节点线程分配单元，用于根据所述上游数据库和大数据中心各节点所需要检查的表的量来分配去各节点查询时所占用的线程数，并将所述线程数和节点关联后，写入配置文件；

上游数据查询单元，用于向上游数据库发送配置文件，以便所述上游数据库的主服务器根据所述配置文件中所分配的去各节点查询时所占用的线程数以及配置文件中的表名，分别在上游数据库各节点的源表对所述需要检查的表的数据量和主键进行查询，并将所述上游数据库对应的数据量和主键的结果，写入第一查询结果表，所述主键是表中的一个或多个字段，每一个主键的值用于唯一地标识表中的一条记录；

下游数据查询单元，用于向大数据中心发送所述配置文件，以便所述大数据中心的主服务器根据所述配置文件中线程数和节点、所分配的去各节点查询时所占用的线程数以及配置文件中的表名，分别在大数据中心各节点的目标表对所述需要检查的表的数据量和主键进行查询，并将所述大数据中心对应的数据量和主键的结果写入第二查询结果表；

测试结果生成单元，用于基于第一查询结果表和第二查询结果表中的数据量和主键生成测试结果。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的方法。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述的方法。