CN109359060B

CN109359060B - 数据抽取方法、装置、计算设备及计算机存储介质

Info

Publication number: CN109359060B
Application number: CN201811243418.XA
Authority: CN
Inventors: 徐皓; 朱海龙; 杜文玉; 沈迪; 王素梅; 李铮
Original assignee: 3600 Technology Group Co ltd
Current assignee: 3600 Technology Group Co ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2023-06-16
Anticipated expiration: 2038-10-24
Also published as: CN109359060A

Abstract

本发明公开了一种数据抽取方法、装置、计算设备及计算机存储介质。其中，该方法包括：当接收到全表数据查询请求时，根据数据表的总行数和平均每行长度判断是否切换查询方式；若是，则将查询方式由全表查询方式切换为分页查询方式；利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中。基于本发明提供的方案，通过采用分页查询方式，可以减少每次抽取数据的数据量，从而降低GC情况发生的频率，使GC情况达到正常状态，还能有效控制内存溢出错误不再发生，提升了稳定性，给用户带来良好的使用体验。

Description

数据抽取方法、装置、计算设备及计算机存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种数据抽取方法、装置、计算设备及计算机存储介质。

背景技术

在分布式计算任务中，Mysql数据抽取受到集群机器授权的限制，需要在Yarn-client模式运行。当Mysql抽取的数据量较大时，Driver端压力较大，会产生频繁垃圾回收(GC(Garbage Collection))的情况。

其中，GC是指：在抽取一条数据后，会将数据加载到内存中，然后创建一个对象，这个对象是有生命周期的。由于内存是有限的，当程序不再需要使用某个对象的时候，就需要销毁该对象并释放其所占用的内存资源，好重新利用这段空间，这样就会产生GC情况。由于抽取数据的数据量较大，那么创建的对象也会较多，很容易产生频繁的GC情况，从而导致数据抽取任务运行缓慢，大多时是在等待GC时间，还可能出现数据抽取任务失败的情况，其中，数据抽取任务失败的原因主要是内存溢出(通俗理解为内存不够)。

因此，亟需一种能够有效控制GC情况，避免内存溢出错误发生，提升数据抽取任务运行的稳定性的数据抽取方法。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据抽取方法、装置、计算设备及计算机存储介质。

根据本发明的一个方面，提供了一种数据抽取方法，包括：

当接收到全表数据查询请求时，根据数据表的总行数和平均每行长度判断是否切换查询方式；

若是，则将查询方式由全表查询方式切换为分页查询方式；

利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中。

根据本发明的另一方面，提供了一种数据抽取装置，包括：

第一判断模块，适于当接收到全表数据查询请求时，根据数据表的总行数和平均每行长度判断是否切换查询方式；

切换模块，适于若切换查询方式，则将查询方式由全表查询方式切换为分页查询方式；

抽取模块，适于利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述数据抽取方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述数据抽取方法对应的操作。

根据本发明提供的方案，当接收到全表数据查询请求时，根据数据表的总行数和平均每行长度判断是否切换查询方式；若是，则将查询方式由全表查询方式切换为分页查询方式；利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中。基于本发明提供的方案，通过采用分页查询方式，可以减少每次抽取数据的数据量，从而降低GC情况发生的频率，使GC情况达到正常状态，还能有效控制内存溢出错误不再发生，提升了稳定性，给用户带来良好的使用体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的数据抽取方法的流程示意图；

图2示出了根据本发明另一个实施例的数据抽取方法的流程示意图；

图3示出了根据本发明一个实施例的数据抽取装置的结构示意图；

图4示出了根据本发明一个实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的数据抽取方法的流程示意图。如图1所示，该方法包括以下步骤：

步骤S100，当接收到全表数据查询请求时，根据数据表的总行数和平均每行长度判断是否切换查询方式，若是，则执行步骤S101。

在本实施例中，全表数据查询请求指在数据抽取时，不设置查询条件，直接选中整个数据表，对数据表中数据的抽取，通过一次抽取，抽取到数据表中全部数据。

当接收到全表数据查询请求时，需要先统计数据表的共有多少行，即总行数，以及确定数据表的平均每行长度，然后，根据数据表的总行数和平均每行长度判断是否切换查询方式，这里的切换查询方式指由全表查询方式切换至分页查询方式。

步骤S101，将查询方式由全表查询方式切换为分页查询方式。

在根据数据表的总行数和平均每行长度判断出需要切换查询方式的情况下，可以将查询方式由全表查询方式切换为分页查询方式，其中，分页查询指在抽取数据时，每次抽取数据表中的部分数据，然后，分多次抽取数据，直至抽取完数据表中所有数据。

在本实施例中，将查询方式由全表查询方式切换为分页查询方式，可以减少每次抽取数据的数据量，从而降低GC情况发生的频率，使GC情况达到正常状态，提升了稳定性，给用户带来良好的使用体验。

步骤S102，利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中。

在将查询方式由全表查询方式切换为分页查询方式之后，可以利用分页查询方式，分次从数据源抽取相应的数据，每次抽取数据表中的部分数据，然后，将抽取的数据存储至分布式缓存器中，能有效控制内存溢出错误不再发生。

根据本发明上述实施例提供的方法，当接收到全表数据查询请求时，根据数据表的总行数和平均每行长度判断是否切换查询方式；若是，则将查询方式由全表查询方式切换为分页查询方式；利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中。基于本发明提供的方案，通过采用分页查询方式，可以减少每次抽取数据的数据量，从而降低GC情况发生的频率，使GC情况达到正常状态，还能有效控制内存溢出错误不再发生，提升了稳定性，给用户带来良好的使用体验。

图2示出了根据本发明另一个实施例的数据抽取方法的流程示意图。如图2所示，该方法包括以下步骤：

步骤S200，当接收到全表数据查询请求时，计算第一预设阈值与平均每行长度的比值。

第一预设阈值表示采用全表查询时，设定的数据表最大存储空间，例如，可以将第一预设阈值设定为12M，这里仅是举例说明，不具有任何限定作用，本领域技术人员可以根据实际需要灵活设定第一预设阈值。平均每行长度是数据表中所有行的行长度的均值，以字节表示，平均每行长度与数据表的存储空间和总行数有关。

第一预设阈值与平均每行长度的比值表示在该数据表存储空间为第一预设阈值时，该数据表大概有多少行，表示数据抽取时，能够抽取的数据的行数。第一预设阈值与平均每行长度的比值限定了采用全表查询时，查询行数的最大值。

当接收到全表数据查询请求时，需要先计算第一预设阈值与平均每行长度的比值，举例说明，计算得到第一预设阈值与平均每行长度的比值为10000，则可以确定每次抽取数据的行数为10000行，这里仅是举例说明，不具有任何限定作用。

步骤S201，判断数据表的总行数是否大于或等于第一预设阈值与平均每行长度的比值，若是，则执行步骤S202，若否，则执行步骤S206。

在计算得到第一预设阈值与平均每行长度的比值之后，可以先统计数据表的共有多少行，即总行数，将待抽取的数据表的总行数与第一预设阈值与平均每行长度的比值进行比较，根据比较结果确定是否切换查询方式，若数据表的总行数大于或等于第一预设阈值与平均每行长度的比值，说明数据表的数据量很大，采用全表查询时，很容易频繁出现GC情况，甚至导致内存溢出错误，需要将查询方式切换至分页查询方式，后续将采用分页查询方式；若数据表的总行数小于第一预设阈值与平均每行长度的比值，表明数据表的数据量并未达到规定的上限，不需要切换查询方式，继续采用全表查询方式，效率更快。

本实施例通过判断数据表的总行数是否大于或等于第一预设阈值与平均每行长度的比值，可以实现统筹兼顾运行的稳定性及效率。

在本发明一种可选实施方式中，可以进一步采用以下方法确定是否切换查询方式：判断数据表的总行数与比值相除的结果是否小于或等于第二预设阈值，若数据表的总行数与比值相除的结果小于或等于第二预设阈值，则执行切换查询方式的步骤，若数据表的总行数与比值相除的结果大于第二预设阈值，则不切换查询方式，可以继续采用全表查询方式。

其中，第二预设阈值是对分页查询次数的限定，表明在进行分页查询时，分页查询次数的上限值，是一个临界值，若数据表的总行数与比值相除的结果大于第二预设阈值，需要一直不断的执行数据查询、数据抽取，如果继续采用分页查询将会导致数据抽取任务运行效果不理想；若数据表的总行数与比值相除的结果小于或等于第二预设阈值，表明分页查询次数得到控制，采用分页查询方式，数据抽取任务稳定性更高，数据抽取任务运行更为理想，其中，第二预设阈值可以设定为10万次，这里仅是举例说明，不具有任何限定作用，本领域技术人员可以根据实际需要进行灵活设定。

具体地，数据表的总行数与比值相除的结果为需要进行分页查询的次数，在确定了数据表的总行数与比值相除的结果之后，将数据表的总行数与比值相除的结果与第二预设阈值进行比较，根据比较结果确定是否切换至分页查询方式。

步骤S202，将查询方式由全表查询方式切换为分页查询方式。

在判断出数据表的总行数大于或等于第一预设阈值与平均每行长度的比值情况下，可以确定需要切换查询方式，具体地，将查询方式由全表查询方式切换为分页查询方式，其中，分页查询指在抽取数据时，每次抽取数据表中的部分数据，然后，分多次抽取数据，直至抽取完数据表中所有数据。

在本实施例中，虽然将查询方式由全表查询方式切换至分页查询方式，但是由于不同的数据表的总行数不同，使得分页查询次数也会有所不同，因此，在将查询方式由全表查询方式切换为分页查询方式之后，还需要确定采用分页查询方式时，需要分多少次抽取数据。

步骤S203，将数据表的总行数与比值相除的结果确定为分页查询次数。

在确定了采用分页查询方式之后，需要确定分页查询次数，在步骤S200中确定了每次抽取多少行数据，数据表的总行数是确定的，因此，根据数据表的总行数和比值可以确定分页查询次数，具体地，计算数据表的总行数与比值相除的结果，将数据表的总行数与比值相除的结果确定为分页查询次数。即，需要分多少次抽取数据，可以将数据表中的数据全部抽取完。

举例说明，数据表的总行数与比值相除的结果为100，表示需要连续执行数据抽取操作100次，才可以抽取完全部数据，这里仅是举例说明，不具有任何限定作用。

步骤S204，根据分页查询次数，分次从数据源抽取预设行数的数据并将每次抽取的数据存储至分布式缓存器中。

在确定了分页查询次数之后，就可以根据所确定的分页查询次数进行数据抽取。

具体地，从数据源抽取预设行数的数据，其中，预设行数为第一预设阈值与平均每行长度的比值，举例说明，第一预设阈值与平均每行长度的比值为10000，则预设行数为10000行，所确定的分页查询次数为100次，那么每次从数据源抽取数据时，需要抽取10000行的数据，在抽取到10000行的数据之后，将这10000行的数据存储至分布式缓存器中，然后，继续第2次数据抽取，并将抽取的数据存储至分布式缓存器中，直到执行第100次数据抽取，在执行完第100次数据抽取操作后，将第100次抽取的数据存储至分布式缓存器中，即完成数据抽取。

在本实施例中，分布式缓存器包括：HDFS缓存器。HDFS缓存器具有带宽大，容量大，I/O吞吐量大等优点，因此，能够支持并行地从HDFS缓存器中读取数据。

在本实施例中将以Mysql表的数据抽取为例进行说明，但并不限于Mysql表的数据抽取。

Mysql数据抽取受到集群机器授权的限制，采用单机抽取方式，其中，单机抽取时，对Mysql数据授权比较容易控制。但是，其并不支持高并发，即，无法实现分布式，因此，从数据源抽取预设行数的数据之后，可以将每次抽取的数据存储至分布式缓存器中，以实现后续数据读取效率，还能有效控制内存溢出错误不再发生。

步骤S205，根据数据读取请求，并行地从分布式缓存器读取相应的数据，并将读取的数据汇总返回给客户端。

当接收到客户端发送的数据读取请求时，可以根据该数据读取请求，并行地从分布式缓存器读取相应的数据，由于数据是分散存储至分布式缓存器中，因此，需要将读取的数据进行汇总，在汇总后，将数据返回给客户端。

步骤S206，利用全表查询方式，从数据源抽取相应的数据。

在判断出数据表的总行数小于第一预设阈值与平均每行长度的比值的情况下，或者，在判断出数据表的总行数与比值相除的结果是否大等于第二预设阈值的情况下，将不执行切换查询方式的操作，也就是说，继续采用全表查询方式，从数据源抽取相应的数据。

根据本发明上述实施例提供的方法，通过判断数据表的总行数是否大于或等于第一预设阈值与平均每行长度的比值，可以实现精准地确定是否切换查询方式，从而能够统筹兼顾数据抽取任务运行的稳定性及效率，通过计算分页查询次数，可以精准地控制数据抽取操作执行次数，避免部分数据被遗漏，未被抽取的情况，采用分页查询方式，可以减少每次抽取数据的数据量，从而降低GC情况发生的频率，使GC情况达到正常状态，还能有效控制内存溢出错误不再发生，提升了稳定性，并在用户无感知的情况下，给用户带来良好的使用体验，通过将抽取的数据存储至分布式缓存器中可以并发地从分布式缓存器中读取数据，从而提升数据读取效率。

图3示出了根据本发明一个实施例的数据抽取装置的结构示意图。如图3所示，该装置包括：第一判断模块300、切换模块310、抽取模块320。

第一判断模块300，适于当接收到全表数据查询请求时，根据数据表的总行数和平均每行长度判断是否切换查询方式。

切换模块310，适于若切换查询方式，则将查询方式由全表查询方式切换为分页查询方式。

抽取模块320，适于利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中。

可选地，所述第一判断模块300进一步包括：计算单元301，适于计算第一预设阈值与平均每行长度的比值；

第一判断单元302，适于判断数据表的总行数是否大于或等于比值；

切换模块310进一步适于：若数据表的总行数大于或等于比值，则将查询方式由全表查询方式切换为分页查询方式。

可选地，装置还包括：确定模块330，适于将数据表的总行数与比值相除的结果确定为分页查询次数；

抽取模块320进一步适于：根据分页查询次数，分次从数据源抽取预设行数的数据并将每次抽取的数据存储至分布式缓存器中，其中，预设行数为第一预设阈值与平均每行长度的比值。

可选地，装置还包括：第二判断模块340，适于判断数据表的总行数与比值相除的结果是否小于或等于第二预设阈值；

切换模块310进一步适于：若数据表的总行数与比值相除的结果小于或等于第二预设阈值，则将查询方式由全表查询方式切换为分页查询方式。

可选地，装置还包括：处理模块350，适于根据数据读取请求，并行地从分布式缓存器读取相应的数据，并将读取的数据汇总返回给客户端。

可选地，分布式缓存器包括：HDFS缓存器。

根据本发明上述实施例提供的装置，通过判断数据表的总行数是否大于或等于第一预设阈值与平均每行长度的比值，可以实现精准地确定是否切换查询方式，从而能够统筹兼顾数据抽取任务运行的稳定性及效率，通过计算分页查询次数，可以精准地控制数据抽取操作执行次数，避免部分数据被遗漏，未被抽取的情况，采用分页查询方式，可以减少每次抽取数据的数据量，从而降低GC情况发生的频率，使GC情况达到正常状态，还能有效控制内存溢出错误不再发生，提升了稳定性，并在用户无感知的情况下，给用户带来良好的使用体验，通过将抽取的数据存储至分布式缓存器中可以并发地从分布式缓存器中读取数据，从而提升数据读取效率。

本申请实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的数据抽取方法。

图4示出了根据本发明一个实施例的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述数据抽取方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述任意方法实施例中的数据抽取方法。程序410中各步骤的具体实现可以参见上述数据抽取实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据抽取设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：

A1.一种数据抽取方法，包括：

若是，则将查询方式由全表查询方式切换为分页查询方式；

A2.根据A1所述的方法，其中，所述根据数据表的总行数和平均每行长度判断是否切换查询方式进一步包括：

计算第一预设阈值与平均每行长度的比值；

判断数据表的总行数是否大于或等于所述比值；

若是，则执行将查询方式由全表查询方式切换为分页查询方式的步骤。

A3.根据A2所述的方法，其中，在将查询方式由全表查询方式切换为分页查询方式之后，所述方法还包括：

将数据表的总行数与所述比值相除的结果确定为分页查询次数；

所述利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中进一步包括：

根据分页查询次数，分次从数据源抽取预设行数的数据并将每次抽取的数据存储至分布式缓存器中，其中，预设行数为第一预设阈值与平均每行长度的比值。

A4.根据A2或A3所述的方法，其中，在将查询方式由全表查询方式切换为分页查询方式之前，所述方法还包括：

判断数据表的总行数与所述比值相除的结果是否小于或等于第二预设阈值；

A5.根据A1-A4中任一项所述的方法，其中，在将每次抽取的数据存储至分布式缓存器中之后，所述方法还包括：根据数据读取请求，并行地从分布式缓存器读取相应的数据，并将读取的数据汇总返回给客户端。

A6.根据A1-A5中任一项所述的方法，其中，所述分布式缓存器包括：HDFS缓存器。

B7.一种数据抽取装置，包括：

B8.根据B7所述的装置，其中，所述第一判断模块进一步包括：

计算单元，适于计算第一预设阈值与平均每行长度的比值；

第一判断单元，适于判断数据表的总行数是否大于或等于所述比值；

所述切换模块进一步适于：若数据表的总行数大于或等于所述比值，则将查询方式由全表查询方式切换为分页查询方式。

B9.根据B7或B8所述的装置，其中，所述装置还包括：

确定模块，适于将数据表的总行数与所述比值相除的结果确定为分页查询次数；

所述抽取模块进一步适于：根据分页查询次数，分次从数据源抽取预设行数的数据并将每次抽取的数据存储至分布式缓存器中，其中，预设行数为第一预设阈值与平均每行长度的比值。

B10.根据B9所述的装置，其中，所述装置还包括：

第二判断模块，适于判断数据表的总行数与所述比值相除的结果是否小于或等于第二预设阈值；

所述切换模块进一步适于：若数据表的总行数与所述比值相除的结果小于或等于第二预设阈值，则将查询方式由全表查询方式切换为分页查询方式。

B11.根据B7-B10中任一项所述的装置，其中，所述装置还包括：处理模块，适于根据数据读取请求，并行地从分布式缓存器读取相应的数据，并将读取的数据汇总返回给客户端。

B12.根据B7-B11中任一项所述的装置，其中，所述分布式缓存器包括：HDFS缓存器。

C13.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如A1-A6中任一项所述的数据抽取方法对应的操作。

D14.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如A1-A6中任一项所述的数据抽取方法对应的操作。

Claims

1.一种数据抽取方法，包括：

若是，则将查询方式由全表查询方式切换为分页查询方式；

利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中；

所述将查询方式由全表查询方式切换为分页查询方式之后，所述方法还包括：

将数据表的总行数与比值相除的结果确定为分页查询次数；

根据分页查询次数，分次从数据源抽取预设行数的数据并将每次抽取的数据存储至分布式缓存器中，其中，预设行数为第一预设阈值与平均每行长度的比值；

所述根据数据表的总行数和平均每行长度判断是否切换查询方式进一步包括：

计算第一预设阈值与平均每行长度的比值；

判断数据表的总行数是否大于或等于所述比值；

若是，则执行将查询方式由全表查询方式切换为分页查询方式的步骤；

在将查询方式由全表查询方式切换为分页查询方式之前，所述方法还包括：

2.根据权利要求1所述的方法，其中，在将每次抽取的数据存储至分布式缓存器中之后，所述方法还包括：根据数据读取请求，并行地从分布式缓存器读取相应的数据，并将读取的数据汇总返回给客户端。

3.根据权利要求1或2中任一项所述的方法，其中，所述分布式缓存器包括：HDFS缓存器。

4.一种数据抽取装置，包括：

抽取模块，适于利用分页查询方式，分次从数据源抽取相应的数据并将每次抽取的数据存储至分布式缓存器中；

确定模块，适于将数据表的总行数与比值相除的结果确定为分页查询次数；

所述抽取模块进一步适于：根据分页查询次数，分次从数据源抽取预设行数的数据并将每次抽取的数据存储至分布式缓存器中，其中，预设行数为第一预设阈值与平均每行长度的比值；

所述第一判断模块进一步包括：

计算单元，适于计算第一预设阈值与平均每行长度的比值；

所述切换模块进一步适于：若数据表的总行数大于或等于所述比值，则将查询方式由全表查询方式切换为分页查询方式；

5.根据权利要求4所述的装置，其中，所述装置还包括：处理模块，适于根据数据读取请求，并行地从分布式缓存器读取相应的数据，并将读取的数据汇总返回给客户端。

6.根据权利要求4或5中任一项所述的装置，其中，所述分布式缓存器包括：HDFS缓存器。

7.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-3中任一项所述的数据抽取方法对应的操作。

8.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-3中任一项所述的数据抽取方法对应的操作。