CN110399393B

CN110399393B - 数据处理方法、装置、介质及电子设备

Info

Publication number: CN110399393B
Application number: CN201810339239.XA
Authority: CN
Inventors: 谢晓静
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2020-06-30
Anticipated expiration: 2038-04-16
Also published as: CN110399393A

Abstract

本发明实施例提供了一种数据处理方法、装置、介质及电子设备，该数据处理方法，包括：记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率；根据所述每次读取的数据量和所述读取效率，确定下一次读取的数据量；基于确定的所述下一次读取的数据量，从所述数据库中读取数据。本发明实施例的技术方案能够根据数据读取的历史效果来对下一次数据读取任务进行调整，进而能够提高数据读取效率。此外，本发明实施例的技术方案可以根据从数据库中读取的数据向业务系统推送数据，进而可以在向业务系统提供数据时，无需开放数据库中的数据，保证了数据库中的数据安全，同时解耦了业务系统对数据库的依赖。

Description

数据处理方法、装置、介质及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种数据处理方法、装置、介质及电子设备。

背景技术

不同的业务系统之间由于业务关联，可能需要获取对方系统中的数据，比如查询中心需要从交易中心的数据库中获取数据来进行查询。

目前，不同系统之间的数据获取过程通常是一方直接从另一方的系统中拉取数据，这种方式不仅使得数据提供方需要开放系统中的数据，而且由于没有有效的数据拉取机制，导致数据在拉取时效率较低，影响了数据拉取的过程。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种数据处理方法、装置、介质及电子设备，进而至少在一定程度上克服从数据库中读取数据时效率较低的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种数据处理方法，包括：记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率；根据所述每次读取的数据量和所述读取效率，确定下一次读取的数据量；基于确定的所述下一次读取的数据量，从所述数据库中读取数据。

在本发明的一些实施例中，基于前述方案，根据所述每次读取的数据量和所述读取效率，确定下一次读取的数据量，包括：根据所述每次读取的数据量和所述读取效率，确定读取效率可能最大时对应的数据读取量；将所述读取效率可能最大时对应的数据读取量作为所述下一次读取的数据量。

在本发明的一些实施例中，基于前述方案，根据所述每次读取的数据量和所述读取效率，确定读取效率可能最大时对应的数据读取量，包括：根据所述每次读取的数据量和所述读取效率，对贝叶斯模型进行训练，得到训练后的贝叶斯模型；基于所述训练后的贝叶斯模型，确定读取效率可能最大时对应的数据读取量。

在本发明的一些实施例中，基于前述方案，所述的数据处理方法还包括：根据从所述数据库中读取的数据，向业务系统推送数据。

在本发明的一些实施例中，基于前述方案，根据从所述数据库中读取的数据，向业务系统推送数据，包括：将从所述数据库中读取的数据存入磁盘中，以基于所述磁盘中的数据向所述业务系统推送数据；或将所述数据库中读取的数据通过消息队列的方式推送至所述业务系统。

在本发明的一些实施例中，基于前述方案，从所述数据库中读取的数据包括以下任一或多个的组合：全量数据、增量数据和补发数据。

在本发明的一些实施例中，基于前述方案，所述的数据处理方法还包括：接收任务调度中心发送的调度指令；根据所述调度指令从所述数据库中读取所述全量数据和/或所述增量数据和/或所述补发数据。

在本发明的一些实施例中，基于前述方案，在从所述数据库中读取数据时，根据待读取任务的优先级，对所述待读取任务对应的数据进行读取。

在本发明的一些实施例中，基于前述方案，根据待读取任务的优先级，对所述待读取任务对应的数据进行读取，包括：根据待读取任务的优先级，将所述待读取任务的标识存储在指定存储空间中；基于所述指定存储空间中存储的待读取任务的标识，对所述待读取任务对应的数据进行读取。

根据本发明实施例的第二方面，提供了一种数据处理装置，包括：记录单元，用于记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率；确定单元，用于根据所述每次读取的数据量和所述读取效率，确定下一次读取的数据量；读取单元，用于基于确定的所述下一次读取的数据量，从所述数据库中读取数据。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的数据处理方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的数据处理方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，通过记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率，以根据每次读取的数据量和读取效率确定下一次读取的数据量，使得能够根据数据读取的历史效果来对下一次数据读取任务进行调整，进而能够提高数据读取效率。

在本发明的一些实施例所提供的技术方案中，通过根据从数据库中读取的数据向业务系统推送数据，使得在向业务系统提供数据时，无需开放数据库中的数据，保证了数据库中的数据安全，同时解耦了业务系统对数据库的依赖，提高了向业务系统提供数据的灵活性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本发明的一个实施例的数据处理方法的流程图；

图2示出了应用本发明实施例的数据处理方法的系统架构示意图；

图3示意性示出了根据本发明的一个实施例的数据推送方案的流程图；

图4示意性示出了根据本发明的实施例的数据处理装置的框图；

图5示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示意性示出了根据本发明的一个实施例的数据处理方法的流程图。

参照图1所示，根据本发明的一个实施例的数据处理方法，包括如下步骤：

步骤S110，记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率。

在本发明的实施例中，当每次都数据库中读取数据时，都可以记录每次读取的数据量及读取效率，以便于下次读取数据时进行参照。其中，首次从数据库中读取数据时，可以依据设定的经验值进行读取。

步骤S120，根据所述每次读取的数据量和所述读取效率，确定下一次读取的数据量。

在本发明的一个实施例中，步骤S120具体可以包括：根据每次读取的数据量和所述读取效率，确定读取效率可能最大时对应的数据读取量；将所述读取效率可能最大时对应的数据读取量作为所述下一次读取的数据量。

在该实施例中，通过将读取效率可能最大时对应的数据读取量作为下一次读取的数据量，使得能够保证下次读取数据时具有较大的读取效率，进而提高数据整体的读取效率。

在本发明的一个实施例中，可以根据每次读取的数据量和所述读取效率，对贝叶斯模型进行训练，得到训练后的贝叶斯模型，以基于所述训练后的贝叶斯模型，确定读取效率可能最大时对应的数据读取量。可选地，贝叶斯模型可以采用朴素贝叶斯模型。

步骤S130，基于确定的所述下一次读取的数据量，从所述数据库中读取数据。

在本发明的一个实施例中，在从数据库中读取数据时，可以根据待读取任务的优先级，对待读取任务对应的数据进行读取。比如可以先读取优先级较高的任务对应的数据，优先级较高的任务可以是数据量较大的任务，即在本发明的一个实施例中，可以先读取数据量较大的任务对应的数据，然后再读取数据量较小的任务对应的数据。

在本发明的一个实施例中，根据待读取任务的优先级，对所述待读取任务对应的数据进行读取，包括：根据待读取任务的优先级，将所述待读取任务的标识存储在指定存储空间中；基于所述指定存储空间中存储的待读取任务的标识，对所述待读取任务对应的数据进行读取。比如，任务的标识可以是任务ID，可以将待读取任务的ID最大值和最小值缓存至指定存储空间中，然后以哈希形式存储优先级较高的任务ID，并通过线程读取优先级较高的任务对应的数据，之后再读取优先级较低的任务对应的数据。

图1所示实施例的技术方案使得能够根据数据读取的历史效果来对下一次数据读取任务进行调整，进而能够提高数据读取效率。

基于图1所示的数据处理方法，在本发明的一个实施例中，还包括：根据从数据库中读取的数据，向业务系统推送数据。

在本发明的实施例中，通过根据从数据库中读取的数据向业务系统推送数据，使得在向业务系统提供数据时，无需开放数据库中的数据，保证了数据库中的数据安全，同时解耦了业务系统对数据库的依赖，提高了向业务系统提供数据的灵活性。

在本发明的一个实施例中，根据从数据库中读取的数据，向业务系统推送数据，包括：将从所述数据库中读取的数据存入磁盘中，以基于所述磁盘中的数据向所述业务系统推送数据；或将所述数据库中读取的数据通过消息队列的方式推送至所述业务系统。即在本发明的实施例中，可以将从数据库中读取的数据存入磁盘，然后再向业务系统推送数据；也可以直接通过消息队列的方式来推送数据。其中，可以通过分布式存储的方式将从数据库中读取的数据存入磁盘中，以便于进行推送数据的分发，提高扩展性及推送速率。

在本发明的一个实施例中，从数据库中读取的数据包括以下任一或多个的组合：全量数据、增量数据和补发数据。其中，全量数据可以是与某一业务相关的全部数据，增量数据是基于全量数据新增的数据，补发数据是由用户选择触发的部分数据，通常情况下，全量数据的数据量较大，增量数据和补发数据的数据量相对较少。

在本发明的一个实施例中，在从数据库中读取数据时，可以接收任务调度中心发送的调度指令，以根据该调度指令从数据库中读取所述全量数据和/或所述增量数据和/或所述补发数据。即在本发明的实施例中，可以基于任务调度中心发送的调度指令来确定是读取全量数据、增量数据还是补发数据。

以下结合图2和图3对本发明的一个具体应用场景进行说明。在本发明的一个具体应用场景中，为了解决业务系统直接从数据库中拉取数据而导致对数据库依赖较强、数据安全性差和扩展性较差的问题，本发明的实施例提出了采用数据推送的方式来向业务系统推送数据，以取代直接从数据库中拉取数据的方式，这样能够解耦各个业务系统对数据库的依赖，灵活性较强，并且也保证了数据库中的数据安全。

在本发明的一个实施例中，如图2所示，在向业务系统(该应用场景中搜索引擎210即为业务系统)推送数据时，可以采用以下三种数据推送方式：定时全量数据推送、实时增量数据推送、手动补发数据推送。其中，这三种数据推送方式可以由统一的任务分派中心220进行调度管理。

在本发明的一个实施例中，可以先读取出数据库中需要推送的数据，然后再推送给业务系统。在从数据库中读取数据时，可以将数据读取任务进行分解，并且可以通过分布式的方式来进行读取，即通过多个服务器(如图2中的服务器1、服务器2等)来从数据库中读取数据，这样可以实现服务器的横向扩展，以支持TB级数据的读取与推送。

由于单个服务器的网络带宽不同、机器处理能力(如数据库执行速度、内存空间、CPU核数等)不同，因此在从数据库中取数据时，通常情况下多条数据一次性读取后再处理要比一条条读取数据要快，但是在单条数据的数据量较大的情况下可能正好相反。同时，服务器之间的配置不是完全均等的，比如硬件配置不同、所在机房或者其他链路原因、运行时间不均等。因此，在本发明的实施例中，可以设置数据读取任务的优先级，比如数据量较大的任务的优先级高于数据量较小的任务。本发明的实施例中采用优先级策略的目的是为了让多个并行的服务器可以尽量快的完成推送任务，并且可以让单台服务器在单位时间内完成较多的任务，以及让所有服务器尽可能在相同的时间点完成。

在本发明的一个实施例中，任务调度中心220可以向各个服务器分配数据读取任务，各个服务器在获取到向其分配的数据读取任务之后，可以基于机器学习的思想对已经执行的数据读取任务的执行效果进行评估，以应用到接下来的任务执行过程中。具体地，可以将已经执行的数据读取任务的执行效果记录下来，用作接下来要执行的任务和下次要执行的任务的“朴素贝叶斯模型”训练数据，以通过对“朴素贝叶斯模型”进行训练得到一个收敛值，该收敛值即为一次读取多少数据的速度是最快的，进而可以保证数据读取效率，以提高数据推送速率。

在本发明的一个实施例中，任务调度中心不像单台服务器的运行效率有很多参数控制，只有每台机器的单位时间内运行的任务数作为参数，单台服务器执行完后去任务调度中心请求任务量，因此任务调度中心可以根据单台服务器请求调用的任务量来执行原子减任务操作。

在本发明的一个实施例中，如图2所示，各个服务器在根据任务调度中心220分派的任务读取数据库中的数据之后，可以存储至磁盘中，该磁盘可以是基于Epiphany框架配置的。并且任务调度中心220可以进行负载均衡、分布式计算、字典数据的维护等处理。Canel中间件230可以伪装成slave从数据源中获取增量日志，并通知数据库更新缓存数据。

图2所示应用场景的具体处理过程如图3所示，当注册BeanUtils(BeanUtils是一套开发包，用于专门进行javabean操作，在web层各种框架中被使用)转换加载spring(Spring是一个开放源代码的设计层面框架)上下文之后，执行定时任务和netty(是一个java开源框架)监听，以执行全量数据、补发数据和增量数据的推送，以及本地字典缓存的维护工作。具体说明如下：

全量数据的推送主要包括如下步骤：

步骤S301，清理磁盘，创建文件夹，开始任务分派。

步骤S302，将任务ID的最大值和最小值刷新到redis。

步骤S303，判断是否需要使用优先级策略，若是，则执行步骤S304；否则，执行步骤S305。

步骤S304，将优先级高的任务以hash(哈希)形式存储其序列和ID，并用设定的多个线程取优先级高的任务对应的数据，然后执行步骤S305。

步骤S305，均匀increment(增长)去redis取所剩任务段。

步骤S306，基于从数据库中读取的数据写磁盘，当线程任务处理结束后对数据进行压缩，并生成结束标记，标识所有任务结束。

补发数据的推送主要包括如下步骤：

步骤S311，netty解析http请求，该http请求包含了需要手动补发的数据。

步骤S312，根据id取数据并发送MQ消息，以向业务系统推送补发数据。

增量数据的推送主要包括如下步骤：

步骤S321，去redis取最新更新时间戳。

步骤S322，判断redis时间戳是否小于当前时间，若否，则直接返回；否则，执行步骤S323。

步骤S323，去数据库取增量数据发送MQ消息，以向业务系统推送补发数据。

本地字典缓存的维护主要包括如下步骤：

步骤S331，判断本地字典的key是否大于1k(数值在此仅为示例)，若是，则执行步骤S332；否则，执行步骤S334。

步骤S332，全字典对象二进制压缩作为value，并存储至redis，同时更新时间戳，执行步骤S333。

步骤S333，定时刷新全量数据，并发送redis通知，更新时间戳。

步骤S334，字典以哈希形式存储到redis，更新时间戳，执行步骤S335。

步骤S335，定时刷新增量数据，并发送redis通知，更新时间戳，同时保存更新时间。

本发明上述实施例的技术方案将传统直接从数据库取数据而对数据库依赖较强改成向业务系统推送的方式，解耦了业务系统对数据库的依赖，提高了向业务系统提供数据的灵活性。同时支持全量数据推送、增量数据推送和手动补发数据推送三种方式。此外，可以使用分布式缓存来进行调度，避免了服务器的单点故障，方便进行横向扩展，可支持TB级数据的推送。本发明实施例的技术方案可以用于任何大型互联网公司的内部数据搜索的数据源获取，比如可以用于平台搜索以及垂直频道内的搜索，以及公司的查询中心，并且也可以用于所有使用搜索引擎的产品，特别是和第三方交互、需要暴露内部数据的应用场景。

以下介绍本发明的装置实施例，可以用于执行本发明上述的数据处理方法。

图4示意性示出了根据本发明的实施例的数据处理装置的框图。

参照图4所示，根据本发明的实施例的数据处理装置400，包括：记录单元402、确定单元404和读取单元406。

其中，记录单元402用于记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率；确定单元404用于根据所述每次读取的数据量和所述读取效率，确定下一次读取的数据量；读取单元406用于基于确定的所述下一次读取的数据量，从所述数据库中读取数据。

在本发明的一些实施例中，基于前述方案，所述确定单元404配置为：根据所述每次读取的数据量和所述读取效率，确定读取效率可能最大时对应的数据读取量；将所述读取效率可能最大时对应的数据读取量作为所述下一次读取的数据量。

在本发明的一些实施例中，基于前述方案，所述确定单元404配置为：根据所述每次读取的数据量和所述读取效率，对贝叶斯模型进行训练，得到训练后的贝叶斯模型；基于所述训练后的贝叶斯模型，确定读取效率可能最大时对应的数据读取量。

在本发明的一些实施例中，基于前述方案，所述的数据处理装置400还包括：推送单元，用于根据从所述数据库中读取的数据，向业务系统推送数据。

在本发明的一些实施例中，基于前述方案，所述推送单元配置为：将从所述数据库中读取的数据存入磁盘中，以基于所述磁盘中的数据向所述业务系统推送数据；或将所述数据库中读取的数据通过消息队列的方式推送至所述业务系统。

在本发明的一些实施例中，基于前述方案，所述的数据处理装置400还包括：接收单元，用于接收任务调度中心发送的调度指令；所述读取单元406配置为：根据所述调度指令从所述数据库中读取所述全量数据和/或所述增量数据和/或所述补发数据。

在本发明的一些实施例中，基于前述方案，所述读取单元406配置为：在从所述数据库中读取数据时，根据待读取任务的优先级，对所述待读取任务对应的数据进行读取。

在本发明的一些实施例中，基于前述方案，所述读取单元406配置为：根据待读取任务的优先级，将所述待读取任务的标识存储在指定存储空间中；基于所述指定存储空间中存储的待读取任务的标识，对所述待读取任务对应的数据进行读取。

由于本发明的示例实施例的数据处理装置的各个功能模块与上述数据处理方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的数据处理方法的实施例。

下面参考图5，其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备的计算机系统500仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的数据处理方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S110，记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率；步骤S120，根据所述每次读取的数据量和所述读取效率，确定下一次读取的数据量；步骤S130，基于确定的所述下一次读取的数据量，从所述数据库中读取数据。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，包括：

记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率；

根据所述每次读取的数据量和所述读取效率，对贝叶斯模型进行训练，得到训练后的贝叶斯模型；

基于所述训练后的贝叶斯模型，确定读取效率最大时对应的数据读取量，并确定所述数据读取量为下一次读取的数据量；

基于确定的所述下一次读取的数据量，从所述数据库中读取数据。

2.根据权利要求1所述的数据处理方法，其特征在于，还包括：根据从所述数据库中读取的数据，向业务系统推送数据。

3.根据权利要求2所述的数据处理方法，其特征在于，根据从所述数据库中读取的数据，向业务系统推送数据，包括：

将从所述数据库中读取的数据存入磁盘中，以基于所述磁盘中的数据向所述业务系统推送数据；或

将所述数据库中读取的数据通过消息队列的方式推送至所述业务系统。

4.根据权利要求2所述的数据处理方法，其特征在于，从所述数据库中读取的数据包括以下任一或多个的组合：全量数据、增量数据和补发数据。

5.根据权利要求4所述的数据处理方法，其特征在于，还包括：

接收任务调度中心发送的调度指令；

根据所述调度指令从所述数据库中读取所述全量数据和/或所述增量数据和/或所述补发数据。

6.根据权利要求1至5中任一项所述的数据处理方法，其特征在于，在从所述数据库中读取数据时，根据待读取任务的优先级，对所述待读取任务对应的数据进行读取。

7.根据权利要求6所述的数据处理方法，其特征在于，根据待读取任务的优先级，对所述待读取任务对应的数据进行读取，包括：

根据待读取任务的优先级，将所述待读取任务的标识存储在指定存储空间中；

基于所述指定存储空间中存储的待读取任务的标识，对所述待读取任务对应的数据进行读取。

8.一种数据处理装置，其特征在于，包括：

记录单元，用于记录每次从数据库中读取的数据量，以及每次读取的数据量在实际读取时的读取效率；

确定单元，用于

读取单元，用于基于确定的所述下一次读取的数据量，从所述数据库中读取数据。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的数据处理方法。