CN110334036A

CN110334036A - 一种实现缓存数据调度的方法和装置

Info

Publication number: CN110334036A
Application number: CN201910573823.6A
Authority: CN
Inventors: 史琪
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-15

Abstract

本发明公开了一种实现缓存数据调度的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取待预测数据的数据标识和待预测时间；根据训练的决策模型，判断在所述预测时间是否对所述待预测数据进行缓存；其中，所述决策模型根据历史数据的访问操作日志训练得到，所述访问操作日志中至少包括所述历史数据的数据标识和访问操作时间；根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令。该方法通过机器学习预测数据的访问，并且基于训练的决策模型确定数据是否在某个时间被访问。提高了缓存的命中率，节约了缓存资源。并且，降低了数据延迟，提升了存储性能。

Description

一种实现缓存数据调度的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种实现缓存数据调度的方法和装置。

背景技术

在高并发大流量情况下，硬件是有性能瓶颈的，此时通过缓存增速以提高用户的性能体验是非常有必要的，尤其是对于存储海量数据的分布式系统。其中，数据的缓存是指用高速访问的存储器(一般指内存)，预先承载一部分硬盘中的数据，来达到高速访问的目的。分布式存储中，利用内存存储热点数据(访问操作频繁的数据)，达到降低数据请求的延迟，提高存储性能的目的。如图1所示，如果访问数据的请求直接命中预先在内存中缓存的热点数据，则可直接在内存中快速获取数据。如果访问数据的请求为缓存未命中，说明该访问的数据存储在硬盘中(也可能是在内存中淘汰至硬盘中)，则需要在硬盘中获取数据。

目前，分布式存储中主流的缓存淘汰算法为LFU(Least Frequently Used最不经常使用淘汰算法)和LRU(Least Recently Used最近最少使用淘汰算法)。LFU是用计数的方式统计经常被访问的数据，最少被访问的数据，优先淘汰出缓存。LRU是使用队列，把被访问的数据插入队列的头部，一段时间内不被使用的数据会逐渐移动到队列的尾部，超过队列的长度，队列尾部的数据淘汰出缓存。

上述缓存淘汰算法，都是通过数据的使用频率来判断是否进行缓存。访问频率高的数据，则预留在缓存内，访问频率低的数据被刷到硬盘。但是用户当前访问频率高的数据，并不能说明下一次还会访问，之后的访问频率也会高。但上述缓存淘汰算法却认为，当前访问频率高的数据，之后访问频率还是高。所以，对于数据访问随机性比较大的用户，会有大量的请求需要到硬盘上去访问，造成非常低的缓存命中率。进而，通过现有技术对数据进行缓存，会存在数据延迟较高、存储性能低的问题。

发明内容

有鉴于此，本发明实施例提供一种实现缓存数据调度的方法和装置，能够通过机器学习预测数据的访问，并且基于训练的决策模型确定数据是否在某个时间被访问。提高了缓存的命中率，节约了缓存资源。并且，降低了数据延迟，提升了存储性能。

为实现上述目的，根据本发明实施例的一个方面，提供了一种实现缓存数据调度的方法。

本发明实施例的实现缓存数据调度的方法包括：获取待预测数据的数据标识和待预测时间；根据训练的决策模型，判断在所述预测时间是否对所述待预测数据进行缓存；其中，所述决策模型根据历史数据的访问操作日志训练得到，所述访问操作日志中至少包括所述历史数据的数据标识和访问操作时间；根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令。

可选地，在根据训练的决策模型，判断在所述预测时间是否对所述待预测数据进行缓存之前，还包括：获取历史数据的访问操作日志，所述访问操作日志中还包括访问用户信息、所属业务信息或者所在硬盘的标识信息；对获取的访问操作日志进行样本处理，所述样本处理包括去噪处理、分类处理或者关键字标记处理；通过Tensorflow对所述样本处理后的访问操作日志进行机器学习，以得到训练的决策模型。

可选地，根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令的步骤包括：确认所述判断的结果与所述待预测数据的存储状态是否一致，所述存储状态为已进行缓存、未进行缓存；如果一致，则生成第一调度指令，使得通过所述第一调度指令在所述预测时间不改变所述待预测数据的存储状态；如果不一致，生成第二调度指令，使得通过所述第二调度指令在所述预测时间将所述待预测数据从硬盘调至内存，或者通过所述第二调度指令在所述预测时间将所述待预测数据从内存调至硬盘。

可选地，所述待预测数据以分片的形式存储在分布式系统；所述数据标识为分片编号。

可选地，获取待预测数据的数据标识和待预测时间的步骤包括：根据预设的时间间隔获取数据信息列表；所述数据信息列表中记录有至少包括一条待预测数据，以及每条待预测数据的数据标识和待预测时间。

可选地，所述数据信息列表中记录有每条待预测数据的存储状态；则

根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令之前，还包括：基于所述数据信息列表，确定每条待预测数据的存储状态；

根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令之后，还包括：根据执行调度指令的结果，对应更新所述数据信息列表中待预测数据的存储状态。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种实现缓存数据调度的装置。

本发明实施例的实现缓存数据调度的装置包括：

获取模块，用于获取待预测数据的数据标识和待预测时间；

判断模块，用于根据训练的决策模型，判断在所述预测时间是否对所述待预测数据进行缓存；其中，所述决策模型根据历史数据的访问操作日志训练得到，所述访问操作日志中至少包括所述历史数据的数据标识和访问操作时间；

指令生成模块，用于根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令。

可选地，还包括模型训练模块，用于获取历史数据的访问操作日志，所述访问操作日志中还包括访问用户信息、所属业务信息或者所在硬盘的标识信息；以及对获取的访问操作日志进行样本处理，所述样本处理包括去噪处理、分类处理或者关键字标记处理；通过Tensorflow对所述样本处理后的访问操作日志进行机器学习，以得到训练的决策模型。

可选地，所述指令生成模块还用于，确认所述判断的结果与所述待预测数据的存储状态是否一致，所述存储状态为已进行缓存、未进行缓存；

如果一致，则生成第一调度指令，使得通过所述第一调度指令在所述预测时间不改变所述待预测数据的存储状态；

如果不一致，生成第二调度指令，使得通过所述第二调度指令在所述预测时间将所述待预测数据从硬盘调至内存，或者通过所述第二调度指令在所述预测时间将所述待预测数据从内存调至硬盘。

可选地，所述获取模块还用于，根据预设的时间间隔获取数据信息列表；所述数据信息列表中记录有至少包括一条待预测数据，以及每条待预测数据的数据标识和待预测时间。

可选地，还包括状态确定模块，用于基于所述数据信息列表，确定每条待预测数据的存储状态；以及根据执行调度指令的结果，对应更新所述数据信息列表中待预测数据的存储状态；其中，所述数据信息列表中记录有每条待预测数据的存储状态。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备。

本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项的实现缓存数据调度的方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述任一项的实现缓存数据调度的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过机器学习预测用户访问存储的行为，可以根据访问操作的历史行为，预测数据的使用时间和即将要访问的数据，例如根据用户的行为，预测用户对数据的使用时间和即将要访问的数据。进而基于训练的决策模型可确定数据是否在某个时间被访问，在即将访问之前，通过生成的调度指令将需要访问的数据加入到缓存，将长时间不会被访问的数据淘汰出缓存。所以，提高了缓存的命中率，节约了缓存资源。并且，降低了数据延迟，提升了存储性能。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是通过缓存机制进行数据访问的示意图；

图2是根据本发明实施例的实现缓存数据调度的方法的主要流程的示意图；

图3根据本发明实施例的训练决策模型的过程示意图；

图4是分布式系统存储数据的架构的示意图；

图5是根据本发明实施例的实现分布式系统的缓存数据调度的方法架构的示意图；

图6是根据本发明实施例的实现分布式系统的缓存数据调度的方法的示意图；

图7是根据本发明实施例的实现缓存数据调度的装置的主要模块的示意图；

图8是本发明实施例可以应用于其中的示例性系统架构图；

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图2是根据本发明实施例的实现缓存数据调度的方法的主要流程的示意图，如图2所示，本发明实施例的实现缓存数据调度的方法主要包括：

步骤S201：获取待预测数据的数据标识和待预测时间。其中，数据标识用于唯一标识数据，可以为数据的名称或者编号等。待预测时间为需要判断在该时间数据是否会被访问即是否进行缓存的时间，该待预测时间可以为时间点，也可以是时间段。并且，在本发明实施例中，待预测时间可以是根据设置的预测时间间隔确定，也可是直接指定的。

步骤S202：根据训练的决策模型，判断在预测时间是否对待预测数据进行缓存。其中，决策模型根据历史数据的访问操作日志训练得到，访问操作日志中至少包括历史数据的数据标识和访问操作时间。由于决策模型是根据大量的样本数据训练得到，其中样本数据中包括数据标识和访问操作时间。因此，基于该决策模型，根据待预测数据的数据标识和待预测时间，即可判断出在预测时间时是否需要将数据放入内存，放入内存说明需要对数据进行缓存。内存是暂时存储程序以及数据的地方，内存中的数据不持久化，内存条掉电，数据会丢失。内存具有非常快的程序和数据访问速度。

步骤S203：根据判断的结果以及待预测数据的存储状态，生成调度指令。在本发明实施例中，该步骤具体可包括：确认判断的结果与待预测数据的存储状态是否一致，存储状态为已进行缓存、未进行缓存。如果数据的存储状态是已进行缓存，说明该数据当前已经在内存中；数据的存储状态是未进行缓存，是指该数据为在存储在内存中，而是存储在硬盘中。以及，判断结果包括：在预测时间对待预测数据进行缓存、在预测时间不对待预测数据进行缓存。其中，在预测时间对待预测数据进行缓存的判断结果与已进行缓存的存储状态是一致的，在预测时间不对待预测数据进行缓存的判断结果与未进行缓存的存储状态是一致的。硬盘是电脑主要的存储媒介之一，由一个或者多个铝制或者玻璃制的碟片组成。碟片外覆盖有铁磁性材料。硬盘可持久化数据，硬盘不供电后，数据不会丢失。硬盘的程序和数据访问速度不如内存。

如果判断的结果与待预测数据的存储状态一致，则生成第一调度指令，使得通过第一调度指令在预测时间不改变待预测数据的存储状态。如果判断的结果与待预测数据的存储状态不一致，生成第二调度指令，使得通过第二调度指令在预测时间将待预测数据从硬盘调至内存，或者通过第二调度指令在预测时间将待预测数据从内存调至硬盘。

对于本发明实施例，通过机器学习预测用户访问存储的行为，可以根据访问操作的历史行为，预测数据的使用时间和即将要访问的数据，例如根据用户的行为，预测用户对数据的使用时间和即将要访问的数据。进而基于训练的决策模型可确定数据是否在某个时间被访问，在即将访问之前，并且，通过生成的调度指令将需要访问的数据加入到缓存，将长时间不会被访问的数据淘汰出缓存。所以，提高了缓存的命中率，节约了缓存资源。以及，降低了数据延迟，提升了存储性能。

图3根据本发明实施例的训练决策模型的过程示意图，如图3所示，本发明实施例的训练决策模型的过程主要包括：

步骤S301：获取历史数据的访问操作日志，访问操作日志中还包括访问用户信息、所属业务信息或者所在硬盘的标识信息。访问用户信息的是指访问该数据的用户的相关数据，例如存储操作信息、数据访问操作信息等。所属业务信息是指该数据所属业务的信息，对于存储的大量数据，其可能所属的业务不同，则被访问的频率会有所不同。所在硬盘的标识信息是指数据所在硬盘的标识信息，可为该硬盘的编号。

步骤S302：对获取的访问操作日志进行样本处理，样本处理包括去噪处理、分类处理或者关键字标记处理。在本发明实施例中，样本处理可只进行上述三个处理中的一个或者两个。去噪处理是指对获取的访问操作日志，通过匹配搜索算法或者手动，除去无效的数据，裁剪出有用的部分。分类处理的过程中，可根据获取访问操作日志的数据源不同对其分类，也可根据获取的时间段不同对其分类等。在本发明实施例中，是根据获取访问操作日志的数据源不同对其分类。在步骤S301中，可分别在业务系统、存储系统、监控系统等获取用户访问、硬盘操作的日志。进而，在分类处理时，根据获取日志数据的数据源的不同对日志数据进行分类。

步骤S303：通过Tensorflow对样本处理后的访问操作日志进行机器学习，以得到训练的决策模型。其中，Tensorflow为机器学习框架，可用来做机器学习和决策，具有快速、灵活并适合产品级大规模应用等特点。

在本发明实施例中，待预测数据以分片的形式存储在分布式系统；数据标识为分片编号。其中，获取待预测数据的数据标识和待预测时间的步骤包括：根据预设的时间间隔获取数据信息列表；数据信息列表中记录有至少包括一条待预测数据(或者是分布式系统存储的数据分片)，以及每条待预测数据的数据标识和待预测时间。并且，数据信息列表中还可以记录有每条待预测数据的存储状态，因此通过该数据信息列表即可知道每条数据在每个时间点或者时间段内的存储状态，后续则可基于该表对数据进行调度，即在某些时间将不需要缓存的数据调入硬盘中，需要缓存的数据调入内存中。则根据判断的结果以及待预测数据的存储状态，生成调度指令之前，还包括：基于数据信息列表，确定每条待预测数据的存储状态。并且，根据判断的结果以及待预测数据的存储状态，生成调度指令之后，还包括：根据执行调度指令的结果，对应更新数据信息列表中待预测数据的存储状态。

图4是分布式系统存储数据的架构的示意图，图5是根据本发明实施例的实现分布式系统的缓存数据调度的方法架构的示意图。

对于分布式存储，分布式系统将数据分散存储在多台独立的存储设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。并且，在分布式存储中数据都是以分片的形式存在的，数据分片的大小为4M。使用机器学习的预测策略，在用户访问高峰期，提前提升用户即将用到的分片数据和元数据到缓存，淘汰缓存中暂时不会用到的分片数据。数据分片(segment，fragment，shard，partition)是按照一定的规则，将数据集划分成相互独立、正交的数据子集，然后将数据子集分布到不同的节点上。其中数据分片需要按照一定的规则，不同的分布式应用有不同的规则。

如图4所示，元数据存储池中存储数据的元数据，元数据是用来管理数据的数据，例如：数据的大小，数据存储的位置，数据结构，等内容。用户请求数据时，先访问元数据池，根据元数据再访问数据池，所以该元数据存储池的操作会比较频繁，需要性能好的硬件。数据存储池中存储用户的实体数据，所以数据存储池需要容量大的硬件。其中，对于元数据和实体数据的存储，都涉及缓存和硬件存储。

如图5所示，通过采集业务系统日志做成机器学习样本。机器学习可预测用户访问行为，把机器学习的行为分析、预测，应用到分布式存储缓存中，提高缓存命中率，并提高分布式存储性能。使用机器学习的预测策略，在用户访问高峰期，提前提升用户即将用到的分片数据和元数据到缓存，淘汰缓存中暂时不会用到的分片数据。

图6是根据本发明实施例的实现分布式系统的缓存数据调度的方法的示意图，如图6所示，本发明实施例的实现分布式系统的缓存数据调度的方法包括：

步骤S601：通过agent采集各业务系统的日志。agent为后台服务，用于日志采集，采集各业务系统的日志。

步骤S602：将获取的日志上传分布式存储CephFS，并对原始采集的日志数据进行分类、去噪和标记处理。其中，标记内容包括：访问用户信息、访问操作时间、访问操作请求数、所在硬盘的标识信息或者操作的分片数据的分片号等。上述处理后的数据即为供机器学习的训练样本。CephFS为Ceph提供的兼容POSIX协议的分布式文件系统。

步骤S603：Tensorflow从分布式存储cephfs读取训练样本，传输到GPU计算，进行样本学习，并最终获得学习后的决策模型。

步骤S604：向训练的决策模型中输入分布式存储中所有的数据片段id，判断下一个时间段这些数据分片是否会被业务系统调用。可在每个时间段时预测下一个时间段内哪些数据分片会被调用，对被调用的数据分片进行缓存。以及，每个时间段的判断过程，可多次通过决策模型预测，例如预测10，将较多出现的预测结果设为最终的预测结果。

具体的，每次向机器学习模型中输入存储中的所有数据片段id。让机器学习判断哪些id需要提升。其中，输入参数为所有数据片段的id列表和时间段。一般该时间段为10分钟，例如1:10～1:20。输出结果为id与数据提升的调用关系，例如提升还是下降。对于数据调度的规则，符合机器学习预判提升的数据段，则到达时间段后，提升到缓存中；符合机器学习预判下降的数据段，并且已经在缓存中，到达时间点后，下降到硬盘。

例如，向机器学习模型输入：数据片段id＝1，时间段值为1点10分～1点20分。输出结果为：提升。当到达1点10分时，将该数据片段1提升到内存。

向机器学习模型输入：数据片段id＝1，时间段值为1点20分～1点30分。输出结果为：下降。当到达1点20分时，判断数据片段1是否已经在内存，如果已经在内存，则把数据片段1下降到硬盘。

步骤S605：将下一个时间段会被调用的数据分片提升到缓存中。

步骤S606：将下一个时间段或者接下来多个时间段都不会被调用的数据分片，下沉到硬盘。具体下沉下一个时间段或者接下来多个时间段不会被调用的数据分片，可根据需求设置。如果要将接下来多个时间段都不会被调用的数据分片，下沉到硬盘，则在步骤S604中对这几个时间段都需要通过训练的决策模型进行预测。

对于本发明实施例，通过机器学习预测用户访问存储的行为，对即将访问的数据，优先提升到缓存中。可以根据用户的行为，预测用户对存储的使用时间和即将要访问的数据。在用户即将访问之前，将用户需要访问的数据加入到缓存。将长时间不会被访问的数据淘汰出缓存。提高缓存的命中率。从而节约缓存资源，降低数据延迟，提升存储性能。

图7是根据本发明实施例实现缓存数据调度的装置的主要模块的示意图，如图7所示，本发明实施例的实现缓存数据调度的装置700包括获取模块701、判断模块702和指令生成模块703。

获取模块701用于，获取待预测数据的数据标识和待预测时间。获取模块还用于，根据预设的时间间隔获取数据信息列表；数据信息列表中记录有至少包括一条待预测数据，以及每条待预测数据的数据标识和待预测时间。

判断模块702用于，根据训练的决策模型，判断在预测时间是否对待预测数据进行缓存；其中，决策模型根据历史数据的访问操作日志训练得到，访问操作日志中至少包括历史数据的数据标识和访问操作时间。其中，待预测数据以分片的形式存储在分布式系统，数据标识为分片编号。

指令生成模块703用于，根据判断的结果以及待预测数据的存储状态，生成调度指令。指令生成模块还用于，确认判断的结果与待预测数据的存储状态是否一致，存储状态为已进行缓存、未进行缓存。如果一致，则生成第一调度指令，使得通过第一调度指令在预测时间不改变待预测数据的存储状态。如果不一致，生成第二调度指令，使得通过第二调度指令在预测时间将待预测数据从硬盘调至内存，或者通过第二调度指令在预测时间将待预测数据从内存调至硬盘。

本发明实施例的实现缓存数据调度的装置还包括模型训练模块，在判断模块根据训练的决策模型，判断在预测时间是否对待预测数据进行缓存之前，模型训练模块用于获取历史数据的访问操作日志，访问操作日志中还包括访问用户信息、所属业务信息或者所在硬盘的标识信息；以及对获取的访问操作日志进行样本处理，样本处理包括去噪处理、分类处理或者关键字标记处理；通过Tensorflow对样本处理后的访问操作日志进行机器学习，以得到训练的决策模型。

本发明实施例的实现缓存数据调度的装置还包括状态确定模块，在指令生成模块根据判断的结果以及待预测数据的存储状态，生成调度指令之前，状态确定模块用于基于数据信息列表，确定每条待预测数据的存储状态；以及在指令生成模块根据判断的结果以及待预测数据的存储状态，生成调度指令之后，状态确定模块根据执行调度指令的结果，对应更新数据信息列表中待预测数据的存储状态；其中，数据信息列表中记录有每条待预测数据的存储状态。

图8示出了可以应用本发明实施例的实现缓存数据调度的方法或实现缓存数据调度的装置的示例性系统架构800。

如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的实现缓存数据调度的方法一般由服务器805执行，相应地，实现缓存数据调度的装置一般设置于服务器805中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图9，其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、判断模块和指令生成模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取待预测数据的数据标识和待预测时间的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取待预测数据的数据标识和待预测时间；根据训练的决策模型，判断在预测时间是否对待预测数据进行缓存；其中，决策模型根据历史数据的访问操作日志训练得到，访问操作日志中至少包括历史数据的数据标识和访问操作时间；根据判断的结果以及待预测数据的存储状态，生成调度指令。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种实现缓存数据调度的方法，其特征在于，包括：

获取待预测数据的数据标识和待预测时间；

根据训练的决策模型，判断在所述预测时间是否对所述待预测数据进行缓存；其中，所述决策模型根据历史数据的访问操作日志训练得到，所述访问操作日志中至少包括所述历史数据的数据标识和访问操作时间；

根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令。

2.根据权利要求1所述的方法，其特征在于，在根据训练的决策模型，判断在所述预测时间是否对所述待预测数据进行缓存之前，还包括：

获取历史数据的访问操作日志，所述访问操作日志中还包括访问用户信息、所属业务信息或者所在硬盘的标识信息；

对获取的访问操作日志进行样本处理，所述样本处理包括去噪处理、分类处理或者关键字标记处理；

通过Tensorflow对所述样本处理后的访问操作日志进行机器学习，以得到训练的决策模型。

3.根据权利要求1所述的方法，其特征在于，根据所述判断的结果以及所述待预测数据的存储状态，生成调度指令的步骤包括：

确认所述判断的结果与所述待预测数据的存储状态是否一致，所述存储状态为已进行缓存、未进行缓存；

4.根据权利要求1所述的方法，其特征在于，所述待预测数据以分片的形式存储在分布式系统；所述数据标识为分片编号。

5.根据权利要求1所述的方法，其特征在于，获取待预测数据的数据标识和待预测时间的步骤包括：

根据预设的时间间隔获取数据信息列表；所述数据信息列表中记录有至少包括一条待预测数据，以及每条待预测数据的数据标识和待预测时间。

6.根据权利要求5所述的方法，其特征在于，所述数据信息列表中记录有每条待预测数据的存储状态；则

7.一种实现缓存数据调度的装置，其特征在于，包括：

获取模块，用于获取待预测数据的数据标识和待预测时间；

8.根据权利要求7所述的装置，其特征在于，还包括模型训练模块，用于获取历史数据的访问操作日志，所述访问操作日志中还包括访问用户信息、所属业务信息或者所在硬盘的标识信息；以及对获取的访问操作日志进行样本处理，所述样本处理包括去噪处理、分类处理或者关键字标记处理；通过Tensorflow对所述样本处理后的访问操作日志进行机器学习，以得到训练的决策模型。

9.根据权利要求7所述的装置，其特征在于，所述指令生成模块还用于，确认所述判断的结果与所述待预测数据的存储状态是否一致，所述存储状态为已进行缓存、未进行缓存；

10.根据权利要求7所述的装置，其特征在于，所述获取模块还用于，根据预设的时间间隔获取数据信息列表；所述数据信息列表中记录有至少包括一条待预测数据，以及每条待预测数据的数据标识和待预测时间。

11.根据权利要求10所述的装置，其特征在于，还包括状态确定模块，用于基于所述数据信息列表，确定每条待预测数据的存储状态；以及根据执行调度指令的结果，对应更新所述数据信息列表中待预测数据的存储状态；其中，所述数据信息列表中记录有每条待预测数据的存储状态。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。