CN110472004B

CN110472004B - 一种科技情报数据多级缓存管理的方法及系统

Info

Publication number: CN110472004B
Application number: CN201910782682.9A
Authority: CN
Inventors: 马艳; 邹立达; 齐达立; 陈玉峰
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-07-08
Anticipated expiration: 2039-08-23
Also published as: CN110472004A

Abstract

本发明公开了一种科技情报数据多级缓存管理的方法及系统，方法包括以下步骤：收集科技情报数据，所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重；预测下一个周期的科技情报用户搜索热点关键词及其访问量；管理多级缓存所存储的数据，所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明首先基于机器学习的方法预测未来周期的访问量；其次，根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值；最后，根据价值的大小依次放入各级缓存中，通过多级缓存的管理不仅提高了用户科技情报搜索的速度，而且提高了用户的查询访问效率。

Description

一种科技情报数据多级缓存管理的方法及系统

技术领域

本发明涉及一种科技情报数据多级缓存管理的方法及系统，属于通信技术领域。

背景技术

科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。随着科学技术日新月异的发展，社会各行业、各单位部门对情报信息的需求更加迫切，科技情报被认为是经济建设、科研、设计、生产、经营管理、市场营销中的关键环节。

科技情报数据库是科研相关工作者获取科技信息的重要来源，用户在使用科技情报数据库时，希望能够快速获得所搜索数据。然而，科技信息检索时，返回的数据会以条目、文档、图片、音视频等形式传送，其结果数据往往会较大，特别是在批量搜索时。这就造成了一些查询访问时间过长，用户体验变差。

将一些频繁查询访问的结果数据放置于缓存中，可以有效加快数据的访问速度。然而，缓存管理是复杂困难的，主要体现在两方面：1)缓存介质多样化。目前，常见的缓存有内存、网络缓存、固态硬盘、磁盘等。每种缓存介质的访问速率不同。2)缓存空间有限。每种磁盘由于成本的原因，可提供的存储空间是有限的。因此，亟需一种多级缓存管理方法，可以有效提高用户的查询访问效率。

发明内容

针对以上方法存在的不足，本发明提出了一种科技情报数据多级缓存管理的方法及系统，其能够提高用户科技情报搜索的速度。

本发明解决其技术问题采取的技术方案是：

一方面，本发明实施例提供的一种科技情报数据多级缓存管理的方法，包括以下步骤：

收集科技情报数据，所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重；

预测下一个周期的科技情报用户搜索热点关键词及其访问量；

管理多级缓存所存储的数据，所述多级缓存包括内存、网络内存、固态硬盘和磁盘。

作为本实施例一种可能的实现方式，所述收集科技情报数据的步骤包括：

获取科技情报数据库中近期一段时间内的科技信息文章；

设从一个文献库获取科技信息文章集合为T_i，i∈I，I为文献库的标识集合；

利用TF-IDF算法获得T_i|i∈I的各关键词词频权重；

获取各关键词的查询访问量，用S表示近n个周期关键词查询访问量信息的集合；

将各关键词词频权重集合与集合S作为预测数据，并发送到预测数据库作为训练数据。

作为本实施例一种可能的实现方式，所述利用TF-IDF算法获得T_i|i∈I的各关键词词频权重的具体过程为：执行TF-IDF算法进行后，可获得每个T_i的关键词词频权重，用A_i表示T_i关键词词频权重集合，即A_i|i∈I＝{b_i,j|i∈I,j∈Q}，其中b_i,j为T_i中第j个关键词词频权重，Q为科技词库中词的标识集合。

作为本实施例一种可能的实现方式，所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括：

整理训练数据：首先剔除搜索量较小的关键词，其次从预测数据库整理出训练数据；

训练预测模型：选择循环神经网络作为模型，输入输入数据与访问量的真实值对循环神经网络模型进行训练；

使用训练好的模型预测下一周期的查询访问量：设

为关键词j预测出下一周期的访问量，

Q′为Q剔除搜索量较小的关键词的集合，Q为科技词库中词的标识集合；

将搜索量较大的关键词集合进行多级缓存管理。

作为本实施例一种可能的实现方式，所述管理多级缓存所存储的数据的步骤包括：

获得每个关键词所需缓存数据的大小，设置d_j为关键词j所需缓存数据的大小，其中j∈Q′；

设置用户体验函数f(t)，其中t为一个查询返回时间；

根据放置策略生成每个缓存所需缓存的数据。

作为本实施例一种可能的实现方式，所述根据放置策略生成每个缓存所需缓存的数据的过程为：

基于用户体验函数、数据大小、访问频率估算待缓存的价值；

优先将价值高的数据放置于访问速率高的缓存中。

作为本实施例一种可能的实现方式，所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤：

根据读写速率对各缓存设备进行排序，由高到低依次设置为c₁,c₂,…,c_i,…,c_n，其中，c_i代表某一缓存设备，n为缓存设备的数量，所有缓存设备的集合设置为 C，即C＝{c₁,c₂,…,c_i,…,c_n}；

设e_i为c_i的缓存容量；

在集合C中取出一个缓存设备，设为c_i；

设

对应的数据价值为x_j，用以下公式求得x_j：

其中，

表示把

所需缓存的数据只放置于c_i内所用的查询时间；

对x_j|j∈Q′进行排序，依次将

所需缓存的数据放置于c_i，直到e_i耗尽，并更新Q′，即剔除Q′中已经缓存的关键词数据；

重新在集合C中取出一个缓存设备并进行处理，直到所有缓存设备的缓存放置完毕。

作为本实施例一种可能的实现方式，所述方法在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。

另一方面，本发明实施例提供的一种科技情报数据多级缓存管理的系统，包括：

科技情报访问数据获取模块，用于收集科技情报数据，所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重；

查询访问量预测模块，用于预测下一个周期的科技情报用户搜索热点关键词及其访问量；

多级缓存放置模块，用于管理多级缓存所存储的数据，所述多级缓存包括内存、网络内存、固态硬盘和磁盘。

作为本实施例一种可能的实现方式，所述系统还包括：

周期事件模块，用于负责缓存管理的周期，每间隔一段时间向科技情报数据获取模块周期地发送指令发起一次缓存管理事件。

本发明实施例的技术方案可以具有的有益效果如下：

本发明实施例的技术方案的一种科技情报数据多级缓存管理的方法，包括以下步骤：收集科技情报数据，所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重；预测下一个周期的科技情报用户搜索热点关键词及其访问量；管理多级缓存所存储的数据，所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明首先基于机器学习的方法预测未来周期的访问量；其次，根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值；最后，根据价值的大小依次放入各级缓存中，通过多级缓存的管理不仅提高了用户科技情报搜索的速度，而且提高了用户的查询访问效率。

本发明实施例的技术方案的一种科技情报数据多级缓存管理的系统，包括：科技情报访问数据获取模块，用于收集科技情报数据，所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重；查询访问量预测模块，用于预测下一个周期的科技情报用户搜索热点关键词及其访问量；多级缓存放置模块，用于管理多级缓存所存储的数据，所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明通过多级缓存的管理，有效提高了科技情报的访问速率；通过机器学习的方法，较为准确地预测各科技关键词下一周期的访问量。

附图说明：

图1是根据一示例性实施例示出的一种科技情报数据多级缓存管理的方法流程图；

图2是根据一示例性实施例示出的另一种科技情报数据多级缓存管理的方法流程图；

图3是根据一示例性实施例示出的一种科技情报数据多级缓存管理的系统结构图；

图4(a)-图4(c)是用户体验函数的举例示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明：

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

在设计管理缓存之前，有一个重要前提是需要知晓未来哪些数据会被频繁访问。如此可以将最有价值的数据放置于有限的缓存中，以提高缓存的利用效率。科技情报数据库的用户常以关键词进行搜索。比如，基于主题名、作者、期刊等关键词搜索。因此，还需要一种可以准确预测未来一个周期内，每个关键词的访问频率的方法。

图1是根据一示例性实施例示出的一种科技情报数据多级缓存管理的方法的流程图。如图1所述，本发明实施例提供的一种科技情报数据多级缓存管理的方法，包括以下步骤：

获取科技情报数据库中近期一段时间内的科技信息文章；

利用TF-IDF算法获得T_i|i∈I的各关键词词频权重；

使用训练好的模型预测下一周期的查询访问量：设

为关键词j预测出下一周期的访问量，

将搜索量较大的关键词集合进行多级缓存管理。

设置用户体验函数f(t)，其中t为一个查询返回时间；

根据放置策略生成每个缓存所需缓存的数据。

优先将价值高的数据放置于访问速率高的缓存中。

设e_i为c_i的缓存容量；

在集合C中取出一个缓存设备，设为c_i；

设

对应的数据价值为x_j，用以下公式求得x_j：

其中，

表示把

所需缓存的数据只放置于c_i内所用的查询时间；

对x_j|j∈Q′进行排序，依次将

本发明首先基于机器学习的方法预测未来周期的访问量；其次，根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值；最后，根据价值的大小依次放入各级缓存中，通过多级缓存的管理不仅提高了用户科技情报搜索的速度，而且提高了用户的查询访问效率。

作为本实施例一种可能的实现方式，在图1所示方法基础上，增加了周期性发起缓存管理事件的步骤，如图2所示，所述方法在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。

图3是根据一示例性实施例示出的一种科技情报数据多级缓存管理的系统结构图；如图3所述，本发明实施例提供的一种科技情报数据多级缓存管理的系统，包括：

作为本实施例一种可能的实现方式，所述系统还包括：

如图3所示，本发明所述的系统分为四个模块：周期事件模块、科技情报访问数据获取模块、查询访问量预测模块和多级缓存放置模块。

一、周期事件模块

负责缓存管理的周期，每间隔一段时间发起一次缓存管理事件。其向科技情报数据获取模块周期地发送指令。

二、科技情报访问数据获取模块

负责收集科技情报数据。主要目的是获得近期一段时间内，各关键词的真实查询访问量、各关键词在近期科技文献中所占权重。该模块将这些数据发送到查询访问量预测模块以预测下一周期的访问量。

科技情报访问数据获取模块收集科技情报数据的具体步骤如下：

1)获取科技情报数据库中近期一段时间内的科技信息文章。近期一段时间的时长可以设置为一个预测周期时间跨度的n倍，如一个周期的时间跨度为一周，设置为n＝10，即获取近10周新发布的科技文章。

2)设从一个文献库获取科技信息文章集合为T_i，i∈I，I为文献库的标识集合。如从期刊文献库文章获取科技文献集合为T₁，从会议文献库获取的文献集合为T₂，从学位论文文献库获取的文献集合为T₃，等等。

3)基于TF-IDF算法获得T_i|i∈I的各关键词词频权重。执行TF-IDF算法后，可获得每个T_i的关键词词频权重。用A_i表示T_i关键词词频权重集合，即A_i|i∈I＝{b_i,j|i∈I,j∈Q}。其中b_i,j为T_i中第j个关键词词频权重，Q为科技词库中词的标识集合。

4)获取各关键词的查询访问量，用S表示近n个周期关键词查询访问量信息的集合，即S＝{s_k,j|k∈[1,n],k为整数,j∈Q}。其中，s_k,j表示Q中第j个关键词在之前第k个周期中的访问量，n为S记录访问数据的最早周期数。

5)将A_i|i∈I与S数据发送到查询访问量预测模块作为预测数据，并且发送到预测数据库存储以提供训练数据。

三、查询访问量预测模块

负责预测下一个周期的科技情报用户搜索热点关键词及其访问量。该模块针对科技情报数据库的访问特点，整理训练数据、训练时序模型，而后预测下一周期的访问量。该模块将搜索热点关键词及其访问量数据发送到多级缓存放置模块。

查询访问量预测模块预测下一个周期的科技情报用户搜索热点关键词及其访问量的具体步骤如下：

1)数据准备。首先，剔除搜索量较小的关键词。其次，从预测数据库整理出用于训练的数据。用X与Y分别表示训练的输入数据与访问量的真实值。 X＝{x_i|i<n,i为整数}，Y＝{y_i|i<n,i为整数}，其中x_i与y_i是一条输入数据及其对应的真实值，n为训练数据的数量。x_i＝<{b_a,j|a∈I,j为Q的一个标识}，{s_k,j|k∈[1,n],k为整数，j为Q的一个标识}>，y_i＝s_0,j，s_0,j为下一周期标识为j关键词的真实访问量。

2)训练预测模型。选择一种循环神经网络作为模型，如LSTM、RNN或者 GRU。输入X与Y对模型进行训练。

3)使用训练好的模型，预测下一周期的查询访问量。设

为关键词j预测出下一周期的访问量。

Q′为Q剔除搜索量较小的关键词的集合。

4)将

发送到多级缓存放置模块。

四、多级缓存放置模块

负责管理多级缓存所存储的数据。多级缓存包括内存、网络内存、固态硬盘、磁盘等介质，其特点是读写速率越快缓存容量越小。多级缓存放置模块管理各级缓存数据，使得总体访问效率较高、用户访问体验好。

多级缓存放置模块管理多级缓存所存储的数据的具体步骤如下：

1)获得每个关键词所需缓存数据的大小，即当用户查询访问某一个关键词时，系统返回数据的大小。若把这些数据提前放置到缓存中，可以有效提高访问效率。设置d_j为关键词j所需缓存数据的大小，其中j∈Q′。

2)设置用户体验函数f(t)，其中t为一个查询返回时间。该函数表达了一个用户体验指数随t的变化，规定指数越高体验越差，指数越低体验越好。如可以设定f(t)＝t，如图4(a)；也可以设置非连续的分段函数，如图4(b)和图 4(c)。

3)根据放置策略生成每个缓存所需缓存的数据。该策略首先基于用户体验函数、数据大小、访问频率估算待缓存的价值；其次，优先将价值高的数据放置于访问速率高的缓存中。

根据放置策略生成每个缓存所需缓存的数据的具体步骤如下：

i.根据读写速率对各缓存设备排序，由高到低依次设置为c₁,c₂,L,c_i,L,c_n。其中，c_i代表某一缓存设备，n为缓存设备的数量。所有缓存设备的集合设置为C，即C＝{c₁,c₂,…,c_i,…,c_n}。

ii.设e_i为c_i的缓存容量。

iii.在C中依次取出一个缓存设备，设为c_i。

iv.设

对应的数据价值为x_j，则可用以下公式求得：

vi.其中

表示：若把

所需缓存的数据只放置于c_i内，所用的查询时间。

vii.对x_j|j∈Q′排序，依次将

所需缓存的数据放置于c_i，直到e_i耗尽。更新Q′，即剔除Q′中已经缓存的关键词数据。

viii.重复执行iii，直到所有缓存设备的缓存放置完毕。

本发明通过多级缓存的管理，有效提高了科技情报的访问速率；通过机器学习的方法，较为准确地预测各科技关键词下一周期的访问量。

以上所述只是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也被视作为本发明的保护范围。

Claims

1.一种科技情报数据多级缓存管理的方法，其特征是，包括以下步骤：

管理多级缓存所存储的数据，所述多级缓存包括内存、网络内存、固态硬盘和磁盘；

所述收集科技情报数据的步骤包括：

获取科技情报数据库中近期一段时间内的科技信息文章；

利用TF-IDF算法获得T_i|i∈I的各关键词词频权重；

将各关键词词频权重集合与集合S作为预测数据，并发送到预测数据库作为训练数据；

所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括：

使用训练好的模型预测下一周期的查询访问量：设

为关键词j预测出下一周期的访问量，

将搜索量较大的关键词集合进行多级缓存管理。

2.根据权利要求1所述的一种科技情报数据多级缓存管理的方法，其特征是，所述利用TF-IDF算法获得T_i|i∈I的各关键词词频权重的具体过程为：执行TF-IDF算法进行后，可获得每个T_i的关键词词频权重，用A_i表示T_i关键词词频权重集合，即A_i|i∈I＝{b_i,j|i∈I,j∈Q}，其中b_i,j为T_i中第j个关键词词频权重，Q为科技词库中词的标识集合。

3.根据权利要求1所述的一种科技情报数据多级缓存管理的方法，其特征是，所述管理多级缓存所存储的数据的步骤包括：

设置用户体验函数f(t)，其中t为一个查询返回时间；

根据放置策略生成每个缓存所需缓存的数据。

4.根据权利要求3所述的一种科技情报数据多级缓存管理的方法，其特征是，所述根据放置策略生成每个缓存所需缓存的数据的过程为：

优先将价值高的数据放置于访问速率高的缓存中。

5.根据权利要求3所述的一种科技情报数据多级缓存管理的方法，其特征是，所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤：

根据读写速率对各缓存设备进行排序，由高到低依次设置为c₁,c₂,…,c_i,…,c_n，其中，c_i代表某一缓存设备，n为缓存设备的数量，所有缓存设备的集合设置为C，即C＝{c₁,c₂,…,c_i,…,c_n}；

设e_i为c_i的缓存容量；

在集合C中取出一个缓存设备，设为c_i；

设