CN110472004B - 一种科技情报数据多级缓存管理的方法及系统 - Google Patents

一种科技情报数据多级缓存管理的方法及系统 Download PDF

Info

Publication number
CN110472004B
CN110472004B CN201910782682.9A CN201910782682A CN110472004B CN 110472004 B CN110472004 B CN 110472004B CN 201910782682 A CN201910782682 A CN 201910782682A CN 110472004 B CN110472004 B CN 110472004B
Authority
CN
China
Prior art keywords
scientific
data
keyword
cache
technological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910782682.9A
Other languages
English (en)
Other versions
CN110472004A (zh
Inventor
马艳
邹立达
齐达立
陈玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910782682.9A priority Critical patent/CN110472004B/zh
Publication of CN110472004A publication Critical patent/CN110472004A/zh
Application granted granted Critical
Publication of CN110472004B publication Critical patent/CN110472004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种科技情报数据多级缓存管理的方法及系统,方法包括以下步骤:收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;预测下一个周期的科技情报用户搜索热点关键词及其访问量;管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明首先基于机器学习的方法预测未来周期的访问量;其次,根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值;最后,根据价值的大小依次放入各级缓存中,通过多级缓存的管理不仅提高了用户科技情报搜索的速度,而且提高了用户的查询访问效率。

Description

一种科技情报数据多级缓存管理的方法及系统
技术领域
本发明涉及一种科技情报数据多级缓存管理的方法及系统,属于通信技术领域。
背景技术
科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。随着科学技术日新月异的发展,社会各行业、各单位部门对情报信息的需求更加迫切,科技情报被认为是经济建设、科研、设计、生产、经营管理、市场营销中的关键环节。
科技情报数据库是科研相关工作者获取科技信息的重要来源,用户在使用科技情报数据库时,希望能够快速获得所搜索数据。然而,科技信息检索时,返回的数据会以条目、文档、图片、音视频等形式传送,其结果数据往往会较大,特别是在批量搜索时。这就造成了一些查询访问时间过长,用户体验变差。
将一些频繁查询访问的结果数据放置于缓存中,可以有效加快数据的访问速度。然而,缓存管理是复杂困难的,主要体现在两方面:1)缓存介质多样化。目前,常见的缓存有内存、网络缓存、固态硬盘、磁盘等。每种缓存介质的访问速率不同。2)缓存空间有限。每种磁盘由于成本的原因,可提供的存储空间是有限的。因此,亟需一种多级缓存管理方法,可以有效提高用户的查询访问效率。
发明内容
针对以上方法存在的不足,本发明提出了一种科技情报数据多级缓存管理的方法及系统,其能够提高用户科技情报搜索的速度。
本发明解决其技术问题采取的技术方案是:
一方面,本发明实施例提供的一种科技情报数据多级缓存管理的方法,包括以下步骤:
收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
预测下一个周期的科技情报用户搜索热点关键词及其访问量;
管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述收集科技情报数据的步骤包括:
获取科技情报数据库中近期一段时间内的科技信息文章;
设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合;
利用TF-IDF算法获得Ti|i∈I的各关键词词频权重;
获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合;
将各关键词词频权重集合与集合S作为预测数据,并发送到预测数据库作为训练数据。
作为本实施例一种可能的实现方式,所述利用TF-IDF算法获得Ti|i∈I的各关键词词频权重的具体过程为:执行TF-IDF算法进行后,可获得每个Ti的关键词词频权重,用Ai表示Ti关键词词频权重集合,即Ai|i∈I={bi,j|i∈I,j∈Q},其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
作为本实施例一种可能的实现方式,所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括:
整理训练数据:首先剔除搜索量较小的关键词,其次从预测数据库整理出训练数据;
训练预测模型:选择循环神经网络作为模型,输入输入数据与访问量的真实值对循环神经网络模型进行训练;
使用训练好的模型预测下一周期的查询访问量:设
Figure GDA0003583045200000021
为关键词j预测出下一周期的访问量,
Figure GDA0003583045200000031
Q′为Q剔除搜索量较小的关键词的集合,Q为科技词库中词的标识集合;
将搜索量较大的关键词集合进行多级缓存管理。
作为本实施例一种可能的实现方式,所述管理多级缓存所存储的数据的步骤包括:
获得每个关键词所需缓存数据的大小,设置dj为关键词j所需缓存数据的大小,其中j∈Q′;
设置用户体验函数f(t),其中t为一个查询返回时间;
根据放置策略生成每个缓存所需缓存的数据。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程为:
基于用户体验函数、数据大小、访问频率估算待缓存的价值;
优先将价值高的数据放置于访问速率高的缓存中。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤:
根据读写速率对各缓存设备进行排序,由高到低依次设置为c1,c2,…,ci,…,cn,其中,ci代表某一缓存设备,n为缓存设备的数量,所有缓存设备的集合设置为 C,即C={c1,c2,…,ci,…,cn};
设ei为ci的缓存容量;
在集合C中取出一个缓存设备,设为ci
Figure GDA0003583045200000032
对应的数据价值为xj,用以下公式求得xj
Figure GDA0003583045200000033
其中,
Figure GDA0003583045200000036
表示把
Figure GDA0003583045200000034
所需缓存的数据只放置于ci内所用的查询时间;
对xj|j∈Q′进行排序,依次将
Figure GDA0003583045200000035
所需缓存的数据放置于ci,直到ei耗尽,并更新Q′,即剔除Q′中已经缓存的关键词数据;
重新在集合C中取出一个缓存设备并进行处理,直到所有缓存设备的缓存放置完毕。
作为本实施例一种可能的实现方式,所述方法在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。
另一方面,本发明实施例提供的一种科技情报数据多级缓存管理的系统,包括:
科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;
多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述系统还包括:
周期事件模块,用于负责缓存管理的周期,每间隔一段时间向科技情报数据获取模块周期地发送指令发起一次缓存管理事件。
本发明实施例的技术方案可以具有的有益效果如下:
本发明实施例的技术方案的一种科技情报数据多级缓存管理的方法,包括以下步骤:收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;预测下一个周期的科技情报用户搜索热点关键词及其访问量;管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明首先基于机器学习的方法预测未来周期的访问量;其次,根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值;最后,根据价值的大小依次放入各级缓存中,通过多级缓存的管理不仅提高了用户科技情报搜索的速度,而且提高了用户的查询访问效率。
本发明实施例的技术方案的一种科技情报数据多级缓存管理的系统,包括:科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明通过多级缓存的管理,有效提高了科技情报的访问速率;通过机器学习的方法,较为准确地预测各科技关键词下一周期的访问量。
附图说明:
图1是根据一示例性实施例示出的一种科技情报数据多级缓存管理的方法流程图;
图2是根据一示例性实施例示出的另一种科技情报数据多级缓存管理的方法流程图;
图3是根据一示例性实施例示出的一种科技情报数据多级缓存管理的系统结构图;
图4(a)-图4(c)是用户体验函数的举例示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
在设计管理缓存之前,有一个重要前提是需要知晓未来哪些数据会被频繁访问。如此可以将最有价值的数据放置于有限的缓存中,以提高缓存的利用效率。科技情报数据库的用户常以关键词进行搜索。比如,基于主题名、作者、期刊等关键词搜索。因此,还需要一种可以准确预测未来一个周期内,每个关键词的访问频率的方法。
图1是根据一示例性实施例示出的一种科技情报数据多级缓存管理的方法的流程图。如图1所述,本发明实施例提供的一种科技情报数据多级缓存管理的方法,包括以下步骤:
收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
预测下一个周期的科技情报用户搜索热点关键词及其访问量;
管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述收集科技情报数据的步骤包括:
获取科技情报数据库中近期一段时间内的科技信息文章;
设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合;
利用TF-IDF算法获得Ti|i∈I的各关键词词频权重;
获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合;
将各关键词词频权重集合与集合S作为预测数据,并发送到预测数据库作为训练数据。
作为本实施例一种可能的实现方式,所述利用TF-IDF算法获得Ti|i∈I的各关键词词频权重的具体过程为:执行TF-IDF算法进行后,可获得每个Ti的关键词词频权重,用Ai表示Ti关键词词频权重集合,即Ai|i∈I={bi,j|i∈I,j∈Q},其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
作为本实施例一种可能的实现方式,所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括:
整理训练数据:首先剔除搜索量较小的关键词,其次从预测数据库整理出训练数据;
训练预测模型:选择循环神经网络作为模型,输入输入数据与访问量的真实值对循环神经网络模型进行训练;
使用训练好的模型预测下一周期的查询访问量:设
Figure GDA0003583045200000071
为关键词j预测出下一周期的访问量,
Figure GDA0003583045200000072
Q′为Q剔除搜索量较小的关键词的集合,Q为科技词库中词的标识集合;
将搜索量较大的关键词集合进行多级缓存管理。
作为本实施例一种可能的实现方式,所述管理多级缓存所存储的数据的步骤包括:
获得每个关键词所需缓存数据的大小,设置dj为关键词j所需缓存数据的大小,其中j∈Q′;
设置用户体验函数f(t),其中t为一个查询返回时间;
根据放置策略生成每个缓存所需缓存的数据。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程为:
基于用户体验函数、数据大小、访问频率估算待缓存的价值;
优先将价值高的数据放置于访问速率高的缓存中。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤:
根据读写速率对各缓存设备进行排序,由高到低依次设置为c1,c2,…,ci,…,cn,其中,ci代表某一缓存设备,n为缓存设备的数量,所有缓存设备的集合设置为 C,即C={c1,c2,…,ci,…,cn};
设ei为ci的缓存容量;
在集合C中取出一个缓存设备,设为ci
Figure GDA0003583045200000073
对应的数据价值为xj,用以下公式求得xj
Figure GDA0003583045200000074
其中,
Figure GDA0003583045200000083
表示把
Figure GDA0003583045200000081
所需缓存的数据只放置于ci内所用的查询时间;
对xj|j∈Q′进行排序,依次将
Figure GDA0003583045200000082
所需缓存的数据放置于ci,直到ei耗尽,并更新Q′,即剔除Q′中已经缓存的关键词数据;
重新在集合C中取出一个缓存设备并进行处理,直到所有缓存设备的缓存放置完毕。
本发明首先基于机器学习的方法预测未来周期的访问量;其次,根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值;最后,根据价值的大小依次放入各级缓存中,通过多级缓存的管理不仅提高了用户科技情报搜索的速度,而且提高了用户的查询访问效率。
作为本实施例一种可能的实现方式,在图1所示方法基础上,增加了周期性发起缓存管理事件的步骤,如图2所示,所述方法在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。
图3是根据一示例性实施例示出的一种科技情报数据多级缓存管理的系统结构图;如图3所述,本发明实施例提供的一种科技情报数据多级缓存管理的系统,包括:
科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;
多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述系统还包括:
周期事件模块,用于负责缓存管理的周期,每间隔一段时间向科技情报数据获取模块周期地发送指令发起一次缓存管理事件。
如图3所示,本发明所述的系统分为四个模块:周期事件模块、科技情报访问数据获取模块、查询访问量预测模块和多级缓存放置模块。
一、周期事件模块
负责缓存管理的周期,每间隔一段时间发起一次缓存管理事件。其向科技情报数据获取模块周期地发送指令。
二、科技情报访问数据获取模块
负责收集科技情报数据。主要目的是获得近期一段时间内,各关键词的真实查询访问量、各关键词在近期科技文献中所占权重。该模块将这些数据发送到查询访问量预测模块以预测下一周期的访问量。
科技情报访问数据获取模块收集科技情报数据的具体步骤如下:
1)获取科技情报数据库中近期一段时间内的科技信息文章。近期一段时间的时长可以设置为一个预测周期时间跨度的n倍,如一个周期的时间跨度为一周,设置为n=10,即获取近10周新发布的科技文章。
2)设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合。如从期刊文献库文章获取科技文献集合为T1,从会议文献库获取的文献集合为T2,从学位论文文献库获取的文献集合为T3,等等。
3)基于TF-IDF算法获得Ti|i∈I的各关键词词频权重。执行TF-IDF算法后,可获得每个Ti的关键词词频权重。用Ai表示Ti关键词词频权重集合,即Ai|i∈I={bi,j|i∈I,j∈Q}。其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
4)获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合,即S={sk,j|k∈[1,n],k为整数,j∈Q}。其中,sk,j表示Q中第j个关键词在之前第k个周期中的访问量,n为S记录访问数据的最早周期数。
5)将Ai|i∈I与S数据发送到查询访问量预测模块作为预测数据,并且发送到预测数据库存储以提供训练数据。
三、查询访问量预测模块
负责预测下一个周期的科技情报用户搜索热点关键词及其访问量。该模块针对科技情报数据库的访问特点,整理训练数据、训练时序模型,而后预测下一周期的访问量。该模块将搜索热点关键词及其访问量数据发送到多级缓存放置模块。
查询访问量预测模块预测下一个周期的科技情报用户搜索热点关键词及其访问量的具体步骤如下:
1)数据准备。首先,剔除搜索量较小的关键词。其次,从预测数据库整理出用于训练的数据。用X与Y分别表示训练的输入数据与访问量的真实值。 X={xi|i<n,i为整数},Y={yi|i<n,i为整数},其中xi与yi是一条输入数据及其对应的真实值,n为训练数据的数量。xi=<{ba,j|a∈I,j为Q的一个标识},{sk,j|k∈[1,n],k为整数,j为Q的一个标识}>,yi=s0,j,s0,j为下一周期标识为j关键词的真实访问量。
2)训练预测模型。选择一种循环神经网络作为模型,如LSTM、RNN或者 GRU。输入X与Y对模型进行训练。
3)使用训练好的模型,预测下一周期的查询访问量。设
Figure GDA0003583045200000101
为关键词j预测出下一周期的访问量。
Figure GDA0003583045200000102
Q′为Q剔除搜索量较小的关键词的集合。
4)将
Figure GDA0003583045200000103
发送到多级缓存放置模块。
四、多级缓存放置模块
负责管理多级缓存所存储的数据。多级缓存包括内存、网络内存、固态硬盘、磁盘等介质,其特点是读写速率越快缓存容量越小。多级缓存放置模块管理各级缓存数据,使得总体访问效率较高、用户访问体验好。
多级缓存放置模块管理多级缓存所存储的数据的具体步骤如下:
1)获得每个关键词所需缓存数据的大小,即当用户查询访问某一个关键词时,系统返回数据的大小。若把这些数据提前放置到缓存中,可以有效提高访问效率。设置dj为关键词j所需缓存数据的大小,其中j∈Q′。
2)设置用户体验函数f(t),其中t为一个查询返回时间。该函数表达了一个用户体验指数随t的变化,规定指数越高体验越差,指数越低体验越好。如可以设定f(t)=t,如图4(a);也可以设置非连续的分段函数,如图4(b)和图 4(c)。
3)根据放置策略生成每个缓存所需缓存的数据。该策略首先基于用户体验函数、数据大小、访问频率估算待缓存的价值;其次,优先将价值高的数据放置于访问速率高的缓存中。
根据放置策略生成每个缓存所需缓存的数据的具体步骤如下:
i.根据读写速率对各缓存设备排序,由高到低依次设置为c1,c2,L,ci,L,cn。其中,ci代表某一缓存设备,n为缓存设备的数量。所有缓存设备的集合设置为C,即C={c1,c2,…,ci,…,cn}。
ii.设ei为ci的缓存容量。
iii.在C中依次取出一个缓存设备,设为ci
iv.设
Figure GDA0003583045200000111
对应的数据价值为xj,则可用以下公式求得:
Figure GDA0003583045200000112
vi.其中
Figure GDA0003583045200000115
表示:若把
Figure GDA0003583045200000113
所需缓存的数据只放置于ci内,所用的查询时间。
vii.对xj|j∈Q′排序,依次将
Figure GDA0003583045200000114
所需缓存的数据放置于ci,直到ei耗尽。更新Q′,即剔除Q′中已经缓存的关键词数据。
viii.重复执行iii,直到所有缓存设备的缓存放置完毕。
本发明通过多级缓存的管理,有效提高了科技情报的访问速率;通过机器学习的方法,较为准确地预测各科技关键词下一周期的访问量。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视作为本发明的保护范围。

Claims (8)

1.一种科技情报数据多级缓存管理的方法,其特征是,包括以下步骤:
收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
预测下一个周期的科技情报用户搜索热点关键词及其访问量;
管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘;
所述收集科技情报数据的步骤包括:
获取科技情报数据库中近期一段时间内的科技信息文章;
设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合;
利用TF-IDF算法获得Ti|i∈I的各关键词词频权重;
获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合;
将各关键词词频权重集合与集合S作为预测数据,并发送到预测数据库作为训练数据;
所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括:
整理训练数据:首先剔除搜索量较小的关键词,其次从预测数据库整理出训练数据;
训练预测模型:选择循环神经网络作为模型,输入输入数据与访问量的真实值对循环神经网络模型进行训练;
使用训练好的模型预测下一周期的查询访问量:设
Figure FDA0003583045190000011
为关键词j预测出下一周期的访问量,
Figure FDA0003583045190000012
Q′为Q剔除搜索量较小的关键词的集合,Q为科技词库中词的标识集合;
将搜索量较大的关键词集合进行多级缓存管理。
2.根据权利要求1所述的一种科技情报数据多级缓存管理的方法,其特征是,所述利用TF-IDF算法获得Ti|i∈I的各关键词词频权重的具体过程为:执行TF-IDF算法进行后,可获得每个Ti的关键词词频权重,用Ai表示Ti关键词词频权重集合,即Ai|i∈I={bi,j|i∈I,j∈Q},其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
3.根据权利要求1所述的一种科技情报数据多级缓存管理的方法,其特征是,所述管理多级缓存所存储的数据的步骤包括:
获得每个关键词所需缓存数据的大小,设置dj为关键词j所需缓存数据的大小,其中j∈Q′;
设置用户体验函数f(t),其中t为一个查询返回时间;
根据放置策略生成每个缓存所需缓存的数据。
4.根据权利要求3所述的一种科技情报数据多级缓存管理的方法,其特征是,所述根据放置策略生成每个缓存所需缓存的数据的过程为:
基于用户体验函数、数据大小、访问频率估算待缓存的价值;
优先将价值高的数据放置于访问速率高的缓存中。
5.根据权利要求3所述的一种科技情报数据多级缓存管理的方法,其特征是,所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤:
根据读写速率对各缓存设备进行排序,由高到低依次设置为c1,c2,…,ci,…,cn,其中,ci代表某一缓存设备,n为缓存设备的数量,所有缓存设备的集合设置为C,即C={c1,c2,…,ci,…,cn};
设ei为ci的缓存容量;
在集合C中取出一个缓存设备,设为ci
Figure FDA0003583045190000021
对应的数据价值为xj,用以下公式求得xj
Figure FDA0003583045190000022
其中,
Figure FDA0003583045190000024
表示把
Figure FDA0003583045190000023
所需缓存的数据只放置于ci内所用的查询时间;
对xj|j∈Q′进行排序,依次将
Figure FDA0003583045190000031
所需缓存的数据放置于ci,直到ei耗尽,并更新Q′,即剔除Q′中已经缓存的关键词数据;
重新在集合C中取出一个缓存设备并进行处理,直到所有缓存设备的缓存放置完毕。
6.根据权利要求1至5任意一项所述的一种科技情报数据多级缓存管理的方法,其特征是,在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。
7.一种科技情报数据多级缓存管理的系统,其特征是,包括:
科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;
多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘;
所述收集科技情报数据的步骤包括:
获取科技情报数据库中近期一段时间内的科技信息文章;
设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合;
利用TF-IDF算法获得Ti|i∈I的各关键词词频权重;
获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合;
将各关键词词频权重集合与集合S作为预测数据,并发送到预测数据库作为训练数据;
所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括:
整理训练数据:首先剔除搜索量较小的关键词,其次从预测数据库整理出训练数据;
训练预测模型:选择循环神经网络作为模型,输入输入数据与访问量的真实值对循环神经网络模型进行训练;
使用训练好的模型预测下一周期的查询访问量:设
Figure FDA0003583045190000041
为关键词j预测出下一周期的访问量,
Figure FDA0003583045190000042
Q′为Q剔除搜索量较小的关键词的集合,Q为科技词库中词的标识集合;
将搜索量较大的关键词集合进行多级缓存管理。
8.根据权利要求7所述的一种科技情报数据多级缓存管理的系统,其特征是,还包括:
周期事件模块,用于负责缓存管理的周期,每间隔一段时间向科技情报数据获取模块周期地发送指令发起一次缓存管理事件。
CN201910782682.9A 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及系统 Active CN110472004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910782682.9A CN110472004B (zh) 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910782682.9A CN110472004B (zh) 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及系统

Publications (2)

Publication Number Publication Date
CN110472004A CN110472004A (zh) 2019-11-19
CN110472004B true CN110472004B (zh) 2022-07-08

Family

ID=68513622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910782682.9A Active CN110472004B (zh) 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及系统

Country Status (1)

Country Link
CN (1) CN110472004B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090674B (zh) * 2019-12-28 2022-11-29 安徽微沃信息科技股份有限公司 一种基于热词和缓存的搜索引擎系统
CN111832815B (zh) * 2020-07-02 2023-12-05 国网山东省电力公司电力科学研究院 科研热点预测方法及系统
CN112948289B (zh) * 2021-03-03 2022-09-30 上海天旦网络科技发展有限公司 一种基于机器学习的缓存预测调度方法、系统及介质
CN113590795B (zh) * 2021-08-03 2024-02-20 中国银行股份有限公司 知识点处理方法、装置、服务器、介质及产品
CN113703688B (zh) * 2021-09-20 2024-03-15 安徽丰合佳行信息技术有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN113867646B (zh) * 2021-09-30 2022-03-18 福建极存数据科技有限公司 一种磁盘性能提升方法及终端

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548929B2 (en) * 2005-07-29 2009-06-16 Yahoo! Inc. System and method for determining semantically related terms
US7676521B2 (en) * 2006-03-31 2010-03-09 Microsoft Corporation Keyword search volume seasonality forecasting engine
CN103034660B (zh) * 2011-10-10 2016-09-28 阿里巴巴集团控股有限公司 信息提供方法、装置及系统
US20140143271A1 (en) * 2012-11-21 2014-05-22 General Electric Company Multi-level medical image viewer memory management
CN104346294B (zh) * 2013-07-31 2017-08-25 华为技术有限公司 基于多级缓存的数据读/写方法、装置和计算机系统
CN104217019A (zh) * 2014-09-25 2014-12-17 中国人民解放军信息工程大学 基于多级缓存模块的内容查询方法和装置
CN104794228B (zh) * 2015-04-30 2018-04-13 北京奇艺世纪科技有限公司 一种搜索结果提供方法及装置
CN104965893A (zh) * 2015-06-18 2015-10-07 山东师范大学 一种大数据广告投放方法
CN105573669A (zh) * 2015-12-11 2016-05-11 上海爱数信息技术股份有限公司 一种存储系统的io读加速缓存方法和系统
CN106528761B (zh) * 2016-11-04 2019-06-18 郑州云海信息技术有限公司 一种文件缓存方法及装置
CN108132958A (zh) * 2016-12-01 2018-06-08 阿里巴巴集团控股有限公司 一种多级缓存数据存储、查询、调度以及处理方法及装置
CN107301215B (zh) * 2017-06-09 2020-12-18 北京奇艺世纪科技有限公司 一种搜索结果缓存方法及装置、搜索方法及装置
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法
CN109918448A (zh) * 2019-03-06 2019-06-21 电子科技大学 一种基于用户行为的云存储数据分级方法

Also Published As

Publication number Publication date
CN110472004A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472004B (zh) 一种科技情报数据多级缓存管理的方法及系统
CN106874292B (zh) 话题处理方法及装置
CN104199965B (zh) 一种语义信息检索方法
CN110291518A (zh) 合并树无用单元指标
CN109977309B (zh) 基于多关键字和用户偏好的组合兴趣点查询方法
CN109241298B (zh) 语义数据存储调度方法
WO2017053779A1 (en) Data storage and retrieval system using online supervised hashing
CN107145519B (zh) 一种基于超图的图像检索与标注方法
CN102968464A (zh) 一种基于索引的本地资源快速检索系统及其检索方法
CN103995828B (zh) 一种云存储日志数据分析方法
CN101140573A (zh) 一种实现信息搜索的方法及系统
CN114169401A (zh) 数据处理、预测模型训练方法和设备
CN110347754B (zh) 一种数据查询方法及装置
CN101635001B (zh) 从数据库提取信息的方法和设备
CN109542612A (zh) 一种热点关键字获取方法、装置及服务器
CN109471971B (zh) 一种面向教育领域资源云存储的语义预取方法及系统
CN111753151A (zh) 一种基于互联网用户行为的服务推荐方法
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
CN101814080A (zh) 一种实现信息搜索的方法及装置
CN107180017A (zh) 一种样本序列化方法和装置
CN107820612A (zh) 位向量搜索索引
Henrique et al. A new approach for verifying url uniqueness in web crawlers
WO2016144360A1 (en) Progressive interactive approach for big data analytics
CN115906864A (zh) 基于文本消岐的业务关键词预测方法、存储介质及设备
CN116737607B (zh) 样本数据缓存方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant