CN109471971B

CN109471971B - 一种面向教育领域资源云存储的语义预取方法及系统

Info

Publication number: CN109471971B
Application number: CN201810117814.1A
Authority: CN
Inventors: 黄昌勤; 黄微宇; 黄琼浩; 王希哲; 李源
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2021-05-04
Anticipated expiration: 2038-02-06
Also published as: CN109471971A

Abstract

本发明提供一种面向教育领域资源云存储的语义预取系统及方法，其中所述系统包括用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块；所述方法包括如下步骤：用户请求概念获取、概念集合主题相关性判断、候选中心概念的选择、中心概念的确定、预取对象的确定、预取存储目标节点确定、预取窗口的大小以及主题相关性的保持、转换、消失与停止预取。本发明针对教育领域云存储方法的不足，结合教育资源的特征，形成特定的教育云存储系统。

Description

一种面向教育领域资源云存储的语义预取方法及系统

技术领域

本发明属于教育领域资源云存储的语义预技术，具体涉及面向教育领域资源云存储的语义预取方法及系统。

背景技术

近年来，云计算得到了快速的发展，而作为云计算的重要组成部分，云存储也成为当前的热门研究课题之一。目前对于云存储的研究主要集中在数据存储，以及提升存储性能方面，而较少关注在存储对象限于领域情况下的存储增效研究。按照一般规律，存储增效研究主要需要解决对资源请求的网络延迟和网络服务质量问题，目前方案有缓存和预取。对以教育领域资源而言，我们发现存在有访问对象主题性和行为聚集性等特征，它们将成为我们研究教育领域资源云存储增效技术的基础。访问的聚集性原理体现为时间与空间的聚集性，其中时间聚集性是指距离上次访问时间越近的对象或者资源，越有可能再次被访问；而空间聚集性是指存储对象相对集中服务于一定空间地理位置的访问行为。聚集性原理在计算机结构、缓存、基于WEB的企业系统、环境感知的软件等各个领域都有广泛的应用。

目前一些现有的预取技术通常采用的方法为：

1.一种基于云存储的高效资源动态调度方法

·申请日:2012.11.07

·申请号:201210440341.1

·申请人地址:250014山东省济南市高新区舜雅路1036号

·发明人:黄臣李瑞东

2.一种网络资源预取并缓存加速的方法及其装置

·申请日:2011.12.05

·申请号:201110399507.5

·申请人地址:100190北京市海淀区中关村东路66号长城大厦3层

·发明人:李继明杨东晓

3.一种教育资源语义标注方法

·申请日:2014.10.23

·申请号:201410571072.1

·申请人地址:230601安徽省合肥市蜀山区黄山路599号时代数码港

·发明人:吴雷阮怀伟虞勇勇昌磊

发明1设计了一种基于云存储的高效资源动态调度方法。该发明基于云存储的高效资源动态调度方法，涉及到云存储技术领域，其技术内容由云存储资源控制节点、云存储资源调度节点、云存储资源监控节点和各类存储节点组成，云存储控制节点根据传入的数据获取数据索引和更新数据索引，然后云存储调度节点根据索引值高低选择存储节点。

发明2提供了用户网络访问行为进行资源预取的方法与装置。该发明根据用户的网络访问行为记录用户的网络访问信息；从访问信息中提取不同时间段的用户网络访问行为特征；从满足时间特征的所有网络访问行为特征中获得用户网络访问行为的规律，从而提前预知用户下一个相同时间特征的网络访问行为；根据用户下一个相同时间特征的网络行为，在下一个相同时间特征前预先下载用户的网络资源并加载到缓存中。

发明3对教育资源进行语义标注，使用户能够更加精准的搜索到所需资源。该发明公开了一种教育资源语义标注方法，对于不同学习资源，进行资源信息抽取构建学习资源库，然后通过映射方式完成学习资源库与标签库中的标签进行映射，并抽取对应的标注信息存储于标注信息库中，从而实现学习资源的多标签标注，使用户可以更加准确地搜索到所需资源。

以上三个专利发明都是针对资源(包括教育资源)检索与传输的发明创造，发明1是针对云存储系统的资源调度，发明2是针对用户网络访问的行为信息进行资源预取，发明3是对教育资源进行语义标注以提高信息检索时的准确度。

目前云存储系统的研究范围多为通用领域，而缺乏某一特定领域的云存储系统。随着教育信息化的不断发展，教育资源数量逐渐增多，容量越来越大，因此对于存储对象限于教育领域情况下云存储系统的存储增效就成为一个亟待解决的问题。

虽然以上三种发明在一定程度上提出了教育领域云存储的方案，但是主要存在以下不足：

1.现有的数据预取技术主要面向通用领域，依靠用户行为数据与简单的资源类别来预取资源，而这些数据能说明的信息量是很有限的，系统在预判资源的中心概念时易出现偏差，影响用户所需教育资源的预取，使用户在有学习需求时找不到或获取到不相关的资源，不利于学习行为的开展。

2.除了资源的准确性外，针对通用的云存储系统方案的节点确定不够明确，特别是教育资源具有访问对象主题性和行为聚集性等特征，简单的确定资源的调度节点是远远不足的，需要进一步的确定目标节点，以满足用户的学习需求。

3.对于教育资源而言，采用语义标记检索的技术后，需要检索的信息量增大，如不采取一定的措施，所用的时间是要远大于传统检索方式的，在遇到一些时效性较强的资源时会在资源的检索与传递上花费大量的时间而错过时机；此外，在选定中心概念时，仅通过关联值而不考虑资源的特定范围与时效性同样会影响资源的有效性。

发明内容

有鉴于此，本发明的主要目的是提供一种面向教育领域资源云存储的语义预取方法及系统。

本发明采用的技术方案是：

一种面向教育领域资源云存储的语义预取系统，包括

用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块；

所述用户接口模块用于接收用户的请求，将请求交付到后台处理，并根据后台系统的返回数据响应用户的请求；

所述请求控制模块对用户的请求进行处理；

所述云存储模块对存储资源的元数据进行管理；

所述缓存管理模块由缓存数据与缓存管理组成，缓存数据是访问热度比较高的教育资源元数据，缓存管理则是对缓存数据进行实时更新，以最大限度降低云存储模块中名称节点的压力与提高元数据查询效率；

所述副本管理模块基于教育资源用户访问的聚集性特征，根据系统的负载情况与资源的访问热度对资源的副本进行优化调度；

所述预取模块基于教育资源用户访问的主题性特征，接收请求控制模块传递过来的请求，计算该请求和其相关请求的访问热度以及系统相对承载力，综合请求文件的访问热度和系统相对承载力判断是否执行预取操作。

所述请求控制模块还触发优化增效模块。

所述云存储模块包括一个名称节点与多个数据节点组成，本发明所述名称节点主要满足系统的查询，所述数据节点主要提供了资源的云存储空间与节点之间的数据通信。

所述副本管理模块包括副本放置策略、副本生成策略与副本替换策略。

所述执行预取操作的方法为：如果达到预取条件则触发预取推理，通过在日志文件、本体和语义标注的资源的基础上推理得到预取对象，并将预取对象序列传递到副本管理模块，否则返回不预取信号。

本发明还提供了一种面向教育领域资源云存储的语义预取方法，包括如下步骤：

步骤一，用户请求概念获取：系统首先会对用户请求数据资源中的标注进行关键字抽取，利用相应的匹配算法将关键词与本体库中的概念进行逐一匹配，实现关键词到本体概念的映射，得到相应的概念集合；

步骤二，判断概念集合主题相关性：具体方法为，随机从中抽取m'个概念(m'≤m)进行抽样分析，并记抽取概念的集合为

符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式，由此可以得出抽样集合中每个概念相互之间的相似度，并形成相似度矩阵，其如式(1)所示：

根据HowNet相似的计算公式定义可知Sim(c_i,c_i)＝1.000，Sim(c_i,c_j)＝Sim(c_j,c_i)，其中c_i,c_j∈C^sa，则可以求出集合C^sa的平均概念相似度，其定义如式(2)所示：

设定平均概念相似度阈值ε1，该值可以根据历史记录简单分析得到，若

则集合

中的概念具有一定的主题相关性；

步骤三，候选中心概念的选取：具体包括如下的步骤：

A:当考察会话s_i与其他会话在时间段Δt内的主题相关性时，s_i中的每个概念c_i,1,c_i,2,c_i,3将逐一比较其他每个会话中的概念，并且找出其中相似度最大的加入到以s_i中的概念为中心的序列中，得到S_i,1,S_i,2,S_i,3，当c_i,j＝null时，S_i,j＝null，j＝1,2,3，以S_i,1,S_i,2,S_i,3中概念相似度总和最大作为

其对应的概念为会话s_i的代表概念c_i ^re，S_i,j的相似度总和的计算方式如式(3)所示：

则

的相似度总和如式(4)所示：

经过式(3)，(4)的计算，可以得到会话s_i中相应的代表概念c_i ^re，还有与c_i ^re相对应的主题相关性概念序列

可相应求出其他会话的代表概念以及相应的主题相关概念序列；

得到代表概念集合

后，系统将进一步分析从中产生候选中心概念，具体流程如下：

A:以c_i ^re为概念语义中心，删除

中与之概念相似度小于阈值ε₂的概念

若删除后序列中只剩下c_i ^re本身，则说明该序列的主题相关性不明显，直接删除该代表概念c_i ^re与

B:在序列

的剩余概念中找出相似度为1的概念进行合并，假设

则保留

删除

并w_i,x＝w_i,x+w_i,y；

C:经过删除与合并后，假设序列

剩余概念个数为r，根据式(6)计算出c_i ^re的序列概念相似度总和：

并计算该序列概念的平均相似度，其定义如式(7)所示：

再计算该序列的标准差，其定义如式(8)所示：

D:设定阀值ε₃与ε₄，ε₃应根据该时间段内用户请求会话的个数m成正比，ε₄根据系统主题关系强弱稳定性要求设定来设定，保留

且

的代表概念c_i ^re作为候选中心概念，否则进入下一个代表概念的判定，遍历完代表概念集合

及相应主题相关序列，得到候选中心概念集合

步骤四，中心概念的确定：其具体的方法如下：

A:在候选中心概念集合

中，如果判断出几个概念元素的相似度很高，仅需合并为一个概念予以表征即可，该过程称之为候选中心概念的归并，假设c_i ^ca为候选中心概念，在候选中心概念集合

中与c_i ^ca相似度大于ε₅的概念加入带合并集合并记为C_i ^ca，然后对集合c_i ^ca∪C_i ^ca进行概念合并，首先确定带合并候选概念集合c_i ^ca∪_Ci ^ca的合并中心，即中心概念

其可以用概念中心度来得到。假设h＝Size(c_i ^ca∪C_i ^ca)，c_i在C_i ^ca中概念中心度定义如式(9)所示(c_i∈c_i ^ca∪C_i ^ca)：

则

可以由式(10)得到：

合并候选概念集合C_i ^ca中概念对应主题相关序列。得到中心概念

后，把C_i ^ca中候选概念对应的主题相关序列合并到

对应主题相关序列，得到中心概念

最终对应的主题相关序列，在合并的过程中，集合中其他候选中心概念对应主题相关序列中的概念

应该重新计算其与中心概念

的相似度，计算方式如下式(11)所示：

至此，中心概念集合C^c的确定与对应主题相关概念序列的获取到此完成；

步骤五，预取对象的确定：

根据中心概念集合C^C系统进一步确定预取对象，确定预取对象之前分析需要预取的数据节点，与预取数据的数量，系统结合C^C从空间的维度分析时间段ΔT内的用户请求，首先根据系统服务区域划分规则将请求客户端划分为g个区域A＝{a_i'|1≤i'≤g}，假设根据本发明提出的技术方案得到某个时间段区域a_i'中心概念为

则在该时间段ΔT内区域a_i'关于概念

的主题相关性程度为：计算方式如下式(12)所示：

其中n与T距离根据系统性能要求确定；m_t为时间段Δt区域a_i'内用户访问请求总次数；c_j是该时间段Δt区域a_i'内的一个中心概念，其与当前时间段ΔT考察的中心概念

有

若t＝T，即当前时间段，则有

β_t为时间衰减系数，0≤β_t≤1，越接近当前时刻的时间段衰减系数值越大，说明时间距离当前时刻越远参考性越低，系统根据概念关系模式进行概念语义推理，推理规则包括一下两条：

规则1:SubClassOf(c_x，c_y)，SubClassOf(c_y，c_z)→hasGrandFather(c_x，c_z)

规则2：SubClassOf(c_x，c_z)，SubClassOf(c_y，c_z)→hasSibling(c_x，c_y)、SubClassOf(c_x，c_k)，SubClassOf(c_y，c_z)，hasSibling(c_k，c_z)→hasCousin(c_x，c_y)

具体推理方法如下：

若

中存在概念与

之间是直接关系的概念，则首先根据其与

的关系模式进行推理，若关系模式为上下位模式，则结合本体知识库中定义的语义关系与规则1进行语义推理，以此推出中心概念其余所有直接关系的上位或下位概念；若关系模式为左右模式，则通过规则2推出中心概念在本体知识库中其余所有的同层概念；

若S_i中存在与

之间是非直接关系的概念，则与方法I中的推理同理，按规则1、规则2推出相应的同层概念，由于非直接关系的概念数量较多，为此，根据S_i中该层非直接关系概念的比例选取一定数量推理得到的概念，且与

之间相似度越大则优先选取；

假设序列S_i中概念为中心概念

的上位概念最顶一层为第l层，为中心概念c_x下位概念最低层为第l'层，求出具有中心概念对应序列中的概念的每一层中这些概念与中心概念的相似度总和记为

表示第f层中序列中的概念与中心概念相似度的总和，若某一层无序列中的概念，则总和为0，根据式(13)求出每一层的预取概念c_v,j，c_v,j包括序列S_i中概念与推理得到的概念，c_v,j表示该概念在中心概念的第v层的第j个的预测主题相关度：

系统将找出推理得到的概念中的相同概念进行合并，且

进行叠加，合并后按预取概念的

进行排序，形成预取概念序列S^c，

根据该序列S^c中的概念映射相对应的教育资源，剔除其中目标存储节点中已存在的资源文件，形成预取资源序列S^S，资源顺序先按S^c中概念的顺序进行排列，若出现一个概念对应多个资源文件，则按资源的大小由小到大排列；

步骤六，预取存储目标节点确定:具体如下:

在预取数据之前，确定系统当前带宽、CPU、I/O负载，而相对系统承载能力是指节点i与j节点之间的空闲负载能力，是带宽、CPU使用率与I/O使用率相对和，是确定预取存储目标节点的重要指标，其计算方式如下：

其中

为i节点与j节点的当前带宽与理论带宽的比例；λ_BW为带宽权重，P_j ^CPU为j节点的当前CPU使用率，λ_CPU为CPU负载权重；P_j ^I/O为j节点的当前I/O使用率；λ_I/O为I/O所占权重；Load(i,j)＝Load(j,i)，

若某一用户区域A的请求具有主题相关性，则通过探测分析用户区域A与系统各个数据节点之间的网络带宽，高于一定阀值的数据节点被加入到候选目标节点集CNS＝{b_i|1≤i≤p,i,p∈N}，系统中存储源数据的节点集合为SNS＝{d_j|1≤j≤p,j,p∈N}，

节点b_i至d_i之间的负载表示可以为Load(b_i,d_j)，节点b_i至用户区域a_i'之间的负载为节点b_i到用户区域a_i'中所有请求用户节点平均负载，记作Load(b_i,a_i')，本系统中文件的副本数默认为3，即p＝3，计算当前的负载情况的计算方式如下公式(15)：

其中×代表节点与节点之间的连接负载运算，

请求区域与待存储节点之间的负载为：

由于考虑预取负载和实际请求负载，因此总负载Load(a_i',d_j)则为前两者之和，即对于任意源节点d_j与请求区域a_i'之间的负载，Load(a_i',d_j)可表示为式(17)：

Load(a_i',d_j)|b_i＝Load(a_i',b_i)+Load(b_i,d_j) (17)

其中b_i是可能的目标存储节点

可以根据式(18)求出目标存储节点

步骤七，预取窗口的大小，具体为：

预取对象确定后，并不是序列S^S中所有的数据都进行预取，而需要结合资源请求的主题相关性程度与系统的整体负载情况来决定预取的数据量。结合式(12)与式(17)可以得到预取数据量的计算方式，如式(19)所示：

其中Size(S^S)表示序列S^S中数据的总大小；c_x为该时间段t的中心概念；α、γ分别是中心概念的相关概念请求热度和系统空闲负载能力对预取数据量影响所占的权重系数，且有α+γ≤1，根据公式(13)可以控制系统语义预取的窗口大小，其中z是序列S^S中应进行预取的对象的总大小，系统从序列S^S按顺序获取预取对象时，当文件总大小将超过z时，系统停止预取；

步骤八，主题相关性的保持、转换、消失与停止预取。

在步骤一中，所述匹配算法为：

假定教育资源云存储系统在某区域的一时间段Δt内获取到m个用户请求会话，请求数据中抽取的关键词在教育资源本体库中完成映射后，将得到一个概念集合：

C_m,Δt＝{c_1,1,c_1,2,c_1,3,....,c_i,1,c_i,2,c_i,3,...,c_m,1,c_m,2,c_m,3}， (1)

其中c_m,k(1≤i≤m,1≤j≤3,i,j∈￥)表示第i个会话中映射的第j个概念，

在获取用户数据请求资源映射的概念集合C_m,Δt后，先对其进行主题相关性判断，特别地c_j表示某种概念集合的元素，仅具有局部性，不具备全局性，同时本文用函数_Size(？)表示求某集合元素的个数。

在步骤二中，为了进一步确定该时间段Δt内的概念具有主题相关性，将对集合C_m,Δt进行再次抽样计算，若连续3次中有2次或3次抽样计算结果大于阀值ε₁，则认为该时间段Δt内集合C_m,Δt中概念具有一定的主题相关性，可进入下一步主题挖掘，若只有1次或0次抽样计算结果大于阀值ε₁，则认为该时间段Δt内集合C_m,Δt中概念无主题相关性，系统继续监控下一时间段的用户资源请求。

在步骤八中，主题相关性的保持是指某一时间段内得到的主题相关性在先前的时间段出现过，如果出现主题相关性的保持，并发生过预取，则系统应该在概念推理的过程中，根据系统的工作负载适当增加对非直接关系概念。

主题相关性的转换是指两个时间段之间的主题具有一定的相似度，但出现了不同的中心概念，若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度大于ε₅且小于1，则说明两个时间段内中心概念出现了转换，此时系统应该根据第Δt个时间段确定的预取资源顺序进行预取。

主题相关性消失是指在前面时间段出现的主题在接下来的时间段里不复出现，中心概念之间的相似度也很低。若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度不明显，则需要与第t-2个时间段Δ(t-2)的中心概念比较，若依然不明显，则说明过去的主题相关性已经可能不明显了，系统将优先处理当前时间段确定的预取资源，在有空闲的情况下再预取过去确定预取的资源，若第t+1个时间段Δ(t+1)依然不明显，则停止先前的预取，并在目标节点空间不足的情况下，可根据需要从该节点上移除部分预取资源；若第t+1个时间段Δ(t+1)恢复了先前第t-1个时间段Δ(t-1)的主题，则按第t+1个时间段Δ(t+1)的序列优先预取，再恢复先前的预取。

本发明针对教育领域云存储方法的不足，结合教育资源的特征，形成特定的教育云存储系统，并在该系统中加入资源预取模块，基于语义web技术结合相应的算法预先推断用户所需的中心概念，并利用这些中心概念获取用户需要的预取对象，在适宜的时间、适宜的情境下在用户的邻近节点上建立对应的资源数据副本，降低用户或者群组的访问延迟，既保障了资源需求的准确性，亦能够提高语义标注后教育云存储系统的应用性能。

附图说明

图1为本发明的系统框架原理图；

图2为本发明中基于教育领域本体的用户请求概念获取流程图；

图3为本发明中会话代表概念与相似序列确定流程图；

图4为本发明中候选中心概念主题序列合并流程图；

图5为本发明中心概念确定流程图；

图6为本发明预取资源的确定流程图；

图7为本发明目标存储节点计算拓扑图；

图8为本发明主题生命周期与预取控制流程图

图9为本发明系统语义预取工作流程。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，在此本发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

定义1：代表概念

代表概念是指能够代表某一个用户请求会话主题的概念其由用户请求数据资源的抽取关键词映射的概念后，与同时间段内其他会话运算比较，得出的较同会话的其他概念更能代表某段时间主题的概念。在本发明中其记作c_i ^re，表示第i个会话的代表概念,考察时间段Δt内代表概念的集合记为

定义2：主题相关概念序列

主题相关概念序列是每个会话中抽取关键词映射的概念与同段时间内其他会话中概念运算筛选所生产的相关概念序列。在本发明中记作S_i,j，表示概念c_i,j的主题相关概念序列，特别地，代表概念所对应的主题相关概念序列记为

S_i,j中的概念记作

我们把求概念c_i,j的主题相关概念序列S_i,j记作S_i,j＝TSeq(c_i,j)。

定义3：概念权值

概念权值是记录某个概念相同概念出现的次数，以便合并相同概念，降低计算量，其初始值为1。c_i,j的概念权值记作w_i,j。

定义4：候选中心概念

候选中心概念是从考察时间段内所有会话的代表概念中选取的概念，代表概念经过删除与合并后，计算概念序列相似度总和，将总和值达到一定条件的代表概念作为候选中心概念。

参照图1至图9，本发明提供了一种面向教育领域资源云存储的语义预取方法及系统。

教育资源云存储系统的整体架构如下图1所示。从图1可以看出系统主要是由用户接口模块、请求控制模块、缓存管理模块、云存储模块、副本管理模块与预取模块六大功能模块组成，其中缓存管理模块、副本管理模块，还有本发明重点提出技术解决方案的预取模块是系统的增效模块。

各个模块说明如下：

用户接口模块：主要用于接收用户的请求，将请求交付到后台处理，并根据后台系统的返回数据响应用户的请求。

请求控制模块：对用户的请求进行处理，使得系统能够在优先满足用户的请求之余，触发系统的优化增效模块，进一步调整系统的状态，以提高系统工作效率与降低负载。

云存储模块：由一个名称节点(NameNode)与多个数据节点(DataNode)组成，本发明采用Hadoop平台的HDFS基本架构。名称节点主要对存储资源的元数据进行管理，满足系统的查询，数据节点主要提供了资源的云存储空间与节点之间的数据通信。

缓存管理模块：主要由缓存数据与缓存管理组成，缓存数据是访问热度比较高的教育资源元数据，缓存管理则是对缓存数据进行更新，以最大限度降低云存储模块中名称节点的压力与提高元数据查询效率。

副本管理模块：该模块基于教育资源用户访问的聚集性特征，根据系统的负载情况与资源的访问热度对资源的副本进行优化调度，包括副本放置策略、副本生成策略与副本替换策略；而在本发明中该模块将实现完整的预取资源副本调度方案，使得预取的资源副本能够实现最大化的利用率，具体将在下文介绍。

预取模块：该模块基于教育资源用户访问的主题性特征，接收请求控制模块传递过来的请求，计算该请求和其相关请求的访问热度以及系统相对承载力，综合请求文件的访问热度和系统相对承载力判断是否执行预取操作，如果达到预取条件则触发预取推理，通过在日志文件、本体和语义标注的资源的基础上推理得到预取对象，并将预取对象序列传递到副本管理模块，否则返回不预取信号。

一种面向教育领域资源云存储的语义预取方法，包括如下步骤：

步骤一：基于教育领域本体的用户请求概念获取

本发明提出了教育资源云存储预取技术是基于教育资源用户访问的主题性特征，而考察主题性特征需要一个领域本体库的支撑，为此本发明借助于HowNet，以其为语义知识库。HowNet本身是一个能够描述概念之间的关系与概念属性之间关系的知识系统，将知识通过网状结构进行表示，目前已有不少研究将其映射为OWL格式的本体，以解决本体建构困难的问题。考虑到对本体的建构不是本发明的重点与原创，其具体方法可参考文献“基于HowNet的语义检索模型的设计与实现”，本文不在此赘述，只借用其方法建构教育领域的本体库，并支撑本发明提出的语义预取技术。

为了确定教育用户访问的主题性特征，以便进行有效预取，系统需要对用户的请求进行分析，并最终得到用户请求的相关概念，以此来分析主题性特征。具体的概念提取方法参照图2所示：

系统首先会对用户请求数据资源中的标注进行关键字抽取，由于每个会话(即一个用户请求，把第i个会话记作si)可能涉及多个主题，系统将从每个会话中确定3个关键词，不足填充为null。而且同一个会话中抽取的关键词必须具有一定区分度，以保证有效性与降低计算量。利用相应的匹配算法将关键词与本体库中的概念进行逐一匹配，实现关键词到本体概念的映射，得到相应的概念集合。假定教育资源云存储系统在某区域的一时间段Δt内获取到m个用户请求会话，根据由HowNet构建的教育资源本体库，请求数据中抽取的关键词在教育资源本体库中完成映射后，将得到一个概念集合：

C_m,Δt＝{c_1,1,c_1,2,c_1,3,....,c_i,1,c_i,2,c_i,3,...,c_m,1,c_m,2,c_m,3}, (1)

其中c_m,k(1≤i≤m,1≤j≤3,i,j∈￥)表示第i个会话中映射的第j个概念。

在获取用户数据请求资源映射的概念集合C_m,Δt后，先对其进行主题相关性判断，具有一定的主题相关性后再进行主题挖掘流程，减少不必要计算。为书写简便性与叙述准确性，本发明中标识符的上标表示标签信息，具有全局性一般不作变化，下标表示集合元素的索引具有局部性，特别地c_j表示某种概念集合的元素，仅具有局部性，不具备全局性，同时本文用函数_Size(？)表示求某集合元素的个数。

步骤二：概念集合主题相关性判断

为确定概念集合C_m,Δt中是否具有主题性特征，随机从中抽取m'个概念(m'≤m)进行抽样分析，并记抽取概念的集合为

这里用符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式，由此可以得出抽样集合中每个概念相互之间的相似度，并形成相似度矩阵，其如式(2)所示：

根据HowNet相似的计算公式定义可知Sim(c_i,c_i)＝1.000,Sim(c_i,c_j)＝Sim(c_j,c_i),其中c_i,c_j∈C^sa。则可以求出集合C^sa的平均概念相似度，其定义如式(3)所示：

设定平均概念相似度阈值ε₁,该值可以根据历史记录简单分析得到，若

则集合

中的概念具有一定的主题相关性。为了进一步确定该时间段Δt内的概念具有主题相关性，将对集合C_m,Δt进行再次抽样计算，若连续3次中有2次或3次抽样计算结果大于阀值ε₁,则认为该时间段Δt内集合C_m,Δt中概念具有一定的主题相关性，可进入下一步主题挖掘，若只有1次或0次抽样计算结果大于阀值ε₁，则认为该时间段Δt内集合C_m,Δt中概念无主题相关性，系统继续监控下一时间段的用户资源请求。

步骤三：候选中心概念的选择

在HowNet中，中心概念是指在一个概念集合中的关键概念，其与集合中一定考查数量的概念均具有较高的相似度，能够表征某段时间内用户访问的主题。但在确定中心概念前需要进行必要的概念选择与合并等操作，为此，本发明定义了候选概念中心的概念，通过选出候选中心概念再确定中心概念。

在本发明中把其记作c_i ^ca，表示第i个会话的代表概念成为候选中心概念，把考察时间段Δt内的候选中心概念集合记为

基于以上定义，本发明提出的确定候选中心概念方法如下：

当考察会话s_i与其他会话在时间段Δt内的主题相关性时，s_i中的每个概念c_i,1,c_i,2,c_i,3(当概念为null不操作)将逐一比较其他每个会话中的概念，并且找出其中相似度最大的加入到以s_i中的概念为中心的序列中(这里中心含义是指HowNet中的概念中心)，得到S_i,1,S_i,2,S_i,3(当c_i,j＝null时，S_i,j＝null,j＝1,2,3)。最后以S_i,1,S_i,2,S_i,3中概念相似度总和最大作为S_i ^re，其对应的概念为会话s_i的代表概念c_i ^re，S_i,j的相似度总和的计算方式如式(4)所示：

则

的相似度总和如式(5)所示：

经过式(4)、(5)的计算，可以得到会话s_i中相应的代表概念c_i ^re，还有与c_i ^re相对应的主题相关性概念序列

可相应求出其他会话的代表概念以及相应的主题相关概念序列。具体实现流程参照图3所示；

得到代表概念集合

以c_i ^re为概念语义中心，删除

中与之概念相似度小于阈值ε₂(根据历史记录分析得到)的概念

在序列

的剩余概念中找出相似度为1的概念进行合并，假设

则保留

删除

(该操作随机选取)，并w_i,x＝w_i,x+w_i,y；

经过删除与合并后，假设序列

并计算该序列概念的平均相似度，其定义如式(7)所示：

再计算该序列的标准差，其定义如式所示：

设定阀值ε₃与ε₄(ε₃应根据该时间段内用户请求会话的个数m成正比，ε₄根据系统主题关系强弱稳定性要求设定来设定)，保留

且

及相应主题相关序列，得到候选中心概念集合

步骤四：中心概念的确定

候选中心概念集

得到后，接下来将从中确定中心概念集合，得到中心概念后，系统将通过中心概念进行语义推理，最后得到相应的预取文件。基于上述得到候选中心概念集合，本发明提出中心概念的确定方法如下：

候选中心概念集合

中如果判断出几个概念元素的相似度很高，仅需合并为一个概念予以表征即可，该过程称之为候选中心概念的归并。假设c_i ^ca为候选中心概念，在候选中心概念集合

中与c_i ^ca相似度大于ε₅(可根据系统监控会话的数量动态调整)的概念加入带合并集合并记为C_i ^ca。然后对集合c_i ^ca∪C_i ^ca进行概念合并。首先确定带合并候选概念集合c_i ^ca∪C_i ^ca的合并中心，即中心概念c_i ^c，其可以用概念中心度来得到。假设h＝Size(c_i ^ca∪C_i ^ca),c_i在C_i ^ca中概念中心度定义如式(9)所示(c_i∈c_i ^ca∪C_i ^ca)：

则

可以由式(10)得到：

后，把C_i ^ca中候选概念对应的主题相关序列合并到

对应主题相关序列，得到中心概念

最终对应的主题相关序列。在合并的过程中，集合中其他候选中心概念对应主题相关序列中的概念

应该重新计算其与中心概念

的相似度，计算方式如下式(11)所示：

具体候选中心概念集合主题序列归并流程参照图4所示。

至此，中心概念集合C^c的确定与对应主题相关概念序列的获取到此完成，下步就可以基于中心概念进行相关预取工作的展开。中心概念确定的大概流程总结参照图5所示：

步骤五：预取对象的确定

根据中心概念集合C^C系统进一步确定预取对象，确定预取对象之前分析需要预取的数据节点，与预取数据的数量。系统结合C^C从空间的维度分析时间段ΔT内的用户请求。首先根据系统服务区域划分规则将请求客户端划分为g个区域A＝{a_i'|1≤i'≤g}。假设根据本发明提出的技术方案得到某个时间段区域a_i'中心概念为

则在该时间段ΔT内区域a_i'关于概念

的主题相关性程度为：

有

若t＝T，即当前时间段，则有

β_t为时间衰减系数，0≤β_t≤1，越接近当前时刻的时间段衰减系数值越大，说明时间距离当前时刻越远参考性越低。

系统根据概念关系模式进行概念语义推理，推理规则包括一下两条：

规则1:SubClassOf(c_x,c_y),SubClassOf(c_y,c_z)→hasGrandFather(c_x,c_z)

规则2：SubClassOf(c_x,c_z),SubClassOf(c_y,c_z)→hasSibling(c_x,c_y)、SubClassOf(c_x,c_k),SubClassOf(c_y,c_z),hasSibling(c_k,c_z)→hasCousin(c_x,c_y)

概念关系模式对预取对象的推理也具有重要意义，能有效提高推理的效率与预取命中率。概念关系模式是指概念在本体中的关系，本发明主要重点关注上位模式、下位模式、左右模式与混合模式。上位模式是指相似概念是其中心概念的上位节点；下位模式是指相似概念是其中心概念的下位节点；左右模式是指中心概念跟其相似概念之间是兄弟关系；混合模式则说明中心概念与其相似概念之间包括上位模式、下位模式、左右模式中的两种或两种以上。概念关系模式可以根据由HowNet转换的本体中概念关系进行判断，其将决定在预取对象确定中推理规则的设定。由于考虑系统的效率问题，本发明在语义推理过程中重点考虑与中心概念有直接关系的概念，即中心概念的父节点、子节点或兄弟节点，确保语义的轻量级推理。具体推理方法如下：

若

中存在概念与

之间是直接关系的概念，则首先根据其与

若S_i中存在与

之间是非直接关系的概念，则与方法I中的推理同理，按规则1、规则2推出相应的同层概念，由于非直接关系的概念数量较多，为此根据S_i中该层非直接关系概念的比例选取一定数量推理得到的概念，且与

之间相似度越大则优先选取。

推理得到的概念存在预取顺序的排序问题，且一个时间段Δt内可能存在多个主题，则有多个中心概念，不同中心概念推理得到的相关概念之间也需要考虑排序问题。本发明提出的预取概念的顺序方法一方面考虑概念的主题相关度，另一方面还有概念所对应的主题在该时间段内的强度。具体方法如下：

首先以中心概念为语义中心，给每一层编号，其中中心概念的同层概念，即兄弟节点编为第0层，往上位开始编为第1层(父节点)、第2层(父节点的父节点)，以此类推；往下位开始编为第-1层(子节点)、第-2层(子节点的子节点)，以此类推。

假设序列S_i中概念为中心概念

的上位概念最顶一层为第l层，为中心概念c_x下位概念最低层为第l'层。求出具有中心概念对应序列中的概念的每一层中这些概念与中心概念的相似度总和记为

(表示第f层中序列中的概念与中心概念相似度的总和，若某一层无序列中的概念，则总和为0，根据式(13)求出每一层的预取概念c_v,j(包括序列S_i中概念与推理得到的概念，c_v,j表示该概念在中心概念的第v层的第j个)的预测主题相关度：

系统将找出推理得到的概念中的相同概念进行合并，且

进行叠加(由于不同中心概念之间符合一定主题，而主题之间按照本发明提出的方案应该具有一定区分度，为此出现相同概念的机率会比较小)。合并后按预取概念的

进行排序，形成预取概念序列S^c。

根据该序列S^c中的概念映射相对应的教育资源，剔除其中目标存储节点中已存在的资源文件，形成预取资源序列S^S，资源顺序先按S^c中概念的顺序进行排列，若出现一个概念对应多个资源文件，则按资源的大小由小到大排列。其流程总结如参照图6所示。

步骤六：预取存储目标节点确定

在预取数据之前，考虑文件的访问热度的同时，应当考虑系统当前的负载，如系统当前带宽、CPU、I/O负载等。而相对系统承载能力是指节点i与j节点之间的空闲负载能力，是带宽、CPU使用率与I/O使用率相对和，是确定预取存储目标节点的重要指标，其计算方式如下：

其中

为i节点与j节点的当前带宽与理论带宽的比例；λ_BW为带宽权重，P_j ^CPU为j节点的当前CPU使用率，λ_CPU为CPU负载权重；

为j节点的当前I/O使用率；λ_I/O为I/O所占权重；Load(i,j)＝Load(j,i)。

节点b_i至d_i之间的负载表示可以为Load(b_i,d_j)，节点b_i至用户区域a_i'之间的负载为节点b_i到用户区域a_i'中所有请求用户节点平均负载，记作Load(b_i,a_i')。本系统中文件的副本数默认为3,即p＝3。计算当前的负载情况的计算方式如下公式(15)：

其中×代表节点与节点之间的连接负载运算。

请求区域与待存储节点之间的负载为：

Load(a_i',d_j)|b_i＝Load(a_i',b_i)+Load(b_i,d_j) (17)

其中b_i是可能的目标存储节点

可以根据式(18)求出目标存储节点

步骤七：预取窗口的大小

其中Size(S^S)表示序列S^S中数据的总大小；c_x为该时间段t的中心概念(共有n个中心概念)；α、γ分别是中心概念的相关概念请求热度和系统空闲负载能力对预取数据量影响所占的权重系数，且有α+γ≤1。根据公式(13)可以控制系统语义预取的窗口大小，其中z是序列S^S中应进行预取的对象的总大小，系统从序列S^S按顺序获取预取对象时，当文件总大小将超过z时，系统停止预取。

步骤八：主题相关性的保持、转换、消失与停止预取

根据本发明以上分析，每个考察的时间段内系统将确定若干个中心概念，且该中心概念即为该时间段教育资源用户访问主题性的表征。确定的中心概念都可能发生变化，其中最典型的包括主题相关性的保持、转换与消失，根据不同的变化系统将执行不同的预取动作。

主题相关性的保持是指某一时间段内得到的主题相关性在先前的时间段出现过。如果出现主题相关性的保持，并发生过预取，则系统应该在概念推理的过程中，根据系统的工作负载适当增加对非直接关系概念。

主题相关性的转换是指两个时间段之间的主题具有一定的相似度，但出现了不同的中心概念。若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度大于ε₅且小于1，则说明两个时间段内中心概念出现了转换，此时系统应该根据第Δt个时间段确定的预取资源顺序进行预取(在确定预取顺序时已经考虑了过去时间段的影响)。

主题相关性消失是指在前面时间段出现的主题在接下来的时间段里不复出现，中心概念之间的相似度也很低。若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度不明显，则需要与第t-2个时间段Δ(t-2)的中心概念比较，若依然不明显，则说明过去的主题相关性已经可能不明显了，系统将优先处理当前时间段确定的预取资源，在有空闲的情况下再预取过去确定预取的资源，若第t+1个时间段Δ(t+1)依然不明显，则停止先前的预取，并在目标节点空间不足的情况下，可根据需要从该节点上移除部分预取资源；若第t+1个时间段Δ(t+1)恢复了先前第t-1个时间段Δ(t-1)的主题，则按第t+1个时间段Δ(t+1)的序列优先预取，再恢复先前的预取。主题生命周期与预取控制。

以上对本发明实施例所公开的技术方案进行了详细介绍，本文中应用了具体实施例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时，对于本领域的一般技术人员，依据本发明实施例，在具体实施方式以及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向教育领域资源云存储的语义预取方法，其特征在于，包括如下步骤：

符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式，由此得出抽样集合中每个概念相互之间的相似度，并形成相似度矩阵，其如式(2)所示：

根据HowNet相似的计算公式定义可知Sim(c_i,c_i)＝1.000，Sim(c_i,c_j)＝Sim(c_j,c_i)，其中c_i,c_j∈C^sa，则求出集合C^sa的平均概念相似度，其定义如式(3)所示：

设定平均概念相似度阈值ε₁，该值根据历史记录简单分析得到，若

则集合

中的概念具有一定的主题相关性；

步骤三，候选中心概念的选取：具体包括如下的步骤：

当考察会话s_i与其他会话在时间段Δt内的主题相关性时，s_i中的每个概念c_i,1,c_i,2,c_i,3将逐一比较其他每个会话中的概念，并且找出其中相似度最大的加入到以s_i中的概念为中心的序列中，得到S_i,1,S_i,2,S_i,3，当c_i,j＝null时，S_i,j＝null，j＝1,2,3，以S_i,1,S_i,2,S_i,3中概念相似度总和最大作为

其对应的概念为会话s_i的代表概念c_i ^re，S_i,j的相似度总和的计算方式如式(4)所示：

则

的相似度总和如式(5)所示：

Sim(S_i ^re)＝max({Sim(S_i,1),Sim(S_i,2),Sim(S_i,3)})； (5)

经过式(4)，(5)的计算，得到会话s_i中相应的代表概念c_i ^re，还有与c_i ^re相对应的主题相关性概念序列

相应求出其他会话的代表概念以及相应的主题相关概念序列；

得到代表概念集合

A1:以c_i ^re为概念语义中心，删除

中与之概念相似度小于阈值ε₂的概念

A2:在序列

的剩余概念中找出相似度为1的概念进行合并，假设

则保留

删除

并w_i,x＝w_i,x+w_i,y；

A3:经过删除与合并后，假设序列

并计算该序列概念的平均相似度，其定义如式(7)所示：

再计算该序列的标准差，其定义如式(8)所示：

A4:设定阈值ε₃与ε₄，ε₃应根据该时间段内用户请求会话的个数m成正比，ε₄根据系统主题关系强弱稳定性要求设定来设定，保留

且

及相应主题相关序列，得到候选中心概念集合

步骤四，中心概念的确定：其具体的方法如下：

在候选中心概念集合

中与c_i ^ca相似度大于ε₅的概念加入带合并集合并记为C_i ^ca，然后对集合c_i ^ca∪C_i ^ca进行概念合并，首先确定带合并候选概念集合c_i ^ca∪C_i ^ca的合并中心，即中心概念

其用概念中心度来得到,假设h＝Size(c_i ^ca∪C_i ^ca)，c_i在C_i ^ca中概念中心度定义如式(9)所示(c_i∈c_i ^ca∪C_i ^ca)：

则

由式(10)得到：

合并候选概念集合C_i ^ca中概念对应主题相关序列,得到中心概念

后，把C_i ^ca中候选概念对应的主题相关序列合并到

对应主题相关序列，得到中心概念

应该重新计算其与中心概念

的相似度，计算方式如下式(11)所示：

步骤五，预取对象的确定：

根据中心概念集合C^C系统进一步确定预取对象，确定预取对象之前分析需要预取的数据节点，与预取数据的数量，系统结合C^C从空间的维度分析时间段ΔT内的用户请求，首先根据系统服务区域划分规则将请求客户端划分为g个区域A＝{a_i'|1≤i'≤g}，根据某个时间段区域a_i'中心概念为

则在该时间段ΔT内区域a_i'关于概念

的主题相关性程度为：

有

若t＝T，即当前时间段，则有

β_t为时间衰减系数，0≤β_t≤1，越接近当前时刻的时间段衰减系数值越大，说明时间距离当前时刻越远参考性越低，系统根据概念关系模式进行概念语义推理，推理规则包括以下两条：

具体推理方法如下：

若

中存在概念与

之间是直接关系的概念，则首先根据其与

若S_i中存在与

之间是非直接关系的概念，按规则1、规则2推出相应的同层概念，由于非直接关系的概念数量较多，为此，根据S_i中该层非直接关系概念的比例选取一定数量推理得到的概念，且与

之间相似度越大则优先选取；

假设序列S_i中概念为中心概念

系统将找出推理得到的概念中的相同概念进行合并，且

进行叠加，合并后按预取概念的

进行排序，形成预取概念序列S^c；

步骤六，预取存储目标节点确定:具体如下:

其中

为i节点与j节点的当前带宽与理论带宽的比例；λ_BW为带宽权重，

为j节点的当前CPU使用率，λ_CPU为CPU负载权重；

为j节点的当前I/O使用率；λ_I/O为I/O所占权重；Load(i,j)＝Load(j,i)，

若某一用户区域A的请求具有主题相关性，则通过探测分析用户区域A与系统各个数据节点之间的网络带宽，高于一定阈值的数据节点被加入到候选目标节点集CNS＝{b_i|1≤i≤p，i、p∈N}，系统中存储源数据的节点集合为SNS＝{d_i|1≤j≤q，j、q∈N}，

节点b_i至d_i之间的负载表示为Load(b_i,d_j)，节点b_i至用户区域a_i'之间的负载为节点b_i到用户区域a_i'中所有请求用户节点平均负载，记作Load(b_i,a_i')，本系统中文件的副本数默认为3，即p＝3，计算当前的负载情况的计算方式如公式(15)；

其中×代表节点与节点之间的连接负载运算，

请求区域与待存储节点之间的负载为：

由于考虑预取负载和实际请求负载，因此总负载Load(a_i',d_j)则为前两者之和，即对于任意源节点d_j与请求区域a_i'之间的负载，Load(a_i',d_j)表示为式(17)：

Load(a_i',d_j)|b_i＝Load(a_i',b_i)+Load(b_i,d_j)， (17)

其中b_i是目标存储节点

根据式(18)求出目标存储节点

步骤七，预取窗口的大小，具体为：

预取对象确定后，并不是序列S^S中所有的数据都进行预取，而需要结合资源请求的主题相关性程度与系统的整体负载情况来决定预取的数据量,结合式(12)与式(17)得到预取数据量的计算方式，如式(19)所示：

其中Size(S^S)表示序列S^S中数据的总大小；c_x为该时间段t的中心概念；α、γ分别是中心概念的相关概念请求热度和系统空闲负载能力对预取数据量影响所占的权重系数，且有α+γ≤1，根据公式(12)控制系统语义预取的窗口大小，其中z是序列S^S中应进行预取的对象的总大小，系统从序列S^S按顺序获取预取对象时，当文件总大小将超过z时，系统停止预取；

步骤八，主题相关性的保持、转换、消失与停止预取。

2.根据权利要求1所述的面向教育领域资源云存储的语义预取方法，其特征在于，所述匹配算法为：

C_m,Δt＝{c_1,1,c_1,2,c_1,3,....,c_i,1,c_i,2,c_i,3,...,c_m,1,c_m,2,c_m,3}，

其中C_m，k＝{1≤i≤m，1≤j≤3，i,j∈N}表示第i个会话中映射的第j个概念，

在获取用户数据请求资源映射的概念集合C_m,Δt后，先对其进行主题相关性判断，特别地c_j表示某种概念集合的元素，仅具有局部性，不具备全局性，同时本文用函数Size()表示求某集合元素的个数。

3.根据权利要求1所述的面向教育领域资源云存储的语义预取方法，其特征在于，在步骤二中，为了进一步确定该时间段Δt内的概念具有主题相关性，将对集合C_m,Δt进行再次抽样计算，若连续3次中有2次或3次抽样计算结果大于阈值ε₁，则认为该时间段Δt内集合C_m,Δt中概念具有一定的主题相关性，进入下一步主题挖掘，若只有1次或0次抽样计算结果大于阈值ε₁，则认为该时间段Δt内集合C_m,Δt中概念无主题相关性，系统继续监控下一时间段的用户资源请求。

4.根据权利要求1所述的面向教育领域资源云存储的语义预取方法，其特征在于，在步骤八中，

主题相关性的保持是指某一时间段内得到的主题相关性在先前的时间段出现过，如果出现主题相关性的保持，并发生过预取，则系统应该在概念推理的过程中，根据系统的工作负载适当增加对非直接关系概念；

主题相关性的转换是指两个时间段之间的主题具有一定的相似度，但出现了不同的中心概念，若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度大于ε₅且小于1，则说明两个时间段内中心概念出现了转换，此时系统应该根据第Δt个时间段确定的预取资源顺序进行预取；

主题相关性消失是指在前面时间段出现的主题在接下来的时间段里不复出现，中心概念之间的相似度也很低,若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度不明显，则需要与第t-2个时间段Δ(t-2)的中心概念比较，若依然不明显，则说明过去的主题相关性已经不明显了，系统将优先处理当前时间段确定的预取资源，在有空闲的情况下再预取过去确定预取的资源，若第t+1个时间段Δ(t+1)依然不明显，则停止先前的预取，并在目标节点空间不足的情况下，根据需要从该节点上移除部分预取资源；若第t+1个时间段Δ(t+1)恢复了先前第t-1个时间段Δ(t-1)的主题，则按第t+1个时间段Δ(t+1)的序列优先预取，再恢复先前的预取。