CN109471971A - 一种面向教育领域资源云存储的语义预取系统及方法 - Google Patents
一种面向教育领域资源云存储的语义预取系统及方法 Download PDFInfo
- Publication number
- CN109471971A CN109471971A CN201810117814.1A CN201810117814A CN109471971A CN 109471971 A CN109471971 A CN 109471971A CN 201810117814 A CN201810117814 A CN 201810117814A CN 109471971 A CN109471971 A CN 109471971A
- Authority
- CN
- China
- Prior art keywords
- concept
- node
- sequence
- period
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种面向教育领域资源云存储的语义预取系统及方法,其中所述系统包括用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块;所述方法包括如下步骤:用户请求概念获取、概念集合主题相关性判断、候选中心概念的选择、中心概念的确定、预取对象的确定、预取存储目标节点确定、预取窗口的大小以及主题相关性的保持、转换、消失与停止预取。本发明针对教育领域云存储方法的不足,结合教育资源的特征,形成特定的教育云存储系统。
Description
技术领域
本发明属于教育领域资源云存储的语义预技术,具体涉及面向教育领域 资源云存储的语义预取系统及方法。
背景技术
近年来,云计算得到了快速的发展,而作为云计算的重要组成部分,云 存储也成为当前的热门研究课题之一。目前对于云存储的研究主要集中在数 据存储,以及提升存储性能方面,而较少关注在存储对象限于领域情况下的 存储增效研究。按照一般规律,存储增效研究主要需要解决对资源请求的网 络延迟和网络服务质量问题,目前方案有缓存和预取。对以教育领域资源而 言,我们发现存在有访问对象主题性和行为聚集性等特征,它们将成为我们 研究教育领域资源云存储增效技术的基础。访问的聚集性原理体现为时间与 空间的聚集性,其中时间聚集性是指距离上次访问时间越近的对象或者资源, 越有可能再次被访问;而空间聚集性是指存储对象相对集中服务于一定空间 地理位置的访问行为。聚集性原理在计算机结构、缓存、基于WEB的企业 系统、环境感知的软件等各个领域都有广泛的应用。
目前一些现有的预取技术通常采用的方法为:
1.一种基于云存储的高效资源动态调度方法
·申请日:2012.11.07
·申请号:201210440341.1
·申请人地址:250014山东省济南市高新区舜雅路1036号
·发明人:黄臣李瑞东
2.一种网络资源预取并缓存加速的方法及其装置
·申请日:2011.12.05
·申请号:201110399507.5
·申请人地址:100190北京市海淀区中关村东路66号长城大厦3层
·发明人:李继明杨东晓
3.一种教育资源语义标注方法
·申请日:2014.10.23
·申请号:201410571072.1
·申请人地址:230601安徽省合肥市蜀山区黄山路599号时代数码 港
·发明人:吴雷阮怀伟虞勇勇昌磊
发明1设计了一种基于云存储的高效资源动态调度方法。该发明基于 云存储的高效资源动态调度方法,涉及到云存储技术领域,其技术内容由云 存储资源控制节点、云存储资源调度节点、云存储资源监控节点和各类存储 节点组成,云存储控制节点根据传入的数据获取数据索引和更新数据索引, 然后云存储调度节点根据索引值高低选择存储节点。
发明2提供了用户网络访问行为进行资源预取的方法与装置。该发明 根据用户的网络访问行为记录用户的网络访问信息;从访问信息中提取不同 时间段的用户网络访问行为特征;从满足时间特征的所有网络访问行为特征 中获得用户网络访问行为的规律,从而提前预知用户下一个相同时间特征的 网络访问行为;根据用户下一个相同时间特征的网络行为,在下一个相同时 间特征前预先下载用户的网络资源并加载到缓存中。
发明3对教育资源进行语义标注,使用户能够更加精准的搜索到所需 资源。该发明公开了一种教育资源语义标注方法,对于不同学习资源,进行 资源信息抽取构建学习资源库,然后通过映射方式完成学习资源库与标签库 中的标签进行映射,并抽取对应的标注信息存储于标注信息库中,从而实现 学习资源的多标签标注,使用户可以更加准确地搜索到所需资源。
以上三个专利发明都是针对资源(包括教育资源)检索与传输的发明 创造,发明1是针对云存储系统的资源调度,发明2是针对用户网络访问的 行为信息进行资源预取,发明3是对教育资源进行语义标注以提高信息检索 时的准确度。
目前云存储系统的研究范围多为通用领域,而缺乏某一特定领域的云存 储系统。随着教育信息化的不断发展,教育资源数量逐渐增多,容量越来越 大,因此对于存储对象限于教育领域情况下云存储系统的存储增效就成为一 个亟待解决的问题。
虽然以上三种发明在一定程度上提出了教育领域云存储的方案,但是 主要存在以下不足:
1.现有的数据预取技术主要面向通用领域,依靠用户行为数据与简单 的资源类别来预取资源,而这些数据能说明的信息量是很有限的,系统在预 判资源的中心概念时易出现偏差,影响用户所需教育资源的预取,使用户在 有学习需求时找不到或获取到不相关的资源,不利于学习行为的开展。
2.除了资源的准确性外,针对通用的云存储系统方案的节点确定不够 明确,特别是教育资源具有访问对象主题性和行为聚集性等特征,简单的确 定资源的调度节点是远远不足的,需要进一步的确定目标节点,以满足用户 的学习需求。
3.对于教育资源而言,采用语义标记检索的技术后,需要检索的信息 量增大,如不采取一定的措施,所用的时间是要远大于传统检索方式的,在 遇到一些时效性较强的资源时会在资源的检索与传递上花费大量的时间而错 过时机;此外,在选定中心概念时,仅通过关联值而不考虑资源的特定范围 与时效性同样会影响资源的有效性。
发明内容
有鉴于此,本发明的主要目的是提供一种面向教育领域资源云存储的语 义预取系统及方法。
本发明采用的技术方案是:
一种面向教育领域资源云存储的语义预取系统,包括
用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理 模块以及预取模块;
所述用户接口模块用于接收用户的请求,将请求交付到后台处理,并根 据后台系统的返回数据响应用户的请求;
所述请求控制模块对用户的请求进行处理;
所述云存储模块对存储资源的元数据进行管理;
所述缓存管理模块由缓存数据与缓存管理组成,缓存数据是访问热度比 较高的教育资源元数据,缓存管理则是对缓存数据进行实时更新,以最大限 度降低云存储模块中名称节点的压力与提高元数据查询效率;
所述副本管理模块基于教育资源用户访问的聚集性特征,根据系统的负 载情况与资源的访问热度对资源的副本进行优化调度;
所述预取模块基于教育资源用户访问的主题性特征,接收请求控制模块 传递过来的请求,计算该请求和其相关请求的访问热度以及系统相对承载力, 综合请求文件的访问热度和系统相对承载力判断是否执行预取操作。
所述请求控制模块还触发优化增效模块。
所述云存储模块包括一个名称节点与多个数据节点组成,本发明所述名 称节点主要满足系统的查询,所述数据节点主要提供了资源的云存储空间与 节点之间的数据通信。
所述副本管理模块包括副本放置策略、副本生成策略与副本替换策略。
所述执行预取操作的方法为:如果达到预取条件则触发预取推理,通过 在日志文件、本体和语义标注的资源的基础上推理得到预取对象,并将预取 对象序列传递到副本管理模块,否则返回不预取信号。
本发明还提供了一种面向教育领域资源云存储的语义预取方法,包括如 下步骤:
步骤一,用户请求概念获取:系统首先会对用户请求数据资源中的标注 进行关键字抽取,利用相应的匹配算法将关键词与本体库中的概念进行逐一 匹配,实现关键词到本体概念的映射,得到相应的概念集合;
步骤二,判断概念集合主题相关性:具体方法为,随机从中抽取m'个概 念(m'≤m)进行抽样分析,并记抽取概念的集合为符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式,由此可以 得出抽样集合中每个概念相互之间的相似度,并形成相似度矩阵,其如式(2) 所示:
根据HowNet相似的计算公式定义可知Sim(ci,ci)=1.000,Sim(ci,cj)=Sim(cj,ci), 其中ci,cj∈Csa,则可以求出集合Csa的平均概念相似度,其定义如式(2)所示:
设定平均概念相似度阈值ε1,该值可以根据历史记录简单分析得到,若则集合中的概念具有一定的主题相关性;
步骤三,候选中心概念的选取:具体包括如下的步骤:
A:当考察会话si与其他会话在时间段Δt内的主题相关性时,si中的每个概 念ci,1,ci,2,ci,3将逐一比较其他每个会话中的概念,并且找出其中相似度最大的 加入到以si中的概念为中心的序列中,得到Si,1,Si,2,Si,3,当ci,j=null时, Si,j=null,j=1,2,3,以Si,1,Si,2,Si,3中概念相似度总和最大作为其对应的概 念为会话si的代表概念Si,j的相似度总和的计算方式如式(4)所示:
则的相似度总和如式(5)所示:
经过式(4),(5)的计算,可以得到会话si中相应的代表概念还有 与相对应的主题相关性概念序列可相应求出其他会话的代 表概念以及相应的主题相关概念序列;
得到代表概念集合后,系统将进一步分析从中产生候选中心概念, 具体流程如下:
A:以为概念语义中心,删除中与之概念相似度小于阈值ε2的概念 若删除后序列中只剩下本身,则说明该序列的主题相关性不明显,直 接删除该代表概念与
B:在序列的剩余概念中找出相似度为1的概念进行合并,假设 则保留删除并wi,x=wi,x+wi,y;
C:经过删除与合并后,假设序列剩余概念个数为r,根据式(6)计算 出的序列概念相似度总和:
并计算该序列概念的平均相似度,其定义如式(7)所示:
再计算该序列的标准差,其定义如式所示:
D:设定阀值ε3与ε4,ε3应根据该时间段内用户请求会话的个数m成正比, ε4根据系统主题关系强弱稳定性要求设定来设定,保留且的代表概念作为候选中心概念,否则进入下一个代表概念的判定,遍历完 代表概念集合及相应主题相关序列,得到候选中心概念集合
步骤四,中心概念的确定:其具体的方法如下:
A:在候选中心概念集合中,如果判断出几个概念元素的相似度很高,仅 需合并为一个概念予以表征即可,该过程称之为候选中心概念的归并,假设ci ca为 候选中心概念,在候选中心概念集合中与ci ca相似度大于ε5的概念加入带合并 集合并记为Ci ca,然后对集合ci ca∪Ci ca进行概念合并,首先确定带合并候选概念集 合ci ca∪Ci ca的合并中心,即中心概念其可以用概念中心度来得到。假设 h=Size(ci ca∪Ci ca),ci在Ci ca中概念中心度定义如式(9)所示(ci∈ci ca∪Ci ca):
则可以由式(10)得到:
合并候选概念集合中概念对应主题相关序列。得到中心概念后,把 中候选概念对应的主题相关序列合并到对应主题相关序列,得到中心概 念最终对应的主题相关序列,在合并的过程中,集合中其他候选中心概念 对应主题相关序列中的概念应该重新计算其与中心概念的相似度,计算 方式如下式(11)所示:
至此,中心概念集合Cc的确定与对应主题相关概念序列的获取到此完成;
步骤五,预取对象的确定:
根据中心概念集合CC系统进一步确定预取对象,确定预取对象之前分析 需要预取的数据节点,与预取数据的数量,系统结合CC从空间的维度分析时 间段ΔT内的用户请求,首先根据系统服务区域划分规则将请求客户端划分为 g个区域A={ai'|1≤i'≤g},假设根据本发明提出的技术方案得到某个时间段区域 ai'中心概念为则在该时间段ΔT内区域ai'关于概念的主题相关性程度为:
其中n与T距离根据系统性能要求确定;mt为时间段Δt区域ai'内用户访 问请求总次数;cj是该时间段Δt区域ai'内的一个中心概念,其与当前时间段ΔT 考察的中心概念有若t=T,即当前时间段,则有βt为时 间衰减系数,0≤βt≤1,越接近当前时刻的时间段衰减系数值越大,说明时间 距离当前时刻越远参考性越低,系统根据概念关系模式进行概念语义推理, 推理规则包括一下两条:
规则1:SubClassOf(cx,cy),SubClassOf(cy,cz)→hasGrandFather(cx,cz)
规则2:SubClassOf(cx,cz),SubClassOf(cy,cz)→hasSibling(cx,cy)、SubClassOf(cx,ck),SubClassOf (cy,cz),hasSibling(ck,cz)→hasCousin(cx,cy)
具体推理方法如下:
若中存在概念与之间是直接关系的概念,则首先根据其与的关系模式进行推理,若关系模式为上下位模式,则结合本体知识库中定义 的语义关系与规则1进行语义推理,以此推出中心概念其余所有直接关系的 上位或下位概念;若关系模式为左右模式,则通过规则2推出中心概念在本 体知识库中其余所有的同层概念;
若Si中存在与之间是非直接关系的概念,则与方法I中的推理同理,按 规则1、规则2推出相应的同层概念,由于非直接关系的概念数量较多,为 此,根据Si中该层非直接关系概念的比例选取一定数量推理得到的概念,且 与之间相似度越大则优先选取;
假设序列Si中概念为中心概念的上位概念最顶一层为第l层,为中心概 念cx下位概念最低层为第l'层,求出具有中心概念对应序列中的概念的每一层 中这些概念与中心概念的相似度总和记为表示第f层中序列 中的概念与中心概念相似度的总和,若某一层无序列中的概念,则总和为0, 根据式(13)求出每一层的预取概念cv,j,cv,j包括序列Si中概念与推理得到的 概念,cv,j表示该概念在中心概念的第v层的第j个的预测主题相关度:
系统将找出推理得到的概念中的相同概念进行合并,且进行叠 加,合并后按预取概念的进行排序,形成预取概念序列Sc,
根据该序列Sc中的概念映射相对应的教育资源,剔除其中目标存储节点 中已存在的资源文件,形成预取资源序列SS,资源顺序先按Sc中概念的顺序 进行排列,若出现一个概念对应多个资源文件,则按资源的大小由小到大排 列;
步骤六,预取存储目标节点确定:具体如下:
在预取数据之前,确定系统当前带宽、CPU、I/O负载,而相对系统承载 能力是指节点i与j节点之间的空闲负载能力,是带宽、CPU使用率与I/O使 用率相对和,是确定预取存储目标节点的重要指标,其计算方式如下:
其中为i节点与j节点的当前带宽与理论带宽的比例;λBW为带宽权重, 为j节点的当前CPU使用率,λCPU为CPU负载权重;为j节点的当前 I/O使用率;λI/O为I/O所占权重;Load(i,j)=Load(j,i),
若某一用户区域A的请求具有主题相关性,则通过探测分析用户区域A与系 统各个数据节点之间的网络带宽,高于一定阀值的数据节点被加入到候选目标节 点集CNS={bi|1≤i≤p,i,p∈N},系统中存储源数据的节点集合为SNS={dj|1≤j ≤p,j,p∈N},节点bi至di之间的负载表示可以为Load(bi,dj),节点bi至 用户区域ai'之间的负载为节点bi到用户区域ai'中所有请求用户节点平均负载,记 作Load(bi,ai'),本系统中文件的副本数默认为3,即p=3,计算当前的负载情况的 计算方式如下公式(15):
其中×代表节点与节点之间的连接负载运算,
请求区域与待存储节点之间的负载为:
由于考虑预取负载和实际请求负载,因此总负载Load(ai',dj)则为前两者之 和,即对于任意源节点dj与请求区域ai'之间的负载,Load(ai',dj)可表示为式 (17):
Load(ai',dj)|bi=Load(ai',bi)+Load(bi,dj) (17)
其中bi是可能的目标存储节点可以根据式(18)求出目标存储节点
步骤七,预取窗口的大小,具体为:
预取对象确定后,并不是序列SS中所有的数据都进行预取,而需要结合 资源请求的主题相关性程度与系统的整体负载情况来决定预取的数据量。结 合式(12)与式(17)可以得到预取数据量的计算方式,如式(19)所示:
其中Size(SS)表示序列SS中数据的总大小;cx为该时间段t的中心概念;α、 γ分别是中心概念的相关概念请求热度和系统空闲负载能力对预取数据量影 响所占的权重系数,且有α+γ≤1,根据公式(13)可以控制系统语义预取的 窗口大小,其中z是序列SS中应进行预取的对象的总大小,系统从序列SS按顺 序获取预取对象时,当文件总大小将超过z时,系统停止预取;
步骤八,主题相关性的保持、转换、消失与停止预取。
在步骤一中,所述匹配算法为:
假定教育资源云存储系统在某区域的一时间段Δt内获取到m个用户请求 会话,请求数据中抽取的关键词在教育资源本体库中完成映射后,将得到一 个概念集合:
Cm,Δt={c1,1,c1,2,c1,3,....,ci,1,ci,2,ci,3,...,cm,1,cm,2,cm,3}, (1)
其中表示第i个会话中映射的第j个概念,
在获取用户数据请求资源映射的概念集合Cm,Δt后,先对其进行主题相关 性判断,特别地cj表示某种概念集合的元素,仅具有局部性,不具备全局性, 同时本文用函数Size(·)表示求某集合元素的个数。
在步骤二中,为了进一步确定该时间段Δt内的概念具有主题相关性,将 对集合Cm,Δt进行再次抽样计算,若连续3次中有2次或3次抽样计算结果大 于阀值ε1,则认为该时间段Δt内集合Cm,Δt中概念具有一定的主题相关性,可 进入下一步主题挖掘,若只有1次或0次抽样计算结果大于阀值ε1,则认为 该时间段Δt内集合Cm,Δt中概念无主题相关性,系统继续监控下一时间段的用 户资源请求。
在步骤八中,主题相关性的保持是指某一时间段内得到的主题相关性在 先前的时间段出现过,如果出现主题相关性的保持,并发生过预取,则系统 应该在概念推理的过程中,根据系统的工作负载适当增加对非直接关系概念。
主题相关性的转换是指两个时间段之间的主题具有一定的相似度,但出 现了不同的中心概念,若第t个时间段Δt确定的中心概念与第t-1个时间段 Δ(t-1)的中心概念之间的相似度大于ε5且小于1,则说明两个时间段内中心概 念出现了转换,此时系统应该根据第Δt个时间段确定的预取资源顺序进行预 取。
主题相关性消失是指在前面时间段出现的主题在接下来的时间段里不复 出现,中心概念之间的相似度也很低。若第t个时间段Δt确定的中心概念与第 t-1个时间段Δ(t-1)的中心概念之间的相似度不明显,则需要与第t-2个时间段 Δ(t-2)的中心概念比较,若依然不明显,则说明过去的主题相关性已经可能不 明显了,系统将优先处理当前时间段确定的预取资源,在有空闲的情况下再 预取过去确定预取的资源,若第t+1个时间段Δ(t+1)依然不明显,则停止先前 的预取,并在目标节点空间不足的情况下,可根据需要从该节点上移除部分 预取资源;若第t+1个时间段Δ(t+1)恢复了先前第t-1个时间段Δ(t-1)的主题,则 按第t+1个时间段Δ(t+1)的序列优先预取,再恢复先前的预取。
本发明针对教育领域云存储方法的不足,结合教育资源的特征,形成特 定的教育云存储系统,并在该系统中加入资源预取模块,基于语义web技术 结合相应的算法预先推断用户所需的中心概念,并利用这些中心概念获取用 户需要的预取对象,在适宜的时间、适宜的情境下在用户的邻近节点上建立 对应的资源数据副本,降低用户或者群组的访问延迟,既保障了资源需求的 准确性,亦能够提高语义标注后教育云存储系统的应用性能。
附图说明
图1为本发明的系统框架原理图;
图2为本发明中基于教育领域本体的用户请求概念获取流程图;
图3为本发明中会话代表概念与相似序列确定流程图;
图4为本发明中候选中心概念主题序列合并流程图;
图5为本发明中心概念确定流程图;
图6为本发明预取资源的确定流程图;
图7为本发明目标存储节点计算拓扑图;
图8为本发明主题生命周期与预取控制流程图
图9为本发明系统语义预取工作流程。
具体实施方式
下面将结合附图以及具体实施例来详细说明本发明,在此本发明的示意 性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
定义1:代表概念
代表概念是指能够代表某一个用户请求会话主题的概念其由用户请求数 据资源的抽取关键词映射的概念后,与同时间段内其他会话运算比较,得出 的较同会话的其他概念更能代表某段时间主题的概念。在本发明中其记作 表示第i个会话的代表概念,考察时间段Δt内代表概念的集合记为
定义2:主题相关概念序列
主题相关概念序列是每个会话中抽取关键词映射的概念与同段时间内其 他会话中概念运算筛选所生产的相关概念序列。在本发明中记作Si,j,表示概 念ci,j的主题相关概念序列,特别地,代表概念所对应的主题相关概念序列记 为Si,j中的概念记作我们把求概念ci,j的主题相关概念序列Si,j记作Si,j=TSeq(ci,j)。
定义3:概念权值
概念权值是记录某个概念相同概念出现的次数,以便合并相同概念,降 低计算量,其初始值为1。ci,j的概念权值记作wi,j。
定义4:候选中心概念
候选中心概念是从考察时间段内所有会话的代表概念中选取的概念,代 表概念经过删除与合并后,计算概念序列相似度总和,将总和值达到一定条 件的代表概念作为候选中心概念。
参照图1至图9,本发明提供了一种面向教育领域资源云存储的语义预 取系统及方法。
教育资源云存储系统的整体架构如下图1所示。从图1可以看出系统主 要是由用户接口模块、请求控制模块、缓存管理模块、云存储模块、副本管 理模块与预取模块六大功能模块组成,其中缓存管理模块、副本管理模块, 还有本发明重点提出技术解决方案的预取模块是系统的增效模块。
各个模块说明如下:
用户接口模块:主要用于接收用户的请求,将请求交付到后台处理,并 根据后台系统的返回数据响应用户的请求。
请求控制模块:对用户的请求进行处理,使得系统能够在优先满足用户 的请求之余,触发系统的优化增效模块,进一步调整系统的状态,以提高系 统工作效率与降低负载。
云存储模块:由一个名称节点(NameNode)与多个数据节点(DataNode) 组成,本发明采用Hadoop平台的HDFS基本架构。名称节点主要对存储资 源的元数据进行管理,满足系统的查询,数据节点主要提供了资源的云存储 空间与节点之间的数据通信。
缓存管理模块:主要由缓存数据与缓存管理组成,缓存数据是访问热度 比较高的教育资源元数据,缓存管理则是对缓存数据进行更新,以最大限度 降低云存储模块中名称节点的压力与提高元数据查询效率。
副本管理模块:该模块基于教育资源用户访问的聚集性特征,根据系统 的负载情况与资源的访问热度对资源的副本进行优化调度,包括副本放置策 略、副本生成策略与副本替换策略;而在本发明中该模块将实现完整的预取 资源副本调度方案,使得预取的资源副本能够实现最大化的利用率,具体将 在下文介绍。
预取模块:该模块基于教育资源用户访问的主题性特征,接收请求控制 模块传递过来的请求,计算该请求和其相关请求的访问热度以及系统相对承 载力,综合请求文件的访问热度和系统相对承载力判断是否执行预取操作, 如果达到预取条件则触发预取推理,通过在日志文件、本体和语义标注的资 源的基础上推理得到预取对象,并将预取对象序列传递到副本管理模块,否 则返回不预取信号。
一种面向教育领域资源云存储的语义预取方法,包括如下步骤:
步骤一:基于教育领域本体的用户请求概念获取
本发明提出了教育资源云存储预取技术是基于教育资源用户访问的主题 性特征,而考察主题性特征需要一个领域本体库的支撑,为此本发明借助于 HowNet,以其为语义知识库。HowNet本身是一个能够描述概念之间的关系 与概念属性之间关系的知识系统,将知识通过网状结构进行表示,目前已有 不少研究将其映射为OWL格式的本体,以解决本体建构困难的问题。考虑 到对本体的建构不是本发明的重点与原创,其具体方法可参考文献“基于 HowNet的语义检索模型的设计与实现”,本文不在此赘述,只借用其方法建构教育领域的本体库,并支撑本发明提出的语义预取技术。
为了确定教育用户访问的主题性特征,以便进行有效预取,系统需要对 用户的请求进行分析,并最终得到用户请求的相关概念,以此来分析主题性 特征。具体的概念提取方法如图2所示:
系统首先会对用户请求数据资源中的标注进行关键字抽取,由于每个会 话(即一个用户请求,把第i个会话记作si)可能涉及多个主题,系统将从每 个会话中确定3个关键词,不足填充为null。而且同一个会话中抽取的关键词 必须具有一定区分度,以保证有效性与降低计算量。利用相应的匹配算法将 关键词与本体库中的概念进行逐一匹配,实现关键词到本体概念的映射,得 到相应的概念集合。假定教育资源云存储系统在某区域的一时间段Δt内获取 到m个用户请求会话,根据由HowNet构建的教育资源本体库,请求数据中抽取的关键词在教育资源本体库中完成映射后,将得到一个概念集合:
Cm,Δt={c1,1,c1,2,c1,3,....,ci,1,ci,2,ci,3,...,cm,1,cm,2,cm,3}, (1)
其中表示第i个会话中映射的第j个概念。
在获取用户数据请求资源映射的概念集合Cm,Δt后,先对其进行主题相关 性判断,具有一定的主题相关性后再进行主题挖掘流程,减少不必要计算。 为书写简便性与叙述准确性,本发明中标识符的上标表示标签信息,具有全 局性一般不作变化,下标表示集合元素的索引具有局部性,特别地cj表示某 种概念集合的元素,仅具有局部性,不具备全局性,同时本文用函数Size(·)表 示求某集合元素的个数。
步骤二:概念集合主题相关性判断
为确定概念集合Cm,Δt中是否具有主题性特征,随机从中抽取m'个概念 (m'≤m)进行抽样分析,并记抽取概念的集合为这 里用符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式,由此 可以得出抽样集合中每个概念相互之间的相似度,并形成相似度矩阵,其如 式(2)所示:
根据HowNet相似的计算公式定义可知Sim(ci,ci)=1.000, Sim(ci,cj)=Sim(cj,ci),其中ci,cj∈Csa。则可以求出集合Csa的平均概念相似度, 其定义如式(3)所示:
设定平均概念相似度阈值ε1,该值可以根据历史记录简单分析得到,若则集合中的概念具有一定的主题相关性。为了进一步确 定该时间段Δt内的概念具有主题相关性,将对集合Cm,Δt进行再次抽样计算, 若连续3次中有2次或3次抽样计算结果大于阀值ε1,则认为该时间段Δt内集 合Cm,Δt中概念具有一定的主题相关性,可进入下一步主题挖掘,若只有1次 或0次抽样计算结果大于阀值ε1,则认为该时间段Δt内集合Cm,Δt中概念无主 题相关性,系统继续监控下一时间段的用户资源请求。
步骤三:候选中心概念的选择
在HowNet中,中心概念是指在一个概念集合中的关键概念,其与集合 中一定考查数量的概念均具有较高的相似度,能够表征某段时间内用户访问 的主题。但在确定中心概念前需要进行必要的概念选择与合并等操作,为此, 本发明定义了候选概念中心的概念,通过选出候选中心概念再确定中心概念。
在本发明中把其记作表示第i个会话的代表概念成为候选中心概念, 把考察时间段Δt内的候选中心概念集合记为
基于以上定义,本发明提出的确定候选中心概念方法如下:
当考察会话si与其他会话在时间段Δt内的主题相关性时,si中的每个概念 ci,1,ci,2,ci,3(当概念为null不操作)将逐一比较其他每个会话中的概念,并且找 出其中相似度最大的加入到以si中的概念为中心的序列中(这里中心含义是 指HowNet中的概念中心),得到Si,1,Si,2,Si,3(当ci,j=null时,Si,j=null,j=1,2,3)。 最后以Si,1,Si,2,Si,3中概念相似度总和最大作为其对应的概念为会话si的代 表概念Si,j的相似度总和的计算方式如式(4)所示:
则的相似度总和如式(5)所示:
经过式(4),(5)的计算,可以得到会话si中相应的代表概念还有 与相对应的主题相关性概念序列可相应求出其他会话的代 表概念以及相应的主题相关概念序列。具体实现流程如图3所示;
得到代表概念集合后,系统将进一步分析从中产生候选中心概念, 具体流程如下:
以为概念语义中心,删除中与之概念相似度小于阈值ε2(根据历史 记录分析得到)的概念若删除后序列中只剩下本身,则说明该序列的 主题相关性不明显,直接删除该代表概念与
在序列的剩余概念中找出相似度为1的概念进行合并,假设 则保留删除(该操作随机选取),并wi,x=wi,x+wi,y;
经过删除与合并后,假设序列剩余概念个数为r,根据式(6)计算出 的序列概念相似度总和:
并计算该序列概念的平均相似度,其定义如式(7)所示:
再计算该序列的标准差,其定义如式所示:
设定阀值ε3与ε4(ε3应根据该时间段内用户请求会话的个数m成正比,ε4根据系统主题关系强弱稳定性要求设定来设定),保留且的 代表概念作为候选中心概念,否则进入下一个代表概念的判定,遍历完代 表概念集合及相应主题相关序列,得到候选中心概念集合
步骤四:中心概念的确定
候选中心概念集得到后,接下来将从中确定中心概念集合,得到中 心概念后,系统将通过中心概念进行语义推理,最后得到相应的预取文件。 基于上述得到候选中心概念集合,本发明提出中心概念的确定方法如下:
候选中心概念集合中如果判断出几个概念元素的相似度很高,仅需 合并为一个概念予以表征即可,该过程称之为候选中心概念的归并。假设为候选中心概念,在候选中心概念集合中与相似度大于ε5(可根据系 统监控会话的数量动态调整)的概念加入带合并集合并记为然后对集合 进行概念合并。首先确定带合并候选概念集合的合并中心, 即中心概念其可以用概念中心度来得到。假设ci在中 概念中心度定义如式(9)所示
则可以由式(10)得到:
合并候选概念集合中概念对应主题相关序列。得到中心概念后,把 中候选概念对应的主题相关序列合并到对应主题相关序列,得到中心概 念最终对应的主题相关序列。在合并的过程中,集合中其他候选中心概念 对应主题相关序列中的概念应该重新计算其与中心概念的相似度,计算 方式如下式(11)所示:
具体候选中心概念集合主题序列归并流程如图4所示。
至此,中心概念集合Cc的确定与对应主题相关概念序列的获取到此完成, 下步就可以基于中心概念进行相关预取工作的展开。中心概念确定的大概流 程总结如图5所示:
步骤五:预取对象的确定
根据中心概念集合CC系统进一步确定预取对象,确定预取对象之前分析 需要预取的数据节点,与预取数据的数量。系统结合CC从空间的维度分析时 间段ΔT内的用户请求。首先根据系统服务区域划分规则将请求客户端划分为 g个区域A={ai'|1≤i'≤g}。假设根据本发明提出的技术方案得到某个时间段区域 ai'中心概念为则在该时间段ΔT内区域ai'关于概念的主题相关性程度为:
其中n与T距离根据系统性能要求确定;mt为时间段Δt区域ai'内用户访 问请求总次数;cj是该时间段Δt区域ai'内的一个中心概念,其与当前时间段ΔT 考察的中心概念有若t=T,即当前时间段,则有βt为时 间衰减系数,0≤βt≤1,越接近当前时刻的时间段衰减系数值越大,说明时间 距离当前时刻越远参考性越低。
系统根据概念关系模式进行概念语义推理,推理规则包括一下两条:
规则1:SubClassOf(cx,cy),SubClassOf(cy,cz)→hasGrandFather(cx,cz)
规则2:SubClassOf(cx,cz),SubClassOf(cy,cz)→hasSibling(cx,cy)、SubClassOf(cx,ck),SubClassOf(cy,cz), hasSibling(ck,cz)→hasCousin(cx,cy)
概念关系模式对预取对象的推理也具有重要意义,能有效提高推理的效 率与预取命中率。概念关系模式是指概念在本体中的关系,本发明主要重点 关注上位模式、下位模式、左右模式与混合模式。上位模式是指相似概念是 其中心概念的上位节点;下位模式是指相似概念是其中心概念的下位节点; 左右模式是指中心概念跟其相似概念之间是兄弟关系;混合模式则说明中心 概念与其相似概念之间包括上位模式、下位模式、左右模式中的两种或两种 以上。概念关系模式可以根据由HowNet转换的本体中概念关系进行判断,其将决定在预取对象确定中推理规则的设定。由于考虑系统的效率问题,本 发明在语义推理过程中重点考虑与中心概念有直接关系的概念,即中心概念 的父节点、子节点或兄弟节点,确保语义的轻量级推理。具体推理方法如下:
若中存在概念与之间是直接关系的概念,则首先根据其与的关系模式进行推理,若关系模式为上下位模式,则结合本体知识库中定义 的语义关系与规则1进行语义推理,以此推出中心概念其余所有直接关系的 上位或下位概念;若关系模式为左右模式,则通过规则2推出中心概念在本 体知识库中其余所有的同层概念;
若Si中存在与之间是非直接关系的概念,则与方法I中的推理同理,按 规则1、规则2推出相应的同层概念,由于非直接关系的概念数量较多,为 此根据Si中该层非直接关系概念的比例选取一定数量推理得到的概念,且与 之间相似度越大则优先选取。
推理得到的概念存在预取顺序的排序问题,且一个时间段Δt内可能存在 多个主题,则有多个中心概念,不同中心概念推理得到的相关概念之间也需 要考虑排序问题。本发明提出的预取概念的顺序方法一方面考虑概念的主题 相关度,另一方面还有概念所对应的主题在该时间段内的强度。具体方法如 下:
首先以中心概念为语义中心,给每一层编号,其中中心概念的同层概念, 即兄弟节点编为第0层,往上位开始编为第1层(父节点)、第2层(父节点 的父节点),以此类推;往下位开始编为第-1层(子节点)、第-2层(子节点 的子节点),以此类推。
假设序列Si中概念为中心概念的上位概念最顶一层为第l层,为中心概 念cx下位概念最低层为第l'层。求出具有中心概念对应序列中的概念的每一层 中这些概念与中心概念的相似度总和记为(表示第f层中序列中的概 念与中心概念相似度的总和,若某一层无序列中的概念,则总和为0),根据 式(13)求出每一层的预取概念cv,j(包括序列Si中概念与推理得到的概念,cv,j表示该概念在中心概念的第v层的第j个)的预测主题相关度:
系统将找出推理得到的概念中的相同概念进行合并,且进行叠加 (由于不同中心概念之间符合一定主题,而主题之间按照本发明提出的方案 应该具有一定区分度,为此出现相同概念的机率会比较小)。合并后按预取概 念的进行排序,形成预取概念序列Sc。
根据该序列Sc中的概念映射相对应的教育资源,剔除其中目标存储节点 中已存在的资源文件,形成预取资源序列SS,资源顺序先按Sc中概念的顺序 进行排列,若出现一个概念对应多个资源文件,则按资源的大小由小到大排 列。其流程总结如图6所示。
步骤六:预取存储目标节点确定
在预取数据之前,考虑文件的访问热度的同时,应当考虑系统当前的负 载,如系统当前带宽、CPU、I/O负载等。而相对系统承载能力是指节点i与j 节点之间的空闲负载能力,是带宽、CPU使用率与I/O使用率相对和,是确 定预取存储目标节点的重要指标,其计算方式如下:
其中为i节点与j节点的当前带宽与理论带宽的比例;λBW为带宽权重,为j节点的当前CPU使用率,λCPU为CPU负载权重;为j节点的当前I/O 使用率;λI/O为I/O所占权重;Load(i,j)=Load(j,i)。
若某一用户区域A的请求具有主题相关性,则通过探测分析用户区域A与系 统各个数据节点之间的网络带宽,高于一定阀值的数据节点被加入到候选目标节 点集CNS={bi|1≤i≤p,i,p∈N},系统中存储源数据的节点集合为SNS={dj|1≤j ≤p,j,p∈N},节点bi至di之间的负载表示可以为Load(bi,dj),节点bi至 用户区域ai'之间的负载为节点bi到用户区域ai'中所有请求用户节点平均负载,记 作Load(bi,ai')。本系统中文件的副本数默认为3,即p=3。计算当前的负载情况的计 算方式如下公式(15):
其中×代表节点与节点之间的连接负载运算。
请求区域与待存储节点之间的负载为:
由于考虑预取负载和实际请求负载,因此总负载Load(ai',dj)则为前两者之 和,即对于任意源节点dj与请求区域ai'之间的负载,Load(ai',dj)可表示为式 (17):
Load(ai',dj)|bi=Load(ai',bi)+Load(bi,dj) (17)
其中bi是可能的目标存储节点可以根据式(18)求出目标存储节点
步骤七:预取窗口的大小
预取对象确定后,并不是序列SS中所有的数据都进行预取,而需要结合 资源请求的主题相关性程度与系统的整体负载情况来决定预取的数据量。结 合式(12)与式(17)可以得到预取数据量的计算方式,如式(19)所示:
其中Size(SS)表示序列SS中数据的总大小;cx为该时间段t的中心概念(共 有n个中心概念);α、γ分别是中心概念的相关概念请求热度和系统空闲负载 能力对预取数据量影响所占的权重系数,且有α+γ≤1。根据公式(13)可以 控制系统语义预取的窗口大小,其中z是序列SS中应进行预取的对象的总大 小,系统从序列SS按顺序获取预取对象时,当文件总大小将超过z时,系统停 止预取。
步骤八:主题相关性的保持、转换、消失与停止预取
根据本发明以上分析,每个考察的时间段内系统将确定若干个中心概念, 且该中心概念即为该时间段教育资源用户访问主题性的表征。确定的中心概 念都可能发生变化,其中最典型的包括主题相关性的保持、转换与消失,根 据不同的变化系统将执行不同的预取动作。
主题相关性的保持是指某一时间段内得到的主题相关性在先前的时间段 出现过。如果出现主题相关性的保持,并发生过预取,则系统应该在概念推 理的过程中,根据系统的工作负载适当增加对非直接关系概念。
主题相关性的转换是指两个时间段之间的主题具有一定的相似度,但出 现了不同的中心概念。若第t个时间段Δt确定的中心概念与第t-1个时间段 Δ(t-1)的中心概念之间的相似度大于ε5且小于1,则说明两个时间段内中心概 念出现了转换,此时系统应该根据第Δt个时间段确定的预取资源顺序进行预 取(在确定预取顺序时已经考虑了过去时间段的影响)。
主题相关性消失是指在前面时间段出现的主题在接下来的时间段里不复 出现,中心概念之间的相似度也很低。若第t个时间段Δt确定的中心概念与第 t-1个时间段Δ(t-1)的中心概念之间的相似度不明显,则需要与第t-2个时间段 Δ(t-2)的中心概念比较,若依然不明显,则说明过去的主题相关性已经可能不 明显了,系统将优先处理当前时间段确定的预取资源,在有空闲的情况下再 预取过去确定预取的资源,若第t+1个时间段Δ(t+1)依然不明显,则停止先前 的预取,并在目标节点空间不足的情况下,可根据需要从该节点上移除部分 预取资源;若第t+1个时间段Δ(t+1)恢复了先前第t-1个时间段Δ(t-1)的主题,则 按第t+1个时间段Δ(t+1)的序列优先预取,再恢复先前的预取。主题生命周期 与预取控制
以上对本发明实施例所公开的技术方案进行了详细介绍,本文中应用了 具体实施例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的 说明只适用于帮助理解本发明实施例的原理;同时,对于本领域的一般技术 人员,依据本发明实施例,在具体实施方式以及应用范围上均会有改变之处, 综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种面向教育领域资源云存储的语义预取系统,其特征在于,包括
用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块;
所述用户接口模块用于接收用户的请求,将请求交付到后台处理,并根据后台系统的返回数据响应用户的请求;
所述请求控制模块对用户的请求进行处理;
所述云存储模块对存储资源的元数据进行管理;
所述缓存管理模块由缓存数据与缓存管理组成,缓存数据是访问热度比较高的教育资源元数据,缓存管理则是对缓存数据进行实时更新,以最大限度降低云存储模块中名称节点的压力与提高元数据查询效率;
所述副本管理模块基于教育资源用户访问的聚集性特征,根据系统的负载情况与资源的访问热度对资源的副本进行优化调度;
所述预取模块基于教育资源用户访问的主题性特征,接收请求控制模块传递过来的请求,计算该请求和其相关请求的访问热度以及系统相对承载力,综合请求文件的访问热度和系统相对承载力判断是否执行预取操作。
2.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述请求控制模块还触发优化增效模块。
3.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述云存储模块包括一个名称节点与多个数据节点组成,所述名称节点主要满足系统的查询,所述数据节点主要提供了资源的云存储空间与节点之间的数据通信。
4.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述副本管理模块包括副本放置策略、副本生成策略与副本替换策略。
5.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述执行预取操作的方法为:如果达到预取条件则触发预取推理,通过在日志文件、本体和语义标注的资源的基础上推理得到预取对象,并将预取对象序列传递到副本管理模块,否则返回不预取信号。
6.一种面向教育领域资源云存储的语义预取方法,包括如下步骤:
步骤一,用户请求概念获取:系统首先会对用户请求数据资源中的标注进行关键字抽取,利用相应的匹配算法将关键词与本体库中的概念进行逐一匹配,实现关键词到本体概念的映射,得到相应的概念集合;
步骤二,判断概念集合主题相关性:具体方法为,随机从中抽取m'个概念(m'≤m)进行抽样分析,并记抽取概念的集合为符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式,由此可以得出抽样集合中每个概念相互之间的相似度,并形成相似度矩阵,其如式(1)所示:
根据HowNet相似的计算公式定义可知Sim(ci,ci)=1.000,Sim(ci,cj)=Sim(cj,ci),其中ci,cj∈Csa,则可以求出集合Csa的平均概念相似度,其定义如式(2)所示:
设定平均概念相似度阈值ε1,该值可以根据历史记录简单分析得到,若则集合中的概念具有一定的主题相关性;
步骤三,候选中心概念的选取:具体包括如下的步骤:
A:当考察会话si与其他会话在时间段Δt内的主题相关性时,si中的每个概念ci,1,ci,2,ci,3将逐一比较其他每个会话中的概念,并且找出其中相似度最大的加入到以si中的概念为中心的序列中,得到Si,1,Si,2,Si,3,当ci,j=null时,Si,j=null,j=1,2,3,以Si,1,Si,2,Si,3中概念相似度总和最大作为其对应的概念为会话si的代表概念ci re,Si,j的相似度总和的计算方式如式(3)所示:
则的相似度总和如式(4)所示:
经过式(3),(4)的计算,可以得到会话si中相应的代表概念ci re,还有与ci re相对应的主题相关性概念序列可相应求出其他会话的代表概念以及相应的主题相关概念序列;
得到代表概念集合后,系统将进一步分析从中产生候选中心概念,具体流程如下:
A:以ci re为概念语义中心,删除中与之概念相似度小于阈值ε2的概念若删除后序列中只剩下ci re本身,则说明该序列的主题相关性不明显,直接删除该代表概念ci re与
B:在序列的剩余概念中找出相似度为1的概念进行合并,假设则保留删除并wi,x=wi,x+wi,y;
C:经过删除与合并后,假设序列剩余概念个数为r,根据式(6)计算出ci re的序列概念相似度总和:
并计算该序列概念的平均相似度,其定义如式(7)所示:
再计算该序列的标准差,其定义如式(8)所示:
D:设定阀值ε3与ε4,ε3应根据该时间段内用户请求会话的个数m成正比,ε4根据系统主题关系强弱稳定性要求设定来设定,保留且的代表概念ci re作为候选中心概念,否则进入下一个代表概念的判定,遍历完代表概念集合及相应主题相关序列,得到候选中心概念集合
步骤四,中心概念的确定:其具体的方法如下:
A:在候选中心概念集合中,如果判断出几个概念元素的相似度很高,仅需合并为一个概念予以表征即可,该过程称之为候选中心概念的归并,假设ci ca为候选中心概念,在候选中心概念集合中与ci ca相似度大于ε5的概念加入带合并集合并记为Ci ca,然后对集合ci ca∪Ci ca进行概念合并,首先确定带合并候选概念集合ci ca∪Ci ca的合并中心,即中心概念其可以用概念中心度来得到。假设h=Size(ci ca∪Ci ca),ci在Ci ca中概念中心度定义如式(9)所示(ci∈ci ca∪Ci ca):
则可以由式(10)得到:
合并候选概念集合Ci ca中概念对应主题相关序列,得到中心概念后,把Ci ca中候选概念对应的主题相关序列合并到对应主题相关序列,得到中心概念最终对应的主题相关序列,在合并的过程中,集合中其他候选中心概念对应主题相关序列中的概念应该重新计算其与中心概念的相似度,计算方式如下式(11)所示:
至此,中心概念集合Cc的确定与对应主题相关概念序列的获取到此完成;
步骤五,预取对象的确定:
根据中心概念集合CC系统进一步确定预取对象,确定预取对象之前分析需要预取的数据节点,与预取数据的数量,系统结合CC从空间的维度分析时间段ΔT内的用户请求,首先根据系统服务区域划分规则将请求客户端划分为g个区域A={ai'|1≤i'≤g},假设根据本发明提出的技术方案得到某个时间段区域ai'中心概念为则在该时间段ΔT内区域ai'关于概念的主题相关性程度为:计算方式如下式(12)所示:
其中n与T距离根据系统性能要求确定;mt为时间段Δt区域ai'内用户访问请求总次数;cj是该时间段Δt区域ai'内的一个中心概念,其与当前时间段ΔT考察的中心概念有若t=T,即当前时间段,则有βt为时间衰减系数,0≤βt≤1,越接近当前时刻的时间段衰减系数值越大,说明时间距离当前时刻越远参考性越低,系统根据概念关系模式进行概念语义推理,推理规则包括一下两条:
规则1:SubClassOf(cx,cy),SubClassOf(cy,cz)→hasGrandFather(cx,cz)
规则2:SubClassOf(cx,cz),SubClassOf(cy,cz)→hasSibling(cx,cy)、SubClassOf(cx,ck),SubClassOf(cy,cz),hasSibling(ck,cz)→hasCousin(cx,cy)
具体推理方法如下:
若中存在概念与之间是直接关系的概念,则首先根据其与的关系模式进行推理,若关系模式为上下位模式,则结合本体知识库中定义的语义关系与规则1进行语义推理,以此推出中心概念其余所有直接关系的上位或下位概念;若关系模式为左右模式,则通过规则2推出中心概念在本体知识库中其余所有的同层概念;
若Si中存在与之间是非直接关系的概念,则与方法I中的推理同理,按规则1、规则2推出相应的同层概念,由于非直接关系的概念数量较多,为此,根据Si中该层非直接关系概念的比例选取一定数量推理得到的概念,且与之间相似度越大则优先选取;
假设序列Si中概念为中心概念的上位概念最顶一层为第l层,为中心概念cx下位概念最低层为第l'层,求出具有中心概念对应序列中的概念的每一层中这些概念与中心概念的相似度总和记为 表示第f层中序列中的概念与中心概念相似度的总和,若某一层无序列中的概念,则总和为0,根据式(13)求出每一层的预取概念cv,j,cv,j包括序列Si中概念与推理得到的概念,cv,j表示该概念在中心概念的第v层的第j个的预测主题相关度:
系统将找出推理得到的概念中的相同概念进行合并,且进行叠加,合并后按预取概念的进行排序,形成预取概念序列Sc,
根据该序列Sc中的概念映射相对应的教育资源,剔除其中目标存储节点中已存在的资源文件,形成预取资源序列SS,资源顺序先按Sc中概念的顺序进行排列,若出现一个概念对应多个资源文件,则按资源的大小由小到大排列;
步骤六,预取存储目标节点确定:具体如下:
在预取数据之前,确定系统当前带宽、CPU、I/O负载,而相对系统承载能力是指节点i与j节点之间的空闲负载能力,是带宽、CPU使用率与I/O使用率相对和,是确定预取存储目标节点的重要指标,其计算方式如下:
其中为i节点与j节点的当前带宽与理论带宽的比例;λBW为带宽权重,为j节点的当前CPU使用率,λCPU为CPU负载权重;为j节点的当前I/O使用率;λI/O为I/O所占权重;Load(i,j)=Load(j,i),
若某一用户区域A的请求具有主题相关性,则通过探测分析用户区域A与系统各个数据节点之间的网络带宽,高于一定阀值的数据节点被加入到候选目标节点集CNS={bi|1≤i≤p,i,p∈N},系统中存储源数据的节点集合为SNS={dj|1≤j≤p,j,p∈¥},节点bi至di之间的负载表示可以为Load(bi,dj),节点bi至用户区域ai'之间的负载为节点bi到用户区域ai'中所有请求用户节点平均负载,记作Load(bi,ai'),本系统中文件的副本数默认为3,即p=3,计算当前的负载情况的计算方式如下公式(15):
其中×代表节点与节点之间的连接负载运算,
请求区域与待存储节点之间的负载为:
由于考虑预取负载和实际请求负载,因此总负载Load(ai',dj)则为前两者之和,即对于任意源节点dj与请求区域ai'之间的负载,Load(ai',dj)可表示为式(17):
Load(ai',dj)|bi=Load(ai',bi)+Load(bi,dj) (17)
其中bi是可能的目标存储节点可以根据式(18)求出目标存储节点
步骤七,预取窗口的大小,具体为:
预取对象确定后,并不是序列SS中所有的数据都进行预取,而需要结合资源请求的主题相关性程度与系统的整体负载情况来决定预取的数据量。结合式(12)与式(17)可以得到预取数据量的计算方式,如式(19)所示:
其中Size(SS)表示序列SS中数据的总大小;cx为该时间段t的中心概念;α、γ分别是中心概念的相关概念请求热度和系统空闲负载能力对预取数据量影响所占的权重系数,且有α+γ≤1,根据公式(13)可以控制系统语义预取的窗口大小,其中z是序列SS中应进行预取的对象的总大小,系统从序列SS按顺序获取预取对象时,当文件总大小将超过z时,系统停止预取;
步骤八,主题相关性的保持、转换、消失与停止预取。
7.根据权利要求6所述的面向教育领域资源云存储的语义预取方法,其特征在于,所述匹配算法为:
假定教育资源云存储系统在某区域的一时间段Δt内获取到m个用户请求会话,请求数据中抽取的关键词在教育资源本体库中完成映射后,将得到一个概念集合:
Cm,Δt={c1,1,c1,2,c1,3,....,ci,1,ci,2,ci,3,...,cm,1,cm,2,cm,3}, (19)
其中表示第i个会话中映射的第j个概念,
在获取用户数据请求资源映射的概念集合Cm,Δt后,先对其进行主题相关性判断,特别地cj表示某种概念集合的元素,仅具有局部性,不具备全局性,同时本文用函数Size(·)表示求某集合元素的个数。
8.根据权利要求6所述的面向教育领域资源云存储的语义预取方法,其特征在于,在步骤二中,为了进一步确定该时间段Δt内的概念具有主题相关性,将对集合Cm,Δt进行再次抽样计算,若连续3次中有2次或3次抽样计算结果大于阀值ε1,则认为该时间段Δt内集合Cm,Δt中概念具有一定的主题相关性,可进入下一步主题挖掘,若只有1次或0次抽样计算结果大于阀值ε1,则认为该时间段Δt内集合Cm,Δt中概念无主题相关性,系统继续监控下一时间段的用户资源请求。
9.根据权利要求6所述的面向教育领域资源云存储的语义预取方法,其特征在于,在步骤八中,
主题相关性的保持是指某一时间段内得到的主题相关性在先前的时间段出现过,如果出现主题相关性的保持,并发生过预取,则系统应该在概念推理的过程中,根据系统的工作负载适当增加对非直接关系概念;
主题相关性的转换是指两个时间段之间的主题具有一定的相似度,但出现了不同的中心概念,若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度大于ε5且小于1,则说明两个时间段内中心概念出现了转换,此时系统应该根据第Δt个时间段确定的预取资源顺序进行预取;
主题相关性消失是指在前面时间段出现的主题在接下来的时间段里不复出现,中心概念之间的相似度也很低。若第t个时间段Δt确定的中心概念与第t-1个时间段Δ(t-1)的中心概念之间的相似度不明显,则需要与第t-2个时间段Δ(t-2)的中心概念比较,若依然不明显,则说明过去的主题相关性已经可能不明显了,系统将优先处理当前时间段确定的预取资源,在有空闲的情况下再预取过去确定预取的资源,若第t+1个时间段Δ(t+1)依然不明显,则停止先前的预取,并在目标节点空间不足的情况下,可根据需要从该节点上移除部分预取资源;若第t+1个时间段Δ(t+1)恢复了先前第t-1个时间段Δ(t-1)的主题,则按第t+1个时间段Δ(t+1)的序列优先预取,再恢复先前的预取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810117814.1A CN109471971B (zh) | 2018-02-06 | 2018-02-06 | 一种面向教育领域资源云存储的语义预取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810117814.1A CN109471971B (zh) | 2018-02-06 | 2018-02-06 | 一种面向教育领域资源云存储的语义预取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109471971A true CN109471971A (zh) | 2019-03-15 |
CN109471971B CN109471971B (zh) | 2021-05-04 |
Family
ID=65659851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810117814.1A Active CN109471971B (zh) | 2018-02-06 | 2018-02-06 | 一种面向教育领域资源云存储的语义预取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471971B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659350A (zh) * | 2019-09-24 | 2020-01-07 | 吉林大学 | 基于领域本体的语义搜索系统及搜索方法 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
WO2021213278A1 (zh) * | 2020-04-20 | 2021-10-28 | 华为技术有限公司 | 一种文件预取方法、存储设备以及预取装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753617A (zh) * | 2009-12-11 | 2010-06-23 | 中兴通讯股份有限公司 | 一种云存储系统和方法 |
CN104144194A (zh) * | 2013-05-10 | 2014-11-12 | 中国移动通信集团公司 | 云存储系统的数据处理方法及装置 |
US20150134933A1 (en) * | 2013-11-14 | 2015-05-14 | Arm Limited | Adaptive prefetching in a data processing apparatus |
-
2018
- 2018-02-06 CN CN201810117814.1A patent/CN109471971B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753617A (zh) * | 2009-12-11 | 2010-06-23 | 中兴通讯股份有限公司 | 一种云存储系统和方法 |
CN104144194A (zh) * | 2013-05-10 | 2014-11-12 | 中国移动通信集团公司 | 云存储系统的数据处理方法及装置 |
US20150134933A1 (en) * | 2013-11-14 | 2015-05-14 | Arm Limited | Adaptive prefetching in a data processing apparatus |
Non-Patent Citations (3)
Title |
---|
衣然: "基于HDFS的云存储关键技术研究", 《中国优秀硕士学位论文全文数据库》 * |
黄昌勤 等: "云存储系统中数据副本服务的可靠性保障研究", 《通信学报》 * |
黄昌勤 等: "面向教育资源云存储系统的副本管理", 《北京邮电大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659350A (zh) * | 2019-09-24 | 2020-01-07 | 吉林大学 | 基于领域本体的语义搜索系统及搜索方法 |
WO2021213278A1 (zh) * | 2020-04-20 | 2021-10-28 | 华为技术有限公司 | 一种文件预取方法、存储设备以及预取装置 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
CN111625622B (zh) * | 2020-04-28 | 2022-02-15 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109471971B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
Jung | Evolutionary approach for semantic-based query sampling in large-scale information sources | |
CN102918494A (zh) | 基于数据库模型不可知论、纲要不可知论且工作负载不可知论的数据存储和存取模型的数据存储和/或检索 | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
CN109471971A (zh) | 一种面向教育领域资源云存储的语义预取系统及方法 | |
CN107423535A (zh) | 用于确定用户的医疗状况的方法、装置和系统 | |
Song et al. | A novel term weighting scheme based on discrimination power obtained from past retrieval results | |
CN103198361A (zh) | 基于多种优化机制的xacml策略评估引擎系统 | |
Murugudu et al. | Efficiently harvesting deep web interfaces based on adaptive learning using two-phase data crawler framework | |
CN106528756B (zh) | 一种基于时空关联性的网络地图数据组织方法 | |
CN115408618A (zh) | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 | |
Deng et al. | Information re-finding by context: A brain memory inspired approach | |
Ahamed et al. | An Efficient Mechanism for Deep Web Data Extraction Based on Tree‐Structured Web Pattern Matching | |
CN107493328B (zh) | 一种基于特征融合的合作缓存方法 | |
Kucukyilmaz | Exploiting temporal changes in query submission behavior for improving the search engine result cache performance | |
Hou et al. | [Retracted] Application of Artificial Intelligence‐Based Sensor Technology in the Recommendation Model of Cultural Tourism Resources | |
Pitkow | Characterizing world wide web ecologies | |
Cho et al. | Improvement of precision and recall for information retrieval in a narrow domain: reuse of concepts by formal concept analysis | |
Chen et al. | HIB-tree: An efficient index method for the big data analytics of large-scale human activity trajectories | |
CN106649462A (zh) | 一种针对海量数据全文检索场景的实现方法 | |
Dongjie et al. | A data grouping model based on cache transaction for unstructured data storage systems | |
Tian et al. | Research on the Prediction of Popularity of News Dissemination Public Opinion Based on Data Mining | |
Chen et al. | A multi-source heterogeneous spatial big data fusion method based on multiple similarity and voting decision | |
Dan | [Retracted] Research on the Model of Distance Education Resource Integration from the Perspective of Comparative Education | |
Wenwen | [Retracted] Building an Urban Smart Community System Based on Association Rule Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |