CN114065947A - 一种数据访问推测方法、装置、存储介质及电子设备 - Google Patents

一种数据访问推测方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114065947A
CN114065947A CN202111351541.5A CN202111351541A CN114065947A CN 114065947 A CN114065947 A CN 114065947A CN 202111351541 A CN202111351541 A CN 202111351541A CN 114065947 A CN114065947 A CN 114065947A
Authority
CN
China
Prior art keywords
data
accessed
range interval
access
speculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111351541.5A
Other languages
English (en)
Other versions
CN114065947B (zh
Inventor
王毅
王玉巧
陈家贤
马晨琳
周池
毛睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202111351541.5A priority Critical patent/CN114065947B/zh
Publication of CN114065947A publication Critical patent/CN114065947A/zh
Application granted granted Critical
Publication of CN114065947B publication Critical patent/CN114065947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据访问推测方法、装置、存储介质及电子设备,所述方法包括:当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;根据第一范围区间与第二范围区间确定待访问数据的数据编号对应的目标范围区间;利用预先得到的数据访问推测模型在目标范围区间内进行推测得到推测标号;根据推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。该方法在缩小了待访问数据编号的推测范围,提高了数据访问预测的效率。

Description

一种数据访问推测方法、装置、存储介质及电子设备
技术领域
本发明涉及推测访问数据技术领域,具体涉及一种数据访问推测方法、装置、存储介质及电子设备。
背景技术
随着计算机科学技术的迅速发展,网络规模随着用户数量呈指数级增长,在计算机数据存储过程中,计算机会为存储的数据分配唯一数据编号,该数据编号用于表征访问数据所在的数据地址,在接收到用户的数据访问请求时,可以通过数据编号找到对应的数据地址中的数据。为了加快用户的访问速度,计算机需要预先推测出程序将要访问的数据编号。
目前,为了提高数据编号推测结果的准确性、高效性,现有技术中采用机器学习技术通过获取大量待访问数据的数据编号,基于待访问数据迅速建立连接,找到访问数据的规律,从而推测出下一个可能被访问的数据编号。但是,实际数据编号可能很复杂且可能会包含数千万个数据编号,故采用这种方法需要同时处理大量的数据,影响了机器学习模型的预测效率。为了减少机器学习处理的数据量,一般采用提取数据特征值的方法来表示待访问数据对应的唯一数据编号,但存储额外的数据特征值需要占用大量的存储资源。故亟待提出一种新的数据访问推测方法在降低预测过程中对存储空间的需求的同时提高机器学习模型的预测效率。
发明内容
有鉴于此,本发明实施例提供了涉及一种数据访问推测方法、装置、存储介质及电子设备,以解决现有技术中推测访问数据量大导致机器学习模型预测效率低技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种数据访问推测模型构建方法,该数据访问推测模型构建方法包括:获取待访问数据的数据编号;对所述数据编号进行标号并建立不同数据编号和对应的标号的关联关系;将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型。
本发明实施例第二方面提供一种数据访问推测方法,该数据访问推测方法包括:当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;根据所述第一范围区间与所述第二范围区间确定所述待访问数据的数据编号对应的目标范围区间;利用如第一方面所述的数据访问推测模型构建方法构建得到的数据访问推测模型在所述目标范围区间内进行推测得到推测标号;根据所述推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。
可选地,确定所述待访问数据的数据编号对应的目标范围区间,包括:将所述第一范围区间与所述第二范围区间进行比对;根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整。
可选地,根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整,包括:当所述第一范围区间的范围长度小于所述第二范围区间的范围长度时,扩展所述第一范围区间并确定所述待访问数据的数据编号对应的目标范围区间。
可选地,根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整,还包括:当所述第一范围区间的范围长度大于所述第二范围区间的范围长度时,获取所述第一范围区间内任意两个邻近访问数据的数据编号的差值;计算任一历史访问数据的数据编号的邻近范围区间的大小;将所述任意两个邻近访问数据的数据编号的差值与所述任一历史访问数据的数据编号的邻近范围区间的大小进行比对;根据比对结果确定所述待访问数据的数据编号对应的目标范围区间。
可选地,根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整之后,所述方法还包括:判断所述待访问数据的数据编号对应的目标范围区间的覆盖密度;根据所述覆盖密度对所述待访问数据的数据编号对应的目标范围区间进行调整。
本发明实施例第三方面提供一种数据访问推测模型构建装置,该数据访问推测模型构建装置包括:第一获取模块,用于获取待访问数据的数据编号;处理模块,用于对所述数据编号进行标号并建立不同数据编号和对应的标号的关联关系;训练模块,用于将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型。
本发明实施例第四方面提供一种数据访问推测装置,该数据访问推测装置包括:第二获取模块,用于当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;第一确定模块,用于根据所述第一范围区间与所述第二范围区间确定所述待访问数据的数据编号对应的目标范围区间;推测模块,用于利用如第一方面所述的数据访问推测模型构建方法构建得到的数据访问推测模型在所述目标范围区间内进行推测得到推测标号;第二确定模块,用于根据所述推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。
本发明实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面所述的数据访问推测模型构建方法,或者如本发明实施例第二方面及第二方面任一项所述的数据访问推测方法。
本发明实施例第六方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面所述的数据访问推测模型构建方法,或者如本发明实施例第二方面及第二方面任一项所述的数据访问推测方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的数据访问推测模型构建方法,通过获取待访问数据的数据编号,对数据编号进行标号并建立不同数据编号和对应的标号的关联关系;将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型;相比于现有技术中需要提取数据特征值的方式来作为数据编号,通过直接对待访问数据的数据编号进行标号,使用标号进行数据访问推测模型的训练,减少了预测过程中的数据处理量,提高了模型构建效率以及预测效率。
本发明实施例提供的数据访问推测方法,当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;根据所述第一范围区间与所述第二范围区间确定所述待访问数据的数据编号对应的目标范围区间;利用如第一方面所述的数据访问推荐模型构建方法构建得到的数据访问推测模型在所述目标范围区间内进行推测得到推测标号;根据所述推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。该方法在所述目标范围区间内进行待访问数据编号的推测,缩小了待访问数据编号的推测范围;利用数据访问推测模型能够得到推测标号,并根据该标号与关联关系确定下一个被访问的目标数据编号,提高了数据访问预测的效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的数据访问推测模型构建方法的流程图;
图2是根据本发明实施例的数据访问推测方法的流程图;
图3是根据本发明实施例的数据访问推测模型构建装置的结构框图;
图4是根据本发明实施例的数据访问推测装置的结构框图;
图5是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图6是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据访问推测模型构建方法,如图1所示,该方法包括如下步骤:
步骤S101:获取待访问数据的数据编号。具体地,在计算机数据存储中,计算机为数据分配唯一编号,计算机通过数据编号来访问数据。因此,在数据访问推测之前,首先需要获取待访问数据的数据编号。
步骤S102:对数据编号进行标号并建立不同数据编号和对应的标号的关联关系。具体地,在获取待访问数据的数据编号之后,为该数据编号设置对应的标号,根据对应的标号可以确定对应的待访问数据的数据编号,根据该对应关系即为不同数据编号和对应的标号的关联关系。其中,对数据编号进行标号时,该标号从0开始,按照顺序依次递增进行设置。
步骤S103:将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型。具体地,确定不同数据编号和对应的标号的关联关系之后,利用该关联关系可以确定不同标号对应的数据之间的访问规律,将该访问规律与每一个数据编号对应的标号输入到机器学习模型进行训练,并得到对应的数据访问推测模型。
本发明实施例提供的数据访问推测模型构建方法,通过获取待访问数据的数据编号,对数据编号进行标号并建立不同数据编号和对应的标号的关联关系;将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型;相比于现有技术中需要提取数据特征值的方式来作为数据编号,通过直接对待访问数据的数据编号进行标号,使用标号进行数据访问推测模型的训练,减少了预测过程中的数据处理量,提高了模型构建效率以及预测效率。
本发明实施例提供一种数据访问推测方法,如图2所示,该方法包括如下步骤:
步骤S201:当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;具体地,计算机程序在访问数据之前,推测系统要提前对其进行推测。在推测之前,首先获取当前系统中用于存储历史访问数据的数据编号的第一范围区间[minAddr,maxAddr]并计算对应的范围长度:
addrRange=maxAddr-minAddr+1
式中,addrRange是第一范围区间的范围长度,maxAddr是最大数据编号,minAddr是最小数据编号。
然后获取待访问数据的数据编号并获取当前系统中用于存储待访问数据的数据编号的存储空间总长度,并根据该存储空间总长度确定当前系统中用于存储待访问数据的数据编号的第二范围区间。
具体地,定义当前系统中待访问数据的数据编号的存储空间总长度Q:
Figure BDA0003355707310000071
式中,matrixMaxLength为推测系统的存储空间提供的最大存储长度;inputCount为待访问数据的数据编号的数量;n表示将存储空间总长度划分为n份,选取1/n用于存储其他数据。
在一实施例中,定义当前系统中待访问数据的数据编号的存储空间总长度Q:
Figure BDA0003355707310000072
计算机程序访问地址具有当访问某数据后,很可能马上访问其邻近数据的特性,因此根据该特性来计算当前系统中用于存储待访问数据的数据编号的第二范围区间。具体地,选取Q的1/m作为存储待访问数据的数据编号的第二范围区间,范围长度为L=Q/m。
在一实施例中,设置m=1.5,即选取Q的1/1.5作为待访问数据的数据编号的第二范围区间。
步骤S202:根据第一范围区间与第二范围区间确定待访问数据的数据编号对应的目标范围区间。具体地,计算机程序访问地址具有当访问某数据后,很可能马上访问其邻近数据的特性,因此根据第一范围区间与第二范围区间来计算并确定待访问数据的数据编号对应的目标范围区间。
步骤S203:利用如数据访问推荐模型构建方法构建得到的数据访问推测模型在目标范围区间内进行推测得到推测标号。具体地,计算机程序访问数据其实是访问数据的数据编号,在进行待访问数据编号的预测之后,输出的数据并不是真正的数据编号,需要转换成实际的数据编号,由于数据访问推荐模型构建方法构建得到的数据访问推测模型中包含了每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律,因此利用该数据访问推测模型在目标范围区间内进行推测可以得到对应的推测标号。
步骤S204:根据推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。具体地,在得到推测标号之后,根据不同数据编号和对应的标号的关联关系可以得到该推测标号对应的数据编号,该数据编号即为待访问数据的数据编号。
本发明实施例提供的数据访问推测方法,当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;根据第一范围区间与第二范围区间确定待访问数据的数据编号对应的目标范围区间;利用如第一方面所述数据访问推测模型在目标范围区间内进行推测得到推测标号;根据推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。该方法在目标范围区间内进行待访问数据编号的推测,缩小了待访问数据编号的推测范围;利用数据访问推测模型能够得到推测标号,并根据该标号与关联关系确定下一个被访问的目标数据编号,提高了数据访问预测的效率。
作为本发明实施例一种可选的实施方式,确定待访问数据的数据编号对应的目标范围区间时首先将第一范围区间与第二范围区间进行比对,然后根据比对结果对待访问数据的数据编号对应的目标范围区间进行调整。具体地,当第一范围区间的范围长度小于第二范围区间的范围长度,即addrRange<L时,
将第一范围区间[minAddr,maxAddr]作为基础待访问数据的数据编号对应的范围区间,对该区间进行扩展并确定待访问数据的数据编号对应的目标范围区间。其中,第一范围区间的两侧扩展值根据历史访问数据的数据编号的范围区间占待访问数据的数据编号的推测范围位置来决定,并根据非历史访问数据的数据编号的范围区间占当前系统中所有访问数据的数据编号的推测范围区间的大小计算扩展值。
具体地,设置左侧扩展占比为x,右侧扩展占比为y,则:
Figure BDA0003355707310000091
Figure BDA0003355707310000092
式中,W表示访问数据的数据编号的最大值。
分别计算待访问数据的数据编号的范围区间左侧扩展值extLeftAddr和右侧扩展值extRightAddr:
Figure BDA0003355707310000093
Figure BDA0003355707310000101
则扩展第一范围区间,并确定当前系统中待访问数据的数据编号对应的目标范围区间:
[minAddr-extLeftAddr,maxAddr+extRightAddr)
式中,minAddr-extLeftAddr>0;maxAddr+extRightAddr<W-1;
当第一范围区间的范围长度大于第二范围区间的范围长度,即addrRange≥L时,需要让当前第二范围区间覆盖所有历史访问数据的数据编号的范围区间,且范围长度不超过L。包括:获取第一范围区间内任意两个邻近访问数据的数据编号的差值;计算任一历史访问数据的数据编号的邻近范围区间的大小;将任意两个邻近访问数据的数据编号的差值与任一历史访问数据的数据编号的邻近范围区间的大小进行比对;根据比对结果确定待访问数据的数据编号对应的目标范围区间。
具体地,将历史访问数据的数据编号的数量记作n,并将n个历史访问数据的数据编号按照从小到大的顺序进行排序,分别计算相邻历史访问数据的数据编号的范围区间内任意两个相邻访问数据的数据编号的差值singleExtent,然后计算每个历史访问数据的数据编号的邻近范围区间大小aveExtent:
aveExtent=L/(n-1)
将任意两个相邻访问数据的数据编号对应的范围区间的大小记作singleExtentk,当singleExtentk>aveExtent时,该ssingleExtentk对应的访问数据的数据编号的范围区间为
Figure BDA0003355707310000102
Figure BDA0003355707310000103
当singleExtentk<aveExtent时,该singleExtentk对应的访问数据的数据编号的范围区间为[Ak,Ak+1]。其中,Ak表示第k个访问数据的数据编号,Ak+1表示第K+1个访问数据的数据编号。
当存在一个或多个singleExtentk小于aveExtent时,当前待访问数据的数据编号对应的目标范围区间的范围长度会小于L。此时,对该目标范围区间进行扩展。
具体地,计算所有实际待访问数据的数据编号对应的范围区间的范围长度总和sumExtent:
Figure BDA0003355707310000111
式中,singleExtenti<aveExtent,m表示singleExtent值大于aveExtent的singleExtent个数。
再计算待访问数据的数据编号对应的范围区间的扩展值extAddr:
extAddr=(L-sumExtent)/2
则第一范围区间可扩展加上以下两个区间:
[A1-extAddr,A1],[An,An+extAddr]
式中,A1-rxtAddr>0;An+extAddr<W-1;经过该调整后的区间即为当前系统中待访问数据的数据编号对应的目标范围区间。
作为本发明实施例一种可选的实施方式,根据比对结果对待访问数据的数据编号对应的目标范围区间进行调整之后,判断待访问数据的数据编号对应的目标范围区间的覆盖密度,并根据覆盖密度对所述待访问数据的数据编号对应的目标范围区间进行调整。
具体地,在确定待访问数据的数据编号对应的目标范围区间之后,剩下的区间是没有作为待访问数据的数据编号对应的目标范围区间的空余子区间,通过空余子区间占当前系统中总空余区间的比重来判断已作为待访问数据的数据编号对应的目标范围子区间的覆盖密度。
具体地,将空余子区间的数量记作p,计算所有空余子区间即总空余区间的范围总长度marginLengthSum:
Figure BDA0003355707310000121
式中,marginLenth表示每个空余子区间的范围长度;
再分别计算每个空余子区间的范围长度占总空余区间的范围总长度的比重Sk
Sk=marginLenthk/marginLengthSum
根据该比重将空余子区间进行分类:当Sk>0.72时为大区间;当0.18<Sk≤0.72时为中等区间;当Sk≤0.18时为小区间。
然后计算选取的当前待访问数据的数据编号对应的目标范围区间marginAddrLength:
marginAddrLength=OL*Sk
将该目标范围区间与划分后的剩余范围区间进行比对:
当空余子区间[Ck,Ck+1]为大区间时,利用随机方式选取空余子区间,使得该区间中所有访问数据的数据编号均有被推测的可能性。具体地,从起始数据编号在[Ck,Ck+1-marginAddrLength]范围区间内选取marginAddrLength长度的待访问数据的数据编号对应的范围子区间,并根据该范围子区间对目标范围区间进行调整。
当空余子区间[Ck,Ck+1]为中等区间时,选取该区间的中间区域作为空余子区间来增大推测范围区间的密度。具体地,计算该区间中间区域的数据编号:
Figure BDA0003355707310000131
则待访问数据的数据编号对应的目标范围子区间扩展为
Figure BDA0003355707310000132
然后根据该范围子区间对目标范围区间进行调整。
当空余子区间[Ck,Ck+1]为小区间时,邻近范围区间作为待访问数据的数据编号对应的目标范围子区间的覆盖度已经很密集了,则不选取该区间的子区间作为待访问数据的数据编号对应的目标范围子区间,即不对目标范围区间进行调整。
本发明实施例还提供一种数据访问推测模型构建装置,如图3所示,该装置包括:
第一获取模块101,用于获取待访问数据的数据编号;详细内容参见上述方法实施例中步骤S101的相关描述。
处理模块102,用于对数据编号进行标号并建立不同数据编号和对应的标号的关联关系;详细内容参见上述方法实施例中步骤S102的相关描述。
训练模块103,用于将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型;详细内容参见上述方法实施例中步骤S103的相关描述。
本发明实施例提供的数据访问推测模型构建装置,通过获取待访问数据的数据编号,对数据编号进行标号并建立不同数据编号和对应的标号的关联关系;将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型;相比于现有技术中需要提取数据特征值的方式来作为数据编号,通过直接对待访问数据的数据编号进行标号,使用标号进行数据访问推测模型的训练,减少了预测过程中的数据处理量,提高了模型构建效率以及预测效率。
本发明实施例还提供一种数据访问推测装置,如图4所示,该装置包括:
第二获取模块201,用于当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;详细内容参见上述方法实施例中步骤S201的相关描述。
第一确定模块202,用于根据第一范围区间与所述第二范围区间确定待访问数据的数据编号对应的目标范围区间;详细内容参见上述方法实施例中步骤S202的相关描述。
推测模块203,用于利用如数据访问推荐模型构建方法构建得到的数据访问推测模型在目标范围区间内进行推测得到推测标号;详细内容参见上述方法实施例中步骤S203的相关描述。
第二确定模块204,用于根据推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号;详细内容参见上述方法实施例中步骤S204的相关描述。
本发明实施例提供的数据访问推测装置,当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;根据第一范围区间与第二范围区间确定待访问数据的数据编号对应的目标范围区间;利用如第一方面所述数据访问推测模型在目标范围区间内进行推测得到推测标号;根据推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。该方法在目标范围区间内进行待访问数据编号的推测,缩小了待访问数据编号的推测范围;利用数据访问推测模型能够得到推测标号,并根据该标号与关联关系确定下一个被访问的目标数据编号,提高了数据访问预测的效率。
作为本发明实施例一种可选的实施方式,该装置还包括:第一比对模块,用于将第一范围区间与第二范围区间进行比对;第一调整模块,用于根据比对结果对待访问数据的数据编号对应的目标范围区间进行调整。
作为本发明实施例一种可选的实施方式,该装置还包括:第三确定模块,用于当第一范围区间的范围长度小于第二范围区间的范围长度时,扩展第一范围区间并确定待访问数据的数据编号对应的目标范围区间。
作为本发明实施例一种可选的实施方式,该装置还包括:第三获取模块,用于当第一范围区间的范围长度大于第二范围区间的范围长度时,获取第一范围区间内任意两个邻近访问数据的数据编号的差值;计算模块,用于计算任一历史访问数据的数据编号的邻近范围区间的大小;第二比对模块,用于将任意两个邻近访问数据的数据编号的差值与任一历史访问数据的数据编号的邻近范围区间的大小进行比对;第四确定模块,用于根据比对结果确定待访问数据的数据编号对应的目标范围区间。
作为本发明实施例一种可选的实施方式,该装置还包括:判断模块,用于判断待访问数据的数据编号对应的目标范围区间的覆盖密度;第二调整模块,用于根据覆盖密度对待访问数据的数据编号对应的目标范围区间进行调整。
本发明实施例提供的数据访问推测装置的功能描述详细参见上述实施例中数据访问推测方法描述。
本发明实施例还提供一种存储介质,如图5所示,其上存储有计算机程序601,该指令被处理器执行时实现上述实施例中数据访问推测模型构建方法或数据访问推测方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图6所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的数据访问推测方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1所示实施例中的数据访问推测模型构建方法或如图2所示实施例中的数据访问推测方法。
上述电子设备具体细节可以对应参阅图1、图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种数据访问推测模型构建方法,其特征在于,包括如下步骤:
获取待访问数据的数据编号;
对所述数据编号进行标号并建立不同数据编号和对应的标号的关联关系;
将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型。
2.一种数据访问推测方法,其特征在于,包括如下步骤:
当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;
根据所述第一范围区间与所述第二范围区间确定所述待访问数据的数据编号对应的目标范围区间;
利用如权利要求1所述的数据访问推荐模型构建方法构建得到的数据访问推测模型在所述目标范围区间内进行推测得到推测标号;
根据所述推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。
3.根据权利要求2所述的数据访问推测方法,其特征在于,确定所述待访问数据的数据编号对应的目标范围区间,包括:
将所述第一范围区间与所述第二范围区间进行比对;
根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整。
4.根据权利要求3所述的数据访问推测方法,其特征在于,根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整,包括:
当所述第一范围区间的范围长度小于所述第二范围区间的范围长度时,扩展所述第一范围区间并确定所述待访问数据的数据编号对应的目标范围区间。
5.根据权利要求3所述的数据访问推测方法,其特征在于,根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整,还包括:
当所述第一范围区间的范围长度大于所述第二范围区间的范围长度时,获取所述第一范围区间内任意两个邻近访问数据的数据编号的差值;
计算任一历史访问数据的数据编号的邻近范围区间的大小;
将所述任意两个邻近访问数据的数据编号的差值与所述任一历史访问数据的数据编号的邻近范围区间的大小进行比对;
根据比对结果确定所述待访问数据的数据编号对应的目标范围区间。
6.根据权利要求3所述的数据访问推测方法,其特征在于,根据比对结果对所述待访问数据的数据编号对应的目标范围区间进行调整之后,所述方法还包括:
判断所述待访问数据的数据编号对应的目标范围区间的覆盖密度;
根据所述覆盖密度对所述待访问数据的数据编号对应的目标范围区间进行调整。
7.一种数据访问推测模型构建装置,其特征在于,包括:
第一获取模块,用于获取待访问数据的数据编号;
处理模块,用于对所述数据编号进行标号并建立不同数据编号和对应的标号的关联关系;
训练模块,用于将每一个数据编号对应的标号以及不同标号对应的数据之间的访问规律输入到机器学习模型进行训练,得到数据访问推测模型。
8.一种数据访问推测装置,其特征在于,包括:
第二获取模块,用于当进行待访问数据编号推测时,获取待访问数据的数据编号和当前系统中用于存储历史访问数据的数据编号的第一范围区间与待访问数据的数据编号的第二范围区间;
第一确定模块,用于根据所述第一范围区间与所述第二范围区间确定所述待访问数据的数据编号对应的目标范围区间;
推测模块,用于利用如权利要求1所述的数据访问推荐模型构建方法构建得到的数据访问推测模型在所述目标范围区间内进行推测得到推测标号;
第二确定模块,用于根据所述推测标号与预先建立的不同数据编号和对应的标号的关联关系,得到待访问数据的数据编号。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1所述的数据访问推测模型构建方法,或者如权利要求2-6任一项所述的数据访问推测方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1所述的数据访问推测模型构建方法,或者如权利要求2-6任一项所述的数据访问推测方法。
CN202111351541.5A 2021-11-15 2021-11-15 一种数据访问推测方法、装置、存储介质及电子设备 Active CN114065947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111351541.5A CN114065947B (zh) 2021-11-15 2021-11-15 一种数据访问推测方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111351541.5A CN114065947B (zh) 2021-11-15 2021-11-15 一种数据访问推测方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114065947A true CN114065947A (zh) 2022-02-18
CN114065947B CN114065947B (zh) 2022-07-22

Family

ID=80272473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111351541.5A Active CN114065947B (zh) 2021-11-15 2021-11-15 一种数据访问推测方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114065947B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612716A (zh) * 2023-06-09 2023-08-18 深圳融创嘉业科技有限公司 一种数控led阵列

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266578A (zh) * 2008-02-22 2008-09-17 浙江大学 基于增量式闭合序列挖掘的高速缓存数据预取方法
WO2011031837A1 (en) * 2009-09-11 2011-03-17 Advanced Micro Devices, Inc. Store aware prefetching for a datastream
CN103226521A (zh) * 2013-04-18 2013-07-31 浙江大学 多模式数据预取装置及其管理方法
CN106021128A (zh) * 2016-05-31 2016-10-12 东南大学—无锡集成电路技术研究所 一种基于步幅和数据相关性的数据预取器及其预取方法
WO2016188392A1 (zh) * 2015-05-23 2016-12-01 上海芯豪微电子有限公司 一种数据地址产生系统和方法
CN107194412A (zh) * 2017-04-20 2017-09-22 百度在线网络技术(北京)有限公司 一种处理数据的方法、装置、设备和计算机存储介质
CN107340978A (zh) * 2017-07-18 2017-11-10 郑州云海信息技术有限公司 一种存储预读方法、装置及存储系统
CN108509723A (zh) * 2018-04-02 2018-09-07 东南大学 基于人工神经网络的LRU Cache预取机制性能收益评估方法
CN109960471A (zh) * 2019-03-29 2019-07-02 深圳大学 数据存储方法、装置、设备以及存储介质
CN110018970A (zh) * 2018-01-08 2019-07-16 腾讯科技(深圳)有限公司 缓存预取方法、装置、设备及计算机可读存储介质
CN110245094A (zh) * 2019-06-18 2019-09-17 华中科技大学 一种基于深度学习的块级缓存预取优化方法和系统
US10437718B1 (en) * 2018-04-27 2019-10-08 International Business Machines Corporation Computerized methods for prefetching data based on machine learned sequences of memory addresses
CN110334036A (zh) * 2019-06-28 2019-10-15 京东数字科技控股有限公司 一种实现缓存数据调度的方法和装置
CN110471894A (zh) * 2019-07-22 2019-11-19 腾讯科技(深圳)有限公司 一种数据预取方法、装置、终端及存储介质
CN110704107A (zh) * 2019-09-30 2020-01-17 上海兆芯集成电路有限公司 预取器、预取器的运作方法及处理器
CN110765034A (zh) * 2018-07-27 2020-02-07 华为技术有限公司 一种数据预取方法及终端设备
CN111143243A (zh) * 2019-12-19 2020-05-12 上海交通大学 一种基于nvm混合内存的缓存预取方法及系统
US20200272566A1 (en) * 2019-02-21 2020-08-27 Hitachi, Ltd. Data processing device, storage device, and prefetch method
CN111651120A (zh) * 2020-04-28 2020-09-11 中国科学院微电子研究所 预取数据的方法及装置
US20200341899A1 (en) * 2019-04-26 2020-10-29 EMC IP Holding Company LLC System and method for prediction based cache management
CN112136142A (zh) * 2018-05-31 2020-12-25 谷歌有限责任公司 计算机系统预测机器学习模型
CN112199304A (zh) * 2019-07-08 2021-01-08 华为技术有限公司 数据预取方法及装置
CN112416437A (zh) * 2020-12-02 2021-02-26 海光信息技术股份有限公司 信息处理方法、信息处理装置和电子设备
CN112667528A (zh) * 2019-10-16 2021-04-16 华为技术有限公司 一种数据预取的方法及相关设备
CN113435601A (zh) * 2020-03-23 2021-09-24 华为技术有限公司 数据预取方法、装置以及存储设备

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266578A (zh) * 2008-02-22 2008-09-17 浙江大学 基于增量式闭合序列挖掘的高速缓存数据预取方法
WO2011031837A1 (en) * 2009-09-11 2011-03-17 Advanced Micro Devices, Inc. Store aware prefetching for a datastream
CN103226521A (zh) * 2013-04-18 2013-07-31 浙江大学 多模式数据预取装置及其管理方法
WO2016188392A1 (zh) * 2015-05-23 2016-12-01 上海芯豪微电子有限公司 一种数据地址产生系统和方法
CN106021128A (zh) * 2016-05-31 2016-10-12 东南大学—无锡集成电路技术研究所 一种基于步幅和数据相关性的数据预取器及其预取方法
CN107194412A (zh) * 2017-04-20 2017-09-22 百度在线网络技术(北京)有限公司 一种处理数据的方法、装置、设备和计算机存储介质
CN107340978A (zh) * 2017-07-18 2017-11-10 郑州云海信息技术有限公司 一种存储预读方法、装置及存储系统
CN110018970A (zh) * 2018-01-08 2019-07-16 腾讯科技(深圳)有限公司 缓存预取方法、装置、设备及计算机可读存储介质
CN108509723A (zh) * 2018-04-02 2018-09-07 东南大学 基于人工神经网络的LRU Cache预取机制性能收益评估方法
US10437718B1 (en) * 2018-04-27 2019-10-08 International Business Machines Corporation Computerized methods for prefetching data based on machine learned sequences of memory addresses
CN112136142A (zh) * 2018-05-31 2020-12-25 谷歌有限责任公司 计算机系统预测机器学习模型
CN110765034A (zh) * 2018-07-27 2020-02-07 华为技术有限公司 一种数据预取方法及终端设备
US20200272566A1 (en) * 2019-02-21 2020-08-27 Hitachi, Ltd. Data processing device, storage device, and prefetch method
CN109960471A (zh) * 2019-03-29 2019-07-02 深圳大学 数据存储方法、装置、设备以及存储介质
US20200341899A1 (en) * 2019-04-26 2020-10-29 EMC IP Holding Company LLC System and method for prediction based cache management
CN110245094A (zh) * 2019-06-18 2019-09-17 华中科技大学 一种基于深度学习的块级缓存预取优化方法和系统
CN110334036A (zh) * 2019-06-28 2019-10-15 京东数字科技控股有限公司 一种实现缓存数据调度的方法和装置
CN112199304A (zh) * 2019-07-08 2021-01-08 华为技术有限公司 数据预取方法及装置
CN110471894A (zh) * 2019-07-22 2019-11-19 腾讯科技(深圳)有限公司 一种数据预取方法、装置、终端及存储介质
CN110704107A (zh) * 2019-09-30 2020-01-17 上海兆芯集成电路有限公司 预取器、预取器的运作方法及处理器
CN112667528A (zh) * 2019-10-16 2021-04-16 华为技术有限公司 一种数据预取的方法及相关设备
CN111143243A (zh) * 2019-12-19 2020-05-12 上海交通大学 一种基于nvm混合内存的缓存预取方法及系统
CN113435601A (zh) * 2020-03-23 2021-09-24 华为技术有限公司 数据预取方法、装置以及存储设备
CN111651120A (zh) * 2020-04-28 2020-09-11 中国科学院微电子研究所 预取数据的方法及装置
CN112416437A (zh) * 2020-12-02 2021-02-26 海光信息技术股份有限公司 信息处理方法、信息处理装置和电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAOYUAN WANG 等: "Data Cache Prefetching with Perceptron Learning", 《ARXIV》 *
LEI YANG 等: "Leaper: A Learned Prefetcher for Cache Invalidation in LSM-tree based Storage Engines", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *
SHIH-WEI LIAO 等: "Machine Learning-Based Prefetch Optimization for Data Center Applications", 《PROCEEDINGS OF THE CONFERENCE ON HIGH PERFORMANCE COMPUTING NETWORKING,STORAGE AND ANALYSIS》 *
欧国东 等: "一种基于线程的数据预取方法", 《计算机工程与科学》 *
郝利云 等: "基于卡尔曼预测器的数据预取方法", 《计算机仿真》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612716A (zh) * 2023-06-09 2023-08-18 深圳融创嘉业科技有限公司 一种数控led阵列

Also Published As

Publication number Publication date
CN114065947B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN111143612A (zh) 视频审核模型训练方法、视频审核方法及相关装置
CN108875519B (zh) 对象检测方法、装置和系统及存储介质
CN110032437B (zh) 一种基于信息时效性的计算任务处理方法及装置
CN114065947B (zh) 一种数据访问推测方法、装置、存储介质及电子设备
CN110851987A (zh) 基于加速比预测计算时长的方法、装置和存储介质
CN114866563A (zh) 扩容方法、装置、系统和存储介质
CN110163401B (zh) 时间序列的预测方法、数据预测方法和装置
CN112365156B (zh) 一种数据处理方法、数据处理装置、终端及存储介质
CN107977923B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN113569704B (zh) 分割点判断方法、系统、存储介质及电子设备
CN111582456B (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN111047042B (zh) 一种推理服务模型的运行方法及装置
CN110209878B (zh) 视频处理方法、装置、计算机可读介质及电子设备
CN112507216A (zh) 一种数据对象推荐方法、装置、设备和存储介质
CN108012191B (zh) 视频数据处理方法及装置、计算设备、介质
CN111782479A (zh) 日志处理方法、装置、电子设备及计算机可读存储介质
CN111382557A (zh) 非定长输入数据的批量处理方法、装置、终端及存储介质
CN113568733A (zh) 资源分配方法、装置、电子设备及存储介质
CN111274640A (zh) 样板间应用方法、装置及电子设备
CN110706706A (zh) 一种语音识别方法、装置、服务器及存储介质
CN109583512A (zh) 图像处理方法、装置及系统
CN115578583B (zh) 图像处理方法、装置、电子设备和存储介质
CN117251295B (zh) 一种资源预测模型的训练方法、装置、设备及介质
CN116957272B (zh) 一种卫星任务规划方法、装置、电子设备及存储介质
CN112866692B (zh) 一种基于hevc的编码单元划分方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant