CN114637466A - 一种数据读写行为推测方法、装置、存储介质及电子设备 - Google Patents

一种数据读写行为推测方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114637466A
CN114637466A CN202210206392.1A CN202210206392A CN114637466A CN 114637466 A CN114637466 A CN 114637466A CN 202210206392 A CN202210206392 A CN 202210206392A CN 114637466 A CN114637466 A CN 114637466A
Authority
CN
China
Prior art keywords
data
read
probability
behavior
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210206392.1A
Other languages
English (en)
Other versions
CN114637466B (zh
Inventor
王天添
董芸豪
沈晨玙
马晨琳
周池
毛睿
王毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202210206392.1A priority Critical patent/CN114637466B/zh
Publication of CN114637466A publication Critical patent/CN114637466A/zh
Application granted granted Critical
Publication of CN114637466B publication Critical patent/CN114637466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种数据读写行为推测方法、装置、存储介质及电子设备,当预设多层段落式存储系统中对应的段落式数据节点的深度大于多层段落式存储系统的最小激活深度,在多层段落式存储系统中获取读写行为数据;按照预设区隔度对段落式数据节点进行划分,得到多个区隔;在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集;将每一个区隔内的特征数据和数据集输入目标推测模型进行计算并确定多层段落式存储系统中相应区隔内的数据的读写行为。该方法通过分离数据读写规律进行推测,实现了对应实际的读写场景下数据的自适应优化调整,解决了存储系统无法根据实际读写情况进行数据结构优化的问题。

Description

一种数据读写行为推测方法、装置、存储介质及电子设备
技术领域
本发明涉及数据推测访问技术领域,具体涉及一种数据读写行为推测方法、装置、存储介质及电子设备。
背景技术
在互联网的产业高速发展的今天,随着用户数量和互联网应用的快速增长,互联网内所产生的音视频等多媒体数据以及商业领域的大量电子数据呈指数级增长,导致了行业内对存储性能的要求也越来越高。企业级存储系统以及新兴的区块链储存系统大量采用了树形结构作为存储系统的数据结构,以求获得更优的写入性能。然而,树形结构以牺牲读性能而提高写性能的优化思路在云存储与区块链存储的应用场景下,难以适应其对高读写性能的要求。目前的数据结构优化方法中,较为普遍的优化方法为将有序字符串表进行合并和下压,但是这种方法均无法对应实际的读写场景进行自适应优化调整,难以在云存储与区块链存储的应用下实现不同数据使用场景的稳定的高读写性能,导致存储系统无法根据实际读写情况进行数据结构优化。
发明内容
有鉴于此,本发明实施例提供了涉及一种数据读写行为推测方法、装置、存储介质及电子设备,以解决现有技术中存储系统无法根据实际读写情况进行数据结构优化的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种数据读写行为推测方法,该数据读写行为推测方法包括:当预设多层段落式存储系统中对应的段落式数据节点的深度大于所述多层段落式存储系统的最小激活深度,在所述多层段落式存储系统中获取读写行为数据;按照预设区隔度对段落式数据节点进行划分,得到多个区隔,其中所述区隔度用于表征根据固定键值跨度确定的存储区域中包含的段落式数据存储节点的数量;在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集;将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率;根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为。
可选地,将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率,包括:将所述特征数据输入目标推测模型计算得到包含所述目标推测模型选择所述切割行为的第一初始概率和所述目标推测模型选择所述保持行为的第二初始概率的数据集;根据预设归一化函数对所述第一初始概率和所述第二初始概率进行归一化处理得到对应的所述第一概率和所述第二概率。
可选地,根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为,包括:根据所述第一概率和所述第二概率对数据读写行为优先级进行排序;根据排序结果选择所述多层段落式存储系统中相应区隔度内的数据的读写行为。
可选地,在每一个区隔内的读写行为数据中分离出用于读写行为推测的数据集,包括:根据下式函数生成对应的数据集:
Figure BDA0003529920900000021
Figure BDA0003529920900000031
式中,ValidationSet[k]表示第k个区隔内的数据集;IORatio[k]表示第k个区隔内的总读写行为统计数据之和与所有区隔内的总读写行为统计数据之和的比率;BlockData[k]表示第k个区隔。
可选地,根据排序结果选择所述多层段落式存储系统中相应区隔度内的数据的读写行为,包括:根据下式确定第一随机值和第二随机值:
p1=ranNum(0.75,0.85)
p2=ranNum(ranNum(0.75,0.9)*(1-p1),1-p1)
式中,p1表示第一随机值;p2表示第二随机值;
通过下式获取随机数:
Figure BDA0003529920900000032
Figure BDA0003529920900000033
式中,
Figure BDA0003529920900000034
表示随机数;
Figure BDA0003529920900000035
在所述切割行为和所述保持行为中随机选择任意一种行为;当
Figure BDA0003529920900000036
选择执行第二优先级对应的读写行为;当
Figure BDA0003529920900000037
选择执行第一优先级对应的读写行为。
可选地,根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为之后,所述方法还包括:当确定所述多层段落式存储系统中相应区隔内的数据的读写行为是切割行为,确定待切割段落式数据节点;对所述待切割段落式数据节点对应的初始数据进行计算并得到新的段落式数据节点对应的数据;根据所述数据对所述待切割段落式数据节点进行切割。
本发明实施例第二方面提供一种数据读写行为推测装置,该数据读写行为推测装置包括:获取模块,用于当预设多层段落式存储系统中对应的段落式数据节点的深度大于所述多层段落式存储系统的最小激活深度,在所述多层段落式存储系统中获取读写行为数据;划分模块,用于按照预设区隔度对段落式数据节点进行划分,得到多个区隔,其中所述区隔度用于表征根据固定键值跨度确定的存储区域中包含的段落式数据存储节点的数量;处理模块,用于在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集;传输模块,用于将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率;确定模块,用于根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为。
可选地,所述装置还包括:第一计算模块,用于将所述特征数据输入目标推测模型计算得到包含所述目标推测模型选择所述切割行为的第一初始概率和所述目标推测模型选择所述保持行为的第二初始概率的数据集;第一处理模块,用于根据预设归一化函数对所述第一初始概率和所述第二初始概率进行归一化处理得到对应的所述第一概率和所述第二概率。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的数据读写行为推测方法。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的数据读写行为推测方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的数据读写行为推测方法,当预设多层段落式存储系统中对应的段落式数据节点的深度大于所述多层段落式存储系统的最小激活深度,在所述多层段落式存储系统中获取读写行为数据;按照预设区隔度对段落式数据节点进行划分,得到多个区隔,其中所述区隔度用于表征根据固定键值跨度确定的存储区域中包含的段落式数据存储节点的数量;在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集;将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率;根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为。该方法根据用户访问数据存储单元的读写行为数据,分离出对应的数据读写规律并导入目标推测模型进行推测,实现了对应实际的读写场景下数据的自适应优化调整,解决了存储系统无法根据实际读写情况进行数据结构优化的问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的数据读写行为推测方法的流程图;
图2是根据本发明实施例提供的段落式数据节点示意图;
图3是根据本发明实施例提供的分割过后的段落式数据节点示意图;
图4是根据本发明实施例的数据读写行为推测装置的结构框图;
图5是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图6是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据读写行为推测方法,如图1所示,该方法包括如下步骤:
步骤S101:当预设多层段落式存储系统中对应的段落式数据节点的深度大于所述多层段落式存储系统的最小激活深度,在所述多层段落式存储系统中获取读写行为数据。具体地,该预设多层段落式存储系统对应的系统结构组成包括:多层段落式存储系统以及用于该多层段落式存储系统内的数据存储单元:段落式数据节点。然后,通过下式计算该多层段落式存储系统的最小激活深度:
Figure BDA0003529920900000061
式中,minActivationDepth表示多层段落式存储系统的最小激活深度;currMaxDepth表示当前多层段落式存储系统的最大深度;
当该多层段落式存储系统对应的段落式数据节点的深度大于该多层段落式存储系统的最小激活深度,在该多层段落式存储系统中获取对应的读写行为数据。
其中,该多层段落式存储系统和段落式数据节点包括如下特征:
首先,在该多层段落式存储系统中包含多级数据,其中每级包含若干个段落式数据节点,每层数据最大规模逐层增加,规定下一层数据规模为上一层的13倍,当某层的数据达到最大规模,系统将会执行单元整理操作,将本层5个相邻的段落式数据节点以有序插入的方式合并为一个新的段落式数据节点,并将此段落式数据节点移动至下一层。其中,数据最大规模由该多层段落式存储系统决定,表示该多层段落式存储系统构建时所设定的每层所能容纳的最大数据规模;
其次,该多层段落式存储系统的每层都存在一份目录文件,记录本层的最大键值、最小键值和本层剩余容量大小;
最后,该段落式数据节点内数据以若干资源单元的形式存储,资源单元的排序按照键值降序排列,在段落式数据节点的开始端,将会存储本段落式数据节点的键值范围。其中,键值范围在段落式数据节点生成时产生,仅包含本段落式数据节点内键值的最大、最小值。因为资源单元是有序排列的,所以该范围的产生方法是提取该段落式数据节点内的第一个资源单元的键值和最后一个资源单元的键值。
步骤S102:按照预设区隔度对段落式数据节点进行划分,得到多个区隔,其中所述区隔度用于表征根据固定键值跨度确定的存储区域中包含的段落式数据存储节点的数量。具体地,在得到多层段落式存储系统和段落式数据节点之后,根据预先设置的区隔度对段落式数据节点进行划分可以得到多个区隔。其中,将一个固定键值跨度的资源单元定义为一个区隔;区隔度用于表征根据固定键值跨度确定的存储区域(多层段落式存储系统)中包含的段落式数据存储节点的数量。
在一实施例中,如图2所示,表示区隔度为2时的段落式数据节点。
步骤S103:在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集。为了实现数据在实际的读写场景中的自适应优化调整,需要得到实际的读写场景对应的数据读写规律来完成自适应优化调整。首先在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据,包括用于读写推测的特征时间维度和用于读写推测的特征空间维度。具体地,对于每一个区隔,都可以独一无二映射出一个一维向量组τ=[ω,ρ,η,α,β,γ,δ,θ],其中,[ω,ρ,η]表示特征时间维度;[α,β,γ,δ,θ]表示特征空间维度。这些特征量根据以下公式进行推到并表示:
①读写系数:
Figure BDA0003529920900000081
用于表示每一个区隔内读写行为数据的读次数占读写行为数据的总次数的比值。其中,n表示每一个区隔内资源单元内读写行为数据的读操作次数总和;n表示每一个区隔内资源单元内读写行为数据的写操作次数总和。
②读时间系数:
Figure BDA0003529920900000082
用于表示每一个区隔内读写行为数据的读时间占读写行为数据的总读写时间的比值。其中,∑Time表示每一个区隔内资源单元内读写行为数据的每个读操作开始时间的和;∑Time表示每一个区隔内资源单元内读写行为数据的每个写操作开始时间的和。
③写时间系数:
Figure BDA0003529920900000083
用于表示每一个区隔内读写行为数据的写时间占读写行为数据的总读写时间的比值。
④当前块内位置:α,用于表示当前区隔在多层段落式存储系统的一层中所占的位置。
⑤当前块位置:β,用于表示当前区隔在多层段落式存储系统中的层数位置。
⑥数据非原子个数:
Figure BDA0003529920900000091
用于表示每一个区隔内包含的最小不可分原子个数。其中,TotalSize表示区隔大小;AtomSize表示区隔原子大小。
⑦堆叠最大深度:δ,用于表示当前多层段落式存储系统中最深的段落式数据节点的深度。
⑧堆叠系数:
Figure BDA0003529920900000092
其中,βi表示第i个区隔在多层段落式存储系统中的层数位置;γi表示第i个区隔中的最小不可分原子个数;n表示总区隔个数。
然后,同时在每一个区隔内的读写行为数据中分离出用于读写行为推测的数据集。
步骤S104:将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率。具体地,首先定义目标推测模型:自迭代推测模型。该模型可以通过输入的特征数据和数据集获得数据的两种行为(切割、保持)的最优概率即对应的切割行为的第一概率和对应的保持行为的第二概率,该自迭代推测模型可以通过获取大量的不同读写场景下的历史数据训练得到。
步骤S105:根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为。具体地,在得到对应的切割行为的第一概率和对应的保持行为的第二概率之后,根据该第一概率和第二概率既可以确定该多层段落式存储系统中相应区隔内的数据的读写行为。
本发明实施例提供的数据读写行为推测方法,根据用户访问数据存储单元的读写行为数据,分离出对应的数据读写规律并导入目标推测模型进行推测,实现了对应实际的读写场景下数据的自适应优化调整,解决了存储系统无法根据实际读写情况进行数据结构优化的问题。
作为本发明实施例一种可选的实施方式,步骤S104,包括:将所述特征数据输入目标推测模型计算得到包含所述目标推测模型选择所述切割行为的第一初始概率和所述目标推测模型选择所述保持行为的第二初始概率的数据集;根据预设归一化函数对所述第一初始概率和所述第二初始概率进行归一化处理得到对应的所述第一概率和所述第二概率。
具体地,首先构建自迭代推测模型。具体地,自迭代推测模型使用的是深度神经网络模型,首先搭建网络层次结构(包含输入层,中间层,隐藏层,输出层等),然后将τ=[ω,ρ,η,α,β,γ,δ,θ]作为训练数据,对应的实际行为(切割、保持)作为监督训练结果,输入至深度神经网络用于网络训练并更新网络参数。当测试集的准确率达到0.9时,完成第一轮的网络训练并部署。
然后,将该得到的特征数据τ=[ω,ρ,η,α,β,γ,δ,θ]输入到该构建的自迭代推测模型中,该自迭代推测模型使用深度神经网络模型进行计算并输出计算结果ValidationSet[k]=[β1,β2],其中,β1表示对于选择切割行为的概率推测,即第一初始概率;β2表示对于选择保持行为的概率推测,即第二初始概率。
最后,通过以下归一化函数对该第一初始概率和第二初始概率进行归一化处理:
Figure BDA0003529920900000101
式中,θi表示归一化后对于选择两种行为的概率推测,i=1时,θi即表示归一化后对于选择切割行为的概率推测;i=2时,θi即表示归一化后对于选择保持行为的概率推测;
Figure BDA0003529920900000102
表示第一初始概率和第二初始概率的总和。
作为本发明实施例一种可选的实施方式,在每一个区隔内的读写行为数据中分离出用于读写行为推测的数据集,包括:根据下式函数生成对应的数据集:
Figure BDA0003529920900000111
Figure BDA0003529920900000112
式中,ValidationSet[k]表示第k个区隔内的数据集;IORatio[k]表示第k个区隔内的总读写行为统计数据之和(∑BlockData[k].Operation)与所有区隔内的总读写行为统计数据之和(∑BlockData[k])的比率;BlockData[k]表示第k个区隔。
具体地,
Figure BDA0003529920900000113
其中,IOLogFile[key]表示键值key对应的数据的读写行为统计数据。
通过该函数得到的数据集ValidationSet[k]有且仅有2个值:0和1。其中,规定1表示相关区隔内的数据应该被切割为单独的段落式数据节点,0表示相关区隔内的数据不需要进行改动。
作为本发明实施例一种可选的实施方式,步骤S105,包括:根据所述第一概率和所述第二概率对数据读写行为优先级进行排序;根据排序结果选择所述多层段落式存储系统中相应区隔度内的数据的读写行为。具体地,在得到第一概率和第二概率之后,为了更快的确定数据的读写行为,首先对数据读写行为进行优先级排序,概率越小则优先级越低。然后根据排序结果即可以确定该多层段落式存储系统中相应区隔度内的数据的读写行为。
首先,其确定逻辑为:p1的情况下执行优先级最大的行为;p2的情况下执行优先级第二的行为,p3的情况下随机选择两种行为中的一种。
具体地,根据下式确定p1、p2、p3
fun ranNum(a,b):获得区间[a,b)之间的随机数
p1=ranNum(0.75,0.85)
p2=ranNum(ranNum(0.75,0.9)*(1-p1),1-p1)
p3=1-p1-p2
然后,通过下式获取随机数:
Figure BDA0003529920900000121
Figure BDA0003529920900000122
最后,当
Figure BDA0003529920900000123
即p3的情况下则在所述切割行为和所述保持行为中随机选择任意一种行为;当
Figure BDA0003529920900000124
选择执行第二优先级对应的读写行为;当
Figure BDA0003529920900000125
选择执行第一优先级对应的读写行为。
作为本发明实施例一种可选的实施方式,步骤S105之后,所述方法还包括:当确定所述多层段落式存储系统中相应区隔内的数据的读写行为是切割行为,确定待切割段落式数据节点;对所述待切割段落式数据节点对应的初始数据进行计算并得到新的段落式数据节点对应的数据;根据所述数据对所述待切割段落式数据节点进行切割。具体地,若确定多层段落式存储系统中相应区隔内的数据的读写行为是切割行为时,需要对相关的段落式数据节点进行切割。
在一实施例中,确定待切割段落式数据节点之后,重新计算原有的管理数据并生成新的3个3段落式数据节点的管理数据并将原有的待切割段落式数据节点分割为3个段落式数据节点。当该多层段落式存储系统执行区隔2的指令后,段落式数据节点如图3所示。通过切割,使得可以在段落式数据节点的每个区隔内都对对应的数据的读写行为进行访问与推测,达到了加速访问的效果。
本发明实施例还提供一种数据读写行为推测装置,如图4所示,该装置包括:
获取模块401,用于当预设多层段落式存储系统中对应的段落式数据节点的深度大于所述多层段落式存储系统的最小激活深度,在所述多层段落式存储系统中获取读写行为数据;详细内容参见上述方法实施例中步骤S101的相关描述。
划分模块402,用于按照预设区隔度对段落式数据节点进行划分,得到多个区隔,其中所述区隔度用于表征根据固定键值跨度确定的存储区域中包含的段落式数据存储节点的数量;详细内容参见上述方法实施例中步骤S102的相关描述。
处理模块403,用于在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集;详细内容参见上述方法实施例中步骤S103的相关描述。
传输模块404,用于将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率;详细内容参见上述方法实施例中步骤S104的相关描述。
确定模块405,用于根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为;详细内容参见上述方法实施例中步骤S105的相关描述。
本发明实施例提供的数据读写行为推测装置,根据用户访问数据存储单元的读写行为数据,分离出对应的数据读写规律并导入目标推测模型进行推测,实现了对应实际的读写场景下数据的自适应优化调整,解决了存储系统无法根据实际读写情况进行数据结构优化的问题。
作为本发明实施例一种可选的实施方式,所述装置还包括:第一计算模块,用于将所述特征数据输入目标推测模型计算得到包含所述目标推测模型选择所述切割行为的第一初始概率和所述目标推测模型选择所述保持行为的第二初始概率的数据集;第一处理模块,用于根据预设归一化函数对所述第一初始概率和所述第二初始概率进行归一化处理得到对应的所述第一概率和所述第二概率。
作为本发明实施例一种可选的实施方式,所述装置还包括:排序模块,用于根据所述第一概率和所述第二概率对数据读写行为优先级进行排序;第一选择模块,用于根据排序结果选择所述多层段落式存储系统中相应区隔度内的数据的读写行为。
作为本发明实施例一种可选的实施方式,所述装置还包括:统计模块,用于根据下式函数生成对应的数据集:
Figure BDA0003529920900000141
Figure BDA0003529920900000142
式中,ValidationSet[k]表示第k个区隔内的数据集;IORatio[k]表示第k个区隔内的总读写行为统计数据之和与所有区隔内的总读写行为统计数据之和的比率;BlockData[k]表示第k个区隔。
作为本发明实施例一种可选的实施方式,所述装置还包括:第一确定模块,用于根据下式确定第一随机值和第二随机值:
p1=ranNum(0.75,0.85)
p2=ranNum(ranNum(0.75,0.9)*(1-p1),1-p1)
式中,p1表示第一随机值;p2表示第二随机值;
第二确定模块,用于通过下式获取随机数:
Figure BDA0003529920900000151
Figure BDA0003529920900000152
式中,
Figure BDA0003529920900000153
表示随机数;
第二选择模块,用于当
Figure BDA0003529920900000154
在所述切割行为和所述保持行为中随机选择任意一种行为;第三选择模块,用于当
Figure BDA0003529920900000155
选择执行第二优先级对应的读写行为;第四选择模块,用于当
Figure BDA0003529920900000156
选择执行第一优先级对应的读写行为。
作为本发明实施例一种可选的实施方式,所述装置还包括:第三确定模块,用于当确定所述多层段落式存储系统中相应区隔内的数据的读写行为是切割行为,确定待切割段落式数据节点;第二计算模块,用于对所述待切割段落式数据节点对应的初始数据进行计算并得到新的段落式数据节点对应的数据;切割模块,用于根据所述数据对所述待切割段落式数据节点进行切割。
本发明实施例提供的数据读写行为推测装置的功能描述详细参见上述实施例中数据读写行为推测方法描述。
本发明实施例还提供一种存储介质,如图5所示,其上存储有计算机程序501,该指令被处理器执行时实现上述实施例中数据读写行为推测方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Di sk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图6所示,该电子设备可以包括处理器61和存储器62,其中处理器61和存储器62可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器61可以为中央处理器(Central Processing Unit,CPU)。处理器61还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器62作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器61通过运行存储在存储器62中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的数据读写行为推测方法。
存储器62可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器61所创建的数据等。此外,存储器62可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器62可选包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至处理器61。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器62中,当被所述处理器61执行时,执行如图1-3所示实施例中的数据读写行为推测方法。
上述电子设备具体细节可以对应参阅图1至图3所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种数据读写行为推测方法,其特征在于,包括如下步骤:
当预设多层段落式存储系统中对应的段落式数据节点的深度大于所述多层段落式存储系统的最小激活深度,在所述多层段落式存储系统中获取读写行为数据;
按照预设区隔度对段落式数据节点进行划分,得到多个区隔,其中所述区隔度用于表征根据固定键值跨度确定的存储区域中包含的段落式数据存储节点的数量;
在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集;
将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率;
根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为。
2.根据权利要求1所述的方法,其特征在于,将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率,包括:
将所述特征数据输入目标推测模型计算得到包含所述目标推测模型选择所述切割行为的第一初始概率和所述目标推测模型选择所述保持行为的第二初始概率的数据集;
根据预设归一化函数对所述第一初始概率和所述第二初始概率进行归一化处理得到对应的所述第一概率和所述第二概率。
3.根据权利要求1所述的方法,其特征在于,根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为,包括:
根据所述第一概率和所述第二概率对数据读写行为优先级进行排序;
根据排序结果选择所述多层段落式存储系统中相应区隔度内的数据的读写行为。
4.根据权利要求1所述的方法,其特征在于,在每一个区隔内的读写行为数据中分离出用于读写行为推测的数据集,包括:
根据下式函数生成对应的数据集:
Figure FDA0003529920890000021
Figure FDA0003529920890000022
式中,ValidationSet[k]表示第k个区隔内的数据集;IORatio[k]表示第k个区隔内的总读写行为统计数据之和与所有区隔内的总读写行为统计数据之和的比率;BlockData[k]表示第k个区隔。
5.根据权利要求3所述的方法,其特征在于,根据排序结果选择所述多层段落式存储系统中相应区隔度内的数据的读写行为,包括:
根据下式确定第一随机值和第二随机值:
p1=ranNum(0.75,0.85)
p2=ranNum(ranNum(0.75,0.9)*(1-p1),1-p1)
式中,p1表示第一随机值;p2表示第二随机值;
通过下式获取随机数:
θ=ranNum(0,1)
Figure FDA0003529920890000031
式中,θ表示随机数;
当p1+p2≤θ<1,在所述切割行为和所述保持行为中随机选择任意一种行为;
当p1≤θ<p1+p2,选择执行第二优先级对应的读写行为;
当0≤θ<p1,选择执行第一优先级对应的读写行为。
6.根据权利要求1所述的方法,其特征在于,根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为之后,所述方法还包括:
当确定所述多层段落式存储系统中相应区隔内的数据的读写行为是切割行为,确定待切割段落式数据节点;
对所述待切割段落式数据节点对应的初始数据进行计算并得到新的段落式数据节点对应的数据;
根据所述数据对所述待切割段落式数据节点进行切割。
7.一种数据读写行为推测装置,其特征在于,包括:
获取模块,用于当预设多层段落式存储系统中对应的段落式数据节点的深度大于所述多层段落式存储系统的最小激活深度,在所述多层段落式存储系统中获取读写行为数据;
划分模块,用于按照预设区隔度对段落式数据节点进行划分,得到多个区隔,其中所述区隔度用于表征根据固定键值跨度确定的存储区域中包含的段落式数据存储节点的数量;
处理模块,用于在每一个区隔内的读写行为数据中提取用于读写行为推测的特征数据并分离出用于读写行为推测的数据集;
传输模块,用于将每一个区隔内的所述特征数据和所述数据集输入目标推测模型得到所述多层段落式存储系统中相应区隔内的数据对应的切割行为的第一概率和对应的保持行为的第二概率;
确定模块,用于根据所述第一概率和所述第二概率确定所述多层段落式存储系统中相应区隔内的数据的读写行为。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一计算模块,用于将所述特征数据输入目标推测模型计算得到包含所述目标推测模型选择所述切割行为的第一初始概率和所述目标推测模型选择所述保持行为的第二初始概率的数据集;
第一处理模块,用于根据预设归一化函数对所述第一初始概率和所述第二初始概率进行归一化处理得到对应的所述第一概率和所述第二概率。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-6任一项所述的数据读写行为推测方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-6任一项所述的数据读写行为推测方法。
CN202210206392.1A 2022-03-03 2022-03-03 一种数据读写行为推测方法、装置、存储介质及电子设备 Active CN114637466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210206392.1A CN114637466B (zh) 2022-03-03 2022-03-03 一种数据读写行为推测方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210206392.1A CN114637466B (zh) 2022-03-03 2022-03-03 一种数据读写行为推测方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114637466A true CN114637466A (zh) 2022-06-17
CN114637466B CN114637466B (zh) 2022-11-11

Family

ID=81947579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210206392.1A Active CN114637466B (zh) 2022-03-03 2022-03-03 一种数据读写行为推测方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114637466B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994017482A1 (en) * 1993-01-25 1994-08-04 Pavilion Technologies, Inc. Method and apparatus for preprocessing input data to a neural network
CN101008923A (zh) * 2007-01-26 2007-08-01 浙江大学 面向异构多核体系的分段式存储空间管理方法
CN109214511A (zh) * 2018-08-15 2019-01-15 算丰科技(北京)有限公司 数据处理方法、数据处理装置以及电子设备
US20190317901A1 (en) * 2018-04-16 2019-10-17 Samsung Electronics Co., Ltd. System and method for optimizing performance of a solid-state drive using a deep neural network
WO2020020088A1 (zh) * 2018-07-23 2020-01-30 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
WO2020062734A1 (zh) * 2018-09-29 2020-04-02 上海百功半导体有限公司 一种存储控制方法、存储控制器、存储设备及存储系统
US20200133898A1 (en) * 2018-10-30 2020-04-30 Marvell World Trade Ltd. Artificial Intelligence-Enabled Management of Storage Media Access
US20210200448A1 (en) * 2019-12-25 2021-07-01 Samsung Electronics Co., Ltd. Method and device for determining strategy for data placement within ssd
CN113254256A (zh) * 2020-02-10 2021-08-13 华为技术有限公司 数据重构方法、存储设备及存储介质
US20210303477A1 (en) * 2020-12-26 2021-09-30 Intel Corporation Management of distributed shared memory
US20210326048A1 (en) * 2016-12-19 2021-10-21 Pure Storage, Inc. Efficiently writing data in a zoned drive storage system
US11175844B1 (en) * 2020-05-13 2021-11-16 International Business Machines Corporation Optimal placement of data structures in a hybrid memory based inference computing platform

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994017482A1 (en) * 1993-01-25 1994-08-04 Pavilion Technologies, Inc. Method and apparatus for preprocessing input data to a neural network
CN101008923A (zh) * 2007-01-26 2007-08-01 浙江大学 面向异构多核体系的分段式存储空间管理方法
US20210326048A1 (en) * 2016-12-19 2021-10-21 Pure Storage, Inc. Efficiently writing data in a zoned drive storage system
US20190317901A1 (en) * 2018-04-16 2019-10-17 Samsung Electronics Co., Ltd. System and method for optimizing performance of a solid-state drive using a deep neural network
WO2020020088A1 (zh) * 2018-07-23 2020-01-30 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
CN109214511A (zh) * 2018-08-15 2019-01-15 算丰科技(北京)有限公司 数据处理方法、数据处理装置以及电子设备
WO2020062734A1 (zh) * 2018-09-29 2020-04-02 上海百功半导体有限公司 一种存储控制方法、存储控制器、存储设备及存储系统
US20200133898A1 (en) * 2018-10-30 2020-04-30 Marvell World Trade Ltd. Artificial Intelligence-Enabled Management of Storage Media Access
US20210200448A1 (en) * 2019-12-25 2021-07-01 Samsung Electronics Co., Ltd. Method and device for determining strategy for data placement within ssd
CN113254256A (zh) * 2020-02-10 2021-08-13 华为技术有限公司 数据重构方法、存储设备及存储介质
WO2021159687A1 (zh) * 2020-02-10 2021-08-19 华为技术有限公司 数据重构方法、存储设备及存储介质
US11175844B1 (en) * 2020-05-13 2021-11-16 International Business Machines Corporation Optimal placement of data structures in a hybrid memory based inference computing platform
US20210303477A1 (en) * 2020-12-26 2021-09-30 Intel Corporation Management of distributed shared memory

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴尚宇,谢婧雯,王毅: "面向键值存储的日志结构合并树优化技术", 《计算机研究与发展》 *
寒泉HQ: "操作系统:第三章 内存管理1- 详解存储管理方式,段表、页表", 《CNDS》 *
艾明: "面向海量数据的云存储系统实现与应用研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN114637466B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
TWI769754B (zh) 基於隱私保護確定目標業務模型的方法及裝置
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN110956272A (zh) 实现数据处理的方法和系统
US9058540B2 (en) Data clustering method and device, data processing apparatus and image processing apparatus
JP2023523029A (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
CN111079899A (zh) 神经网络模型压缩方法、系统、设备及介质
CN109145107B (zh) 基于卷积神经网络的主题提取方法、装置、介质和设备
CN109214671B (zh) 人员分组方法、装置、电子装置及计算机可读存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN111612163A (zh) 一种基于机器学习模型的训练方法及装置
CN111340075B (zh) 一种ics的网络数据检测方法及装置
CN107451249B (zh) 事件发展趋势的预测方法及装置
CN114417095A (zh) 一种数据集划分方法及装置
CN114637466B (zh) 一种数据读写行为推测方法、装置、存储介质及电子设备
CN114782780A (zh) 数据集构建方法、装置以及电子设备
CN114281983B (zh) 分层结构的文本分类方法、系统、电子设备和存储介质
US20220366315A1 (en) Feature selection for model training
CN114118411A (zh) 图像识别网络的训练方法、图像识别方法及装置
CN111984867B (zh) 一种网络资源确定方法及装置
CN114021699A (zh) 一种基于梯度的卷积神经网络剪枝方法及装置
US11640543B2 (en) Rule induction to find and describe patterns in data
WO2024103653A1 (zh) 视频与文本的互检方法、装置、设备、非易失性可读存储介质及终端
CN111859894B (zh) 一种情节文本确定方法及装置
CN112163157B (zh) 一种文本推荐方法、装置、服务器及介质
CN117851355A (zh) 用于边节点的数据缓存方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant