CN114327294B - 一种用于多级存储的数据读取系统 - Google Patents

一种用于多级存储的数据读取系统 Download PDF

Info

Publication number
CN114327294B
CN114327294B CN202111670455.0A CN202111670455A CN114327294B CN 114327294 B CN114327294 B CN 114327294B CN 202111670455 A CN202111670455 A CN 202111670455A CN 114327294 B CN114327294 B CN 114327294B
Authority
CN
China
Prior art keywords
data
task
stored
reading
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111670455.0A
Other languages
English (en)
Other versions
CN114327294A (zh
Inventor
杨镇铭
周传辉
卢小丰
解晓雨
王晟权
马海
丁晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hualu Optical Storage Research Institute Dalian Co ltd
Original Assignee
Hualu Optical Storage Research Institute Dalian Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hualu Optical Storage Research Institute Dalian Co ltd filed Critical Hualu Optical Storage Research Institute Dalian Co ltd
Priority to CN202111670455.0A priority Critical patent/CN114327294B/zh
Publication of CN114327294A publication Critical patent/CN114327294A/zh
Application granted granted Critical
Publication of CN114327294B publication Critical patent/CN114327294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于多级存储的数据读取系统,包括待存储数据类型获取模块用于根据数据知识库获取待存储数据的类型;待存储数据多级存储模块用于根据待存储数据的类型确定待存储数据的存储位置;已存储数据存储位置调整模块用于调整已存储数据的存储位置;任务分类模块用于根据读取任务的特征确定任务类型和待读取数据所在存储位置;数据读取模块用于根据读取任务类型、待读取数据所在存储位置执行读取操作获取待读取数据。通过确定待存储数据的特征及存储类型并进行多级存储,根据读取任务内容进行任务分类并选择读取数据集合,实现文件的跨层读取,提高文件的读取速度。

Description

一种用于多级存储的数据读取系统
技术领域
本发明涉及光存储技术领域,尤其涉及一种用于多级存储的数据读取系统。
背景技术
随着信息化的深入发展,各行业用户数据呈爆炸性增长的趋势越来越明显。所以大容量、低成本、耐长久的蓝光存储技术在数据存储领域也越来越受到业界重视。多级分层存储成为蓝光存储的主流实现技术,多级存储就涉及到文件读取的时候会进行多次的数据拷贝,降低了文件的读取速度。
发明内容
本发明提供一种用于多级存储的数据读取系统,以克服上述技术问题。
一种用于多级存储的数据读取系统,其特征在于,包括待存储数据类型获取模块、待存储数据多级存储模块、已存储数据存储位置调整模块、任务分类模块、数据读取模块,
待存储数据类型获取模块,用于获取待存储数据的类型,包括根据历史数据建立的数据知识库,所述数据知识库中存储不同类型的数据分类模型,所述数据分类模型是根据历史数据的特征数据和标签,通过对待训练历史数据分类模型进行训练后得到,获取待存储的数据后,计算待存储数据的特征和标签,根据数据知识库确定待存储数据的类型;
待存储数据多级存储模块,用于根据待存储数据的类型确定待存储数据的存储位置,分别将待存储数据、待存储数据的特征和标签、存储位置在多级存储系统中进行存储,所述多级存储系统包括SSD阵列、磁存储层以及光存储层;
已存储数据存储位置调整模块,用于调整已存储数据的存储位置,根据已存储时长和读取频率选择需要调整存储位置的已存储数据并重新确定待调整数据的类型,通过数据读取模块获取待调整数据,并通过待存储数据多级存储模块进行存储;
任务分类模块,用于对读取任务的内容进行特征提取,并根据特征确定任务类型和待读取数据所在存储位置,所述任务类型包括紧急任务、普通任务以及一般任务;
数据读取模块用于获取待读取数据,包括根据读取任务类型、待读取数据所在存储位置执行读取操作获取待读取数据,所述读取操作包括第一读取操作、第二读取操作、第三读取操作、第四读取操作,
所述第一读取操作用于将存储于光存储层的数据拷贝于磁存储层,当拷贝结束后从磁存储层获取待读取数据;
所述第二读取操作用于直接获取存储于磁存储层的待读取数据;
所述第三读取操作用于获取待读取数据所在光储存层的挂载点,磁存储层根据挂载点直接获取存储于光存储层的待读取数据,同时执行第一读取操作,当第一读取操作执行结束,磁存储层释放挂载点,并根据读取执行情况执行第二读取操作;
所述第四读取操作用于直接获取存储于SSD阵列中的待读取数据。
优选地,所述根据已存储时长和读取频率选择需要调整存储位置的已存储数据并重新确定待调整数据的类型是指根据预设的时间间隔,判断存储于多级存储系统的数据的读取频率是否低于预设读取频率以及已存储时长是否高于预设存储时长;当所述数据的读取频率低于预设访问频率并已存储时长高于预设存储时长时,将所述数据标记为待调整数据,基于待调整数据的类型、读取频率和已存储时长根据数据知识库重新确定待调整数据的类型。
优选地,所述对读取任务的内容进行特征提取,并根据特征确定任务类型和待读取数据所在存储位置包括,
步骤3a,获取指定领域的多个训练文本,将多个所述训练文本分批次输入至第一神经网络模型中,针对每一批次,采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,并根据提取的文本特征,调整所述第一神经网络模型,得到语言模型,根据语言模型提取所述内容的文本特征,将其作为读取任务的特征;
步骤3b,根据历史读取任务特征与历史任务类型构建第二神经网络模型,通过在第二神经网络模型中输入读取任务的特征,获取其任务类型;
步骤3c,根据读取任务的特征与多级存储系统所存储的数据特征进行特征匹配,获取匹配值高于阈值的数据存储位置。
优选地,所述根据读取任务类型、待读取数据所在存储位置执行读取操作获取待读取数据包括,
当任务类型为一般任务、存储位置在光存储层时,执行第一读取操作;
当任务类型为普通任务、存储位置在光存储层时,执行第三读取操作;
当任务类型为紧急任务、存储位置在光存储层时,执行第三读取操作;
当任务类型为一般任务或普通任务或紧急任务、存储位置在磁存储层时,执行第二读取操作;
当任务类型为一般任务或普通任务或紧急任务、存储位置在SSD阵列时,执行第四读取操作。
本发明提供一种用于多级存储的数据读取系统,通过待存储数据进行特征提取确定存储类型并进行多级存储,根据读取任务的内容确定读取任务类型和读取数据集合,实现文件的跨层读取,提高文件的读取速度,从而避免了多次拷贝带来的低效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明系统结构图,如图1所示,本实施例的方法可以包括:
一种用于多级存储的数据读取系统,包括待存储数据类型获取模块、待存储数据多级存储模块、已存储数据存储位置调整模块、任务分类模块、数据读取模块。
待存储数据类型获取模块,用于获取待存储数据的类型,包括根据历史数据建立的数据知识库,所述数据知识库中存储不同类型的数据分类模型,所述数据分类模型是根据历史数据的特征数据和标签,通过对待训练历史数据分类模型进行训练后得到,获取待存储的数据后,计算待存储数据的特征和标签,根据数据知识库确定待存储数据的类型。
待存储数据多级存储模块,用于根据待存储数据的类型确定待存储数据的存储位置,分别将待存储数据、待存储数据的特征和标签、存储位置在多级存储系统中进行存储,所述多级存储系统包括SSD阵列、磁存储层以及光存储层。例如,当待存储数据为图像数据时,通过数据知识库根据图像数据的特征划分为七种类型,将物理存储空间中划分为七个区域,七个区域分别位于SSD阵列或磁存储层或光存储层,根据待存储数据的类型选择其存储区域。
已存储数据存储位置调整模块,用于调整已存储数据的存储位置,根据已存储时长和读取频率选择需要调整存储位置的已存储数据并重新确定待调整数据的类型,是指根据预设的时间间隔,判断存储于多级存储系统的数据的读取频率是否低于预设读取频率以及已存储时长是否高于预设存储时长;当所述数据的读取频率低于预设访问频率并已存储时长高于预设存储时长时,将所述数据标记为待调整数据,基于待调整数据的类型、读取频率和已存储时长根据数据知识库重新确定待调整数据的类型。通过数据读取模块获取待调整数据后根据重新确定的待调整数据类型进行在多级存储系统中重新存储。
任务分类模块,用于对读取任务的内容进行特征提取,并根据特征确定任务类型和待读取数据所在存储位置,所述任务类型包括紧急任务、普通任务以及一般任务,例如当读取任务的内容中包含有时间信息,计算所述时间信息与当前时间的差值,当差值较大时,将读取任务标记为一般任务,当差值较小时,将读取任务标记为紧急任务。
其中,对读取任务的内容进行特征提取,并根据特征确定任务类型和待读取数据所在存储位置包括,
步骤3a,获取指定领域的多个训练文本,将多个所述训练文本分批次输入至第一神经网络模型中,针对每一批次,采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,并根据提取的文本特征,调整所述第一神经网络模型,得到语言模型,根据语言模型提取所述内容的文本特征,将其作为读取任务的特征;
步骤3b,根据历史读取任务特征与历史任务类型构建第二神经网络模型,通过在第二神经网络模型中输入读取任务的特征,获取其任务类型;
步骤3c,根据读取任务的特征与多级存储系统所存储的数据特征进行特征匹配,获取匹配值高于阈值的数据存储位置。
数据读取模块用于获取待读取数据,包括根据读取任务类型、待读取数据所在存储位置执行读取操作获取待读取数据,所述读取操作包括第一读取操作、第二读取操作、第三读取操作、第四读取操作,具体为根据任务需求选择读取操作,执行一次读取任务可能会执行多种读取操作。
所述第一读取操作用于将存储于光存储层的数据拷贝于磁存储层,当拷贝结束后从磁存储层获取待读取数据;
所述第二读取操作用于直接获取存储于磁存储层的待读取数据;
所述第三读取操作用于获取待读取数据所在光储存层的挂载点,磁存储层根据挂载点直接获取存储于光存储层的待读取数据,同时执行第一读取操作,当第一读取操作执行结束,磁存储层释放挂载点,并根据读取执行情况执行第二读取操作;
所述第四读取操作用于直接获取存储于SSD阵列中的待读取数据。
所述根据读取任务类型、待读取数据所在存储位置执行读取操作获取待读取数据包括,
当任务类型为一般任务、存储位置在光存储层时,执行第一读取操作;
当任务类型为普通任务、存储位置在光存储层时,执行第三读取操作;
当任务类型为紧急任务、存储位置在光存储层时,执行第三读取操作;
当任务类型为一般任务或普通任务或紧急任务、存储位置在磁存储层时,执行第二读取操作;
当任务类型为一般任务或普通任务或紧急任务、存储位置在SSD阵列时,执行第四读取操作。
整体有的有益效果:本发明提供一种用于多级存储的数据读取系统,通过待存储数据进行特征提取确定存储类型并进行多级存储,根据读取任务的内容确定读取任务类型和读取数据集合,实现文件的跨层读取,提高文件的读取速度,从而避免了多次拷贝带来的低效率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种用于多级存储的数据读取系统,其特征在于,包括待存储数据类型获取模块、待存储数据多级存储模块、已存储数据存储位置调整模块、任务分类模块、数据读取模块,
待存储数据类型获取模块,用于获取待存储数据的类型,包括根据历史数据建立的数据知识库,所述数据知识库中存储不同类型的数据分类模型,所述数据分类模型是根据历史数据的特征数据和标签,通过对待训练历史数据分类模型进行训练后得到,获取待存储的数据后,计算待存储数据的特征和标签,根据数据知识库确定待存储数据的类型;
待存储数据多级存储模块,用于根据待存储数据的类型确定待存储数据的存储位置,分别将待存储数据、待存储数据的特征和标签、存储位置在多级存储系统中进行存储,所述多级存储系统包括SSD阵列、磁存储层以及光存储层;
已存储数据存储位置调整模块,用于调整已存储数据的存储位置,根据已存储时长和读取频率选择需要调整存储位置的已存储数据并重新确定待调整数据的类型,通过数据读取模块获取待调整数据,并通过待存储数据多级存储模块进行存储;
任务分类模块,用于对读取任务的内容进行特征提取,并根据特征确定任务类型和待读取数据所在存储位置,所述任务类型包括紧急任务、普通任务以及一般任务;
数据读取模块用于获取待读取数据,包括根据读取任务类型、待读取数据所在存储位置执行读取操作获取待读取数据,所述读取操作包括第一读取操作、第二读取操作、第三读取操作、第四读取操作,
所述第一读取操作用于将存储于光存储层的数据拷贝于磁存储层,当拷贝结束后从磁存储层获取待读取数据;
所述第二读取操作用于直接获取存储于磁存储层的待读取数据;
所述第三读取操作用于获取待读取数据所在光储存层的挂载点,磁存储层根据挂载点直接获取存储于光存储层的待读取数据,同时执行第一读取操作,当第一读取操作执行结束,磁存储层释放挂载点,并根据读取执行情况执行第二读取操作;
所述第四读取操作用于直接获取存储于SSD阵列中的待读取数据。
2.根据权利要求1所述的一种用于多级存储的数据读取系统,其特征在于,所述根据已存储时长和读取频率选择需要调整存储位置的已存储数据并重新确定待调整数据的类型是指根据预设的时间间隔,判断存储于多级存储系统的数据的读取频率是否低于预设读取频率以及已存储时长是否高于预设存储时长;当所述数据的读取频率低于预设访问频率并已存储时长高于预设存储时长时,将所述数据标记为待调整数据,基于待调整数据的类型、读取频率和已存储时长根据数据知识库重新确定待调整数据的类型。
3.根据权利要求1所述的一种用于多级存储的数据读取系统,其特征在于,所述对读取任务的内容进行特征提取,并根据特征确定任务类型和待读取数据所在存储位置包括,
步骤3a,获取指定领域的多个训练文本,将多个所述训练文本分批次输入至第一神经网络模型中,针对每一批次,采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,并根据提取的文本特征,调整所述第一神经网络模型,得到语言模型,根据语言模型提取所述内容的文本特征,将其作为读取任务的特征;
步骤3b,根据历史读取任务特征与历史任务类型构建第二神经网络模型,通过在第二神经网络模型中输入读取任务的特征,获取其任务类型;
步骤3c,根据读取任务的特征与多级存储系统所存储的数据特征进行特征匹配,获取匹配值高于阈值的数据存储位置。
4.根据权利要求1所述的一种用于多级存储的数据读取系统,其特征在于,所述根据读取任务类型、待读取数据所在存储位置执行读取操作获取待读取数据包括,
当任务类型为一般任务、存储位置在光存储层时,执行第一读取操作;
当任务类型为普通任务、存储位置在光存储层时,执行第三读取操作;
当任务类型为紧急任务、存储位置在光存储层时,执行第三读取操作;
当任务类型为一般任务或普通任务或紧急任务、存储位置在磁存储层时,执行第二读取操作;
当任务类型为一般任务或普通任务或紧急任务、存储位置在SSD阵列时,执行第四读取操作。
CN202111670455.0A 2021-12-31 2021-12-31 一种用于多级存储的数据读取系统 Active CN114327294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111670455.0A CN114327294B (zh) 2021-12-31 2021-12-31 一种用于多级存储的数据读取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111670455.0A CN114327294B (zh) 2021-12-31 2021-12-31 一种用于多级存储的数据读取系统

Publications (2)

Publication Number Publication Date
CN114327294A CN114327294A (zh) 2022-04-12
CN114327294B true CN114327294B (zh) 2024-04-05

Family

ID=81021469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111670455.0A Active CN114327294B (zh) 2021-12-31 2021-12-31 一种用于多级存储的数据读取系统

Country Status (1)

Country Link
CN (1) CN114327294B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447086A (zh) * 2015-11-06 2016-03-30 深圳市网心科技有限公司 文件存储方法及实现该存储方法的服务器
CN107766007A (zh) * 2017-11-16 2018-03-06 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107968818A (zh) * 2017-11-17 2018-04-27 北京联想超融合科技有限公司 数据的存储方法、装置及服务器集群
CN111966283A (zh) * 2020-07-06 2020-11-20 云知声智能科技股份有限公司 一种基于企业级超算场景的客户端多级缓存方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447086A (zh) * 2015-11-06 2016-03-30 深圳市网心科技有限公司 文件存储方法及实现该存储方法的服务器
CN107766007A (zh) * 2017-11-16 2018-03-06 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107968818A (zh) * 2017-11-17 2018-04-27 北京联想超融合科技有限公司 数据的存储方法、装置及服务器集群
CN111966283A (zh) * 2020-07-06 2020-11-20 云知声智能科技股份有限公司 一种基于企业级超算场景的客户端多级缓存方法及系统

Also Published As

Publication number Publication date
CN114327294A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
WO2019084419A1 (en) NON-SUPERVISED LEARNING OF SEMANTIC AUDIO REPRESENTATIONS
CN111813954B (zh) 文本语句中两实体的关系确定方法、装置和电子设备
CN111723856B (zh) 一种图像数据处理方法、装置、设备及可读存储介质
CN113032116A (zh) 任务时间预测模型的训练方法、任务调度方法及相关装置
CN113128536A (zh) 无监督学习方法、系统、计算机设备及可读存储介质
CN112101156B (zh) 一种目标识别的方法、装置和电子设备
CN115618964B (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN112507912A (zh) 一种识别违规图片的方法及装置
CN114327294B (zh) 一种用于多级存储的数据读取系统
CN111400484B (zh) 一种关键词提取方法和系统
CN115291813B (zh) 一种数据存储方法及装置、数据读取方法及装置、设备
CN110880035B (zh) 卷积神经网络的训练方法、装置及结节征象识别方法、装置
CN116303901A (zh) 一种基于文本聚类的环境公告信息提取方法和装置
CN109543771A (zh) 一种数据分类的方法及装置
CN112069946B (zh) 人脸美丽预测方法、装置、系统及存储介质
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN114418207A (zh) 一种时间序列趋势预测方法和装置
CN114358284A (zh) 一种基于类别信息对神经网络分步训练的方法、装置、介质
CN114118411A (zh) 图像识别网络的训练方法、图像识别方法及装置
CN113326688A (zh) 一种基于思想政治词语查重处理方法和装置
JP2022125637A (ja) 判定処理プログラム、判定処理方法および情報処理装置
CN111242195A (zh) 模型、保险风控模型训练方法、装置及电子设备
CN116580254B (zh) 样本标签分类方法、系统及电子设备
CN114861650B (zh) 噪音数据的清洗方法及装置、存储介质和电子设备
CN117666958B (zh) 一种延长识别模组存储寿命的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant