CN110928484B - 一种基于软件定义存储的混合云存储方法 - Google Patents

一种基于软件定义存储的混合云存储方法 Download PDF

Info

Publication number
CN110928484B
CN110928484B CN201811095973.2A CN201811095973A CN110928484B CN 110928484 B CN110928484 B CN 110928484B CN 201811095973 A CN201811095973 A CN 201811095973A CN 110928484 B CN110928484 B CN 110928484B
Authority
CN
China
Prior art keywords
data
storage
stored
tag
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811095973.2A
Other languages
English (en)
Other versions
CN110928484A (zh
Inventor
高亦乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inesa R&d Center
Original Assignee
Inesa R&d Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inesa R&d Center filed Critical Inesa R&d Center
Priority to CN201811095973.2A priority Critical patent/CN110928484B/zh
Publication of CN110928484A publication Critical patent/CN110928484A/zh
Application granted granted Critical
Publication of CN110928484B publication Critical patent/CN110928484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/062Securing storage systems
    • G06F3/0622Securing storage systems in relation to access
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于软件定义存储的混合云存储方法,该方法根据数据特征进行数据云存储,包括以下步骤:1)获取待存储数据,识别待存储数据的数据标签;2)根据所述数据标签进行搜索,判断预设的映射表中是否存在所述数据标签,若是,则执行步骤3),若否,则执行步骤4);3)以所述映射表中当前数据标签所对应的存储策略进行待存储数据的存储;4)利用所述数据标签及历史数据存储策略进行机器学习,获得当前数据标签对应的最优存储策略,以该最优存储策略进行待存储数据的存储。与现有技术相比,本发明具有存储效果好、存储方式多样等优点。

Description

一种基于软件定义存储的混合云存储方法
技术领域
本发明涉及数据云存储技术领域,尤其是涉及一种基于软件定义存储的混合云存储方法。
背景技术
在云计算技术日趋成熟的今天,数据呈现出爆炸式的增长,如何有效地存储数据成为了一个充满挑战的话题。一个具有一定规模的云计算平台往往包含了大量不同的租户、不同大小的云主机、不同种类的镜像等等。因此,云存储需要面对的往往是复杂的业务场景。
如果将所有数据不加区别进行存储,有以下几点不足:
1)资源利用率差
一些不重要的数据可能占据了较好的存储资源,存储资源的重要程度和数据没有进行相关。
2)缺乏弹性伸缩
由于数据没有进行分门别类的存储,存储资源进行扩展时,数据容易产生混乱。
3)检索困难
数据没有进行相应分类,数据检索的复杂度增加。
4)存储方式单一
对数据进行无差别存储时,往往存储后端具有单一性,缺少弹性变化。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于软件定义存储的混合云存储方法。
本发明的目的可以通过以下技术方案来实现:
一种基于软件定义存储的混合云存储方法,该方法根据数据特征进行数据云存储,包括以下步骤:
1)获取待存储数据,识别待存储数据的数据标签;
2)根据所述数据标签进行搜索,判断预设的映射表中是否存在所述数据标签,若是,则执行步骤3),若否,则执行步骤4);
3)以所述映射表中当前数据标签所对应的存储策略进行待存储数据的存储;
4)利用所述数据标签及历史数据存储策略进行机器学习,获得当前数据标签对应的最优存储策略,以该最优存储策略进行待存储数据的存储。
进一步地,所述待存储数据包括云主机数据、文件数据、镜像数据和租户信息数据。
进一步地,所述数据标签包括自动生成标签和手动添加标签。
进一步地,所述数据标签包括数据名称、数据大小、数据类目、数据价值和/或数据时效。
进一步地,所述步骤1)中,通过API请求获取所述待存储数据。
进一步地,所述步骤2)包括:
对所述数据标签进行量化处理。
进一步地,所述机器学习过程包括以下步骤:
401)获得待存储数据的数据标签;
402)将历史数据存储策略输入多个预测模型中,选择一最优预测模型;
403)调节所述最优预测模型的参数;
404)将所述数据标签输入经参数调节后的最优预测模型中,获得最优存储策略。
进一步地,所述机器学习过程还包括:
周期性验证并优化所述最优预测模型的正确度。
进一步地,所述待存储数据的存储具体为:
根据存储策略对待存储数据进行分发,包括不同存储系统的分发和不同存储介质的分发。
与现有技术相比,本发明具有以下有益效果:
1)就数据而言,不同数据根据不同标准,所具有的重要性显然可以进行从高到低的划分,本发明根据数据重要性,通过软件定义存储(Software Defined Storage,SDS)的思想,可以将数据应用不同的存储策略,存储于不同方案的后端系统、不同类型的存储介质,存储更加可靠。
2)本发明将云平台中的不同数据进行分级、分类的存储,最大化的提高不同数据所需的安全性、便捷性,同时使得云存储资源的利用率合理化、高效化。
3)本发明待存储数据匹配有数据标签,能够精确、可靠、快速地依据数据标签对数据属性与存储策略进行匹配,从而实现安全分类存储。
4)本发明对于未预设规则的数据采用机器学习进行实时的存储策略优化,方便可靠。
5)本发明周期性地验证和优化机器学习使用的预测模型的正确度,可靠性高。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本发明提供一种基于软件定义存储的混合云存储方法,该方法根据数据特征进行数据云存储,包括以下步骤:
1)获取待存储数据,识别待存储数据的数据标签;
2)根据所述数据标签进行搜索,判断预设的映射表中是否存在所述数据标签,若是,则执行步骤3),若否,则执行步骤4),映射表包括数据标签及对应的存储策略(或存储规则);
3)以所述映射表中当前数据标签所对应的存储策略进行待存储数据的存储;
4)利用所述数据标签及历史数据存储策略进行机器学习,获得当前数据标签对应的最优存储策略,以该最优存储策略进行待存储数据的存储。
存储完成的标签结果对作为历史数据存储策略。
一、数据产生
待存储数据由云平台产生,产生的各类数据包括云主机、文件、镜像、租户信息等等。云平台可通过API请求向Controller发送所述待存储数据。
二、数据标签
为了在存储数据时做到“分而治之”,对于数据本身的一些特性需要有足够清楚的认识。这些特性可将其称为数据标签,这些标签在数据分流以及之后提到的机器学习模块都会起到至关重要的作用。
首先,整个存储方案的初始点是云平台向Controller发送的API请求。API请求本身包含了一定的量的信息。通过识别发送API请求的模块(Glance、Keystone、Nova等),数据本身已经具有一定的区分性,由此形成一个默认的数据类目,可以将这一信息作为最初始的数据标签进行处理。
其次,为了优化后续的存储分发,需要在API中包含尽可能多的数据信息,举例如下:
a.数据名称
用作统一标识类似uuid使用。
b.数据大小
方便后续数据分割处理,同时也会影响存储介质的选择。
c.数据类目
数据类目默认使用发送API请求的模块进行区分。根据数据所属的不同类目,可能存在不同的存储策略或是存储规则。
d.数据价值
用户可以直接指定数据的价值,价值等价于数据的重要程度,作为影响后续存储策略的重要标签之一。
e.数据时效
通过提供数据的时效性,告知后端数据的使用频率,也是影响后续存储策略的标签之一。
添加数据标签的步骤会以可选项的方式征询用户,用户自行选择是否为数据贴标签,贴多少标签。除上述几点之外,用户也可根据自身需求添加更多的标签,方便后续的存储策略灵活匹配。
数据标签可以从API请求中直接提取,因为在API请求中已经包含了最基础的数据产生时所在的模块,由此可以作为最粗粒度的数据分流依据。为了提高匹配精度,还可手动添加数据标签。
三、Controller模块
本发明的核心在于,由Controller模块通过SDS的思想对上层数据进行预处理,对下层存储资源进行合理调配。
对于,经由API请求发送来的数据在Controller模块中进行“分门别类”的处理。
步骤1:将语义化的信息进行量化处理。用户在云平台中产生的数据标签很多都是语义化的标签,比如数据类目、数据价值等,为了方便后续的处理,首先需要将各类标签进行统一的量化处理。
步骤2:对于量化后的数据标签,根据不同的阈值对数据进行打标签的操作。通过阈值的设定,可以将标签的覆盖进行细分。举例来说,数据的重要程度可以是0-1的二分,也可以是0-10的一个范围。
步骤3:对于没有进行标注的标签项,采用空缺的处理方式。
对下,Controller模块对下层的存储方案进行类似标签化的处理,形成映射表。
针对不同类型的存储后端,利用它们各自的优点,建立与数据标签对应的映射表。此处以ceph以及swift为例,如表1所示,列举出不同情况下存储后端选择的情况以及相应说明。
表1
情况 选择 理由
多种存储类型 Ceph 强大的三合一存储
读多写少 Ceph 强一致性设计使得读取效率更高
I/O频繁 Swift Quorum仲裁协议
单一地域 Ceph 速度以及强大的一致性模型
大规模多地域 Swift 多地域支持能力
需要高安全性 Swift 封闭的复制网络更为安全
云基础架构已经足够安全 Ceph 存储安全性优先级降低了
通过上面所述,对上数据预处理以及对下存储资源整合的方式,Controller层可以对数据做到合理的“分而治之”。
四、规则匹配
进行完了标签处理之后,Controller将数据传送到一个二分处理模块,该模块的任务就是将用户预设的存储策略或是存储规则与当前数据进行匹配。该模块的具体实现方式可以利用CEP规则引擎,将所有的预设存储策略与规则放入引擎中,通过规则映射,得到最终的数据存储策略。
数据最终的流向由下面两种方式之一决定:
a.用户预设
用户在系统中可以进行相应规则的预设,根据前文中提到的数据标签,对数据进行细分,建立相应的映射策略。
当上层数据通过API访问Controller时,系统通过识别数据标签,匹配已有的存储策略,利用映射后的结果向下分发数据,进行后续的存储操作。
b.机器学习
当有数据进入Controller层并且没有找到任何符合的预设规则时,数据将会进入到机器学习模块。该模块利用以往的数据存储结果,进行相应的学习,得到一些有效的特征。再与当前数据进行比对分析,找到最合适当前数据的存储策略进行标记,继而向下分发数据,进行后续的存储操作。具体步骤如下。
步骤1:该模块得到新数据,提取新数据的标签。
步骤2:利用有监督学习的方式,将已有数据的标签和对应的存储方案作为训练集,输入各类预测模型中,得到最优模型。
步骤3:对模型进行参数调优。
步骤4:将新数据的标签输入得到的模型中,获取对应的存储方案。
步骤5:根据得到的存储方案对数据进行存储,并将标签结果对进行统一存档。
步骤6:周期性的人工验证其正确度。将不正确的结果进行更正。把这一周期内所有新数据产生的标签结果对取出,作为验证集输入到模型中,进行优化。
通过上述机器学习的过程,能够让新数据得到高效、正确的存储方案,同时通过回环使得整个模型不断优化,提升存储方案的正确性。
五、规则匹配
经过上层处理,数据已经根据相应的规则进行了分发。这里的分发过程可以细分。首先是存储后端的选择,举例来说,数据可以存储到ceph、swift、hdfs等等系统中,然后再细分,可以指定数据的存储介质,HDD、SSD甚至是BlueRay等等。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于软件定义存储的混合云存储方法,其特征在于,该方法根据数据特征进行数据云存储,包括以下步骤:
1)获取待存储数据,识别待存储数据的数据标签;
2)根据所述数据标签进行搜索,判断预设的映射表中是否存在所述数据标签,若是,则执行步骤3),若否,则执行步骤4);
3)以所述映射表中当前数据标签所对应的存储策略进行待存储数据的存储;
4)利用所述数据标签及历史数据存储策略进行机器学习,获得当前数据标签对应的最优存储策略,以该最优存储策略进行待存储数据的存储;
所述机器学习过程包括以下步骤:
401)获得待存储数据的数据标签;
402)将历史数据存储策略输入多个预测模型中,选择一最优预测模型;
403)调节所述最优预测模型的参数;
404)将所述数据标签输入经参数调节后的最优预测模型中,获得最优存储策略。
2.根据权利要求1所述的基于软件定义存储的混合云存储方法,其特征在于,所述待存储数据包括云主机数据、文件数据、镜像数据和租户信息数据。
3.根据权利要求1所述的基于软件定义存储的混合云存储方法,其特征在于,所述数据标签包括自动生成标签和手动添加标签。
4.根据权利要求1所述的基于软件定义存储的混合云存储方法,其特征在于,所述数据标签包括数据名称、数据大小、数据类目、数据价值和/或数据时效。
5.根据权利要求1所述的基于软件定义存储的混合云存储方法,其特征在于,所述步骤1)中,通过API请求获取所述待存储数据。
6.根据权利要求1所述的基于软件定义存储的混合云存储方法,其特征在于,所述步骤2)包括:
对所述数据标签进行量化处理。
7.根据权利要求1所述的基于软件定义存储的混合云存储方法,其特征在于,所述机器学习过程还包括:
周期性验证并优化所述最优预测模型的正确度。
8.根据权利要求1所述的基于软件定义存储的混合云存储方法,其特征在于,所述待存储数据的存储具体为:
根据存储策略对待存储数据进行分发,包括不同存储系统的分发和不同存储介质的分发。
CN201811095973.2A 2018-09-19 2018-09-19 一种基于软件定义存储的混合云存储方法 Active CN110928484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811095973.2A CN110928484B (zh) 2018-09-19 2018-09-19 一种基于软件定义存储的混合云存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811095973.2A CN110928484B (zh) 2018-09-19 2018-09-19 一种基于软件定义存储的混合云存储方法

Publications (2)

Publication Number Publication Date
CN110928484A CN110928484A (zh) 2020-03-27
CN110928484B true CN110928484B (zh) 2023-12-22

Family

ID=69855220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811095973.2A Active CN110928484B (zh) 2018-09-19 2018-09-19 一种基于软件定义存储的混合云存储方法

Country Status (1)

Country Link
CN (1) CN110928484B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726251B (zh) * 2020-06-12 2023-04-25 浪潮电子信息产业股份有限公司 一种虚拟化系统中sds存储域的组网方法、系统及装置
CN112506423B (zh) * 2020-11-02 2021-07-20 北京迅达云成科技有限公司 一种云储存系统中动态接入存储设备的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605795A (zh) * 2013-12-05 2014-02-26 用友软件股份有限公司 一种基于元数据的文件存储方法和装置
CN103616945A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 大规模云数据中心中一种服务器节能方法及装置
CN106060149A (zh) * 2016-06-24 2016-10-26 北京交通大学 一种移动互联网海量数据分析审计技术架构
CN106156886A (zh) * 2016-06-30 2016-11-23 亿阳安全技术有限公司 一种基于运营商系统数据补全规则应用流程的方法及系统
CN107766007A (zh) * 2017-11-16 2018-03-06 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107783734A (zh) * 2017-11-17 2018-03-09 北京联想超融合科技有限公司 一种基于超融合存储系统的资源分配方法、装置及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170208052A1 (en) * 2016-01-19 2017-07-20 Hope Bay Technologies, Inc Hybrid cloud file system and cloud based storage system having such file system therein

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103616945A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 大规模云数据中心中一种服务器节能方法及装置
CN103605795A (zh) * 2013-12-05 2014-02-26 用友软件股份有限公司 一种基于元数据的文件存储方法和装置
CN106060149A (zh) * 2016-06-24 2016-10-26 北京交通大学 一种移动互联网海量数据分析审计技术架构
CN106156886A (zh) * 2016-06-30 2016-11-23 亿阳安全技术有限公司 一种基于运营商系统数据补全规则应用流程的方法及系统
CN107766007A (zh) * 2017-11-16 2018-03-06 郑州云海信息技术有限公司 一种数据存储方法及装置
CN107783734A (zh) * 2017-11-17 2018-03-09 北京联想超融合科技有限公司 一种基于超融合存储系统的资源分配方法、装置及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于数据分类的混合存储研究与实现";吴婵明;《中国优秀硕士学位论文全文数据库 信息科技辑》(第11期);全文 *

Also Published As

Publication number Publication date
CN110928484A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
US20220083917A1 (en) Distributed and federated learning using multi-layer machine learning models
US10956453B2 (en) Method to estimate the deletability of data objects
CN110928484B (zh) 一种基于软件定义存储的混合云存储方法
CN110569359A (zh) 识别模型的训练及应用方法、装置、计算设备及存储介质
CN114338413A (zh) 网络中设备的拓扑关系的确定方法、装置以及存储介质
CN115879017A (zh) 一种电力敏感数据自动化分类分级方法、装置及存储介质
CN100594480C (zh) 复制设备、复制方法和块标识数据获取方法
CN111061713A (zh) 区块链数据融合方法、装置、设备以及存储介质
CN109388651B (zh) 一种数据处理方法和装置
CN111897828A (zh) 数据批处理实现方法、装置、设备及存储介质
CN102855297B (zh) 一种控制数据传输的方法和连接器
US11755671B2 (en) Projecting queries into a content item embedding space
CN115826729A (zh) 硬盘电源管理方法、装置、电子设备、介质及产品
US20180081970A1 (en) Data retrieval system and data retrieval method
CN109558222A (zh) 批量业务进程监控方法、装置、计算机及可读存储介质
CN115328786A (zh) 一种基于区块链的自动化测试方法、装置和存储介质
KR101979161B1 (ko) 블록체인을 이용한 레이블 타입 데이터 관리 기반의 ai 학습 데이터 생산성 향상 시스템 및 그 방법
CN113642701A (zh) 一种基于截断重要性采样的模型与样本双重主动选择方法
US20240028606A1 (en) Data catalog and retrieval system
US11977779B2 (en) Smart queue for distributing user requests to automated response generating systems
CN116127067B (zh) 文本分类方法、装置、电子设备和存储介质
CN114090757B (zh) 对话系统的数据处理方法、电子设备及可读存储介质
US11889153B2 (en) System and method for integration of automatic response generating systems with non-API applications
CN115481108B (zh) 一种针对同一数据在不同部门之间的管理方法及系统
CN111447275B (zh) 存储系统和存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant