CN111124295A - 一种基于三元影响因子的农业数据存储处理系统及方法 - Google Patents
一种基于三元影响因子的农业数据存储处理系统及方法 Download PDFInfo
- Publication number
- CN111124295A CN111124295A CN201911270374.4A CN201911270374A CN111124295A CN 111124295 A CN111124295 A CN 111124295A CN 201911270374 A CN201911270374 A CN 201911270374A CN 111124295 A CN111124295 A CN 111124295A
- Authority
- CN
- China
- Prior art keywords
- data block
- data
- frequency
- references
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013500 data storage Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 claims abstract description 49
- 230000008859 change Effects 0.000 claims abstract description 32
- 238000003672 processing method Methods 0.000 claims description 16
- 238000001816 cooling Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000010438 heat treatment Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
- G06F3/0607—Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1008—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
- G06F11/1048—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
- G06F11/1056—Updating check bits on partial write, i.e. read/modify/write
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0643—Management of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- Mining & Mineral Resources (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marine Sciences & Fisheries (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据存储技术领域,公开了一种基于三元影响因子的农业数据存储处理系统及方法,对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读取频率设置不同的初始权重,且权重随时间间隔周期动态变化。本发明对于热度越高的数据可以越快的被访问到,同时对冷数据采用纠删码策略进行冗余存储,节约了系统存储空间。文件对数据块的引用数量表示它被一个或多个文件引用的次数。
Description
技术领域
本发明属于数据存储技术领域,尤其涉及一种基于三元影响因子的农业数据存储处理系统及方法。
背景技术
目前,最接近的现有技术:农业信息化的发展带动了农业数据管理的需求,对于传感器信息采集模块采集的各种类型的农业数据,温度数据,湿度数据,土壤数据,气象数据以及各类数据,需要对数据进行分块,以及精确的对数据块的冷热程度进行计算,选择合适的存储策略进行存储,有效对农业数据进行管理,为农业生产和劳动提供宝贵的指导和促进作用。副本策略存储的性能很高,但存储开销也很高。纠删码策略具有低冗余和高磁盘利用率的优点,但是数据恢复和数据更新的成本非常高。因此,在实际应用中,对热数据采用副本策略进行存储,而对冷数据采用纠删码策略进行存储是比较理想的。热数据是指访问频率较高的数据,即用户访问的频率较高,因此适合采用存储性能较高的副本策略。冷数据访问频率较低,即用户较少访问这类数据,如农业系统备份数据等。如何精确的对数据进行分类,从而针对不同类型的数据采用不同的存储方案。
现存的方法提出了在存储时同时运用副本策略和纠删码策略两种策略来对数据进行冗余存储,根据文件的大小对数据进行分类,对较大文件采取纠删码策略,较小文件采取副本策略。利用文件对数据块的引用数量来确定数据块的冷热程度,引用数量较高的数据块判定为热数据,采用副本策略进行冗余存储,引用数量较少的数据块,判定为冷数据,采用纠删码策略进行冗余存储。利用同时使用文件对数据块的引用数量和数据的读写频率来对数据块的冷热程度进行判定。具体方法步骤是,针对第一次存储的数据块,其引用数量为1,如果其读频率较高或者写频率较高,就将其判定为热数据,并采用副本策略进行冗余存储,反之,如果其读频率和写频率较低,则将其判定为冷数据,并采取纠删码策略进行冗余存储。针对已经存储的数据块,根据系统情况对其数据块的引用数量设置一个合理阈值,当数据块的引用数量超过此阈值,系统判定其为热数据,并采用副本策略进行冗余存储,当数据块的引用数量未达到此阈值时,系统判定其为冷数据,并对数据块采用纠删码策略进行存储。
现有技术的缺点:第一种方法仅根据文件的大小对数据进行分类存在两个缺陷,第一,存储系统中多以数据块为单位进行存储,而不是以整个文件为单位进行存储。第二,一些大文件可能常被访问和更新,如果单方面考虑文件大小对大文件采取纠删码策略可能导致非常大的数据恢复和更新开销。因此,需要采用更合理的方案对数据进行分类。第二种方法仅根据文件对数据块的引用数量来确定其存储方案存在明显的缺陷。首先,一些数据块的引用数量比较少,但是访问频率较高,其重要性也是不容忽视的;其次,针对第一次存储的数据块,其引用数量为1,系统就判定此数据块为冷数据是不科学的。因此,仅仅考虑文件对数据的引用数量来对数据进行分类,判定标准过于单一,也是不合理的。第三种方案较前两种数据分类方法有较大的改善,但是仍然不够全面,没有考虑时间的影响因素,一年前的引用数量和一周内的引用数量意义是不同的,从而仅考虑引用数量和读写频率不能精确的反应出用户对数据真实的访问频率,还需要综合考虑时间因素来判定数据块的冷热程度。
综上所述,现有技术存在的问题是:
(1)现有方法仅根据文件的大小对数据进行分类存在存储系统中多以数据块为单位进行存储,而不是以整个文件为单位进行存储;一些大文件可能常被访问和更新,如果单方面考虑文件大小对大文件采取纠删码策略可能导致非常大的数据恢复和更新开销。
(2)现有方法仅根据文件对数据块的引用数量确定其存储方案存在数据块的引用数量比较少,但是访问频率较高,其重要性也是不容忽视的;针对第一次存储的数据块,其引用数量为1,系统就判定此数据块为冷数据是不科学的。因此,仅仅考虑文件对数据的引用数量来对数据进行分类,判定标准过于单一。
(3)现有方案较前两种数据分类方法有较大的改善,但是仍然不够全面,没有考虑时间的影响因素,一年前的引用数量和一周内的引用数量意义是不同的,从而仅考虑引用数量和读写频率不能精确的反应出用户对数据真实的访问频率,还需要综合考虑时间因素来判定数据块的冷热程度。
解决上述技术问题的难度:解决上述问题首先需要分别记录引用数量和读写频率以及各自最新一次更新的时间与当前时间的间隔,动态的计算和存储每个数据块的冷热度,计算数据块的冷热度需要占用部分系统资源。
解决上述技术问题的意义:如果仅考虑引用数量和读写频率来判断数据块的冷热程度还不够精确,就不能真实地反映出用户对数据访问频率,综合考虑时间因素来判定数据块的冷热程度,引用数量和读写频率的权重根据时间间隔周期动态的改变,能够较精确的计算出一个数据块的冷热程度,再对其选择相适应的存储策略进行存储,能够有效的提高系统的访问效率,合理利用存储空间。
发明内容
针对现有技术存在的问题,本发明提供了一种基于三元影响因子的农业数据存储处理系统及方法。
本发明是这样实现的,一种种基于三元影响因子的农业数据存储处理方法,所述基于三元影响因子的农业数据存储处理方法包括以下步骤:
步骤一,对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问;
步骤二,对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。
进一步,所述步骤一计算此数据块的冷热程度时综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化;针对新存入的数据块的权重设置为:数据块的读写频率权重最大,文件对数据块的引用数量的权重次之。
进一步,所述步骤一对于第一次存入的数据块处理方法包括:
第一步、赋予数据块唯一ID号,并记录数据块的引用数量CID=1,将引用数量与系统中的Cavg进行相比,得到引用量的相对值;
第二步、统计数据块的读取频率和写入频率,计算出所有数据块读取频率的平均值和写入频率的平均值,计算读取频率和写入频率平均值的公式为:
Ri是数据块的读取频率,Wi是数据块的写入频率,Ravg是所有数据块读取频率的平均值,Wavg是所有数据块写入频率的平均值;
第三步、分别将每个数据块的读取频率与平均读取频率相比,求出读取频率的相对值,再分别将每个数据块的写入频率与平均写入频率相比,求出写入频率的相对值,求读取频率和写入频率相对值的公式为:
第四步、时间间隔周期的影响采用牛顿冷却定律的时间衰减函数来进行计算:
是第i个数据块的读写频率的随时间变化的权重,是第i个数据块的引用数量的随时间变化的权重,N1是ti=0时的权重,N2是Ti=0时的权重,λ1和λ2是衰减系数,ti是第i个数据块读取频率最近一次变化时间与当前时间的时间间隔,Ti是第i个数据块引用数量最近一次变化时间与当前时间的时间间隔;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化;与存储新数据块有所不同的是,初始权重设置上存在差异:文件对数据块的引用数量的初始权重N2最大,数据块的读写频率的初始权重N1次之;
第五步、文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的权重,并根据各自的时间间隔周期动态变化;针对新存入的数据块的权重设置为:数据块的读写频率权重最大,文件对数据块的引用数量的权重次之;
第六步、计算第i个数据块的冷热程度公式为:
第七步、分别将每一个数据块的冷热度和所有数据块平均热度进行比较,若一个数据块热度大于此阈值,则判定此数据块为热数据,采用副本策略进行冗余存储;若一个数据块热度小于此阈值,则判定此数据块为冷数据,采用纠删码策略进行冗余存储。
进一步,所述第二步文件对数据块的引用数量权重最大,数据块的读写频率次之。
进一步,所述第二步对于已经存入的数据块处理方法包括:
第一步、统计每个数据块的引用数量,计算出所有数据块引用数量的平均值,并将每个数据块的引用数量与平均引用数量相比,求出引用数量相对值,求引用数量的平均值和每个数据块的引用数量相对值公式分别为:
第二步、统计数据块的读取频率和写入频率,计算出所有数据块读取频率的平均值和写入频率的平均值,计算读取频率和写入频率平均值的公式为:
Ri是第i个数据块的读取频率,Wi是第i个数据块的写入频率,Ravg是所有数据块读取频率的平均值,Wavg是所有数据块写入频率的平均值;
第三步、分别将每个数据块的读取频率与平均读取频率相比,求出读取频率的相对值,再分别将每个数据块的写入频率与平均写入频率相比,求出写入频率的相对值,求读取频率和写入频率相对值的公式为:
第四步、时间间隔周期的影响采用牛顿冷却定律的时间衰减函数来进行计算:
是第i个数据块的读写频率的随时间变化的权重,是第i个数据块的引用数量的随时间变化的权重,N1是ti=0时的权重,N2是Ti=0时的权重,λ1和λ2是衰减系数,ti是第i个数据块读取频率最近一次变化时间与当前时间的时间间隔,Ti是第i个数据块引用数量最近一次变化时间与当前时间的时间间隔;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化;与存储新数据块有所不同的是,初始权重设置上存在差异:文件对数据块的引用数量的初始权重N2最大,数据块的读写频率的初始权重N1次之;
第六步、计算所有存储数据块的平均热度,并将其设为判定冷热数据的阈值,计算平均冷热程度的公式为:
其中,Havg_degree是指系统数据块的平均热度,是第i个数据块的热度,n表示系统中数据块的数量。分别将每一个数据块的冷热度和数据块平均热度进行比较可以动态调整数据块的冗余策略;若一个数据块热度大于此阈值,则判定此数据块为热数据,采用副本策略进行冗余存储;若一个数据块热度小于此阈值,则判定此数据块为冷数据,采用纠删码策略进行冗余存储。
本发明的另一目的在于提供一种实施所述基于三元影响因子的农业数据存储处理方法的基于三元影响因子的农业数据存储处理系统,所述基于三元影响因子的农业数据存储处理系统包括:
第一次存储数据块处理模块,用于对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问;
已经存储数据块处理模块,用于对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。
本发明的另一目的在于提供一种实现所述基于三元影响因子的农业数据存储处理方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于三元影响因子的农业数据存储处理方法。
本发明的另一目的在于提供一种应用所述基于三元影响因子的农业数据存储处理方法的数据存储处理终端。
本发明的另一目的在于提供一种应用所述基于三元影响因子的农业数据存储处理方法的农业信息化处理系统。
综上所述,本发明的优点及积极效果为:本发明针对现有农业数据存储管理中对于冷热数据的区分仅从文件引用数量和读写频率两个指标来判断,缺乏对时间因素的考量的缺陷,提供一种基于三元影响因子来对数据块冷热程度进行精确计算和区分的方法。基于三元影响因子的农业数据存储方案,通过综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,精确地对采集到的农业数据进行冷热划分和存储,提高了数据的存储效率和访问速度。热度越高的数据可以越快的被访问到,同时对冷数据采用纠删码策略进行冗余存储,节约了系统存储空间。文件对数据块的引用数量表示它被一个或多个文件引用的次数。
附图说明
图1是本发明实施例提供的基于三元影响因子的农业数据存储处理方法流程图。
图2是本发明实施例提供的基于三元影响因子的农业数据存储处理系统的结构示意图;
图中:1、第一次存储数据块处理模块;2、已经存储数据块处理模块。
图3是本发明实施例提供的文件对数据块的引用数量示意图。
图4是本发明实施例提供的数据块冷热度计算和存储流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于三元影响因子的农业数据存储处理系统及方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于三元影响因子的农业数据存储处理方法包括以下步骤:
S101:对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问;
S102:对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。
如图2所示,本发明实施例提供的基于三元影响因子的农业数据存储处理系统包括:
第一次存储数据块处理模块1,用于对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问。
已经存储数据块处理模块2,用于对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。
下面结合具体实施例对本发明的技术方案作进一步的描述。
本发明实施例提供的基于三元影响因子的农业数据存储处理方法包括:在CPU访问寄存器时,无论是存取数据或者存取指令,都趋于聚集在一片连续的存储区域中,这被称为局部性原理。因此,对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问。计算此数据块的冷热程度时需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化;针对新存入的数据块的权重设置为:数据块的读写频率权重最大,文件对数据块的引用数量的权重次之。
对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。与存储新数据块有所不同的是,影响因子的权重设置上存在差异:文件对数据块的引用数量权重最大,数据块的读写频率次之。
对于已经存入的数据块:
第一步、统计每个数据块的引用数量,计算出所有数据块引用数量的平均值,并将每个数据块的引用数量与平均引用数量相比,求出引用数量相对值,求引用数量的平均值和每个数据块的引用数量相对值公式分别为:
第二步、统计数据块的读取频率和写入频率,计算出所有数据块读取频率的平均值和写入频率的平均值,计算读取频率和写入频率平均值的公式为:
Ri是第i个数据块的读取频率,Wi是第i个数据块的写入频率,Ravg是所有数据块读取频率的平均值,Wavg是所有数据块写入频率的平均值;
第三步、分别将每个数据块的读取频率与平均读取频率相比,求出读取频率的相对值,再分别将每个数据块的写入频率与平均写入频率相比,求出写入频率的相对值,求读取频率和写入频率相对值的公式为:
第四步、时间间隔周期的影响采用牛顿冷却定律的时间衰减函数来进行计算:
是第i个数据块的读写频率的随时间变化的权重,是第i个数据块的引用数量的随时间变化的权重,N1是ti=0时的权重,N2是Ti=0时的权重,λ1和λ2是衰减系数,ti是第i个数据块读取频率最近一次变化时间与当前时间的时间间隔,Ti是第i个数据块引用数量最近一次变化时间与当前时间的时间间隔;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。与存储新数据块有所不同的是,初始权重设置上存在差异:文件对数据块的引用数量的初始权重N2最大,数据块的读写频率的初始权重N1次之。
第六步、计算所有存储数据块的平均热度,并将其设为判定冷热数据的阈值,计算平均冷热程度的公式为:
其中,Havg_degree是指系统数据块的平均热度,是第i个数据块的热度,n表示系统中数据块的数量。分别将每一个数据块的冷热度和数据块平均热度进行比较可以动态调整数据块的冗余策略。若一个数据块热度大于此阈值,则判定此数据块为热数据,采用副本策略进行冗余存储;若一个数据块热度小于此阈值,则判定此数据块为冷数据,采用纠删码策略进行冗余存储。
对于第一次存入的数据块:
第一步、赋予数据块唯一ID号,并记录数据块的引用数量CID=1,将引用数量与系统中的Cavg进行相比,得到引用量的相对值;
第二步、统计数据块的读取频率和写入频率,计算出所有数据块读取频率的平均值和写入频率的平均值,计算读取频率和写入频率平均值的公式为:
Ri是数据块的读取频率,Wi是数据块的写入频率,Ravg是所有数据块读取频率的平均值,Wavg是所有数据块写入频率的平均值;
第三步、分别将每个数据块的读取频率与平均读取频率相比,求出读取频率的相对值,再分别将每个数据块的写入频率与平均写入频率相比,求出写入频率的相对值,求读取频率和写入频率相对值的公式为:
第四步、时间间隔周期的影响采用牛顿冷却定律的时间衰减函数来进行计算:
是第i个数据块的读写频率的随时间变化的权重,是第i个数据块的引用数量的随时间变化的权重,N1是ti=0时的权重,N2是Ti=0时的权重,λ1和λ2是衰减系数,ti是第i个数据块读取频率最近一次变化时间与当前时间的时间间隔,Ti是第i个数据块引用数量最近一次变化时间与当前时间的时间间隔;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。与存储新数据块有所不同的是,初始权重设置上存在差异:文件对数据块的引用数量的初始权重N2最大,数据块的读写频率的初始权重N1次之。
第五步、对文件对数据块的引用数量、数据块的读写频率以及时间间隔周期三个影响因子设置不同的权重;针对新存入的数据块的权重设置为:数据块的读写频率权重最大,文件对数据块的引用数量的权重次之;
第六步、计算第i个数据块的冷热程度公式为:
第七步、分别将每一个数据块的冷热度和所有数据块平均热度进行比较,若一个数据块热度大于此阈值,则判定此数据块为热数据,采用副本策略进行冗余存储;若一个数据块热度小于此阈值,则判定此数据块为冷数据,采用纠删码策略进行冗余存储。
如图3,直观的展示了文件对数据块的引用数量的含义。文件划分成多个数据块以后,共有9个不同的数据块,其中数据块2、数据块5和数据块6倍三个文件引用,引用数量为3。引用量可以在一定程度上反应其被用户访问的冷热程度。
下面结合具体实施例对本发明的技术方案作进一步的描述。
实施例1:(计算已经存储的数据块的热度及平均热度)
第一步、统计每个数据块的引用数量,计算出所有数据块引用数量的平均值,设有系统中已有三个数据块引用数量分别为:C1=5、C2=6、C3=7,根据(1)计算得到所有数据块引用数量的平均值Cavg=6;
第三步、统计数据块的读取频率和写入频率,计算出所有数据块读取频率的平均值和写入频率的平均值,设有系统中已有三个数据块的读取频率分别为:R1=5、R2=6、R3=7,写入频率分别为W1=3、W2=4、W3=5,新增数据块的读写频率分别为R4=6,W4=4,根据(3)和(4)计算得到读取频率平均值Ravg=6,Wavg=4;
第四步、分别将每个数据块的读取频率与平均读取频率相比,求出读取频率的相对值,再分别将每个数据块的写入频率与平均写入频率相比,求出写入频率的相对值,根据(5)和(6),就计算到四个数据块的读取频率相对值分别为四个数据块的写入频率分别为
第五步、时间间隔周期的影响采用牛顿冷却定律的时间衰减函数来进行计算,设置初始随时间变化的权重N1=3,N2=5,衰减系数λ1=0.15,λ2=0.10,三个数据块读写频率最近一次修改与当前时间差分别为t1=8、t2=5、t3=10,三个数据块引用数量最近一次修改与当前时间差分别为T1=6、T2=8、T3=12(单位是:天),根据(7)计算得三个数据块的读取频率随时间变化的权重为:3e-1.2、3e-0.9、3e-1.5;根据(8)计算得三个数据块的引用数量随时间变化的权重为:5e-0.6、5e-0.8、5e-1.2;
第七步、根据(10)计算所有数据块的平均冷热程度得:Havg_degree=3.9257;
第八步、分别将每一个数据块的冷热度和所有数据块平均热度Havg_degree进行比较,若一个数据块热度大于此阈值,则判定此数据块为热数据,采用副本策略进行冗余存储;若一个数据块热度小于此阈值,则判定此数据块为冷数据,采用纠删码策略进行冗余存储。
实施例2:(计算第一次存储的数据块的热度)
第一步、赋予数据块唯一ID号,并记录数据块的引用数量CID=1;
第三步、统计数据块的读取频率和写入频率,将新数据块的读取频率和写入频率分别与系统的平均读取频率和平均写入频率相比,得到读写频率的相对值,新增数据块的读写频率分别为R4=6,W4=4,系统平均读取频率为6,系统平均写入频率为4,根据(5)和(6)计算得到读取频率相对值写入频率相对值
第四步、时间间隔周期的影响采用牛顿冷却定律的时间衰减函数来进行计算,设置初始随时间变化的权重N1=5,N2=2,衰减系数λ1=0.15,λ2=0.10,新数据块读写频率最近一次修改与当前时间差分别为ti=6(单位是:天),新增数据块Ti=0,根据(7)计算得新数据块的读取频率随时间变化的权重为:5e-0.9;根据(8)计算得新数据块的引用数量随时间变化的权重为:2;
第六步、将新数据块的冷热度和所有数据块平均热度Havg_degree=3.9257进行比较,新数据块热度大于此阈值,则判定此数据块为热数据,采用副本策略进行冗余存储。
综合考虑三个影响因子,文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,动态更新计算数据块的冷热程度,进行较精确的计算,对于热数据块选择副本策略进行冗余存储,能够有效减少热数据块的访问响应时间。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现二软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于三元影响因子的农业数据存储处理方法,其特征在于,所述基于三元影响因子的农业数据存储处理方法包括以下步骤:
步骤一,对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问;
步骤二,对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读取频率设置不同的初始权重,且权重随时间间隔周期动态变化。
2.如权利要求1所述的基于三元影响因子的农业数据存储处理方法,其特征在于,所述步骤一计算此数据块的冷热程度时综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读取频率设置不同的初始权重,且权重随时间间隔周期动态变化;针对新存入的数据块的权重设置为:数据块的读写频率权重最大,文件对数据块的引用数量的权重次之。
3.如权利要求1所述的基于三元影响因子的农业数据存储处理方法,其特征在于,所述步骤一对于第一次存入的数据块处理方法包括:
第一步、赋予数据块唯一ID号,并记录数据块的引用数量CID=1,将引用数量与系统中的Cavg进行相比,得到引用量的相对值;
第二步、统计数据块的读取频率和写入频率,计算出所有数据块读取频率的平均值和写入频率的平均值,计算读取频率和写入频率平均值的公式为:
Ri是数据块的读取频率,Wi是数据块的写入频率,Ravg是所有数据块读取频率的平均值,Wavg是所有数据块写入频率的平均值;
第三步、分别将每个数据块的读取频率与平均读取频率相比,求出读取频率的相对值,再分别将每个数据块的写入频率与平均写入频率相比,求出写入频率的相对值,求读取频率和写入频率相对值的公式为:
第四步、引用数量和读取频率的权重根据时间间隔周期的变化采用牛顿冷却定律的时间衰减函数进行计算:
是第i个数据块的读写频率的随时间变化的权重,是第i个数据块的引用数量的随时间变化的权重,N1是ti=0时的权重,N2是Ti=0时的权重,λ1和λ2是衰减系数,ti是第i个数据块读取频率最近一次变化时间与当前时间的时间间隔,Ti是第i个数据块引用数量最近一次变化时间与当前时间的时间间隔;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化;与存储新数据块有所不同的是,初始权重设置上存在差异:文件对数据块的引用数量的初始权重N2最大,数据块的读写频率的初始权重N1次之;
第五步、对文件对数据块的引用数量、数据块的读写频率设置不同的权重,并权重随时间间隔周期变化;针对新存入的数据块的权重设置为:数据块的读写频率权重最大,文件对数据块的引用数量的权重最小;
第六步、计算第i个数据块的冷热程度公式为:
第七步、分别将每一个数据块的冷热度和所有数据块平均热度进行比较,若一个数据块热度大于此阈值,则判定此数据块为热数据,采用副本策略进行冗余存储;若一个数据块热度小于此阈值,则判定此数据块为冷数据,采用纠删码策略进行冗余存储。
4.如权利要求1所述的基于三元影响因子的农业数据存储处理方法,其特征在于,所述第二步文件对数据块的引用数量权重最大,数据块的读写频率次之。
5.如权利要求4所述的基于三元影响因子的农业数据存储处理方法,其特征在于,所述第二步对于已经存入的数据块处理方法包括:
第一步、统计每个数据块的引用数量,计算出所有数据块引用数量的平均值,并将每个数据块的引用数量与平均引用数量相比,求出引用数量相对值,求引用数量的平均值和每个数据块的引用数量相对值公式分别为:
第二步、统计数据块的读取频率和写入频率,计算出所有数据块读取频率的平均值和写入频率的平均值,计算读取频率和写入频率平均值的公式为:
Ri是第i个数据块的读取频率,Wi是第i个数据块的写入频率,Ravg是所有数据块读取频率的平均值,Wavg是所有数据块写入频率的平均值;
第三步、分别将每个数据块的读取频率与平均读取频率相比,求出读取频率的相对值,再分别将每个数据块的写入频率与平均写入频率相比,求出写入频率的相对值,求读取频率和写入频率相对值的公式为:
第四步、引用数量和读取频率的权重根据时间间隔周期的变化采用牛顿冷却定律的时间衰减函数来进行计算:
是第i个数据块的读写频率的随时间变化的权重,是第i个数据块的引用数量的随时间变化的权重,N1是ti=0时的权重,N2是Ti=0时的权重,λ1和λ2是衰减系数,ti是第i个数据块读取频率最近一次变化时间与当前时间的时间间隔,Ti是第i个数据块引用数量最近一次变化时间与当前时间的时间间隔;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化;与存储新数据块有所不同的是,初始权重设置上存在差异:文件对数据块的引用数量的初始权重N2最大,数据块的读写频率的初始权重N1次之;
第六步、计算所有存储数据块的平均热度,并将其设为判定冷热数据的阈值,计算平均冷热程度的公式为:
6.一种实施权利要求1~5任意一项所述基于三元影响因子的农业数据存储处理方法的基于三元影响因子的农业数据存储处理系统,其特征在于,所述基于三元影响因子的农业数据存储处理系统包括:
第一次存储数据块处理模块,用于对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问;
已经存储数据块处理模块,用于对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读写频率设置不同的初始权重,且权重随时间间隔周期动态变化。
7.一种实现权利要求1~5任意一项所述基于三元影响因子的农业数据存储处理方法的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~5任意一项所述的基于三元影响因子的农业数据存储处理方法。
9.一种应用权利要求1~5任意一项所述基于三元影响因子的农业数据存储处理方法的数据存储处理终端。
10.一种应用权利要求1~5任意一项所述基于三元影响因子的农业数据存储处理方法的农业信息化处理系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911270374.4A CN111124295B (zh) | 2019-12-11 | 2019-12-11 | 一种基于三元影响因子的农业数据存储处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911270374.4A CN111124295B (zh) | 2019-12-11 | 2019-12-11 | 一种基于三元影响因子的农业数据存储处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111124295A true CN111124295A (zh) | 2020-05-08 |
CN111124295B CN111124295B (zh) | 2021-06-04 |
Family
ID=70499195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911270374.4A Active CN111124295B (zh) | 2019-12-11 | 2019-12-11 | 一种基于三元影响因子的农业数据存储处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111124295B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023030227A1 (zh) * | 2021-08-31 | 2023-03-09 | 华为技术有限公司 | 一种数据处理方法、装置及系统 |
CN116204138A (zh) * | 2023-05-05 | 2023-06-02 | 成都三合力通科技有限公司 | 一种基于分层存储的高效存储系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838860A (zh) * | 2014-03-19 | 2014-06-04 | 华存数据信息技术有限公司 | 一种基于动态副本策略的文件存储系统及其存储方法 |
US9153247B1 (en) * | 2015-01-21 | 2015-10-06 | HGST Netherlands B.V. | Far field interference mitigation by relative frequency ordering |
CN105279166A (zh) * | 2014-06-20 | 2016-01-27 | 中国电信股份有限公司 | 文件管理方法和系统 |
CN106355031A (zh) * | 2016-09-21 | 2017-01-25 | 大连大学 | 基于层次分析法的数据价值度计算方法 |
CN107102954A (zh) * | 2017-04-27 | 2017-08-29 | 华中科技大学 | 一种基于失效概率的固态存储分级管理方法及系统 |
CN108073472A (zh) * | 2017-12-12 | 2018-05-25 | 华中科技大学 | 一种基于热度感知的内存纠删码分布方法 |
CN109144417A (zh) * | 2018-08-16 | 2019-01-04 | 广州杰赛科技股份有限公司 | 一种云存储方法、系统和设备 |
CN109634779A (zh) * | 2018-11-19 | 2019-04-16 | 杭州电子科技大学 | 一种基于数据热度自学习的数据增量备份方法 |
CN109669641A (zh) * | 2018-12-24 | 2019-04-23 | 深圳忆联信息系统有限公司 | 降低ssd误码率的数据存放方法及装置 |
CN109783016A (zh) * | 2018-12-25 | 2019-05-21 | 西安交通大学 | 一种分布式存储系统中的弹性多维度冗余方法 |
-
2019
- 2019-12-11 CN CN201911270374.4A patent/CN111124295B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838860A (zh) * | 2014-03-19 | 2014-06-04 | 华存数据信息技术有限公司 | 一种基于动态副本策略的文件存储系统及其存储方法 |
CN105279166A (zh) * | 2014-06-20 | 2016-01-27 | 中国电信股份有限公司 | 文件管理方法和系统 |
US9153247B1 (en) * | 2015-01-21 | 2015-10-06 | HGST Netherlands B.V. | Far field interference mitigation by relative frequency ordering |
CN106355031A (zh) * | 2016-09-21 | 2017-01-25 | 大连大学 | 基于层次分析法的数据价值度计算方法 |
CN107102954A (zh) * | 2017-04-27 | 2017-08-29 | 华中科技大学 | 一种基于失效概率的固态存储分级管理方法及系统 |
CN108073472A (zh) * | 2017-12-12 | 2018-05-25 | 华中科技大学 | 一种基于热度感知的内存纠删码分布方法 |
CN109144417A (zh) * | 2018-08-16 | 2019-01-04 | 广州杰赛科技股份有限公司 | 一种云存储方法、系统和设备 |
CN109634779A (zh) * | 2018-11-19 | 2019-04-16 | 杭州电子科技大学 | 一种基于数据热度自学习的数据增量备份方法 |
CN109669641A (zh) * | 2018-12-24 | 2019-04-23 | 深圳忆联信息系统有限公司 | 降低ssd误码率的数据存放方法及装置 |
CN109783016A (zh) * | 2018-12-25 | 2019-05-21 | 西安交通大学 | 一种分布式存储系统中的弹性多维度冗余方法 |
Non-Patent Citations (1)
Title |
---|
周阳: ""云存储中冷热数据的混合冗余方法研究"", 《移动通信》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023030227A1 (zh) * | 2021-08-31 | 2023-03-09 | 华为技术有限公司 | 一种数据处理方法、装置及系统 |
CN116204138A (zh) * | 2023-05-05 | 2023-06-02 | 成都三合力通科技有限公司 | 一种基于分层存储的高效存储系统及方法 |
CN116204138B (zh) * | 2023-05-05 | 2023-07-07 | 成都三合力通科技有限公司 | 一种基于分层存储的高效存储系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111124295B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021008220A1 (en) | Systems and methods for data storage system | |
US9146688B2 (en) | Advanced groomer for storage array | |
US8082388B2 (en) | Optimizing operational requests of logical volumes | |
CN101788995B (zh) | 一种热点数据识别方法及装置 | |
CN111124295B (zh) | 一种基于三元影响因子的农业数据存储处理系统及方法 | |
CN110888600B (zh) | 一种面向nand闪存的缓冲区管理方法 | |
US10949115B2 (en) | Flash memory polling | |
US11041763B2 (en) | Adaptive throttling | |
CN113257332B (zh) | 一种闪存的有效性预测方法、装置及存储介质 | |
CN108399110A (zh) | 高容量固态驱动器中的软信息管理 | |
CN112786080B (zh) | 一种降低闪存误码率的方法、装置及固态硬盘 | |
CN109669641B (zh) | 降低ssd误码率的数据存放方法及装置 | |
CN114385092B (zh) | 固态硬盘闪存阵列的擦除方法、固态硬盘主控芯片 | |
KR20140041408A (ko) | 저장 위치 속성 및 데이터 사용량 통계에 기초하여 데이터 저장을 위한 저장 위치 선택 | |
CN115509454A (zh) | 一种固态硬盘数据的写入方法、装置、电子设备以及介质 | |
CN111210858B (zh) | 一种缓解相变存储器写干扰的方法及系统 | |
CN108984117B (zh) | 一种数据读写方法、介质及设备 | |
CN110580932A (zh) | 一种应用于损耗均衡的存储单元质量度量方法 | |
WO2015126414A1 (en) | Performing write operations on main memory | |
US20240231976A9 (en) | Storage device write-read error reduction system | |
US11983431B2 (en) | Read-disturb-based read temperature time-based attenuation system | |
CN112286843B (zh) | 数据存储系统的系统和方法 | |
US20240134727A1 (en) | Storage device write-read error reduction system | |
US11922035B2 (en) | Read-disturb-based read temperature adjustment system | |
US11928354B2 (en) | Read-disturb-based read temperature determination system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |