CN111142794A - 一种数据分类存储的方法、装置、设备及存储介质 - Google Patents
一种数据分类存储的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111142794A CN111142794A CN201911328654.6A CN201911328654A CN111142794A CN 111142794 A CN111142794 A CN 111142794A CN 201911328654 A CN201911328654 A CN 201911328654A CN 111142794 A CN111142794 A CN 111142794A
- Authority
- CN
- China
- Prior art keywords
- data
- classifier
- written
- target
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0644—Management of space entities, e.g. partitions, extents, pools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/0647—Migration mechanisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/0652—Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0679—Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据分类存储的方法、装置、设备及存储介质,该方法包括:如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;分类器为利用已经写入至闪存中的用户数据的数据特征及所属类别训练得到的;提取目的数据的数据特征,并将目的数据的数据特征输入至目的分类器,得到目的分类器输出的目的数据所属的类别;确定目的数据所属的类别在闪存中对应的存储区域,并将目的数据写入至确定出的该存储区域中。本申请在对用户数据进行垃圾回收时,选择到均为无效数据或者大部分均为无效数据的block的可能性较大,减少用户数据的搬移量,降低写放大系数,提高垃圾回收的效率。
Description
技术领域
本发明涉及闪存技术领域,更具体地说,涉及一种数据分类存储的方法、装置、设备及存储介质。
背景技术
闪存(NAND)技术不断进步,无论2D还是3D的闪存,都有一个特点,即可以按照Page(页,闪存中的最小写入单位,一个Block中有多个Page)写入,但是只能按照Block(块,闪存中的最小擦除单位,一个闪存中有多个Block)擦除。因此当闪存接近写满的时候,一个Block中的多个Page,可能一部分是无效数据,另外一部分是有效数据,为了释放更多的空间,需要将Block内存储有效数据的Page搬运到新的Block中,全部有效page搬运完成之后,这个Block就可以擦除了;擦除之后,这个Block可以重复使用。因此存在写放大问题,也就是用户写入数量为N的数据量,但是由于内部不得不搬运数据,实际设备内真正写入的数据量超过N,假定为M,这个比值M/N即为写放大系数。发明人研究发现,如果写放大系数较高,则说明需要搬运的数据量较大,此时进行垃圾回收会导致垃圾回收的效率较低;因此,降低写放大系数是非常有必要的。
发明内容
本发明的目的是提供一种数据分类存储的方法、装置、设备及存储介质,能够减少用户数据的搬移量,降低写放大系数,进而提高垃圾回收的效率。
为了实现上述目的,本发明提供如下技术方案:
一种数据分类存储的方法,包括:
如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;所述分类器为利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到的;
提取所述目的数据的数据特征,并将所述目的数据的数据特征输入至所述目的分类器,得到所述目的分类器输出的所述目的数据所属的类别;
确定所述目的数据所属的类别在所述闪存中对应的存储区域,并将所述目的数据写入至确定出的该存储区域中。
优选的,利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到分类器,包括:
确定距离当前时刻最近的预设时间段内写入至所述闪存中的用户数据为第一训练数据,利用所述第一训练数据的数据特征及所属类别训练得到相应的分类器。
优选的,利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到分类器,包括:
确定距离当前时刻最近的写入至所述闪存中的预设量的用户数据为第二训练数据,利用所述第二训练数据的数据特征及所属类别训练得到相应的分类器。
优选的,所述用户数据所属的类别包括热数据及冷数据,或者所述用户数据所属的类别包括多个应用类;其中,属于同一应用产生的用户数据为同一应用类。
优选的,将所述目的数据写入至确定出的该存储区域中,包括:
如果确定出的存储区域中当前被写入数据的block未被写满,则将所述目的数据写入至该未被写满的block中,否则,则将所述目的数据写入当前被写入数据的block的下一个block中。
一种数据分类存储的装置,包括:
确定模块,用于:如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;所述分类器为利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到的;
分类模块,用于:提取所述目的数据的数据特征,并将所述目的数据的数据特征输入至所述目的分类器,得到所述目的分类器输出的所述目的数据所属的类别;
写入模块,用于:确定所述目的数据所属的类别在所述闪存中对应的存储区域,并将所述目的数据写入至确定出的该存储区域中。
优选的,还包括:
第一训练模块,用于:确定距离当前时刻最近的预设时间段内写入至所述闪存中的用户数据为第一训练数据,利用所述第一训练数据的数据特征及所属类别训练得到相应的分类器。
优选的,还包括:
第二训练模块,用于:确定距离当前时刻最近的写入至所述闪存中的预设量的用户数据为第二训练数据,利用所述第二训练数据的数据特征及所属类别训练得到相应的分类器。
一种数据分类存储的设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述数据分类存储的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述数据分类存储的方法的步骤。
本发明提供了一种数据分类存储的方法、装置、设备及存储介质,该方法包括:如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;所述分类器为利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到的;提取所述目的数据的数据特征,并将所述目的数据的数据特征输入至所述目的分类器,得到所述目的分类器输出的所述目的数据所属的类别;确定所述目的数据所属的类别在所述闪存中对应的存储区域,并将所述目的数据写入至确定出的该存储区域中。本申请公开的技术方案中,如果需要向闪存中写入用户数据,则利用分类器确定用户数据所属的类别,将需要写入的用户数据写入到其所属的类别对应的存储区域内,而分类器为利用已经写入到闪存中的用户数据训练得到的,从而使得同一类别内的用户数据存储于同一存储区域内,可以提高这个存储区域内Block中存储的用户数据的相似性,从而在对用户数据进行垃圾回收时,选择到均为无效数据或者大部分均为无效数据的block的可能性较大,通过这种方式可以减少用户数据的搬移量,有效降低写放大系数,进而提高垃圾回收的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据分类存储的方法的流程图;
图2为本发明实施例提供的一种数据分类存储的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种数据分类存储的方法的流程图,可以包括:
S11:如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;分类器为利用已经写入至闪存中的用户数据的数据特征及所属类别训练得到的。
本发明实施例提供的一种数据分类存储的方法的执行主体可以为对应的装置。如果需要向闪存中写入用户数据,则可以确定该需要写入的用户数据为目的数据,当前需要使用的分类器为目的分类器;其中,用户数据即为用户写入到闪存中的数据;而分类是数据挖掘的一种非常重要的方法,分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即分类器(Classifier),用于根据计算产生决策的算法模块),该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据类别的预测;也即,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。本实施例中可以根据实际需要选取任一种分类器实现本发明实施例提供的一种数据分类存储的方法。
另外,在实现分类器的训练时,具体可以是先获取到已经写入到闪存中的一定量的用户数据,提取获取的这部分用户数据的特征为特征数据以及识别出这部分用户数据的类标签,特征数据对于判断写入用户数据的用户的写入行为进行分类具有辨识作用,而对写入行为的分类也即对用户数据的分类;类标签表明了这部分用户数据的类别,也即这部分用户数据恰当的分类属性,在这种分类属性下,可以增加存放在物理邻域内数据的相关性。本实施例中用户数据的特征数据可以包括但不限于LBA地址(逻辑块地址)范围,Streamid,Namespace,重写次数,同一个LBA地址读取写入次数比例,上次写入距当前时刻的时间间隔等信息。另外,在获取到用户数据的特征数据之后,可以用数据类型存储,进而方便需要时使用。本实施例中所说的特征数据包括用于训练分类器的用户数据的特征数据,也包括需要写入闪存的用户数据的特征数据。
S12:提取目的数据的数据特征,并将目的数据的数据特征输入至目的分类器,得到目的分类器输出的目的数据所属的类别。
提取到目的数据的数据特征之后,可以将目的数据的特征数据输入给分类器,分类器将输出目的数据所属的类别,也即目的数据的类标签,或者说是对目的数据进行分类的结果,从而使得具有相似特征的用户数据归于一类。
其中,对用户数据进行分类的类别可以根据实际需要进行设定,如:用户数据所属的类别可以包括热数据及冷数据,热数据为写频率高于对应根据实际需要设定的频率阈值的数据,冷数据则为写频率不高于频率阈值的数据,由于热数据的写频率较高,因此热数据即可能频繁被进行修改,此时最新的热数据为有效的热数据,而已经被修改过的热数据则为无效数据,冷数据写频率较低,也即冷数据并未被频繁进行修改,因此其是有效数据的可能性较大;从而按照这种方式实现用户数据的分类存储后,热数据存储于同一存储区域内,冷数据存储于同一存储区域内,因此,对热数据所在block进行擦除时,位于同一block的用户数据均为有效或者大部分为有效或者均为无效或者大部分为无效的可能性比较大,因此选择均为无效或者大部分均为无效的block进行擦除,能够一定程度上减少用户数据的搬移量。
又如:将已经写入到闪存中的用户数据分为n个类别,从而在需要写入新的用户数据时,与已经划分好的n个类别中任一类别的用户数据具有相关性则说明新的用户数据属于该类别;而n个类别可以是具体对应n个应用或者n个功能等,具体可以根据实际需要进行设定,以n个类别为n个应用进行具体说明,用户数据所属的类别包括多个应用类;其中,属于同一应用产生的用户数据为同一应用类,此时应用可以包括视频播放器、文档等,从而属于同一应用(也即具有相关性)的用户数据分到同一个类别里,进而同一个类别的用户数据存储于同一存储区域内,从而很可能在使用完某个应用后需要对其产生的用户数据进行删除时,需要删除的用户数据均为无效数据,因此则可以直接对对应存储区域内的block进行擦除,从而有效减少了用户数据的搬移量。
S13:确定目的数据所属的类别在闪存中对应的存储区域,并将目的数据写入至确定出的该存储区域中。
在确定出目的数据所属的类别后,可以确定出与该类别对应的存储区域,将目的数据写入至确定出的该存储区域的block中,从而实现目的数据向闪存的分类存储。
本申请公开的技术方案中,如果需要向闪存中写入用户数据,则利用分类器确定用户数据所属的类别,将需要写入的用户数据写入到其所属的类别对应的存储区域内,而分类器为利用已经写入到闪存中的用户数据训练得到的,从而使得同一类别内的用户数据存储于同一存储区域内,可以提高这个存储区域内Block中存储的用户数据的相似性,从而在对用户数据进行垃圾回收时,选择到均为无效数据或者大部分均为无效数据的block的可能性较大,通过这种方式可以减少用户数据的搬移量,有效降低写放大系数,进而提高垃圾回收的效率。
本发明实施例提供的一种数据分类存储的方法,利用已经写入至闪存中的用户数据的数据特征及所属类别训练得到分类器,可以包括:
确定距离当前时刻最近的预设时间段内写入至闪存中的用户数据为第一训练数据,利用第一训练数据的数据特征及所属类别训练得到相应的分类器。
在另一种情况下,利用已经写入至闪存中的用户数据的数据特征及所属类别训练得到分类器,可以包括:
确定距离当前时刻最近的写入至闪存中的预设量的用户数据为第二训练数据,利用第二训练数据的数据特征及所属类别训练得到相应的分类器。
因为用户的行为有渐变的特性,因此在需要向闪存中写入新的用户数据时,所使用的分类器可以是利用距离当前时刻最近的预设时间段内写入到闪存中的用户数据进行训练得到的,也可以是所使用的分类器可以是利用距离当前时刻最近写入到闪存中的预设量的用户数据进行训练得到的,由此使得训练分类器所用的用户数据最符合用户近段时间内的行为特点,进而使得利用分类器实现用户数据的分类时所得结果更加准确;其中,预设时间段及预设量均可以根据实际需要进行设定。
另外,在实现分类器的使用及训练时,可以是以乒乓形式实现的,从而能够充分利用时间,使得分类器的训练更加及时,进而使得实现用户数据分类时能够更加及时;具体来说,在利用第一个预设时间段内写入到闪存中的用户数据训练得到第一个分类器后,在第二个预设时间段内需要写入到闪存中的用户数据,利用第一个分类器确定需要写入的用户数据的类别,进而实现这些用户数据的存储;并且在第二个预设时间段开始至结束的过程中,利用第二个预设时间段写入到闪存中的用户数据训练得到第二个分类器,在第三个预设时间段内需要写入到闪存中的用户数据,利用第二个分类器确定需要写入的用户数据的类别,进而实现这些用户数据的存储;在第三个预设时间段开始至结束的过程中,利用第三个预设时间段的用户数据训练得到第三个分类器,在第四个预设时间段内需要写入到闪存中的用户数据,利用第三个分类器确定需要写入的用户数据的类别,进而实现这些用户数据的存储;以此类推。
或者是:在利用预设量的用户数据训练得到第一个分类器后,对于后续需要写入到闪存中的预设量的用户数据,利用第一个分类器确定需要写入的用户数据的类别,进而实现这些用户数据的存储;在利用第一个分类器确定用户数据的类别并写入闪存的用户数据由0至达到预设量的过程中,利用最新写入到闪存中预设量的用户数据训练得到第二个分类器,对于后续需要写入到闪存中的预设量的用户数据,利用第二个分类器确定需要写入的用户数据的类别,进而实现这些用户数据的存储;在利用第二个分类器确定用户数据的类别并写入闪存的用户数据由0至达到预设量的过程中,利用最新写入到闪存中预设量的用户数据训练得到第三个分类器,对于后续需要写入到闪存中的预设量的用户数据,利用第三个分类器确定需要写入的用户数据的类别,进而实现这些用户数据的存储;以此类推。
可见,本申请中每隔一段时间则会进行一个分类器的训练,从而配合用户的行为有渐变的特性,会设置相应的多个分类器,每个分类器对过去一段时间内用户的行为进行学习,当前分类器开始进行分类的同时,下一个分类器开始训练,从而按照固定的时间间隔或者用户写入量更新分类器的参数。
另外,分类器的训练过程将会自动确定每个数据特征的作用以及权重,对于不重要的特征,或者对当前用户行为不相关的特征,分类器的训练算法会降低这个特征的权重以至于删除这个特征,从而保证利用分类器实现用户数据分类时的准确性。
本发明实施例提供的一种数据分类存储的方法,将目的数据写入至确定出的该存储区域中,可以包括:
如果确定出的存储区域中当前被写入数据的block未被写满,则将目的数据写入至该未被写满的block中,否则,则将目的数据写入当前被写入数据的block的下一个block中。
在向某一存储区域内写入用户数据时,是按照该存储区域内的block的排列顺序依次写入到这些block中的,因此本实施例在向闪存中写入目的数据时,可以先确定对应存储区域内当前正在被写入的block是否被写满,如果未被写满,则可以直接写入,否则,则可以写入下一个block中,从而实现用户数据在对应存储区域的有效存储。
在一种具体应用场景中,本发明实施例提供的一种数据分类存储的方法可以包括以下步骤:
1.特征提取:
提取用户数据的特征,以数据类型存储得到特征数据,作为分类的依据;其中,特征数据可以包括但并不限于LBA范围,Stream id,Namespace,重写次数,同一个LBA地址读取写入次数比例,上次写入时间间隔等信息。这些特征数据对于判断用户的写入行为,进而进行相应的分类具有辨识作用。
2.分类器训练:
每隔一段时间,进行一个分类器的训练。因为用户的行为有渐变的特性,因此一般需要多个分类器,每个分类器对过去一段时间用户的行为进行学习,当前分类器开始进行分类的时候,下一个分类器同时开始训练。按照固定的时间间隔或者用户写入量更新分类器的参数。并且在分类器的训练过程中,分类器将会自动确定每个特征的作用以及权重,对于不重要的特征,或者对当前用户行为不相关的特征,分类器的训练算法会降低这个特征的权重以至于删除这个特征。
3.分类决策:
分类器训练完成之后,即开始进行分类决策,也即当前写入的用户数据是否与某一个区域强相关,来进行写入block的决策。当新的用户数据到来时,根据前面的特征提取流程,同样提取这些新的用户数据的特征,喂给分类器,分类器将给出分类。分类的类别根据不同的算法而决定,比如可以定义为热数据一类,冷数据一类,基于这样的分类方法,则会进行决策行为,将热数据放到一个集中的写入区域,冷数据写入另外一个区域;也可以将分类定义为:与前面写入的n组用户数据的相关性,具有相关性为1类,不具有相关性为1类,于是基于分类器的输出决策为:在这n组的写入位置中选择一个分组。
4.根据分类写入block:
基于分类器的决策写入合适的Block后,可以提高这个Block内数据的相似性。在数据进行垃圾回收时,有更高的可能性选择到有效数据更少的Block,提高垃圾回收的效率。从而提高存储设备的使用寿命,同样,由于垃圾回收时搬运的有效数据降低,提供给用户的写入带宽就提高了,因此能提升用户的写入带宽,提高写入性能。另外,由于一个Block可以擦除的次数是有限的,所以写放大系数越低,同样用户写入量的场景下,擦除的次数就越少,磁盘的使用寿命就越长,用户的写入体验也越好,本申请能降低写放大系数,因此可以提高闪存中磁盘的寿命、提高用户数据处理带宽,提高产品的竞争力。
本发明实施例还提供了一种数据分类存储的装置,如图2所示,具体可以包括:
确定模块11,用于:如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;分类器为利用已经写入至闪存中的用户数据的数据特征及所属类别训练得到的;
分类模块12,用于:提取目的数据的数据特征,并将目的数据的数据特征输入至目的分类器,得到目的分类器输出的目的数据所属的类别;
写入模块13,用于:确定目的数据所属的类别在闪存中对应的存储区域,并将目的数据写入至确定出的该存储区域中。
本发明实施例提供的一种数据分类存储的装置,还可以包括:
第一训练模块,用于:确定距离当前时刻最近的预设时间段内写入至闪存中的用户数据为第一训练数据,利用第一训练数据的数据特征及所属类别训练得到相应的分类器。
本发明实施例提供的一种数据分类存储的装置,还可以包括:
第二训练模块,用于:确定距离当前时刻最近的写入至闪存中的预设量的用户数据为第二训练数据,利用第二训练数据的数据特征及所属类别训练得到相应的分类器。
本发明实施例提供的一种数据分类存储的装置,写入模块可以包括:
写入单元,用于:如果确定出的存储区域中当前被写入数据的block未被写满,则将目的数据写入至该未被写满的block中,否则,则将目的数据写入当前被写入数据的block的下一个block中。
本发明实施例还提供了一种数据分类存储的设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项数据分类存储的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项数据分类存储的方法的步骤。
需要说明的是,本发明实施例提供的一种数据分类存储的装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种数据分类存储的方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据分类存储的方法,其特征在于,包括:
如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;所述分类器为利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到的;
提取所述目的数据的数据特征,并将所述目的数据的数据特征输入至所述目的分类器,得到所述目的分类器输出的所述目的数据所属的类别;
确定所述目的数据所属的类别在所述闪存中对应的存储区域,并将所述目的数据写入至确定出的该存储区域中。
2.根据权利要求1所述的方法,其特征在于,利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到分类器,包括:
确定距离当前时刻最近的预设时间段内写入至所述闪存中的用户数据为第一训练数据,利用所述第一训练数据的数据特征及所属类别训练得到相应的分类器。
3.根据权利要求1所述的方法,其特征在于,利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到分类器,包括:
确定距离当前时刻最近的写入至所述闪存中的预设量的用户数据为第二训练数据,利用所述第二训练数据的数据特征及所属类别训练得到相应的分类器。
4.根据权利要求2或3所述的方法,其特征在于,所述用户数据所属的类别包括热数据及冷数据,或者所述用户数据所属的类别包括多个应用类;其中,属于同一应用产生的用户数据为同一应用类。
5.根据权利要求4所述的方法,其特征在于,将所述目的数据写入至确定出的该存储区域中,包括:
如果确定出的存储区域中当前被写入数据的block未被写满,则将所述目的数据写入至该未被写满的block中,否则,则将所述目的数据写入当前被写入数据的block的下一个block中。
6.一种数据分类存储的装置,其特征在于,包括:
确定模块,用于:如果需要向闪存中写入用户数据,则确定当前需要写入的用户数据为目的数据,确定当前需要使用的分类器为目的分类器;所述分类器为利用已经写入至所述闪存中的用户数据的数据特征及所属类别训练得到的;
分类模块,用于:提取所述目的数据的数据特征,并将所述目的数据的数据特征输入至所述目的分类器,得到所述目的分类器输出的所述目的数据所属的类别;
写入模块,用于:确定所述目的数据所属的类别在所述闪存中对应的存储区域,并将所述目的数据写入至确定出的该存储区域中。
7.根据权利要求6所述的装置,其特征在于,还包括:
第一训练模块,用于:确定距离当前时刻最近的预设时间段内写入至所述闪存中的用户数据为第一训练数据,利用所述第一训练数据的数据特征及所属类别训练得到相应的分类器。
8.根据权利要求6所述的装置,其特征在于,还包括:
第二训练模块,用于:确定距离当前时刻最近的写入至所述闪存中的预设量的用户数据为第二训练数据,利用所述第二训练数据的数据特征及所属类别训练得到相应的分类器。
9.一种数据分类存储的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述数据分类存储的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数据分类存储的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328654.6A CN111142794A (zh) | 2019-12-20 | 2019-12-20 | 一种数据分类存储的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328654.6A CN111142794A (zh) | 2019-12-20 | 2019-12-20 | 一种数据分类存储的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111142794A true CN111142794A (zh) | 2020-05-12 |
Family
ID=70519159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911328654.6A Withdrawn CN111142794A (zh) | 2019-12-20 | 2019-12-20 | 一种数据分类存储的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111142794A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704306A (zh) * | 2021-08-31 | 2021-11-26 | 上海观安信息技术股份有限公司 | 数据库的数据处理方法、装置、存储介质及电子设备 |
CN115758206A (zh) * | 2022-11-07 | 2023-03-07 | 武汉麓谷科技有限公司 | 一种快速查找ZNS固态硬盘中NorFlash上次写结束位置的方法 |
CN116627355A (zh) * | 2023-07-21 | 2023-08-22 | 北京得瑞领新科技有限公司 | 冷热数据标定方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197282A (zh) * | 2018-01-10 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 文件数据的分类方法、装置及终端、服务器、存储介质 |
CN109542358A (zh) * | 2018-12-03 | 2019-03-29 | 浪潮电子信息产业股份有限公司 | 一种固态硬盘冷热数据分离方法、装置及设备 |
CN110069218A (zh) * | 2019-04-22 | 2019-07-30 | 珠海全志科技股份有限公司 | 冷热数据分离方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-20 CN CN201911328654.6A patent/CN111142794A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197282A (zh) * | 2018-01-10 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 文件数据的分类方法、装置及终端、服务器、存储介质 |
CN109542358A (zh) * | 2018-12-03 | 2019-03-29 | 浪潮电子信息产业股份有限公司 | 一种固态硬盘冷热数据分离方法、装置及设备 |
CN110069218A (zh) * | 2019-04-22 | 2019-07-30 | 珠海全志科技股份有限公司 | 冷热数据分离方法、装置、计算机设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704306A (zh) * | 2021-08-31 | 2021-11-26 | 上海观安信息技术股份有限公司 | 数据库的数据处理方法、装置、存储介质及电子设备 |
CN113704306B (zh) * | 2021-08-31 | 2024-01-30 | 上海观安信息技术股份有限公司 | 数据库的数据处理方法、装置、存储介质及电子设备 |
CN115758206A (zh) * | 2022-11-07 | 2023-03-07 | 武汉麓谷科技有限公司 | 一种快速查找ZNS固态硬盘中NorFlash上次写结束位置的方法 |
CN116627355A (zh) * | 2023-07-21 | 2023-08-22 | 北京得瑞领新科技有限公司 | 冷热数据标定方法、装置及电子设备 |
CN116627355B (zh) * | 2023-07-21 | 2023-10-13 | 北京得瑞领新科技有限公司 | 冷热数据标定方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399228B (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
CN108733778B (zh) | 对象的行业类型识别方法和装置 | |
US10809928B2 (en) | Efficient data deduplication leveraging sequential chunks or auxiliary databases | |
CN111142794A (zh) | 一种数据分类存储的方法、装置、设备及存储介质 | |
CN101021838A (zh) | 文本处理方法和系统 | |
WO2008026414A1 (fr) | Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image | |
CN106486167B (zh) | 改进闪速存储器清除的方法和系统 | |
CN101877064A (zh) | 图像分类方法及图像分类装置 | |
CN110705489B (zh) | 目标识别网络的训练方法、装置、计算机设备和存储介质 | |
CN106201774B (zh) | 一种nand flash存储芯片数据存储结构分析方法 | |
CN108491402B (zh) | 一种轻量级文件系统的实现方法 | |
JP2008123486A (ja) | デジタルメディアで1つまたは複数の概念を検出する方法、システム及びプログラム | |
CN105183792B (zh) | 一种基于局部敏感哈希的分布式快速文本分类方法 | |
US20110258205A1 (en) | Bit string data sorting apparatus, sorting method, and program | |
Sarkar et al. | Text classification using support vector machine | |
CN111340057A (zh) | 一种分类模型训练的方法及装置 | |
CN112286460A (zh) | 基于生存者寿命预测来优化垃圾收集 | |
CN113010091B (zh) | 数据写入固态硬盘的方法、垃圾回收的方法、装置 | |
CN113761291A (zh) | 标签分类的处理方法和装置 | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
CN117111834A (zh) | 存储器和包含存储器的计算系统 | |
CN113407107B (zh) | 一种数据存储方法、装置及设备 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN110442555B (zh) | 一种选择性预留空间的减少碎片的方法及系统 | |
KR102221684B1 (ko) | 멀티클래스 분류 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200512 |
|
WW01 | Invention patent application withdrawn after publication |