CN113031877A - 数据存储方法、装置、设备及介质 - Google Patents
数据存储方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113031877A CN113031877A CN202110390076.XA CN202110390076A CN113031877A CN 113031877 A CN113031877 A CN 113031877A CN 202110390076 A CN202110390076 A CN 202110390076A CN 113031877 A CN113031877 A CN 113031877A
- Authority
- CN
- China
- Prior art keywords
- data
- stored
- clustering
- classification
- clustering result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0631—Configuration or reconfiguration of storage systems by allocating resources to storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
Abstract
本申请公开了一种数据存储方法、装置、设备及介质。该数据存储方法包括:获取待存储数据的属性特征,根据所述属性特征对所述待存储数据进行聚类,得到聚类结果;根据所述属性特征确定所述聚类结果中的待存储数据的分类编码;针对每个聚类结果,根据所述分类编码将所述待存储数据进行分类,得到所述待存储数据的分类结果;将所述待存储数据根据所述聚类结果和所述分类结果进行存储。本申请的技术方案使待存储数据能够分离分类存储,实现了优化了数据的存储方式,便于对数据进行查找,同时提高了磁盘存储空间的利用率,优化了系统的运行效率的效果。
Description
技术领域
本申请涉及数据处理技术,具体涉及一种数据存储方法、装置、设备及介质。
背景技术
随着信息技术领域的快速发展,5G、云计算、云存储和大数据技术已经成为了人们生活和工作不可或缺的一部分。大规模存储系统被广泛的部署在数据中心,用来服务并发量高的应用和存储大规模的数据。
快速增长的数据信息对存储系统有了更高的要求,数据传输更快,计算能力更强,存储容量需求更大等需求。异构存储系统逐渐成为存储系统常见的架构模式。
现有的异构数据处理方法侧重于大数据多源异构的存储硬件方法,存在对于多数据异构组成的系统无法优化磁盘存储资源,并合理利用磁盘存储能力方面的问题。
发明内容
本申请实施例的目的是提供数据存储方法、装置、设备及介质,以实现对数据进行分离分类存储,合理利用存储资源的效果。
本申请的技术方案如下:
第一方面,提供了一种数据存储方法,该数据存储方法包括:获取待存储数据的属性特征;根据属性特征对所述待存储数据进行聚类,得到聚类结果;根据属性特征确定聚类结果中的待存储数据的分类编码;针对每个聚类结果,根据编码将所述待存储数据进行分类,得到待存储数据的分类结果;将待存储数据根据聚类结果和分类结果进行存储。
在一些实施例中,根据属性特征对待存储数据进行聚类,得到聚类结果,包括:
确定各待存储数据间的目标距离;
基于目标距离对待存储数据进行聚类,得到聚类结果。
在一些实施例中,基于目标距离对待存储数据进行聚类,得到聚类结果,包括:
依次选取待存储数据作为目标数据;
确定与目标数据的目标距离小于预设距离的待存储数据,作为目标数据的邻域数据;
当邻域数据中待存储数据的个数超过预设数值时,确定目标数据为核心数据;
针对每个核心数据,将核心数据对应的邻域数据中,未聚类的待存储数据和非核心数据与核心数据聚类,得到聚类结果。
在一些实施例中,根据属性特征对聚类结果中的待存储数据进行编码,得到编码结果,包括:
根据属性特征,以及预设的属性特征与分类编码的对应关系,确定待存储数据的分类编码,分类编码为待存储数据的编码结果。
在一些实施例中,根据编码将待存储数据进行分类,包括:
预先建立编码模型;
根据编码和编码模型将待存储数据进行分类。
在一些实施例中,根据编码和编码模型将待存储数据进行分类,包括:
确定与待存储数据的编码相似度最大的编码模型,作为目标编码模型;
将待存储数据分类至目标编码模型中。
在一些实施例中,在将所述取待存储数据根据所述类别进行存储之后,数据存储方法还包括:
获取待清除数据的类别;根据待清除数据的类别从存储的数据中清除待清除数据。
第二方面,提供了一种数据存储装置,装置包括:
属性特征获取模块,用于获取待存储数据的属性特征;
数据聚类模块,用于根据所述属性特征对所述待存储数据进行聚类,得到聚类结果;
数据编码模块,用于根据所述属性特征确定所述聚类结果中的待存储数据的分类编码;
数据分类模块,用于针对每个聚类结果,根据所述分类编码将所述待存储数据进行分类,得到所述待存储数据的分类结果;
数据存储模块,用于将所述待存储数据根据所述聚类结果和所述分类结果进行存储。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的数据存储方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的数据存储方法的步骤。
本申请的实施例提供的技术方案至少带来以下有益效果:
本申请实施例提供的数据存储方法,通过获取待存储数据的属性特征;根据属性特征对所述待存储数据进行聚类,得到聚类结果;聚类结果体现了待存储数据之间的关系,便于待存储数据根据聚类结果进行分离保存;根据属性特征确定聚类结果中的待存储数据的分类编码;针对每个聚类结果,根据分类编码将待存储数据进行分类,得到待存储数据的分类结果;将待存储数据的属性特征转化为分类编码进行分类,可以提高待存储数据分类的准确性,;将待存储数据根据聚类结果和分类结果进行存储,可以使待存储数据能够进行分离分类存储,优化了数据的存储方式,便于对数据进行查找,同时提高了磁盘空间的利用率,优化了系统的运行效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1是本申请实施例提供的一种数据存储方法的流程示意图;
图2是本申请实施例提供的密度聚类方法原理示意图;
图3是本申请实施例提供的属性特征与类别的对应关系示意图;
图4是本申请实施例提供的一种数据存储装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的例子。
基于背景技术可知,数据存储系统需要缓存大量的异构数据,异构数据来源复杂,形式多样,对存储系统来说具有一定的存储压力,需要合理利用存储空间,提高系统运行性能。
具体的,现有的对异构数据的存储方法为:针对物联网中数据的多源异构难题,设计并实现了物联网网关多协议动态适配的系统,包括智能感知层、物联网关层和网络层。通过智能感知层中的传感器采集数据,将对物体和环境的感知变成电信号传输;通过物联网关层对智能感知层中不同类型的传感器进行动态适配和控制,并对传感器采集的数据进行解析和存储,然后传输至网络层;网络层中的数据存储服务器存储从物联网关层接收的数据,网络层中的数驱动云端服务器存放不同类型的传感器的驱动程序,供物联网关层对不同类型的传感器进行动态适配和控制。解决了数据采集存储的多源异构难题,该专利侧重于物联网环境中大数据多源异构的存储硬件方法,存在对于多数据异构组成的系统无法优化磁盘存储资源,并合理利用磁盘存储能力方面的问题。
基于上述发现,本申请实施例提供了一种数据存储方法、装置、设备及介质,通过属性特征对待存储数据进行聚类,使待存储数据能够根据聚类结果进行分离存储,使数据存储具有条理性。通过将每个聚类结果中的待存储数据进行编码处理,根据编码对待存储数据进行分类,可以使每个聚类结果下的待存储数据能够分类存储,进一步优化的磁盘存储资源,更加合理的利用了磁盘存储能力,从而提高系统的运行效率。
下面结合附图对本申请实施例提供的数据存储方法进行详细说明。
图1示出了本申请实施例提供的一种数据存储方法的流程示意图,该方法可以应用于数据存储系统,以对存储系统的存储资源进行合理的利用,如图1所示,该方法可以包括步骤S110-S150。
步骤S110,获取待存储数据的属性特征。
待存储数据为需要存储至数据库中的数据,待存储数据可以是报表、临时下载文件和应用程序等。待存储数据的属性特征包括:数据来源、内容大小、字段类型、实现格式、生成方式、存储方式和应用频次等。可根据上述属性特征确定待存储数据之间的联系,从而对待存储数据进行分离分类存储。
步骤S120,根据属性特征对待存储数据进行聚类,得到聚类结果。
根据属性特征确定待存储数据间的关系,故根据属性特征对待存储数据进行聚类,得到聚类结果。一个聚类结果中,相同属性特征的数量可以是一个或多个。示例性的,可将数据来源相同的待存储数据聚类在一起,或将数据来源生成方式均相同的数据聚类在一起。
在一个示例中,根据属性特征对待存储数据进行聚类,得到聚类结果,可以包括步骤S1201-S1202。
步骤S1201,确定各待存储数据间的目标距离。
目标距离可以是待存储数据间的欧氏距离,还可以是待存储数据间的相似度,上述步骤可以具体为:计算待存储数据间的欧式距离或相似度确定各待存储数据间的目标距离,还可根据实际需要设置一种距离度量方法来计算待存储数据间的目标距离。待存储数据间的目标距离体现了各待存储数据间的联系。
步骤S1202,基于所述目标距离对所述待存储数据进行聚类,得到聚类结果。
上述步骤可以具体为:将目标距离在预设范围内的待存储数据聚类在一起,从而得到聚类结果。使待存储数据可以更具条理化,避免了不同属性特征的待存储数据混杂在一起进行保存,导致数据查找困难的问题。
在一个示例中,基于所述目标距离对所述待存储数据进行聚类,得到聚类结果,可以包括:包括步骤S12021-S12024。
步骤S12021,依次选取待存储数据作为目标数据。
在对待存储数据进行聚类时,由于待存储数据的数量可以是一个或多个,若待存储数据的数量为一个,则无需进行聚类,直接保存。若当待存储数据的数量为多个,需要依次选取其中的单个待存储数据作为目标数据,针对当前目标数据进行聚类操作,避免在聚类时出现遗漏数据的情况。
步骤S12022,确定与目标数据的目标距离小于预设距离的待存储数据,作为目标数据的邻域数据。
如图2所示,表1至表9为部分待存储数据,根据待存储数据间的目标距离将表1至表9进行排列,示例性的,表1与表2之间的距离即为表1与表2之间的目标距离。以表1为例,将表1作为目标数据,将表1包围的虚线圆圈中的数据为与表1的目标距离小于预设距离的待存储数据,故将表1包围的虚线圆圈中的数据为表1的邻域数据,如表2为表1的邻域数据之一。邻域数据中的数据表示与目标数据关联性较为紧密的待存储数据,但要与目标数据进行聚类,还需对邻域数据进行筛选,将筛选后的邻域数据与目标数据进行聚类。
步骤,12023,当邻域数据中待存储数据的个数超过预设数值时,确定目标数据为核心数据;
当与目标数据对应的邻域数据的个数超过预设数值时,该目标数据可确定为核心数据。若与目标数据对应的邻域数据的个数未超过预设数值,则该目标数据不是核心数据。当目标数据被确定为核心数据时,可针对核心数据的属性特征进行数据聚类,形成该核心数据属性特征的聚类结果。示例性的,待存储数据包括:数据1、数据2、数据3和数据4,依次将上述数据作为目标数据,确定是否为核心数据。其中,数据1和数据3的邻域数据的个数超过预设数值,故确定数据1和数据3为核心数据,可针对数据1和数据3进行聚类,得到以数据1和数据3为代表的聚类结果。
步骤S12024,针对每个核心数据,将核心数据对应的邻域数据中,未聚类的待存储数据和非核心数据与核心数据聚类,得到聚类结果。
当目标数据对应的邻域数据的个数小于预设数值时,该目标数据为非核心数据。在针对核心数据进行聚类时,需要对核心数据对应的邻域数据进行筛选。本步骤可以具体为:确定当前核心数据的邻域数据中已聚类的待存储数据和其他核心数据。将当前核心数据的邻域数据中未聚类的待存储数据和非核心数据与当前核心数据进行聚类,得到聚类结果。避免了数据的重复聚类,节省了数据的存储空间。
步骤S130,根据属性特征确定聚类结果中的待存储数据的编码。
每类聚类结果中的待存储数据并非所有的属性特征均相同,故可针对每类聚类结果中的待存储数据进行进一步分类。针对每类聚类结果,根据属性特征对待存储数据进行编码,可以更加直接有效的对待存储数据进行进一步分类。
在一个示例中,根据所述属性特征对聚类结果中的待存储数据进行编码,得到编码结果,包括:步骤S1301。
步骤S1301,根据属性特征,以及预设的属性特征与分类编码的对应关系,确定待存储数据的分类编码,分类编码为待存储数据的编码结果。
在对待存储数据进行分类编码时,根据待存储数据的属性特征,以及预设的属性特征与分类编码的对应关系,对待存储数据进行编码。如图3所示,为预设的属性特征与分类编码的对应关系。待存储数据的编码为二分类编码。一分类编码的作用为便于查找与属性特征对应的二分类编码。示例性的,当需要针对内容大小进行编码时,根据一分类编码可快速找到关于内容大小的细化分类,即关于内容大小的二分类编码。示例性的,当一个数据的属性特征为内容大小60KB,字段类型为涉敏,实现格式为txt,生成方式为流出来缓存,存储方式为非压缩,应用频次为50次/day,其编码为A2B1C1D3E2F4。将待存储数据根据属性特征进行编码,可根据编码实现对数据的快速查找。示例性的,当需要查找存储方式为标准压缩的数据,可通过标准压缩数据的编码对数据进行查找,从而提高查找效率。
步骤S140,针对每个聚类结果,根据编码将待存储数据进行分类,得到待存储数据的分类结果。
针对每个聚类结果,将待存储数据根据编码进行进一步的分类,从而实现待存储数据的分离分类编码。具体的,根据待存储数据的二分类编码进行分类,可将二分类编码完全相同的待存储文件聚类在一起,也可将部分二分类编码相同的待存储文件聚类在一起。
在一个示例中,根据所述分类编码将所述待存储数据进行分类,可以包括:步骤S140,可以具体包括步骤S1401-S1402。
步骤S1401,预先建立编码模型。
在根据编码对待存储数据进行分类前,需要预先建立编码模型。具体可以是将一个编码作为编码模型,或者将至少两个编码进行组合建立编码模型,还可以是根据聚类结果具有的特征进行编码,形成编码模型。
步骤S1402,根据编码和编码模型将待存储数据进行分类。
本步骤可以具体为:将待存储文件的编码与编码模型进行相似度计算,确定与编码相似度最大的编码模型,将该编码对应的待存储文件分类至该编码模型对应的类别中,从而对每个聚类结果中的待存储文件进行分类。
在一个示例中,根据所述分类编码和所述编码模型将所述待存储数据进行分类,可以包括步骤S14021-S14022。
步骤S14021,确定与待存储数据的编码相似度最大的编码模型,作为目标编码模型。
上述步骤可以具体为:基于以下训练算法获取与该编码相似度最大的编码模型,从而将该编码对应的待存储文件分类至该编码模型对应的类别中。每个编码模型对应一个训练算法,根据待存储数据的编码获取待存储数据的内容,将待存储数据的内容分别输入至各编码模型对应的训练算法中,获得匹配值,取匹配值最大的编码模型作为目标编码模型。
其中,y为训练算法标识;K(特征(t))表示具有特征t的编码模型;m为预设参数;h(待存储数据i)表示待存储数据的内容。
步骤S14022,将所述待存储数据分类至目标编码模型对应的类别中。
上述步骤可以具体为:将当前编码对应的待存储数据分类至目标编码模型对应的类别下,从而实现对待存储数据更加细化的分类。
因目标编码模型为通用格式,故可独立嵌入任意系统使用,可根据主体系统及数据库调整模型方法,具备适用性。
步骤S150,将待存储数据根据聚类结果和分类结果进行存储。
将待存储数据先根据聚类结果进行存储,即聚类在一起的待存储数据存储在一起,不同聚类类别的待存储数据分开进行存储,从而实现待存储数据的分离存储。在每个聚类结果下的待存储数据再根据分类结果进行存储,待存储数据在分离存储的基础上实现了分类存储,使数据存储更具条理性,便于对数据进行查找,提高了数据查找效率。对数据进行分离分类存储可以优化数据的存储结构,从而更加合理的利用磁盘存储资源。
在一个示例中,在将取待存储数据根据所述类别进行存储之后,方法还包括:步骤S160和步骤S170。
步骤S160,获取待清除数据的类别。
具体的,待清除数据的类别包括待清除数据所在的聚类类别和所在聚类类别中的分类类别。示例性的,聚类类别包括:聚类类别1、聚类类别2和聚类类别3,当前待清除数据所在的聚类类别为聚类类别1。聚类类别1中又分为分类类别1、分类类别2和分类类别3,当前待清除数据的分类类别为分类类别2。确定待清除数据的类别,便于根据类别清除待清除数据。
步骤S170,根据所述待清除数据的类别从存储的数据中清除待清除数据。
示例性的,根据上述描述,当前待清除数据的类别为:聚类类别为聚类1,分类类别为分类类别2,故将聚类类别1下的分类类别2对应的已存储数据清除。
还可设置清除已存储数据的时间,从实现定期对已存储数据的清理,根据数据的类别清除数据,可有效地提高数据清除的效率,从而释放不必要的资源占用,减轻甚至消除异构存储系统中的整体性能瓶颈,提升系统的运行性能。
将当前聚类类别下的数据进行清除,可释放出磁盘存储空间,将释放出的磁盘存储空间分配至其他需要较大存储空间的聚类类别使用,从而平衡负载分布,使存储设备上的负载和其本身服务能力相匹配,从而实现磁盘存储资源的合理分配。
基于上述实施例提供的数据存储方法,本申请还提供了一种数据存储装置实施例。
图4示出了本申请实施例提供的一种数据存储装置,如图4所示,该数据处理装置可以包括:属性特征获取模块410、数据聚类模块420、数据编码模块430、数据分类模块440和数据存储模块450。
其中,属性特征获取模块410,用于获取待存储数据的属性特征;
数据聚类模块420,用于根据所述属性特征对所述待存储数据进行聚类,得到聚类结果;
数据编码模块430,用于根据所述属性特征确定所述聚类结果中的待存储数据的分类编码;
数据分类模块440,用于针对每个聚类结果,根据所述分类编码将所述待存储数据进行分类,得到所述待存储数据的分类结果;
数据存储模块450,用于将所述待存储数据根据所述聚类结果和所述分类结果进行存储。
在一些实施例中,数据聚类模块420可以包括:
目标距离确定单元,用于确定各待存储数据间的目标距离;
数据聚类单元,用于基于所述目标距离对所述待存储数据进行聚类,得到聚类结果。
在一些实施例中,数据聚类单元,可以包括:
目标数据确定子单元,用于依次选取待存储数据作为目标数据;
邻域数据确定子单元,用于确定与所述目标数据的目标距离小于预设距离的待存储数据,作为所述目标数据的邻域数据;
核心数据确定子单元,用于当所述邻域数据中待存储数据的个数超过预设数值时,确定目标数据为核心数据;
聚类结果确定子单元,用于针对每个核心数据,将核心数据对应的邻域数据中,未聚类的待存储数据和非核心数据与核心数据聚类,得到聚类结果。
在一些实施例中,数据编码模块430,包括:
分类编码确定单元,用于根据所述属性特征,以及预设的属性特征与分类编码的对应关系,确定所述待存储数据的分类编码。
在一些实施例中,数据分类模块440,包括:
编码模型建立单元,用于预先建立编码模型;
数据分类单元,用于根据所述分类编码和所述编码模型将所述待存储数据进行分类。
在一些实施例中,数据分类单元,包括:
目标编码模型确定子单元,用于确定与所述待存储数据的编码相似度最大的编码模型,作为目标编码模型;
待存储数据分类子单元,用于将所述待存储数据分类至目标编码模型对应的类别中。
在一些实施例中,数据存储装置还包括:
类别获取模块,用于获取待清除数据的类别;
数据清除模块,用于根据所述待清除数据的类别从存储的数据中清除待清除数据。
本申请实施例提供的数据存储装置,通过属性特征获取模块获取待存储数据的属性特征;通过数据聚类模块420根据属性特征对待存储数据进行聚类,得到聚类结果;聚类结果体现了待存储数据之间的关系,根据聚类结果对待存储数据进行存储,可以实现待存储数据的分离保存;通过数据编码模块根据属性特征确定聚类结果中的待存储数据的分类编码;通过数据分类模块针对每个聚类结果,根据编码将待存储数据进行分类,得到待存储数据的分类结果;将对待存储数据的属性特征转化为分类编码进行分类,可以提高待存储数据分类的准确性;通过数据存储模块将待存储数据根据聚类结果和分类结果进行存储。可以使待存储数据能够进行分离分类存储,优化了数据的存储方式,便于对数据进行查找,同时提高了磁盘空间的利用率,优化了系统的运行效率。
基于同一发明构思,本申请实施例还提供了一种电子设备。
图5是本申请实施例提供的一种电子设备的结构示意图。如图5所示,电子设备可以包括处理器501以及存储有计算机程序或指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种基站故障检测方法。
在一个示例中,电子设备还可包括通信接口503和总线510。其中,如图5示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本发明实施例中各模块、设备、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该电子设备可以执行本发明实施例中的数据存储方法,从而实现图1描述的数据存储方法。
另外,结合上述实施例中的数据存储方法,本发明实施例可提供一种可读存储介质来实现。该可读存储介质上存储有程序指令;该程序指令被处理器执行时实现上述实施例中的任意一种数据存储方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种数据存储方法,其特征在于,所述方法包括:
获取待存储数据的属性特征;
根据所述属性特征对所述待存储数据进行聚类,得到聚类结果;
根据所述属性特征确定所述聚类结果中的待存储数据的分类编码;
针对每个聚类结果,根据所述分类编码将所述待存储数据进行分类,得到所述待存储数据的分类结果;
将所述待存储数据根据所述聚类结果和所述分类结果进行存储。
2.根据权利要求1所述的方法,其特征在于,所述根据所述属性特征对所述待存储数据进行聚类,得到聚类结果,包括:
确定各待存储数据间的目标距离;
基于所述目标距离对所述待存储数据进行聚类,得到聚类结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标距离对所述待存储数据进行聚类,得到聚类结果,包括:
依次选取待存储数据作为目标数据;
确定与所述目标数据的目标距离小于预设距离的待存储数据,作为所述目标数据的邻域数据;
当所述邻域数据中待存储数据的个数超过预设数值时,确定目标数据为核心数据;
针对每个核心数据,将核心数据对应的邻域数据中,未聚类的待存储数据和非核心数据与核心数据聚类,得到聚类结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述属性特征确定所述聚类结果中的待存储数据的分类编码,包括:
根据所述属性特征,以及预设的属性特征与分类编码的对应关系,确定所述待存储数据的分类编码。
5.根据权利要求1所述的方法,其特征在于,所述根据所述分类编码将所述待存储数据进行分类,包括:
预先建立编码模型;
根据所述分类编码和所述编码模型将所述待存储数据进行分类。
6.根据权利要求5所述的方法,其特征在于,所述根据所述分类编码和所述编码模型将所述待存储数据进行分类,包括:
确定与所述待存储数据的编码相似度最大的编码模型,作为目标编码模型;
将所述待存储数据分类至目标编码模型对应的类别中。
7.根据权利要求1所述的方法,其特征在于,在将所述取待存储数据根据所述类别进行存储之后,所述方法还包括:
获取待清除数据的类别;
根据所述待清除数据的类别从存储的数据中清除待清除数据。
8.一种数据存储装置,其特征在于,所述装置包括:
属性特征获取模块,用于获取待存储数据的属性特征;
数据聚类模块,用于根据所述属性特征对所述待存储数据进行聚类,得到聚类结果;
数据编码模块,用于根据所述属性特征确定所述聚类结果中的待存储数据的分类编码;
数据分类模块,用于针对每个聚类结果,根据所述分类编码将所述待存储数据进行分类,得到所述待存储数据的分类结果;
数据存储模块,用于将所述待存储数据根据所述聚类结果和所述分类结果进行存储。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一所述的数据存储方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的数据存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110390076.XA CN113031877B (zh) | 2021-04-12 | 2021-04-12 | 数据存储方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110390076.XA CN113031877B (zh) | 2021-04-12 | 2021-04-12 | 数据存储方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113031877A true CN113031877A (zh) | 2021-06-25 |
CN113031877B CN113031877B (zh) | 2024-03-08 |
Family
ID=76456358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110390076.XA Active CN113031877B (zh) | 2021-04-12 | 2021-04-12 | 数据存储方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113031877B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626649A (zh) * | 2021-08-02 | 2021-11-09 | Oppo广东移动通信有限公司 | 数据存储方法、装置、存储介质以及电子设备 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE731530A (zh) * | 1968-04-22 | 1969-09-15 | ||
EP1209627A2 (en) * | 2000-11-24 | 2002-05-29 | Canadian Space Agency | Vector quantization method and apparatus |
US20030120662A1 (en) * | 2001-12-26 | 2003-06-26 | Vishik Claire S. | Usage-based adaptable taxonomy |
CN101840400A (zh) * | 2009-03-19 | 2010-09-22 | 北大方正集团有限公司 | 一种多级分类检索方法及系统 |
US20140012849A1 (en) * | 2012-07-06 | 2014-01-09 | Alexander Ulanov | Multilabel classification by a hierarchy |
CN107943984A (zh) * | 2017-11-30 | 2018-04-20 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、计算机设备和计算机可读存储介质 |
CN109299279A (zh) * | 2018-11-29 | 2019-02-01 | 北京奇安信科技有限公司 | 一种数据处理方法、设备、系统和介质 |
WO2020048308A1 (zh) * | 2018-09-03 | 2020-03-12 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN111178380A (zh) * | 2019-11-15 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 数据分类方法、装置及电子设备 |
CN111324683A (zh) * | 2020-02-19 | 2020-06-23 | 中国电子科技集团公司第二十八研究所 | 一种时空与要素统一编码的数据管理方法 |
CN111444933A (zh) * | 2019-11-26 | 2020-07-24 | 北京邮电大学 | 一种对象分类方法及装置 |
WO2020161845A1 (ja) * | 2019-02-06 | 2020-08-13 | 国立大学法人東北大学 | クラスタリング装置及びクラスタリング方法 |
CN112069342A (zh) * | 2020-09-03 | 2020-12-11 | Oppo广东移动通信有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN112084250A (zh) * | 2020-09-15 | 2020-12-15 | 深圳市宝能投资集团有限公司 | 数据存储方法、数据查询方法和电子设备 |
CN112233741A (zh) * | 2020-09-30 | 2021-01-15 | 吾征智能技术(北京)有限公司 | 一种基于聚类的文本分类系统、设备、存储介质 |
CN112233742A (zh) * | 2020-09-30 | 2021-01-15 | 吾征智能技术(北京)有限公司 | 一种基于聚类的病历文档分类系统、设备、存储介质 |
-
2021
- 2021-04-12 CN CN202110390076.XA patent/CN113031877B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE731530A (zh) * | 1968-04-22 | 1969-09-15 | ||
EP1209627A2 (en) * | 2000-11-24 | 2002-05-29 | Canadian Space Agency | Vector quantization method and apparatus |
US20030120662A1 (en) * | 2001-12-26 | 2003-06-26 | Vishik Claire S. | Usage-based adaptable taxonomy |
CN101840400A (zh) * | 2009-03-19 | 2010-09-22 | 北大方正集团有限公司 | 一种多级分类检索方法及系统 |
US20140012849A1 (en) * | 2012-07-06 | 2014-01-09 | Alexander Ulanov | Multilabel classification by a hierarchy |
CN107943984A (zh) * | 2017-11-30 | 2018-04-20 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、计算机设备和计算机可读存储介质 |
WO2020048308A1 (zh) * | 2018-09-03 | 2020-03-12 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN109299279A (zh) * | 2018-11-29 | 2019-02-01 | 北京奇安信科技有限公司 | 一种数据处理方法、设备、系统和介质 |
WO2020161845A1 (ja) * | 2019-02-06 | 2020-08-13 | 国立大学法人東北大学 | クラスタリング装置及びクラスタリング方法 |
CN111178380A (zh) * | 2019-11-15 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 数据分类方法、装置及电子设备 |
CN111444933A (zh) * | 2019-11-26 | 2020-07-24 | 北京邮电大学 | 一种对象分类方法及装置 |
CN111324683A (zh) * | 2020-02-19 | 2020-06-23 | 中国电子科技集团公司第二十八研究所 | 一种时空与要素统一编码的数据管理方法 |
CN112069342A (zh) * | 2020-09-03 | 2020-12-11 | Oppo广东移动通信有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN112084250A (zh) * | 2020-09-15 | 2020-12-15 | 深圳市宝能投资集团有限公司 | 数据存储方法、数据查询方法和电子设备 |
CN112233741A (zh) * | 2020-09-30 | 2021-01-15 | 吾征智能技术(北京)有限公司 | 一种基于聚类的文本分类系统、设备、存储介质 |
CN112233742A (zh) * | 2020-09-30 | 2021-01-15 | 吾征智能技术(北京)有限公司 | 一种基于聚类的病历文档分类系统、设备、存储介质 |
Non-Patent Citations (2)
Title |
---|
CHUN-LING CHENG 等: "A Multi-dimensional Index Structure Based on Improved VA-file and CAN in the Cloud", 《INTERNATIONAL JOURNAL OF AUTOMATION AND COMPUTING》, no. 01 * |
袁琰星;郭献洲;: "海量教育多媒体数据高效分类存储技术研究", 《现代电子技术》, no. 08 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626649A (zh) * | 2021-08-02 | 2021-11-09 | Oppo广东移动通信有限公司 | 数据存储方法、装置、存储介质以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113031877B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113031877B (zh) | 数据存储方法、装置、设备及介质 | |
CN111090268B (zh) | 基于线程划分的数据采集方法、装置及数据采集设备 | |
CN112487256A (zh) | 对象查询方法、装置、设备及存储介质 | |
CN112269827B (zh) | 数据处理方法、装置、计算机设备及计算机可读存储介质 | |
CN111628888B (zh) | 一种故障诊断方法、装置、设备及计算机存储介质 | |
CN111339211A (zh) | 网络问题分析的方法、装置、设备及介质 | |
CN113472640B (zh) | 一种智能网关信息处理方法及系统 | |
CN112818165A (zh) | 数据处理方法、装置、设备及存储介质 | |
US20180109656A1 (en) | Server and method for managing position change | |
CN115757900B (zh) | 应用人工智能模型的用户需求分析方法及系统 | |
CN107656967B (zh) | 一种场景信息处理方法及装置 | |
CN107480598B (zh) | 基于人工智能的dsp系统 | |
CN116339882A (zh) | 基于物联网的办公系统协同显示方法、装置、设备及介质 | |
CN111860661B (zh) | 基于用户行为的数据分析方法、装置、电子设备及介质 | |
CN115186741A (zh) | 一种兴趣点poi融合数据验证的方法、装置及设备 | |
CN116189706A (zh) | 数据传输方法、装置、电子设备和计算机可读存储介质 | |
CN110909288B (zh) | 业务数据处理方法、装置、平台、业务端、系统及介质 | |
CN112234995A (zh) | 基于时空编码的信令压缩方法及系统 | |
CN113240036B (zh) | 一种对象分类方法和装置、电子设备、存储介质 | |
CN116094924B (zh) | 用于模型更新的方法及相关装置 | |
CN114546971B (zh) | 数据文件格式转换方法、装置、设备及可读存储介质 | |
CN113626489B (zh) | 传感器数据的搜索方法、系统及计算机介质 | |
CN115102982B (zh) | 一种面向智能任务的语义通信方法 | |
CN114912508A (zh) | 基于云平台和边缘计算的数据融合系统及方法 | |
CN115391620A (zh) | 模型运行方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |