CN103544275A - 一种处理数据的方法及装置 - Google Patents

一种处理数据的方法及装置 Download PDF

Info

Publication number
CN103544275A
CN103544275A CN201310499196.9A CN201310499196A CN103544275A CN 103544275 A CN103544275 A CN 103544275A CN 201310499196 A CN201310499196 A CN 201310499196A CN 103544275 A CN103544275 A CN 103544275A
Authority
CN
China
Prior art keywords
data
duplication
file
metadata
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310499196.9A
Other languages
English (en)
Inventor
钟延辉
谢勇
付旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310499196.9A priority Critical patent/CN103544275A/zh
Publication of CN103544275A publication Critical patent/CN103544275A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种处理数据的方法及装置,用以解决现有技术对海量的原始数据进行聚类分类处理而造成的系统工作量繁重的问题,该方法包括:对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;根据所述元数据对所述重复数据删除处理后的文件进行聚类和分类中的至少一种处理。

Description

一种处理数据的方法及装置
技术领域
本申请涉及电子技术领域,特别涉及一种处理数据的方法及装置。
背景技术
随着信息化程度的不断提高,数据对于企业的重要性愈发凸显。由于企业日常生产过程中会产生大量的生产数据,面对每天急剧膨胀的数据,如何从这些海量的数据中获取对自己有用的信息,出现了数据挖掘(Data Mining)技术,数据挖掘是通过分析每个数据,从海量数据中寻找其规律的技术,以从海量数据中挖掘潜在的有用的信息,数据挖掘中的常用手段是聚类分析和分类分析。
聚类是将相同或者相似的数据聚集在一起作为一个类,可以发现数据中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析,用途非常广泛,在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。
分类是指将给定数据按照事先划分好的类别进行类别判定的操作,它可以用来提取描述重要数据类的模型,也可以用来预测未来的趋势。
但是由于待处理的原始文件数据量日益增加,因此,对大量的原始数据进行聚类分类处理必然会造成系统工作量繁重的问题。
发明内容
本申请实施例通过提供一种处理数据的方法及装置,用以解决现有技术中对海量的原始数据进行聚类分类处理而造成的系统工作量繁重的问题。
第一方面,提供一种处理数据的方法,包括:
对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;根据元数据对重复数据删除处理后的文件进行聚类和分类中的至少一种处理。
结合第一方面,在第一种可能的实现方式中,根据元数据对重复数据删除处理后的文件进行聚类处理,包括:为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或元数据所在的数据块的指纹;根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
结合第一方面,在第二种可能的实现方式中,根据元数据对重复数据删除处理后的文件进行分类处理,包括:为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或所元数据所在的数据块的指纹;根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
结合第一方面,在第三种可能的实现方式中,根据元数据对重复数据删除处理后的文件进行聚类处理,包括:为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
结合第一方面,在第四种可能的实现方式中,根据元数据对重复数据删除处理后的文件进行分类处理,包括:为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
第二方面,提供一种处理数据的装置,包括:
重复数据删除单元,用于对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;数据挖掘单元,用于根据元数据对重复数据删除处理后的文件进行聚类和分类中的至少一种处理。
结合第二方面,在第一种可能的实现方式中,数据挖掘单元,具体包括:第一生成单元,用于为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或元数据所在的数据块的指纹;第一计算单元,用于根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
结合第二方面,在第二种可能的实现方式中,数据挖掘单元,具体包括:
第二生成单元,用于为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或所述元数据所在的数据块的指纹;第二计算单元,用于根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
结合第二方面,在第三种可能的实现方式中,所述数据挖掘单元,具体包括:第三生成单元,用于为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;第三计算单元,用于根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
结合第二方面,在第四种可能的实现方式中,所述数据挖掘单元,具体包括:第四生成单元,用于为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;第四计算单元,用于根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
第三方面,提供一种处理数据的装置,包括:
处理器,用于对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据,并将重复数据删除处理后的元数据存储到存储器中;以及根据元数据对重复数据删除处理后的文件进行聚类和分类中的至少一种处理;
存储器,用于存储重复数据删除处理后的元数据,以及存储根据元数据对重复数据删除处理后的文件进行处理后获得的聚类信息和分类信息。
结合第三方面,在第一种可能的实现方式中,处理器,具体用于:为重复数据删除处理后的每个文件生成二维特征向量,该二维特征向量由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或元数据所在的数据块的指纹;根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
结合第三方面,在第二种可能的实现方式中,处理器,具体用于:为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或元数据所在的数据块的指纹;根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
结合第三方面,在第三种可能的实现方式中,处理器,具体用于:为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
结合第三方面,在第四种可能的实现方式中,处理器,具体用于:为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例由于根据重复数据删除的文件的元数据来进行聚类和分类处理的技术手段,减少对文件进行聚类分类处理过程中的数据处理量。
附图说明
图1为本申请实施例提供的一种处理数据的方法的流程图;
图2为本申请实施例提供的存储数据的容器Container中的存储结构示意图;
图3为本申请实施例提供的将文件分块存储在不同Container中的示意图;
图4为本申请实施例提供的一种根据分块标识(CID,ChunkID)对重删后的文件进行聚类处理的处理过程;
图5为本申请实施例提供的第一种处理数据的装置的结构示意图;
图6为本申请实施例提供的第二种处理数据的装置的结构示意图。
具体实施方式
本申请实施例通过提供一种处理数据的方法及装置,总体思路如下:
提供一种处理数据的方法,包括:
首先,对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;其次,根据元数据对所述重复数据删除处理后的文件进行聚类和分类中的至少一种处理。
本申请实施例由于根据重复数据删除的文件的元数据来进行聚类和分类处理的技术手段,减少对文件进行聚类分类处理过程中的数据处理量。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
如图1所示,本申请实施例提供的处理数据的方法,具体包括步骤:
S1:对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;
在具体实施过程中,本申请实施例中的待聚类与分类的数据是先通过重复数据删除后得到的重复数据删除后的文件的元数据,即聚类与分类的对象为经过重复数据删除(简称“重删”)后的元数据。下面详细介绍一下本申请采用重删技术对原始文件数据的处理过程:
首先,对原始文件进行分块处理,把一个文件分成若干数据块,目的是为了在处理过程中以更细粒度发现重复的数据块,提高重复数据删除效率。本申请实施例中的一种实现方式为采用经典的rabin fingerprint变长分块算法。
然后,对分块后的数据块进行重复数据删除处理,即对相同的数据块只存储一份。在重复数据删除过程中,通过计算并检查数据块的“指纹(fingerprint)”,即特征值,判断该数据块是否与已经存储的数据块相同,即是否具有相同的特征值,如果重复,则只需要保留指向已经存储的数据块的指针,如果该“指纹(fingerprint)”与已经存储的数据块的指纹不同,则该数据块是全新的,则存储该数据块,并记录该数据块的指纹,即指纹也作为该数据块的一个元数据信息与其他元数据一起被保存。
存储数据的容器(Container)作为重复数据删除后的数据存储的基本单位,如图2所示,图2为本申请实施例中提供的Container中的存储结构示意图,Container存在唯一的编号(CID),Container存储有头文件(head),元数据(Metadata),其中,元数据(Metadata)包括数据块的编号ChunkID、指纹(fingerprint)和数据块(ChunkID Data),当然还包括有数据块的其他元数据,数据块的分块标识(CID,ChunkID)与指纹(fingerprint)一样,能够作为获取一个数据块的标识,因此,可以通过查询Container的(CID,ChunkID)来获取Container中的数据块,或者也可以通过查询存储在Container中的指纹(fingerprint)来获取Container中的数据块,从而获得该数据块的其他元数据信息。
在实际应用中,每个文件被重删处理后的数据块可以放在同一个Container中,也可以分别被放在不同的Container中,假设有2个文件需要进行重复数据删除处理,每个文件被分成5个数据块,第一个文件重删后剩余3个数据块,第二个文件重删后剩余4个数据块,可以用两个container分别来存储剩余的3个数据块以及剩余的4个数据块,也可以存在一个container中。如图3所示,一个经过重复数据删除后的文件的数据块被分别存储在不同的存储容器(Container)中,根据(CID,ChunkID)就可以获得该文件被存储在不同容器的不同位置的每一个数据块。
可见,在本申请中由于对原始文件数据进行了重复数据删除处理,直接利用重删后的文件的元数据来进行聚类和分类中的至少一种处理,省去了读取文件内容以及分词两个步骤,提高了处理速度,减少了对原始文件内容的依赖。
S2:根据元数据对重复数据删除处理后的文件进行聚类和分类中的至少一种处理。
在本申请实施例中,当通过步骤S1获得了重删后的元数据后,步骤S2中继续根据重复数据删除的文件的元数据进行聚类处理和分类处理、或者只进行聚类处理、或者只进行分类处理。
进一步的,在本申请实施例对元数据的聚类和分类处理可以直接利用重删后数据的CID和ChunkID,以及分块指纹(fingerprint)直接对元数据进行数字化操作,然后进行聚类和分类处理,即:对元数据进行聚类处理,包括:可以根据元数据的分块标识(CID,ChunkID)或分块指纹(fingerprint)对元数据进行聚类处理;以及对元数据进行分类处理,包括:可以根据元数据的分块标识(CID,ChunkID)或分块指纹(fingerprint)对元数据进行分类处理;以及对元数据进行聚类处理和分类处理,包括:可以根据元数据的分块标识(CID,ChunkID)或分块指纹(fingerprint)对元数据进行聚类处理,同时根据进行聚类处理后的数据的分块标识(CID,ChunkID)或分块指纹(fingerprint)对进行聚类处理后的数据进行分类处理。这里要说明的是,在元数据信息中,除了分块标识(CID,ChunkID),指纹(fingerprint)可以作为一个数据块的标识,当然还可以有其他标识信息,本申请在下面实施例中主要以分块标识(CID,ChunkID)或者指纹(fingerprint)作为标识来举例分析对元数据的聚类或分类处理,当然在实际应用中,本领域内的技术人员还可以选取元数据信息中的其他标识信息,比如,选取(CID,fingerprint),本申请对聚类或分类要选取的标识并不做限定。
在本申请实施例中对聚类与分类所采用的算法不做具体限定,在实际应用中,可以利用重复数据删除处理后获得的元数据中的标识信息为每个文件生成二维特征向量或者一维特征向量,基于二维特征向量或一维特征向量对应的数值以及任意一种聚类(分类)运算算法,进行计算从而获得聚类(分类)的结果,然后根据运算结果来确定两个文件是否可以聚为一类,比如,当两两文件的二维特征向量进行计算的结果大于第一阈值时,可认为该两个文件可以聚为一类,或者大于第二阈值时,可以分为一类。这里要说明的是,聚为同一类或者分类同一类指的是预设一个条件,满足这个条件的文件可以聚为同一类,或者分为同一类,比如,预设大小范围为1-1M,1-10M,10-20M,可以将3M与5M的两个文件聚成一类,或者预设有*.BMP,*.GIF,*.GIF三种文件类型,一个为*.GIF类型的文件可以分到*.GIF类中,但是一个*.JPG类型的文件不满足预设的三种类型的条件,因此不能被分到这三类中的任何一类中。
实施例一,利用分块标识(CID,ChunkID)对元数据聚类处理:
在本实施例中采用的是对重复数据删除处理后的每个文件生成二维特征向量的方式来进行聚类的,从文件的元数据中选取两个标识信息来作为二维特征向量的参数,其中,第一标识信息与第二标识信息的组合可以为元数据所在的数据块所对应的存储单元的标识CID,以及元数据所在的数据块的标识ChunkID,即(CID,ChunkID);或元数据所在的数据块所对应的存储单元的标识CID,以及元数据所在的数据块的指纹fingerprint,即(CID,fingerprint),下面是以(CID,ChunkID)来举例说明的。
如图4所示,图4为本申请实施例中提供根据分块标识(CID,ChunkID)对重删后的数据进行聚类处理的计算过程:
1、首先对重复数据删除处理后的数据进行初步聚类,为了更好的进行后面的聚类步骤,才进行初步聚类步骤,在实际应用中,也可以跳过这个步骤,直接执行第2步。初步聚类可以按文件大小进行分为多个类别,例如0-1M、1M-100M、……、10G-100G的文件作为各自的类,即0-1M为文件类别1、1M-100M为文件类别2、……、10G-100G为文件类别n;除了按照文件大小,也可以基于其他标准进行初步聚类,比如按照文件类型进行步骤聚类,对于初步聚类方式在本申请实施例中并不做具有限定;
2、提取每个文件被存储在Container后的所有数据块对应的CID和ChunkID,也就是说获得针对每个文件的所有数据块的(CID,ChunkID)的二维特征向量;比如,一个重删处理后的文件剩余两个数据块,分别被存储在两个Container中,第一个Container的CID编号为2,第二个Container的CID编号为1,两个数据块的ChunkID分别为1和1,因此,获得该文件的二维特征向量就是(CID2,ChunkID1)以及(CID1,ChunkID1)。图4中所示的就是针对0-1M类型中的第1个文件获得的二维特征向量:(CID2,ChunkID1),(CID1,ChunkID1),(CID1,ChunkID2)……(CIDn,ChunkIDm),以及第n个文件获得的二维特征向量:(CIDn,ChunkID6),(CIDm,ChunkID8),(CID1,ChunkID5),……,(CID2,ChunkIDm)。
3、所处的大小类别中按照最大的二维特征向量维度进行对齐,即针对每一个文件,都按照最大的二维特征向量维度进行对齐。比如图4中的文件类别1中的第1个文件,当前维度为m,最大维度为m+1,对齐后为(CID2,ChunkID1),(CID1,ChunkID1),(CID1,ChunkID2)……(CIDn,ChunkIDm),(0,0)。
4、对二维特征向量进行归1化处理,将每个文件中的二维特征向量维度对齐后,分别进行归一化处理,如图4中,文件类别1中的第1个文件带入数值后获得归一化结果为(0.11,0.2),(0.12,0.11),(0.21,0.13)……(0.5,0.53)。假设对于0-1M类别中,有5个文件abcde,将这5个文件的二维特征向量按照最大的二维特征向量维度对齐后以及归一化处理后,会获得5个如图4中所示的二维特征向量。
5、采用聚类算法对二维特征向量集合进行聚类,得到文件的聚类信息,例如,对二维特征向量进行两两运算,得到一个值,当值大于设定的阈值时,可以认为两个二维特征向量为同一类,即两个文件可以聚为一类。比如,对0-1M类别中的abcde这个5个文件的二维特征向量进行对两两进行运算,即是要对ab,bc,cd,de进行运算,如果ab运算结果值大于阈值,则ab属于一类,如果bc的运算结果也大于阈值,则bc属于一类,则说明abc都属于一类;但如果cd的运算值比阈值小,则cd不属于一类,而de的运算结果大于阈值,即de属于一类,因此,在0-1M这个大的类别中的5个文件又被聚成了abc,de两个小类。如图4中,经过计算后得出在0-1M这个大的类别中,还可以聚类为ABCD类,其中,第1个文件归为A类,第n个文件归为D类。
实施例二,利用分块指纹(fingerprint)对元数据聚类处理:
与实施例一的流程类似的,在本实施例中采用的是对重复数据删除处理后的每个文件生成一维特征向量的方式来进行聚类的,从文件的元数据中选取一个标识信息来作为一维特征向量的参数,其中,该标识信息可以为元数据所在的数据块的标识ChunkID,也可以为元数据所在的数据块的指纹fingerprint,下面是以fingerprint来举例说明的:
1、首先对重复数据删除处理后的数据进行初步聚类,例如按照文件类型将重复数据删除处理后的文件初步分为几大类,比如,分为*.BMP,*.GIF,*.GIF,*.JPG这几类;与实施例一类似的,这里第1步也可以跳过,直接进入第2步;
2、获得文件的指纹列表作为文件的一维特征向量;
3、所处的大小类别中按照最大的向量维度进行对齐;
4、对向量进行归1化处理;
5、采用聚类算法对一维特征向量集合进行聚类,得得到文件的聚类信息,例如可以将两两向量进行运算,得到一个值,当值大于设定的阈值时,可以认为两个向量为同一类,即两个文件可以聚为一类。
实施例三,利用分块标识(CID,ChunkID)对元数据分类处理:
根据实施例一中的方法聚类后,当一个文件重删后,首先按照大小进行一个初步分类(如果在实施例一中没有对数据进行初步聚类,在该实施例中初步分类这个步骤可以跳过),然后提取文件元数据中的分块标识(CID,ChunkID),将(CID,ChunkID)作为文件二维特征向量,并对齐,同时将文件的特征向量做归1化处理,采用分类算法对当前文件进行分类,得到当前文件的分类信息,例如可以将当前类别中的二维特征向量两两进行运算,到得一个值,当值大于设定的阈值时,可以认为运算的两个二维特征向量为同一类,即当前两个文件可以分为一类。
实施例四,利用分块指纹(fingerprint)对元数据分类处理:
根据实施例二中的方法聚类后,当一个文件重删后,首先按照大小进行一个初步分类(如果在实施例二中没有初步聚类,在该实施例中初步分类这个步骤可以跳过),然后提取文件的分块指纹(fingerprint),将分块指纹(fingerprint)作为文件特征向量,并对齐,同时将文件的一维特征向量做归1化处理,采用分类算法对当前文件进行分类,得到当前文件的分类信息,例如可以将当前类别中的一维特征向量两两进行运算,到得一个值,当值大于设定的阈值时,可以认为运算的两个特征向量为同一类,即当前两个文件可以分为一类。
可见,本申请实施例由于采用基于对原始数据进行重复数据删除后的文件的元数据,解决了现有技术中对海量的原始数据进行聚类分类处理而造成的系统工作量繁重的问题,实现了能够减少在对数据进行聚类分类处理过程中的工作量的技术效果,同时也提高了重复数据删除技术的附加价值。
基于同一发明构思,本申请实施例还提供第一种处理数据的装置,如图5所示,该装置包括:
重复数据删除单元10,用于对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;
数据挖掘单元20,用于根据元数据对重复数据删除处理后的文件进行聚类和分类中的至少一种处理。
进一步的,数据挖掘单元20,具体包括:
第一生成单元,用于为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或元数据所在的数据块的指纹;
第一计算单元,用于根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
进一步的,数据挖掘单元20,具体包括:
第二生成单元,用于为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为所述元数据所在的数据块的标识或元数据所在的数据块的指纹;
第二计算单元,用于根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
进一步的,数据挖掘单元20,具体包括:
第三生成单元,用于为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;
第三计算单元,用于根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
进一步的,数据挖掘单元20,具体包括:
第四生成单元,用于为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;
第四计算单元,用于根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
本发明实施例涉及第二种处理数据的装置100,该装置100可以为平板电脑,笔记本电脑,智能手机,PDA(Personal Digital Assistant,个人数字助理)等,如图6所示,该装置100包括:
处理器101,用于对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据,并将重复数据删除处理后的元数据存储到存储器中;以及根据元数据对重复数据删除处理后的文件进行聚类和分类中的至少一种处理;
存储器102,用于存储重复数据删除处理后的元数据,以及存储根据元数据对重复数据删除处理后的文件进行处理后获得的聚类信息和分类信息。
处理器101,具体用于:为重复数据删除处理后的每个文件生成二维特征向量,该二维特征向量由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或元数据所在的数据块的指纹;根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
处理器101,具体用于:为重复数据删除处理后的每个文件生成二维特征值,该二维特征值由元数据中的第一标识信息与第二标识信息组成,第一标识信息为元数据所在的数据块所对应的存储单元的标识,第二标识信息为元数据所在的数据块的标识或元数据所在的数据块的指纹;根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
处理器101,具体用于:为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;根据聚类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否聚为一类。
处理器101,具体用于:为重复数据删除处理后的每个文件生成一维特征值,该一维特征值由元数据所在的数据块的指纹组成;根据分类算法对重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定两个文件是否分为一类。
本申请实施例由于根据重复数据删除的文件的元数据来进行聚类和分类处理的技术手段,减少对文件进行聚类分类处理过程中的数据处理量。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种处理数据的方法,其特征在于,包括:
对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;
根据所述元数据对所述重复数据删除处理后的文件进行聚类和分类中的至少一种处理。
2.如权利要求1所述的方法,其特征在于,所述根据所述元数据对所述重复数据删除处理后的文件进行聚类处理,包括:
为所述重复数据删除处理后的每个文件生成二维特征值,所述二维特征值由所述元数据中的第一标识信息与第二标识信息组成,所述第一标识信息为所述元数据所在的数据块所对应的存储单元的标识,所述第二标识信息为所述元数据所在的数据块的标识或所述元数据所在的数据块的指纹;
根据聚类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否聚为一类。
3.如权利要求1所述的方法,其特征在于,所述根据所述元数据对所述重复数据删除处理后的文件进行分类处理,包括:
为所述重复数据删除处理后的每个文件生成二维特征值,所述二维特征值由所述元数据中的第一标识信息与第二标识信息组成,所述第一标识信息为所述元数据所在的数据块所对应的存储单元的标识,所述第二标识信息为所述元数据所在的数据块的标识或所述元数据所在的数据块的指纹;
根据分类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否分为一类。
4.如权利要求1所述的方法,其特征在于,所述根据所述元数据对所述重复数据删除处理后的文件进行聚类处理,包括:
为所述重复数据删除处理后的每个文件生成一维特征值,所述一维特征值由所述元数据所在的数据块的指纹组成;
根据聚类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否聚为一类。
5.如权利要求1所述的方法,其特征在于,所述根据所述元数据对所述重复数据删除处理后的文件进行分类处理,包括:
为所述重复数据删除处理后的每个文件生成一维特征值,所述一维特征值由所述元数据所在的数据块的指纹组成;
根据分类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否分为一类。
6.一种处理数据的装置,其特征在于,包括:
重复数据删除单元,用于对原始文件进行重复数据删除处理,获得重复数据删除处理后的文件的元数据;
数据挖掘单元,用于根据所述元数据对所述重复数据删除处理后的文件进行聚类和分类中的至少一种处理。
7.如权利要求6所述的装置,其特征在于,所述数据挖掘单元,具体包括:
第一生成单元,用于为所述重复数据删除处理后的每个文件生成二维特征值,所述二维特征值由所述元数据中的第一标识信息与第二标识信息组成,所述第一标识信息为所述元数据所在的数据块所对应的存储单元的标识,所述第二标识信息为所述元数据所在的数据块的标识或所述元数据所在的数据块的指纹;
第一计算单元,用于根据聚类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否聚为一类。
8.如权利要求6所述的装置,其特征在于,数据挖掘单元,具体包括:
第二生成单元,用于为所述重复数据删除处理后的每个文件生成二维特征值,所述二维特征值由所述元数据中的第一标识信息与第二标识信息组成,所述第一标识信息为所述元数据所在的数据块所对应的存储单元的标识,所述第二标识信息为所述元数据所在的数据块的标识或所述元数据所在的数据块的指纹;
第二计算单元,用于根据分类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否分为一类。
9.如权利要求6所述的装置,其特征在于,所述数据挖掘单元,具体包括:
第三生成单元,用于为所述重复数据删除处理后的每个文件生成一维特征值,所述一维特征值由所述元数据所在的数据块的指纹组成;
第三计算单元,用于根据聚类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否聚为一类。
10.如权利要求6所述的装置,其特征在于,所述数据挖掘单元,具体包括:
第四生成单元,用于为所述重复数据删除处理后的每个文件生成一维特征值,所述一维特征值由所述元数据所在的数据块的指纹组成;
第四计算单元,用于根据分类算法对所述重复数据删除处理后的文件中每两个文件的二维特征值进行运算,根据运算结果确定所述两个文件是否分为一类。
CN201310499196.9A 2013-10-22 2013-10-22 一种处理数据的方法及装置 Pending CN103544275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310499196.9A CN103544275A (zh) 2013-10-22 2013-10-22 一种处理数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310499196.9A CN103544275A (zh) 2013-10-22 2013-10-22 一种处理数据的方法及装置

Publications (1)

Publication Number Publication Date
CN103544275A true CN103544275A (zh) 2014-01-29

Family

ID=49967727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310499196.9A Pending CN103544275A (zh) 2013-10-22 2013-10-22 一种处理数据的方法及装置

Country Status (1)

Country Link
CN (1) CN103544275A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN105511814A (zh) * 2015-12-11 2016-04-20 上海爱数信息技术股份有限公司 一种静态数据文件的存储方法
CN108804661A (zh) * 2018-06-06 2018-11-13 湘潭大学 一种云存储系统中基于模糊聚类的重复数据删除方法
CN116342168A (zh) * 2023-05-23 2023-06-27 山东灵动电子商务有限公司 一种信息大数据智能采集管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
US20120317084A1 (en) * 2011-06-13 2012-12-13 Beijing Z&W Technology Consulting Co., Ltd. Method and system for achieving data de-duplication on a block-level storage virtualization device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
US20120317084A1 (en) * 2011-06-13 2012-12-13 Beijing Z&W Technology Consulting Co., Ltd. Method and system for achieving data de-duplication on a block-level storage virtualization device
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐健等: "大规模数据分类的支持向量预处理方法", 《中国期刊全文数据库 计算机应用》 *
杨天明: "网络备份中重复数据删除技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN103971061B (zh) * 2014-05-26 2017-06-30 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN105511814A (zh) * 2015-12-11 2016-04-20 上海爱数信息技术股份有限公司 一种静态数据文件的存储方法
CN108804661A (zh) * 2018-06-06 2018-11-13 湘潭大学 一种云存储系统中基于模糊聚类的重复数据删除方法
CN108804661B (zh) * 2018-06-06 2023-04-28 湘潭大学 一种云存储系统中基于模糊聚类的重复数据删除方法
CN116342168A (zh) * 2023-05-23 2023-06-27 山东灵动电子商务有限公司 一种信息大数据智能采集管理系统

Similar Documents

Publication Publication Date Title
US9098591B2 (en) Spatio-temporal data management system, spatio-temporal data management method, and machine-readable storage medium thereof
US10346257B2 (en) Method and device for deduplicating web page
CN107657048B (zh) 用户识别方法及装置
CN102156751B (zh) 一种提取视频指纹的方法及装置
CN108170650B (zh) 文本比较方法以及文本比较装置
CN104166651A (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN103678405A (zh) 邮件索引建立方法及系统、邮件搜索方法及系统
CN110851598A (zh) 文本分类方法、装置、终端设备及存储介质
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
WO2013105505A1 (ja) インデックス走査装置及びインデックス走査方法
CN102184395A (zh) 基于字符串核的手绘草图识别方法
CN103544275A (zh) 一种处理数据的方法及装置
CN103077228A (zh) 一种基于集合特征向量的快速聚类方法和装置
US9898523B2 (en) Tabular data parsing in document(s)
CN112084448A (zh) 相似信息处理方法以及装置
CN109657060B (zh) 安全生产事故案例推送方法及系统
US11709798B2 (en) Hash suppression
CN111274275A (zh) 数据处理方法、装置和计算机可读存储介质
CN102622354B (zh) 一种基于特征向量的聚合数据快速查找方法
CN109885953B (zh) 一种模型构件的映射方法和装置
US9317125B2 (en) Searching of line pattern representations using gestures
CN105224615A (zh) 移动设备的搜索索引聚合系统及搜索索引聚合方法
CN107092668B (zh) 一种数据分析方法
CN114298696A (zh) 一种基于云计算的数字图书馆知识管理系统
Tang et al. Feature Selection Algorithm for Multi-label Classification Based on Graph Operations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140129

RJ01 Rejection of invention patent application after publication