CN103778268A - 文件自动分类方法及系统 - Google Patents

文件自动分类方法及系统 Download PDF

Info

Publication number
CN103778268A
CN103778268A CN201210410185.4A CN201210410185A CN103778268A CN 103778268 A CN103778268 A CN 103778268A CN 201210410185 A CN201210410185 A CN 201210410185A CN 103778268 A CN103778268 A CN 103778268A
Authority
CN
China
Prior art keywords
file
user
read
partition
user file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210410185.4A
Other languages
English (en)
Inventor
柴智权
李大鹏
林海洪
李忠一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN201210410185.4A priority Critical patent/CN103778268A/zh
Priority to TW101140054A priority patent/TWI484360B/zh
Priority to US14/055,916 priority patent/US20140115038A1/en
Publication of CN103778268A publication Critical patent/CN103778268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols

Abstract

一种文件自动分类方法,该方法包括步骤:读取用户文件的文件大小;当文件大小未超过设定值时,判定该用户文件应该使用全文件分块方法进行分块,传送至全文件分块服务器;当文件大小超过设定值时,读取该用户文件的文件头数据,从中提取文件类型;根据提取的文件类型,分析该用户文件应该使用固定长度分块、可变长度分块还是滑动块分块方法进行分块,传送至对应的固定长度分块服务器、可变长度分块服务器或者滑动块分块服务器。本发明还提供一种文件自动分类系统。本发明可以自动分析出文件适合的分块方法。

Description

文件自动分类方法及系统
技术领域
本发明涉及一种文件管理方法及系统,尤其是涉及一种云存储中的文件自动分类方法及系统。
背景技术
在重复数据删除过程中,文件分块有四种主流方法,包括全文件分块、固定长度分块(FSP)、可变长度分块(CDC)及滑动块分块(SB)。四种分块方法处理对应类型的文件各有优势:全文件分块适用于较小的电子书、低清晰度个人照片等;固定长度分块适用于高清晰度照片、电影、音乐等;可变长度分块适用于光盘镜像、系统备份等;滑动块分块适用于经常编辑的Word、Excel、代码源文件、视频剪辑等。四种分块方法各有优缺点,目前没有任何一种分块方法能适合所有情况。我们无法得知用户一定会存储何种文件,因此不能快速得到最合适的分块方法。
发明内容
鉴于以上内容,有必要提供一种文件自动分类方法,可以自动分析出文件适合的分块方法。
鉴于以上内容,还有必要提供一种文件自动分类系统,可以自动分析出文件适合的分块方法。
所述文件自动分类方法包括:第一读取步骤:当分配服务器接收到用户存储的文件之后,读取该用户文件的文件大小;第一分析步骤:当该用户文件的文件大小小于或等于设定值时,判定该用户文件应该使用全文件分块方法进行分块,然后执行第一传送步骤;第一传送步骤:将该用户文件传送至全文件分块服务器;第二读取步骤:当该用户文件的文件大小大于设定值时,读取该用户文件的文件头数据;提取步骤:从读取的文件头数据中提取该用户文件的文件类型;第二分析步骤:根据提取的文件类型,分析该用户文件应该使用固定长度分块、可变长度分块还是滑动块分块方法进行分块;及第二传送步骤:根据第二分析步骤的分析结果将该用户文件传送至对应的固定长度分块服务器、可变长度分块服务器或者滑动块分块服务器。
所述文件自动分类系统包括:读取模块,用于当分配服务器接收到用户存储的文件之后,读取该用户文件的文件大小;分析模块,用于当该用户文件的文件大小小于或等于设定值时,判定该用户文件应该使用全文件分块方法进行分块;传送模块,用于当判定该用户文件应该使用全文件分块方法进行分块时,将该用户文件传送至全文件分块服务器;所述读取模块,还用于当该用户文件的文件大小大于设定值时,读取该用户文件的文件头数据;提取模块,用于从读取的文件头数据中提取该用户文件的文件类型;所述分析模块,还用于根据提取的文件类型,分析该用户文件应该使用固定长度分块、可变长度分块还是滑动块分块方法进行分块;及所述传送模块,还用于根据分析模块的分析结果将该用户文件传送至对应的固定长度分块服务器、可变长度分块服务器或者滑动块分块服务器。
相较于现有技术,所述的文件自动分类方法及系统,能够在进行重复数据删除之前,根据文件大小和文件类型分析出用户文件适合使用的分块方法,将用户文件自动分类,传送至相应的分块服务器中进一步处理,从而达到提高效率以及负载均衡的作用。
附图说明
图1是本发明文件自动分类系统较佳实施例的运行环境图。
图2是本发明文件自动分类系统较佳实施例的功能模块图。
图3是本发明文件自动分类方法较佳实施例的流程图。
图4A是执行文件分块和重复数据删除过程之后存储的文件索引列表较佳实施例的示意图。
图4B是采用可变长度分块方法分块的存储文件列表较佳实施例的示意图。
主要元件符号说明
分配服务器 1
全文件分块服务器 2
固定长度分块服务器 3
可变长度分块服务器 4
滑动块分块服务器 5
文件自动分类系统 10
处理器 20
存储器 30
读取模块 100
判断模块 200
分析模块 300
传送模块 400
提取模块 500
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
参阅图1所示,是本发明文件自动分类系统较佳实施例的运行环境图。所述文件自动分类系统10运行于分配服务器1中。所述分配服务器1中还包括通过数据线或信号线相连的处理器20及存储器30,所述存储器30用于存储所述文件自动分类系统10的程序代码等资料,所述处理器20用于执行所述文件自动分类系统10的各功能模块,以完成本发明。所述分配服务器1分别连接于全文件分块服务器2、固定长度分块服务器3、可变长度分块服务器4及滑动块分块服务器5。在本实施例中,上述五个服务器可以属于一个云存储系统,互相进行数据传输与分工合作。
所述全文件分块服务器2适合对较小电子书、低清晰度照片、个人录音、种子文件、较小加密文件等较小的文件进行文件分块和重复数据删除的工作。所述固定长度分块服务器3适合对高清晰度照片、音乐、电影、软件安装包、较大加密文件等较大且不经常变动的文件进行文件分块和重复数据删除的工作。所述可变长度分块服务器4适合对光盘镜像、系统定期备份、个人定期备份、个人作品等较大且经常少量修改的文件进行文件分块和重复数据删除的工作。所述滑动块分块服务器5适合对公司或多人项目的作品、电影剪辑(编辑中)、大型软件(制作中)等经常批量修改的文件进行文件分块和重复数据删除的工作。
参阅图2所示,是本发明文件自动分类系统较佳实施例的功能模块图。
所述文件自动分类系统10包括读取模块100、判断模块200、分析模块300、传送模块400及提取模块500。
所述读取模块100用于当分配服务器1接收到用户存储的文件之后,读取该用户文件的文件大小。在本实施例中,所述分配服务器1、全文件分块服务器2、固定长度分块服务器3、可变长度分块服务器4及滑动块分块服务器5均使用Linux操作系统,因此可以用fstat()函数读取该用户文件的文件属性,该文件属性中包括文件大小。
所述判断模块200用于判断该用户文件的文件大小是否超过设定值。所述设定值为预先设置,例如512K。
所述分析模块300用于当该用户文件的文件大小未超过(小于或等于)设定值时,判定该用户文件应该使用全文件分块方法进行分块。
所述传送模块400用于当判定该用户文件应该使用全文件分块方法进行分块时,将该用户文件传送至所述全文件分块服务器2。
所述读取模块100还用于当该用户文件的文件大小超过(大于)设定值时,读取该用户文件的文件头数据。在本实施例中,可以用read()函数读取该用户文件的前十六位数据(即文件头,16进制)。例如,jpg格式的文件前十六位数据为FF D8 FF E0 00 10 4A 46 49 4600 01 01 00 00 01,这十六位数据即为该文件的文件头。
所述提取模块500用于从读取的文件头数据中提取该用户文件的文件类型。例如,在上述jpg格式的文件的文件头数据中,前三位“FF D8 FF”表示该文件的文件类型为jpg,所述提取模块500提取这前三位数据,即可得知该文件的文件类型。另外,常见文件类型如png格式的文件,表示文件类型的文件头数据为前四位“8950 4E 47”;xml格式的文件,表示文件类型的文件头数据为前五位“47 3C 3F 78 6D 6C”;xls或doc格式的文件,表示文件类型的文件头数据为前四位“D0 CF 11 E0”等。
所述分析模块300还用于根据提取的文件类型,分析该用户文件应该使用固定长度分块、可变长度分块还是滑动块分块方法进行分块。在本实施例中,当该用户文件的文件类型为avi、mp3、rar等较大(例如文件大小超过所述设定值)且不经常变动的文件时,应该使用固定长度分块方法进行分块;当该用户文件的文件类型为ios、bak等较大且经常少量修改的文件时,应该使用可变长度分块方法进行分块;当该用户文件的文件类型为doc、xls等经常批量修改(例如经常被用户批量修改)的文件时,应该使用滑动块分块方法进行分块。
所述传送模块400还用于当分析出该用户文件应该使用固定长度分块方法进行分块时,将该用户文件传送至所述固定长度分块服务器3。
所述传送模块400还用于当分析出该用户文件应该使用可变长度分块方法进行分块时,将该用户文件传送至所述可变长度分块服务器4。
所述传送模块400还用于当分析出该用户文件应该使用滑动块分块方法进行分块时,将该用户文件传送至所述滑动块分块服务器5。
参阅图3所示,是本发明文件自动分类方法较佳实施例的流程图。
步骤S10,当分配服务器1接收到用户存储的文件之后,所述读取模块100读取该用户文件的文件大小。在本实施例中,可以用fstat()函数读取该用户文件的文件属性,该文件属性中包括文件大小。
步骤S12,所述判断模块200判断该用户文件的文件大小是否超过设定值。所述设定值为预先设置,例如512K。若该用户文件的文件大小未超过(小于或等于)设定值,则执行步骤S14-S16。若当该用户文件的文件大小超过(大于)设定值,则执行步骤S18-S28。
步骤S14,所述分析模块300判定该用户文件应该使用全文件分块方法进行分块。
步骤S16,所述传送模块400将该用户文件传送至所述全文件分块服务器2。
步骤S18,所述读取模块100读取该用户文件的文件头数据。在本实施例中,可以用read()函数读取该用户文件的前十六位数据(即文件头,16进制)。
步骤S20,所述提取模块500从读取的文件头数据中提取该用户文件的文件类型。
步骤S22,所述分析模块300根据提取的文件类型,分析该用户文件应该使用固定长度分块、可变长度分块还是滑动块分块方法进行分块。若分析出该用户文件应该使用固定长度分块方法进行分块,则执行步骤S24。若分析出该用户文件应该使用可变长度分块方法进行分块,则执行步骤S26。若分析出该用户文件应该使用滑动块分块方法进行分块,则执行步骤S28。
步骤S24,所述传送模块400将该用户文件传送至所述固定长度分块服务器3。
步骤S26,所述传送模块400将该用户文件传送至所述可变长度分块服务器4。
步骤S28,所述传送模块400将该用户文件传送至所述滑动块分块服务器5。
所述全文件分块服务器2、固定长度分块服务器3、可变长度分块服务器4及滑动块分块服务器5接收到所述传送模块400传送的用户文件之后,采用相应的方法执行文件分块和重复数据删除过程,然后将文件块和计算出的每个文件块的散列值(hash,一种校验值)存储至各服务器对应的存储区域(数据库)中。
参阅图4A所示,是执行文件分块和重复数据删除过程之后存储的文件索引列表较佳实施例的示意图。参阅图4B所示,是采用可变长度分块(CDC)方法分块的存储文件列表较佳实施例的示意图。当用户需要读取其中某一文件时,可以通过文件ID(序列号,例如65020)从所述文件索引列表中查询到该文件的相关信息,然后根据该文件采用的分块方法(例如CDC),查询相应分块方法的存储文件列表,读取各个块,从而得到整个文件。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种文件自动分类方法,其特征在于,该方法包括:
第一读取步骤:当分配服务器接收到用户存储的文件之后,读取该用户文件的文件大小;
第一分析步骤:当该用户文件的文件大小小于或等于设定值时,判定该用户文件应该使用全文件分块方法进行分块,然后执行第一传送步骤;
第一传送步骤:将该用户文件传送至全文件分块服务器;
第二读取步骤:当该用户文件的文件大小大于设定值时,读取该用户文件的文件头数据;
提取步骤:从读取的文件头数据中提取该用户文件的文件类型;
第二分析步骤:根据提取的文件类型,分析该用户文件应该使用固定长度分块、可变长度分块还是滑动块分块方法进行分块;及
第二传送步骤:根据第二分析步骤的分析结果将该用户文件传送至对应的固定长度分块服务器、可变长度分块服务器或者滑动块分块服务器。
2.如权利要求1所述的文件自动分类方法,其特征在于,在所述第一读取步骤中,利用fstat()函数读取该用户文件的文件属性,该文件属性中包括文件大小。
3.如权利要求1所述的文件自动分类方法,其特征在于,在所述第二读取步骤中,利用read()函数读取该用户文件的前十六位数据,即为文件头。
4.如权利要求1所述的文件自动分类方法,其特征在于,在所述第二分析步骤中:
当该用户文件的文件类型为较大且不经常变动的文件时,使用固定长度分块方法进行分块;
当该用户文件的文件类型为较大且经常少量修改的文件时,使用可变长度分块方法进行分块;
当该用户文件的文件类型为经常批量修改的文件时,使用滑动块分块方法进行分块。
5.一种文件自动分类系统,其特征在于,该系统包括:
读取模块,用于当分配服务器接收到用户存储的文件之后,读取该用户文件的文件大小;
分析模块,用于当该用户文件的文件大小小于或等于设定值时,判定该用户文件应该使用全文件分块方法进行分块;
传送模块,用于当判定该用户文件应该使用全文件分块方法进行分块时,将该用户文件传送至全文件分块服务器;
所述读取模块,还用于当该用户文件的文件大小大于设定值时,读取该用户文件的文件头数据;
提取模块,用于从读取的文件头数据中提取该用户文件的文件类型;
所述分析模块,还用于根据提取的文件类型,分析该用户文件应该使用固定长度分块、可变长度分块还是滑动块分块方法进行分块;及
所述传送模块,还用于根据分析模块的分析结果将该用户文件传送至对应的固定长度分块服务器、可变长度分块服务器或者滑动块分块服务器。
6.如权利要求5所述的文件自动分类系统,其特征在于,所述读取模块利用fstat()函数读取该用户文件的文件属性,该文件属性中包括文件大小。
7.如权利要求5所述的文件自动分类系统,其特征在于,所述读取模块利用read()函数读取该用户文件的前十六位数据,即为文件头。
8.如权利要求5所述的文件自动分类系统,其特征在于:
当该用户文件的文件类型为较大且不经常变动的文件时,使用固定长度分块方法进行分块;
当该用户文件的文件类型为较大且经常少量修改的文件时,使用可变长度分块方法进行分块;
当该用户文件的文件类型为经常批量修改的文件时,使用滑动块分块方法进行分块。
CN201210410185.4A 2012-10-24 2012-10-24 文件自动分类方法及系统 Pending CN103778268A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210410185.4A CN103778268A (zh) 2012-10-24 2012-10-24 文件自动分类方法及系统
TW101140054A TWI484360B (zh) 2012-10-24 2012-10-30 文件自動分類方法及系統
US14/055,916 US20140115038A1 (en) 2012-10-24 2013-10-17 Server and method for distributing files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210410185.4A CN103778268A (zh) 2012-10-24 2012-10-24 文件自动分类方法及系统

Publications (1)

Publication Number Publication Date
CN103778268A true CN103778268A (zh) 2014-05-07

Family

ID=50486335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210410185.4A Pending CN103778268A (zh) 2012-10-24 2012-10-24 文件自动分类方法及系统

Country Status (3)

Country Link
US (1) US20140115038A1 (zh)
CN (1) CN103778268A (zh)
TW (1) TWI484360B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227893A (zh) * 2016-08-24 2016-12-14 乐视控股(北京)有限公司 一种文件类型获取方法及装置
CN106933967A (zh) * 2017-02-09 2017-07-07 宇龙计算机通信科技(深圳)有限公司 文件内容的批量修改方法及批量修改装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227852A (zh) * 2016-07-28 2016-12-14 中国石油天然气集团公司 地震勘探成果数据文件的识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100325093A1 (en) * 2009-06-19 2010-12-23 International Business Machines Corporation Apparatus and method to sequentially deduplicate groups of files comprising the same file name but different file version numbers
CN102014150A (zh) * 2010-09-29 2011-04-13 厦门市美亚柏科信息股份有限公司 一种基于udp分布式小文件存储系统及其数据处理方法
CN102142006A (zh) * 2010-10-27 2011-08-03 华为技术有限公司 分布式文件系统的文件处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030018978A1 (en) * 2001-03-02 2003-01-23 Singal Sanjay S. Transfer file format and system and method for distributing media content
TW512597B (en) * 2001-07-31 2002-12-01 Inventec Appliances Corp Method for electronic device using IR to transmit multimedia data
TWI288918B (en) * 2006-03-30 2007-10-21 Sunplus Technology Co Ltd Optical storage media for real-time recording AVI-format file and method therefor
TW200947215A (en) * 2008-05-07 2009-11-16 Acer Inc Method and computer system for accelerating file transmission
US8140491B2 (en) * 2009-03-26 2012-03-20 International Business Machines Corporation Storage management through adaptive deduplication
US8396899B2 (en) * 2009-11-23 2013-03-12 Dell Products L.P. Efficient segment detection for deduplication
CN101957836B (zh) * 2010-09-03 2012-07-11 清华大学 一种文件系统中可配置的实时透明压缩方法
US8380681B2 (en) * 2010-12-16 2013-02-19 Microsoft Corporation Extensible pipeline for data deduplication
US8510267B2 (en) * 2011-03-08 2013-08-13 Rackspace Us, Inc. Synchronization of structured information repositories
CN103034659B (zh) * 2011-09-29 2015-08-19 国际商业机器公司 一种重复数据删除的方法和系统
US8959522B2 (en) * 2012-01-30 2015-02-17 International Business Machines Corporation Full exploitation of parallel processors for data processing
US9065704B1 (en) * 2012-06-06 2015-06-23 Sprint Communications Company L.P. Parallel adaptation of digital content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100325093A1 (en) * 2009-06-19 2010-12-23 International Business Machines Corporation Apparatus and method to sequentially deduplicate groups of files comprising the same file name but different file version numbers
CN102014150A (zh) * 2010-09-29 2011-04-13 厦门市美亚柏科信息股份有限公司 一种基于udp分布式小文件存储系统及其数据处理方法
CN102142006A (zh) * 2010-10-27 2011-08-03 华为技术有限公司 分布式文件系统的文件处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈公超等: "云存储中多类型文件存储及访问优化机制的研究", 《计算机应用与软件》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227893A (zh) * 2016-08-24 2016-12-14 乐视控股(北京)有限公司 一种文件类型获取方法及装置
CN106933967A (zh) * 2017-02-09 2017-07-07 宇龙计算机通信科技(深圳)有限公司 文件内容的批量修改方法及批量修改装置
CN106933967B (zh) * 2017-02-09 2022-12-20 宇龙计算机通信科技(深圳)有限公司 文件内容的批量修改方法及批量修改装置

Also Published As

Publication number Publication date
TWI484360B (zh) 2015-05-11
TW201416892A (zh) 2014-05-01
US20140115038A1 (en) 2014-04-24

Similar Documents

Publication Publication Date Title
AU2017202873B2 (en) Efficient query processing using histograms in a columnar database
KR102007070B1 (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
CN105701098B (zh) 针对数据库中的表生成索引的方法和装置
CA2910211C (en) Object storage using multiple dimensions of object information
CN103020255B (zh) 分级存储方法和装置
CN102725755B (zh) 文件访问方法及系统
CN111400408A (zh) 数据同步方法、装置、设备及存储介质
US20150032759A1 (en) System and method for analyzing result of clustering massive data
CN107408114B (zh) 基于事务访问模式识别联结关系
CN102323958A (zh) 重复数据删除方法
CN104731896A (zh) 一种数据处理方法及系统
US20150213375A1 (en) Neighbor determination and estimation
US20130191328A1 (en) Standardized framework for reporting archived legacy system data
CN103514210A (zh) 小文件处理方法及装置
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
US20220083246A1 (en) Variable Length Deduplication of Stored Data
CN104850564A (zh) 数据文件的索引查找方法和系统
CN103778268A (zh) 文件自动分类方法及系统
CN104050057A (zh) 一种历史感知的数据去重碎片消除方法与系统
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN110457182A (zh) 一种负载均衡集群实例运行指标监控系统
CN104102557A (zh) 一种基于聚类的云计算平台数据备份方法
CN110019169A (zh) 一种数据处理的方法及装置
CN116186099A (zh) 数据查询方法、装置、电子设备和存储介质
CN105302669A (zh) 一种云备份过程中数据去重的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140507