CN110489378B - 一种在互联网中进行文件迁移的方法及系统 - Google Patents

一种在互联网中进行文件迁移的方法及系统 Download PDF

Info

Publication number
CN110489378B
CN110489378B CN201910787156.1A CN201910787156A CN110489378B CN 110489378 B CN110489378 B CN 110489378B CN 201910787156 A CN201910787156 A CN 201910787156A CN 110489378 B CN110489378 B CN 110489378B
Authority
CN
China
Prior art keywords
file
migration
file server
storage
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910787156.1A
Other languages
English (en)
Other versions
CN110489378A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Rongxinghe Intelligent Technology Co ltd
Original Assignee
Shandong Rongxinghe Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Rongxinghe Intelligent Technology Co ltd filed Critical Shandong Rongxinghe Intelligent Technology Co ltd
Priority to CN201910787156.1A priority Critical patent/CN110489378B/zh
Publication of CN110489378A publication Critical patent/CN110489378A/zh
Application granted granted Critical
Publication of CN110489378B publication Critical patent/CN110489378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在互联网中进行文件迁移的方法及系统,其中方法包括:将多个迁移文件构成迁移文件组,并确定与所述迁移文件组相关联的多个关联文件,确定每个存储段的迁移等级,在所述源文件服务器内按照迁移等级进行数据迁移:在所述源文件服务器内按照迁移等级进行数据迁移的同时,将所有文件服务器中除所述源文件服务器和目标文件服务器之外并且存储了至少一个关联文件的文件服务器确定为关联文件服务器,确定每个关联文件服务器内存储了至少一个关联文件的关联存储段;以及响应于所述源文件服务器内按照迁移等级进行的数据迁移的完成,在所述每个关联文件服务器中按照迁移等级进行数据迁移。

Description

一种在互联网中进行文件迁移的方法及系统
技术领域
本发明涉及计算机互联网领域,更具体地涉及一种在互联网中进行文件迁移的方法及系统。
背景技术
目前,随着计算机互联网的普及,在计算机互联网内进行传递的文件的数量呈指数级增加。当部分文件需要在互联网中进行迁移或移动时,现有技术中的方式通常是将所选择的文件进行手动迁移。然而,这种方式的效率较低并且无法迁移与所选择的文件相关联的文件。
发明内容
本发明提供一种在互联网中进行文件迁移的方法,所述方法包括:
当确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器时,将所述多个迁移文件构成迁移文件组,并将所述源文件服务器内所有存储段中具有至少一个迁移文件的存储段确定为源存储段,以获得至少一个源存储段;
确定与所述迁移文件组相关联的多个关联文件,扫描所述源文件服务器内的所有存储段,将至少一个源存储段中的每个源存储段标记为第一迁移等级,将所述源文件服务器内除所述至少一个源存储段之外的并且具有至少一个关联文件的存储段确定为关联存储段,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第一类型文件或第二类型文件的存储页标记为第二迁移等级,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第三类型文件的存储页标记为第三迁移等级,其中第一类型文件、第二类型文件和第三类型文件的文件尺寸范围不同并且文件尺寸范围依次降低;
在所述源文件服务器内按照迁移等级进行数据迁移:在将标记为第一迁移等级的每个源存储段中的所有文件移动到目标文件服务器后,将每个关联存储段内标记为第二迁移等级的存储页中的第一类型文件或第二类型文件移动到目标文件服务器,然后将每个关联存储段内标记为第三迁移等级的存储页中的第三类型文件移动到目标文件服务器;
在所述源文件服务器内按照迁移等级进行数据迁移的同时,将所有文件服务器中除所述源文件服务器和目标文件服务器之外并且存储了至少一个关联文件的文件服务器确定为关联文件服务器,确定每个关联文件服务器内存储了至少一个关联文件的关联存储段,将每个关联文件服务器的所有关联存储段内存储第一类型文件的存储页标记为第二迁移等级,并且将至每个关联文件服务器的所有关联存储段内存储第二类型文件或第三类型文件的存储页标记为第三迁移等级;以及
响应于所述源文件服务器内按照迁移等级进行的数据迁移的完成,在所述每个关联文件服务器中按照迁移等级进行数据迁移:首先将每个关联文件服务器的所有关联存储段内标记为第二迁移等级的存储页中的第一类型文件移动到目标文件服务器,然后将每个关联文件服务器的所有关联存储段内标记为第三迁移等级的存储页中的第二类型文件或第三类型文件移动到目标文件服务器。
在确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器之前还包括:
确定统计时间区间,获取互联网内的源文件服务器在统计时间区间内的访问统计信息;
对源文件服务器的访问统计信息进行解析以确定源文件服务器中所存储的所有文件中每个文件的属性信息,每个文件的属性信息包括:文件尺寸、访问数据和存储时间;
基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数;
基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件,以获取多个预选文件;
从多个预选文件中选择迁移文件,并确定目标文件服务器;
每个文件的访问数据包括多条访问记录,每条访问记录包括:访问设备的标识符、访问设备所处的网络区域
确定源文件服务器内多个预选文件中每个预选文件的归属访问设备,以确定多个归属访问设备,对所述多个归属访问设备中每个归属访问设备所处的网络区域进行统计,将多个网络区域中所包括的归属访问设备的数量最多的网络区域确定为目标网络区域,
将为所述目标网络区域提供存储服务的文件服务器确定为目标文件服务器;
将多个预选文件中归属访问设备位于目标网络区域内的预选文件确定为迁移文件,从而确定多个迁移文件。
每个文件服务器具有多个存储段,其中存储段可以是文件服务器中逻辑地址上划分的存储区域,或者是文件服务器中物理地址上划分的存储区域
本发明提供一种在互联网中进行文件迁移的系统,所述系统包括:
构成装置,当确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器时,将所述多个迁移文件构成迁移文件组,并将所述源文件服务器内所有存储段中具有至少一个迁移文件的存储段确定为源存储段,以获得至少一个源存储段;
扫描装置,确定与所述迁移文件组相关联的多个关联文件,扫描所述源文件服务器内的所有存储段,将至少一个源存储段中的每个源存储段标记为第一迁移等级,将所述源文件服务器内除所述至少一个源存储段之外的并且具有至少一个关联文件的存储段确定为关联存储段,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第一类型文件或第二类型文件的存储页标记为第二迁移等级,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第三类型文件的存储页标记为第三迁移等级,其中第一类型文件、第二类型文件和第三类型文件的文件尺寸范围不同并且文件尺寸范围依次降低;
迁移装置,在所述源文件服务器内按照迁移等级进行数据迁移:在将标记为第一迁移等级的每个源存储段中的所有文件移动到目标文件服务器后,将每个关联存储段内标记为第二迁移等级的存储页中的第一类型文件或第二类型文件移动到目标文件服务器,然后将每个关联存储段内标记为第三迁移等级的存储页中的第三类型文件移动到目标文件服务器;以及
响应于所述源文件服务器内按照迁移等级进行的数据迁移的完成,在所述每个关联文件服务器中按照迁移等级进行数据迁移:首先将每个关联文件服务器的所有关联存储段内标记为第二迁移等级的存储页中的第一类型文件移动到目标文件服务器,然后将每个关联文件服务器的所有关联存储段内标记为第三迁移等级的存储页中的第二类型文件或第三类型文件移动到目标文件服务器
关联处理装置,在所述源文件服务器内按照迁移等级进行数据迁移的同时,将所有文件服务器中除所述源文件服务器和目标文件服务器之外并且存储了至少一个关联文件的文件服务器确定为关联文件服务器,确定每个关联文件服务器内存储了至少一个关联文件的关联存储段,将每个关联文件服务器的所有关联存储段内存储第一类型文件的存储页标记为第二迁移等级,并且将至每个关联文件服务器的所有关联存储段内存储第二类型文件或第三类型文件的存储页标记为第三迁移等级。
确定统计时间区间,获取互联网内的源文件服务器在统计时间区间内的访问统计信息;
对源文件服务器的访问统计信息进行解析以确定源文件服务器中所存储的所有文件中每个文件的属性信息,每个文件的属性信息包括:文件尺寸、访问数据和存储时间;
基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数;
基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件,以获取多个预选文件;
从多个预选文件中选择迁移文件,并确定目标文件服务器;
每个文件的访问数据包括多条访问记录,每条访问记录包括:访问设备的标识符、访问设备所处的网络区域
确定源文件服务器内多个预选文件中每个预选文件的归属访问设备,以确定多个归属访问设备,对所述多个归属访问设备中每个归属访问设备所处的网络区域进行统计,将多个网络区域中所包括的归属访问设备的数量最多的网络区域确定为目标网络区域,
将为所述目标网络区域提供服务的文件服务器确定为目标文件服务器;
将多个预选文件中归属访问设备位于目标网络区域内的预选文件确定为迁移文件,从而确定多个迁移文件。
每个文件服务器具有多个存储段,其中存储段可以是文件服务器中逻辑地址上划分的存储区域,或者是文件服务器中物理地址上划分的存储区域;
附图说明
图1为本发明的在互联网中进行文件迁移的系统的结构示意图;以及
图2为本发明的在互联网中进行文件迁移的方法的流程图。
具体实施方式
图1为本发明的在互联网中进行文件迁移的系统100的结构示意图。系统100包括:构成装置101、扫描装置102、迁移装置103以及关联处理装置104。其中构成装置101,当确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器时,将所述多个迁移文件构成迁移文件组,并将所述源文件服务器内所有存储段中具有至少一个迁移文件的存储段确定为源存储段,以获得至少一个源存储段。其中互联网中具有多个文件服务器。还包括,在确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器之前,利用预处理装置(图1中未示出)确定统计时间区间,获取互联网内的源文件服务器在统计时间区间内的访问统计信息。统计时间区间为5天、10天、15天、20天、30天或50天。统计时间区间是以当前时间所在的自然日的前一个自然日为结束日期,并且以过去的特定自然日为开始日期的一段时间。所述统计时间区间包括至少5个自然日、10个自然日、15个自然日、20个自然日、30个自然日或50个自然日。例如,当前时间为2018年11月11日,统计时间区间为10个自然日,则统计时间区间从2018年11月1日(开始日期)开始到2018年11月10日(结束日期)。
对源文件服务器的访问统计信息进行解析以确定源文件服务器中所存储的所有文件中每个文件的属性信息,每个文件的属性信息包括:文件尺寸、访问数据和存储时间。其中存储时间是文件在统计时间区间内在源文件服务器内存储的时间长度。其中源文件服务器的(统计时间区间内的)访问统计信息包括每个文件(在统计时间区间内)的属性信息。基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数。基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件,以获取多个预选文件。从多个预选文件中选择迁移文件,并确定目标文件服务器。
每个文件的访问数据包括多条访问记录,每条访问记录包括:访问设备的标识符、访问设备所处的网络区域。其中访问设备是指对文件(例如,当前文件、特定文件或某个文件)进行访问的用户设备或移动终端。访问设备的标识符是能够唯一地标识访问设备的符号或字符串。访问设备所处的网络区域是指访问设备在互联网内所处的物理位置、逻辑位置或网络位置所处的网络区域。其中,互联网的提供商为将互联网划分为多个网络区域,并且每个网络区域内的访问设备、用户设备或移动终端与这个网络区域建立关联关系。
按照访问设备的标识符对每个文件的访问数据进行统计以确定对每个文件进行访问的多个访问设备(以确定对每个文件所涉及的多个访问设备,即文件所涉及的多个访问设备是指在统计时间区间内访问文件的访问设备)并且将多个访问设备中访问次数(对文件的访问次数最多)最多的访问设备确定为每个文件的归属访问设备,确定每个文件的归属访问设备的访问次数和每个文件的总访问次数。其中每个文件的总访问次数为每个文件的访问数据所包括的访问记录的数量。每个文件的归属访问设备是在统计时间区间内对其进行访问时访问次数最多的访问设备。
基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数包括:
Figure BDA0002178425970000051
其中,Mi为第i个文件的迁移指数,Si为第i个文件的文件尺寸,Ti为第i个文件(在统计时间区间内)的存储时间,ki为第i个文件的归属访问设备访问第i个文件的访问次数,Ni为第i个文件的总访问次数;其中F≥i≥1,其中F为源文件服务器内所存储的所有文件的总数量;T为基准存储时间,T为10个自然日、20个自然日、30个自然日、50个自然日、80个自然日或100个自然日。
其中文件尺寸Si的单位为MB(兆字节)并且在确定每个文件的迁移指数时将Si转换为无量纲的数值,其中存储时间Ti的单位为天并且在确定每个文件的迁移指数时前将Ti转换为无量纲的数值。
基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件包括:
基于每个文件的迁移指数Mi确定源文件服务器内所有文件的平均迁移指数Ma
Figure BDA0002178425970000052
将源文件服务器内所有文件中迁移指数大于平均迁移指数Ma的文件确定为预选文件。
确定源文件服务器内多个预选文件中每个预选文件的归属访问设备,以确定多个归属访问设备,对所述多个归属访问设备中每个归属访问设备所处的网络区域进行统计,将多个网络区域中所包括的归属访问设备的数量最多的网络区域确定为目标网络区域。将为所述目标网络区域提供文件存储服务或文件管理服务的文件服务器确定为目标文件服务器。将多个预选文件中归属访问设备位于目标网络区域内的预选文件确定为迁移文件,从而确定多个迁移文件。
扫描装置,确定与所述迁移文件组相关联的多个关联文件,扫描所述源文件服务器内的所有存储段,将至少一个源存储段中的每个源存储段标记为第一迁移等级,将所述源文件服务器内除所述至少一个源存储段之外的并且具有至少一个关联文件的存储段确定为关联存储段,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第一类型文件或第二类型文件的存储页标记为第二迁移等级,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第三类型文件的存储页标记为第三迁移等级,其中第一类型文件、第二类型文件和第三类型文件的文件尺寸范围不同并且文件尺寸范围依次降低。
每个文件服务器具有多个存储段,其中存储段可以是文件服务器中逻辑地址上划分的存储区域,或者是文件服务器中物理地址上划分的存储区域。每个存储段包括多个存储页,存储页是文件服务器的基本存储单元,并且单个存储页存储单个类型的文件,其中单个存储页存储多个第一类型文件、多个第二类型文件或多个第三类型文件;单个类型的文件为第一类型文件、第二类型文件或第三类型文件。
其中任意存储页不存储一个以上类型的文件;即,任意存储页仅存储第一类型文件、第二类型文件或第三类型文件。其中第一类型文件中的任意文件的文件尺寸均大于第二类型文件中每个文件的文件尺寸;第二类型文件中的任意文件的文件尺寸均大于第三类型文件中每个文件的文件尺寸;第一类型文件例如是大文件尺寸的视频文件、程序安装文件等;第二类型文件例如是中文件尺寸的视频文件、程序安装文件、音频文件等;第三类型文件例如是小文件尺寸的视频文件、程序安装文件、音频文件、文档文件等。其中,每个源存储段具有或存储至少一个迁移文件。
互联网内的每个文件均具有至少一个关联文件,并且为每个文件设置关联信息表,关联信息表中包括至少一个数据项,每个数据项为关联文件的标识符。由每个文件的拥有者为每个文件设置至少一个关联文件,由互联网内的关联服务器为每个文件设置至少一个关联文件。每个文件与其每个关联文件具有相同或相似的内容主题、摘要信息或使用领域。确定与所述迁移文件组相关联的多个关联文件包括:确定所述迁移文件组中每个迁移文件各自的至少一个关联文件,将每个迁移文件各自的至少一个关联文件构成与所述迁移文件组相关联的多个关联文件。
每个文件服务器为自身所包括的每个存储段创建文件信息表。所述文件信息表中包括多个文件记录,每个文件记录包括文件的标识符。通过在源服务器的每个存储段的文件信息表中进行检索能够确定每个关联文件所位于的存储段;并且将具有至少一个关联文件的存储段确定为关联存储段。通过在文件服务器的每个存储段的文件信息表中进行检索能够确定每个关联文件所位于的存储段,从而将具有至少一个关联文件的文件服务器确定为关联文件服务器,并且将关联文件服务器中具有至少一个关联文件的存储段确定为关联存储段。
迁移装置,在所述源文件服务器内按照迁移等级进行数据迁移:在将标记为第一迁移等级的每个源存储段中的所有文件移动到目标文件服务器后,将每个关联存储段内标记为第二迁移等级的存储页中的第一类型文件或第二类型文件移动到目标文件服务器,然后将每个关联存储段内标记为第三迁移等级的存储页中的第三类型文件移动到目标文件服务器。以及响应于所述源文件服务器内按照迁移等级进行的数据迁移的完成,在所述每个关联文件服务器中按照迁移等级进行数据迁移:首先将每个关联文件服务器的所有关联存储段内标记为第二迁移等级的存储页中的第一类型文件移动到目标文件服务器,然后将每个关联文件服务器的所有关联存储段内标记为第三迁移等级的存储页中的第二类型文件或第三类型文件移动到目标文件服务器。
关联处理装置,在所述源文件服务器内按照迁移等级进行数据迁移的同时,将所有文件服务器中除所述源文件服务器和目标文件服务器之外并且存储了至少一个关联文件的文件服务器确定为关联文件服务器,确定每个关联文件服务器内存储了至少一个关联文件的关联存储段,将每个关联文件服务器的所有关联存储段内存储第一类型文件的存储页标记为第二迁移等级,并且将至每个关联文件服务器的所有关联存储段内存储第二类型文件或第三类型文件的存储页标记为第三迁移等级。
图2为本发明的在互联网中进行文件迁移的方法200的流程图。如图2所示,方法200从步骤201处开始。
在步骤201,当确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器时,将所述多个迁移文件构成迁移文件组,并将所述源文件服务器内所有存储段中具有至少一个迁移文件的存储段确定为源存储段,以获得至少一个源存储段。
在确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器之前还包括:
确定统计时间区间,获取互联网内的源文件服务器在统计时间区间内的访问统计信息;统计时间区间为5天、10天、15天、20天、30天或50天;统计时间区间是以当前时间所在的自然日的前一个自然日为结束日期,并且以过去的特定自然日为开始日期的一段时间;所述统计时间区间包括至少5个自然日、10个自然日、15个自然日、20个自然日、30个自然日或50个自然日。例如,当前时间为2018年11月11日,统计时间区间为10个自然日,则统计时间区间从2018年11月1日(开始日期)开始到2018年11月10日(结束日期)。
对源文件服务器的访问统计信息进行解析以确定源文件服务器中所存储的所有文件中每个文件的属性信息,每个文件的属性信息包括:文件尺寸、访问数据和存储时间;其中存储时间是文件在统计时间区间内在源文件服务器内存储的时间长度;其中源文件服务器的(统计时间区间内的)访问统计信息包括每个文件(在统计时间区间内)的属性信息。
基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数。基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件,以获取多个预选文件。从多个预选文件中选择迁移文件,并从多个文件服务器中确定目标文件服务器。通常,互联网内包括多个文件服务器。在进行文件迁移时,可以选择多个文件服务器中空闲存储容量最大的文件服务器作为目标文件服务器。
每个文件的访问数据包括多条访问记录,每条访问记录包括:访问设备的标识符、访问设备所处的网络区域;其中访问设备是指对文件(例如,当前文件、特定文件或某个文件)进行访问的用户设备或移动终端。访问设备的标识符是能够唯一地标识访问设备的符号或字符串。访问设备所处的网络区域是指访问设备在互联网内所处的物理位置、逻辑位置或网络位置所处的网络区域。其中,互联网的提供商为将互联网划分为多个网络区域,并且每个网络区域内的访问设备、用户设备或移动终端与这个网络区域建立关联关系。
按照访问设备的标识符对每个文件的访问数据进行统计以确定对每个文件进行访问的多个访问设备(以确定对每个文件所涉及的多个访问设备,即文件所涉及的多个访问设备是指在统计时间区间内访问文件的访问设备)并且将多个访问设备中访问次数(对文件的访问次数最多)最多的访问设备确定为每个文件的归属访问设备,确定每个文件的归属访问设备的访问次数和每个文件的总访问次数;其中每个文件的总访问次数为每个文件的访问数据所包括的访问记录的数量;每个文件的归属访问设备是在统计时间区间内对其进行访问时访问次数最多的访问设备。
基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数包括:
Figure BDA0002178425970000081
其中,Mi为第i个文件的迁移指数,Si为第i个文件的文件尺寸,Ti为第i个文件(在统计时间区间内)的存储时间,ki为第i个文件的归属访问设备访问第i个文件的访问次数,Ni为第i个文件的总访问次数;其中F≥i≥1,其中F为源文件服务器内所存储的所有文件的总数量;T为基准存储时间,T为10个自然日、20个自然日、30个自然日、50个自然日、80个自然日或100个自然日。
其中文件尺寸Si的单位为MB(兆字节)并且在确定每个文件的迁移指数时将Si转换为无量纲的数值,其中存储时间Ti的单位为天并且在确定每个文件的迁移指数时前将Ti转换为无量纲的数值。
基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件包括:
基于每个文件的迁移指数Mi确定源文件服务器内所有文件的平均迁移指数Ma
Figure BDA0002178425970000091
将源文件服务器内所有文件中迁移指数大于平均迁移指数Ma的文件确定为预选文件;
确定源文件服务器内多个预选文件中每个预选文件的归属访问设备,以确定多个归属访问设备,对所述多个归属访问设备中每个归属访问设备所处的网络区域进行统计,将多个网络区域中所包括的归属访问设备的数量最多的网络区域确定为目标网络区域。将为所述目标网络区域提供服务的文件服务器确定为目标文件服务器。将多个预选文件中归属访问设备位于目标网络区域内的预选文件确定为迁移文件,从而确定多个迁移文件。其中所述互联网中具有多个文件服务器。
在步骤202,确定与所述迁移文件组相关联的多个关联文件,扫描所述源文件服务器内的所有存储段,将至少一个源存储段中的每个源存储段标记为第一迁移等级,将所述源文件服务器内除所述至少一个源存储段之外的并且具有至少一个关联文件的存储段确定为关联存储段,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第一类型文件或第二类型文件的存储页标记为第二迁移等级,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第三类型文件的存储页标记为第三迁移等级,其中第一类型文件、第二类型文件和第三类型文件的文件尺寸范围不同并且文件尺寸范围依次降低。
每个文件服务器具有多个存储段,其中存储段可以是文件服务器中逻辑地址上划分的存储区域,或者是文件服务器中物理地址上划分的存储区域。每个存储段包括多个存储页,存储页是文件服务器的基本存储单元,并且单个存储页存储单个类型的文件,其中单个存储页存储多个第一类型文件、多个第二类型文件或多个第三类型文件;单个类型的文件为第一类型文件、第二类型文件或第三类型文件。其中任意存储页不存储一个以上类型的文件;即,任意存储页仅存储第一类型文件、第二类型文件或第三类型文件。
其中第一类型文件中的任意文件的文件尺寸均大于第二类型文件中每个文件的文件尺寸;第二类型文件中的任意文件的文件尺寸均大于第三类型文件中每个文件的文件尺寸;第一类型文件例如是大文件尺寸的视频文件、程序安装文件等;第二类型文件例如是中文件尺寸的视频文件、程序安装文件、音频文件等;第三类型文件例如是小文件尺寸的视频文件、程序安装文件、音频文件、文档文件等。其中,每个源存储段具有至少一个迁移文件。
互联网内的每个文件均具有至少一个关联文件,并且为每个文件设置关联信息表,关联信息表中包括至少一个数据项,每个数据项为关联文件的标识符。由每个文件的拥有者为每个文件设置至少一个关联文件,由互联网内的关联服务器为每个文件设置至少一个关联文件。每个文件与其每个关联文件具有相同或相似的内容主题、摘要信息或使用领域。确定与所述迁移文件组相关联的多个关联文件包括:确定所述迁移文件组中每个迁移文件各自的至少一个关联文件,将每个迁移文件各自的至少一个关联文件构成与所述迁移文件组相关联的多个关联文件。
在步骤203,在所述源文件服务器内按照迁移等级进行数据迁移:在将标记为第一迁移等级的每个源存储段中的所有文件移动到目标文件服务器后,将每个关联存储段内标记为第二迁移等级的存储页中的第一类型文件或第二类型文件移动到目标文件服务器,然后将每个关联存储段内标记为第三迁移等级的存储页中的第三类型文件移动到目标文件服务器。
每个文件服务器为自身所包括的每个存储段创建文件信息表。所述文件信息表中包括多个文件记录,每个文件记录包括文件的标识符。通过在源服务器的每个存储段的文件信息表中进行检索能够确定每个关联文件所位于的存储段。并且将具有至少一个关联文件的存储段确定为关联存储段。通过在文件服务器的每个存储段的文件信息表中进行检索能够确定每个关联文件所位于的存储段,从而将具有至少一个关联文件的文件服务器确定为关联文件服务器,并且将关联文件服务器中具有至少一个关联文件的存储段确定为关联存储段。
在步骤204,在所述源文件服务器内按照迁移等级进行数据迁移的同时,将所有文件服务器中除所述源文件服务器和目标文件服务器之外并且存储了至少一个关联文件的文件服务器确定为关联文件服务器,确定每个关联文件服务器内存储了至少一个关联文件的关联存储段,将每个关联文件服务器的所有关联存储段内存储第一类型文件的存储页标记为第二迁移等级,并且将至每个关联文件服务器的所有关联存储段内存储第二类型文件或第三类型文件的存储页标记为第三迁移等级。
在步骤205,响应于所述源文件服务器内按照迁移等级进行的数据迁移的完成,在所述每个关联文件服务器中按照迁移等级进行数据迁移:首先将每个关联文件服务器的所有关联存储段内标记为第二迁移等级的存储页中的第一类型文件移动到目标文件服务器,然后将每个关联文件服务器的所有关联存储段内标记为第三迁移等级的存储页中的第二类型文件或第三类型文件移动到目标文件服务器。

Claims (10)

1.一种在互联网中进行文件迁移的方法,所述方法包括:
当确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器时,将所述多个迁移文件构成迁移文件组,并将所述源文件服务器内所有存储段中具有至少一个迁移文件的存储段确定为源存储段,以获得至少一个源存储段;
确定与所述迁移文件组相关联的多个关联文件,扫描所述源文件服务器内的所有存储段,将至少一个源存储段中的每个源存储段标记为第一迁移等级,将所述源文件服务器内除所述至少一个源存储段之外的并且具有至少一个关联文件的存储段确定为关联存储段,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第一类型文件或第二类型文件的存储页标记为第二迁移等级,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第三类型文件的存储页标记为第三迁移等级,其中第一类型文件、第二类型文件和第三类型文件的文件尺寸范围不同并且文件尺寸范围依次降低;
在所述源文件服务器内按照迁移等级进行数据迁移:在将标记为第一迁移等级的每个源存储段中的所有文件移动到目标文件服务器后,将每个关联存储段内标记为第二迁移等级的存储页中的第一类型文件或第二类型文件移动到目标文件服务器,然后将每个关联存储段内标记为第三迁移等级的存储页中的第三类型文件移动到目标文件服务器;
在所述源文件服务器内按照迁移等级进行数据迁移的同时,将所有文件服务器中除所述源文件服务器和目标文件服务器之外并且存储了至少一个关联文件的文件服务器确定为关联文件服务器,确定每个关联文件服务器内存储了至少一个关联文件的关联存储段,将每个关联文件服务器的所有关联存储段内存储第一类型文件的存储页标记为第二迁移等级,并且将至每个关联文件服务器的所有关联存储段内存储第二类型文件或第三类型文件的存储页标记为第三迁移等级;以及
响应于所述源文件服务器内按照迁移等级进行的数据迁移的完成,在所述每个关联文件服务器中按照迁移等级进行数据迁移:首先将每个关联文件服务器的所有关联存储段内标记为第二迁移等级的存储页中的第一类型文件移动到目标文件服务器,然后将每个关联文件服务器的所有关联存储段内标记为第三迁移等级的存储页中的第二类型文件或第三类型文件移动到目标文件服务器。
2.根据权利要求1所述的方法,在确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器之前还包括:
确定统计时间区间,获取互联网内的源文件服务器在统计时间区间内的访问统计信息;
对源文件服务器的访问统计信息进行解析以确定源文件服务器中所存储的所有文件中每个文件的属性信息,每个文件的属性信息包括:文件尺寸、访问数据和存储时间;
基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数;
基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件,以获取多个预选文件;
从多个预选文件中选择迁移文件,并确定目标文件服务器。
3.根据权利要求2所述的方法,
每个文件的访问数据包括多条访问记录,每条访问记录包括:访问设备的标识符、访问设备所处的网络区域。
4.根据权利要求3所述的方法,
确定源文件服务器内多个预选文件中每个预选文件的归属访问设备,以确定多个归属访问设备,对所述多个归属访问设备中每个归属访问设备所处的网络区域进行统计,将多个网络区域中所包括的归属访问设备的数量最多的网络区域确定为目标网络区域,
将为所述目标网络区域提供存储服务的文件服务器确定为目标文件服务器;
将多个预选文件中归属访问设备位于目标网络区域内的预选文件确定为迁移文件,从而确定多个迁移文件。
5.根据权利要求1所述的方法,每个文件服务器具有多个存储段,其中存储段是文件服务器中逻辑地址上划分的存储区域,或者是文件服务器中物理地址上划分的存储区域。
6.一种在互联网中进行文件迁移的系统,所述系统包括:
构成装置,当确定将互联网内的源文件服务器存储的所有文件中所选择的多个迁移文件从源文件服务器迁移到目标文件服务器时,将所述多个迁移文件构成迁移文件组,并将所述源文件服务器内所有存储段中具有至少一个迁移文件的存储段确定为源存储段,以获得至少一个源存储段;
扫描装置,确定与所述迁移文件组相关联的多个关联文件,扫描所述源文件服务器内的所有存储段,将至少一个源存储段中的每个源存储段标记为第一迁移等级,将所述源文件服务器内除所述至少一个源存储段之外的并且具有至少一个关联文件的存储段确定为关联存储段,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第一类型文件或第二类型文件的存储页标记为第二迁移等级,将所述源文件服务器内至少一个关联存储段中的每个关联存储段中存储第三类型文件的存储页标记为第三迁移等级,其中第一类型文件、第二类型文件和第三类型文件的文件尺寸范围不同并且文件尺寸范围依次降低;
迁移装置,在所述源文件服务器内按照迁移等级进行数据迁移:在将标记为第一迁移等级的每个源存储段中的所有文件移动到目标文件服务器后,将每个关联存储段内标记为第二迁移等级的存储页中的第一类型文件或第二类型文件移动到目标文件服务器,然后将每个关联存储段内标记为第三迁移等级的存储页中的第三类型文件移动到目标文件服务器;以及
关联处理装置,在所述源文件服务器内按照迁移等级进行数据迁移的同时,将所有文件服务器中除所述源文件服务器和目标文件服务器之外并且存储了至少一个关联文件的文件服务器确定为关联文件服务器,确定每个关联文件服务器内存储了至少一个关联文件的关联存储段,将每个关联文件服务器的所有关联存储段内存储第一类型文件的存储页标记为第二迁移等级,并且将至每个关联文件服务器的所有关联存储段内存储第二类型文件或第三类型文件的存储页标记为第三迁移等级;
响应于所述源文件服务器内按照迁移等级进行的数据迁移的完成,在所述每个关联文件服务器中按照迁移等级进行数据迁移:首先将每个关联文件服务器的所有关联存储段内标记为第二迁移等级的存储页中的第一类型文件移动到目标文件服务器,然后将每个关联文件服务器的所有关联存储段内标记为第三迁移等级的存储页中的第二类型文件或第三类型文件移动到目标文件服务器。
7.根据权利要求6所述的系统,确定统计时间区间,获取互联网内的源文件服务器在统计时间区间内的访问统计信息;
对源文件服务器的访问统计信息进行解析以确定源文件服务器中所存储的所有文件中每个文件的属性信息,每个文件的属性信息包括:文件尺寸、访问数据和存储时间;
基于每个文件的文件尺寸、访问数据和存储时间确定每个文件的迁移指数;
基于每个文件的迁移指数确定源文件服务器内所有文件的平均迁移指数,并且将源文件服务器中迁移指数大于平均迁移指数的文件确定为预选文件,以获取多个预选文件;
从多个预选文件中选择迁移文件,并确定目标文件服务器。
8.根据权利要求7所述的系统,
每个文件的访问数据包括多条访问记录,每条访问记录包括:访问设备的标识符、访问设备所处的网络区域。
9.根据权利要求8所述的系统,
确定源文件服务器内多个预选文件中每个预选文件的归属访问设备,以确定多个归属访问设备,对所述多个归属访问设备中每个归属访问设备所处的网络区域进行统计,将多个网络区域中所包括的归属访问设备的数量最多的网络区域确定为目标网络区域,
将为所述目标网络区域提供服务的文件服务器确定为目标文件服务器;
将多个预选文件中归属访问设备位于目标网络区域内的预选文件确定为迁移文件,从而确定多个迁移文件。
10.根据权利要求9所述的系统,每个文件服务器具有多个存储段,其中存储段是文件服务器中逻辑地址上划分的存储区域,或者是文件服务器中物理地址上划分的存储区域。
CN201910787156.1A 2019-08-25 2019-08-25 一种在互联网中进行文件迁移的方法及系统 Active CN110489378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910787156.1A CN110489378B (zh) 2019-08-25 2019-08-25 一种在互联网中进行文件迁移的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910787156.1A CN110489378B (zh) 2019-08-25 2019-08-25 一种在互联网中进行文件迁移的方法及系统

Publications (2)

Publication Number Publication Date
CN110489378A CN110489378A (zh) 2019-11-22
CN110489378B true CN110489378B (zh) 2023-07-04

Family

ID=68553820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910787156.1A Active CN110489378B (zh) 2019-08-25 2019-08-25 一种在互联网中进行文件迁移的方法及系统

Country Status (1)

Country Link
CN (1) CN110489378B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841931A (zh) * 2012-08-03 2012-12-26 中兴通讯股份有限公司 分布式文件系统的存储方法及装置
CN104603774A (zh) * 2012-10-11 2015-05-06 株式会社日立制作所 迁移目的地文件服务器和文件系统迁移方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332512A1 (en) * 2009-06-26 2010-12-30 Walltrix Tech (2009) Ltd. System and method for creating and manipulating thumbnail walls
US20100333204A1 (en) * 2009-06-26 2010-12-30 Walltrix Corp. System and method for virus resistant image transfer
EP2542985A1 (en) * 2010-03-01 2013-01-09 Hitachi, Ltd. File level hierarchical storage management system, method, and apparatus
US8645653B2 (en) * 2010-10-14 2014-02-04 Hitachi, Ltd Data migration system and data migration method
CN103150263B (zh) * 2012-12-13 2016-01-20 深圳先进技术研究院 分级存储方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841931A (zh) * 2012-08-03 2012-12-26 中兴通讯股份有限公司 分布式文件系统的存储方法及装置
CN104603774A (zh) * 2012-10-11 2015-05-06 株式会社日立制作所 迁移目的地文件服务器和文件系统迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕帅 等."海量信息分级存储数据迁移策略研究".《计算机工程与科学》.2009,第31卷(第A1期),第163-167页. *

Also Published As

Publication number Publication date
CN110489378A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
US11461392B2 (en) Providing relevant cover frame in response to a video search query
US10572565B2 (en) User behavior models based on source domain
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN108846021B (zh) 一种基于用户访问偏好模型的海量小文件存储方法
CN102855245A (zh) 一种用于确定图片相似度的方法与设备
CN101477527A (zh) 一种检索多媒体资源的方法及装置
CN109040346B (zh) 一种泛域名解析中有效域名的筛选方法、装置及设备
CN110795397B (zh) 一种地质资料包目录与文件类型自动识别方法
CN109688422B (zh) 一种视频处理的方法及装置
WO2019227705A1 (zh) 图片录入方法、服务器及计算机存储介质
CN116680278B (zh) 数据处理方法、装置、电子设备及存储介质
CN101770474A (zh) 一种基于历史检索记录检索的方法和装置
CN105653674A (zh) 智能终端的文件管理方法及系统
CN110489378B (zh) 一种在互联网中进行文件迁移的方法及系统
CN116126997B (zh) 一种文献去重存储方法、系统、设备及存储介质
CN116027989B (zh) 一种基于存储管理芯片对文件集进行存储的方法及系统
CN115309702B (zh) 基于usn日志的文件检索管理方法、装置、系统、设备
CN109803022B (zh) 一种数字化资源共享系统及其服务方法
CN109446162B (zh) 确定移动互联网内目标移动终端的数据状态的方法及系统
CN113905252B (zh) 直播间的数据存储方法、装置、电子设备及存储介质
CN113821166A (zh) 一种聚合多版本小对象的方法、装置及设备
CN110362535B (zh) 一种文件管理方法、装置及系统
CN114265828A (zh) 行迁移消除方法、装置、计算机设备和存储介质
CN111737209A (zh) 一种文件清理方法及其相关设备
CN114138552B (zh) 数据动态重删方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230607

Address after: 917, 9th Floor, Qilu Software Park Building, South Shou Shunhua Road, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan City, Shandong Province, 250101

Applicant after: Shandong Rongxinghe Intelligent Technology Co.,Ltd.

Address before: 116049 No.2, Zhongjia Village, Changcheng Street, Lvshunkou District, Dalian, Liaoning

Applicant before: Zhang Liang

GR01 Patent grant
GR01 Patent grant