CN101311912B - 计算机系统、其控制方法以及系统管理装置 - Google Patents

计算机系统、其控制方法以及系统管理装置 Download PDF

Info

Publication number
CN101311912B
CN101311912B CN2008100809307A CN200810080930A CN101311912B CN 101311912 B CN101311912 B CN 101311912B CN 2008100809307 A CN2008100809307 A CN 2008100809307A CN 200810080930 A CN200810080930 A CN 200810080930A CN 101311912 B CN101311912 B CN 101311912B
Authority
CN
China
Prior art keywords
storage medium
data
computing machine
management facility
system management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008100809307A
Other languages
English (en)
Other versions
CN101311912A (zh
Inventor
赤池洋俊
藤本和久
中村崇仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN101311912A publication Critical patent/CN101311912A/zh
Application granted granted Critical
Publication of CN101311912B publication Critical patent/CN101311912B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0665Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于提供一种使用分级化的存储设备、并具有抑制性能降低的大容量且性价比高的计算机系统、其控制方法以及系统管理装置。本发明是具备多个计算机、与多个计算机连接的分级存储装置(第一存储介质、低传输速度的第二存储介质)、与多个计算机及分级存储装置连接的系统管理装置的计算机系统。系统管理装置生成或者从计算机系统内的其它装置取得多个计算机的计算作业执行调度,通过预定的方法,根据计算作业执行调度来计划分级存储装置间的数据转移,根据该计划对分级存储装置发出数据转移的指令。

Description

计算机系统、其控制方法以及系统管理装置
技术领域
本发明涉及计算机系统、其控制方法以及系统管理装置。
背景技术
近年,例如在计算天气预报或海啸的传播等的高性能计算领域中所使用的高速计算机,速度每年提高,计算中所使用的数据量有随着计算速度而增加的趋势。在上述高性能计算领域中,在计算机的计算速度提高的同时,使用更加详细的数据,数据量增加了。并且,计算中所使用的数据、计算结果数据全部保存在存储设备(大容量存储装置)中,因此今后存储设备中需要非常大的容量。
一般而言,通过基于调度(schedule)的批处理(batch)等执行高速计算机的计算。在计算的执行中进行以下三个处理。在第一个处理中,将存储设备中保存的数据传输至计算机主存储部(高速计算机的存储器等)。以下,将其称为向计算机的升级。在第二个处理中,以该数据作为输入来执行计算,将输出数据保存在计算机主存储部中。在第三个处理中,将计算机主存储部中具有的输出数据向存储设备传输并保存。以下,将其称为从计算机的降级。
另外,相比较存储设备的每单位容量的价格(以下称为比特成本)的每年的下降率,计算机的计算速度的每年的增长率更高。因此,维持将当前的计算机中处理的数据全部向高速的存储设备进行保存的计算机环境的结构,存储设备花费大量费用。对此,提出了将高速但比特成本高的存储设备(以下称为在线存储设备)、和非高速但比特成本低的存储设备(以下称为近线存储设备)合并的分级构造。专利文献1、2公开了其控制方法。
专利文献1的方法是,通过将主机(计算机)访问频度高的数据向传输速度或应答速度快的存储设备转移(传输),使对数据的访问高速化的方法。
专利文献2的方法是,确立用于存储设备分级的阈值,当存储设备层级的使用量与阈值相同或超过该阈值时,通过向其他层级转移数据来管理分级存储设备·子系统的使用量的方法。
[专利文献1]日本特开2003-216460号公报
[专利文献2]日本特开2006-195960号公报
然而,专利文献1是与计算调度无关地,单纯根据主机访问频度,将访问频度高的数据向在线存储设备转移,由此使对数据的访问高速化的方法。从而,当应用于高速计算机环境时存在如下问题。即,由于未考虑计算调度,因此当计算机在计算结束后将输出数据向在线存储设备保存时,在线存储设备中可能没有足够的空闲容量,就会将输出数据向近线存储设备降级。在这种情况下,存在输出数据从计算机的降级的性能降低的问题。同样地,由于在线存储设备的空闲容量不足,可能无法将计算所需要的输入数据从近线存储设备向在线存储设备转移,而将输入数据从近线存储设备向计算机升级。在这种情况下,存在输入数据向计算机的升级的性能降低的问题。
另外,专利文献2是当在线存储设备的使用容量达到一定以上时,通过向近线存储设备进行数据转移而在在线存储设备中产生出空闲的方法。因此,当应用于高速计算机环境时存在如下问题。即,未考虑计算机的计算调度,无法充分确保与计算调度适合的在线存储设备的空闲容量。其结果如前所述,存在无法有效地使用在线存储设备、升级·降级的性能降低的问题。
发明内容
本发明是鉴于上述问题而提出的发明,其目的在于提供使用分级化的存储设备,具有抑制性能下降的大容量且性价比高的计算机系统、其控制方法以及其系统管理装置。
为了解决所述问题,本发明是一种计算机系统,其具备:多个计算机、与多个计算机连接的分级存储装置、与多个计算机及分级存储装置连接的系统管理装置。
分级存储装置由第一存储介质、传输速度比第一存储介质慢的第二存储介质构成。
并且,系统管理装置生成或者从计算机系统内的其它装置取得多个计算机的计算作业执行调度,通过预定的方法,根据计算作业执行调度来计划分级存储装置间的数据转移,根据该计划对分级存储装置发出数据转移的指令。
根据本发明,可以提供使用分级化的存储设备、并具有抑制性能降低的大容量且性价比高的计算机系统、其控制方法以及其系统管理装置。
附图说明
图1是表示本发明的实施方式的存储系统的结构例的图。
图2是表示存储管理服务器的存储器的内容的图。
图3是表示JOB脚本的例子的图。
图4A是表示本方法的主循环的程序流程的图。
图4B是表示升级处理的程序流程的图。
图4C是表示降级处理的程序流程的图。
图4D是表示生成降级候补列表的程序流程的图。
图4E是表示生成升级候补列表的程序流程的图。
图4F是确认在线存储设备的余量的程序流程的图。
图4G表示确认将所选择的数据向在线存储设备进行转移时的在线存储设备的余量的程序流程的图。
图4H是表示取得文件位置信息的程序流程的图。
图5是不预测在线存储设备的使用量时的动作图。
图6是预测在线存储设备的使用量的本方法的动作图。
图7(a)是使用了计算机和在线存储设备间的转移的升级和降级的图。
图7(b)是使用了计算机和近线存储设备间的转移的升级和降级的图。
图8是表示计算机执行作业调度的例子的图。
图9是表示文件位置信息的例子的图。
图10是表示升级调度的例子的图。
图11是表示降级调度的例子的图。
图12是表示文件信息的例子的图。
图13是表示存储设备信息的例子的图。
图14是表示升级候补列表的例子的图。
图15是表示降级候补列表的例子的图。
图16是表示允许同时处理时的本方法的动作的图。
图17是通过FC-SW将计算机和近线存储设备连接的存储系统的结构例。
符号说明
100计算机;140在线存储设备、160近线存储设备;180存储管理服务器;1000、1001计算机系统
具体实施方式
以下,根据附图说明用于实施本发明的最佳方式(以下称为实施方式)。此外,也适宜参照其它附图来说明。图1是表示本发明的实施方式的计算机系统的结构例的图。计算机系统1000由多个计算机100、NAS机头(NAS head)120、在线存储设备140(分级存储装置:第一存储介质)、近线存储设备160(分级存储装置:第二存储介质)、计算机管理服务器170、存储管理服务器180构成。计算机管理服务器170和存储管理服务器180是系统管理装置。
计算机100由管理用接口(I/F)101、CPU(Central Processing Unit)102、存储器103和数据通信用接口(I/F)104构成。作为数据通信用的路径,将接口104与LAN-SW(Local Area Network Switch)110相连。通过该数据通信用路径传输计算所需的输入数据、以及作为计算结果的计算输出。作为管理用路径,将接口101与LAN-SW190相连。通过该管理用路径,计算机100从计算机管理服务器170接收计算处理的手续,向计算机管理服务器170发送计算状况。以下,将该计算处理的手续称为作业(job)。作为作业内容的手续,通过图3所示的JOB脚本(job script)300那样的脚本(执行指示用的简单程序)来记述。
所谓NAS机头是指无盘的NAS(Network Attached Storage)。因为无盘,所以代替盘而与存储设备连接来读写数据。
NAS机头120将物理的在线存储设备140分配为逻辑卷0(以下称为LU0),将物理的近线存储设备160分配为逻辑卷1(以下称为LU1),在LU0、LU1上构成文件系统121,处理来自计算机100的文件访问。
NAS机头120具有与文件相关的信息、即文件信息122。由存储管理服务器180对其进行使用。
NAS机头120具有:与LAN-SW110连接的计算机侧接口(I/F)124、与FC-SW(Fibre Channel Switch)130连接的存储系统侧接口(I/F)125、以及与LAN-SW190连接的管理侧接口(I/F)123。
在线存储设备140具有:CHA(Channel Adaptor)141、SW(Switch)142、多个盘143、近线存储设备侧CHA144、管理接口(I/F)145、高速缓冲存储器146、DKA(Disk Adaptor)147。
管理接口145与LAN-SW190连接。CHA141具有存储设备和外部网络间的接口的功能。SW142是连接CHA141、近线存储设备侧CHA144、高速缓冲存储器146和DKA147的交换机(Switch)。DKA147根据在线存储设备140通过CHA141接收到的IO请求来控制盘143。高速缓冲存储器146中暂时保存根据IO请求读出或写入的数据。CHA141与FC-SW130相连。近线存储设备侧CHA144与FC-SW150相连。
近线存储设备160具有多个控制器161、多个盘163、管理接口(I/F)164、和高速缓冲存储器(未图示)。管理接口164与LAN-SW190相连。
控制器161具有与CHA144和DKA147相同的功能,对盘163进行控制,但由于更廉价地小型地执行,因此性能规模比CHA144和DKA147差。此外,控制器161与FC-SW150相连。
计算机和存储系统从上至下采用计算机100、在线存储设备140、近线存储设备160的分级结构的形态。另外,将从下层向上层转移(传输)数据称为升级(staging),将从上层向下层转移数据称为降级(destaging)。而且,以下也将在线存储设备140和近线存储设备160总称为存储系统(存储设备)、或将其中一方称为存储系统(存储设备)。
计算机管理服务器170具有管理用接口(I/F)171、CPU172、存储器173。管理用接口171与LAN-SW190相连。在存储器173中存储计算机运行调度程序(scheduler)174、计算机运行信息175、计算机执行作业信息176、计算机管理程序177。计算机执行作业信息176存储由JOB脚本300(参照图3)指定的作业。
计算机管理服务器170进行基于计算机运行调度程序174的指示的处理。用户通过未图示的计算机装置在JOB脚本300(参照图3)中记述作业的内容,发送至计算机管理服务器170,由此进行作业执行请求。计算机管理服务器170根据计算机运行调度程序174针对作业执行请求进行处理。即,计算机管理服务器170在计算机执行作业信息176中保存接收到的JOB脚本300(参照图3),根据该计算机执行作业信息176生成作业的执行调度。将作为执行调度的每个作业的作业开始时间(开始时刻)、作业结束时间(结束时刻)和计算节点作为计算机运行信息175来保存。计算机部由一台以上计算机100的集合构成,将一台计算机100称为计算节点。在此,向计算节点赋予如0、1、2...那样连续号码的数字作为名称(识别符)。
JOB脚本300(参照图3)被保存在计算机管理服务器170内的计算机执行作业信息176中。使用图3对JOB脚本300进行说明。图3是JOB脚本的数据结构例。JOB脚本300是在信息中包含作业名(JOB NAME)301、存储器大小(MEM SIZE)302、CPU数(NUM CPU)303、CPU时间(CPU TIME)304、输入文件名(INPUT FILE)305、输出文件名(OUTPUT FILE)306、执行文件名(EXECUTED PROGRAM)307的脚本。
作业名301是用于识别的名称,由用户赋予名称。存储器大小302是执行作业所需的存储器的大小,计算机运行调度程序174从计算机100的存储器103将存储器大小302的存储器分配给该作业。CPU数303是执行作业所需的CPU的数量,计算机运行调度程序174从计算机100的CPU102将CPU数303的CPU分配给作业。CPU时间304是通过计算机100执行作业所需的时间,当作业的执行时间达到CPU时间304时,计算机运行调度程序174结束作业。
输入文件名305是作业的输入数据,当执行作业时,计算机100将输入文件名305所表示的文件作为输入文件而读入(在后面进行详细描述)。
输出文件名306是作业的输出数据,在作业的计算结束后,计算机100将输出文件名306所表示的文件作为输出文件而写入(在后面进行详细描述)。
按照作为作业的执行调度的计算机运行信息175的作业开始时间开始作业,按照作业结束时间结束作业。计算机管理服务器170根据计算机管理程序177的处理来进行作业执行。即计算机管理服务器170根据计算机执行作业信息176中保存的JOB脚本300的内容,对计算机100发出计算处理命令。计算机100根据该命令主要进行3个处理。即,从存储系统向计算机100根据JOB脚本300中记述的输入文件名305、执行文件307、输出文件名306进行从存储系统向计算机100的存储器103的输入文件的升级、执行文件的执行、从计算机100的存储器103向存储系统的输出文件的降级的处理。
计算机100和存储系统间的升级·降级中存在以下两种方法。第一种是计算机100和在线存储设备140间的升级和降级,第二种是计算机100和近线存储设备160间的升级和降级。从升级和降级所需时间的观点比较这两种方法。
图7(a)表示关于上述表示的计算机100的一连串的计算处理,在线存储设备140和计算机100之间进行了升级·降级时的数据转移的情况。
符号707、符号708表示作业开始的时刻。符号701、符号703表示从计算机100向在线存储设备140的输出文件的降级。通过计算机100和在线存储设备140间的FC-SW130,以3.4GB/s的吞吐量(throughput)进行符号701和符号703的降级。符号702、符号704表示从在线存储设备140向计算机100的输入文件的升级,吞吐量为3.4GB/s。符号705、符号706表示预先将计算所需的输入文件向在线存储设备140升级。吞吐量为1.7GB/s。符号707的作业开始的同时,计算2中所使用的输入文件FileA通过符号702被升级。
在该升级之前,通过符号705将FileA从近线存储设备160向在线存储设备140进行了升级。因此,从符号707的作业开始时刻起,将FileA从在线存储设备140向计算机100升级。
并且,图7(b)表示关于上述表示的计算机100的一连串的计算处理,在近线存储设备160和计算机100间经由在线存储设备140进行了升级·降级时的数据转移的情况。
符号717、符号718表示作业开始的时刻。符号712表示从近线存储设备160向计算机100的输入文件的升级。与从近线存储设备160向在线存储设备140的吞吐量相一致地以1.7GB/s的吞吐量进行该升级。符号713表示从计算机100向近线存储设备160的输出文件的降级,吞吐量同样为1.7GB/s。符号711、符号714与符号701、符号704相同。
比较图7的(a)和(b),双方一起通过符号707、符号717同时执行FileA的升级,但图7(a)中,FileA从吞吐量为3.4GB/s的高速的在线存储设备140被升级,在图7(b)中,从吞吐量为1.7GB/s的低速的近线存储设备160被升级。关于降级也相同。即与图7(b)相比,图7(a)进行升级和降级的时间短。
其结果,与图7(b)的方法相比,预先将需要的文件向在线存储设备140转移的图7(a)的方法具有升级和降级的时间短、计算机100可以将更多时间用于计算的优点。根据该图7(a)的方法,若存储管理服务器180预先将需要的文件从近线存储设备160转移到在线存储设备140,则计算机100始终与在线存储设备140之间进行升级和降级。理想的情况下,计算机100能够以与在线存储设备140之间的高速的吞吐量,利用合并了在线存储设备140和近线存储设备160的存储系统全体的容量。
然而,当在线存储设备140的空闲容量少时,无法进行上述动作。因此产生如下两个问题。
第一,由于在线存储设备140的空闲容量少,因此有可能无法在必要时将计算所需的输入文件向高速的在线存储设备140转移。其结果是,将输入文件从近线存储设备160向计算机100升级,升级的性能下降了。
第二,由于在线存储设备140的空闲容量少,有可能无法将来自计算机100的输出文件向在线存储设备140的空闲区域降级。其结果,将输出文件向近线存储设备160降级,降级的性能下降了。
因此,为了避免上述问题,有必要控制在线存储设备140的空闲容量。
但是,通过仅仅单纯地关注在线存储设备140的空闲容量当空闲容量减少时向近线存储设备160转移来增加空闲容量的方法无法解决上述问题。
图6是尽管在线存储设备140中有空闲容量,但由于来自计算机100的输出,其容量随着时间经过而不足的一例。
对图6进行说明。图6(a)的曲线606表示,在当前的在线存储设备140的使用量上累计通过此后来自计算机的输出而保存在在线存储设备140中的数据而得到的累计增量(仅增量的合计)。线段608表示在线存储设备140的最大容量。从当前时刻到时刻t1,计算机100执行作业的计算。
在时刻t1,从计算机100-1(多个计算机100中的第一个)开始输出数据的降级601,在时刻t2结束。然后,由于在线存储设备140的空闲容量不足,因此在时刻t2开始将在线存储设备140的数据向近线存储设备160转移的降级603,产生出空闲区域(参照图6(b))。此后,计算机100-2(多个计算机100中的第二个)执行作业,一直到时刻t3。在时刻t3再次从计算机100-2开始输出数据的降级602,在时刻t4结束。但是,在降级602的中途,在线存储设备140的空闲区域消失了。图6(c)的曲线607表示在线存储设备140的使用量的曲线。线段609和线段608相同,表示在线存储设备140的最大容量。可知在降级602的中途,曲线607达到线段609的最大容量,在降级602的中途,在线存储设备140的空闲区域消失了。
在这种方法中,尽管实施降级603,但由于降级开始缓慢,因此作为结果,无法将在线存储设备140的使用量抑制在最大容量以内。
在线存储设备140的容量不足,是由于来自计算机100的输出的数据量不明、以及来自计算机100的输出的吞吐量大于向近线存储设备160的转移的吞吐量。即,根据来自计算机100的输出的数据量,向近线存储设备160进行转移来试图确保空闲容量时,尽管进行降级,但由于来自计算机100的输出速度更高,因此在线存储设备140的容量可能变满。
其原因在于,通过仅观察在线存储设备140的空闲容量、而未考虑此后来自计算机100的计算结果的输出地进行输出时,无法得知在线存储设备140的容量是否充足。
为了避免此问题,在本方法中采用预测在线存储设备140的使用,控制空闲容量的技术。该技术是按照在线存储设备使用预测信息209(参照图2),对降级候补列表211的文件预先进行降级的技术。
通过此降级,可以预先适当地增加空闲容量。在后面对进行该降级的技术进行详细说明。
在本方法中,代替空闲容量而引入考虑了当前的空闲容量和此后来自计算机100的输出数据量的指标。将其称为可使用容量。此外,将该可使用容量存储在在线存储设备使用预测信息209(参照图2)中。在后面对可使用容量进行详细说明。
使用该可使用容量如下控制在线存储设备140的空闲容量。即当有可使用容量时,将计算的输入数据从近线存储设备160向在线存储设备140进行升级。
当没有可使用容量时,从在线存储设备140向近线存储设备160进行降级。
图5是表示本方法的动作的例子。
图5(a)的曲线515表示,在当前的在线存储设备140的使用量上累计由于此后来自计算机100的输出而保存在在线存储设备140中的数据而得到的累计增量。线段520表示在线存储设备140的最大容量。从当前时刻到时刻t1,计算机100-1执行作业的计算。如图5(b)所示,在时刻t1,开始从计算机100-1进行输出数据的降级509,在时刻t2结束。此后,计算机100-2执行作业的计算,一直到时刻t3。在时刻t3开始从计算机100-2进行输出数据的降级510,在时刻t4结束。
由于该输出数据的降级,会超过在线存储设备140的最大容量。超过的部分为超过使用量516。
符号507是从t1到t2的经过时间d1、和从t3到t4的经过时间d2的合计时间、即到时刻t4为止从计算机100的降级所需时间的合计。在后述的式5中使用该时间。
线段501是具有近线存储设备160·在线存储设备140间的吞吐量的斜率的线段。线段501通过从时刻t4的曲线515上的点向左移动了符号507的时间的点。
线段502通过原点(线段520上的当前时刻的点),是具有近线存储设备160·在线存储设备140间的吞吐量的负的斜率的线段。线段501和502的交点、和表示在线存储设备的最大容量的线段520的差表示可使用容量505。针对该可使用容量505判定是否满足“可使用容量505>0(式1)”。
当满足式1时,在线存储设备140中有余量,可以进行升级处理。
当不满足式1时,在线存储设备140中没有余量,因此进行从在线存储设备140向近线存储设备160的降级处理,在在线存储设备140中产生出空闲区域。
线段501和表示最大容量的线段520的交点的时刻,是可使用容量505为0的时刻t0。在时刻t0,开始从在线存储设备140向近线存储设备160的降级511。符号503表示当前的空闲容量。
如图5(c)所示,线段517和线段520相同,表示在线存储设备140的最大容量。从时刻t1到时刻t2期间,从计算机100-1执行输出数据的降级509,因此不执行从在线存储设备140向近线存储设备160的降级。原因在于,为了不使计算机100-1和存储系统间的升级和降级的吞吐量降低,存储管理服务器180不进行使用计算机100正在访问的存储介质的转移处理。当到达时刻t2时,结束从计算机100-1进行输出数据的降级509,并且由于可使用容量505为0,因此开始从在线存储设备140向近线存储设备160的降级512。
图5(c)的曲线518表示在线存储设备140的使用量的曲线。当观察曲线518时可知,作为上述处理的结果,即使来自计算机100的输出到来时,也将在线存储设备140的使用量抑制在最大容量以内。
因此,为了实现图5所示的本方法的动作,引入存储管理服务器180。
图1的存储管理服务器180具有:管理用接口(I/F)181、CPU182、存储器183。管理用接口181与LAN-SW190连接。
图2是表示存储管理服务器180的存储器183中存储的程序信息的详细情况的框图。
在存储器183中存储有:计算机信息取得程序201、计算机执行作业调度202(计算作业执行调度)、文件位置信息取得程序203、存储设备信息204、文件位置信息205、存储管理程序206、转移控制程序207、在线存储设备使用信息208、在线存储设备使用预测信息209、升级候补列表210、降级候补列表211、降级调度212(写入调度)、以及升级调度213(读入调度)。
存储管理服务器180基于计算机信息取得程序201,取得计算机管理服务器170的计算机运行信息175和计算机执行作业信息176,生成计算机执行作业调度202。在图8中以框图表示计算机执行作业调度202。如图8所示,计算机执行作业调度202由序号311、作业名312、作业开始时间313、作业结束时间314、计算节点315、输入文件名316、输出文件名317构成。计算机执行作业调度202,针对计算机执行作业信息176的每个作业的作业开始时间、作业结束时间、计算节点,附加了写入各个作业的JOB脚本300(参照图3)的输入输出文件的信息,用于升级候补列表210、降级候补列表211、降级调度212以及升级调度213的生成。
另外,存储管理服务器180基于文件位置信息取得程序203,取得存储设备信息204和文件信息122,生成文件位置信息205。
存储设备信息204,是将NAS机头120在文件系统121中管理的LU和物理的存储系统对应起来的信息,如图13的框图那样,由LU Number361和对应的存储设备名362构成。
文件信息122如图12的框图所示,成为由文件名351、LU Number352、文件大小353构成的表的形态。
LU Number352、文件大小353分别表示保存文件名351所表示的文件的逻辑单元(LU)、文件大小。
文件位置信息205如图9的框图所示,成为由文件名321、保存场所322、文件大小323构成的表的形态。保存场所322表示文件名321所表示的文件被保存在在线存储设备140中还是被保存在近线存储设备160中。文件大小323表示文件名321所表示的文件的文件大小。文件位置信息205被用于升级候补列表210、降级候补列表211、降级调度212、升级调度213的生成。
存储管理服务器180基于转移控制程序207的处理,根据上述计算机执行作业调度202和文件位置信息205,生成升级调度213和降级调度212。
升级调度213记载了:根据存储了此后的计算预定的计算机执行作业调度202,通过计算机100读入在作业中利用的输入文件的调度。
升级调度213如图10的框图所示,成为由序号331、输入文件名332、文件大小333、场所334、吞吐量335、读取开始时间(时刻)336、读取结束时间(时刻)337构成的表的形态。
文件大小333表示输入文件名332所表示的文件的文件大小。场所334表示输入文件名332所表示的文件被保存在在线存储设备140中还是被保存在近线存储设备160中。吞吐量335表示场所334所表示的存储设备的吞吐量。读取开始时间336、读取结束时间337分别表示计算机100开始或结束读入输入文件名332所表示的文件的时间。
降级调度212记载了:根据存储了此后的计算预定的计算机执行作业调度,通过计算机100写入作为执行作业的计算结果的输出文件的调度。
降级调度212如图11的框图所示,成为由序号341、输出文件名342、文件大小343、场所344、吞吐量345、写入开始时间346、写入结束时间347构成的表的形态。
文件大小343表示输出文件名342所表示的文件的文件大小。场所344表示输出文件名342所表示的文件被保存在在线存储设备140中还是被保存在近线存储设备160中。吞吐量345表示场所344所表示的存储系统的吞吐量。写入开始时间346、写入结束时间347分别表示计算机100开始或结束写入输出文件名342所表示的文件的时间。
另外,存储管理服务器180基于转移控制程序207的处理,根据上述计算机执行作业调度202、在线存储设备使用信息208和文件位置信息205、升级调度213和降级调度212,生成在线存储设备使用预测信息209、升级候补列表210、降级候补列表211。
在线存储设备使用预测信息209中保存了可使用容量。所谓可使用容量,是考虑了计算机100此后输出的数据量和向近线存储设备160降级的数据量的、对在线存储设备140的空闲容量进行预测而得出的容量。
升级候补列表210如图14的框图所示,成为由文件名371、保存场所372、文件大小373、以及作为由作业访问的下一时刻的读入开始时间374构成的表的形态。
保存场所372表示文件名371所表示的文件被保存在在线存储设备140中还是被保存在近线存储设备160中。文件大小373表示文件名371所表示的文件的文件大小。读入开始时间374是计算机100开始读入文件名371所表示的文件的时间。在后面对其进行说明,但升级候补列表210被用于决定升级对象文件。
降级候补列表211如图15的框图所示,成为由文件名381、保存场所382、文件大小383、作为由作业访问的下一时刻的读入开始时间384构成的表的形态。
保存场所382表示文件名381所表示的文件被保存在在线存储设备140中还是被保存在近线存储设备160中。文件大小383表示文件名381所表示的文件的文件大小。读入开始时间384表示计算机100开始读入文件名381所表示的文件的时间。在后面对其进行说明,但降级候补列表211被用于决定降级对象文件。
存储管理服务器180基于转移控制程序207,按照在线存储设备使用预测信息209来进行升级·降级的判断,另外,从升级候补列表210·降级候补列表211中选择一个转移候补文件。在后面描述选择方法。
当判断为升级时,存储管理服务器180基于存储管理程序206,将从升级候补列表210中选择的文件从近线存储设备160向在线存储设备140进行升级。即存储管理服务器180对NAS机头120发出命令,使其将所选择的文件从LU1向LU0移动。
当判断为降级时,存储管理服务器180基于存储管理程序206,将从降级候补列表211中选择的文件从在线存储设备140向近线存储设备160进行降级。即存储管理服务器180对NAS机头120发出命令,使其将所选择的文件从LU0向LU1移动。
存储管理服务器180基于转移控制程序207进行升级的判断,以便将计算所需的输入文件预先向在线存储设备140进行保存。然后,存储管理服务器180基于存储管理程序206进行升级处理。
这样一来,必要时可以将计算所需的输入文件转移到高速的在线存储设备140中,可以在短时间内进行向计算机100的输入文件的升级。并且,可以将来自计算机100的输出文件向在线存储设备140的确保的空闲区域进行降级,可以在短时间内进行输出文件的降级。
图4A是表示存储管理服务器180的基于转移控制程序207的处理的流程的流程图。该处理是本方法的主要程序流程(主循环)。此外,通过存储管理服务器180的CPU182参照存储器183的信息等,执行以下图4A~图4H的流程图中的各处理。
如图4A所示,存储管理服务器180首先确认在线存储设备140的余量,判定该在线存储设备140中是否有余量(步骤S401)。
当判定为有余量时(步骤S401中“是”)进行升级处理(步骤S403)。
当判定为没有余量时(步骤S401中“否”)进行降级处理(步骤S404)。
然后,进行一定时间待机(Wait))(步骤S405),返回步骤S401。
接着,使用图4B的流程图说明存储管理服务器180的基于转移控制程序207的升级处理(相当于图4A的步骤S403)的流程。
在升级处理中,首先生成作为升级候补的文件列表的升级候补列表210(步骤S411)。
判定所生成的升级候补列表210是否为空(步骤S412)。
当判定为空时(步骤S412中“是”)执行降级处理(步骤S416)。
当判定为不空时(步骤S412中“否”)选择升级候补列表210的最初的数据(步骤S413)。
当将所选择的数据向在线存储设备140转移后,判定在线存储设备140中是否有余量(步骤S414)。
当判定为没有余量时(步骤S414中“否”)进行降级处理(步骤S416)。
当判定为有余量时(步骤S414中“是”),按照存储管理程序206,将所选择的数据从近线存储设备160向在线存储设备140进行升级(步骤S415)。在该步骤(步骤S415)的升级中,当开始了向计算机100的升级或从计算机100的降级时,暂时停止该步骤(步骤S415)的升级。通过根据需要而使步骤S415的升级停止,计算机100能够以在线存储设备140的最大性能来执行升级或者降级。
接着,使用图4C的流程图说明存储管理服务器180的基于转移控制程序207的降级处理(相当于图4A的步骤S404)的流程。
在降级处理中,首先生成作为降级候补的文件列表的降级候补列表211(步骤S421)。
判定所生成的降级候补列表211是否为空(步骤S422)。
当判定为空时(步骤S422中“是”),结束。
当判定为不空时(步骤S422中“否”),选择降级候补列表211的最初的数据(步骤S423)。
按照存储管理程序206,将所选择的文件(数据)从在线存储设备140向近线存储设备160降级(步骤S424)。在该步骤S424的降级中,当开始了向计算机100的升级或从计算机100的降级时,暂时停止步骤S424的降级。通过根据需要使步骤S424的降级停止,计算机100能够以在线存储设备140的最大性能来执行升级或降级。
接着,使用图4E的流程图说明存储管理服务器180基于转移控制程序207生成升级候补列表210的处理的流程。
在生成升级候补列表210的处理中,最初将升级候补列表210初始化为空(步骤S441)。
按照文件位置信息取得程序203的流程,取得文件位置信息205(步骤S442)。
按照计算机信息取得程序201,取得计算机执行作业调度202(步骤S443)。
从计算机执行作业调度202中选择24小时(规定时间)以内执行的作业。该24小时的时间是成为升级的指标的时间,称为升级指标时间。从文件位置信息205中调查该作业所对应的输入文件的场所。当输入文件的场所是近线存储设备160时,将所选择的作业追加到升级候补列表210中。
当进行追加时,将从计算机执行作业调度202(参照图8)中选择的作业相关的输入文件名316、作业开始时间313、和文件位置信息205(参照图9)中与输入文件名316所对应的文件名相关的保存场所322和文件大小323,分别写入升级候补列表210(参照图14)的文件名371、读入开始时间374、保存场所372和文件大小373(步骤S444)。
对作业开始时间在24小时以内的作业进行收集的条件表示:为了预先将此后执行的作业的输入文件向在线存储设备140转移而加入升级候补。
在此,将升级指标时间设为24小时,但也可以根据计算机100的使用方法而进行变更。例如,有时通过作业调度程序生成20小时以上在先的调度,但是此后变更调度。在这种情况下,最好是变更为例如对作业开始时间在20小时以内的作业进行收集的条件。
按照读入开始时间374从早到晚的顺序,对升级候补列表210进行排序(步骤S445)。在此,按照读入开始时间374从早到晚的顺序进行了排序,但除此以外,也可以使用文件大小、基于用户指定或设定的某种优先顺序(与各数据量或与各传输速度关联的优先顺序等)来进行排序。
接着,使用图4D的流程图说明存储管理服务器180基于转移控制程序207生成降级候补列表211的处理的流程。
在生成降级候补列表211的处理中,最初将降级候补列表211初始化为空(步骤S431)。
按照文件位置信息取得程序203的流程,取得文件位置信息205(步骤S432)。
按照计算机信息取得程序201,取得计算机执行作业调度202(步骤S433)。
从计算机执行作业调度202中选择在48小时(规定时间)以上在先执行的、或者此后未执行的作业。
该48小时的时间是成为降级的指标的时间,称为降级指标时间。从文件位置信息205中调查该作业所对应的输入文件的场所。当输入文件的场所是在线存储设备140时,将所选择的作业追加到降级候补列表211中。
当进行追加时,将从计算机执行作业调度202(参照图8)中选择的作业相关的输出文件名317、作业开始时间313、文件位置信息205(参照图9)中与输出文件名317所对应的文件名相关的保存场所322和文件大小323,分别写入降级候补列表211(参照图15)的文件名381、读入开始时间384、保存场所382、文件大小383中(步骤S434)。
在此,将降级指标时间设为48小时,但也可以根据计算机100的使用方法而进行变更。例如,当在线存储设备140的容量被限制得较小时,尽量将文件向近线存储设备160降级,需要产生出在线存储设备140的空闲容量。此时,最好例如设定为24小时以上等短时间,使成为降级候补的文件数增多。但是,需要满足“升级指标时间<降级指标时间”的关系。
按照读入开始时间384从晚到早的顺序对降级候补列表211进行排序(步骤S435)。
在此,按照读入开始时间从晚到早的顺序进行了排序,但除此以外,也可以使用文件大小、基于用户指定或设定的某种优先顺序来进行排序。
接着,使用图4F的流程图说明存储管理服务器180基于转移控制程序207确认在线存储设备140的余量的处理(相当于图4A的步骤S401)的流程。
首先,按照文件位置信息取得程序203的流程,取得文件位置信息205(步骤S451)。
按照计算机信息取得程序201,取得计算机执行作业调度202(步骤S452)。
根据所取得的文件位置信息205和计算机执行作业调度202,生成从存储系统向计算机100升级的调度、即升级调度213(步骤S453)。
即,针对计算机执行作业调度202(参照图8)的每个序号311,将序号311和输入文件名316和作业开始时间313,向升级调度213(参照图10)的序号331和输入文件名332和读取开始时间336进行写入。关于所写入的升级调度213的各序号的输入文件名,根据文件位置信息205(参照图9),将该文件名所对应的保存场所322和文件大小323分别向升级调度213(参照图10)的场所334和文件大小333进行写入。
升级调度213(参照图10)的吞吐量335是从文件的场所334向计算机100传输时的吞吐量。在图10的例子中,文件的场所为近线存储设备160时的吞吐量为1.7GB/s,为在线存储设备140时的吞吐量为3.4GB/s。
通过“读取开始时间336+文件大小333÷吞吐量335”,来计算升级调度213(参照图10)的读取结束时间337。
根据所取得的文件位置信息205(参照图9)和计算机执行作业调度202(参照图8),生成从计算机100向存储系统降级的调度、即降级调度212(步骤S453)。
即,针对计算机执行作业调度202(参照图8)的每个序号311,将序号311、输入文件名316和作业结束时间314,向降级调度212(参照图11)的序号341、输出文件342和写入结束时间347进行写入。关于所写入的降级调度212(参照图11)的各序号的输出文件名,根据文件位置信息205(参照图9),将该文件名所对应的文件大小323分别向降级调度212(参照图11)的文件大小343进行写入。
降级调度212(参照图11)的场所344,作为在线(在线存储设备140)而写入。
降级调度212(参照图11)的吞吐量345是从文件的场所344向计算机100传输时的吞吐量。在图11的例子中,当文件的场所是近线存储设备160时的吞吐量为1.7GB/s,为在线存储设备140时的吞吐量为3.4GB/s。
通过“写入结束时间347-文件大小343÷吞吐量345”,来计算降级调度212(参照图11)的写入开始时间346。
输出文件的文件大小一般不明,但是预先对文件大小进行了预测。例如存在如下对其进行预测的方法:根据作业的输入文件的大小,输出文件大小大体不变地进行预测的方法;根据作业的计算时间,假定输出文件大小与时间成比例地增加地进行预测的方法;根据至此的作业的输出文件的文件大小取得平均值等统计值来进行预测的方法;或者通过用户输入文件大小信息来进行预测的方法。
计算在线存储设备140中此后保存的数据的量、增加使用量。如下这样计算增加使用量。针对各时间T,将各时间增加使用量计算为“各时间增加使用量=(到时间T为止从计算机100输出的数据量)-(到时间T为止向近线存储设备160继续降级处理时的、被降级的数据量)”。若以图5的动作图为例,则将各时间增加使用量和当前的在线存储设备140的使用量的合计值作为累计增量,用曲线515表示。
通过针对满足“降级调度340的写入开始时间346<时间T”的全部调度,将文件大小343(参照图11)进行合计,来计算(到时间T为止从计算机100输出的数据量)。
通过以下式5,计算(到时间T为止向近线存储设备160继续降级处理时的、被降级的数据量)。
(到时间T为止向近线存储设备160继续降级处理时的、被降级的数据量)=在线存储设备140·近线存储设备160间的吞吐量×(时间T-当前的时间-升级所用时间-降级所用时间)...式5
将时间T作为时刻t4,若以图5的动作图为例,则针对在线存储设备140的“升级所用时间+降级所用时间”成为符号507的时间。
升级所用时间,是针对满足“升级调度213(参照图10)的读取开始时间336<时间T”的全部调度,加上(读取结束时间337-读取开始时间336)即读取时间而得到的时间。
降级所用时间,是针对满足“降级调度212(参照图11)的写入开始时间346<时间T”的全部调度,加上(写入结束时间347-写入开始时间346)即写入时间而得到的时间。
然后,计算关于各时间T的各时间增加使用量的最大值,将其设为增加使用量。将达到该最大值的时间设为TMAX。若以图5的动作图为例,则时刻t4成为TMAX。
计算增加使用量为“(到时间TMAX为止从计算机100输出的数据量)-当前的空闲容量”。
使用计算出的增加使用量,将可使用容量计算为“可使用容量=(在线存储设备140的空闲容量-增加使用量)÷2”(图4F的步骤S454)。
针对该可使用容量,判定“可使用容量>ε(式2)”(图4F的步骤S455)。
当满足式2时(步骤S455中“是”),判断为有余量(步骤S456)。
当不满足式2时(步骤S455中“否”),判断为没有余量(步骤S457)。
在本实施方式中,目的在于为使“可使用容量>0”、即控制成在线存储设备140的容量不会不足。因此,在步骤S455中以ε的量取边界值(margin)。
然后,使用图4G的流程图说明存储管理服务器180基于转移控制程序207,确认将所选择的数据向在线存储设备140转移时的、在线存储设备140的余量的处理的流程。
与步骤S451(参照图4F)相同,取得文件位置信息205(步骤S461)。
与步骤S452相同,取得计算机执行作业调度202(步骤S462)。
与步骤S453相同,生成升级调度213、降级调度212(步骤S463)。与步骤S454同样,计算可使用容量和增加使用量(步骤S464)。
判定是否“可使用容量>选择数据的大小(式3)”(步骤S465)。
当不满足式3时(步骤S465中“否”),判断为没有余量(步骤S469)。
当满足式3时(步骤S465中“是”),这意味着转移处理结束后可使用容量不会变为0以下。
在这种情况下,判定“在线存储设备140的空闲容量>选择数据的大小(式4)”(步骤S466)。
当不满足式4时(步骤S466中“否”),判断为没有余量(步骤S469)。
当满足式4时(步骤S466中“是”),意味着在线存储设备140中有保存选择数据的空闲容量。在这种情况下,判定“降级候补列表211(参照图15)中的数据的大小的合计>选择数据的大小+增加使用量-空闲容量(式5)”(步骤S467)。
当不满足式5时(步骤S467中“否”),判断为没有余量(步骤S469)。
当满足式5时(步骤S467中“是”),表示此后降级的预定的数据的量已经加入降级候补列表211的候补。在这种情况下,判断为有余量(步骤S468)。
然后,使用图4H的流程图说明存储管理服务器180基于转移控制程序207取得文件位置信息205的处理(图4D的步骤S432、图4E的步骤S442、图4F的步骤S451、图4G的步骤S461)的流程。
首先,从在线存储设备140·近线存储设备160取得LU Number和存储设备名的对应信息,作为存储设备信息204(参照图13)进行保存(步骤S471)。
接着,从NAS机头120取得文件信息122(参照图2)(步骤S472)。根据所取得的文件信息122得知每个文件的LU Number和文件大小。
根据存储设备信息204(参照图13),将该LU Number改写为对应的存储设备名来作为保存场所,由此构成文件位置信息205(参照图9)(步骤S473)。
然后,说明向计算机100的升级和从计算机100的降级。
当向计算机100升级时,针对来自计算机100的文件的读入请求,NAS机头120对存储了所请求的文件的LU进行访问,向计算机100传输文件。
当从计算机100降级时,针对来自计算机100的文件的写入请求,NAS机头120将所请求的文件写入在线存储设备140。但是,当“可使用容量<0”时,由于在线存储设备140的容量不足,因此NAS机头120经由在线存储设备140将所请求的文件写入近线存储设备160。
关于向计算机100的升级和从计算机100的降级,当将文件从计算机100向在线存储设备160传输时,在图1的存储系统结构中,文件一度通过在线存储设备140被传输至近线存储设备160,因此吞吐量有可能降低。为了不使在线存储设备140进行中继地、进行从计算机100向近线存储设备160的直接访问,考虑图17所示的存储系统结构。
图17是计算机100、在线存储设备140和近线存储设备160通过FC-SW131连接的计算机系统的结构图。与图1的计算机系统1000的不同在于以下两点:在计算机系统1001中,计算机100、在线存储设备140以及近线存储设备160通过FC-SW131相连;去除了FC-SW150。计算机100通过FC-SW131可以访问在线存储设备140和近线存储设备160的双方。
在所述方法中,以如下方式进行了控制:向计算机100的升级或从计算机100的降级、以及基于存储管理服务器180的在线存储设备140和近线存储设备160间的升级或降级不同时执行。这是为了尽量高速地执行作为主要目的的向计算机100的升级或从计算机100的降级。即,使通过基于存储管理服务器180的在线存储设备140和近线存储设备160间的升级或者降级、向计算机100的升级或者从计算机100的降级处理的吞吐量不降低。但是,处理的吞吐量降低发生在上述两个处理同时进行、并且对盘143的相同驱动器进行访问时,这是限定的情况。
因此,对允许同时处理的方法进行说明。和上述方法的不同之处在于,生成可使用容量的计算方法和升级调度213(参照图10)的步骤(图4F的步骤S453)、升级的步骤(图4B的步骤S415)和降级的步骤(图4C的步骤S424)。
在可使用容量的计算中,对上述式5如下进行变更“(到时间T为止向近线存储设备160继续降级处理时的、被降级的数据量)=在线存储设备140·近线存储设备160间的吞吐量×(时间T-当前时间)”。
对生成升级调度213的步骤S453(参照图4F)如下进行变更。在所述的步骤S453中,将文件的场所为近线存储设备160时的吞吐量设为1.7GB/s,但由于同时处理因此吞吐量降低。因此,将吞吐量设定为低于1.7GB/s的值。在吞吐量的设定中,考虑测定吞吐量的降低以统计的方式决定吞吐量的方法、以及估计最差吞吐量来进行决定的方法等。
对于升级的步骤S415(参照图4B)和降级的步骤S424(参照图4C)如下进行变更。在所述图4B和图4C的处理中,在同时处理中停止了升级的步骤S415和降级的步骤S424,但以不进行该停止而允许同时处理的方式进行变更。
图16是表示允许所述同时处理时的本方法的动作的图。适当省略和图5的情况重复的说明。
图16(a)的曲线1615表示在当前的在线存储设备140的使用量上,累计此后由于来自计算机100的输出而保存在在线存储设备140中的数据而得到的累计增量。线段1620表示在线存储设备140的最大容量。计算机100-1执行作业的计算,一直到时刻t1。在时刻t1开始从计算机100-1将输出数据向在线存储设备140的降级1609,在时刻t2结束。然后,计算机100-2执行作业的计算,一直到时刻t3。在时刻t3再次开始从计算机100-2将输出数据向在线存储设备140的降级1610,在时刻t4结束。
由于该输出数据的降级,超过了在线存储设备140的最大容量。超过的部分是超过使用量1616。
线段1601是具有近线存储设备160·在线存储设备140间的吞吐量的斜率的线段。线段1601通过时刻t4的曲线1615上的点。
线段1602通过原点(线段1620上当前时刻的点),是具有近线存储设备160·在线存储设备140间的吞吐量的负的斜率的线段。线段1601和线段1602的交点和表示在线存储设备140的最大容量的线段1620的差,表示可使用容量1605。针对该可使用容量1605判定是否“可使用容量1605>0(式1)”。
当满足式1时,在线存储设备140中有余量,可以进行升级处理。
当不满足式1时,在线存储设备140中没有余量,因此进行降级处理,在在线存储设备140中产生出空闲区域。
线段1601和表示最大容量的线段1620的交点的时刻,是可使用容量1605成为0的时刻t0’。如图16(b)所示,从时刻t0’到时刻t4,开始从在线存储设备140向近线存储设备160的降级1611。曲线1603表示在线存储设备140当前的空闲容量。
如图16(c)所示,线段1617表示在线存储设备的最大容量。从时刻t1到时刻t2的期间,执行从计算机100-1将输出数据向在线存储设备140的降级1609,同样从时刻t3到时刻t4的期间,执行从计算机100-2将输出数据向在线存储设备140的降级1610,但是由于允许同时处理,因此继续执行从在线存储设备140向近线存储设备160的降级。图16(c)的曲线1618表示在线存储设备140的使用量的曲线。当观察曲线1618时可知:上述处理的结果为,即使来自计算机100的输出到来,也将在线存储设备140的使用量抑制在最大容量以内。
根据是否允许同时处理,产生如下差异。当不允许同时处理时,控制在线存储设备140的容量,陷入容量不足的可能性低。但是,由于无法进行同时处理,因此产生无法同时进行转移的限制。当允许同时处理时,由于同时处理,转移处理对互相的吞吐量造成影响,不一定可靠地进行在线存储设备140的容量控制。但是,由于可以进行同时处理,因此可以更柔性地执行转移。
接着说明是否允许同时处理的判断。
关于是否允许同时处理的判断,考虑在存储系统中设定如下策略来自动地进行判断的方法。例如,希望尽量降低陷入容量不足的可能性的策略、或者由于同时处理的吞吐量降低的影响低所以希望重视柔性的转移的策略。
关于是否允许同时处理的判断,也考虑由用户进行判断来设定的方法。
以上,结束了实施方式的说明,但本发明不限于这些方式。例如,NAS机头是用于以文件为单位来处理数据的装置,在本发明中不是必需的结构,也可以用其他装置代替。此外,关于具体的结构,可以在不脱离本发明的主旨的范围内进行适当变更。

Claims (14)

1.一种计算机系统,具备多个计算机、与所述多个计算机连接的分级存储装置、以及与所述多个计算机和分级存储装置连接的系统管理装置,所述计算机系统的特征在于,
所述分级存储装置由第一存储介质、以及传输速度比所述第一存储介质慢的第二存储介质构成,
所述系统管理装置生成或者从所述计算机系统内的其它装置取得所述多个计算机的计算作业执行调度,通过预定的方法,根据所述计算作业执行调度来计划分级存储装置间的数据转移,根据该计划对所述分级存储装置发出数据转移的指令,
其中,所述系统管理装置,将所述第二存储介质内的通过预定方法选择的数据向所述第一存储介质传输,由此先由所述第一存储介质保存文件,之后由所述计算机读取在所述第一存储介质中保存的该文件;
其中,所述系统管理装置,计算当前以后的规定时间内的来自所述计算机的输出数据量,预先从所述第一存储介质向所述第二存储介质传输数据,以便与该输出数据量匹配地确保所述第一存储介质的空闲容量;
其中,所述系统管理装置,将所述第一存储介质内的通过预定方法选择的数据向第二存储介质传输,由此确保所述第一存储介质的空闲容量;
其中,根据所述计算作业执行调度、作业的输入文件信息、作业的输出文件信息和文件位置信息,来生成升级调度和降级调度,其中所述升级调度是指数据从所述第二存储介质向所述第一存储介质的转移,而所述降级调度是指数据从所述第一存储介质向所述第二存储介质的转移。
2.根据权利要求1所述的计算机系统,其特征在于,
所述系统管理装置,为了将所述第二存储介质内的通过预定方法选择的数据向所述第一存储介质传输,对传输的数据的候补进行收集,使用与数据量或传输速度关联的优先顺序从该候补中选择出数据。
3.根据权利要求1所述的计算机系统,其特征在于,
所述系统管理装置,为了将所述第一存储介质内的通过预定方法选择的数据向第二存储介质传输,对传输的数据的候补进行收集,使用与数据量或传输速度关联的优先顺序从该候补中选择出数据。
4.根据权利要求1所述的计算机系统,其特征在于,
所述系统管理装置,预先掌握所述计算机和所述第一存储介质间的传输速度、以及所述第一存储介质和所述第二存储介质间的传输速度,根据这些传输速度来计划所述数据转移。
5.根据权利要求4所述的计算机系统,其特征在于,
所述系统管理装置,关于所述分级存储装置中保存的数据,掌握保存目的地是所述第一存储介质和所述第二存储介质中的哪一个。
6.根据权利要求1所述的计算机系统,其特征在于,
所述系统管理装置,根据所述计算作业执行调度,预测决定从所述计算机向所述分级存储装置的数据的读入调度以及写入调度。
7.根据权利要求6所述的计算机系统,其特征在于,
所述系统管理装置,根据从所述计算机向所述分级存储装置的数据的写入调度,预测所述第一存储介质在当前以后的各时间的使用量。
8.根据权利要求6所述的计算机系统,其特征在于,
所述系统管理装置,将规定时间内未进入所述读入调度的数据,从所述第一存储介质向所述第二存储介质传输。
9.根据权利要求6所述的计算机系统,其特征在于,
所述系统管理装置,将规定时间内进入所述读入调度的数据,从所述第二存储介质向所述第一存储介质传输。
10.根据权利要求1所述的计算机系统,其特征在于,
所述系统管理装置,在所述计算机对所述分级存储装置进行访问的期间,为不使其访问带宽减少而不进行所述分级存储装置间的数据传输,为此中断或不预先计划该传输处理。
11.根据权利要求7所述的计算机系统,其特征在于,
所述系统管理装置计算当前以后的规定时间内的来自所述计算机的输出数据量,根据该输出数据量和所述预测的第一存储介质的当前以后的使用量,预先从所述第一存储介质向所述第二存储介质传输数据,以便确保所述第一存储介质的空闲容量。
12.一种计算机系统的控制方法,该计算机系统具备多个计算机、与所述多个计算机连接的分级存储装置、以及与所述多个计算机和分级存储装置连接的系统管理装置,所述计算机系统的控制方法的特征在于,
所述分级存储装置由第一存储介质、传输速度比所述第一存储介质慢的第二存储介质构成,
所述系统管理装置生成或者从所述计算机系统内的其它装置取得所述多个计算机的计算作业执行调度,通过预定的方法,根据所述计算作业执行调度来计划分级存储装置间的数据转移,根据该计划对所述分级存储装置发出数据转移的指令,
其中,所述系统管理装置,将所述第二存储介质内的通过预定方法选择的数据向所述第一存储介质传输,由此先由所述第一存储介质保存文件,之后由所述计算机读取在所述第一存储介质中保存的该文件;
其中,所述系统管理装置,计算当前以后的规定时间内的来自所述计算机的输出数据量,预先从所述第一存储介质向所述第二存储介质传输数据,以便与该输出数据量匹配地确保所述第一存储介质的空闲容量;
其中,所述系统管理装置,将所述第一存储介质内的通过预定方法选择的数据向第二存储介质传输,由此确保所述第一存储介质的空闲容量;
其中,根据所述计算作业执行调度、作业的输入文件信息、作业的输出文件信息和文件位置信息,来生成升级调度和降级调度,其中所述升级调度是指数据从所述第二存储介质向所述第一存储介质的转移,而所述降级调度是指数据从所述第一存储介质向所述第二存储介质的转移。
13.根据权利要求12所述的计算机系统的控制方法,其特征在于,
所述系统管理装置,在所述计算机对所述分级存储装置进行访问的期间,为不使其访问带宽减少而不进行所述分级存储装置间的数据传输,为此中断或不预先计划该传输处理。
14.一种计算机系统中的系统管理装置,该计算机系统具备多个计算机、与所述多个计算机连接并由第一存储介质和传输速度比所述第一存储介质慢的第二存储介质构成的分级存储装置、以及与所述多个计算机和分级存储装置连接的系统管理装置,该系统管理装置的特征在于,
生成或者从所述计算机系统内的其它装置取得所述多个计算机的计算作业执行调度,通过预定的方法,根据所述计算作业执行调度来计划分级存储装置间的数据转移,根据该计划对所述分级存储装置发出数据转移的指令,
其中,所述系统管理装置,将所述第二存储介质内的通过预定方法选择的数据向所述第一存储介质传输,由此先由所述第一存储介质保存文件,之后由所述计算机读取在所述第一存储介质中保存的该文件;
其中,所述系统管理装置,计算当前以后的规定时间内的来自所述计算机的输出数据量,预先从所述第一存储介质向所述第二存储介质传输数据,以便与该输出数据量匹配地确保所述第一存储介质的空闲容量;
其中,所述系统管理装置,将所述第一存储介质内的通过预定方法选择的数据向第二存储介质传输,由此确保所述第一存储介质的空闲容量;
其中,根据所述计算作业执行调度、作业的输入文件信息、作业的输出文件信息和文件位置信息,来生成升级调度和降级调度,其中所述升级调度是指数据从所述第二存储介质向所述第一存储介质的转移,而所述降级调度是指数据从所述第一存储介质向所述第二存储介质的转移。
CN2008100809307A 2007-05-24 2008-02-29 计算机系统、其控制方法以及系统管理装置 Expired - Fee Related CN101311912B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007137450 2007-05-24
JP2007137450A JP5081498B2 (ja) 2007-05-24 2007-05-24 計算機システム、および、その制御方法
JP2007-137450 2007-05-24

Publications (2)

Publication Number Publication Date
CN101311912A CN101311912A (zh) 2008-11-26
CN101311912B true CN101311912B (zh) 2012-10-03

Family

ID=39315794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100809307A Expired - Fee Related CN101311912B (zh) 2007-05-24 2008-02-29 计算机系统、其控制方法以及系统管理装置

Country Status (5)

Country Link
US (1) US8762995B2 (zh)
JP (1) JP5081498B2 (zh)
CN (1) CN101311912B (zh)
DE (1) DE102008011708A1 (zh)
GB (1) GB2449515B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5246872B2 (ja) * 2009-03-27 2013-07-24 国立大学法人東北大学 ストレージシステムおよびストレージ管理方法
JP5427533B2 (ja) * 2009-09-30 2014-02-26 株式会社日立製作所 階層ストレージ管理システムにおける重複ファイルの転送方法及びシステム
US8131681B1 (en) * 2010-01-21 2012-03-06 Netapp, Inc. Backup disk-tape integration method and system
JP5415338B2 (ja) * 2010-03-31 2014-02-12 株式会社日立製作所 ストレージシステム、その負荷分散管理方法及びプログラム
TW201140315A (en) * 2010-05-11 2011-11-16 Jmicron Technology Corp Method for estimating capacity usage status of storage unit, and associated memory device and controller thereof
US8850114B2 (en) 2010-09-07 2014-09-30 Daniel L Rosenband Storage array controller for flash-based storage devices
US9003414B2 (en) 2010-10-08 2015-04-07 Hitachi, Ltd. Storage management computer and method for avoiding conflict by adjusting the task starting time and switching the order of task execution
US8381218B2 (en) * 2010-11-30 2013-02-19 Microsoft Corporation Managing groups of computing entities
CN103200208A (zh) * 2012-01-06 2013-07-10 湖南智源信息网络技术开发有限公司 一种基于频率的分发数据请求方法及装置
JPWO2013146537A1 (ja) * 2012-03-26 2015-12-14 日本電気株式会社 ストレージシステム及びこれの制御方法
US20150301743A1 (en) * 2012-09-24 2015-10-22 Hitachi, Ltd. Computer and method for controlling allocation of data in storage apparatus hierarchical pool
US10182110B2 (en) * 2013-12-13 2019-01-15 Hitachi, Ltd. Transfer format for storage system, and transfer method
JP6303584B2 (ja) * 2014-02-21 2018-04-04 日本電気株式会社 データ処理装置、計算機システム、データ処理方法およびデータ処理プログラム
WO2016001959A1 (ja) * 2014-06-30 2016-01-07 株式会社日立製作所 ストレージシステム
US9513835B2 (en) * 2015-01-09 2016-12-06 International Business Machines Corporation Impact-based migration scheduling from a first tier at a source to a second tier at a destination
CN109189323B (zh) * 2018-07-06 2019-12-17 华为技术有限公司 扩容方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1237452C (zh) * 2002-10-08 2006-01-18 凌阳科技股份有限公司 可暂存及移转指令与资料的存取结构及方法
CN1801923A (zh) * 2005-01-05 2006-07-12 中央电视台 分级存储管理系统
CN1804777A (zh) * 2005-01-13 2006-07-19 国际商业机器公司 管理层次存储系统中的数据的方法和系统

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2877973B2 (ja) * 1991-02-21 1999-04-05 日本電気株式会社 ファイルリコール制御方式
US5506986A (en) * 1992-07-14 1996-04-09 Electronic Data Systems Corporation Media management system using historical data to access data sets from a plurality of data storage devices
JP3185954B2 (ja) * 1993-03-19 2001-07-11 日立ソフトウエアエンジニアリング株式会社 ファイルのアーカイブ・リコール方法
US5659743A (en) * 1994-12-05 1997-08-19 Legent Corporation Method and apparatus for a pattern based spaced management system
JP3816552B2 (ja) * 1995-03-31 2006-08-30 オリンパス株式会社 画像ファイル装置
JPH0944381A (ja) 1995-07-31 1997-02-14 Toshiba Corp データ格納方法およびデータ格納装置
US5745756A (en) * 1996-06-24 1998-04-28 International Business Machines Corporation Method and system for managing movement of large multi-media data files from an archival storage to an active storage within a multi-media server computer system
WO2000004483A2 (en) * 1998-07-15 2000-01-27 Imation Corp. Hierarchical data storage management
US6269382B1 (en) * 1998-08-31 2001-07-31 Microsoft Corporation Systems and methods for migration and recall of data from local and remote storage
JP2001022614A (ja) 1999-07-08 2001-01-26 Hitachi Ltd 階層形記憶システム
JP2001306366A (ja) * 2000-04-21 2001-11-02 Ricoh Co Ltd データ管理装置
US6434682B1 (en) * 2000-09-28 2002-08-13 International Business Machines Corporation Data management system with shortcut migration via efficient automatic reconnection to previously migrated copy
ATE361500T1 (de) * 2000-12-15 2007-05-15 Ibm Methode und system für skalierbare, hochperformante hierarchische speicherverwaltung
US6961727B2 (en) * 2001-03-15 2005-11-01 International Business Machines Corporation Method of automatically generating and disbanding data mirrors according to workload conditions
US7167965B2 (en) * 2001-04-30 2007-01-23 Hewlett-Packard Development Company, L.P. Method and system for online data migration on storage systems with performance guarantees
US20040039891A1 (en) * 2001-08-31 2004-02-26 Arkivio, Inc. Optimizing storage capacity utilization based upon data storage costs
US7092977B2 (en) * 2001-08-31 2006-08-15 Arkivio, Inc. Techniques for storing data based upon storage policies
JP2003216460A (ja) 2002-01-21 2003-07-31 Hitachi Ltd 階層ストレージ装置及びその制御装置
US7290168B1 (en) * 2003-02-28 2007-10-30 Sun Microsystems, Inc. Systems and methods for providing a multi-path network switch system
US20050026802A1 (en) 2003-08-01 2005-02-03 Andrew Kilkenny Disinfectant glass wipe
US7225211B1 (en) * 2003-12-31 2007-05-29 Veritas Operating Corporation Multi-class storage mechanism
WO2005081942A2 (en) * 2004-02-20 2005-09-09 George Sullivan Hierarchical storage management
US7441096B2 (en) * 2004-07-07 2008-10-21 Hitachi, Ltd. Hierarchical storage management system
US7131027B2 (en) * 2004-07-09 2006-10-31 Hitachi, Ltd. Method and apparatus for disk array based I/O routing and multi-layered external storage linkage
US20060101084A1 (en) * 2004-10-25 2006-05-11 International Business Machines Corporation Policy based data migration in a hierarchical data storage system
US20060129771A1 (en) * 2004-12-14 2006-06-15 International Business Machines Corporation Managing data migration
US8315993B2 (en) * 2005-05-13 2012-11-20 International Business Machines Corporation Policy decision stash for storage lifecycle management
WO2006131978A1 (ja) 2005-06-10 2006-12-14 Fujitsu Limited Hsm制御プログラム、装置及び方法
GB0514529D0 (en) 2005-07-15 2005-08-24 Ibm Virtualisation engine and method, system, and computer program product for managing the storage of data
US8341345B2 (en) * 2005-08-08 2012-12-25 International Business Machines Corporation System and method for providing content based anticipative storage management
JP4420351B2 (ja) * 2005-09-30 2010-02-24 富士通株式会社 階層ストレージシステム、制御方法及びプログラム
US8661216B2 (en) * 2005-12-19 2014-02-25 Commvault Systems, Inc. Systems and methods for migrating components in a hierarchical storage network
US7693884B2 (en) * 2006-01-02 2010-04-06 International Business Machines Corporation Managing storage systems based on policy-specific proability
US8838620B2 (en) * 2006-02-03 2014-09-16 International Business Machines Corporation Predictive data object retrieval
US7930265B2 (en) * 2007-01-08 2011-04-19 International Business Machines Corporation Method for threshold migration based on fuzzy logic triggers
US7552152B2 (en) * 2007-03-05 2009-06-23 International Business Machines Corporation Risk-modulated proactive data migration for maximizing utility in storage systems
JP4375435B2 (ja) 2007-05-23 2009-12-02 株式会社日立製作所 予知型データ移行を行う階層ストレージシステム
JP2010257094A (ja) * 2009-04-23 2010-11-11 Hitachi Ltd 階層ストレージ管理システムにおける移動候補ファイルの抽出方法
US20110145525A1 (en) * 2009-12-14 2011-06-16 International Business Machines Corporation Method and System for Storing and Operating on Advanced Historical Access Data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1237452C (zh) * 2002-10-08 2006-01-18 凌阳科技股份有限公司 可暂存及移转指令与资料的存取结构及方法
CN1801923A (zh) * 2005-01-05 2006-07-12 中央电视台 分级存储管理系统
CN1804777A (zh) * 2005-01-13 2006-07-19 国际商业机器公司 管理层次存储系统中的数据的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2002-99450A 2002.04.05
同上.

Also Published As

Publication number Publication date
JP2008293233A (ja) 2008-12-04
US8762995B2 (en) 2014-06-24
CN101311912A (zh) 2008-11-26
GB2449515B (en) 2011-03-09
GB0803851D0 (en) 2008-04-09
DE102008011708A1 (de) 2008-11-27
GB2449515A (en) 2008-11-26
JP5081498B2 (ja) 2012-11-28
US20080295102A1 (en) 2008-11-27

Similar Documents

Publication Publication Date Title
CN101311912B (zh) 计算机系统、其控制方法以及系统管理装置
CN102640120B (zh) 计算增设/减设的存储容量的管理系统
US8271991B2 (en) Method of analyzing performance in a storage system
US9785381B2 (en) Computer system and control method for the same
US9658779B2 (en) Computer system and control method for computer system
CN102156738B (zh) 数据块处理方法、数据块存储设备及系统
US8396917B2 (en) Storage management system, storage hierarchy management method, and management server capable of rearranging storage units at appropriate time
US8261031B2 (en) Device and method to manage migration volume selection
CN102257469B (zh) 存储系统及用于控制存储系统的方法
CN101957796B (zh) 存储系统及信息处理设备
JP6447329B2 (ja) 並列計算制御装置、並列計算システムおよびマイグレーション時間推定プログラム
US9256371B2 (en) Implementing reinforcement learning based flash control
WO2014073024A1 (en) Management computer, computer system, and instance management method
CN103095805A (zh) 一种对数据进行智能分层管理的云存储系统
US20050216659A1 (en) Storage capable of cache assignment modification
US10209898B2 (en) Estimation of performance utilization of a storage device
US20140052942A1 (en) Method for controlling storages and storage control apparatus
CN103631633A (zh) 虚拟机全系统在线迁移方法、装置与系统
JP2007241593A (ja) 記憶領域の割当ての最適化方法及びそれを実現するための管理計算機
US9983806B2 (en) Storage controlling apparatus, information processing apparatus, and computer-readable recording medium having stored therein storage controlling program
US20120101973A1 (en) Storage system and its operation method
CN103946790A (zh) 基于读和写响应时间要求的降级速率的调整
CN103080903A (zh) 调度器、多核处理器系统以及调度方法
CN102340533A (zh) 多租户系统及多租户系统存取数据的方法
CN104798063A (zh) 存储设备和主机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121003

Termination date: 20180229