CN102770845B - 档案管理调度的优化 - Google Patents

档案管理调度的优化 Download PDF

Info

Publication number
CN102770845B
CN102770845B CN201080054857.1A CN201080054857A CN102770845B CN 102770845 B CN102770845 B CN 102770845B CN 201080054857 A CN201080054857 A CN 201080054857A CN 102770845 B CN102770845 B CN 102770845B
Authority
CN
China
Prior art keywords
edge
level
summit
task
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080054857.1A
Other languages
English (en)
Other versions
CN102770845A (zh
Inventor
S.M.厄特塔钱达尼
B.乔
周嫔
S.S.默西
K.查维达
M.伊克巴尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qindarui Co.
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102770845A publication Critical patent/CN102770845A/zh
Application granted granted Critical
Publication of CN102770845B publication Critical patent/CN102770845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用于连续地优化数据档案(archive)管理调度的系统及关联方法。作业调度器从档案管理系统接收任务信息、复本放置(replica placement)数据、基础结构(infrastructure)拓扑数据及资源性能数据的输入。该作业调度器根据所述已接收输入来模型化流程网络,该流程网络以各种顶点(vertices)层级来表示该档案管理系统的数据内容、软件程序、物理设备(devices)及通信容量。将该经模型化流程网络中的最佳路径计算为初始调度,且该档案管理系统根据该初始调度来执行任务。监视已调度任务的操作,且该作业调度器基于所述受监视操作的反馈及预定义启发式策略(heuristics)而产生新调度。

Description

档案管理调度的优化
技术领域
本发明涉及一种用于连续优化数据档案管理调度的系统及关联方法。
背景技术
传统任务优化方法使用基于软件/数据内容或硬件资源的管理语义。诸如数据中心的企业计算环境归因于服务性能要求、巨量数据及可用于维护的有限时间而需要管理任务的连续且动态的优化。
企业的数据占用空间(foot-print)正在增长。大多数企业将存档和数据恢复视为分离的任务——前者是以内容为主的,其的目的是保留或许对于未来参考、商业洞察或者在审计期间对于规章遵循而潜在有用的数据。例如,大型保险公司日益使用经存档的数据用于商业洞察,并使用其作为优于较小的公司的有竞争力的商业优势。另一方面,数据恢复旨在确保在诸如病毒和蠕虫攻击、人为误配置、硬件故障、如洪水、飓风的自然灾害的故障事件中具有最小系统停机事件的数据可用性。存在一些支持从便宜的基于磁带的备份变化到数据到远端侧的近实时复制的数据恢复的技术。企业选择最好地满足他们的预算以及RPO(恢复点目标)、RTO(恢复时间目标)等的数据恢复配置选项。
在典型企业中,IT系统在日间是可操作的,并且在夜间被轻松地加载。存在一些在此轻松加载的时段期间被调度的档案:1)更新新产生数据的索引,其中索引基于剖析搜索关键词等的内容;2)阶层式存储管理(HSM),其中将非作用中数据移动至低成本存储层;3)基于企业所使用的数据恢复技术而变化的备份操作。
随着用于存档、备份和其它活动的增长的占用空间大小和缩小的每日时间窗,变得越来越难以以及时的方式完成这些任务。另外,客户将愿意运行诸如商业智能(Business Intelligence)的任务来挖掘数据,这将需要甚至更大的时间窗。本发明旨在解决这些问题。
发明内容
在权利要求书中定义了本发明的各个方面,现在将对其进行参考。
根据本发明的一个实施例,一种用于连续优化数据档案管理调度的方法包含:作业调度器从档案管理系统接收输入,其中所述输入包含任务信息、复本放置数据、基础结构拓扑数据及资源性能数据;从所接收的输入来模型化流程网络,使得该流程网络表示该档案管理系统的数据内容、软件程序、物理设备及通信容量,且使得从至少一个档案管理任务的任务至该档案管理系统的工作机程序的该流程网络的最佳路径表示用以执行该任务的该工作机程序的最佳初始调度;计算机系统的处理器从该流程网络中的该最佳路径来计算该最佳初始调度;将所计算的最佳初始调度传送至该档案管理系统以执行该最佳初始调度;从该档案管理系统接收所传送的最佳初始调度的操作的监视结果;由于基于所接收的监视结果动态调整该最佳初始调度而建立经调整调度;及将该经调整调度传送至该档案管理系统以执行该经调整调度,使得该档案管理系统产生所传送的经调整调度的操作的新监视结果。
本发明的优选实施例使得能够基于整合的内容-资源管理而连续优化任务。其使得能够将资源管理分析与内容分析将组合,以便优化数据中心的IT资源的使用并使得增值应用程序能够在数据上操作。
根据本发明的一个实施例,一种计算机程序产品包含体现计算机可读程序代码的计算机可读存储单元。该计算机可读程序代码含有在通过计算机系统的处理器运行时实施一种用于连续优化数据档案管理调度的方法的指令。
根据本发明的一个实施例,一种计算机系统包含处理器及耦接至该处理器的计算机可读存储单元,其中该计算机可读存储单元含有在通过该处理器运行时实施一种用于连续优化数据档案管理调度的方法的指令。
根据本发明的一个实施例,一种用于支持计算机基础结构的过程,该过程包含提供用于在计算系统中对计算机可读程序代码进行建立、整合、主控、维护及部署中的至少一项的至少一个支持服务,其中该代码结合该计算系统能够执行一种用于连续优化数据档案管理调度的方法。
附图说明
图1A说明根据本发明的实施例的用于连续优化数据档案管理调度的档案管理系统10。
图1B说明根据本发明的实施例的通过图1A的档案管理系统的作业调度器建立的内容-资源分析模型的流程网络110E实施例。
图2是描绘根据本发明的实施例的用于连续优化数据档案管理调度的方法的流程图,该方法通过图1A的档案管理系统执行。
图3是描绘根据本发明的实施例的用于建立经优化数据档案管理调度的方法的流程图,该方法通过档案管理系统的作业调度器执行。
图4是描绘根据本发明的实施例的用于建立流程网络以作为内容-资源分析模型的实施例的方法的流程图,该方法通过作业调度器在图3的步骤210中执行。
图5说明根据本发明的实施例的用于连续优化数据档案管理调度的计算机系统90。
具体实施方式
图1A说明根据本发明的实施例的用于连续优化数据档案管理调度的档案管理系统10。
档案管理系统10包含数据档案50、档案管理任务60、作业调度器输入70、及作业调度器100。档案管理系统10用在企业中,该企业利用数据档案50以将数据/计算服务提供至该企业的用户。企业的示例可尤其为数据中心,等等。数据/计算服务的示例可尤其为数据存档及布建、数据备份、针对商业智能(BI)的数据挖掘,等等。在本说明书中,术语“内容”指示档案管理系统10的软件/数据组件。在管理语义上,内容管理主要是关于在数据档案50中大量数据的保留及利用。
在本说明书中,术语“资源”指示档案管理系统10的物理设备/硬件。在管理语义上,资源管理的主要目的是通过使资源保持容错来最大化服务的可用性。依据诸如恢复点目标(RPO)、恢复时间目标(RTO)等等的服务要求而将传统灾害恢复(DR)技术用于各种资源配置。资源的示例可尤其为服务器、存储设备、支持网络带宽的通信设备,等等。用在档案管理系统10中的服务器是支持复杂虚拟化、管理及可靠性服务的企业级服务器。服务器的一个示例可尤其为ESX/ESXi服务器-基础结构,等等(VMware是在美国的VMware公司的注册商标)。用在档案管理系统10中的存储设备是存储数据内容、虚拟化核心及相关文件的永续性存储设备。
企业的数据/计算服务需要对于用户所需要的实际数据/计算服务必须额外执行的外延量的维护活动。因为数据/计算服务必须满足在用户与企业之间的服务协议中所阐述的特定性能要求等级,所以通常在来自用户的较低服务需求的时期期间执行维护活动。然而,因为还要求企业使服务可用于用户达延长量的时间,所以设定专属于维护活动而不向用户提供服务的时间窗是不切实际的。在有限量的时间内针对数据档案50中的日益增长的数据量执行必要的维护活动对于档案管理系统10是势在必行的。
数据档案50存储用于数据/计算服务的软件应用程序及数据内容。
档案管理任务60是执行通过作业调度器100调度的档案管理/维护活动的过程。档案管理/维护活动的示例可尤其为布建、灾害恢复(DR)维护、服务要求遵循、用于各种DR技术的备份操作、更新需要内容剖析及关键词查找的新产生的数据内容的索引、将非作用中数据移动至低成本存储层的阶层式存储管理(HSM),等等。
作业调度器输入70包含任务信息、复本放置数据、基础结构拓扑数据及资源性能数据。
任务信息包含至执行任务所必要的对象的相应存取路径、待对对象执行的相应操作、及可用于任务调度的系统属性(诸如,对象大小)。任务利用主要数据的可用存储器-服务器-网络资源以及针对灾害恢复所建立的复本来执行尤其为以下各者的功能:内容存档、编索引、针对商业智能(BI)目的的数据挖掘。所有任务都需要相对均一量的资源。
复本放置数据包含在数据档案50内主要数据的复本的地址,已经为了灾害恢复的目的而建立了所述复本。
基础结构拓扑数据表示服务器如何连接至数据档案50内的存储设备磁盘区(storage device volume),其是通过数据档案50的元素的在服务器与存储设备磁盘区之间的路径。基础结构拓扑数据通过收集及维护管理数据的数据档案50的一部分来收集。基础结构拓扑数据以五元组<Hostname,Initiator PortWWN,Fabric WWN,Target Port WWN,Volume>来表示,其中Hostname是服务器的第一识别符,其中Initiator Port WWN是初始端口的第二识别符,其中Fabric WWN是网络光纤的第三识别符,其中Target Port WWN为目标端口的第四识别符,并且其中Volume是存储设备磁盘区的第五识别符。全球名称(WWN)或全球识别符(WWID)是光纤信道或串行附接小型计算机系统接口(SCSI)存储网络中的唯一识别符。每个WWN为八(8)字节数,其组合得自电子电机工程师协会(IEEE)组织唯一识别符(OUI)的前三(3)个字节、与得自厂商供应的信息的后五(5)个字节。WWN被建置到类似于以太网络媒体存取控制(MAC)地址的设备中。如在电信领域中所使用的,网络光纤指示网络节点经由一个或多个网络交换器而彼此连接的网络拓扑。
资源性能数据包含资源的性能度量,诸如,时钟速度、每秒的任务、每秒的字节,等等。关于存储设备与服务器之间的相对性能的资源性能数据的准确度(而非各个性能数据的绝对准确度)影响最佳调度解决方案150的准确度。
作业调度器100从作业调度器输入70建立内容-资源分析模型110,并且利用内容-资源分析模型110来动态且连续地产生最佳调度解决方案150。关于通过作业调度器100执行的步骤的细节,见以下图3的描述。在本说明书中,可互换地使用术语“调度解决方案”、“调度”及“作业调度”。
内容-资源分析模型110是在作业调度器100内档案管理系统10的分析模型。内容-资源分析模型110使作业调度器100能够连续优化档案管理任务60的操作并产生包含初始调度及至少一个经动态调整的调度的最佳调度解决方案150。
在传统的系统分析模型化中,分离地模型化及管理资源和内容。传统资源管理语义集中在系统的设备上,其利用设备的历史性能统计且依据总工作负载来预测设备饱和度。传统的内容管理语义集中在软件应用程序及相关数据上以简化用于档案管理任务60的决策过程。
与传统的系统分析模型化形成对比,本发明的方法将资源与内容两者整合在内容-资源分析模型110中,以使能够进行灾害恢复及数据保护并优化资源利用及以内容为主的档案管理任务60两者。本发明的方法利用在目前复本当中的现有数据冗余及存储路径,而非如同在传统的数据密集型作业调度中一样建立新复本。在本发明的一个实施例中,本发明的方法操纵系统参数以针对总性能增益而贯穿档案管理系统10来动态优化档案管理任务60。在本发明的另一个实施例中,本发明的方法将应用程序特定的参数用于已选择的维护任务,所述任务的性能对于档案管理系统10的总性能是关键的。
本发明的方法用以:并行化用于存档、遵循、商业智能查询的数据操作及计算;探索应用程序内容信息并且使其与区块级快照及镜像细节相关;通过使主要数据可用于其它传统簿记操作来限制主要数据上的存档工作负载;以及充分利用驻留在本地位点及远程位点两者中的复本。
图1B说明根据本发明的实施例的通过以上图1A的档案管理系统的作业调度器建立的内容-资源分析模型的流程网络110E实施例。
流程网络110E包含指示各个顶点群组的八(8)个层级。流程网络110E进一步包含从LEVEL_k至LEVEL_k+1的有向边缘,其中k=0..6。
源层级LEVEL_0 L0包含流程网络110E的源顶点。第一层级LEVEL_1 L1包含表示个别任务或任务集合的至少一个任务顶点。L1中的每个任务顶点具有从源顶点起的相应传入边缘。
从LEVEL_0中的源顶点至LEVEL_1中的任务顶点V11的第一边缘E01具有时间容量(t),其指示执行与任务顶点V11相关联的任务所需要的时间单位。在本发明的一个实施例中,对于LEVEL_1中的所有任务,将时间容量(t)均一地指派为1。在本发明的另一实施例中,将时间容量(t)指派为与LEVEL_1中的每个任务相关联的相应处理时间,以反映处理各个任务所需要的变化时间。
第二层级LEVEL_2 L2包含表示存储设备的相应磁盘区的至少一个磁盘区顶点。第三层级LEVEL_3 L3包含该至少一个磁盘区顶点。磁盘区通过一对磁盘区顶点(LEVEL_2中的V21及LEVEL_3中的V31)来表示。
从LEVEL_1中的任务顶点V11至第一磁盘区顶点V21的第二边缘E12指示:磁盘区存储执行通过任务顶点V11表示的任务所必要的文件的最新副本。第二边缘E12具有为一(1)的容量,其指示通过任务顶点V11表示的任务的磁盘区使用率单位。
从第一磁盘区顶点V21至第二磁盘区顶点V31的第三边缘E23具有磁盘区吞吐量容量(volume throughput capacity),其指示通过该对顶点V21及V31表示的磁盘区可支持的任务的数目。
第四层级LEVEL_4 L4包含表示相应服务器的至少一个服务器顶点。第五层级LEVEL_5 L5包含该至少一个服务器顶点。服务器通过一对服务器顶点(LEVEL_4中的V41及LEVEL_5中的V51)来表示。
从第二磁盘区顶点V31至第一服务器顶点V41的第四边缘E34指示:V21及V31的磁盘区经由通信信道而物理地连接至V41及V51的服务器。第四边缘E34具有通信容量,其指示V21及V31的磁盘区与V41及V51的服务器之间的通信信道的吞吐量。通信信道可以是光纤、网络及其组合。第四边缘E34也具有V21及V31的磁盘区与V41及V51的服务器之间的通信信道的路径信息,以使能够提示存储局域网络(SAN)路径建构。
从第一服务器顶点V41至第二服务器顶点V51的第五边缘E45具有指示V41及V51的服务器的计算吞吐量的服务器吞吐量容量,其包含可用处理循环及存储器。
第六层级LEVEL_6 L6包含至少一个工作机(worker)顶点,该至少一个工作机顶点包含表示工作机及/或软件应用程序的工作机顶点V61。
从第二服务器顶点V51至工作机顶点V61的第六边缘E56指示:V41及V51的服务器主控通过工作机顶点61表示的工作机。第六边缘E56具有主控容量,其指示在V41及V51的服务器上运行的工作机的数目。
宿(sink)层级LEVEL_7 L7包含流程网络110E的宿顶点。第六层级LEVEL_6中的每个工作机顶点具有类似于第七边缘E67的至宿顶点的传出边缘。从工作机顶点V61至宿顶点的第七边缘E67具有无限容量。
关于建立依据定义的流程网络的步骤,见以下图4的描述。
图2是描绘根据本发明的实施例的用于连续优化数据档案管理调度的方法的流程图,该方法通过以上图1A的档案管理系统执行。
在步骤11中,档案管理系统收集调度所必要的信息,并将已收集信息作为作业调度器输入而提供至作业调度器。在本说明书中,可互换地使用术语“作业调度器输入”与“输入”。输入描述档案管理系统的应用程序及数据(被通称为内容)以及计算及通信资源。输入包含任务信息、复本放置数据、基础结构拓扑数据、以及资源性能数据。关于基础结构拓扑数据的细节,见以上图1A的描述。
关于通过作业调度器响应于图2的步骤11而执行的操作,见以下图3的步骤205至220的描述。在执行步骤11之后,档案管理系统继续进行步骤12。
在本发明的一个实施例中,档案管理系统是文档分析及辨识(DARE)系统。复本放置数据通过灾害恢复(DR)Orchestrator来收集,并且从生产力中心(TPC)数据库撷取基础结构拓扑数据。DR Orchestrator及TPC数据库是IBM文档分析及辨识(DARE)系统的数据档案的组件。(IBM及TotalStorage是在美国的国际商业机器(International Business Machines)公司的注册商标)。
在步骤12中,档案管理系统响应于以下图3的步骤220,从作业调度器接收初始调度。接着,档案管理系统继续进行步骤13。
对于档案管理系统从作业调度器接收的每个调度,执行包含步骤13至步骤17的档案管理系统的循环。
在步骤13中,档案管理系统建立至少一个实际存储局域网络(SAN)路径,以在用户接口与资源之间建立数据及控制路径。档案管理系统从通过作业调度器在以下图3的步骤210中建立的流程网络的路径建立该至少一个SAN路径,其指示资源的物理连接性。接着,档案管理系统继续进行步骤14。
在本发明的一个实施例中,建立从IBM文档分析及辨识(DARE)系统的服务器-存储器-网络资源至IBM TotalStorage生产力中心(TPC)Web应用程序设计界面(API)的SAN路径。在同一实施例中,利用分区(zoning)及屏蔽(masking)将以上图1B的流程网络中从LEVEL_2至LEVEL_6的路径转换为磁盘区-服务器-工作机SAN路径。经由TPC Web API所提供的用户输入包含分区参数<Initiator Port WWN,Fabric WWN,Target Port WWN>及屏蔽参数<InitiatorPort WWN,Target Port WWN,Volume>。
在步骤14中,档案管理系统部署虚拟机器以执行已接收调度。已接收调度在循环的第一次迭代中是在步骤12中所接收的初始调度,并且在循环的后续迭代中是在步骤17中所接收的经调整调度。将已接收调度中的每个档案管理任务指派至相应虚拟机器以供操作。在本发明的一个实施例中,IBM文档分析及辨识(DARE)系统通过将编索引虚拟机器部署至VMware控制来虚拟化已接收调度。档案管理系统继续进行步骤15。
在步骤15中,档案管理系统启动已接收调度以执行档案管理任务。接着,档案管理系统继续进行步骤16。
在步骤16中,档案管理系统监视档案管理任务的操作,同时根据已接收调度来执行档案管理任务。档案管理系统将监视结果提供至作业调度器。关于通过作业调度器响应于图2的步骤16执行的操作,见以下图3的步骤225至235的描述。在执行步骤16之后,档案管理系统继续进行步骤17。
在步骤17中,档案管理系统响应于以下图3的步骤235,从作业调度器接收经动态调整调度。接着,档案管理系统返回至步骤13以处理经调整调度。
图3是描绘根据本发明的实施例的用于建立经优化数据档案管理调度的方法的流程图,该方法通过档案管理系统的作业调度器执行。
在步骤205中,作业调度器响应于以上图2的步骤11,从档案管理系统的信息收集组件接收调度信息作为输入,所述输入包含任务信息、复本放置数据、基础结构拓扑数据及资源性能数据。基础结构拓扑数据是至少一个五元组<Hostname,Initiator Port WWN,Fabric WWN,Target Port WWN,Volume>,其表示在服务器Hostname与存储设备Volume之间的相应可能路径。资源性能数据包含服务器时钟速度、存储设备时钟速度、以及在服务器与存储设备之间的数据传送速率。接着,作业调度器继续进行步骤210。
在本发明的一个实施例中,当包含待调度至档案管理系统的任务集合的作业已准备好进行处理时,作业调度器调用web服务呼叫,其请求该任务集合的任务信息。关于任务信息的元素,见以上图1A的描述。
在步骤210中,作业调度器利用输入来建立流程网络。流程网络是以上图1A的内容-资源分析模型的实施例,其表示档案管理系统的内容及资源两者。流程网络模型化均一且不相关的并行机器。流程网络中的最佳映射在时间方面对应于最佳调度解决方案以执行档案管理任务。关于建立流程网络的步骤,见以下图4的步骤305至320。接着,作业调度器继续进行步骤215。
在本发明的一个实施例中,作业调度器使用三个基本假设。第一假设是:每个任务花费单位量的处理时间,而无关于各个任务的工作负载的特性,该处理时间可以是计算界限或数据操作界限。第一假设意谓着所有任务都具有均一吞吐量。第一假设防止以下步骤215的最大流量计算任意地分裂任务群组。第二假设是:可以将所有性能输入汇总为每单位时间的任务的静态可达成吞吐量。第三假设是:每个任务具有二进制值,其指示在已复制磁盘区处是否可处理该任务。
在步骤215中,作业调度器利用最大流量计算来计算作为流程网络中的最佳静态映射的初始调度。最佳静态映射是在流程网络内具有最小容量值的从LEVEL_1至LEVEL_6的路径。在步骤215之后,作业调度器继续进行步骤220。
步骤215包含多个子步骤。第一,作业调度器使被表示为T的时间因子乘以表示资源的吞吐量的每个边缘的相应权数,该每个边缘是Edge(LEVEL_2,LEVEL_3)、Edge(LEVEL_3,LEVEL_4)或Edge(LEVEL_4,LEVEL_5)。第二,作业调度器将相乘的每个结果取整(rounds down)为最接近的整数值,并调整该每个边缘的容量。第三,作业调度器通过该每个边缘的经调整容量而对流程网络执行一系列最大流量计算。如果由最大流量计算产生的最大流量等于被表示为N的任务总数,则可在时间T内完成所有N个任务。第四,作业调度器从流程网络的路径产生候选调度。第五,作业调度器搜寻也可以完成所有N个任务的候选调度,以寻找具有最小时间值T*的调度,其是最佳调度。
在本发明的一个实施例中,作业调度器使用Edmonds-Karp算法来计算最大流量。在同一实施例中,作业调度器使用二进制搜寻来搜寻最佳调度的候选调度。
在本发明的一个实施例中,基于可对各个任务的主要磁盘区执行所有任务,计算最佳调度的时间的上限值是任务总数乘以主要磁盘区容量,即,(N×Capacityprimary)。在本发明的另一实施例中,计算最佳调度的时间的上限是在等于任务总数乘以磁盘区容量的值当中的最大值,即,MAXk=1..N(N×Capacityvolume_k),其一般化可针对任务所选择的任何磁盘区。
作业调度器可以通过各种技术来优化步骤215。第一优化技术是任务汇总,对于任务汇总,LEVEL_1中的每个顶点表示任务集合,而非个别任务。将包含所有边缘(LEVEL_1,LEVEL_2)及边缘(LEVEL_2,LEVEL_3)的从LEVEL_1至LEVEL_3的各个边缘的容量设定为等于任务集合中任务的数目的值。LEVEL_2及LEVEL_3中的每个磁盘区具有相应时间戳,使得该每个磁盘区保持在该相应时间戳的时间之前所修改的所有文件的最新副本。在任务汇总及磁盘区时间戳的情况下,任务集合的数目等于磁盘区的数目。当通过处理时间来排序任务集合及磁盘区两者以完成每个任务集合时,存在从第i任务集合至仅第j磁盘区的映射,其中(j≤i),其中i及j是正整数。
因为任务汇总减少顶点及边缘的数目,所以作业调度器在步骤215中花费较少时间来计算最佳调度。
步骤215的第二优化是最小成本方法,其中选择具有最小数目的工作机磁盘区映射的调度作为最佳调度。在获得最小时间值T*之后,作业调度器运行最小成本最大流量算法,其中至LEVEL_2中的磁盘区顶点的每个传入边缘具有成本值。结果,作业调度器寻找满足最小时间值T*及最小数目的工作机磁盘区映射两者的最佳调度。
在步骤220中,作业调度器将初始调度提供至档案管理系统以供部署。关于响应于图3的步骤220而执行的档案管理系统的操作,见以上图2的步骤12至16的描述。接着,作业调度器继续进行步骤225。
对于作业调度器为了连续优化而建立的每个调度,执行包含步骤225至步骤235的作业调度器的循环。
在步骤225中,作业调度器接收通过当前调度执行的操作的监视结果。当前调度在循环的第一次迭代中是在步骤215中所计算的初始调度,并且在循环的后续迭代中是在步骤235中所计算的经调整调度。接着,作业调度器继续进行步骤230。
在步骤230中,作业调度器按照步骤225中所接收的监视结果而调整当前调度以优化性能。接着,作业调度器继续进行步骤235。
与基于关于档案管理系统的行为的三个基本假设而是静态且最佳的在步骤215中的初始调度形成对比,作业调度器在步骤230中利用启发式策略(heuristic)以根据当前调度的实际性能监视结果来动态地优化当前调度。基于从性能监视数据所获得的度量(诸如,任务中的文件大小,等等),作业调度器将相应容量指派至LEVEL_1中的每个任务以在执行任务所需要的资源量、任务的吞吐量等等方面反映该每个任务的个性。作业调度器将启发式策略用于优化,因为表示档案管理系统的过去行为的监视结果不足以预测档案管理系统的未来行为。
在调整初始调度的循环的第一次迭代中,作业调度器根据档案管理系统的当前条件将静态的初始调度转译为动态操作集合。作业调度器将任务群组放在中心存放库中,并在工作机具有可用资源时依需求而调度每个任务。根据预定义启发式度量来排序指派至工作机的群组中的任务,并且,一旦工作机获取必要资源以执行任务并需要新任务,随即调度具有最高启发式度量的第一任务。启发式度量的示例可尤其是任务的容量、任务的外分支度(out-degree)、总磁盘区负载、最小磁盘区负载,等等。根据包含文件长度的度量动态或静态地计算任务的容量。任务的外分支度指示可用以执行任务的磁盘区的数目。在第一任务相较于第二任务具有较大外分支度的情况下,作业调度器更可能比选择第二任务快地选择第一任务。总磁盘区负载表示可处置任务的所有磁盘区上的累计负载。总磁盘区负载与连接至流程网络中的任务的所有磁盘区的内分支度(in-degree)的总和相同。在第一任务相较于第二任务具有较小总磁盘区负载的情况下,作业调度器更可能比选择第二任务快地选择第一任务。最小磁盘区负载表示可处置任务的经最小加载磁盘区上的负载。最小磁盘区负载与连接至流程网络中的任务的所有磁盘区的最小内分支度相同。在第一任务相较于第二任务具有较小最小磁盘区负载的情况下,作业调度器更可能比选择第二任务快地选择第一任务。可以根据来自系统的反馈来动态地更新启发式度量及系统性能两者。
在步骤235中,作业调度器将来自步骤230的经调整调度提供至档案管理系统。接着,作业调度器返回至步骤225以连续且动态地优化经调整调度的性能。
图4是描绘根据本发明的实施例的用于建立流程网络以作为内容-资源分析模型的实施例的方法的流程图,该方法通过作业调度器在以上图3的步骤210中执行。
流程网络被定义为每个边缘具有容量的有向图形(directed graph),该容量限制传递通过每个边缘的流量。流程网络的顶点包含仅具有传出流量的源、以及仅具有传入流量的宿。源与宿之间的任何顶点都具有相应传入流量及传出流量。流程网络通常用以模型化道路交通系统、管路中的流体、电路中的电流、通过节点网络的数据业务行进,等等。在本发明的一个实施例中,将支持诸如Edmonds-Karp最大流量计算的计算算法的传统图形库用于流程网络模型化。传统图形库的示例可尤其是通用网络/图形(JUNG)架构、LEMON开放源图形库、以及加强图形库(BGL),等等。(Java是在美国的SunMicrosystems公司的注册商标)。
在步骤305中,作业调度器根据以上图1B的定义,按照LEVEL_1至LEVEL_6的相应顶点定义而在流程网络模型的每个层级中建立设定顶点。接着,作业调度器继续进行步骤310。
在步骤310中,作业调度器按照相应边缘定义Edge(LEVEL_k,LEVEL_k+1)来建立从LEVEL_k的顶点至LEVEL_k+l的顶点的有向边缘,其中k=1..5。接着,作业调度器继续进行步骤315。
在步骤315中,作业调度器按照Edge(LEVEL_k,LEVEL_k+1)相应的容量定义来将相应边缘的容量指派给在步骤310中所建立的所有边缘,其中k=1..5。接着,作业调度器继续进行步骤320。
在步骤320中,作业调度器在流程网络中建立从LEVEL_1中的任务至LEVEL_6中的工作机的表示作业调度的路径,以利用LEVEL_2及LEVEL_3中的磁盘区、LEVEL_4及LEVEL_5中的服务器以及LEVEL_6中的工作机来执行LEVEL_1中的任务。
图5说明根据本发明的实施例的用于连续优化数据档案管理调度的计算机系统90。
计算机系统90包含处理器91、耦接至处理器91的输入设备92、耦接至处理器91的输出设备93、以及计算机可读存储单元,所述计算机可读存储单元包含各自耦接至处理器91的存储设备94及95。输入设备92可尤其是键盘、鼠标、小键盘、触控式屏幕、语音辨识设备、传感器、网络接口卡(NIC)、基于因特网协议的语音/视频(VOIP)适配器、无线适配器、电话适配器、专用电路适配器,等等。输出设备93可尤其是打印机、绘图器、计算机屏幕、磁带、可移除式硬盘、软盘、NIC、VOIP适配器、无线适配器、电话适配器、专用电路适配器、音频及/或视觉信号产生器、发光二极管(LED),等等。存储设备94及95可尤其是高速缓存、动态随机存取存储器(DRAM)、只读存储器(ROM)、硬盘、软盘、磁带、诸如光盘(CD)或数字视频盘(DVD)的光学存储器,等等。存储设备95包括计算机代码97,计算机代码97是包含计算机可执行指令的计算机程序。计算机代码97尤其包括根据本发明的用于连续优化数据档案管理调度的算法。处理器91执行计算机代码97。存储设备94包括输入数据96。输入数据96包括计算机代码97所需要的输入。输出设备93显示来自计算机代码97的输出。存储设备94及95中的任一者或两者(或图5中未图示的一个或多个额外存储设备)可用作计算机可用存储介质(或计算机可读存储介质或程序存储设备),其具有体现于其中的计算机可读程序及/或具有存储于其中的其它数据,其中计算机可读程序包含计算机代码97。通常,计算机系统90的计算机程序产品(或者,替代地,制品)可包含该计算机可用存储介质(或该程序存储设备)。
本发明的组件中的任一者可由服务提供者部署、管理、伺服等,该服务提供者用以关于用于按照本发明的数据收集规则来动态建置web接口的过程而部署或整合计算基础结构。因此,本发明公开了一种用于支持计算机基础结构的过程,该过程包含将计算机可读代码整合、主控、维护及部署至计算系统(例如,计算系统90)中,其中该代码结合该计算系统能够执行用于连续优化数据档案管理调度的方法。
在另一实施例中,本发明提供一种商业方法,该方法在订用、广告及/或付费基础上执行本发明的过程步骤。也就是,诸如解决方案整合者的服务提供者可用以建立、维护、支持等本发明的用于连续优化数据档案管理调度的过程。在此状况下,服务提供者可建立、维护、支持等针对一个或多个客户执行本发明的过程步骤的计算机基础结构。作为回报,服务提供者可在订用及/或付费协议下从客户收取付款,以及/或者服务提供者可从向一个或多个第三方广告内容的销售收取付款。
虽然图5将计算机系统90展示为硬件与软件的特定配置,但本领域普通技术人员应知道,可出于以上结合图5的特定计算机系统90所陈述的目的而利用硬件与软件的任何配置。例如,存储设备94及95可以是单个存储设备的部分,而非分的离存储设备。
本领域技术人员应了解,本发明可体现为一种系统、方法或计算机程序产品。因而,本发明可采取完全硬件实施例、完全软件实施例(包括固体、常驻软件、微代码,等等)、或本文一般统称为“电路”、“模块”或“系统”的组合软件与硬件方面的实施例的形式。此外,本发明可采取体现在任何有形表现介质中的计算机程序产品的形式,该有形表现介质具有体现于该介质中的计算机可用程序代码。
可利用一个或多个计算机可用介质或计算机可读介质94、95的任何组合。术语“计算机可用介质或计算机可读介质”共同指代计算机可用/可读存储介质94、95。计算机可用介质或计算机可读介质94、95可以是例如(但不限于)电子、磁性、光学、电磁、红外线或半导体系统、装置或设备、或者前述各项的任何合适组合。计算机可读介质94、95的更具体示例(非详尽清单)将包括以下各项:具有一条或多条导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘-只读存储器(CD-ROM)、光学存储设备、磁性存储设备、或者前述各项的任何合适组合。应注意,计算机可用介质或计算机可读介质94、95甚至可以是打印有程序的纸张或另一合适介质,因为可经由例如对纸张或其它介质的光学扫描而以电子方式捕获该程序,接着在必要时编译、解译或以合适方式另外处理该程序,并且接着将该程序存储在计算机存储器中。在此文档的上下文中,计算机可用介质或计算机可读介质94、95可以是可含有或存储供用以通过或结合指令运行系统、装置或设备使用的程序的任何介质。
可以一种或多种程序设计语言的任何组合来编写用于执行本发明的操作的计算机代码97,该一种或多种程序设计语言包括诸如Java、Smalltalk、C++等的面向对象的程序设计语言、以及诸如“C”程序设计语言或类似程序设计语言的传统过程式程序设计语言。计算机代码97可完全在用户计算机上执行、部分地在用户计算机上执行、作为独立软件包执行、部分地在用户计算机上且部分地在远程计算机上执行、或完全在远程计算机或服务器上执行。在后一情境下,远程计算机可经由包括局域网络(LAN)或广域网络(WAN)的任何类型的网络而连接至用户计算机,或者可以对外部计算机进行连接(例如,使用因特网服务提供者而经由因特网)。
参考根据本发明的实施例的方法、装置(系统)及计算机程序产品的流程图及/或框图来描述本发明。应理解,可以通过计算机程序指令来实施流程图及/或框图的每个方框、以及流程图及/或框图的方框的组合。在本说明书中,术语“计算机程序指令”与术语“计算机代码97”是可互换的。可将这些计算机程序指令提供至通用计算机、专用计算机或其它可编程数据处理装置的处理器以产生机器,使得经由该计算机或其它可编程数据处理装置的处理器而执行的指令建立用于实施所述流程图及/或框图的方框中所指定的功能/动作的部件。
还可以将这些计算机程序指令存储在计算机可读介质94、95中,计算机可读介质94、95可以指导计算机或其它可编程数据处理装置以特定方式作用,使得存储在该计算机可读介质中的指令产生制品,其包括实施所述流程图及/或框图的方框中所指定的功能/动作的指令部件。
还可以将所述计算机程序指令加载至计算机或其它可编程数据处理装置上以使一系列操作步骤在该计算机或其它可编程装置上执行以产生计算机实施过程,使得在该计算机或其它可编程装置上执行的指令提供用于实施所述流程图及/或框图的方框中所指定的功能/动作的过程。
图中的流程图及框图说明根据本发明的各个实施例的系统、方法及计算机程序产品的可能实施的架构、功能性及操作。就此而言,流程图或框图中的每个方框可表示代码的模块、区段或部分,其包含用于实施所指定的逻辑功能的一个或多个可执行指令。还应注意,在一些替代实施中,方框中所提及的功能可能不以图中所提及的顺序发生。例如,根据所涉及的功能性,连续展示的两个方框事实上可以基本同时地执行,或者所述方框有时可以相反顺序执行。还应注意,可通过执行指定功能或动作的基于专用硬件的系统、或专用硬件与计算机指令的组合来实施框图及/或流程图的每个方框、以及框图及/或流程图中的方框的组合。
权利要求书中的所有部件或步骤加上功能元件的对应结构、材料、动作及等效物意欲包括用于结合如特定地主张的其它所主张组件元件来执行功能的任何结构、材料或动作。已经为了说明及描述的目的而给出本发明的描述,但该描述不意欲为详尽的或将本发明限于所公开形式的发明。在不脱离本发明的范畴的情况下,许多修改及变化对于本领域普通技术人员将是显而易见的。选择且描述了实施例,以便最佳地解释本发明的原理及实际应用,并使本领域其它普通技术人员能够针对具有适于所预期的特定用途的各种修改的各种实施例来理解本发明。

Claims (8)

1.一种用于连续优化数据档案管理调度的方法,所述方法包含:
作业调度器从档案管理系统接收输入,其中所述输入包含任务信息、复本放置数据、基础结构拓扑数据、以及资源性能数据;
从所接收的输入来模型化流程网络,使得该流程网络表示该档案管理系统的数据内容、软件程序、物理设备及通信容量,并且使得该流程网络的从至少一个档案管理任务的任务至该档案管理系统的工作机程序的最佳路径表示用于该工作机程序执行该任务的最佳初始调度;
计算机系统的处理器从流程网络中的最佳路径计算该最佳初始调度;
将所计算的最佳初始调度传送至档案管理系统以执行该最佳初始调度;
从该档案管理系统接收所传送的最佳初始调度的操作的监视结果;
由于基于所接收的监视结果动态地调整该最佳初始调度而建立经调整调度;以及
将该经调整调度传送至该档案管理系统以执行该经调整调度,使得该档案管理系统产生所传送的经调整调度的操作的新监视结果;
其中所述模型化该流程网络包含:
建立以八个层级组织的顶点,该八个层级包含LEVEL_0、LEVEL_1、LEVEL_2、LEVEL_3、LEVEL_4、LEVEL_5、LEVEL_6以及LEVEL_7,
其中LEVEL_0包含源顶点,
其中LEVEL_1包含与所述至少一个档案管理任务相关联的至少一个任务顶点,
其中LEVEL_2包含与执行所述至少一个档案管理任务所必要的存储设备磁盘区相关联的至少一个磁盘区顶点,
其中LEVEL_3包含LEVEL_2的所述至少一个磁盘区顶点,
其中LEVEL_4包含与执行所述至少一个档案管理任务所必要的计算服务器相关联的至少一个服务器顶点,
其中LEVEL_5包含LEVEL_4的所述至少一个服务器顶点,
其中LEVEL_6包含与执行所述至少一个档案管理任务的至少一个工作机程序相关联的至少一个工作机顶点,并且
其中LEVEL_7包含宿顶点;
建立以七个类型组织的边缘,所述类型包含EDGE_01、EDGE_12、EDGE_23、EDGE_34、EDGE_45、EDGE_56以及EDGE_67,
其中第一类型EDGE_01包含从LEVEL_0的源顶点指向LEVEL_1的第一任务顶点的第一边缘,该第一边缘指示与该第一任务顶点相关联的第一任务通过该作业调度器来调度,
其中第二类型EDGE_12包含从LEVEL_1的该第一任务顶点指向LEVEL_2的第一磁盘区顶点的第二边缘,该第二边缘指示与该第一磁盘区顶点相关联的第一存储设备磁盘区存储执行该第一任务所必要的最新数据,
其中第三类型EDGE_23包含从LEVEL_2的该第一磁盘区顶点指向LEVEL_3的该第一磁盘区顶点的第三边缘,
其中第四类型EDGE_34包含从LEVEL_3的该第一磁盘区顶点指向LEVEL_4的第一服务器顶点的第四边缘,该第四边缘指示与该第一服务器顶点相关联的第一计算服务器物理地耦接至该第一存储设备磁盘区,
其中第五类型EDGE_45包含从LEVEL_4的该第一服务器顶点指向LEVEL_5的该第一服务器顶点的第五边缘,
其中第六类型EDGE_56包含从LEVEL_5的该第一服务器顶点指向LEVEL_6的第一工作机顶点的第六边缘,该第六边缘指示与该第一服务器顶点相关联的该第一计算服务器主控与该第一工作机顶点相关联的第一工作机程序,并且
其中第七类型EDGE_67包含从LEVEL_6的该第一工作机顶点指向LEVEL_7的该宿顶点的第七边缘,该第七边缘指示该第一工作机程序完成通过该作业调度器调度的操作;
指派所建立的边缘的权数,
其中该第一类型EDGE_01的第一边缘具有等于执行该第一任务的时间单位的第一权数,
其中该第二类型EDGE_12的第二边缘具有等于该第一任务的磁盘区使用率的第二权数,
其中该第三类型EDGE_23的第三边缘具有等于该第一存储设备磁盘区的磁盘区吞吐量的第三权数,该磁盘区吞吐量指示该第一存储设备磁盘区可同时支持的任务的数目,
其中该第四类型EDGE_34的第四边缘具有等于该第一存储设备磁盘区与该第一计算服务器之间的通信信道的容量的第四权数,
其中该第五类型EDGE_45的第五边缘具有等于该第一计算服务器的处理吞吐量的第五权数,并且
其中该第六类型EDGE_56的第六边缘和该第七类型EDGE_67的第七边缘分别具有等于该档案管理系统中的极大数的无限权数;以及
遵循所建立的边缘而建立从该源顶点至该宿顶点的至少一个路径,使得所建立的至少一个路径表示通过该路径中的至少一个工作机程序、利用该路径中的至少一个存储设备磁盘区及至少一个计算服务器执行的该路径中的任务的相应作业调度,其中该最佳路径是在该路径中具有边缘的权数的最小总和的路径。
2.如权利要求1所述的方法,所述方法还包含:
从该档案管理系统的组件收集所述输入,并且将所述输入提供至该作业调度器;
响应于所述传送所计算的最佳初始调度而从该作业调度器接收所计算的最佳初始调度;
关于所接收的调度而在用户接口与元素资源之间建立实际通信路径,使得可通过该实际通信路径而传送数据及控制;
通过部署运行该工作机程序的虚拟机器并且通过随后在所部署的虚拟机器上启动所接收的调度来执行所接收的调度,以执行该任务;
通过监视所执行的调度的操作来产生所述监视结果,并且将所述监视结果提供至该作业调度器;以及
响应于所述提供该经调整调度而从该作业调度器接收该经调整调度,
其中通过该档案管理系统来执行所述收集、接收所计算的最佳初始调度、建立该实际通信路径、执行所接收的调度、产生、以及接收该经调整调度。
3.如权利要求1的方法,所述计算该最佳初始调度包含:
由于使时间因子乘以包含该第三类型EDGE_23、该第四类型EDGE_34及该第五类型EDGE_45的所有边缘的资源边缘的相应权数,并且随后将经相乘的相应权数分别取整为各个最接近的整数值,而计算所述资源边缘的相应经时间因子分解的权数;
利用所述资源边缘的相应经时间因子分解权数而对该流程网络执行一系列最大流量计算来获得至少一个最大流量;
从所获得的至少一个最大流量选择至少一个候选最大流量,其中所述至少一个候选最大流量等于该流程网络的所述至少一个最大流量中任务的总数;
使用所选择的至少一个候选最大流量来产生至少一个候选调度;以及
选择该最佳初始调度作为候选调度,该最佳初始调度在所述至少一个候选调度当中的该候选调度中具有所有权数的最小总和。
4.如任何前述权利要求所述的方法,建立该经调整调度包含:
分析所传送的调度的操作的所接收的监视结果,所接收的监视结果包含相应资源量、相应文件大小、以及所传送的调度中的相应任务吞吐量;
将来自所述分析的结果应用到预定义启发式度量,其中所述预定义启发式度量是从由以下各项组成的群组中选择的:每个任务的容量、每个任务的外分支度、总磁盘区负载、和最小磁盘区负载、以及它们的组合;以及
通过基于来自所述应用的结果动态调整所传送的调度中任务的调度顺序,来优化所传送的调度。
5.一种用于连续优化数据档案管理调度的计算机系统,包含:
用于作业调度器从档案管理系统接收输入的装置,其中所述输入包含任务信息、复本放置数据、基础结构拓扑数据、以及资源性能数据;
用于从所接收的输入来模型化流程网络,使得该流程网络表示该档案管理系统的数据内容、软件程序、物理设备及通信容量,并且使得该流程网络的从至少一个档案管理任务的任务至该档案管理系统的工作机程序的最佳路径表示用以执行该任务的该工作机程序的最佳初始调度的装置;
用于从该流程网络中的最佳路径来计算该最佳初始调度的装置;
用于将所计算的最佳初始调度传送至档案管理系统以执行该最佳初始调度的装置;
用于从该档案管理系统接收所传送的最佳初始调度的操作的监视结果的装置;
用于由于基于所接收的监视结果动态地调整该最佳初始调度而建立经调整调度的装置;以及
用于将该经调整调度传送至该档案管理系统以执行该经调整调度,使得该档案管理系统产生所传送的经调整调度的操作的新监视结果的装置;
其中所述模型化该流程网络包含:
建立以八个层级组织的顶点,该八个层级包含LEVEL_0、LEVEL_1、LEVEL_2、LEVEL_3、LEVEL_4、LEVEL_5、LEVEL_6以及LEVEL_7,
其中LEVEL_0包含源顶点,
其中LEVEL_1包含与所述至少一个档案管理任务相关联的至少一个任务顶点,
其中LEVEL_2包含与执行所述至少一个档案管理任务所必要的存储设备磁盘区相关联的至少一个磁盘区顶点,
其中LEVEL_3包含LEVEL_2的所述至少一个磁盘区顶点,
其中LEVEL_4包含与执行所述至少一个档案管理任务所必要的计算服务器相关联的至少一个服务器顶点,
其中LEVEL_5包含LEVEL_4的所述至少一个服务器顶点,
其中LEVEL_6包含与执行所述至少一个档案管理任务的至少一个工作机程序相关联的至少一个工作机顶点,并且
其中LEVEL_7包含宿顶点;
建立以七个类型组织的边缘,所述类型包含EDGE_01、EDGE_12、EDGE_23、EDGE_34、EDGE_45、EDGE_56以及EDGE_67,
其中第一类型EDGE_01包含从LEVEL_0的源顶点指向LEVEL_1的第一任务顶点的第一边缘,该第一边缘指示与该第一任务顶点相关联的第一任务通过该作业调度器来调度,
其中第二类型EDGE_12包含从LEVEL_1的该第一任务顶点指向LEVEL_2的第一磁盘区顶点的第二边缘,该第二边缘指示与该第一磁盘区顶点相关联的第一存储设备磁盘区存储执行该第一任务所必要的最新数据,
其中第三类型EDGE_23包含从LEVEL_2的该第一磁盘区顶点指向LEVEL_3的该第一磁盘区顶点的第三边缘,
其中第四类型EDGE_34包含从LEVEL_3的该第一磁盘区顶点指向LEVEL_4的第一服务器顶点的第四边缘,该第四边缘指示与该第一服务器顶点相关联的第一计算服务器物理地耦接至该第一存储设备磁盘区,
其中第五类型EDGE_45包含从LEVEL_4的该第一服务器顶点指向LEVEL_5的该第一服务器顶点的第五边缘,
其中第六类型EDGE_56包含从LEVEL_5的该第一服务器顶点指向LEVEL_6的第一工作机顶点的第六边缘,该第六边缘指示与该第一服务器顶点相关联的该第一计算服务器主控与该第一工作机顶点相关联的第一工作机程序,并且
其中第七类型EDGE_67包含从LEVEL_6的该第一工作机顶点指向LEVEL_7的该宿顶点的第七边缘,该第七边缘指示该第一工作机程序完成通过该作业调度器调度的操作;
指派所建立的边缘的权数,
其中该第一类型EDGE_01的第一边缘具有等于执行该第一任务的时间单位的第一权数,
其中该第二类型EDGE_12的第二边缘具有等于该第一任务的磁盘区使用率的第二权数,
其中该第三类型EDGE_23的第三边缘具有等于该第一存储设备磁盘区的磁盘区吞吐量的第三权数,该磁盘区吞吐量指示该第一存储设备磁盘区可同时支持的任务的数目,
其中该第四类型EDGE_34的第四边缘具有等于该第一存储设备磁盘区与该第一计算服务器之间的通信信道的容量的第四权数,
其中该第五类型EDGE_45的第五边缘具有等于该第一计算服务器的处理吞吐量的第五权数,并且
其中该第六类型EDGE_56的第六边缘和该第七类型EDGE_67的第七边缘分别具有等于该档案管理系统中的极大数的无限权数;以及
遵循所建立的边缘而建立从该源顶点至该宿顶点的至少一个路径,使得所建立的至少一个路径表示通过该路径中的至少一个工作机程序、利用该路径中的至少一个存储设备磁盘区及至少一个计算服务器执行的该路径中的任务的相应作业调度,其中该最佳路径是在该路径中具有边缘的权数的最小总和的路径。
6.如权利要求5所述的计算机系统,还包含:
用于从该档案管理系统的组件收集所述输入,并且将所述输入提供至该作业调度器的装置;
用于响应于该传送所计算的最佳初始调度而从该作业调度器接收所计算的最佳初始调度的装置;
用于关于所接收的调度而在用户接口与元素资源之间建立实际通信路径,使得可通过该实际通信路径而传送数据及控制的装置;
用于通过部署运行该工作机程序的虚拟机器并且通过随后在所部署的虚拟机器上启动所接收的调度来执行所接收的调度以执行该任务的装置;
用于通过监视所执行的调度的操作来产生所述监视结果,并且将所述监视结果提供至该作业调度器的装置;以及
用于响应于该提供该经调整调度而从该作业调度器接收该经调整调度的装置,
其中通过该档案管理系统来执行该收集、该接收所计算的最佳初始调度、该建立该实际通信路径、该执行所接收的调度、该产生、以及该接收该经调整调度。
7.如权利要求5的计算机系统,该计算该最佳初始调度包含:
由于使时间因子乘以包含该第三类型EDGE_23、该第四类型EDGE_34及该第五类型EDGE_45的所有边缘的资源边缘的相应权数,并且随后将经相乘的相应权数分别取整为最接近的整数值,而计算所述资源边缘的相应经时间因子分解权数;
利用所述资源边缘的相应经时间因子分解权数而对该流程网络执行一系列最大流量计算来获得至少一个最大流量;
从所获得的至少一个最大流量选择至少一个候选最大流量,其中该至少一个候选最大流量等于该流程网络的该至少一个最大流量中任务的总数;
使用所选择的至少一个候选最大流量来产生至少一个候选调度;以及
选择该最佳初始调度作为候选调度,该最佳初始调度在该至少一个候选调度当中的该候选调度中具有所有权数的最小总和。
8.如权利要求5至7中的任何一项的计算机系统,建立该经调整调度包含:
分析所传送的调度的操作的所接收的监视结果,所接收的监视结果包含相应资源量、相应文件大小、以及所传送的调度中的相应任务吞吐量;
将来自该分析的结果应用到预定义启发式度量,其中所述预定义启发式度量是从由以下各项组成的群组中选择的:每个任务的容量、每个任务的外分支度、总磁盘区负载、和最小磁盘区负载、以及它们的组合;以及
通过基于来自该应用的结果动态调整所传送的调度中任务的调度顺序来优化所传送的调度。
CN201080054857.1A 2009-12-04 2010-12-03 档案管理调度的优化 Active CN102770845B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/631,247 2009-12-04
US12/631,247 US8276148B2 (en) 2009-12-04 2009-12-04 Continuous optimization of archive management scheduling by use of integrated content-resource analytic model
PCT/EP2010/068840 WO2011067380A1 (en) 2009-12-04 2010-12-03 Optimization of archive management scheduling

Publications (2)

Publication Number Publication Date
CN102770845A CN102770845A (zh) 2012-11-07
CN102770845B true CN102770845B (zh) 2015-02-25

Family

ID=43663687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080054857.1A Active CN102770845B (zh) 2009-12-04 2010-12-03 档案管理调度的优化

Country Status (7)

Country Link
US (4) US8276148B2 (zh)
JP (1) JP5779188B2 (zh)
CN (1) CN102770845B (zh)
DE (1) DE112010004062T5 (zh)
GB (1) GB2488727A (zh)
TW (1) TW201140450A (zh)
WO (1) WO2011067380A1 (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11340988B2 (en) 2005-09-30 2022-05-24 Pure Storage, Inc. Generating integrity information in a vast storage system
US11080138B1 (en) 2010-04-26 2021-08-03 Pure Storage, Inc. Storing integrity information in a vast storage system
US10866754B2 (en) * 2010-04-26 2020-12-15 Pure Storage, Inc. Content archiving in a distributed storage network
US8276148B2 (en) 2009-12-04 2012-09-25 International Business Machines Corporation Continuous optimization of archive management scheduling by use of integrated content-resource analytic model
US8875143B2 (en) * 2009-12-31 2014-10-28 Bmc Software, Inc. Utility-optimized scheduling of time-sensitive tasks in a resource-constrained environment
US10956292B1 (en) 2010-04-26 2021-03-23 Pure Storage, Inc. Utilizing integrity information for data retrieval in a vast storage system
US9292343B2 (en) * 2010-06-30 2016-03-22 Oracle International Corporation Method and system for performing deployment management
US8930954B2 (en) * 2010-08-10 2015-01-06 International Business Machines Corporation Scheduling parallel data tasks
US8707275B2 (en) * 2010-09-14 2014-04-22 Microsoft Corporation Simulation environment for distributed programs
US8799453B2 (en) 2010-10-20 2014-08-05 Microsoft Corporation Managing networks and machines for an online service
US8751656B2 (en) 2010-10-20 2014-06-10 Microsoft Corporation Machine manager for deploying and managing machines
US9075661B2 (en) * 2010-10-20 2015-07-07 Microsoft Technology Licensing, Llc Placing objects on hosts using hard and soft constraints
US8386501B2 (en) 2010-10-20 2013-02-26 Microsoft Corporation Dynamically splitting multi-tenant databases
US8417737B2 (en) 2010-10-20 2013-04-09 Microsoft Corporation Online database availability during upgrade
WO2012060098A1 (ja) * 2010-11-05 2012-05-10 日本電気株式会社 情報処理装置
US8850550B2 (en) 2010-11-23 2014-09-30 Microsoft Corporation Using cached security tokens in an online service
US9721030B2 (en) 2010-12-09 2017-08-01 Microsoft Technology Licensing, Llc Codeless sharing of spreadsheet objects
US8600725B2 (en) 2011-01-19 2013-12-03 Oracle International Corporation System and method for providing a static model map of behaviors in a middleware system, for use in identifying system problems
US8892960B2 (en) 2011-01-19 2014-11-18 Oracle International Corporation System and method for determining causes of performance problems within middleware systems
US8631280B2 (en) * 2011-01-19 2014-01-14 Oracle International Corporation Method of measuring and diagnosing misbehaviors of software components and resources
US9600523B2 (en) 2011-01-19 2017-03-21 Oracle International Corporation Efficient data collection mechanism in middleware runtime environment
US8627150B2 (en) 2011-01-19 2014-01-07 Oracle International Corporation System and method for using dependency in a dynamic model to relate performance problems in a complex middleware environment
US8856764B2 (en) * 2011-01-25 2014-10-07 International Business Machines Corporation Distributed static analysis of computer software applications
WO2013015792A1 (en) * 2011-07-26 2013-01-31 Hewlett-Packard Development Company, L.P. Job plan verification
US9128763B2 (en) * 2011-08-23 2015-09-08 Infosys Limited System and method for job scheduling optimization
US9053067B2 (en) * 2011-09-30 2015-06-09 International Business Machines Corporation Distributed data scalable adaptive map-reduce framework
US8954575B2 (en) * 2012-05-23 2015-02-10 Vmware, Inc. Fabric distributed resource scheduling
US8943505B2 (en) * 2012-08-24 2015-01-27 National Instruments Corporation Hardware assisted real-time scheduler using memory monitoring
US8954529B2 (en) 2012-09-07 2015-02-10 Microsoft Corporation Smart data staging based on scheduling policy
US8819618B2 (en) * 2012-09-26 2014-08-26 The Mathworks, Inc. Behavior invariant optimization of maximum execution times for model simulation
TWI551109B (zh) * 2012-10-26 2016-09-21 鴻海精密工業股份有限公司 資料轉換設備的流量識別系統及方法
JP5961848B2 (ja) * 2012-11-27 2016-08-02 株式会社日立製作所 計画管理システム及び計画管理方法
US9438495B2 (en) * 2013-04-02 2016-09-06 Amazon Technologies, Inc. Visualization of resources in a data center
US9400718B2 (en) * 2013-08-02 2016-07-26 Sanovi Technologies Pvt. Ltd. Multi-tenant disaster recovery management system and method for intelligently and optimally allocating computing resources between multiple subscribers
US9372636B1 (en) * 2013-12-20 2016-06-21 Emc Corporation Tiered-storage design
US10310903B2 (en) * 2014-01-17 2019-06-04 Red Hat, Inc. Resilient scheduling of broker jobs for asynchronous tasks in a multi-tenant platform-as-a-service (PaaS) system
US20150206427A1 (en) * 2014-01-17 2015-07-23 International Business Machines Corporation Prediction of local and network-wide impact of non-recurrent events in transportation networks
US9292336B1 (en) * 2014-01-22 2016-03-22 Amazon Technologies, Inc. Systems and methods providing optimization data
US9678800B2 (en) * 2014-01-30 2017-06-13 International Business Machines Corporation Optimum design method for configuration of servers in a data center environment
US9582189B2 (en) 2014-04-25 2017-02-28 International Business Machines Corporation Dynamic tuning of memory in MapReduce systems
CN104615474B (zh) * 2014-09-02 2018-06-22 清华大学 用于粗粒度可重构处理器的编译优化方法
CN105491085B (zh) * 2014-09-16 2019-01-25 阿里巴巴集团控股有限公司 一种在线请求排队方法及装置
US9367344B2 (en) * 2014-10-08 2016-06-14 Cisco Technology, Inc. Optimized assignments and/or generation virtual machine for reducer tasks
US10101993B2 (en) * 2014-11-21 2018-10-16 Sap Se System and method for updating content without downtime
US9529676B1 (en) * 2014-12-31 2016-12-27 EMC IP Holding Company LLC Optimizing spare capacity and spare distribution
US10794153B2 (en) 2015-04-19 2020-10-06 Schlumberger Technology Corporation Rescheduling one or more tasks of a digital plan associated with subsystems of a wellsite based on the wellsite's state
KR102449333B1 (ko) 2015-10-30 2022-10-04 삼성전자주식회사 메모리 시스템 및 그것의 읽기 요청 관리 방법
RS60823B1 (sr) 2015-12-04 2020-10-30 Boehringer Ingelheim Int Biparatopski polipeptidi koji antagonizuju wnt signalizaciju u tumorskim ćelijama
JP6973377B2 (ja) * 2016-03-28 2021-11-24 日本電気株式会社 解析装置、解析方法、およびプログラム
US11544175B2 (en) * 2016-08-15 2023-01-03 Zerion Software, Inc Systems and methods for continuity of dataflow operations
US10078560B2 (en) * 2016-09-08 2018-09-18 International Business Machines Corporation Using run time and historical customer profiling and analytics to determine customer disaster recovery vs. production differences, and to enhance customer disaster recovery readiness and effectiveness
CN109791505A (zh) * 2016-10-05 2019-05-21 瑞典爱立信有限公司 控制在数据中心中的资源分配
US10437633B1 (en) * 2016-12-30 2019-10-08 EMC IP Holding Company LLC Data storage system management with promotion of task-level resource identifiers to higher objects
US10514958B2 (en) * 2018-02-14 2019-12-24 Capital One Services, Llc Remotely managing execution of jobs in a cluster computing framework
US11315014B2 (en) * 2018-08-16 2022-04-26 EMC IP Holding Company LLC Workflow optimization
CN114785707B (zh) * 2022-05-16 2023-06-20 电子科技大学 一种层级大流协同监测方法
CN114968744B (zh) * 2022-06-07 2023-04-07 北京同创永益科技发展有限公司 一种基于金融行业容量管理预测分析ai算法的实现方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN101414277A (zh) * 2008-11-06 2009-04-22 清华大学 一种基于虚拟机的按需增量恢复容灾系统及方法
CN101452406A (zh) * 2008-12-23 2009-06-10 北京航空航天大学 一种对操作系统透明的机群负载平衡方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675786A (ja) * 1992-08-26 1994-03-18 Hitachi Ltd タスクスケジュリング方法
US6732123B1 (en) 1998-02-23 2004-05-04 International Business Machines Corporation Database recovery to any point in time in an online environment utilizing disaster recovery technology
US6460068B1 (en) * 1998-05-01 2002-10-01 International Business Machines Corporation Fractal process scheduler for testing applications in a distributed processing system
US6886047B2 (en) 1998-11-13 2005-04-26 Jp Morgan Chase Bank System and method for managing information retrievals for integrated digital and analog archives on a global basis
IT1316301B1 (it) * 2000-01-26 2003-04-10 Castelli Clino Trini Metodo e dispositivo per la catalogazione e la ricerca di informazione
US20040044585A1 (en) * 2000-08-15 2004-03-04 Hector Franco Customer service management system
US7237075B2 (en) 2002-01-22 2007-06-26 Columbia Data Products, Inc. Persistent snapshot methods
US7979301B1 (en) * 2002-09-03 2011-07-12 Hector Franco Online taxonomy for constructing customer service queries
US7603664B2 (en) * 2002-10-22 2009-10-13 Sun Microsystems, Inc. System and method for marking software code
US7222218B2 (en) * 2002-10-22 2007-05-22 Sun Microsystems, Inc. System and method for goal-based scheduling of blocks of code for concurrent execution
WO2004072796A2 (en) * 2003-02-05 2004-08-26 Arizona Board Of Regents Reconfigurable processing
US7246254B2 (en) 2003-07-16 2007-07-17 International Business Machines Corporation System and method for automatically and dynamically optimizing application data resources to meet business objectives
US7502859B2 (en) * 2003-09-19 2009-03-10 Panasonic Corporation Dynamic resource management for distributed retrieval system for security
US7469143B2 (en) * 2003-10-07 2008-12-23 Microsoft Corporation Model and method for computing performance bounds in multi-hop wireless networks
US7793276B2 (en) * 2003-11-14 2010-09-07 Intel Corporation Apparatus and method for automatically parallelizing network applications through pipelining transformation
US7130707B2 (en) * 2003-12-18 2006-10-31 Taiwan Semiconductor Manufacturing Co., Ltd. System and method for manufacturing planning and control
ATE457493T1 (de) 2004-01-09 2010-02-15 T W Storage Inc Verfahren und vorrichtung zum durchsuchen von backup-daten auf der basis von inhalt und attributen
US8365181B2 (en) * 2004-07-12 2013-01-29 Hewlett-Packard Development Company, L.P. Method and system for guiding scheduling decisions in clusters of computers using dynamic job profiling
GB0427133D0 (en) * 2004-12-10 2005-01-12 British Telecomm Workflow scheduler
US20060265489A1 (en) 2005-02-01 2006-11-23 Moore James F Disaster management using an enhanced syndication platform
JP2006268509A (ja) * 2005-03-24 2006-10-05 Nomura Research Institute Ltd ジョブ設定装置およびジョブ設定方法
EP1864226B1 (en) * 2005-03-28 2013-05-15 Wake Forest University Methods, systems, and computer program products for network firewall policy optimization
US20060274070A1 (en) * 2005-04-19 2006-12-07 Herman Daniel L Techniques and workflows for computer graphics animation system
US7958507B2 (en) * 2005-06-16 2011-06-07 Hewlett-Packard Development Company, L.P. Job scheduling system and method
US20070074217A1 (en) 2005-09-26 2007-03-29 Ryan Rakvic Scheduling optimizations for user-level threads
US7742906B2 (en) * 2007-03-06 2010-06-22 Hewlett-Packard Development Company, L.P. Balancing collections of vertices in a network
WO2008132924A1 (ja) * 2007-04-13 2008-11-06 Nec Corporation 仮想計算機システムおよびその最適化方法
US8660108B2 (en) * 2007-04-13 2014-02-25 Hart Communication Foundation Synchronizing timeslots in a wireless communication protocol
US8028293B2 (en) * 2007-06-28 2011-09-27 Microsoft Corporation Optimal policies for load balancing for distributed and strategic agents (more technically, optimal coordination mechanisms for machine scheduling)
US8230070B2 (en) * 2007-11-09 2012-07-24 Manjrasoft Pty. Ltd. System and method for grid and cloud computing
US7870238B2 (en) * 2008-02-15 2011-01-11 !J Incorporated Vendor-independent network configuration tool
US8239847B2 (en) * 2009-03-18 2012-08-07 Microsoft Corporation General distributed reduction for data parallel computing
US8490072B2 (en) * 2009-06-23 2013-07-16 International Business Machines Corporation Partitioning operator flow graphs
US8332862B2 (en) * 2009-09-16 2012-12-11 Microsoft Corporation Scheduling ready tasks by generating network flow graph using information receive from root task having affinities between ready task and computers for execution
US8276148B2 (en) 2009-12-04 2012-09-25 International Business Machines Corporation Continuous optimization of archive management scheduling by use of integrated content-resource analytic model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN101414277A (zh) * 2008-11-06 2009-04-22 清华大学 一种基于虚拟机的按需增量恢复容灾系统及方法
CN101452406A (zh) * 2008-12-23 2009-06-10 北京航空航天大学 一种对操作系统透明的机群负载平衡方法

Also Published As

Publication number Publication date
US20120304182A1 (en) 2012-11-29
US20150339160A1 (en) 2015-11-26
GB201210842D0 (en) 2012-08-01
US9910702B2 (en) 2018-03-06
CN102770845A (zh) 2012-11-07
US8276148B2 (en) 2012-09-25
US20130298131A1 (en) 2013-11-07
JP5779188B2 (ja) 2015-09-16
US20110138391A1 (en) 2011-06-09
US8527998B2 (en) 2013-09-03
JP2013513150A (ja) 2013-04-18
GB2488727A (en) 2012-09-05
WO2011067380A1 (en) 2011-06-09
TW201140450A (en) 2011-11-16
DE112010004062T5 (de) 2012-10-25
US9158581B2 (en) 2015-10-13

Similar Documents

Publication Publication Date Title
CN102770845B (zh) 档案管理调度的优化
US9589069B2 (en) Platform for continuous graph update and computation
Guo et al. Grid service reliability modeling and optimal task scheduling considering fault recovery
Huebscher et al. A survey of autonomic computing—degrees, models, and applications
Amato et al. Exploiting cloud and workflow patterns for the analysis of composite cloud services
CN104618693A (zh) 一种基于云计算的监控视频在线处理任务管理方法及系统
JPWO2006054573A1 (ja) 情報処理装置及びこのプログラムと、モジュラー型システムの運用管理システムと、コンポーネント選択方法
Renart et al. Distributed operator placement for IoT data analytics across edge and cloud resources
US20060031444A1 (en) Method for assigning network resources to applications for optimizing performance goals
Alboaneen et al. Glowworm swarm optimisation algorithm for virtual machine placement in cloud computing
CN101860564A (zh) 基于协议的服务组合系统和方法
Kalim et al. Henge: Intent-driven multi-tenant stream processing
Wang et al. Virtual servers co-migration for mobile accesses: Online versus off-line
Ali et al. Probabilistic normed load monitoring in large scale distributed systems using mobile agents
CN109725916A (zh) 流处理的拓扑结构更新系统和方法
Neelakandan et al. Quantum invasive weed optimization-based energy aware task scheduling for cyber–physical system environment
Deng et al. Cloud-native computing: A survey from the perspective of services
Ye Research on emergency resource scheduling in smart city based on HPSO algorithm
Fernández-Cerero et al. Quality of cloud services determined by the dynamic management of scheduling models for complex heterogeneous workloads
Tripathi et al. Distributed cost-aware fault-tolerant load balancing in geo-distributed data centers
Singhal et al. Mutative bfo-based scheduling algorithm for cloud environment
CN116996513B (zh) 一种设备资产管理系统的资源调度方法
Vishrutha et al. A survey on energy optimization in cloud environment
Bose et al. An overview of the state-of-the-art virtual machine placement algorithms for green cloud data centres
Parab Software Defined Storage

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211109

Address after: New York, United States

Patentee after: Qindarui Co.

Address before: Armank, New York, USA

Patentee before: International Business Machines Corp.

TR01 Transfer of patent right