CN111641716B - 参数服务器的自愈方法、参数服务器及参数服务系统 - Google Patents

参数服务器的自愈方法、参数服务器及参数服务系统 Download PDF

Info

Publication number
CN111641716B
CN111641716B CN202010484110.5A CN202010484110A CN111641716B CN 111641716 B CN111641716 B CN 111641716B CN 202010484110 A CN202010484110 A CN 202010484110A CN 111641716 B CN111641716 B CN 111641716B
Authority
CN
China
Prior art keywords
parameter server
parameter
storage system
server
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010484110.5A
Other languages
English (en)
Other versions
CN111641716A (zh
Inventor
刘一鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202010484110.5A priority Critical patent/CN111641716B/zh
Publication of CN111641716A publication Critical patent/CN111641716A/zh
Application granted granted Critical
Publication of CN111641716B publication Critical patent/CN111641716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0806Configuration setting for initial configuration or provisioning, e.g. plug-and-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Hardware Redundancy (AREA)

Abstract

提供了一种参数服务器的自愈方法、参数服务器及参数服务系统。当参数服务器被新启动时,按照其内预置的执行逻辑执行所述自愈方法,所述自愈方法包括:从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息;根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务;以及将自身保存的模型参数的信息同步到第一存储系统中,并与第一存储系统保持心跳连接。根据所述自愈方法,能够使得新启动的参数服务器自动代替宕机的参数服务器继续提供模型参数相关服务。

Description

参数服务器的自愈方法、参数服务器及参数服务系统
技术领域
本发明总体说来涉及机器学习领域,更具体地讲,涉及一种参数服务器的自愈方法、参数服务器及参数服务系统。
背景技术
参数服务器是用于机器学习的非常广泛的技术,很多情况下需要使用参数服务器集群来实现分布式存储机器学习模型的参数,例如,大规模的机器学习模型(例如,TB级别以上)通常需要使用多台参数服务器进行分布式存储。但使用参数服务器集群进行分布式存储,会存在其中有参数服务器宕机的可能性增大的情况,进而增加了运维难度,如果无人值守,容易出现参数服务器集群所提供的模型参数服务崩溃的情况。
发明内容
本发明的示例性实施例在于提供一种参数服务器的自愈方法、参数服务器及参数服务系统,其能够使得新启动的参数服务器自动代替宕机的参数服务器继续提供模型参数相关服务。
根据本发明的示例性实施例,提供一种参数服务器的自愈方法,其中,当参数服务器被新启动时,按照其内预置的执行逻辑执行所述自愈方法,所述自愈方法包括:从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息;根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务;以及将自身保存的模型参数的信息同步到第一存储系统中,并与第一存储系统保持心跳连接。
可选地,所述自愈方法还包括:所述参数服务器与集群管理单元保持心跳连接,其中,当所述参数服务器宕机时,集群管理单元新启动一个被预置了所述执行逻辑的参数服务器。
可选地,从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息的步骤包括:从第一存储系统确定参数服务器集群中的一个宕机的参数服务器;从第一存储系统中查询该宕机的参数服务器上所保存的模型参数的信息,其中,所述第一存储系统存储有:参数服务器集群上所保存的至少一个机器学习模型的属性信息、保存所述至少一个机器学习模型的各部分模型参数的参数服务器的标识信息、以及参数服务器集群中的各个参数服务器的运行状态。
可选地,当所述参数服务器宕机时,集群管理单元通过下述方式新启动一个被预置了所述执行逻辑的参数服务器:新启动一个容器,并在所述容器内启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器;或者,通过所述参数服务器所对应的操作系统重新启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器。
可选地,所述自愈方法还包括:在从第一存储系统确定参数服务器集群中的一个宕机的参数服务器的步骤之后,通知第一存储系统将该宕机的参数服务器的运行状态标记为重启中;当所述参数服务器开始提供模型参数相关服务时,通知第一存储系统将该宕机的参数服务器的运行状态标记为正常运行。
可选地,所述第一存储系统为强一致的存储系统;和/或,所述第二存储系统为分布式存储系统。
根据本发明的另一示例性实施例,提供一种参数服务器,其中,当所述参数服务器被新启动时,按照其内预置的执行逻辑执行以下操作:从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息;根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务;以及将自身保存的模型参数的信息同步到第一存储系统中,并与第一存储系统保持心跳连接。
可选地,所述参数服务器还按照其内预置的执行逻辑执行以下操作:与集群管理单元保持心跳连接,其中,当所述参数服务器宕机时,集群管理单元新启动一个被预置了所述执行逻辑的参数服务器。
可选地,从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息的操作包括:从第一存储系统确定参数服务器集群中的一个宕机的参数服务器;从第一存储系统中查询该宕机的参数服务器上所保存的模型参数的信息。
可选地,所述参数服务器还按照其内预置的执行逻辑执行以下操作:在从第一存储系统确定参数服务器集群中的一个宕机的参数服务器的操作之后,通知第一存储系统将该宕机的参数服务器的运行状态标记为重启中;当所述参数服务器开始提供模型参数相关服务时,通知第一存储系统将该宕机的参数服务器的运行状态标记为正常运行。
根据本发明的另一示例性实施例,提供一种可自愈的参数服务系统,包括:包括多个如上所述的参数服务器的参数服务器集群;第一存储系统,其中,所述第一存储系统存储有:参数服务器集群上所保存的至少一个机器学习模型的属性信息、保存所述至少一个机器学习模型的各部分模型参数的参数服务器的标识信息、以及参数服务器集群中的各个参数服务器的运行状态;第二存储系统,其中,所述第二存储系统存储有:参数服务器集群中的各个参数服务器上所保存的模型参数。
可选地,所述参数服务系统还包括:集群管理单元,被配置为与参数服务器集群中的各个参数服务器保持心跳连接,并当任一参数服务器宕机时,新启动一个被预置了所述执行逻辑的参数服务器代替宕机的参数服务器。
可选地,集群管理单元被配置为通过下述方式新启动一个被预置了所述执行逻辑的参数服务器:新启动一个容器,并在所述容器内启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器;或者,通过该宕机的参数服务器所对应的操作系统重新启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器。
可选地,所述第一存储系统被配置为:当参数服务器集群中的多个参数服务器同时宕机时,在响应于一个新启动的参数服务器的重启标记请求,将所述一个参数服务器将代替的一个宕机的参数服务器的运行状态标记为重启中之后,才响应于下一个新启动的参数服务器的运行状态查询请求,向其提供参数服务器集群中的各个参数服务器的运行状态。
可选地,所述第一存储系统为强一致的存储系统;和/或,所述第二存储系统为分布式存储系统。
根据本发明的另一示例性实施例,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的参数服务器,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的参数服务器的自愈方法。
根据本发明的另一示例性实施例,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的参数服务器的自愈方法。
根据本发明示例性实施例的参数服务器的自愈方法、参数服务器及参数服务系统,通过使用存活探测机制,使得新启动的参数服务器自动代替宕机的参数服务器继续提供模型参数相关服务,从而即使无人值守,也能保证参数服务器集群正常提供服务。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的参数服务器的自愈方法的流程图;
图2示出根据本发明的示例性实施例的参数服务系统的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出根据本发明示例性实施例的参数服务器的自愈方法的流程图。当参数服务器(下面,也将其称为当前参数服务器)被新启动时,按照其内预置的执行逻辑执行所述自愈方法。
应该理解,参数服务器可由其所执行的处理或所实现的功能来限定,既可指示物理实体,也可指示虚拟实体,例如,参数服务器可指示实际的计算机器,也可指示部署在该计算机器上的逻辑实体。
参照图1,在步骤S10,从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息。
作为示例,所述模型参数的信息可为用于指示所述模型参数是哪一机器学习模型的模型参数的哪一部分的信息,通过所述模型参数的信息能够在第二存储系统中找到所述模型参数。
作为示例,所述第一存储系统可存储有:参数服务器集群上所保存的至少一个机器学习模型的属性信息、保存所述至少一个机器学习模型的各部分模型参数的参数服务器的标识信息、以及参数服务器集群中的各个参数服务器的运行状态。
作为示例,第一存储系统中标记的参数服务器的运行状态可分为:重启中、正常运行、宕机。
应该理解,参数服务器集群中的每个参数服务器可保存一个或多个机器学习模型的全部或一部分模型参数。
作为示例,机器学习模型的属性信息可包括以下项之中的至少一项:该机器学习模型是否完整、该机器学习模型的类型。例如,可根据所使用的机器学习算法来确定该机器学习模型的类型。
作为示例,可从第一存储系统确定参数服务器集群中的一个宕机的参数服务器;并从第一存储系统中查询该宕机的参数服务器上所保存的模型参数的信息。
作为示例,可从第一存储系统获取参数服务器集群中的各个参数服务器的运行状态,并根据各个参数服务器的运行状态确定一个宕机的参数服务器;或者,可直接问询第一存储系统参数服务器集群中的一个宕机的参数服务器。
作为示例,所述第一存储系统可为强一致的存储系统。作为示例,所述第一存储系统可为高可用、强一致的存储系统。
作为示例,所述第一存储系统可为分布式存储系统。作为示例,所述第一存储系统可为kv存储系统。例如,所述第一存储系统可为ZooKeeper、ETCD等。
在步骤S20,根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务。换言之,当前参数服务器取代了该宕机的参数服务器在参数服务器集群中的位置。
应该理解,当前参数服务器根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数后,即可开始代替该宕机的参数服务器继续提供模型参数相关服务。
作为示例,模型参数相关服务可包括:存储模型参数、响应于用于更新模型参数的更新请求来更新相应的模型参数、响应于用于读取模型参数的请求来提供相应的模型参数。
作为示例,所述第二存储系统可存储有:参数服务器集群所保存的至少一个机器学习模型的模型参数。
作为示例,所述第二存储系统可为分布式存储系统。例如,所述第二存储系统可为可用性高但相对低效的持久化存储HDFS。此外,所述第二存储系统也可为其他的例如NFS、S3等分布式持久化存储系统。
在步骤S30,将自身保存的模型参数的信息同步到第一存储系统中,并与第一存储系统保持心跳连接。从而,能够保证第一存储系统中存储的当前参数服务器所保存的模型参数的信息与当前参数服务器实际保存的模型参数的信息保持一致,且第一存储系统能够及时获知当前参数服务器是否宕机,以保证在当前参数服务器宕机之后,其他参数服务器能够代替其继续提供相应的模型参数相关服务。
此外,应该理解,还可将当前参数服务器所保存的模型参数同步到第二存储系统,例如,如果当前参数服务器所保存的模型参数发生更新,则可同步更新到第二存储系统,以保证在当前参数服务器宕机之后,能够从第二存储系统获取到与当前参数服务器所保存的模型参数一致的模型参数。
作为示例,当前参数服务器可通过实时向第一存储系统上报是否存活,来与第一存储系统保持心跳连接,例如,可响应于第一存储系统的主动问询进行上报或可由当前参数服务器主动上报。
作为示例,第一存储系统可根据当前参数服务器是否失去心跳,来确定当前参数服务器的运行状态是正常运行还是宕机。例如,第一存储系统当发现当前参数服务器失去心跳时,可将当前参数服务器的运行状态修改为宕机状态。
作为示例,根据本发明示例性实施例的参数服务器的自愈方法还可包括:在从第一存储系统确定参数服务器集群中的一个宕机的参数服务器的步骤之后,通知第一存储系统将该宕机的参数服务器的运行状态标记为重启中;当当前参数服务器开始提供模型参数相关服务时,通知第一存储系统将该宕机的参数服务器的运行状态标记为正常运行。从而,第一存储系统中已更新为:当前参数服务器已接替该宕机的参数服务器的位置继续提供相应的模型参数相关服务,参数服务器集群中的该宕机的参数服务器已恢复提供相应的模型参数相关服务,从而实现宕机的参数服务器的自愈。
作为示例,根据本发明示例性实施例的参数服务器的自愈方法还可包括:当前参数服务器与集群管理单元保持心跳连接,从而可通过监测当前参数服务器是否失去心跳,确定当前参数服务器是否宕机,并当当前参数服务器宕机时,集群管理单元新启动一个被预置了所述执行逻辑的参数服务器来代替当前参数服务器。
作为示例,集群管理单元可为高可用的集群管理系统。
进一步地,在一个实施例中,当当前参数服务器宕机时,集群管理单元可新启动一个容器,并在所述容器内启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器。这里,作为示例,集群管理单元可为容器编排系统,所述容器编排系统与参数服务器集群中的各个参数服务器所在的容器保持心跳连接,并且,如果发现有一个参数服务器意外宕机(例如,当发现有一个容器失去心跳时,可确定有一个参数服务器意外宕机),可以帮助在可以使用的物理机上拉起一个容器并在容器内启动参数服务器进程。例如,所述容器编排系统可为Kubernetes(K8S),相应地,第一存储系统和/或参数服务器集群可运行在K8S上。
作为示例,容器可理解为一个迷你的运行环境,每个物理机可以虚拟出多个运行环境,每个运行环境相对隔离。可将在一个容器内运行一个参数服务器进程,视为一个参数服务器运行。
此外,参数服务器可直接部署在物理机或者虚拟机上,不依赖于容器,在另一个实施例中,当当前参数服务器宕机时,集群管理单元可通过当前参数服务器所对应的操作系统重新启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器。例如,可通过当前参数服务器所对应的操作系统在本物理机或虚拟机上重新启动一个参数服务器进程。
这里,当前参数服务器所对应的操作系统为当前参数服务器被部署在的物理机或者虚拟机所使用的操作系统。集群管理单元可通过当前参数服务器所对应的操作系统监控当前参数服务器是否失去心跳,并当当前参数服务器失去心跳时,通过该操作系统在当前物理机或虚拟机上重新启动一个参数服务器进程。
图2示出根据本发明的示例性实施例的参数服务系统的框图。
如图2所示,根据本发明的示例性实施例的参数服务系统包括:参数服务器集群100、第一存储系统200、以及第二存储系统300。
具体说来,参数服务器集群100包括多个参数服务器10,每个参数服务器10当被新启动时,按照其内预置的执行逻辑执行以下操作:从第一存储系统200中查询参数服务器集群100中的一个宕机的参数服务器10上所保存的模型参数的信息;根据所述模型参数的信息从第二存储系统300获取并加载对应的模型参数,代替该宕机的参数服务器10继续提供模型参数相关服务;以及将自身保存的模型参数的信息同步到第一存储系统200中,并与第一存储系统200保持心跳连接。
第一存储系统200存储有:参数服务器集群100上所保存的至少一个机器学习模型的属性信息、保存所述至少一个机器学习模型的各部分模型参数的参数服务器10的标识信息、以及参数服务器集群100中的各个参数服务器10的运行状态。
第二存储系统300存储有:参数服务器集群100中的各个参数服务器10上所保存的模型参数。
作为示例,从第一存储系统200中查询参数服务器集群100中的一个宕机的参数服务器10上所保存的模型参数的信息的操作可包括:从第一存储系统200确定参数服务器集群100中的一个宕机的参数服务器10;并从第一存储系统200中查询该宕机的参数服务器10上所保存的模型参数的信息。
作为示例,参数服务器10还可按照其内预置的执行逻辑执行以下操作:在从第一存储系统200确定参数服务器集群100中的一个宕机的参数服务器10的操作之后,通知第一存储系统200将该宕机的参数服务器10的运行状态标记为重启中;并当所述参数服务器10开始提供模型参数相关服务时,通知第一存储系统200将该宕机的参数服务器10的运行状态标记为正常运行。
作为示例,第一存储系统200可为强一致的存储系统。
作为示例,第二存储系统300可为分布式存储系统。
作为示例,第一存储系统200还可被配置为:当参数服务器集群100中的多个参数服务器10同时宕机时,在响应于一个新启动的参数服务器10的重启标记请求,将所述一个参数服务器10将代替的一个宕机的参数服务器10的运行状态标记为重启中之后,才响应于下一个新启动的参数服务器10的运行状态查询请求,向其提供参数服务器集群100中的各个参数服务器10的运行状态,从而保证各个参数服务器10从第一存储系统200获知的参数服务器集群100中的各个参数服务器10的运行状态保持一致,以防止出现多个新启动的参数服务器10同时代替一个宕机的参数服务器10的情况。
作为示例,根据本发明的示例性实施例的参数服务系统还可包括:集群管理单元(未示出),集群管理单元被配置为与参数服务器集群100中的各个参数服务器10保持心跳连接,并当任一参数服务器10宕机时,新启动一个被预置了所述执行逻辑的参数服务器代替宕机的参数服务器10。
作为示例,集群管理单元可被配置为通过下述方式新启动一个被预置了所述执行逻辑的参数服务器10:新启动一个容器,并在所述容器内启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器10;或者,通过该宕机的参数服务器10所对应的操作系统重新启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器10。
作为示例,参数服务器10还可按照其内预置的执行逻辑执行以下操作:与集群管理单元保持心跳连接。
应该理解,根据本发明示例性实施例的参数服务系统的具体实现方式可参照结合图1描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的可自愈的参数服务系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的参数服务器的自愈方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种参数服务器的自愈方法的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:当所述参数服务器被新启动时,从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息;根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务;以及将自身保存的模型参数的信息同步到第一存储系统中,并与第一存储系统保持心跳连接。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的可自愈的参数服务系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的可自愈的参数服务系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为参数服务器,该参数服务器包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行参数服务器的自愈方法。
这里,所述参数服务器并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述参数服务器还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述参数服务器中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的参数服务器的自愈方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述参数服务器还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。所述参数服务器的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的参数服务器的自愈方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的参数服务器可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:当所述参数服务器被新启动时,从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息;根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务;以及将自身保存的模型参数的信息同步到第一存储系统中,并与第一存储系统保持心跳连接。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (17)

1.一种参数服务器的自愈方法,其中,当参数服务器被新启动时,按照其内预置的执行逻辑执行所述自愈方法,所述自愈方法包括:
从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息,其中,所述第一存储系统存储有参数服务器集群中的各个参数服务器的运行状态;
根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务;以及
将自身保存的模型参数的信息同步到第一存储系统中,将自身保存的模型参数同步到第二存储系统中,并与第一存储系统保持心跳连接。
2.如权利要求1所述的自愈方法,其中,所述自愈方法还包括:
所述参数服务器与集群管理单元保持心跳连接,
其中,当所述参数服务器宕机时,集群管理单元新启动一个被预置了所述执行逻辑的参数服务器。
3.如权利要求1所述的自愈方法,其中,从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息的步骤包括:
从第一存储系统确定参数服务器集群中的一个宕机的参数服务器;
从第一存储系统中查询该宕机的参数服务器上所保存的模型参数的信息,
其中,所述第一存储系统还存储有:参数服务器集群上所保存的至少一个机器学习模型的属性信息、以及保存所述至少一个机器学习模型的各部分模型参数的参数服务器的标识信息。
4.如权利要求2所述的自愈方法,其中,当所述参数服务器宕机时,集群管理单元通过下述方式新启动一个被预置了所述执行逻辑的参数服务器:
新启动一个容器,并在所述容器内启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器;
或者,通过所述参数服务器所对应的操作系统重新启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器。
5.如权利要求3所述的自愈方法,其中,所述自愈方法还包括:
在从第一存储系统确定参数服务器集群中的一个宕机的参数服务器的步骤之后,通知第一存储系统将该宕机的参数服务器的运行状态标记为重启中;
当所述参数服务器开始提供模型参数相关服务时,通知第一存储系统将该宕机的参数服务器的运行状态标记为正常运行。
6.如权利要求1所述的自愈方法,其中,所述第一存储系统为强一致的存储系统;
和/或,所述第二存储系统为分布式存储系统。
7.一种参数服务器,其中,当所述参数服务器被新启动时,按照其内预置的执行逻辑执行以下操作:
从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息,其中,所述第一存储系统存储有参数服务器集群中的各个参数服务器的运行状态;
根据所述模型参数的信息从第二存储系统获取并加载对应的模型参数,代替该宕机的参数服务器继续提供模型参数相关服务;以及
将自身保存的模型参数的信息同步到第一存储系统中,将自身保存的模型参数同步到第二存储系统中,并与第一存储系统保持心跳连接。
8.如权利要求7所述的参数服务器,其中,
所述参数服务器还按照其内预置的执行逻辑执行以下操作:与集群管理单元保持心跳连接,
其中,当所述参数服务器宕机时,集群管理单元新启动一个被预置了所述执行逻辑的参数服务器。
9.如权利要求7所述的参数服务器,其中,从第一存储系统中查询参数服务器集群中的一个宕机的参数服务器上所保存的模型参数的信息的操作包括:
从第一存储系统确定参数服务器集群中的一个宕机的参数服务器;
从第一存储系统中查询该宕机的参数服务器上所保存的模型参数的信息。
10.如权利要求9所述的参数服务器,其中,所述参数服务器还按照其内预置的执行逻辑执行以下操作:
在从第一存储系统确定参数服务器集群中的一个宕机的参数服务器的操作之后,通知第一存储系统将该宕机的参数服务器的运行状态标记为重启中;
当所述参数服务器开始提供模型参数相关服务时,通知第一存储系统将该宕机的参数服务器的运行状态标记为正常运行。
11.一种可自愈的参数服务系统,包括:
包括多个如权利要求7至10中的任一权利要求所述的参数服务器的参数服务器集群;
第一存储系统,其中,所述第一存储系统存储有:参数服务器集群上所保存的至少一个机器学习模型的属性信息、保存所述至少一个机器学习模型的各部分模型参数的参数服务器的标识信息、以及参数服务器集群中的各个参数服务器的运行状态;
第二存储系统,其中,所述第二存储系统存储有:参数服务器集群中的各个参数服务器上所保存的模型参数。
12.如权利要求11所述的参数服务系统,其中,所述参数服务系统还包括:
集群管理单元,被配置为与参数服务器集群中的各个参数服务器保持心跳连接,并当任一参数服务器宕机时,新启动一个被预置了所述执行逻辑的参数服务器代替宕机的参数服务器。
13.如权利要求12所述的参数服务系统,其中,集群管理单元被配置为通过下述方式新启动一个被预置了所述执行逻辑的参数服务器:
新启动一个容器,并在所述容器内启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器;
或者,通过该宕机的参数服务器所对应的操作系统重新启动一个参数服务器进程,以新启动一个被预置了所述执行逻辑的参数服务器。
14.如权利要求11所述的参数服务系统,其中,所述第一存储系统被配置为:
当参数服务器集群中的多个参数服务器同时宕机时,在响应于一个新启动的参数服务器的重启标记请求,将所述一个参数服务器将代替的一个宕机的参数服务器的运行状态标记为重启中之后,才响应于下一个新启动的参数服务器的运行状态查询请求,向其提供参数服务器集群中的各个参数服务器的运行状态。
15.如权利要求11所述的参数服务系统,其中,所述第一存储系统为强一致的存储系统;
和/或,所述第二存储系统为分布式存储系统。
16.一种包括至少一个计算装置和至少一个存储指令的存储装置的参数服务器,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至6中的任一权利要求所述的参数服务器的自愈方法。
17.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至6中的任一权利要求所述的参数服务器的自愈方法。
CN202010484110.5A 2020-06-01 2020-06-01 参数服务器的自愈方法、参数服务器及参数服务系统 Active CN111641716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010484110.5A CN111641716B (zh) 2020-06-01 2020-06-01 参数服务器的自愈方法、参数服务器及参数服务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010484110.5A CN111641716B (zh) 2020-06-01 2020-06-01 参数服务器的自愈方法、参数服务器及参数服务系统

Publications (2)

Publication Number Publication Date
CN111641716A CN111641716A (zh) 2020-09-08
CN111641716B true CN111641716B (zh) 2023-05-02

Family

ID=72331315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010484110.5A Active CN111641716B (zh) 2020-06-01 2020-06-01 参数服务器的自愈方法、参数服务器及参数服务系统

Country Status (1)

Country Link
CN (1) CN111641716B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818188B (zh) * 2020-09-09 2021-02-02 杭州朗澈科技有限公司 一种Kubernetes集群的负载均衡可用性提升方法和装置
CN112306682B (zh) * 2020-10-29 2022-08-16 第四范式(北京)技术有限公司 一种模型参数的存储方法和系统以及一种参数服务器集群
CN112181732B (zh) * 2020-10-29 2024-09-10 第四范式(北京)技术有限公司 参数服务器节点的恢复方法和恢复系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227315A (zh) * 2007-01-17 2008-07-23 上海市医疗保险信息中心 动态服务器集群及其控制方法
CN101309167A (zh) * 2008-06-27 2008-11-19 华中科技大学 基于集群备份的容灾系统及方法
CN101458808A (zh) * 2008-12-31 2009-06-17 中国建设银行股份有限公司 银行管理系统、服务器集群和相关方法
CN101876924A (zh) * 2009-04-30 2010-11-03 升东网络科技发展(上海)有限公司 数据库故障自动检测及转移方法
CN102739775A (zh) * 2012-05-29 2012-10-17 宁波东冠科技有限公司 物联网数据采集服务器集群的监控和管理方法
CN104038376A (zh) * 2014-06-30 2014-09-10 浪潮(北京)电子信息产业有限公司 一种管理真实服务器的方法、装置及lvs集群系统
CN106982259A (zh) * 2017-04-19 2017-07-25 聚好看科技股份有限公司 服务器集群的故障解决方法
CN109739686A (zh) * 2018-11-27 2019-05-10 无锡天脉聚源传媒科技有限公司 一种多服务器热备份方法、系统、装置和存储介质
CN109800160A (zh) * 2018-12-27 2019-05-24 深圳云天励飞技术有限公司 机器学习系统中的集群服务器故障测试方法和相关装置
CN109842521A (zh) * 2019-01-28 2019-06-04 西安科技大学 一种移动终端宕机预测系统及方法
CN110033095A (zh) * 2019-03-04 2019-07-19 北京大学 一种高可用分布式机器学习计算框架的容错方法和系统
CN111445027A (zh) * 2019-01-16 2020-07-24 顺丰科技有限公司 机器学习模型的训练方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030145068A1 (en) * 2002-01-31 2003-07-31 Enrique Guillen Appliance server configuration recovery for a highly optimized server configuration profile image
US20120197846A1 (en) * 2011-02-01 2012-08-02 Computer Associates Think, Inc. Dynamic recovery of server applications
US10007586B2 (en) * 2016-01-08 2018-06-26 Microsoft Technology Licensing, Llc Deferred server recovery in computing systems

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227315A (zh) * 2007-01-17 2008-07-23 上海市医疗保险信息中心 动态服务器集群及其控制方法
CN101309167A (zh) * 2008-06-27 2008-11-19 华中科技大学 基于集群备份的容灾系统及方法
CN101458808A (zh) * 2008-12-31 2009-06-17 中国建设银行股份有限公司 银行管理系统、服务器集群和相关方法
CN101876924A (zh) * 2009-04-30 2010-11-03 升东网络科技发展(上海)有限公司 数据库故障自动检测及转移方法
CN102739775A (zh) * 2012-05-29 2012-10-17 宁波东冠科技有限公司 物联网数据采集服务器集群的监控和管理方法
CN104038376A (zh) * 2014-06-30 2014-09-10 浪潮(北京)电子信息产业有限公司 一种管理真实服务器的方法、装置及lvs集群系统
CN106982259A (zh) * 2017-04-19 2017-07-25 聚好看科技股份有限公司 服务器集群的故障解决方法
CN109739686A (zh) * 2018-11-27 2019-05-10 无锡天脉聚源传媒科技有限公司 一种多服务器热备份方法、系统、装置和存储介质
CN109800160A (zh) * 2018-12-27 2019-05-24 深圳云天励飞技术有限公司 机器学习系统中的集群服务器故障测试方法和相关装置
CN111445027A (zh) * 2019-01-16 2020-07-24 顺丰科技有限公司 机器学习模型的训练方法和装置
CN109842521A (zh) * 2019-01-28 2019-06-04 西安科技大学 一种移动终端宕机预测系统及方法
CN110033095A (zh) * 2019-03-04 2019-07-19 北京大学 一种高可用分布式机器学习计算框架的容错方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Using Virtualization to Improve Software Rejuvenation";Luis Moura Silva;《Sixth IEEE International Symposium on Network Computing and Applications》;20070723;全文 *
"浅析硬盘播出系统视频播出服务器宕机";王皖春;《现代电技术》;20160415;全文 *

Also Published As

Publication number Publication date
CN111641716A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111641716B (zh) 参数服务器的自愈方法、参数服务器及参数服务系统
US11627041B2 (en) Dynamic reconfiguration of resilient logical modules in a software defined server
CN111078147B (zh) 一种缓存数据的处理方法、装置、设备及存储介质
US10191879B2 (en) System and method for creating snapshots in openflame environment
CN110417613B (zh) 基于Jmeter的分布式性能测试方法、装置、设备及存储介质
JP5140633B2 (ja) 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
US20080263390A1 (en) Cluster system and failover method for cluster system
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
JP2011186783A (ja) スナップショット管理方法、スナップショット管理装置、及びプログラム
WO2021004256A1 (zh) 一种节点故障时进行节点切换的方法及相关设备
US20230244579A1 (en) Event-driven system failover and failback
US20170357552A1 (en) Technologies for data center environment checkpointing
US20240152286A1 (en) Fast restart of large memory systems
US20240345844A1 (en) Cluster Management Method, Device, and Computing System
CN114237510A (zh) 数据处理方法、装置、电子设备及存储介质
US20180089189A1 (en) Quick hardware inventory of a software-defined data center (sddc) multi-rack
CN111897626A (zh) 一种面向云计算场景的虚拟机高可靠系统和实现方法
CN114328083B (zh) 一种wdt监控方法、装置及介质
US8793526B2 (en) Firmware management in a computing system
US11271999B2 (en) Flexible associativity in multitenant clustered environments
CN114363356A (zh) 数据同步方法、系统、装置、计算机设备和存储介质
US20210173698A1 (en) Hosting virtual machines on a secondary storage system
CN115757266A (zh) 一种soc芯片、电子设备及防止配置数据丢失的方法
CN110928592A (zh) 一种嵌入式系统及其启动方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant