CN117909418A - 深度学习模型存储一致性方法、计算子系统以及计算平台 - Google Patents
深度学习模型存储一致性方法、计算子系统以及计算平台 Download PDFInfo
- Publication number
- CN117909418A CN117909418A CN202410320463.XA CN202410320463A CN117909418A CN 117909418 A CN117909418 A CN 117909418A CN 202410320463 A CN202410320463 A CN 202410320463A CN 117909418 A CN117909418 A CN 117909418A
- Authority
- CN
- China
- Prior art keywords
- node
- proposal
- information
- distributed
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000013136 deep learning model Methods 0.000 title claims abstract description 65
- 238000003860 storage Methods 0.000 title claims abstract description 40
- 238000009826 distribution Methods 0.000 claims abstract description 112
- 230000004044 response Effects 0.000 claims abstract description 104
- 238000004891 communication Methods 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims description 57
- 230000002159 abnormal effect Effects 0.000 claims description 29
- 238000012544 monitoring process Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000007405 data analysis Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001934 delay Effects 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 15
- 238000013135 deep learning Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请属于数据处理领域,尤其涉及一种深度学习模型存储一致性方法、计算子系统以及计算平台,该方法包括:第一分布式节点创建待更新的提议信息;采用动态参数分发模型,获取与提议信息匹配的提议分发信息;将提议信息发送给第二分布式节点,以使第二分布式节点判断是否响应提议信息;接收第二分布式节点的提议响应信息;若发出提议响应信息的数量达到动态门限,则触发计算子系统中的所有分布式节点更新待更新数据,以使待更新数据在计算子系统中保持存储数据的一致性。该方法能够解决深度学习模型在分布训练过程中的数据一致性问题,以确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销。
Description
技术领域
本申请属于数据处理领域,尤其涉及一种深度学习模型存储一致性方法、计算子系统以及计算平台。
背景技术
目前,为提升各个产业、各个领域的智能化应用普及程度,亟待构建一种智能化计算平台,用以辅助智能超算中心的建设,为科研、产业、城市服务提供人工智能平台的构建基础,进一步通过智能化计算平台实现人才聚集、产业升级、发展。
深度学习是机器学习的一个分支,它利用多层的人工神经网络来模拟人类的学习过程。深度学习模型通常需要大量的数据进行训练,因此,分布式训练成为了一种有效的解决方案。分布式训练可以将训练任务分配到多个计算节点上并行执行,从而大大提高训练效率。
然而,相关技术中,为解决分布式系统中数据不一致问题,提出了一致性存储技术。这种技术通过在多个计算节点之间复制数据,并维护数据的一致性状态,从而保证每个计算节点上的数据都是相同的。现有的一致性存储技术在处理大规模数据时,可能会出现性能瓶颈,影响训练效率。现有技术中,为了解决分布式训练中的数据一致性问题,主要是通过引入协调节点来管理所有计算节点的数据更新。但是,引入协调节点会增加系统的复杂性,同时也会增加通信开销,影响系统的性能。
因此,亟待提出一种技术方案,用于解决深度学习模型在分布训练过程中的数据一致性问题,以确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销。
发明内容
本申请提供了一种深度学习模型存储一致性方法、计算子系统以及计算平台,用以保证深度学习模型在分布训练过程中的数据一致性,确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销。
第一方面,本申请提供了一种深度学习模型存储一致性方法,应用于深度学习模型的计算子系统中,所述计算子系统至少包括多个分布式节点;该方法包括:
第一分布式节点创建待更新的提议信息;所述提议信息至少包括:深度学习模型中待更新数据,所述待更新数据包括模型参数和/或训练数据;
采用动态参数分发模型,获取与所述提议信息匹配的提议分发信息;其中,所述提议分发信息包括:用于选举所述提议信息的第二分布式节点、以及对应的动态门限,所述动态门限为所述计算子系统响应所述提议信息所需的最小节点数量,所述动态门限是所述动态参数分发模型根据所述提议信息和所述计算子系统动态计算得到的;
将所述提议信息发送给所述第二分布式节点,以使所述第二分布式节点判断是否响应所述提议信息;
接收所述第二分布式节点的提议响应信息;
若发出所述提议响应信息的数量达到所述动态门限,则触发所述计算子系统中的所有分布式节点更新所述待更新数据,以使所述待更新数据在所述计算子系统中保持存储数据的一致性。
第二方面,本申请实施例提供了一种计算子系统,应用于深度学习模型的计算子系统中,所述计算子系统至少包括多个分布式节点;所述计算子系统中的第一分布式节点至少包括以下单元:
获取单元,被配置为创建待更新的提议信息;所述提议信息至少包括:深度学习模型中待更新数据,所述待更新数据包括模型参数和/或训练数据;采用动态参数分发模型,获取与所述提议信息匹配的提议分发信息;其中,所述提议分发信息包括:用于选举所述提议信息的第二分布式节点、以及对应的动态门限,所述动态门限为所述计算子系统响应所述提议信息所需的最小节点数量,所述动态门限是所述动态参数分发模型根据所述提议信息和所述计算子系统动态计算得到的;
分发单元,被配置为将所述提议信息发送给所述第二分布式节点,以使所述第二分布式节点判断是否响应所述提议信息;
统计单元,被配置为接收所述第二分布式节点的提议响应信息;若发出所述提议响应信息的数量达到所述动态门限,则触发所述计算子系统中的所有分布式节点更新所述待更新数据,以使所述待更新数据在所述计算子系统中保持存储数据的一致性。
第三方面,本申请实施例提供了一种计算设备,所述计算设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面的深度学习模型存储一致性方法。
第四方面,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行该指令时,使得计算机执行第一方面的深度学习模型存储一致性方法。
本申请实施例提供的技术方案中,该方案可以应用于深度学习模型的计算子系统中,计算子系统至少包括多个分布式节点。首先,第一分布式节点创建待更新的提议信息。该提议信息至少包括:深度学习模型中待更新数据,待更新数据包括模型参数和/或训练数据。其次,采用动态参数分发模型,获取与提议信息匹配的提议分发信息。其中,提议分发信息包括:用于选举提议信息的第二分布式节点、以及对应的动态门限。动态门限为计算子系统响应提议信息所需的最小节点数量。动态门限是动态参数分发模型根据提议信息和计算子系统动态计算得到的。进而,将提议信息发送给第二分布式节点,以使第二分布式节点判断是否响应提议信息。接着,接收第二分布式节点的提议响应信息。最后,若发出提议响应信息的数量达到动态门限,则触发计算子系统中的所有分布式节点更新待更新数据,以使待更新数据在计算子系统中保持存储数据的一致性。
本申请技术方案中,引入动态参数分发模型以及动态门限机制,使系统更具适应性、可扩展性,并提供了一种有效的方式来保障深度学习模型在分布式环境中的存储一致性。该方案能够解决深度学习模型在分布训练过程中的数据一致性问题,以确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种深度学习模型存储一致性方法的流程示意图;
图2是本申请实施例的一种动态参数分发模型的原理示意图;
图3是本申请实施例的一种动态参数分发模型的另一原理示意图;
图4是本申请实施例的一种计算子系统的结构示意图;
图5是本申请实施例的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
目前,为提升各个产业、各个领域的智能化应用普及程度,亟待构建一种智能化计算平台,用以辅助智能超算中心的建设,为科研、产业、城市服务提供人工智能平台的构建基础,进一步通过智能化计算平台实现人才聚集、产业升级、发展。
深度学习是机器学习的一个分支,它利用多层的人工神经网络来模拟人类的学习过程。深度学习模型通常需要大量的数据进行训练,因此,分布式训练成为了一种有效的解决方案。分布式训练可以将训练任务分配到多个计算节点上并行执行,从而大大提高训练效率。
然而,相关技术中,为解决分布式系统中数据不一致问题,提出了一致性存储技术。这种技术通过在多个计算节点之间复制数据,并维护数据的一致性状态,从而保证每个计算节点上的数据都是相同的。现有的一致性存储技术在处理大规模数据时,可能会出现性能瓶颈,影响训练效率。现有技术中,为了解决分布式训练中的数据一致性问题,主要是通过引入协调节点来管理所有计算节点的数据更新。当一个计算节点修改了其本地数据时,它会向协调节点发送一个通知,然后协调节点会向其他计算节点发送指令,让它们也更新其本地数据。这种方法可以保证所有计算节点上的数据都是相同的,从而保证训练过程的有效性和准确性。
但是,现有技术中,引入协调节点会增加系统的复杂性,同时也会增加通信开销,影响系统的性能。其次,现有的一致性存储技术在处理大规模数据时,可能会出现性能瓶颈,因为每次数据更新都需要在所有计算节点之间进行复制和同步,这会消耗大量的时间和资源。此外,现有技术也无法保证在极端情况下(例如网络中断或者计算节点故障)的数据一致性,这可能会导致训练过程的失败。
因此,在不引入协调节点的情况下,如何保证深度学习模型在分布式训练过程中的数据一致性,确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销,是亟待解决的技术问题。
为解决上述至少一个技术问题,本申请实施例提供了一种深度学习模型存储一致性方法、计算子系统以及计算平台。
具体而言,深度学习模型存储一致性方案中,该方案可以应用于深度学习模型的计算子系统中,计算子系统至少包括多个分布式节点。首先,第一分布式节点创建待更新的提议信息。该提议信息至少包括:深度学习模型中待更新数据,待更新数据包括模型参数和/或训练数据。其次,采用动态参数分发模型,获取与提议信息匹配的提议分发信息。其中,提议分发信息包括:用于选举提议信息的第二分布式节点、以及对应的动态门限。动态门限为计算子系统响应提议信息所需的最小节点数量。动态门限是动态参数分发模型根据提议信息和计算子系统动态计算得到的。进而,将提议信息发送给第二分布式节点,以使第二分布式节点判断是否响应提议信息。接着,接收第二分布式节点的提议响应信息。最后,若发出提议响应信息的数量达到动态门限,则触发计算子系统中的所有分布式节点更新待更新数据,以使待更新数据在计算子系统中保持存储数据的一致性。
深度学习模型存储一致性方案中,首先通过采用动态参数分发模型,该方案能够根据当前系统状态和提议信息的特性实时计算动态门限。这种适应性使系统能够灵活应对不同的工作负载和网络环境,从而提高了系统的性能和效率。并且,由于动态门限的引入,系统也可以根据需要自动调整响应的节点数量。这有助于提高系统的可扩展性,使其能够更好地处理不断增长的计算需求,而无需手动调整参数。同时,通过在提议响应阶段引入动态门限,系统确保了在触发一致性更新时有足够数量的节点响应。这有助于维护深度学习模型在分布式环境中的数据一致性,防止因节点响应不足而引起的问题。此外,动态门限的使用可以避免在不必要的情况下触发一致性更新,从而降低了系统的通信开销。在达到足够的响应数量时才会触发一致性更新,减少了不必要的数据传输和计算开销。还可以根据实际需求对动态门限进行调整,提供了系统的灵活性和可配置性,以适应不同的应用场景和性能要求。
总体而言,这个深度学习模型存储一致性方案引入动态参数分发模型以及动态门限机制,使系统更具适应性、可扩展性,并提供了一种有效的方式来保障深度学习模型在分布式环境中的存储一致性。该方案能够解决深度学习模型在分布训练过程中的数据一致性问题,以确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销。
本申请实施例提供的深度学习模型存储一致性方案,可以由一电子设备来执行,该电子设备可以是服务器、服务器集群、云服务器。该电子设备也可以是诸如手机、计算机、平板电脑、可穿戴设备、或者专用设备(如带有计算子系统的专用终端设备等)等终端设备。在一可选实施例中,该电子设备上可以安装有用于执行深度学习模型存储一致性方案的服务程序。
图1为本申请实施例提供的一种深度学习模型存储一致性方法的示意图,该方法应用于深度学习模型的计算子系统中,该计算子系统至少包括多个分布式节点。如图1所示,该方法包括以下步骤:
101,第一分布式节点创建待更新的提议信息。
本申请实施例中,第一分布式节点指的是分布式系统中的一个节点,它在系统中担任着特定的角色。在深度学习模型存储一致性方案中,第一分布式节点通常是指负责发起模型更新请求、生成提议信息,并将提议信息发送给其他节点的节点。换句话说,第一分布式节点是系统中负责初始化和发起一致性更新操作的节点。
在一个分布式深度学习环境中,第一分布式节点可能是一个服务器、主控节点或任何其他被指定为管理和协调模型更新的节点。它负责收集模型参数变化、训练数据更新等信息,然后将这些信息整合为提议信息,以便后续的一致性更新过程。总的来说,第一分布式节点在分布式深度学习系统中扮演着发起模型更新、维护一致性的重要角色。
本申请实施例中,提议信息至少包括:深度学习模型中待更新数据。例如,待更新数据包括模型参数和/或训练数据。举例来说,假设有一个深度学习模型用于图像分类任务。在训练过程中,模型参数需要不断地更新以提高性能。第一分布式节点收集到了一批新的训练数据,并决定在整个计算子系统中更新模型参数。提议信息包括待更新的模型参数、训练数据。例如,深度学习模型中的权重、偏差、图像训练数据。具体来说,提议信息中的模型参数可以表示为一个包含各层权重矩阵和偏差向量的数据结构。这些参数是深度学习模型学习过程的关键组成部分。提议信息中的训练数据可以表示为包含图像文件、标签信息或其他输入数据的数据集描述。这样的数据集将被用于更新深度学习模型,以提高其在相关任务上的性能。通过将这两类待更新数据结合在提议信息中,第一分布式节点能够明确指定计算子系统需要更新的内容。这有助于确保在分布式环境中的不同节点上执行的模型更新操作是一致的,从而维护整个系统的一致性。
这样,提议信息中包含关键的提议信息,描述计算子系统需要更新的内容。上述示例中,待更新的模型参数和训练数据是深度学习模型的关键组成部分。这些信息将在后续的步骤中用于动态参数分发模型的计算和提议响应机制的触发。
102中,采用动态参数分发模型,获取与提议信息匹配的提议分发信息。
其中,提议分发信息包括:用于选举提议信息的第二分布式节点、以及对应的动态门限。
本申请实施例中,第二分布式节点指的是在分布式系统中,相对于第一分布式节点而言的其他多个节点,它在特定的操作或任务中担任着不同的角色。在深度学习模型存储一致性方案中,第二分布式节点是被选中来响应第一分布式节点发起的提议信息的节点。
具体来说,第二分布式节点被选择为响应提议信息的节点,可能根据系统的负载情况、网络拓扑结构、节点的可用性以及其他因素进行确定。其主要任务是接收并处理来自第一分布式节点的提议信息,并在达到动态门限的条件下参与更新操作,以确保系统的一致性和有效性。
在分布式深度学习环境中,第二分布式节点可能是其他服务器、工作节点或者在系统中具有处理能力和资源的任何节点。它们的选择和参与对于确保模型参数的一致性和准确性至关重要。
本申请实施例中,动态门限为计算子系统响应提议信息所需的最小节点数量。动态门限是动态参数分发模型根据提议信息和计算子系统动态计算得到的。可以理解的是,动态门限是根据动态参数分发模型对提议信息和计算子系统的状态进行计算而得出的一个值,用于确定在响应提议信息时所需的最小节点数量。这个门限的目的是确保系统在进行更新操作时能够达到一定的共识,并且足够的节点参与,从而维持一致性。
举例介绍,假设在一个分布式深度学习环境中,第一分布式节点已经创建了待更新的提议信息,其中包括了要更新的模型参数和训练数据。在该步骤中,需要确定哪个分布式节点将会负责响应这个提议信息,并且设置一个动态门限来确保足够数量的节点响应,以维持系统的一致性。
在一个可选示例中,动态参数分发模型将根据当前系统状态和提议信息的特性来选择第二分布式节点。这个选择过程可能涉及到节点的负载情况、网络延迟以及节点的可用性等因素。假设节点B被选举为第二分布式节点。可以理解的是,动态门限是根据提议信息和计算子系统的动态计算得到的。例如,动态参数分发模型可能会考虑当前系统中的节点数量以及网络通信的可靠性等因素来确定动态门限的大小。假设动态门限被计算为3个节点,基于此,提议分发信息中指定了节点B作为第二分布式节点,并设置了动态门限为3个节点。这意味着只有当至少3个节点响应了这个提议信息时,才会触发后续的一致性更新操作。这样可以确保更新操作在系统中得到足够的支持,从而维持数据的一致性。
通过提供这样的提议分发信息,系统能够在保证一致性的前提下,有效地选择响应节点,并设置一个合理的门限来控制更新操作的触发。
另一示例中,进一步地,假设在一个分布式深度学习环境中,系统当前有5个节点,每个节点的负载和网络延迟不同。提议信息中包含了重要的模型参数更新,需要确保足够多的节点参与以维持一致性。根据系统状态,动态参数分发模型可能发现其中有2个节点负载较高,1个节点网络延迟较大,因此需要考虑这些因素来确定动态门限。提议信息的分析表明,这次更新对整个模型的性能至关重要,因此需要更高的共识。动态参数分发模型计算出动态门限为4个节点,即至少需要4个节点响应这个提议信息,才能触发更新操作。根据系统状态和提议信息的分析,动态参数分发模型使用一定的算法或规则来计算动态门限。此类计算可以进一步提升系统容错性,以及确保在一定节点失败的情况下仍然能够保持一致性。
通过这样的动态门限计算,系统能够根据实际情况调整所需的最小节点数量,从而在不同的环境和更新需求下保持一致性。
作为一个可选实施例,假设动态参数分发模型至少包括:当前状态监测层、决策引擎、动态门限计算层、参数调整层。作为一个可选的实施例,动态参数分发模型可能包括以下组件:
当前状态监测层,这一层负责监测和收集系统的当前状态信息,包括但不限于:节点数量,记录系统中当前的节点数量,以便在计算动态门限时考虑节点的总体情况。节点负载,监测每个节点的负载情况,例如 CPU 使用率、内存使用率等。网络延迟,测量节点之间的通信延迟,以确定数据传输的效率。节点可用性,检测每个节点的健康状态,确保只有正常运行的节点被纳入计算。
决策引擎,是动态参数分发模型的核心部分,负责根据系统状态和提议信息制定具体的决策策略。具体地,根据当前的系统状态、提议信息的重要性和影响范围,制定合适的决策策略。也可以根据不同的情况调整动态门限计算所需的参数,例如容错性要求、最小节点参与数量等。
动态门限计算层,这一层根据决策引擎提供的参数和策略,计算出实际的动态门限值。具体地,使用特定的算法或规则来计算动态门限。例如,考虑节点负载平衡、网络拓扑结构、容错性要求等因素。根据系统的实际运行情况动态调整门限值,以适应不同的环境和需求。
参数调整层,这一层负责根据动态门限的计算结果对系统的参数进行调整和配置。例如,根据动态门限确定哪些节点将被选为参与更新操作的节点。通知选定的节点并协调它们的操作,确保在一致性更新过程中的顺利执行。具体地,处理在更新过程中可能出现的错误或异常情况,保证系统的稳定性和可靠性。
通过以上这些层级的组件和功能,动态参数分发模型能够根据系统的动态情况和提议信息的特性,灵活地计算出适当的动态门限值,并相应地调整系统参数,从而保证分布式深度学习系统的一致性、效率和可靠性。
在一个可选示例中,基于上述结构,102中,采用动态参数分发模型,获取与提议信息匹配的第二分布式节点以及对应的动态门限,如图2所示,可以实现为如下步骤:
201,通过当前状态监测层,获取提议信息、以及发出提议信息的第一分布式节点关联的节点连接结构。
在这一步骤中,系统通过当前状态监测层获取与提议信息匹配的第二分布式节点以及与第一分布式节点关联的节点连接结构。具体地,获取当前分布式系统中的节点连接结构,了解各个节点之间的关系和通信拓扑。从第一分布式节点接收提议信息,该信息包含模型更新请求、参数变化等关键信息。通过分析节点连接结构,确定与提议信息匹配的第二分布式节点,即响应第一分布式节点提议的节点。
202,通过决策引擎,从存储的多种提议响应决策策略中,选取与提议信息以及节点连接结构所匹配的提议响应决策策略,并基于选取出的提议响应决策策略,向动态门限计算层下发动态计算指令。
在这一步骤中,系统通过决策引擎从存储的多种提议响应决策策略中选择与提议信息及节点连接结构匹配的策略。具体地,决策引擎根据系统状态和提议信息的特征,选择适当的提议响应决策策略,这些策略可能事先定义在系统中。通过决策引擎向动态门限计算层下发动态计算指令,包含所选取的提议响应决策策略和相关参数。
203,通过动态门限计算层,响应于动态计算指令,基于动态计算指令中的提议响应决策策略、提议信息、以及节点连接结构,生成提议分发信息。
其中,动态计算指令是由决策引擎发出的命令,目的是指导动态门限计算层执行特定的计算操作,以生成适用于当前系统状态和提议信息的动态门限值。这些指令包含了决策引擎选择的提议响应决策策略和相关的参数,为动态门限计算层提供了执行计算的具体指导。
此处,动态计算指令的目标是通过有效的信息传递,使动态门限计算层能够根据具体的情况灵活地计算出适当的动态门限值。这种动态性和灵活性使得系统能够在不同的情境下做出合适的响应,从而更好地满足分布式深度学习系统的要求。
在这一步骤中,系统通过动态门限计算层响应决策引擎下发的指令,基于提议响应决策策略、提议信息以及节点连接结构生成提议分发信息。这可能包括以下操作:第一,根据指定的提议响应决策策略,动态门限计算层计算出适用于当前情况的动态门限值。第二,基于计算出的动态门限值,结合提议信息和节点连接结构,生成包含响应节点和动态门限的提议分发信息。
204,通过参数调整层,将提议分发信息应用到计算子系统中相关的分布式节点中,以启动提议信息的分发过程。
在这一步骤中,系统通过参数调整层将生成的提议分发信息应用到计算子系统中的相关分布式节点,启动提议信息的分发过程。通过参数调整层可以根据提议分发信息中指定的响应节点,选择相应的节点,并通知它们参与模型更新。进而,选定的节点根据收到的提议信息开始模型更新过程,可能涉及模型参数的修改、训练数据的更新等操作。参数调整层可能还负责处理分发过程中可能出现的错误或异常情况,确保系统的稳定性和可靠性。
通过步骤201至204,动态参数分发模型能够根据系统的状态和提议信息的特征,灵活地选择提议响应策略、计算动态门限值,并将更新信息有效地分发给适当的节点,以维护系统的一致性和效率。
进一步可选地,动态参数分发模型还包括:历史数据分析层。其中,历史数据分析层是动态参数分发模型的一个可选组成部分,它用于分析和利用系统过去的运行数据,以优化动态参数分发过程。通过引入历史数据分析层,动态参数分发模型能够更加智能地利用过去的经验和数据,提高系统的自适应性和性能,从而更好地满足分布式深度学习系统的需求。
基于此,在102中采用动态参数分发模型,获取与提议信息匹配的第二分布式节点以及对应的动态门限之前,还可以通过历史数据分析层,基于历史提议信息和/或历史响应数据,更新决策引擎中设置的提议响应决策策略。
其中,历史数据分析参数包括但不限于以下参数:
历史数据利用权重(Historical Data Weight),决定在历史数据分析中新数据和旧数据的权衡。较高的权重可能使系统更注重最近的数据,而较低的权重则更平衡地考虑历史数据。
预测准确性权重(Prediction Accuracy Weight),在考虑历史数据的同时,系统可能使用历史预测的准确性来调整决策策略参数。此权重用于平衡历史数据和预测准确性的影响。
其中,提议响应决策策略至少包含:决策策略参数。决策策略参数包括但不限于以下参数:
决策阈值(Decision Threshold),表示在动态门限计算中的阈值,用于判断是否接受或拒绝提议信息。当提议的得分或相关度超过此阈值时,系统可能选择接受提议并执行相应的操作。
容错性参数(Fault Tolerance),决定系统对于潜在错误或异常情况的容忍程度。较高的容错性参数可能导致更容忍的响应,从而避免过度敏感地拒绝提议。
学习率(Learning Rate),用于控制系统对新信息的适应速度。较高的学习率可能使系统更快地调整门限值,而较低的学习率则可能更保守地对待新信息。
更新频率(Update Frequency),决定决策引擎何时更新提议响应决策策略。较高的更新频率可能使系统更灵活,但也可能导致过多的决策引擎更新。
此外,还可以在历史数据分析中引入其他参数,比如,系统资源参数(SystemResource Parameters),具体地,包括但不限于:系统可用资源、节点负载等信息,这些参数用于在决策策略中考虑系统整体状态。这些参数可能包括可用内存、网络带宽等。
这些参数共同组成提议响应决策策略,通过动态调整这些参数,系统能够更灵活地适应不同的工作负载、环境变化和提议信息的特征。通过在历史数据分析层中使用这些参数,系统可以更智能地利用过去的经验,提高动态参数分发模型的性能和适应性。
作为一个可选实施例中,202中,选取与提议信息以及节点连接结构所匹配的提议响应决策策略,如图3所示,可以实现为:
301,对提议信息进行特征分析,以获得对应的提议类型、提议需求程度、提议优先级;
302,对节点连接结构进行特征分析,以获得第一分布式节点对应的通信关系类型、拓扑结构类型、网络带宽、网络延迟;
303,获取经特征分析得到的提议类型、提议需求程度、提议优先级、通信关系类型、拓扑结构类型、网络带宽、网络延迟所对应的目标特征组合;
304,将目标特征组合对应的提议响应决策策略,确定为第一分布式节点匹配的提议响应决策策略。
举例来说,301中,针对接收到的提议信息,系统首先进行特征分析。这可能包括提议的类型(例如模型更新请求、资源请求等)、提议的需求程度(例如紧急程度)、提议的优先级等。通过对提议信息的这些特征进行分析,系统可以更好地理解提议的性质和重要程度。接下来,302中,系统对与提议相关的节点连接结构进行特征分析。这包括了第一分布式节点的通信关系类型(例如点对点通信、广播通信等)、拓扑结构类型(例如星型、网状等)、网络带宽、网络延迟等。这些特征可以帮助系统了解节点之间的通信情况和网络状况,从而更好地决定如何响应提议。进而,303中,基于对提议信息和节点连接结构的特征分析,系统确定目标特征组合,即提议类型、需求程度、优先级以及节点连接结构相关的特征组合。这个组合反映了系统对于这个提议的具体要求和条件。最后,304中,系统根据目标特征组合,确定适合的提议响应决策策略。这个策略可能是预先定义好的,也可能是根据历史数据分析层的结果动态生成的。它包括了如何设置动态门限、如何调整参数等具体措施,以最大程度地满足提议的需求并保证系统的稳定性和效率。这个示例通过对提议信息和节点连接结构的特征分析,确定了针对每个提议的具体响应策略,从而使系统能够更智能地处理不同类型和不同优先级的提议,并根据系统状态和网络情况做出实时调整。
103中,将提议信息发送给第二分布式节点,以使第二分布式节点判断是否响应提议信息。
在103中,将提议信息发送给第二分布式节点的目的是让该节点判断是否对提议信息做出响应。这种情况下,通常会使用一种动态参数分发模型来确定是否响应提议信息。
示例性地,假设有一个分布式系统,其中包括多个节点,每个节点都有自己的资源和能力。现在,节点A接收到了一个提议信息,该信息包含一个任务,需要其他节点来执行。节点A根据自身的策略,决定将这个提议信息发送给与之连接的节点B、C、D。节点B是一个性能较高的节点,拥有足够的资源来执行提议中的任务。在接收到提议信息后,节点B进行动态参数分发模型的计算,根据提议的特征以及系统当前的状态来判断是否响应。如果节点B认为自己有足够的资源,并且提议的重要性高于其设定的决策阈值,那么它会决定响应该提议并执行任务。节点C是一个资源有限的节点,但是它对网络带宽要求较低。在接收到提议信息后,节点C也进行类似的动态参数分发模型计算,考虑自身资源情况以及提议的特征。如果节点C认为自己可以承担任务并且网络延迟较低,那么它可能会决定响应提议并执行任务。节点D是一个负载较高的节点,它可能已经接收到了其他任务或者正在执行其他任务。在接收到提议信息后,节点D也会进行动态参数分发模型的计算。如果节点D认为自身负载过重或者提议的重要性未达到其设定的决策阈值,那么它可能会选择不响应提议。
这个示例说明了如何利用动态参数分发模型,在第二分布式节点处进行决策,判断是否响应提议信息。通过考虑节点自身资源情况、提议的特征以及系统当前状态,每个节点能够智能地决定是否承担任务,从而实现任务的有效分发和执行。
在一个分布式系统中,第二分布式节点接收到提议信息后,需要根据系统的策略来判断是否响应该提议信息。这种判断可能基于一系列因素,包括提议的内容、当前节点的状态以及系统整体的负载情况等。
举例来说,假设一个分布式系统用于资源分配和任务调度。第二分布式节点接收到一个提议信息,内容是请求分配额外的计算资源以执行一个重要任务。在这种情况下,第二分布式节点需要考虑以下因素:
其一,当前节点负载情况:第二分布式节点首先会检查自身的负载情况。如果当前节点已经处于高负载状态,分配更多资源可能会影响系统的整体性能。
其二,提议的重要性和紧急程度:第二分布式节点会评估提议的重要性和紧急程度。如果提议涉及到执行关键任务或是处理紧急事件,第二分布式节点可能更倾向于响应提议并分配所需资源。
其三,系统全局状态:节点还需要考虑系统整体的状态。如果其他节点也在处理类似的请求,而且系统资源有限,第二分布式节点可能需要权衡不同请求之间的优先级。
其四,策略和规则:分布式系统可能预先定义了一系列策略和规则,用于决定如何处理不同类型的提议。这些规则可能基于历史数据、预测模型或是系统管理员的配置进行制定。
基于以上考虑,第二分布式节点将综合评估提议信息,并根据系统策略做出决定。例如,如果当前节点负载较低,提议涉及执行紧急任务,并且系统整体资源充足,那么第二分布式节点可能会响应提议并分配所需资源。然而,如果节点已经负载过重或是其他因素影响了资源分配的可行性,节点可能会选择拒绝提议或是推迟响应直至适当时机。
104中,接收第二分布式节点的提议响应信息。
105中,若发出提议响应信息的数量达到动态门限,则触发计算子系统中的所有分布式节点更新待更新数据,以使待更新数据在计算子系统中保持存储数据的一致性。
在一个分布式系统中,假设第二分布式节点接收到了提议响应信息,这个响应信息可能是对先前提议的接受或拒绝,或是关于资源分配的确认或调整。当第二分布式节点接收到这样的提议响应信息时,它需要相应地处理并可能采取一些行动。
举例来说,假设一个分布式系统用于协调多个节点之间的任务执行。第二分布式节点发送了一个提议给其他节点,请求它们分配更多的计算资源以加速一个特定的任务。其他节点收到了这个提议后,可能会发送提议响应信息给第二分布式节点。如果第二分布式节点接收到了足够数量的积极响应,即超过系统定义的动态门限,那么,可能会触发计算子系统中的所有分布式节点更新待更新数据,以保持数据的一致性。这个动作的目的是确保系统在进行任务执行时,所有节点都有最新的数据状态,以避免数据不一致导致的问题。
举例来说,如果一个分布式系统中的多个节点负责协同完成一个大型数据处理任务,其中某个节点发送了一个提议请求其他节点分配更多资源。如果其他节点收到了这个提议并同意了,当第二分布式节点接收到足够数量的积极响应后,就会触发所有节点更新待更新数据。这意味着每个节点将会更新自己的数据状态,确保所有节点在任务执行过程中都基于最新的数据进行操作,从而保持数据一致性和任务执行的准确性。
另一示例中,在一个分布式计算系统中,当接收到的提议响应信息数量达到了动态门限时,会触发计算子系统中所有的分布式节点更新待更新数据,以确保在计算子系统中存储的数据保持一致性。假设有一个分布式机器学习系统,用于训练模型。在这个系统中,每个分布式节点都负责处理一部分数据,并且根据接收到的提议响应信息来决定是否更新本地数据。假设系统中有数十个分布式节点,它们都在处理不同的数据批次进行模型训练。当某个节点完成了一轮训练并准备好更新其本地数据时,它会向其他节点发送提议响应信息,请求其他节点也更新它们的本地数据以确保整个系统的模型保持一致。经过上述步骤设定有一个动态门限,当接收到的提议响应信息数量达到该门限时,就会触发数据一致性更新操作。假设门限被设置为大部分节点的一半加一。当某个节点发送了提议响应信息后,其他节点收到了这个信息并确认进行数据更新。当达到了设定的门限时,比如超过了系统中的一半加一的节点都已经确认进行了数据更新,系统就会触发一致性更新操作。这时,所有的分布式节点都会在本地执行数据更新操作,确保每个节点的模型参数都与其他节点保持一致。这样,整个系统的模型状态参数就得到了同步,保证了计算结果的准确性和一致性。
进一步可选地,在105中触发所述计算子系统中的所有分布式节点更新所述待更新数据之后,还可以监测多个分布式节点的运行情况数据,所述运行情况数据至少包括:节点运行状态、资源利用率、网络连通性信息。进而,通过自愈决策模型,对所述运行情况数据进行异常识别,以获得用于指示待修复节点的异常预警信息。所述异常预警信息还包括:所述待修复节点对应的异常类型、以及异常影响范围。最后,基于所述待修复节点的异常类型以及异常影响范围,触发对应的节点修复操作,并启动所述待修复节点的修复进度实时监测。其中,所述节点修复操作操作至少包括:节点异常处理、灰度发布、以及回滚操作。
这段描述中涉及了一套系统的自愈机制,主要是针对分布式节点的异常情况进行监测、识别和修复。以下结合具体示例介绍上述机制,首先,需要监测分布式节点的运行情况数据。这个步骤是通过监控节点的运行情况数据来了解节点的当前状态。进而,上述自愈机制中,还可以使用自愈决策模型对监测到的运行情况数据进行分析,识别是否存在异常情况。如果有异常情况,则生成异常预警信息,其中包括异常节点的类型和影响范围。接着,根据异常预警信息,系统会触发相应的节点修复操作。这可能涉及到节点异常处理、灰度发布和回滚操作等。一旦节点修复操作启动,系统需要实时监测修复进度,以确保修复过程顺利进行。
在一个示例场景中,假设有一个分布式存储系统,由多个节点组成,用于存储用户上传的文件。系统每隔一段时间会对节点的运行情况进行监测。
在监测阶段,系统会持续监测节点的运行状态。例如,某个节点的磁盘利用率突然飙升,或者某个节点的网络连通性出现异常。当系统检测到某个节点的磁盘利用率异常高时,自愈决策模型会识别这一异常情况,并生成异常预警信息,说明这是磁盘利用率异常的情况,影响范围是该节点上存储的文件。进而,系统根据异常预警信息触发节点修复操作。可能的操作包括停止该节点的文件上传服务、清理磁盘空间、重新分配文件存储位置等。一旦修复操作启动,系统会实时监测修复进度。例如,监测磁盘清理的进度,确保磁盘空间已经得到释放。
通过这个自愈机制,系统可以自动识别节点异常并尝试修复,保障系统的稳定性和可用性。
实际应用中,监测分布式节点的运行情况数据涉及多个方面的信息,包括但不限于节点的运行状态、资源利用率、网络连通性等。一些监测方式和数据收集方法,例如是心跳检测。即通过定时发送心跳包来检测节点的运行状态,确保节点正常运行并对异常情况做出及时反应。一旦节点停止发送心跳,就可以判断节点出现了故障或不可用。例如,收集节点的CPU 使用率、内存占用情况、磁盘空间利用率等信息,以便及时发现节点资源紧张或异常占用情况。例如,通过定期的网络连通性检测,确保节点之间的通信畅通,并及时发现网络故障或断连情况。例如,收集节点的日志信息和事件记录,通过日志分析,可以及时发现节点的异常行为或错误信息,比如程序异常退出、服务不可用等情况。例如,收集节点的性能指标,如响应时间、吞吐量等,以便分析节点的性能表现和识别潜在的性能问题。例如,通过分布式跟踪系统,监控节点之间的调用链和请求流,确保分布式系统的各个部分都在正常工作。
此外,对于上述监测数据的收集,通常会利用各种监控系统和工具来实现,例如Prometheus、Zabbix、Nagios 等监控工具,以及日志分析系统和 APM(ApplicationPerformance Management)工具。这些工具能够帮助实现对分布式节点运行情况数据的全面监测和数据收集,为系统的稳定性和可用性提供保障。
本申请实施例中,引入动态参数分发模型以及动态门限机制,使系统更具适应性、可扩展性,并提供了一种有效的方式来保障深度学习模型在分布式环境中的存储一致性。该方案能够解决深度学习模型在分布训练过程中的数据一致性问题,以确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销。
在上述或下述实施例中,实际上,多种提议响应决策策略有多种。提议响应决策策略是指在分布式系统中,节点接收到提议信息后如何决定是否响应该提议的一种策略。这种策略基于系统的需求和设计考虑,以确保系统能够高效、正确地响应提议信息。通过制定合适的提议响应决策策略,分布式系统可以更好地处理提议信息,确保系统的稳定性、性能和可靠性。
实际应用中,进一步可选地,多种提议响应决策策略至少包括:节点负载均衡策略。具体来说,节点负载均衡策略指的是在一个分布式系统中,用于平衡各个节点之间负载的一种策略。该策略的目的是确保各个节点在处理任务时负载均衡,避免某些节点负载过重而导致系统性能下降或节点资源利用不均衡的情况发生。示例性地,节点负载均衡策略有多种,可以是基于负载均衡算法的策略,使用不同的算法来分配任务给不同的节点,以实现负载均衡。常见的负载均衡算法包括轮询、最少连接、加权轮询、随机等,在任务分配时根据节点的负载情况选择最适合的节点。也可以是基于节点健康状况的策略,根据节点的健康状况(如CPU使用率、内存使用率、网络带宽等)来动态调整任务分配,避免将任务分配给负载过重或不稳定的节点。还可以是基于任务类型的策略,不同类型的任务可能对节点资源的要求不同,可以根据任务的性质和需求将任务分配给最适合处理该类型任务的节点,以实现负载均衡。或者,也可以是基于数据分布的策略,如果任务涉及大量数据处理,可以根据数据分布情况将任务分配给数据局部性较高的节点,减少数据传输开销,从而实现负载均衡。当然,还可以是基于历史负载情况的策略,根据节点的历史负载情况和处理能力来预测未来的负载情况,调整任务分配策略以实现负载均衡。
这样,通过合理选择和实施节点负载均衡策略,可以提高系统整体性能、可靠性和效率,确保各个节点能够有效地处理任务,并避免因负载不均衡引起的问题。
其中,所述节点负载均衡策略根据节点负载情况调整动态门限的计算方式,以使被选为第二分布式节点的概率随节点负载降低而增加。
其中,通过动态门限计算层中生成所述提议分发信息中动态门限的过程表示为如下公式,即:
;
其中,表示动态门限,/>是调节因子,此处的调节因子用于平衡节点相对连接负载与基于历史动态门限/>的调整项之间的影响,/>表示节点相对连接负载,其中,/>表示第i个节点所连接的相关节点所消耗的计算资源,/>表示第i个节点对应的权重系数,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
在这个公式中,可以被视为节点的相对连接负载,/>则表示所连接的节点数量越少、负载越小的节点被选中的概率越高。这样,上述公式可以通过动态门限的调整,使得连接数较少、负载较小的节点更有可能被选为第二分布式节点。需要注意的是,上述调节因子可以是基于权衡节点负载均衡、提议信息和节点连接结构确定的。具体来说,也可以根据实际需求调整。
进一步可选地,多种提议响应决策策略至少包括:网络通信延迟策略。具体来说,网络通信延迟策略指的是在分布式系统中用于处理网络通信延迟的一种策略。通信延迟是指从发送方发送数据到接收方接收数据所经历的时间,这在分布式系统中是一个重要的考虑因素,因为网络通信的速度可能会受到多种因素的影响,如网络拥塞、带宽限制、传输距离等。例如,预取策略(Prefetching)。在预取策略中,系统会在预先需要数据的节点上缓存数据或者预先发送数据到可能会用到它们的节点上。这样可以减少请求数据时的等待时间,提高数据访问的效率。例如,就近策略(Proximity-Based),这种策略会尽量让通信的两个节点之间距离更近,例如选择网络拓扑结构中距离更短的路径或者就近部署相互通信频繁的节点。这样可以减少数据传输的距离,降低通信延迟。比如,多路径策略(Multi-Path),多路径策略通过同时使用多条通信路径来传输数据,这样可以增加数据传输的带宽,减少传输时的拥塞情况,从而降低通信延迟。例如,分级策略(Hierarchical),在分级策略中,系统会将网络分成多个层次,每个层次有不同的通信方式和延迟。这样可以根据实际情况选择合适的通信层次,以最小化通信延迟。例如,负载感知策略(Load-Aware),负载感知策略会考虑节点的负载情况,选择负载较低的节点进行通信,避免因为负载过重而导致通信延迟增加的情况。例如,自适应策略(Adaptive),自适应策略会根据实时的网络情况和系统负载情况动态调整通信方式和路径,以最优化通信效率和延迟。
上述这些网络通信延迟策略,可以单独应用或者结合使用,根据具体的系统需求和网络环境来选择,以提高系统的通信效率和性能。在分布式系统中,有效的网络通信延迟策略可以减少系统的响应时间,提高用户体验,并确保系统的稳定性和可靠性。
本申请实施例中,网络通信延迟策略根据节点之间的通信延迟情况来确定门限计算方式,以使被选为第二分布式节点的概率随节点通信延迟的降低而增加。在这种情况下,动态门限的计算可以考虑节点之间的通信延迟情况。
其中,通过动态门限计算层中生成所述提议分发信息中动态门限的过程表示为如下公式,即:
;
上述公式中,表示动态门限,/>是调节因子,此处的调节因子用于平衡节点的网络通信延迟项与基于历史动态门限/>的调整项之间的影响,/>表示第i个节点的网络通信延迟项,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
在这个公式中,可以被视为第i个节点的网络通信延迟项,/>则表示所连接的网络通信延迟越小的节点被选中的概率越高。这样,上述公式可以通过动态门限的调整,使得网络通信延迟较小的节点更有可能被选为第二分布式节点。比如,选择通信延迟最小的节点作为第二分布式节点。类似地,上述调节因子可以是基于权衡节点负载均衡、提议信息和节点连接结构确定的。具体来说,也可以根据实际需求调整。
进一步可选地,多种提议响应决策策略至少包括:节点可靠性策略。其中,节点可靠性策略,是指在分布式系统中用于确保各个节点可靠性的一系列策略和机制。在分布式系统中,节点可靠性非常重要,因为如果其中一个节点发生故障,整个系统的稳定性和可用性都会受到影响。
其中,所述节点可靠性策略根据节点的可靠性情况动态调整门限,以使被选为第二分布式节点的概率随节点可靠性的提升而增加;
其中,通过动态门限计算层中生成所述提议分发信息中动态门限的过程表示为如下公式,即:
;
上述公式中,表示动态门限,/>是调节因子,此处的调节因子用于平衡节点的网络通信延迟项与基于历史动态门限/>的调整项之间的影响,/>表示第i个节点的可靠性评估指标值,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
在这个公式中,即第i个节点的可靠性评估指标值,/>则表示所连接的可靠性评估指标值越高的节点被选中的概率越高。这样,上述公式可以通过动态门限的调整,使得可靠性评估指标值较高的节点更有可能被选为第二分布式节点。比如,选择可靠性评估指标值最高的节点作为第二分布式节点。类似地,上述调节因子可以是基于权衡节点负载均衡、提议信息和节点连接结构确定的。具体来说,也可以根据实际需求调整。
此外,多种提议响应决策策略还包括历史响应情况策略等,其中,所述历史响应情况策略根据历史响应情况动态调整门限,以使被选为第二分布式节点的概率随节点响应提议信息的频率增加而减少。此处,暂不赘述。
值得说明的是,多种提议响应决策策略至少包括:负载均衡策略、网络通信延迟策略、节点可靠性策略、历史响应情况策略等。这些策略可以根据系统需求和环境特性进行组合和调整,以实现动态门限的计算。
在本申请的又一实施例中,还提供了一种计算子系统,参见图4所示,该系统应用于深度学习模型的计算子系统中,所述计算子系统至少包括多个分布式节点。该计算子系统中的第一分布式节点至少包括以下单元:
获取单元,被配置为创建待更新的提议信息;所述提议信息至少包括:深度学习模型中待更新数据,所述待更新数据包括模型参数和/或训练数据;采用动态参数分发模型,获取与所述提议信息匹配的提议分发信息;其中,所述提议分发信息包括:用于选举所述提议信息的第二分布式节点、以及对应的动态门限,所述动态门限为所述计算子系统响应所述提议信息所需的最小节点数量,所述动态门限是所述动态参数分发模型根据所述提议信息和所述计算子系统动态计算得到的;
分发单元,被配置为将所述提议信息发送给所述第二分布式节点,以使所述第二分布式节点判断是否响应所述提议信息;
统计单元,被配置为接收所述第二分布式节点的提议响应信息;若发出所述提议响应信息的数量达到所述动态门限,则触发所述计算子系统中的所有分布式节点更新所述待更新数据,以使所述待更新数据在所述计算子系统中保持存储数据的一致性。
进一步可选地,所述动态参数分发模型至少包括:当前状态监测层、决策引擎、动态门限计算层、参数调整层;
所述获取单元,采用动态参数分发模型,获取与所述提议信息匹配的第二分布式节点以及对应的动态门限,具体被配置为:
通过当前状态监测层,获取所述提议信息、以及发出所述提议信息的第一分布式节点关联的节点连接结构;
通过决策引擎,从存储的多种提议响应决策策略中,选取与所述提议信息以及所述节点连接结构所匹配的提议响应决策策略,并基于选取出的提议响应决策策略,向动态门限计算层下发动态计算指令;
通过动态门限计算层,响应于所述动态计算指令,基于所述动态计算指令中的提议响应决策策略、所述提议信息、以及所述节点连接结构,生成所述提议分发信息;
通过参数调整层,将所述提议分发信息应用到所述计算子系统中相关的分布式节点中,以启动所述提议信息的分发过程。
进一步可选地,所述动态参数分发模型还包括:历史数据分析层;
所述获取单元,还被配置为:在采用动态参数分发模型,获取与所述提议信息匹配的第二分布式节点以及对应的动态门限之前,通过历史数据分析层,基于历史提议信息和/或历史响应数据,更新决策引擎中设置的提议响应决策策略;所述提议响应决策策略至少包含:决策策略参数。
进一步可选地,所述获取单元,选取与所述提议信息以及所述节点连接结构所匹配的提议响应决策策略,具体被配置为:
对所述提议信息进行特征分析,以获得对应的提议类型、提议需求程度、提议优先级;
对所述节点连接结构进行特征分析,以获得所述第一分布式节点对应的通信关系类型、拓扑结构类型、网络带宽、网络延迟;
获取经特征分析得到的提议类型、提议需求程度、提议优先级、通信关系类型、拓扑结构类型、网络带宽、网络延迟所对应的目标特征组合;
将目标特征组合对应的提议响应决策策略,确定为所述第一分布式节点匹配的提议响应决策策略。
进一步可选地,多种提议响应决策策略至少包括:节点负载均衡策略;
其中,所述节点负载均衡策略根据节点负载情况调整动态门限的计算方式,以使被选为第二分布式节点的概率随节点负载降低而增加;
其中,通过动态门限计算层中生成所述提议分发信息的过程表示为如下公式,即:
;
其中,表示动态门限,/>是调节因子,上述公式中调节因子用于平衡节点相对连接负载与基于历史动态门限/>的调整项之间的影响,/>表示节点相对连接负载,其中,/>表示第i个节点所连接的相关节点所消耗的计算资源,/>表示第i个节点对应的权重系数,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
进一步可选地,多种提议响应决策策略至少包括:网络通信延迟策略;
其中,所述网络通信延迟策略根据节点之间的通信延迟情况来确定门限计算方式,以使被选为第二分布式节点的概率随节点通信延迟的降低而增加;
其中,通过动态门限计算层中生成所述提议分发信息的过程表示为如下公式,即:
;
其中,表示动态门限,/>是调节因子,上述公式中调节因子用于平衡节点的网络通信延迟项与基于历史动态门限/>的调整项之间的影响,/>表示第i个节点的网络通信延迟项,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
进一步可选地,多种提议响应决策策略至少包括:节点可靠性策略;
其中,所述节点可靠性策略根据节点的可靠性情况动态调整门限,以使被选为第二分布式节点的概率随节点可靠性的提升而增加;
其中,通过动态门限计算层中生成所述提议分发信息的过程表示为如下公式,即:
;
其中,表示动态门限,/>是调节因子,上述公式中调节因子用于平衡节点的网络通信延迟项与基于历史动态门限/>的调整项之间的影响,/>表示第i个节点的可靠性评估指标值,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
进一步可选地,触发所述计算子系统中的所有分布式节点更新所述待更新数据之后,所述方法还包括:
监测多个分布式节点的运行情况数据,所述运行情况数据至少包括:节点运行状态、资源利用率、网络连通性信息;
通过自愈决策模型,对所述运行情况数据进行异常识别,以获得用于指示待修复节点的异常预警信息;所述异常预警信息还包括:所述待修复节点对应的异常类型、以及异常影响范围;
基于所述待修复节点的异常类型以及异常影响范围,触发对应的节点修复操作,并启动所述待修复节点的修复进度实时监测;
其中,所述节点修复操作操作至少包括:节点异常处理、灰度发布、以及回滚操作。
本申请实施例中,引入动态参数分发模型以及动态门限机制,使系统更具适应性、可扩展性,并提供了一种有效的方式来保障深度学习模型在分布式环境中的存储一致性。该方案能够解决深度学习模型在分布训练过程中的数据一致性问题,以确保训练过程的有效性和准确性,降低训练过程中的系统复杂性和通信开销。
在本申请的又一实施例中,还提供一种智能计算平台,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现方法实施例所述的深度学习模型存储一致性方法。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。
示例性地,假设需要建立一个基于神经元网络专用芯片的大规模、自主可控的智能计算平台,用于为研发和建设智能计算平台提供硬件基础。同时,智能计算平台也可以为智能超算中心建设提供硬件基础,通过该中心的构建可以为科研、产业、城市服务的人工智能平台,集聚人才、发展产业。
具体来说,智能计算平台主要包括:智能硬件平台、智能计算云操作系统、应用环境开发、大数据平台、智能应用PaaS平台这五个部分。在智能硬件平台中,以智能计算理论为基础,可以将深度学习芯片、AI智能加速卡及分布式服务器集成为智能硬件平台,从而为整个超算平台以及相关衍生平台提供基础硬件支撑,其主要内容包含以下四个部分:智能计算子系统、网络交换子系统、数据存储子系统及支撑管理子系统。
本申请实施例提供了用于构建低能耗运算器的深度学习模型存储一致性方法。
为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(non-volatil ememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central Pro-
cessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
Claims (10)
1.一种深度学习模型存储一致性方法,其特征在于,应用于深度学习模型的计算子系统中,所述计算子系统至少包括多个分布式节点;所述方法包括:
第一分布式节点创建待更新的提议信息;所述提议信息至少包括:深度学习模型中待更新数据,所述待更新数据包括模型参数和/或训练数据;
采用动态参数分发模型,获取与所述提议信息匹配的提议分发信息;其中,所述提议分发信息包括:用于选举所述提议信息的第二分布式节点、以及对应的动态门限,所述动态门限为所述计算子系统响应所述提议信息所需的最小节点数量,所述动态门限是所述动态参数分发模型根据所述提议信息和所述计算子系统动态计算得到的;
将所述提议信息发送给所述第二分布式节点,以使所述第二分布式节点判断是否响应所述提议信息;
接收所述第二分布式节点的提议响应信息;
若发出所述提议响应信息的数量达到所述动态门限,则触发所述计算子系统中的所有分布式节点更新所述待更新数据,以使所述待更新数据在所述计算子系统中保持存储数据的一致性。
2.根据权利要求1所述的深度学习模型存储一致性方法,其特征在于,所述动态参数分发模型至少包括:当前状态监测层、决策引擎、动态门限计算层、参数调整层;
所述采用动态参数分发模型,获取与所述提议信息匹配的第二分布式节点以及对应的动态门限,包括:
通过当前状态监测层,获取所述提议信息、以及发出所述提议信息的第一分布式节点关联的节点连接结构;
通过决策引擎,从存储的多种提议响应决策策略中,选取与所述提议信息以及所述节点连接结构所匹配的提议响应决策策略,并基于选取出的提议响应决策策略,向动态门限计算层下发动态计算指令;
通过动态门限计算层,响应于所述动态计算指令,基于所述动态计算指令中的提议响应决策策略、所述提议信息、以及所述节点连接结构,生成所述提议分发信息;
通过参数调整层,将所述提议分发信息应用到所述计算子系统中相关的分布式节点中,以启动所述提议信息的分发过程。
3.根据权利要求2所述的深度学习模型存储一致性方法,其特征在于,所述动态参数分发模型还包括:历史数据分析层;
所述采用动态参数分发模型,获取与所述提议信息匹配的第二分布式节点以及对应的动态门限之前,还包括:
通过历史数据分析层,基于历史提议信息和/或历史响应数据,更新决策引擎中设置的提议响应决策策略;所述提议响应决策策略至少包含:决策策略参数。
4.根据权利要求2所述的深度学习模型存储一致性方法,其特征在于,所述选取与所述提议信息以及所述节点连接结构所匹配的提议响应决策策略,包括:
对所述提议信息进行特征分析,以获得对应的提议类型、提议需求程度、提议优先级;
对所述节点连接结构进行特征分析,以获得所述第一分布式节点对应的通信关系类型、拓扑结构类型、网络带宽、网络延迟;
获取经特征分析得到的提议类型、提议需求程度、提议优先级、通信关系类型、拓扑结构类型、网络带宽、网络延迟所对应的目标特征组合;
将目标特征组合对应的提议响应决策策略,确定为所述第一分布式节点匹配的提议响应决策策略。
5.根据权利要求4所述的深度学习模型存储一致性方法,其特征在于,多种提议响应决策策略至少包括:节点负载均衡策略;
其中,所述节点负载均衡策略根据节点负载情况调整动态门限的计算方式,以使被选为第二分布式节点的概率随节点负载降低而增加;
其中,通过动态门限计算层中生成所述提议分发信息的过程表示为如下公式,即:
;
其中,表示动态门限,/>是调节因子,上述公式中调节因子用于平衡节点相对连接负载与基于历史动态门限/>的调整项之间的影响,/>表示节点相对连接负载,其中,/>表示第i个节点所连接的相关节点所消耗的计算资源,/>表示第i个节点对应的权重系数,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
6.根据权利要求4所述的深度学习模型存储一致性方法,其特征在于,多种提议响应决策策略至少包括:网络通信延迟策略;
其中,所述网络通信延迟策略根据节点之间的通信延迟情况来确定门限计算方式,以使被选为第二分布式节点的概率随节点通信延迟的降低而增加;
其中,通过动态门限计算层中生成所述提议分发信息的过程表示为如下公式,即:
;
其中,表示动态门限,/>是调节因子,上述公式中调节因子用于平衡节点的网络通信延迟项与基于历史动态门限/>的调整项之间的影响,/>表示第i个节点的网络通信延迟项,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限/>的调节系数。
7.根据权利要求4所述的深度学习模型存储一致性方法,其特征在于,多种提议响应决策策略至少包括:节点可靠性策略;
其中,所述节点可靠性策略根据节点的可靠性情况动态调整门限,以使被选为第二分布式节点的概率随节点可靠性的提升而增加;
其中,通过动态门限计算层中生成所述提议分发信息的过程表示为如下公式,即:
;
其中,表示动态门限,/>是调节因子,上述公式中调节因子用于平衡节点的网络通信延迟项与基于历史动态门限/>的调整项之间的影响,/>表示第i个节点的可靠性评估指标值,R表示第i个节点所连接的相关节点的资源利用率,/>表示偏差值调节因子,B表示任务执行延迟项,/>和/>为平衡调节因子,/>为资源利用率R的调节系数,/>为历史动态门限的调节系数。
8.根据权利要求1所述的深度学习模型存储一致性方法,其特征在于,所述触发所述计算子系统中的所有分布式节点更新所述待更新数据之后,所述方法还包括:
监测多个分布式节点的运行情况数据,所述运行情况数据至少包括:节点运行状态、资源利用率、网络连通性信息;
通过自愈决策模型,对所述运行情况数据进行异常识别,以获得用于指示待修复节点的异常预警信息;所述异常预警信息还包括:所述待修复节点对应的异常类型、以及异常影响范围;
基于所述待修复节点的异常类型以及异常影响范围,触发对应的节点修复操作,并启动所述待修复节点的修复进度实时监测;
其中,所述节点修复操作操作至少包括:节点异常处理、灰度发布、以及回滚操作。
9.一种计算子系统,其特征在于,应用于深度学习模型的计算子系统中,所述计算子系统至少包括多个分布式节点;所述计算子系统中的第一分布式节点至少包括以下单元:
获取单元,被配置为创建待更新的提议信息;所述提议信息至少包括:深度学习模型中待更新数据,所述待更新数据包括模型参数和/或训练数据;采用动态参数分发模型,获取与所述提议信息匹配的提议分发信息;其中,所述提议分发信息包括:用于选举所述提议信息的第二分布式节点、以及对应的动态门限,所述动态门限为所述计算子系统响应所述提议信息所需的最小节点数量,所述动态门限是所述动态参数分发模型根据所述提议信息和所述计算子系统动态计算得到的;
分发单元,被配置为将所述提议信息发送给所述第二分布式节点,以使所述第二分布式节点判断是否响应所述提议信息;
统计单元,被配置为接收所述第二分布式节点的提议响应信息;若发出所述提议响应信息的数量达到所述动态门限,则触发所述计算子系统中的所有分布式节点更新所述待更新数据,以使所述待更新数据在所述计算子系统中保持存储数据的一致性。
10.一种智能计算平台,其特征在于,所述智能计算平台包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1至8中任一项所述的深度学习模型存储一致性方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410320463.XA CN117909418B (zh) | 2024-03-20 | 深度学习模型存储一致性方法、计算子系统以及计算平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410320463.XA CN117909418B (zh) | 2024-03-20 | 深度学习模型存储一致性方法、计算子系统以及计算平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117909418A true CN117909418A (zh) | 2024-04-19 |
CN117909418B CN117909418B (zh) | 2024-05-31 |
Family
ID=
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130290249A1 (en) * | 2010-12-23 | 2013-10-31 | Dwight Merriman | Large distributed database clustering systems and methods |
CN104468651A (zh) * | 2013-09-17 | 2015-03-25 | 南京中兴新软件有限责任公司 | 分布式多副本数据存储方法及装置 |
CN107547593A (zh) * | 2016-06-27 | 2018-01-05 | 华为技术有限公司 | 一种实现日志同步的方法、装置及分布式系统 |
US10565227B1 (en) * | 2016-08-31 | 2020-02-18 | Amazon Technologies, Inc. | Leadership lease protocol for data replication groups |
CN110928481A (zh) * | 2018-09-19 | 2020-03-27 | 中国银联股份有限公司 | 分布式深度神经网络及其参数的存储方法 |
CN112084026A (zh) * | 2020-09-02 | 2020-12-15 | 国网河北省电力有限公司石家庄供电分公司 | 基于粒子群的低能耗边缘计算资源部署系统及方法 |
CN112269689A (zh) * | 2020-11-05 | 2021-01-26 | 南京邮电大学 | 一种基于数据世系的云存储数据副本一致性维护方法 |
CN116974768A (zh) * | 2023-08-11 | 2023-10-31 | 浙江银盾云科技有限公司 | 一种基于深度学习的算力调度方法 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130290249A1 (en) * | 2010-12-23 | 2013-10-31 | Dwight Merriman | Large distributed database clustering systems and methods |
CN104468651A (zh) * | 2013-09-17 | 2015-03-25 | 南京中兴新软件有限责任公司 | 分布式多副本数据存储方法及装置 |
CN107547593A (zh) * | 2016-06-27 | 2018-01-05 | 华为技术有限公司 | 一种实现日志同步的方法、装置及分布式系统 |
US10565227B1 (en) * | 2016-08-31 | 2020-02-18 | Amazon Technologies, Inc. | Leadership lease protocol for data replication groups |
CN110928481A (zh) * | 2018-09-19 | 2020-03-27 | 中国银联股份有限公司 | 分布式深度神经网络及其参数的存储方法 |
CN112084026A (zh) * | 2020-09-02 | 2020-12-15 | 国网河北省电力有限公司石家庄供电分公司 | 基于粒子群的低能耗边缘计算资源部署系统及方法 |
CN112269689A (zh) * | 2020-11-05 | 2021-01-26 | 南京邮电大学 | 一种基于数据世系的云存储数据副本一致性维护方法 |
CN116974768A (zh) * | 2023-08-11 | 2023-10-31 | 浙江银盾云科技有限公司 | 一种基于深度学习的算力调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108632365B (zh) | 服务资源调整方法、相关装置和设备 | |
CN111818159B (zh) | 数据处理节点的管理方法、装置、设备及存储介质 | |
EP2904491B1 (en) | Method, node and computer program for enabling automatic adaptation of resource units | |
US11726836B2 (en) | Predicting expansion failures and defragmenting cluster resources | |
US20210211490A1 (en) | Method and system for transmitting a data resource acquisition request | |
CN109151045A (zh) | 一种分布式云系统及监控方法 | |
US10565021B2 (en) | Automated capacity management in distributed computing systems | |
WO2022237086A1 (zh) | 一种基于机器学习模型的控制方法和装置 | |
CN116467082A (zh) | 一种基于大数据的资源分配方法及系统 | |
CN110490316B (zh) | 基于神经网络模型训练系统的训练处理方法、训练系统 | |
CN110580198A (zh) | OpenStack计算节点自适应切换为控制节点的方法及装置 | |
CN113672345A (zh) | 一种基于io预测的云虚拟化引擎分布式资源调度方法 | |
Guo et al. | Fast replica recovery and adaptive consistency preservation for edge cloud system | |
Tuli et al. | Carol: Confidence-aware resilience model for edge federations | |
CN117909418B (zh) | 深度学习模型存储一致性方法、计算子系统以及计算平台 | |
CN115480882A (zh) | 一种分布式边缘云资源调度方法及系统 | |
Ali et al. | Probabilistic normed load monitoring in large scale distributed systems using mobile agents | |
CN115277249B (zh) | 一种多层异构网络协同的网络安全态势感知方法 | |
CN117909418A (zh) | 深度学习模型存储一致性方法、计算子系统以及计算平台 | |
CN116996941A (zh) | 基于配网云边端协同的算力卸载方法、装置及系统 | |
CN108540546B (zh) | 网络节点入网控制方法、电子设备、网络系统和存储介质 | |
Naik et al. | A novel algorithm for fault tolerant job Scheduling and load balancing in grid computing environment | |
Shi et al. | Workflow migration in uncertain edge computing environments based on interval many-objective evolutionary algorithm | |
Xu et al. | Cooperative autonomic management in dynamic distributed systems | |
US20240143461A1 (en) | Prediction-based resource orchestration in a service fabric |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |