CN112073517B - 一种分布式数据传输优化方法、系统及相关设备 - Google Patents

一种分布式数据传输优化方法、系统及相关设备 Download PDF

Info

Publication number
CN112073517B
CN112073517B CN202010941036.5A CN202010941036A CN112073517B CN 112073517 B CN112073517 B CN 112073517B CN 202010941036 A CN202010941036 A CN 202010941036A CN 112073517 B CN112073517 B CN 112073517B
Authority
CN
China
Prior art keywords
data transmission
parameter
transmission strategy
strategy
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010941036.5A
Other languages
English (en)
Other versions
CN112073517A (zh
Inventor
刘永恒
任智祥
张凡
付志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202010941036.5A priority Critical patent/CN112073517B/zh
Publication of CN112073517A publication Critical patent/CN112073517A/zh
Application granted granted Critical
Publication of CN112073517B publication Critical patent/CN112073517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种分布式数据传输优化方法、系统及相关设备,用于提高数据传输的效率。本发明实施例方法包括:获取多条训练数据及数据传输策略的超参数空间,每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。

Description

一种分布式数据传输优化方法、系统及相关设备
技术领域
本发明涉及分布式数据传输优化技术领域,尤其涉及一种分布式数据传输优化方法、系统及相关设备。
背景技术
近年随着深度学习在人工智能领域的应用越来越广,深度学习使用的模型应用也越来越复杂、数据集也越来越大。使用单机训练这些模型往往需要的时间按月计。为了节省对这些模型的训练时间,往往在大规模集群上采用数据并行的方式对模型进行训练。
目前在数据并行训练中公认的高效方式是基于聚合方式交互模型训练过程中的权重或梯度,聚合过程中的集群中的节点之间的数据通信经常采用数据并行框架默认的数据传输策略(依据经验设置集群底层网络拓扑以及集群内节点组合策略),没有数据传输策略调节优化,无法发挥集合通信最佳的网络吞吐量,导致数据通信效率低下。
发明内容
本发明实施例提供了一种分布式数据传输优化方法、系统及相关设备,用于提高数据传输的效率。
本发明实施例第一方面提供了一种分布式数据传输优化方法,可包括:
获取多条训练数据及数据传输策略的超参数空间,每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中的分布式数据传输优化方法,还可以包括:
采集所述集群在执行所述最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
判断所述参数A是否满足预设条件,若不满足,则将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中,在将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型之前,所述方法还可以包括:
判断所述最优数据传输策略与所述多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
可选的,作为一种可能的实施方式,本发明实施例中,所述获取多条训练数据可包括:
随机选定所述超参数空间中的每个参数的初始值,组成多种数据传输策略;
在集群中分别配置所述多种数据传输策略,并分别采集执行所述多种数据传输策略执行过程中所述集群在单位时间内的网络吞吐量参数。
可选的,作为一种可能的实施方式,本发明实施例中,所述将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略,可包括:
采用高斯过程对所述多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
设置获取函数并根据所述输出函数在所述数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得所述获取函数最大化。
可选的,作为一种可能的实施方式,本发明实施例中,所述集群在单位时间内的网络吞吐量参数的计算过程可包括:
计算n个节点在时间t内的网络吞吐量均值(avgxi),累加所有节点的网络吞吐量均值(∑i(avgxi)),i为1至n之间的正整数;
计算所述集群在单位时间内的网络吞吐量参数为(∑i(avgxi))/(n*t)。
可选的,作为一种可能的实施方式,本发明实施例中,所述数据传输策略的超参数空间可包括:
聚合通信操作参数、拓扑连接参数、数据片参数、域内通信分组参数和/或域间通信分组参数。
本发明实施例第二方面提供了一种分布式数据传输优化系统,可包括:
获取模块,获取多条训练数据及数据传输策略的超参数空间,每一条训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
第一计算模块,用于将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中的分布式数据传输优化系统,还可以包括:
采集模块,用于采集集群在执行最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
判断模块,判断参数A是否满足预设条件,若不满足,则将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中,在将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型之前,方法还包括:
判断最优数据传输策略与多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
可选的,作为一种可能的实施方式,本发明实施例中的获取模块可包括:
随机单元,随机选定超参数空间中的每个参数的初始值,组成多种数据传输策略;
采集单元,在集群中分别配置多种数据传输策略,并分别采集执行多种数据传输策略执行过程中集群在单位时间内的网络吞吐量参数。
可选的,作为一种可能的实施方式,本发明实施例中的第一计算模块可包括:
拟合单元,采用高斯过程对多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
搜索单元,设置获取函数并根据输出函数在数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得获取函数最大化。
可选的,作为一种可能的实施方式,本发明实施例中的分布式数据传输优化系统,还可以包括:
第二计算模块,用于计算n个节点在时间t内的网络吞吐量均值(avgxi),累加所有节点的网络吞吐量均值(∑i(avgxi)),i为1至n之间的正整数;
第三计算模块,用于计算集群在单位时间内的网络吞吐量参数为(∑i(avg xi))/(n*t)。
本发明实施例第三方面提供了一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,可以预先获取多条训练数据及数据传输策略的超参数空间,将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。相对于现有方案,本发明实施例实现了基于贝叶斯优化算法实现了数据传输策略的优化,提高了数据传输的效率。
附图说明
图1为本发明实施例中一种分布式数据传输优化方法的一个实施例示意图;
图2为本发明实施例中一种分布式数据传输优化方法的另一个实施例示意图;
图3为本发明实施例中一种分布式数据传输优化方法的一个具体应用实施例示意图;
图4为本发明实施例中一种计算机装置的一个实施例示意图。
具体实施方式
本发明实施例提供了一种分布式数据传输优化方法、系统及相关设备,用于提高数据传输的效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的依据经验设置集群底层网络拓扑以及集群内节点组合策略,没有数据传输策略调节优化,无法发挥集合通信最佳的网络吞吐量,导致数据通信效率低下。为了解决上述问题,本发明采用贝叶斯优化算法自适应搜索适合当前集群连接、聚合通信的最优数据传输策略。
为了便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中一种分布式数据传输优化方法的一个实施例可包括:
S101、获取多条训练数据及数据传输策略的超参数空间;
为了基于贝叶斯优化算法实现对集群中的数据传输策略的优化,需要预先获取多条训练数据及数据传输策略的超参数空间。其中,每一条训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值。
其中,本申请中的超参数空间包含的参数种类可以是相关技术方案中的集群底层网络拓扑以及集群内节点组合,也可以根据实际需求进行合理的设置,具体此处不做限定。
优选的,当用于聚合方式交互模型训练过程时,超参数空间可以包含聚合通信操作参数、拓扑连接参数、数据片参数、域内通信分组参数和/或域间通信分组参数。其中,聚合通信操作参数的取值为枚举类型,其枚举值为:broadcast、scatter、rudeuce、gather、allgather、alltoall、allreduce、reduce_scatter、scan等;拓扑连接参数的取值为枚举类型,枚举值为:星形连接、树形连接、环形连接、网状连接、总线连接等;数据片(segment)的取值范围为:[(K/4N),K/N](K为单次传输的总数据量,N为集群的节点个数);域内和域间通信分组参数一般用于表示为组内成员的划分,例如在集群通信中域内成员可以是一个服务器中的所有进程,也可以是一个机架上所有服务器中的所有进程或一部分服务器上的部分进程;域间分组得根据域内的划分,可以分为多个域间层,并跟域内分组一起,从架构上由大到小涵盖整个集群的所有进程。
S102、将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
在获取到多条训练数据及数据传输策略的超参数空间之后,分布式数据传输优化系统可以将获取到的数据代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
可选的,作为一种可能的实施方式,贝叶斯优化算法实施过程可以包括:采用高斯过程对多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;设置获取函数(例如Expected Improvement(预期改善)函数)并根据输出函数在数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得获取函数最大化。实际应用中,获取函数还可以是Probability of improvement函数、Entropy search函数、Upperconfidence bound函数等,具体此处不做限定。
本发明实施例中,可以预先获取多条训练数据及数据传输策略的超参数空间,将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。相对于现有方案,本发明实施例实现了基于贝叶斯优化算法实现了数据传输策略的优化,提高了数据传输的效率。
实际运用中,一轮贝叶斯优化得出的数据传输策略可能不符合预期,为此,对于不符合预期的数据传输策略还需要进行进一步优化,在上述图1所示的实施例的基础上,请参阅图2,本发明实施例中的一种分布式数据传输优化方法的另一个实施例可包括:
S201、随机选定超参数空间中的每个参数的初始值,组成多种数据传输策略;
本实施中的超参数空间可以参照图1所示的步骤101中的描述,当确定超参数空间中的参数的种类及各个种类的参数的取值范围之后,分布式数据传输优化系统可以在每个参数的取值范围内随机选择一个值作为该种类的参数的一个初始值,进而包含所有种类的参数的初始值的一组数据对应一种数据传输策略,多次随机在每个参数的取值范围内随机选择一个值作为该种类的参数的一个初始值,可以组成多种数据传输策略。
S202、在集群中分别配置多种数据传输策略,并分别采集执行多种数据传输策略执行过程中集群在单位时间内的网络吞吐量参数;
在集群中分别配置多种数据传输策略之后,分布式数据传输优化系统可以分别采集执行多种数据传输策略执行过程中集群在单位时间内的网络吞吐量参数。示例性的,可以采用benchmark任务在数据传输策略执行过程中采集集群各个节点的网络吞吐量,并根据各个节点的网络吞吐量计算集群在单位时间内的网络吞吐量参数。
可选的,作为一种可能的实施方式,网络吞吐量参数的计算过程可以包括:计算n个节点在时间t内的网络吞吐量均值(avgxi),累加所有节点的网络吞吐量均值(∑i(avgxi)),i为1至n之间的正整数;计算集群在单位时间内的网络吞吐量参数为(∑i(avgxi))/(n*t)。
S203、将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略;
本实施例中的步骤203中描述的内容与上述图1所示的实施例中的步骤102中描述的内容类似,具体此处不再赘述。
S204、采集集群在执行最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
S205、判断参数A是否满足预设条件,若不满足,则将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
贝叶斯优化得出的数据传输策略可能不符合预期,为了得到符合预期的数据传输策略,本发明实施例中可以采集集群在执行最优数据传输策略时单位时间内的网络吞吐量参数记作参数A,判断参数A是否满足预设条件,若不满足,则将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。若参数A符合预期,则可以直接采纳对应的最优数据传输策略。
可以理解的是,图2所示的实施例中仅仅示出了两轮贝叶斯优化,在实际运用中,在第二轮贝叶斯优化得到的最优数据传输策略不满足预设条件时,还可以重复上述步骤203至步骤205。
可选的,作为一种可能的实施方式,在将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型之前,为了避免重复的训练数据导致的计算资源的浪费,分布式数据传输优化系统还可以判断最优数据传输策略与多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
为了便于理解,下面将结合具体的应用实施例对本发明实施例中的分布式数据传输优化方法进行描述。请参阅图3,具体可以包括如下步骤:
S301、根据集群物理连接和实践经验,构建数据传输的策略空间;
具体的,数据传输的策略空间包括:{opreation(聚合通信操作),拓扑连接,seg(数据片),intercomm(域内通信)分组,intracomm(域间通信)分组}
其中opreation(聚合通信操作)的枚举值为:broadcast、scatter、rudeuce、gather、allgather、alltoall、allreduce、reduce_scatter、scan等;拓扑连接的枚举值为:星形连接、树形连接、环形连接、网状连接、总线连接等;segment(数据片)的取值范围为:[(K/4N),K/N](K为单次传输的总数据量,N为集群的节点个数);域内和域间通信一般表示为组内成员的划分,例如在集群通信中域内成员可以是一个服务器中的所有进程,也可以是一个机架上所有服务器中的所有进程或一部分服务器上的部分进程;域间分组得根据域内的划分,可以分为多个域间层,并跟域内分组一起,从架构上由大到小涵盖整个集群的所有进程。
S302、在各节点中安装网络测试工具,周期性采样记录网络吞吐量,并由主控单元汇总各节点的网络吞吐量;
S303、生成随机因子并按照取余方法,在策略空间中各变量取值范围内得到一个固定参数,从而得到此次传输优化的初始策略值,将策略值导入集群,配置好集群的传输框架,执行数据传输Benchmark任务,采集本次试验中各节点的网络吞吐参数;
S304、在主控节点将所有节点上的采样数据代入集群传输效率评价公式,计算出整个集群的吞吐量评分;
具体的,整个集群的吞吐量评分计算过程如下:计算n个节点在时间t内的网络吞吐量均值(avgxi),累加所有节点的网络吞吐量均值(∑i(avgxi)),i为1至n之间的正整数;计算所述集群在单位时间内的网络吞吐量参数为(∑i(avgxi))/(n*t)。
S305、搜索出的最优的吞吐量满足预期,则退出;否则执行S306;
S306、将初始数据传输策略-获取的吞吐量参数对,以及数据传输策略的超参空间代入贝叶斯优化方法,在超参空间中搜索出当前预测的吞吐量最优的策略;
具体的贝叶斯优化算法的实现过程为:将目标函数确定为最大化集群的吞吐量;超参空间为步骤S301中设定的数据传输策略空间;使用高斯过程对数据传输策略-吞吐量函数进行建模,拟合其输出函数;采用Expected Improvement(预期改善)方法作为获取函数,在探索和利用现有试验点中找到更优的预测点,并求出该最优值所对应的数据传输策略;
使用高斯过程建模后,目的是在找到建模的输出函数最大值,作为最优的预测点。为了找到高斯过程建模函数的最佳采样点,我们需要最大化获取函数(acquisitionfunction),获取函数有很多种形式,最常用的是Expected Improvement(预期改善)算法,通过expected improvement算法可以通过分步积分的形式计算期望。该算法大致可概括如下:
1、根据之前的样本点X1,X2……Xn,计算损失函数的期望;
2、在新的样本点X_new对损失函数进行采样,这样可以最大化损失函数的效用,可以知道哪些区域是最佳区域。
实际应用中获取函数还可以是Probability of improvement函数、Entropysearch函数、Upper confidence bound函数等,具体此处不做限定。
S307、将搜索出的策略与历史验证策略进行重复性比较,确认搜索出的是一个全新的策略;
S308、直到最优的吞吐量满足预期,或已探测完所有的超参空间,或已满足设定的最搜索次数。
本实施例中,可以先根据集群节点的物理连接,结合经验,构建多组域内、域间节点组合,并描述域内、域间节点的数据传输方式,形成集群数据传输框架的超参空间;根据随机因子在超参空间中选取一种数据传输策略,构建集群中各节点的域内、域间连接关系并执行运行MPI(消息传递接口)测试,使用网络监控工具记录过程中集群中各节点的峰值和平均网络吞吐量,采用集群传输效率评价公式得到在特定数据传输策略下该集群的网络吞吐量评分;将数据传输策略-吞吐量评分对作为先验条件代入贝叶斯优化公式,使用贝叶斯优化对传输策略进行预估,在传输策略的超参空间中搜索出预期网络吞吐量较高的传输策略。根据搜索到数据传输策略再次构建集群中各节点的域内、域间连接关系并执行运行MPI测试,通过网络监控工具收集测试程序运行时的网络吞吐量,带入贝叶斯搜索中再次迭代,直至完成搜索次数或在当前搜索空间中已找出最优的传输方式,进而实现对当前大规模集群而言最优的分布式数据传输策略。
本发明实施例还提供了一种分布式数据传输优化系统,可包括:
获取模块,获取多条训练数据及数据传输策略的超参数空间,每一条训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
第一计算模块,用于将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中的分布式数据传输优化系统,还可以包括:
采集模块,用于采集集群在执行最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
判断模块,判断参数A是否满足预设条件,若不满足,则将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中,在将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型之前,方法还包括:
判断最优数据传输策略与多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
可选的,作为一种可能的实施方式,本发明实施例中的获取模块可包括:
随机单元,随机选定超参数空间中的每个参数的初始值,组成多种数据传输策略;
采集单元,在集群中分别配置多种数据传输策略,并分别采集执行多种数据传输策略执行过程中集群在单位时间内的网络吞吐量参数。
可选的,作为一种可能的实施方式,本发明实施例中的第一计算模块可包括:
拟合单元,采用高斯过程对多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
搜索单元,设置获取函数并根据输出函数在数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得获取函数最大化。
可选的,作为一种可能的实施方式,本发明实施例中的分布式数据传输优化系统,还可以包括:
第二计算模块,用于计算n个节点在时间t内的网络吞吐量均值(avgxi),累加所有节点的网络吞吐量均值(∑i(avgxi)),i为1至n之间的正整数;
第三计算模块,用于计算集群在单位时间内的网络吞吐量参数为(∑i(avg xi))/(n*t)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上面从模块化功能实体的角度对本发明实施例中的分布式数据传输优化系统进行了描述,请参阅图4,下面从硬件处理的角度对本发明实施例中的计算机装置进行描述:
该计算机装置1可以包括存储器11、处理器12和输入输出总线13。处理器11执行计算机程序时实现上述图1所示的分布式数据传输优化方法实施例中的步骤,例如图1所示的步骤101至103。或者,处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。
本发明的一些实施例中,处理器具体用于实现如下步骤:
获取多条训练数据及数据传输策略的超参数空间,每一条训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
采集集群在执行最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
判断参数A是否满足预设条件,若不满足,则将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
判断最优数据传输策略与多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
随机选定超参数空间中的每个参数的初始值,组成多种数据传输策略;
在集群中分别配置多种数据传输策略,并分别采集执行多种数据传输策略执行过程中集群在单位时间内的网络吞吐量参数。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
采用高斯过程对多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
设置获取函数并根据输出函数在数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得获取函数最大化。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
计算n个节点在时间t内的网络吞吐量均值(avg xi),累加所有节点的网络吞吐量均值(∑i(avg xi)),i为1至n之间的正整数;
计算集群在单位时间内的网络吞吐量参数为(∑i(avg xi))/(n*t)。
其中,存储器11至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是计算机装置1的内部存储单元,例如该计算机装置1的硬盘。存储器11在另一些实施例中也可以是计算机装置1的外部存储设备,例如计算机装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括计算机装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于计算机装置1的应用软件及各类数据,例如计算机程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行计算机程序01等。
该输入输出总线13可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。
进一步地,计算机装置还可以包括有线或无线网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该计算机装置1与其他电子设备之间建立通信连接。
可选地,该计算机装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的,用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在计算机装置1中处理的信息以及用于显示可视化的用户界面。
图4仅示出了具有组件11-14以及计算机程序01的计算机装置1,本领域技术人员可以理解的是,图4示出的结构并不构成对计算机装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,可以实现如下步骤:
获取多条训练数据及数据传输策略的超参数空间,每一条训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
将多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
采集集群在执行最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
判断参数A是否满足预设条件,若不满足,则将最优数据传输策略及参数A作为多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
判断最优数据传输策略与多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
随机选定超参数空间中的每个参数的初始值,组成多种数据传输策略;
在集群中分别配置多种数据传输策略,并分别采集执行多种数据传输策略执行过程中集群在单位时间内的网络吞吐量参数。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
采用高斯过程对多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
设置获取函数并根据输出函数在数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得获取函数最大化。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
计算n个节点在时间t内的网络吞吐量均值(avgxi),累加所有节点的网络吞吐量均值(∑i(avgxi)),i为1至n之间的正整数;
计算集群在单位时间内的网络吞吐量参数为(∑i(avgxi))/(n*t)。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种分布式数据传输优化方法,其特征在于,包括:
获取多条训练数据及数据传输策略的超参数空间,每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略;
所述获取多条训练数据包括:
随机选定所述超参数空间中的每个参数的初始值,组成多种数据传输策略;
在集群中分别配置所述多种数据传输策略,并分别采集执行所述多种数据传输策略执行过程中所述集群在单位时间内的网络吞吐量参数;
所述将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略,包括:
采用高斯过程对所述多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
设置获取函数并根据所述输出函数在所述数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得所述获取函数最大化。
2.根据权利要求1所述的方法,其特征在于,还包括:
采集所述集群在执行所述最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
判断所述参数A是否满足预设条件,若不满足,则将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
3.根据权利要求2所述的方法,其特征在于,在将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型之前,所述方法还包括:
判断所述最优数据传输策略与所述多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述集群在单位时间内的网络吞吐量参数的计算过程包括:
计算n个节点在时间t内的网络吞吐量均值avgxi,累加所有节点的网络吞吐量均值∑i(avgxi),i为1至n之间的正整数;
计算所述集群在单位时间内的网络吞吐量参数为(∑i(avgxi))/(n*t)。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述数据传输策略的超参数空间包括:
聚合通信操作参数、拓扑连接参数、数据片参数、域内通信分组参数和/或域间通信分组参数。
6.一种分布式数据传输优化系统,其特征在于,包括:
获取模块,获取多条训练数据及数据传输策略的超参数空间,每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
第一计算模块,用于将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略;
获取模块包括:
随机单元,随机选定超参数空间中的每个参数的初始值,组成多种数据传输策略;
采集单元,在集群中分别配置多种数据传输策略,并分别采集执行多种数据传输策略执行过程中集群在单位时间内的网络吞吐量参数;
第一计算模块包括:
拟合单元,采用高斯过程对多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
搜索单元,设置获取函数并根据输出函数在数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得获取函数最大化。
7.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至5中任意一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述方法的步骤。
CN202010941036.5A 2020-09-09 2020-09-09 一种分布式数据传输优化方法、系统及相关设备 Active CN112073517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010941036.5A CN112073517B (zh) 2020-09-09 2020-09-09 一种分布式数据传输优化方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010941036.5A CN112073517B (zh) 2020-09-09 2020-09-09 一种分布式数据传输优化方法、系统及相关设备

Publications (2)

Publication Number Publication Date
CN112073517A CN112073517A (zh) 2020-12-11
CN112073517B true CN112073517B (zh) 2023-07-11

Family

ID=73663005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010941036.5A Active CN112073517B (zh) 2020-09-09 2020-09-09 一种分布式数据传输优化方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN112073517B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115642967A (zh) * 2022-10-14 2023-01-24 中国科学技术大学 基于小样本信标帧的无线局域网吞吐量预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766090A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备、系统及存储介质
CN110807109A (zh) * 2019-11-08 2020-02-18 北京金山云网络技术有限公司 数据增强策略的生成方法、数据增强方法和装置
CN111176832A (zh) * 2019-12-06 2020-05-19 重庆邮电大学 基于内存计算框架Spark的性能优化和参数配置方法
DE202020101701U1 (de) * 2019-10-01 2020-07-10 Google Llc Trainieren neuronaler Netze unter Verwendung von Datenvermehrungsstrategien

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202020101701U1 (de) * 2019-10-01 2020-07-10 Google Llc Trainieren neuronaler Netze unter Verwendung von Datenvermehrungsstrategien
CN110766090A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备、系统及存储介质
CN110807109A (zh) * 2019-11-08 2020-02-18 北京金山云网络技术有限公司 数据增强策略的生成方法、数据增强方法和装置
CN111176832A (zh) * 2019-12-06 2020-05-19 重庆邮电大学 基于内存计算框架Spark的性能优化和参数配置方法

Also Published As

Publication number Publication date
CN112073517A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN102724219B (zh) 网络数据的计算机处理方法及系统
US10033570B2 (en) Distributed map reduce network
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN110969198A (zh) 深度学习模型的分布式训练方法、装置、设备及存储介质
CN106874100B (zh) 计算资源分配方法及装置
US9471383B2 (en) Task allocation in a computing environment
CN105607952B (zh) 一种虚拟化资源的调度方法及装置
CN114500578B (zh) 分布式存储系统负载均衡调度方法、装置及存储介质
CN113254472B (zh) 一种参数配置方法、装置、设备及可读存储介质
CN115543577A (zh) 基于协变量的Kubernetes资源调度优化方法、存储介质及设备
CN111339072B (zh) 基于用户行为的变化值分析方法、装置、电子设备及介质
CN112073517B (zh) 一种分布式数据传输优化方法、系统及相关设备
US9280386B1 (en) Identifying task instance outliers based on metric data in a large scale parallel processing system
EP3855316A1 (en) Optimizing breakeven points for enhancing system performance
CN107273413B (zh) 中间表的创建方法、查询方法及相关装置
CN104573864A (zh) 一种基于自回归预测的数据分析报警方法
CN106874215B (zh) 一种基于Spark算子的序列化存储优化方法
CN108255710B (zh) 一种脚本的异常检测方法及其终端
Li et al. Multi-resource collaborative optimization for adaptive virtual machine placement
CN114201369A (zh) 一种服务器集群管理方法、装置、电子设备及存储介质
CN109901931B (zh) 一种归约函数数量确定方法、装置及系统
CN112463378A (zh) 一种服务器资产扫描方法、系统、电子设备及存储介质
CN111324444A (zh) 一种云计算任务调度方法及装置
CN118245227B (zh) 一种基于时间窗内决策树的计算集群任务调度与负载均衡方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant