CN117319373A

CN117319373A - 数据传输方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN117319373A
Application number: CN202311190050.6A
Authority: CN
Inventors: 王楠; 资彦义; 周鹏
Original assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-29

Abstract

本申请提供了一种数据传输方法、装置、电子设备和计算机可读存储介质，涉及数据处理技术领域。其中，数据传输方法应用于发送端，包括：根据采集到的性能指标预测对待传输数据的压缩收益；其中，性能指标包括带宽传输速度、网络传输占用率、GPU占用率、数据压缩速度和数据解压速度中的至少一种；基于压缩收益确定目标传输数据；其中，目标传输数据为待传输数据或待传输数据在执行压缩操作后得到的压缩数据；传输目标传输数据。根据本申请的技术方案，可以提升数据传输性能，从而提升分布式集群整体的利用率和有效负载，提升分布式集群的可扩展规模，具有良好的通用性和适用性，且无需增加硬件成本，部署更加灵活方便。

Description

数据传输方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据传输方法、装置、电子设备和计算机可读存储介质。

背景技术

随着大规模语言模型(Large Language Models，LLM)的火爆，对分布式计算的需求也随之增加。这些大模型通常需要庞大的计算资源和大规模的图形处理器(GraphicsProcessing Unit，GPU)集群进行训练，训练时间可能会长达数个月，因此分布式计算变得至关重要。在分布式计算中，数据传输性能非常重要，直接影响了分布式集群的可扩展规模。

发明内容

本申请实施例提供一种数据传输方法、装置、电子设备和计算机可读存储介质，以提升数据传输性能。

第一方面，本申请实施例提供了一种数据传输方法，应用于发送端，包括：根据采集到的性能指标预测对待传输数据的压缩收益；其中，性能指标包括带宽传输速度、网络传输占用率、图形处理器GPU占用率、数据压缩速度和数据解压速度中的至少一种；基于压缩收益确定目标传输数据；其中，目标传输数据为待传输数据或待传输数据在执行压缩操作后得到的压缩数据；传输目标传输数据。

第二方面，本申请实施例提供了一种数据传输装置，应用于发送端，包括：收益预测模块，用于根据采集到的性能指标预测对待传输数据的压缩收益；其中，性能指标包括网络传输速度、网络传输占用率、计算节点的图形处理器GPU占用率、数据压缩速度和数据解压速度中的至少一种；数据确定模块，用于基于压缩收益确定目标传输数据；其中，目标传输数据为待传输数据或待传输数据在执行压缩操作后得到的压缩数据；数据传输模块，用于传输目标传输数据。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，处理器在执行计算机程序时实现本申请任一实施例提供的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例提供的方法。

与现有技术相比，本申请实施例的技术方案具有如下优点：

一方面，通过根据采集到的性能指标预测对待传输数据的压缩收益，并且基于压缩收益确定目标传输数据，可以提升数据传输性能，从而提升分布式集群整体的利用率和有效负载，提升分布式集群的可扩展规模，具有良好的通用性和适用性，且无需增加硬件成本，部署更加灵活方便。

通过比较待传输数据在压缩情况下的压缩耗时、第二传输耗时、解压耗时的总开销耗时以及待传输数据在未压缩情况下的第一传输耗时，得到压缩收益，可以基于压缩收益自适应确定待传输数据是否需要执行压缩操作，从而有效提升数据传输效率。

通过设置第一预设耗时系数和第二预设耗时系数，可以为传输耗时差值和压缩解压耗时之和分别分配对应的权重，调节压缩传输的时间优势以及压缩解压过程的时间开销，从而使压缩收益的计算更加合理准确。

在网络传输占用率大于预设传输占用率的情况下，通过将第二预设耗时系数扩大X倍，可以适度增加传输耗时的估计值，以反映实际通讯资源不足的情况，可以提升计算得到的压缩收益的可靠性，保证分布式集群具有较高的整体利用率和性能。

通过在GPU占用率大于预设GPU占用率的情况下，将第一预设耗时系数扩大Y倍，并基于扩大后的第一预设耗时系数和压缩解压耗时之和，计算第一乘积，可以更准确地反映压缩操作及解压操作对数据传输性能的影响，使计算得到的压缩收益更加可靠，从而有效提高分布式集群的整体利用率和性能。

在压缩收益为正的情况下，通过按照预设的压缩参数对待传输数据执行压缩操作，可以减少整体的数据传输时间，提升数据传输效率。在压缩收益为负的情况下，对待传输数据执行压缩操作后再传输的时间优势不足以弥补压缩耗时和解压耗时，此时如果对待传输数据执行压缩操作会导致整体的传输时间增加，通过确定目标传输数据为待传输数据，可以直接传输原始的待传输数据，从而可以有效减少整体的传输时间，节省传输资源，达到提升数据传输性能的目的。

通过将待传输数据和采集到的性能指标输入训练好的压缩收益计算模型，可以输出待传输数据的压缩收益，从而可以基于压缩收益确定目标传输数据，可以有效提升分布式集群整体的利用率和有效负载，提升分布式集群的可扩展规模。

通过在目标传输数据为机器学习模型在推理场景下的权重数据的情况下，存储目标传输数据及目标传输数据对应的压缩参数，在需要使用或传输权重数据时，发送端无需再次预测权重数据的压缩收益，可以直接向接收端发送存储的权重数据和对应的压缩参数，有效减少了传输时间和资源消耗，提高推理的效率和性能。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1示出本申请实施例提供的数据传输方法的应用场景图；

图2示出本申请实施例提供的数据传输方法的流程图；

图3示出本申请实施例提供的数据传输方法的应用示例图；

图4示出本申请实施例提供的数据传输方法的另一个应用示例图；

图5示出本申请实施例提供的数据传输装置的架构图；

图6示出本申请实施例提供的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

为便于理解本申请实施例的技术方案，以下对本申请实施例的相关技术进行说明，以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。

文中使用以下技术术语：

NVLink：是一种高速通信协议，采用点对点结构、串列传输，用于连接GPU和其他设备，如中央处理器(Central Processing Unit，CPU)与GPU之间的连接，也可用于多个GPU之间的相互连接。它提供了比传统总线更高的带宽和更低的延迟，以满足高性能计算和数据中心应用的需求。

LZ4：一种无损数据压缩算法，着重于压缩和解压缩速度。

远程直接数据存取(Remote Direct Memory Access，RDMA)：是为了解决网络传输中服务器端数据处理的延迟而产生的技术。RDMA技术通过网络把资料直接传入计算机的存储区，将数据从一个系统快速移动到远程系统存储器中，而不对操作系统造成任何影响，这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和上下文切换的开销，因而能解放内存带宽和CPU周期用于改进应用系统性能。

传输控制协议(Transmission Control Protocol，TCP)：是一种面向连接的、可靠的、基于字节流的传输层通信协议。

基准测试(Benchmark)工具：提供用于衡量计算机系统性能的标准化测试工具或软件开发工具包(Software Development Kit，SDK)，可用于评估和比较硬件或软件性能。它通过运行一系列的测试任务或工作负载，来测量和记录系统在特定条件下的性能指标。基准测试工具可以用于衡量系统的处理能力、内存管理、磁盘和网络性能等方面，并提供性能评估和产品优化的参考数据。

SDK：指一些被软件工程师用于为特定的软件包、软件框架、硬件平台及作业系统等建立应用软件的开发工具之集合。

分布式集群：是由多台计算机(节点)通过网络连接在一起，共同协作完成各种计算任务的计算环境。每台计算机在集群中被称为一个节点，这些节点之间通过网络进行通信和数据传输。分布式集群的设计旨在通过并行计算和数据分布来提高计算效率和处理能力。

压缩收益：在数据传输或存储过程中采用数据压缩技术所带来的效益或优势。

自适应(Adaptive)：指系统或算法具有根据环境、条件或数据变化进行调整和优化的能力。在计算机科学和工程中，自适应技术旨在使系统能够动态地适应不同的情况和需求，从而提供更好的性能、效率和用户体验。

异构计算(Heterogeneous Computing)：指在同一系统中使用不同类型指令集和体系架构的计算单元来执行不同类型的计算任务。在传统的计算系统中，通常使用主处理器(如CPU)来执行大部分的计算任务。但是，随着科学、工程和数据密集型应用的发展，对计算能力的需求不断增加。为了满足这些需求，异构计算引入了其他类型的处理器或计算设备，如图形处理器(GPU)、协处理器、数字信号处理器(DSP)等。异构计算广泛应用于高性能计算、科学研究、深度学习和人工智能等领域，可以提供更强大的计算能力和更高的能效，加速各种计算密集型任务的执行。

相关技术中，在分布式集群的数据传输过程中，通常可以采用压缩数据和不压缩数据两种方式。其中，采用不压缩数据的方式可能导致GPU的通讯开销过大，影响数据传输性能。压缩数据通常可以选择硬件压缩方案和固定的软件压缩方案。硬件压缩方案需要专门的压缩硬件，会增加硬件成本。另外，硬件压缩方案的灵活性较差，不易根据实际情况动态调整压缩策略。固定的软件压缩方案无法根据实际情况动态决定是否采取压缩传输的方案，可能会降低发送端到接收端之间的数据传输性能。因此，采用不压缩数据的方式进行数据传输以及采用压缩数据的方式进行数据传输均无法保证分布式集群的数据传输性能。

在分布式集群中，不同的计算节点可以具有异构计算资源，因此分布式集群中的计算节点可能具有不同类型的CPU、GPU等，可以形成异构计算集群。分布式集群的节点异构性可以被充分利用，例如在任务调度时根据任务类型和计算需求将任务分配给最适合处理的计算节点。另外，异构计算可以为分布式集群带来更大的灵活性和计算能力，可以根据任务的性质选择不同类型的计算资源，从而优化整体性能。其中，GPU加速计算是指同时利用GPU和CPU，加快科学、分析、工程、消费和企业应用程序的运行速度。GPU不局限于对图形渲染的加速，在诸如石油勘探、基因测序、医学图像处理等高性能计算(High-PerformanceComputing，HPC)以及近年来逐渐兴起的机器学习和深度学习方面都有着非常广泛的应用。

图1示出本申请实施例提供的数据传输方法的应用场景图。如图1所示，发送端101用于向接收端102传输目标传输数据。具体地，发送端101可以根据采集到的性能指标预测对待传输数据的压缩收益，并且基于压缩收益确定目标传输数据，最终向接收端102传输目标传输数据。例如：在压缩收益为正的情况下，表明相较于直接传输未压缩的待传输数据，对待传输数据执行压缩操作所带来的效益更高，此时可以按照预设的压缩参数对待传输数据执行压缩操作，得到的目标压缩数据为待传输数据在执行压缩操作后的压缩数据；在压缩收益为负的情况下，表明相较于直接传输未压缩的待传输数据，对待传输数据执行压缩操作所带来的效益更低，此时可以确定目标传输数据为未压缩的待传输数据。接收端102用于接收目标传输数据，然后判断目标传输数据是否为压缩数据。在目标传输数据为压缩数据的情况下，对目标传输数据进行解压缩，然后获得解压后的数据；在目标传输数据为未压缩数据的情况下，直接获得目标传输数据。其中，上述“效益”可以理解为对待传输数据执行压缩操作所获得的好处。例如：效益可以通过数据传输时间以及资源消耗等指标来进行衡量。数据传输时间越短，对待传输数据执行压缩操作所带来的效益越高；数据传输时间越长，对待传输数据执行压缩操作所带来的效益越低。资源消耗越小，对待传输数据执行压缩操作所带来的效益越高；资源消耗越大，对待传输数据执行压缩操作所带来的效益越低。

示例性地，发送端101和接收端102可以为分布式集群中的计算节点。其中，计算节点负责执行计算任务和处理数据。计算节点可以为一台独立的计算机，其具有CPU、GPU、存储设备和网络连接。进一步地，发送端101和接收端102可以为计算节点中的GPU。

本申请实施例的数据传输方法能够根据采集到的性能指标预测对待传输数据的压缩收益，并基于压缩收益确定待传输数据是否需要执行压缩操作，相较于相关技术中采用压缩数据和不压缩数据的方式，一方面，可以提升数据传输性能，从而提升分布式集群整体的利用率和有效负载，提升分布式集群的可扩展规模，具有良好的通用性和适用性；另一方面，无需增加硬件成本，部署更加灵活方便。

需要说明的是，本申请实施例中提供的数据传输方法的上述应用场景或应用示例，是为了便于理解，本申请实施例对数据传输方法的应用不作具体限定。

图2示出本申请实施例提供的数据传输方法的流程图。该数据传输方法可以应用于发送端。如图2所示，该数据传输方法包括：

步骤S201：根据采集到的性能指标预测对待传输数据的压缩收益；其中，性能指标包括带宽传输速度(bandwidth speed)、网络传输占用率、GPU占用率、数据压缩速度(compression speed)和数据解压速度(decomp speed)中的至少一种。

其中，带宽传输速度是网络通信中数据传输的最大速率，表示网络通道的容量。较高的带宽传输速度意味着可以更快地传输数据，从而提高数据传输性能。网络传输占用率表示网络通道在传输数据时的实际利用率。高网络传输占用率可能会导致网络拥堵和延迟增加，降低数据传输性能。GPU占用率表示GPU在执行计算任务时的利用率。较高的GPU占用率可能无法及时处理传入的数据，从而会影响数据传输性能。数据压缩速度表示对数据进行压缩的处理速率。较高的数据压缩速度可以加快数据压缩的过程，从而减小传输数据的体积，提高数据传输性能。数据解压速度表示对压缩数据进行解压缩的处理速率。较高的数据解压速度可以快速还原传输的数据，提高数据传输性能。因此，带宽传输速度、网络传输占用率、GPU占用率、数据压缩速度和数据解压速度均会影响待传输数据的压缩收益。

示例性地，带宽传输速度、网络传输占用率、GPU占用率、数据压缩速度和数据解压速度等性能指标可以通过多种途径进行采集，例如可以通过基准测试工具进行采集获得，或者通过调用SDK接口进行采集获得。

其中，带宽传输速度、数据压缩速度和数据解压速度为固定参数，采集一次即可。例如：在发送端为A发送端的情况下，NVLink的带宽传输速度可以为300GB/s，RDMA的带宽传输速度可以为25GB/s，TCP网络的带宽传输速度可以为3GB/s。在发送端为B发送端的情况下，LZ4对应的数据压缩速度可以为198.85GB/s，数据解压速度可以为325.57GB/s。其中，A发送端与B发送端的性能属性不同，性能属性可以包括型号、额定参数以及厂家信息等固定属性，用于区分不同发送端种类。

网络传输占用率和GPU占用率为可变参数，因此采集网络传输占用率和GPU占用率的代价相对较高，可以无需在每次获取待传输数据后实时采集，例如可以每隔预设时间(如1秒)采集一次。

示例性地，可以预先采用统计的方法(例如：各种回归分析方法)或采用机器学习(例如人工神经元网络)的方法，根据历史待传输数据的压缩收益随历史性能指标变化的规律进行总结提取。然后利用当前性能指标预测当前待传输数据的压缩收益。

步骤S202：基于压缩收益确定目标传输数据；其中，目标传输数据为待传输数据或待传输数据在执行压缩操作后得到的压缩数据。

步骤S203：传输目标传输数据。

示例性地，在压缩收益为正的情况下，表明相较于直接传输未压缩的待传输数据，对待传输数据执行压缩操作所带来的效益更高，此时可以按照预设的压缩参数对待传输数据执行压缩操作，得到的目标压缩数据为待传输数据在执行压缩操作后的压缩数据；在压缩收益为负的情况下，表明相较于直接传输未压缩的待传输数据，对待传输数据执行压缩操作所带来的效益更低，此时可以确定目标传输数据为未压缩的待传输数据。在确定目标传输数据后，发送端可以向接收端传输目标传输数据。

图3示出本申请实施例提供的数据传输方法的应用示例图。如图3所示，首先，发送端开始GPU数据传输，在该步骤中，发送端获取待传输数据并采集当前性能指标。然后，发送端根据当前性能指标，预测对待传输数据的压缩收益，并且基于压缩收益确定是否需要压缩待传输数据。例如：在压缩收益为正的情况下，确定需要压缩待传输数据，然后对待传输数据执行压缩操作(如无损压缩)，得到压缩数据，最终将压缩数据作为目标传输数据进行传输。在压缩收益为负的情况下，确定无需压缩待传输数据，然后将未压缩的待传输数据作为目标传输数据进行传输。

图4示出本申请实施例提供的数据传输方法的另一个应用示例图。如图4所示，接收端首先接收目标传输数据，然后判断目标传输数据是否为压缩数据。在目标传输数据为压缩数据的情况下，对目标传输数据进行解压缩，然后获得解压后的数据；在目标传输数据为未压缩数据的情况下，直接获得目标传输数据。示例性地，可以采用GPU通用压缩库执行压缩操作或解压操作。

示例性地，GPU的算力很高，一秒钟可以完成数百GB数据的压缩和解压。本申请实施例适用于发送端和接收端均为GPU的数据传输场景。旨在利用GPU空闲的高算力来换取更少的通讯开销，并基于压缩收益自适应地调整通讯策略，例如：在压缩收益为正的情况下，传输压缩数据；在压缩收益为负的情况下，传输未压缩的待传输数据，解决GPU到GPU的数据传输场景下的传输瓶颈问题。

根据本申请实施例的数据传输方法，通过根据采集到的性能指标预测对待传输数据的压缩收益，并且基于压缩收益确定目标传输数据，可以提升数据传输性能，从而提升分布式集群整体的利用率和有效负载，提升分布式集群的可扩展规模，具有良好的通用性和适用性，且无需增加硬件成本，部署更加灵活方便。

在一种实施方式中，在步骤S201中，根据采集到的性能指标预测对待传输数据的压缩收益，可以包括：根据采集到的性能指标，预测待传输数据在未压缩情况下的第一传输耗时，以及待传输数据在压缩情况下的压缩耗时、第二传输耗时和解压耗时；基于第一传输耗时、压缩耗时、第二传输耗时和解压耗时，计算待传输数据的压缩收益。

示例性地，性能指标可以包括带宽传输速度、数据压缩速度和数据解压速度。首先可以根据数据分布和压缩算法的选择来计算得到压缩率(compress rate)，从而确定压缩数据的大小。假设待传输数据的大小(data size)为D，待传输数据在执行压缩操作后得到的压缩数据(compressed data size)大小为M，带宽传输速度为B，数据压缩速度为C，数据解压速度为U。则待传输数据在未压缩情况下的第一传输耗时t1可以为D/B；待传输数据在压缩情况下的压缩耗时(compression time cost)t2可以为D/C，第二传输耗时t3可以为M/B，解压耗时(decompression time cost)t4可以为M/U。基于t1、t2、t3和t4，可以计算得到待传输数据的压缩收益。在计算得到待传输数据的压缩收益为正的情况下，表明将待传输数据执行压缩操作后再进行传输相较于不压缩直接传输所节省的时间大于压缩耗时和解压耗时之和，从而使得整体传输时间减少。基于该压缩收益，可以确定目标传输数据为待传输数据在执行压缩操作后得到的压缩数据。在计算得到待传输数据的压缩收益为负的情况下，表明将待传输数据执行压缩操作后再进行传输相较于不压缩直接传输所节省的时间小于压缩耗时和解压耗时之和，因此将待传输数据执行压缩操作后再进行传输会导致整体传输时间增加。基于该压缩收益，可以确定目标传输数据为未压缩的待传输数据。

本申请实施例中，可以通过比较待传输数据在压缩情况下的压缩耗时、第二传输耗时、解压耗时的总开销耗时以及待传输数据在未压缩情况下的第一传输耗时，得到压缩收益，从而基于压缩收益自适应确定待传输数据是否需要执行压缩操作，可以有效提升数据传输效率。

在一种实施方式中，基于第一传输耗时、压缩耗时、第二传输耗时和解压耗时，计算待传输数据的压缩收益，包括：确定第一传输耗时与第二传输耗时的传输耗时差值，以及压缩耗时与解压耗时的压缩解压耗时之和；分别确定第一预设耗时系数和压缩解压耗时之和之间的第一乘积以及第二预设耗时系数和传输耗时差值之间的第二乘积；基于第一乘积和第二乘积确定压缩收益。

示例性地，第一预设耗时系数即为压缩解压耗时系数，第二预设耗时系数即为通讯耗时系数。在第一传输耗时为t1、压缩耗时为t2、第二传输耗时为t3、解压耗时为t4、第一预设耗时系数为α且第二预设耗时系数为β的情况下，传输耗时差值为t1－t3，压缩解压耗时之和为t2+t4，压缩收益score可以满足：score＝β×(t1－t3)－α×(t2+t4)。可选地，第一预设耗时系数α可以为1.5；第二预设耗时系数β可以为2.5，但不限于此。

示例性地，可以采用机器学习的方式自适应地确定第一预设耗时系数以及第二预设耗时系数，以进一步提升压缩收益的计算准确性和较优性。例如：可以将待传输数据和性能指标输入训练好的系数确定模型，以得到第一预设耗时系数和第二预设耗时系数。

通过设置上述的第一预设耗时系数和第二预设耗时系数，可以为传输耗时差值和压缩解压耗时之和分别分配对应的权重，调节压缩传输的时间优势以及压缩解压过程的时间开销，从而使压缩收益的计算更加合理准确。

在一种实施方式中，性能指标包括所述网络传输占用率。分别确定第一预设耗时系数和压缩解压耗时之和之间的第一乘积以及第二预设耗时系数和传输耗时差值之间的第二乘积，包括：基于第一预设耗时系数和压缩解压耗时之和，计算第一乘积；在网络传输占用率大于预设传输占用率的情况下，将第二预设耗时系数扩大X倍，并基于扩大后的第二预设耗时系数和传输耗时差值，计算第二乘积；其中，X大于1。

示例性地，预设传输占用率可以为80％；X可以为3，但不限于此。

本申请实施例中，在网络传输占用率大于预设传输占用率的情况下，通讯资源较为紧缺，此时数据传输可能会受到限制，导致传输速度下降。通过将第二预设耗时系数扩大X倍，可以适度增加传输耗时的估计值，以反映实际通讯资源不足的情况，可以提升计算得到的压缩收益的可靠性，保证分布式集群具有较高的整体利用率和性能。

在一种实施方式中，性能指标包括GPU占用率。分别确定第一预设耗时系数和压缩解压耗时之和之间的第一乘积以及第二预设耗时系数和传输耗时差值之间的第二乘积，包括：基于第二预设耗时系数和传输耗时差值，计算第二乘积；在GPU占用率大于预设GPU占用率的情况下，将第一预设耗时系数扩大Y倍，并基于扩大后的第一预设耗时系数和压缩解压耗时之和，计算第一乘积；其中，Y大于1。示例性地，预设GPU占用率可以为50％；Y可以为2，但不限于此。

在GPU占用率大于预设GPU占用率的情况下，GPU资源较为紧缺，压缩操作和解压操作会占用额外的计算资源，导致成本增加，影响压缩传输的效率。通过增大第一预设耗时系数，可以更加保守地预测将待传输数据执行压缩操作后再进行传输的效果，考虑到额外的计算资源消耗，从而在GPU资源有限时，仍可以有效地预测压缩传输的性能。

本申请实施例中，通过在GPU占用率大于预设GPU占用率的情况下，将第一预设耗时系数扩大Y倍，并基于扩大后的第一预设耗时系数和压缩解压耗时之和，计算第一乘积，可以更准确地反映压缩操作及解压操作对数据传输性能的影响，使计算得到的压缩收益更加可靠，从而有效提高分布式集群的整体利用率和性能。

在一种实施方式中，在步骤S202中，基于压缩收益确定目标传输数据，可以包括：在压缩收益为正的情况下，按照预设的压缩参数对待传输数据执行压缩操作，得到目标传输数据；在压缩收益为负的情况下，确定目标传输数据为待传输数据。示例性地，压缩参数可以包括压缩率，压缩率为衡量压缩效果的指标。表示待传输数据在执行压缩操作后得到的压缩数据大小与原始待传输数据大小之间的比例。某些数据集可能具有较高的冗余性，因此可以获得较高的压缩率。不同的压缩算法也会对压缩率产生影响。因此，压缩率可以根据数据分布和压缩算法的选择来计算得到。

本申请实施例中，在压缩收益为正的情况下，通过按照预设的压缩参数对待传输数据执行压缩操作，可以减少整体的数据传输时间，提升数据传输效率。在压缩收益为负的情况下，对待传输数据执行压缩操作后再传输的时间优势不足以弥补压缩耗时和解压耗时，此时如果对待传输数据执行压缩操作会导致整体的传输时间增加，通过确定目标传输数据为待传输数据，可以直接传输原始的待传输数据，从而可以有效减少整体的传输时间，节省传输资源，达到提升数据传输性能的目的。

在一种实施方式中，在步骤S201中，根据采集到的性能指标预测对待传输数据的压缩收益，可以包括：将待传输数据和采集到的性能指标输入训练好的压缩收益计算模型，得到待传输数据的压缩收益。

示例性地，压缩收益计算模型可以是基于机器学习回归模型训练得到。其中，机器学习回归模型可以为支持向量机的回归模型、决策树的回归模型、基于神经网络的回归模型或其它模型等。在训练压缩收益计算模型时，需要获取多个待传输数据、每个待传输数据所对应的性能指标以及实际压缩收益，然后将每个待传输数据以及对应的性能指标作为输入特征，且实际压缩收益作为输出特征，对初始模型进行训练，最后得到训练好的压缩收益计算模型。

由此，通过将待传输数据和采集到的性能指标输入训练好的压缩收益计算模型，可以输出待传输数据的压缩收益，从而可以基于压缩收益确定目标传输数据，可以有效提升分布式集群整体的利用率和有效负载，提升分布式集群的可扩展规模。

在一种实施方式中，本申请实施例的数据传输方法还包括：在目标传输数据为机器学习模型在推理场景下的权重数据的情况下，存储目标传输数据及目标传输数据对应的压缩参数，以在接收端需要确定权重数据的情况下，向接收端发送存储的目标传输数据和对应的压缩参数。

示例性地，由于发送端预先存储了权重数据以及权重数据对应的压缩参数。在接收端需要确定权重数据的情况下，发送端可以直接向接收端发送存储的权重数据和对应的压缩参数。接收端在接收到权重数据和对应的压缩参数后，可以根据压缩参数对权重数据执行解压缩操作。

其中，在机器学习中，训练一个模型通常包括两个主要阶段：训练阶段和推理阶段。在训练阶段，机器学习模型使用输入数据进行训练，并根据目标函数和优化算法调整模型的权重参数。这个过程旨在使模型能够从数据中学习并捕捉到数据的模式和规律。在推理阶段，训练好的模型被用于对新的输入数据进行预测或分类。在这个阶段，模型的权重参数保持不变，只是将输入数据输入到模型中进行计算，并输出相应的预测结果。机器学习模型在推理场景下的权重数据指的是在训练阶段训练好的模型中的权重参数。这些权重参数反映了模型学习到的数据模式和规律，用于在推理阶段进行预测和分类。权重数据通常以数值的形式存储，可以是矩阵、向量或张量等形式，具体取决于模型的架构和参数设置。在推理阶段，这些权重数据会被加载到模型中，用于对新的输入数据进行预测。

本申请实施例中，通过在目标传输数据为机器学习模型在推理场景下的权重数据的情况下，存储目标传输数据及目标传输数据对应的压缩参数，在需要使用或传输权重数据时，发送端无需再次预测权重数据的压缩收益，可以直接向接收端发送存储的权重数据和对应的压缩参数，有效减少了传输时间和资源消耗，提高推理的效率和性能。

与本申请实施例提供的方法相对应地，本申请实施例提供一种数据传输装置。图5示出本申请实施例二提供的数据传输装置的架构图。如图5所示，该数据传输装置应用于发送端，包括：收益预测模块501，用于根据采集到的性能指标预测对待传输数据的压缩收益；其中，性能指标包括网络传输速度、网络传输占用率、GPU占用率、数据压缩速度和数据解压速度中的至少一种；数据确定模块502，用于基于压缩收益确定目标传输数据；其中，目标传输数据为待传输数据或待传输数据在执行压缩操作后得到的压缩数据；数据传输模块503，用于传输目标传输数据。

在一种实施方式中，收益预测模块501包括：耗时预测子模块，用于根据采集到的性能指标，预测待传输数据在未压缩情况下的第一传输耗时，以及待传输数据在压缩情况下的压缩耗时、第二传输耗时和解压耗时；压缩收益计算子模块，用于基于第一传输耗时、压缩耗时、第二传输耗时和解压耗时，计算待传输数据的压缩收益。

在一种实施方式中，压缩收益计算子模块包括：第一确定单元，用于确定第一传输耗时与第二传输耗时的传输耗时差值，以及压缩耗时与解压耗时的压缩解压耗时之和；第二确定单元，用于分别确定第一预设耗时系数和压缩解压耗时之和之间的第一乘积以及第二预设耗时系数和传输耗时差值之间的第二乘积；第三确定单元，用于基于第一乘积和第二乘积确定压缩收益。

在一种实施方式中，性能指标包括网络传输占用率。第二确定单元还用于：基于第一预设耗时系数和压缩解压耗时之和，计算第一乘积；在网络传输占用率大于预设传输占用率的情况下，将第二预设耗时系数扩大X倍，并基于扩大后的第二预设耗时系数和传输耗时差值，计算第二乘积；其中，X大于1。

在一种实施方式中，性能指标包括GPU占用率。第二确定单元还用于：基于第二预设耗时系数和传输耗时差值，计算第二乘积；在GPU占用率大于预设GPU占用率的情况下，将第一预设耗时系数扩大Y倍，并基于扩大后的第一预设耗时系数和压缩解压耗时之和，计算第一乘积；其中，Y大于1。

在一种实施方式中，数据确定模块502还用于：在压缩收益为正的情况下，按照预设的压缩参数对待传输数据执行压缩操作，得到目标传输数据；在压缩收益为负的情况下，确定目标传输数据为待传输数据。

在一种实施方式中，收益预测模块501还用于：将待传输数据和采集到的性能指标输入训练好的压缩收益计算模型，得到待传输数据的压缩收益。

在一种实施方式中，数据传输装置还包括：存储模块，用于在目标传输数据为机器学习模型在推理场景下的权重数据的情况下，存储目标传输数据及目标传输数据对应的压缩参数，以在接收端需要确定权重数据的情况下，向接收端发送存储的目标传输数据和对应的压缩参数。

图6为用来实现本申请实施例的电子设备的框图。如图6所示，该电子设备包括：存储器601和处理器602，存储器601内存储有可在处理器602上运行的计算机程序。处理器602执行该计算机程序时实现上述实施例中的方法。存储器601和处理器602的数量可以为一个或多个。

该电子设备还包括：通信接口603，用于与外界设备进行通信，进行数据交互传输。

如果存储器601、处理器602和通信接口603独立实现，则存储器601、处理器602和通信接口603可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器601、处理器602及通信接口603集成在一块芯片上，则存储器601、处理器602及通信接口603可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请任一实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请任一实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请任一实施例提供的方法。

应理解的是，上述处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field Programmable gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(Advanced RISC Machines，ARM)架构的处理器。

可选地，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如：静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Sync Link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户操作信息等)和数据(包括但不限于用于处理的数据、分析的数据、存储的数据、展示的数据等)等，均为经用户授权或者经过各方充分授权的信息和数据，并且相关信息和数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如：可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据传输方法，应用于发送端，包括：

根据采集到的性能指标预测对待传输数据的压缩收益；其中，所述性能指标包括带宽传输速度、网络传输占用率、图形处理器GPU占用率、数据压缩速度和数据解压速度中的至少一种；

基于所述压缩收益确定目标传输数据；其中，所述目标传输数据为所述待传输数据或所述待传输数据在执行压缩操作后得到的压缩数据；

传输所述目标传输数据。

2.根据权利要求1所述的方法，其中，根据采集到的性能指标预测对待传输数据的压缩收益，包括：

根据所述采集到的性能指标，预测所述待传输数据在未压缩情况下的第一传输耗时，以及所述待传输数据在压缩情况下的压缩耗时、第二传输耗时和解压耗时；

基于所述第一传输耗时、所述压缩耗时、所述第二传输耗时和所述解压耗时，计算所述待传输数据的压缩收益。

3.根据权利要求2所述的方法，其中，基于所述第一传输耗时、所述压缩耗时、所述第二传输耗时和所述解压耗时，计算所述待传输数据的压缩收益，包括：

确定所述第一传输耗时与所述第二传输耗时的传输耗时差值，以及所述压缩耗时与所述解压耗时的压缩解压耗时之和；

分别确定第一预设耗时系数和所述压缩解压耗时之和之间的第一乘积以及第二预设耗时系数和所述传输耗时差值之间的第二乘积；

基于所述第一乘积和所述第二乘积确定所述压缩收益。

4.根据权利要求3所述的方法，其中，所述性能指标包括所述网络传输占用率；分别确定第一预设耗时系数和所述压缩解压耗时之和之间的第一乘积以及第二预设耗时系数和所述传输耗时差值之间的第二乘积，包括：

基于所述第一预设耗时系数和所述压缩解压耗时之和，计算所述第一乘积；

在所述网络传输占用率大于预设传输占用率的情况下，将所述第二预设耗时系数扩大X倍，并基于扩大后的第二预设耗时系数和所述传输耗时差值，计算所述第二乘积；其中，X大于1。

5.根据权利要求3所述的方法，其中，所述性能指标包括所述GPU占用率；分别确定第一预设耗时系数和所述压缩解压耗时之和之间的第一乘积以及第二预设耗时系数和所述传输耗时差值之间的第二乘积，包括：

基于所述第二预设耗时系数和所述传输耗时差值，计算所述第二乘积；

在所述GPU占用率大于预设GPU占用率的情况下，将所述第一预设耗时系数扩大Y倍，并基于扩大后的第一预设耗时系数和所述压缩解压耗时之和，计算所述第一乘积；其中，Y大于1。

6.根据权利要求1-5中任一项所述的方法，其中，基于所述压缩收益确定目标传输数据，包括：

在所述压缩收益为正的情况下，按照预设的压缩参数对所述待传输数据执行压缩操作，得到所述目标传输数据；

在所述压缩收益为负的情况下，确定所述目标传输数据为所述待传输数据。

7.根据权利要求1-5中任一项所述的方法，其中，根据采集到的性能指标预测对待传输数据的压缩收益，包括：

将所述待传输数据和采集到的性能指标输入训练好的压缩收益计算模型，得到所述待传输数据的压缩收益。

8.根据权利要求1-5中任一项所述的方法，还包括：

在所述目标传输数据为机器学习模型在推理场景下的权重数据的情况下，存储所述目标传输数据及所述目标传输数据对应的压缩参数，以在接收端需要确定所述权重数据的情况下，向所述接收端发送存储的目标传输数据和对应的压缩参数。

9.一种数据传输装置，应用于发送端，包括：

收益预测模块，用于根据采集到的性能指标预测对待传输数据的压缩收益；其中，所述性能指标包括网络传输速度、网络传输占用率、GPU占用率、数据压缩速度和数据解压速度中的至少一种；

数据确定模块，用于基于所述压缩收益确定目标传输数据；其中，所述目标传输数据为所述待传输数据或所述待传输数据在执行压缩操作后得到的压缩数据；

数据传输模块，用于传输所述目标传输数据。

10.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。