CN114338398A

CN114338398A - 数据传输方法、装置、电子设备及存储介质

Info

Publication number: CN114338398A
Application number: CN202111658830.XA
Authority: CN
Inventors: 周航; 刘宇; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12
Anticipated expiration: 2041-12-30
Also published as: CN114338398B

Abstract

本公开提供了一种数据传输方法、装置、电子设备及存储介质，该方法包括：接收数据生产端发送的元数据，其中，元数据包括数据生产端的网络地址信息以及数据生产端所产生的训练数据的数据量大小；响应于数据消费端的数据获取请求，将元数据发送至数据消费端，使得数据消费端基于元数据从数据生产端获取训练数据；其中，数据消费端基于所述网络地址信息与数据生产端建立通信连接，训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。本公开实施例，通过将数据生产端发送的元数据发送至数据消费端，进而使得数据消费端可以基于元数据从数据生产端直接获取训练数据，如此，可以提高数据传输的效率。

Description

数据传输方法、装置、电子设备及存储介质

技术领域

本公开涉及机器学习技术领域，具体而言，涉及一种数据传输方法、装置、电子设备以及计算机可读存储介质。

背景技术

机器学习技术是人工智能科学中的重要分支之一，包括有监督学习、无监督学习以及强化学习三种方式。在强化学习的训练过程中，经常通过多台设备实现分布式训练，以提高强化学习的训练效率。

在现有的分布式训练技术中，经常通过中心服务器来完成训练数据的传输，具体地，多个数据生产端(如生产者)将产生的训练数据发送至中心服务器，再由中心服务器将训练数据发送到多个数据消费端(如消费者)。

然而，由于多台设备之间的数据传输量较大，通过中心服务器进行传输时，需要对大量数据进行复制以及转发，如此，不仅影响数据传输的效率，还会降低强化学习网络的训练效率。

发明内容

本公开实施例至少提供一种数据传输方法、装置、电子设备及存储介质，以提升数据传输的效率。

本公开实施例提供了一种数据传输方法，应用于中心服务器，所述方法包括：

接收数据生产端发送的元数据，其中，所述元数据包括所述数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小；

响应于数据消费端的数据获取请求，将所述元数据发送至所述数据消费端，使得所述数据消费端基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

本公开实施例中，由于元数据的数据内容较少，也即，元数据占用的存储空间较小，如此，服务器可以支持较多的元数据的交换，其次，通过将元数据发送至数据消费端，可以使得数据消费端与数据生产端之间进行点对点的数据传输，也即，可以使得数据消费端基于元数据从数据生产端直接获取训练数据，无需通过中心服务器对训练数据进行复制及转发，如此，可以提高数据传输的的效率。

一种可选的实施方式中，所述接收数据生产端发送的元数据之前，所述方法还包括：

基于所述中心服务器的网络地址信息，分别建立所述中心服务器与至少一个数据生产端之间的通信连接，以及所述中心服务器与至少一个数据消费端之间的通信连接。

本公开实施例中，通过建立中心服务器与至少一个数据生产端之间的通信连接，以及中心服务器与至少一个数据消费端之间的通信连接，以便于元数据的传输。

一种可选的实施方式中，所述接收数据生产端的元数据之后，所述方法还包括：

将所述元数据存储至队列数据库；

所述响应于数据消费端的数据获取请求，将所述元数据发送至所述数据消费端，包括：

响应于数据消费端的数据获取请求，判断所述队列数据库是否为空；

在所述队列数据库为非空的情况下，从所述队列数据库确定目标元数据，并将所述目标元数据发送至所述目标数据消费端。

本公开实施例中，通过队列数据库存储元数据，若接收到数据消费端的数据获取请求，即可从队列数据库中提取元数据发送至数据消费端，如此，可以确保元数据传输的实时性，进而可以提高数据传输的效率。

一种可选的实施方式中，所述方法还包括：

在所述队列数据库为空的情况下，进入等待状态，直至所述队列数据库中出现新的元数据，并将所述新的元数据发送至所述数据消费端。

本公开实施例中，若队列数据库为空，则进入等待状态，并在队列数据库中出现新的元数据时，便将新的元数据发送至数据消费端，如此，有利于提高数据传输的效率。

本公开实施例提供了一种数据传输方法，应用于数据生产端，所述方法包括：

通过运行至少一个强化学习环境，产生训练数据；

基于所述数据生产端的网络地址信息以及所述训练数据的数据量大小，生成元数据；

将所述元数据发送至中心服务器，使得数据消费端通过所述中心服务器获取所述元数据，并基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

本公开实施例中，基于数据生产端的网络地址信息以及训练数据的数据量大小，生成元数据，并将元数据发送至中心服务器，与现有技术中将训练数据发送至服务器的方式相比，可以节约服务器的存储空间；其次，将元数据发送至中心服务器，使得数据消费端可以基于元数据与数据生产端之间进行点对点的数据传输，也即，数据消费端可以基于元数据从数据生产端直接获取训练数据，无需通过服务器对训练数据进行复制及转发，如此，可以提高数据传输的效率。

一种可选的实施方式中，所述网络地址信息包括网络协议地址以及端口号；所述基于所述数据生产端的网络地址信息以及所述训练数据的数据量大小，生成元数据，包括：

确定所述数据生产端的一个空闲端口的端口号；

基于所述空闲端口的端口号、所述数据生产端的网络协议地址，以及所述训练数据的数据量大小，生成所述元数据。

本公开实施例中，基于数据生产端的空闲端口的端口号生成元数据，如此，可以使得不同训练数据能够通过空闲的端口进行传输，避免传输拥塞，有利于提高数据的传输效率。

一种可选的实施方式中，所述将所述元数据发送至中心服务器之后，所述方法还包括：

响应于所述数据消费端发送的连接请求，基于所述空闲端口的端口号以及所述数据生产端的网络协议地址开启数据传输通道，以将所述训练数据发送至所述数据消费端。

本公开实施例中，在接收到数据消费端发送得连接请求的情况下，将训练数据发送至数据消费端，如此，可以避免占用数据传输通道，其次，通过空闲端口进行训练数据的传输，可以使得各个数据消费端从数据生产端获取训练数据时互不影响，进而有利于提高训练数据传输的效率。

一种可选的实施方式中，所述方法还包括：

在检测到所述数据消费端断开连接的情况下，关闭所述数据传输通道。

本公开实施例中，在检测到数据消费端断开连接的情况下，关闭数据传输通道，如此，可以节约系统资源。

本公开实施例提供了一种数据传输方法，应用于数据消费端，所述方法包括：

发送数据获取请求至中心服务器；

接收所述中心服务器响应于所述数据获取请求，而发送的元数据，其中，所述元数据包括数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小；

基于所述元数据，从所述数据生产端获取所述训练数据，并基于所述训练数据对目标网络进行训练。

本公开实施例中，基于元数据可以之间从数据生产端获取训练数据，与现有技术中的从服务器获取训练数据的方式相比，不仅可以有效减少服务器对训练数据进行复制的数量，进而节约服务器的资源，还可以减少数据传输的总量，进而提高数据传输的效率。

一种可选的实施方式中，所述基于所述元数据，从所述数据生产端获取所述训练数据，包括：

对所述元数据进行解析，得到所述数据生产端的网络地址信息以及所述训练数据的数据量大小；

基于所述数据生产端的网络地址信息，生成连接请求，并向所述数据生产端发送所述连接请求；

接收所述数据生产端响应所述连接请求发送的所述训练数据，直至所接收到的数据规模与所述数据量大小匹配。

本公开实施例中，通过对元数据进行解析，得到数据生产端的网络地址信息以及训练数据的数据量大小，如此，可以提高数据消费端与数据生产端之间的点对点连接的准确性。另外，还通过接收与数据量大小相同的训练数据，如此，可以确保训练数据传输过程中训练数据的完整性。

一种可选的实施方式中，所述方法还包括：

在所接收到的数据规模与所述数据量大小匹配的情况下，断开所述数据消费端与所述数据生产端之间的通信连接。

本公开实施例中，在当前所接收到的数据规模与数据量大小相同的情况下，断开数据消费端与数据生产端之间的通信连接，如此，可以节约通信资源。

本公开实施例还提供一种数据传输装置，所述装置包括：

元数据接收模块，用于接收数据生产端发送的元数据，其中，所述元数据包括所述数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小；

元数据发送模块，用于响应于数据消费端的数据获取请求，将所述元数据发送至所述数据消费端，使得所述数据消费端基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

一种可选的实施方式中，所述装置还包括通信连接模块，所述通信连接模块用于：

一种可选的实施方式中，所述装置还包括存储模块，所述存储模块用于：

将所述元数据存储至队列数据库；

所述元数据发送模块具体用于：

一种可选的实施方式中，所述元数据发送模块具体还用于：

本公开实施例还提供一种数据传输装置，所述装置包括：

训练数据产生模块，用于通过运行至少一个强化学习环境，产生训练数据；

元数据生成模块，用于基于所述数据生产端的网络地址信息以及所述训练数据的数据量大小，生成元数据；

发送模块，用于将所述元数据发送至中心服务器，使得数据消费端通过所述中心服务器获取所述元数据，并基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

一种可选的实施方式中，所述网络地址信息包括网络协议地址以及端口号；所述元数据生成模块具体用于：

确定所述数据生产端的一个空闲端口的端口号；

一种可选的实施方式中，所述发送模块还用于：

本公开实施例还提供一种数据传输装置，所述装置包括：

请求发送模块，用于发送数据获取请求至中心服务器；

接收模块，用于接收所述中心服务器响应于所述数据获取请求，而发送的元数据，其中，所述元数据包括数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小；

训练数据获取模块，用于基于所述元数据，从所述数据生产端获取所述训练数据，并基于所述训练数据对目标网络进行训练。

一种可选的实施方式中，所述训练数据获取模块具体用于：

一种可选的实施方式中，所述训练数据获取模块具体还用于：

在当前所接收到的数据规模与所述数据量大小匹配的情况下，断开所述数据消费端与所述数据生产端之间的通信连接。

本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述数据传输方法。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述数据传输方法。

关于上述数据传输装置、电子设备、及计算机可读存储介质的效果描述参见上述数据传输方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例所提供的一种实施数据传输方法的示例性系统架构图；

图2为本公开实施例所提供的第一种数据传输方法的流程图；

图3为本公开实施例所提供的第二种数据传输方法的流程图；

图4为本公开实施例所提供的第三种数据传输方法的流程图；

图5为本公开实施例所提供的第四种数据传输方法的流程图；

图6为本公开实施例所提供的一种生成元数据方法的流程图；

图7为本公开实施例所提供的第五种数据传输方法的流程图；

图8为本公开实施例所提供的第六种数据传输方法的流程图；

图9为本公开实施例所提供的一种获取训练数据方法的流程图；

图10为本公开实施例所提供的第一种数据传输装置的结构示意图；

图11为本公开实施例所提供的第二种数据传输装置的结构示意图；

图12为本公开实施例所提供的第三种数据传输装置的结构示意图；

图13为本公开实施例所提供的第四种数据传输装置的结构示意图；

图14为本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

首先对本申请实施例中涉及的相关名词术语进行介绍和说明：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

决策智能，包含了充分调优的训练配置、高效的算法实现和预训练的模型库，可以帮助研究者和工程师快速开启强化学习的学习、验证想法以及生产业务基线模型。比如，本公开实施例中，可以基于逻辑架构系统并结合决策智能来构建数据验证系统并实现数据的高效验证。

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于监督学习，强化学习中由环境提供的强化信号是对产生动作的好坏作出一种评价(通常为标量信号)，而不是通知强化学习系统(reinforcement learning system，RLS)如何去产生正确的动作。

在强化学习的过程中，随着强化学习所需的训练规模越来越大，单台设备已经无法满足需求，需要用到多台设备组成的集群来提供分布式的强化学习训练。具体方式为：由数据生产端运行强化学习环境来收集数据，由数据消费端来接收数据并更新强化学习网络模型，数据生产端和数据消费端会分别运行在多个不同的设备上，并利用通信网络来传输训练数据。

请参见图1，图1为本公开实施例所提供的一种实施数据传输方法的示例性分布式系统架构图。如图1中所示，系统架构10可以包括多个数据生产端100、中心服务器200以及多个数据消费端300。其中，多个数据生产端100与中心服务器200之间，以及多个数据消费端300与中心服务器200之间通过通信连接网络400建立通信连接，也即，通信连接网络400用于在多个数据生产端100与中心服务器200之间，以及多个数据消费端的300与中心服务器200之间提供通信链路的介质。通信连接网络400可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity，Wi-Fi)通信链路或微波通信链路等。

数据生产端100和数据消费端300可以是硬件也可以是软件，当数据生产端100和数据消费端300为硬件时，其可以是各种类型的电子设备；当数据生产端100和数据消费端300为软件时，其可以是安装于前述的电子设备中，其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

应理解，图1中的数据生产端100、中心服务器200、多个数据消费端300和通信连接网络400的数目仅是示意性的。根据实现需要，可以是任意数量的数据生产端、中心服务器、数据消费端和通信连接网络。

在现有的网络通信技术中，若通过图1中所示的中心服务器200来完成训练数据的传输，中心服务器200需要对大量数据进行复制以及转发，如此，不仅影响数据传输的效率，还会降低强化学习网络的训练效率。

基于上述研究，本公开实施例提供了一种数据传输方法，应用于中心服务器，该方法包括：接收至少一个数据生产端发送的元数据，其中，所述元数据包括所述数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小；响应于数据消费端的数据获取请求，将所述元数据发送至所述数据消费端，使得所述数据消费端基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

本公开实施例中，由于元数据的数据内容较少，也即，元数据占用的存储空间较小，如此，中心服务器可以支持较多的元数据的交换，其次，通过将元数据发送至数据消费端，可以使得数据消费端与数据生产端之间进行点对点的数据传输，也即，可以使得数据消费端基于元数据从数据生产端直接获取训练数据，无需通过中心服务器对训练数据进行复制及转发，如此，可以提高数据传输的效率。

下面结合图2对本公开实施例提供的数据传输方法进行详细介绍。本公开实施例中的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云存储、大数据和人工智能平台等基础云计算服务的云服务器。其它处理设备可以是包括处理器和存储器的设备，在此不做限定。在一些可能的实施方式中，该数据传输方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。为方便理解与描述，下面以执行主体为服务器进行详细介绍。

请参阅图2，图2为本公开实施例所提供的第一种数据传输方法的流程图。如图2所示，本公开实施例提供的数据传输方法，应用于图1中所示的中心服务器，包括以下S101～S102：

S101，接收数据生产端发送的元数据，其中，所述元数据包括所述数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小。

其中，数据生产端的网络地址信息是指数据生产端的互联网协议地址(InternetProtocol Address，IP)以及端口号信息；所述数据量大小即为训练数据的数据量规模。

在一些实施方式中，若数据生产端是软件，则数据生产端运行于设备的中央处理器(CPU)中。

可以理解，由于元数据中的内容包括数据生产端的网络地址信息以及数据生产端所产生的训练数据的数据量大小，因此，元数据所占用的空间较小，如此，便可减小元数据在中心服务器的存储空间。

S102，响应于数据消费端的数据获取请求，将所述元数据发送至所述数据消费端，使得所述数据消费端基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

其中，数据消费端可以通过网络地址信息建立与数据生产端之间的点对点的通信连接，以便于后续的训练数据的传输。

在一些实施方式中，若数据生产端是软件，则数据生产端运行于具有图像处理器(GPU)的设备上，在一般情况下，一台设备中会具有8块GPU，则每块GPU上均可以运行一个数据消费端，并且，各个数据消费端之间通过NCCL通信框架(Nvidia Collective multi-GPUCommunication Library，NCCL)交换强化学习网络的参数信息。

具体的，中心服务器在接收到任一数据消费端的数据获取请求后，会将其接收到的其中一组元数据发送至该数据消费端，如此，数据消费端即可基于元数据中的网络地址信息建立与数据生产端的通信连接，并可以从数据生产端处获取训练数据。

请参阅图3，图3为本公开实施例所提供的第二种数据传输方法的流程图。与图2所示的数据传输方法不同的是，在步骤S101之前还包括步骤S100：

S100，基于所述中心服务器的网络地址信息，分别建立所述中心服务器与至少一个数据生产端之间的通信连接，以及所述中心服务器与至少一个数据消费端之间的通信连接。

其中，中心服务器的网络地址信息包括中心服务器的互联网协议地址(InternetProtocol Address，IP)以及端口号信息。

具体的，在中心服务器启动时，可以先指定中心服务器的IP地址以及空闲端口的端口号，在数据生产端和数据消费端启动时，会将中心服务器的IP地址和端口号作为启动参数，如此，便可以分别建立中心服务器与至少一个数据生产端之间的通信连接，以及中心服务器与至少一个数据消费端之间的通信连接。在该通信连接建立之后，可以通过与数据生产端的通信连接关系接收数据生产端的元数据，以及通过与数据消费端的通信连接关系接收数据消费端的获取请求并发送元数据至数据消费端。

请参阅图4，图4为本公开实施例所提供的第三种数据传输方法的流程图。如图4所示，本公开实施例提供的数据传输方法，应用于中心服务器，包括以下S401～S405：

S401，接收数据生产端发送的元数据，其中，所述元数据包括所述数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小。

S402，将所述元数据存储至队列数据库。

S403，响应于数据消费端的数据获取请求，判断所述队列数据库是否为空；若为是，执行步骤S404，若为否，执行步骤S405。

S404，进入等待状态，直至所述队列数据库中出现新的元数据，并将所述新的元数据发送至所述数据消费端。

S405，从所述队列数据库确定目标元数据，并将所述目标元数据发送至所述目标数据消费端。

具体的，中心服务器会维护一个先进先出的队列数据库，在数据生产端向中心服务器发送一条元数据时，中心服务器便将该元数据放入队列数据库中，然后，在中心服务器接收到数据消费端的数据获取请求时，首先判断队列数据库中是否为空，若为空，则等待数据生产端发送新的元数据；若不为空，则从队列数据库中提取一条元数据发送至该数据消费端。

在另一些实施方式中，在数据生产端向中心服务器发送元数据时，中心服务器可以对元数据进行保存，然后，在中心服务器接收到任一数据消费端的数据获取请求时，可以将存储的元数据发送给数据消费端，如此，可以将同一元数据发送至不同的数据消费端。

示例性地，在使用队列传输元数据时，可以使用面向消息的中间件RabbitMQ、ActiveMQ或者分布式发布订阅消息系统(Kafka)等传输方式，在此不做限定。

请参阅图5，图5为本公开实施例所提供的第四种数据传输方法的流程图。如图5所示，本公开实施例提供的数据传输方法，应用于数据生产端，包括以下S501～S503：

S501，通过运行至少一个强化学习环境，产生训练数据。

其中，不同的强化学习环境会产生不同类型的训练数据，具体的，数据生产端可以并行运行至少一个强化学习环境，并与强化学习环境进行交互，产生训练数据。

S502，基于所述数据生产端的网络地址信息以及所述训练数据的数据量大小，生成元数据。

在一些实施方式中，针对步骤S502，在基于所述数据生产端的网络地址信息以及所述训练数据的数据量大小，生成元数据时，请参见图6，可以包括以下S5021～S5022：

S5021，确定所述数据生产端的一个空闲端口的端口号。

S5022，基于所述空闲端口的端口号、所述数据生产端的网络协议地址以及所述训练数据的数据量大小，生成所述元数据。

具体的，为了使得每个数据生产端所产生的训练数据之间的传输互不影响，且避免网络传输拥堵(多条数据传输同时占用同一个端口的情况)可以首先确定数据生产端的一个空闲端口的端口号，并基于该空闲端口的端口号、所述数据生产端的网络协议地址以及所述训练数据的数据量大小，生成元数据，如此，可以使得每个元数据对应一个空闲的端口，也即，每组训练数据可以通过一个空闲的端口进行传输，进而可以避免等待，提升了数据传输的效率。

S503，将所述元数据发送至中心服务器，使得数据消费端通过所述中心服务器获取所述元数据，并基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

其中，关于网络地址信息的具体描述内容，可以参见步骤S102的描述，在此不作赘述。

示例性地，强化学习环境可以是一些游戏环境，还可以是一些商品推荐环境等，在此不做限定。

下面以游戏环境为例，对上述步骤进行详细说明，数据生产端在玩游戏的过程中，会将游戏过程记录下来，如此，便会得到训练数据，由于每个数据生产端的网络地址信息(即IP地址和端口号)不同，在数据生产端产生一定规模的训练数据后，会根据该数据生产端的网络地址信息以及其所产生的训练数据的规模生成一条元数据，并调用中心服务器的接收消息(PUSH)接口，将该元数据发送至中心服务器，如此，数据消费端即可基于元数据与数据生产端之间建立点对点连接，进而可以直接从数据生产端获取训练数据。

请参阅图7，图7为本公开实施例所提供的第五种数据传输方法的流程图。如图7所示，本公开实施例提供的数据传输方法，与图5中所示的数据传输方法不同的是，还包括S504～S505：

S504，响应于所述数据消费端发送的连接请求，基于所述空闲端口的端口号以及所述数据生产端的网络协议地址开启数据传输通道，以将所述训练数据发送至所述数据消费端。

其中，开启数据传输通道是指数据生产端在将元数据发送至中心服务器后，在接收到据消费端发送的连接请求后，会启动一个套接字(SOCKET)服务，其中，套接字是指不同设备之间进行通信的端点，基于该套接字服务即可实现数据生产端与数据消费端之间的点对点的连接关系。

具体的，数据生产端在接收到数据消费端发送的连接请求时，会通过套接字服务以及所述空闲端口将训练数据发送至数据消费端。

S505，在检测到所述数据消费端断开连接的情况下，关闭所述数据传输通道。

可以理解，为了节约系统资源，若数据生产端检测到数据消费端断开连接，则数据生产端会关闭套接字服务，停止训练数据的发送。

请参阅图8，图8为本公开实施例所提供的第六种数据传输方法的流程图。如图8所示，本公开实施例提供的数据传输方法，应用于数据消费端，包括以下S701～S703：

S701，发送数据获取请求至中心服务器。

其中，所述数据获取请求用于通知中心服务器所述数据消费端需要获取训练数据。

具体的，可以在基于目标训练任务对目标网络进行训练时，向中心服务器发送数据获取请求，其中，目标训练任务是指得到目标网络所需要执行的训练任务，例如，若目标网络是商品推荐网络，则目标训练任务可以是得到商品推荐网络所执行的训练任务。在本公开实施例中，目标网络可以是强化学习网络中的一种，在此不做限定。

其中，所述训练进度可以是执行当前训练的迭代次数。可以理解，每对待训练的目标网络训练一次或者一轮，数据消费端都会发送数据获取请求至中心服务器，其中，一轮训练中可以包括多次训练，比如，每一轮训练中包括20次训练。

S702，接收所述中心服务器响应于所述数据获取请求，而发送的元数据，其中，所述元数据包括数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小。

S703，基于所述元数据，从所述数据生产端获取所述训练数据，并基于所述训练数据对目标网络进行训练。

可以理解，数据消费端会在每次训练迭代时调用中心服务器的发送消息(PULL)接口申请一条元数据，也即，数据消费端发送数据获取请求至中心服务器，并接收中心服务器响应数据获取请求而发送元数据至数据消费端，然后，数据消费端可以根据元数据中的内容，建立与数据生产端的通信连接，如此，即可从数据生产端处获取训练数据，并基于该训练数据进行训练。

在一些实施方式中，针对步骤S703，在基于所述元数据，从所述数据生产端获取所述训练数据时，如图9所示，可以包括以下S7031～S7032：

S7031，对所述元数据进行解析，得到所述数据生产端的网络地址信息以及所述训练数据的数据量大小。

S7032，基于所述数据生产端的网络地址信息，生成连接请求，并向所述数据生产端发送所述连接请求。

可以理解，数据消费端在接收到元数据后，首先需要对元数据进行解析，以得到数据生产端的网络地址信息以及训练数据的数据量大小，如此，即可根据数据生产端的网络地址信息，实现数据消费端与数据生产端之间的点对点的通信连接，进而可以从数据生产端获取训练数据。

S7033，接收所述数据生产端响应所述连接请求发送的所述训练数据，直至所接收到的数据量与所述数据量大小匹配。

具体的，在数据消费端获取到数据生产端的网络地址信息后，即可根据网络地址信息，生成连接请求发送至该数据生产端，如此，数据生产端即可根据该连接请求，将训练数据发送至数据消费端，数据消费端根据元数据中所指示的数据量大小，接收与数据量大小相同的训练数据。

在一些实施方式中，在当前所接收到的数据规模与所述数据量大小匹配的情况下，也即，当前所接收到的数据规模与所述数据量大小相同的情况下，可以断开所述数据消费端与所述数据生产端之间的通信连接，如此，数据消费端与数据生产端之间的一次点对点的数据传输完成，不仅可以确保数据消费端接收训练数据的完整性，还有效地节约了系统资源。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与数据传输方法对应的数据传输装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据传输方法相似，因此装置的实施可以参阅方法的实施，重复之处不再赘述。

请参阅图10，为本公开实施例提供的第一种数据传输装置的结构示意图，所述装置包括：元数据接收模块810以及元数据发送模块820；其中，

元数据接收模块810，用于接收数据生产端发送的元数据，其中，所述元数据包括所述数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小；

元数据发送模块820，用于响应于数据消费端的数据获取请求，将所述元数据发送至所述数据消费端，使得所述数据消费端基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

请参阅图11，为本公开实施例提供的第二种数据传输装置的结构示意图，与图10中所示的数据传输装置不同的是，所述装置还包括通信连接模块830，所述通信连接模块830用于：

一种可选的实施方式中，所述装置还包括存储模块840，所述存储模块840用于：

将所述元数据存储至队列数据库；

所述元数据发送模块820具体用于：

一种可选的实施方式中，所述元数据发送模块820具体还用于：

请参阅图12，为本公开实施例提供的第三种数据传输装置的结构示意图，所述装置包括：训练数据产生模块910、元数据生成模块920以及发送模块930；其中，

训练数据产生模块910，用于通过运行至少一个强化学习环境，产生训练数据；

元数据生成模块920，用于基于所述数据生产端的网络地址信息以及所述训练数据的数据量大小，生成元数据；

发送模块930，将所述元数据发送至中心服务器，使得数据消费端通过所述中心服务器获取所述元数据，并基于所述元数据从所述数据生产端获取所述训练数据，其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

一种可选的实施方式中，所述网络地址信息包括网络协议地址以及端口号；所述元数据生成模块920具体用于：

确定所述数据生产端的一个空闲端口的端口号；

基于所述空闲端口的端口号、所述数据生产端的网络协议地址以及所述训练数据的数据量大小，生成所述元数据。

一种可选的实施方式中，所述发送模块930还用于：

请参阅图13，为本公开实施例提供的第四种数据传输装置的结构示意图，所述装置包括：请求发送模块1010、接收模块1020以及训练数据获取模块1030；其中，

请求发送模块1010，用于发送数据获取请求至中心服务器；

接收模块1020，用于接收所述中心服务器响应于所述数据获取请求，而发送的元数据，其中，所述元数据包括数据生产端的网络地址信息以及所述数据生产端所产生的训练数据的数据量大小；

训练数据获取模块1030，用于基于所述元数据，从所述数据生产端获取所述训练数据，并基于所述训练数据对目标网络进行训练。

一种可选的实施方式中，所述训练数据获取模块1030具体用于：

一种可选的实施方式中，所述训练数据获取模块1030具体还用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图14所示，为本公开实施例提供的电子设备1400的结构示意图，包括处理器1401、存储器1402、和总线1403。其中，存储器1402用于存储执行指令，包括内存14021和外部存储器14022；这里的内存14021也称内存储器，用于暂时存放处理器1401中的运算数据，以及与硬盘等外部存储器14022交换的数据，处理器1401通过内存14021与外部存储器14022进行数据交换。

本申请实施例中，存储器1402具体用于存储执行本申请方案的应用程序代码，并由处理器1401来控制执行。也即，当电子设备1400运行时，处理器1401与存储器1402之间通过总线1403通信，使得处理器1401执行存储器1402中存储的应用程序代码，进而执行前述任一实施例中的方法。

处理器1401可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，存储器1402可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read－Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read－Only Memory，EEPROM)等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备1400的具体限定。在本申请另一些实施例中，电子设备1400可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的数据传输方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的数据传输方法的步骤，具体可参阅上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和终端的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、终端和方法，可以通过其它的方式实现。以上所描述的终端实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据传输方法，其特征在于，应用于中心服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述接收数据生产端发送的元数据之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述接收数据生产端的元数据之后，所述方法还包括：

将所述元数据存储至队列数据库；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种数据传输方法，其特征在于，应用于数据生产端，所述方法包括：

通过运行至少一个强化学习环境，产生训练数据；

6.根据权利要求5所述的方法，其特征在于，所述网络地址信息包括网络协议地址以及端口号；所述基于所述数据生产端的网络地址信息以及所述训练数据的数据量大小，生成元数据，包括：

确定所述数据生产端的一个空闲端口的端口号；

7.根据权利要求6所述的方法，其特征在于，所述将所述元数据发送至中心服务器之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种数据传输方法，其特征在于，应用于数据消费端，所述方法包括：

发送数据获取请求至中心服务器；

10.根据权利要求9所述的方法，其特征在于，所述基于所述元数据，从所述数据生产端获取所述训练数据，包括：

接收所述数据生产端响应所述连接请求发送的所述训练数据，直至所接收到的数据量与所述数据量大小匹配。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

在所接收到的数据量与所述数据量大小匹配的情况下，断开所述数据消费端与所述数据生产端之间的通信连接。

12.一种数据传输装置，其特征在于，包括：

元数据发送模块，用于响应于数据消费端的数据获取请求，将所述元数据发送至所述数据消费端，使得所述数据消费端基于所述元数据从所述数据生产端获取所述训练数据；其中，所述数据消费端基于所述网络地址信息与所述数据生产端建立通信连接，所述训练数据的数据量大小用于指示所述数据消费端需要获取的训练数据的数据量。

13.一种数据传输装置，其特征在于，包括：

14.一种数据传输装置，其特征在于，包括：

请求发送模块，用于发送数据获取请求至中心服务器；

15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至11任意一项所述的数据传输方法。

16.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至11任意一项所述的数据传输方法。