CN112256653B

CN112256653B - 一种数据采样方法和装置

Info

Publication number: CN112256653B
Application number: CN202011232806.5A
Authority: CN
Inventors: 杨冠; 林悦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2024-02-02
Anticipated expiration: 2040-11-06
Also published as: CN112256653A

Abstract

本发明实施例提供了一种数据采样方法和装置，应用于采样系统，所述采样系统包含多个训练节点和多个采样节点，所述训练节点中具备与网络文件系统连接的临时文件系统，其中，所述方法包括：采用所述多个采样节点从所述网络文件系统中确定目标采样策略，并执行目标采样策略进行采样得到采样数据；通过网络文件系统存储所述采样数据至所述训练节点的临时文件系统中；采用所述多个训练节点从临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到目标策略模型。通过引入网络文件系统和临时文件系统，构建了一套高效的异步采样框架，从而引入了异步采样的高效性和高拓展性，提升了读取采样数据的速度。

Description

一种数据采样方法和装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种数据采样方法和一种数据采样装置。

背景技术

强化学习是机器学习的一个领域，探讨智能体如何基于环境而行动，以取得最大的预期利益。相较于监督学习，强化学习不需要正确的输入/输出对，其更注重规划，尝试在已有知识和新获得的知识之间找到一个合理的平衡。探索对于强化学习是一个非常重要的部分，当数据分布空间较大时，强化学习需要大量的采样数据进行探索/训练才能学习到比较好的策略。

现有技术中，主要有同步采样和异步采样两种采样方法，其中，同步采样方法通过同时启动若干环境，运行一定时间后将采样的结果返回，这种采样方法训练的优点是采样时各环境的采样策略一定是最新的采样策略，但缺点也非常明显，需要等待所有环境的采样结束才可以进行后续的训练，环境复杂度增加或者环境数目增多都会极大地影响整体采样的速度，采样速度慢，拓展性较差。异步采样方法通过构建一个存储队列来储存采样的结果，每个环境采样完成并将结果返回给储存队列后，主训练程序和采样环境完全解耦，不需要等待所有环境采样结束，直接从存储队列中读取数据即可。异步采样的优势是一次采样不需要等待所有环境的采样结束，采样环境数目增加和复杂度增加都不会影响整体采样的速度，但缺点是异步采样不能够保证所有环境的采样策略都是最新的采样策略，并且异步采样往往都涉及到多台服务器之间的网络通信，而多个采样节点之间的策略参数同步随着策略参数的增大，以及节点数目的增多会导致采样速度降低和带宽占用过大等问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据采样方法和相应的一种数据采样装置。

第一方面，本发明实施例公开了一种数据采样方法，包括：

采用所述多个采样节点从所述网络文件系统中确定目标采样策略，并执行所述目标采样策略进行采样得到采样数据；

通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中；

采用所述多个训练节点从所述临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到目标策略模型。

可选地，所述执行目标采样策略进行采样得到采样数据，包括：

针对所述多个采样节点配置采样环境；

在所述采样环境下，执行所述目标采样策略进行采样得到采样数据。

可选地，所述采用所述采样节点从所述网络文件系统中确定目标采样策略，包括：

采用所述多个采样节点从所述网络文件系统中获取策略参数；

根据所述策略参数更新所述采样节点对应的原始采样策略，得到目标采样策略。

可选地，在所述通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中的步骤之前，还包括：

对所述采样数据进行压缩处理。

可选地，所述通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中，包括：

将所述采样数据发送到所述网络文件系统；

从所述网络文件系统中读取采样数据；

加载所述采样数据到所述训练节点的临时文件系统中。

可选地，所述采用所述多个训练节点从所述临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到目标策略模型，包括：

采用所述多个训练节点从所述临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到多个梯度同步参数；

根据所述多个梯度同步参数计算得到新的策略参数；

采用所述新的策略参数更新所述预设初始策略模型得到目标策略模型。

可选地，所述方法还包括：

将所述新的策略参数发送至所述网络文件系统，以更新所述网络文件系统中的策略参数。

第二方面，本发明实施例还公开了一种数据采样装置，应用于采样系统，所述采样系统包含多个训练节点和多个采样节点，所述训练节点中具备与网络文件系统连接的临时文件系统，所述的装置包括：

采样模块，用于采用所述多个采样节点从所述网络文件系统中确定目标采样策略，并执行目标采样策略进行采样得到采样数据；

存储模块，用于通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中；

训练模块，用于采用所述多个训练节点从所述临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到目标策略模型。

可选地，所述采样模块，包括：

采样环境配置子模块，用于针对所述多个采样节点配置采样环境；

采样子模块，用于在所述采样环境下，执行所述目标采样策略进行采样得到采样数据。

可选地，所述采样模块，包括：

策略参数获取子模块，用于采用所述多个采样节点从所述网络文件系统中获取策略参数；

策略参数更新子模块，用于根据所述策略参数更新所述采样节点对应的原始采样策略，得到目标采样策略。

可选地，所述装置还包括：

压缩模块，用于对所述采样数据进行压缩处理。

可选地，所述存储模块，包括：

数据发送子模块，用于将所述采样数据发送到所述网络文件系统；

数据读取子模块，用于从所述网络文件系统中读取采样数据；

数据加载子模块，用于加载所述采样数据到所述训练节点的临时文件系统中。

可选地，所述训练模块，包括：

训练子模块，用于采用所述多个训练节点从所述临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到多个梯度同步参数；

策略参数计算子模块，用于根据所述多个梯度同步参数计算得到新的策略参数；

策略模型生成子模块，用于采用所述新的策略参数更新所述预设初始策略模型得到目标策略模型。

可选地，所述装置还包括：

策略参数发送模块，用于将所述新的策略参数发送至所述网络文件系统，以更新所述网络文件系统中的策略参数。

第三方面，本发明实施例还公开了一种电子设备，包括：

处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如本发明实施例任一项所述的方法。

第四方面，本发明实施例还公开了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如本发明实施例任一项所述的方法。

本发明实施例包括以下优点：

在本发明实施例提供的一种数据采样方法中，通过采样采样节点从网络文件系统中确定目标采样策略，并执行目标采样策略进行采样得到采样数据，通过网络文件系统存储采样数据至训练节点的临时文件系统中，使得训练节点可以直接从临时文件系统中读取采样数据，对预设初始策略模型进行训练得到目标策略模型。通过引入网络文件系统和临时文件系统，构建了一套高效的异步采样框架，从而引入了异步采样的高效性和高拓展性，提升了训练节点读取采样数据的速度。同时，利用网络文件系统NFS共享采样策略参数，极大缩小了采样策略参数同步所需的带宽，极大提升了同步参数的速度。使得训练节点在训练时可以直接从临时文件系统中读取数据，相当于直接读取RAM中的数据，速度有了极大的提升，从而提高训练的速度。

附图说明

图1是本发明的一种数据采样方法实施例的步骤流程图；

图2是本发明的一种采样系统的网络结构的示意图；

图3是本发明的一种数据采样装置实施例的结构框图；

图4是本发明的一种电子设备的结构框图；

图5是本发明的一种存储介质的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，应用于采样系统，所述采样系统包含多个训练节点和多个采样节点，所述训练节点中具备与网络文件系统连接的临时文件系统。

在本发明实施例中，通过部署采样系统进行采样以及利用采样得到的数据进行模型训练得到需要的智能模型，采样系统可以包含多个训练节点和多个采样节点，其中，训练节点用于利用采样得到的数据进行模型训练，采样节点用于采集特定环境下的样本数据。作为一种示例，可以在具备CPU(Central Processing Unit，中央处理器)的服务器中进行环境采样，每一台服务器中创建多个采样节点，例如，可以在每一台服务器中创建10个采样节点。还可以在具备GPU(Graphics Processing Unit，图形处理器)的服务器中创建多个训练节点，例如，可以在每一台服务器中创建10个训练节点。

网络文件系统(NFS，Network File System)，客户端主机可以通过该系统访问服务器端文件，并且其过程与访问本地存储时一样。临时文件系统是一种基于内存的文件系统，可以直接使用RAM(Random Access Memory，随机存取存储器)或者Swap分区来存储，其本身即是文件系统，只需要直接安装便可以使用。

为了解决同步采样速度慢，而异步采样不能够保证所有环境的采样策略都是最新的采样策略的问题，在本发明实施例中，可以在训练节点对应临时文件系统中开启NFS服务，从而实现临时文件系统与网络文件系统NFS的连接，同时，将采样节点与网络文件系统连接，使得采样节点能够直接访问网络文件系统中的数据，从而训练节点可以直接从临时文件系统读取采样数据进行训练，提升读取采样数据的速度，而且采样节点可以通过网络文件系统确定最新的采样策略进行采样。

所述的方法具体可以包括如下步骤：

步骤101，采用所述多个采样节点从所述网络文件系统中确定目标采样策略，并执行目标采样策略进行采样得到采样数据；

其中，采样策略可以指采样过程所需要执行的方案集合，例如，在象棋游戏中，采样策略可以指棋盘中的棋子摆放方案的集合。目标采样策略则为在当前需要执行的采样策略。

各个采样节点可以分别从网络文件系统中确定目标采样策略，然后执行目标采样策略进行采样得到采样数据。在具体实现中，目标采样策略中可以规定在一次采样的过程中，执行目标采样策略的次数，例如，规定次数为96次，则在采样时采样节点会执行96次目标采样策略，得到96条采样数据。

在本发明实施例中，采样数据可以包括：每次采样时的环境状态state，策略选择的动作action，和执行所述动作之后得到的反馈reward。此外，还可以根据实际需要设置采集其他的数据，本发明实施例对此并不限制。

在这种采样方法下，每个采样节点只需要等待本节点的环境采样完毕，时间较短，并且，可以根据采样节点数目和采样环境的复杂度，对每个采样节点承载的环境数进行调整，具有良好的可拓展性。而且，不同采样节点之间是异步的，这样也能极大地提高采样的效率。此外，通过调节采样的时间，可以确保采样时间小于模型训练一次的时间，可以缓解现有的方案中异步采样会造成的由于采样策略不是最新而导致模型训练出现误差的问题。

步骤102，通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中；

在本发明实施例中，采样节点在环境采样完成后，可以将采样得到的采样数据发送至网络文件系统NFS，进而临时文件系统可以从网络文件系统NFS读取采样数据进行存储，从而实现将采样数据存储到训练节点的临时文件系统中，使得在训练时训练节点可以直接从临时文件系统中读取数据，相当于直接读取RAM中的数据，相比于读取磁盘中的数据，速度有了极大的提升，从而提高训练的速度。

步骤103，采用所述多个训练节点从所述临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到目标策略模型。

预设初始策略模型可以是预先设定的初始策略模型，用于训练所需要的策略模型。在训练时，各个训练节点可以从临时文件系统中读取采样数据，然后采用该采样数据对预设初始策略模型进行训练得到目标策略模型。

作为一种示例，假设一次训练需要250*96条采样数据，则训练节点会从临时文件系统中读取250*96条采样数据进行训练，如果，临时文件系统中采样数据的数量不足，则会等待。

在本发明的一种优选实施例中，所述步骤101可以包括如下子步骤：

针对所述多个采样节点配置采样环境；在所述采样环境下，执行所述目标采样策略进行采样得到采样数据。

在本发明实施例中，在利用采样节点进行采样时，可以针对每一个采样节点配置对应的多个采样环境，该采样环境可以指业务运行所需要的特定业务环境，例如，应用于游戏数据采集的场景中，采样环境可以是能够使游戏正常运行的环境。作为一种示例，假设当前有250个采样节点，针对每个采样节点配置采样环境，则共配置了250个采样环境。

采用所述多个采样节点从所述网络文件系统中获取策略参数；根据所述策略参数更新所述采样节点对应的原始采样策略，得到目标采样策略。

具体的，采样节点具有对应的原始采样策略，各个采样节点在进行采样时分别从网络文件系统NFS中获取策略参数，该策略参数可以是用于描述采样策略的参数，如采样次数，策略规则等参数。进而，采样节点可以根据策略参数更新采样节点对应的原始采样策略，得到目标采样策略。由于网络文件系统NFS中的策略参数为最新更新的参数，因此根据从网络文件系统NFS获取的策略参数得到的目标采样策略为最新的采样策略。

在具体实现中，可以通过网络文件系统NFS传输采样策略参数到服务器中，该服务器可以是用于创建采样节点进行采样的服务器，再由各个采样节点从本服务器中自行读取策略参数，假设用于采样的服务器有4个，而每个采样的服务器创建250个采样节点，则采样节点有1000个，每次策略参数更新只需要传输4次，而如果直接传输策略参数给采样节点，则需要传输1000次，速度相对将会很慢，并且也会占用非常大的带宽，因此，通过网络文件系统NFS传输采样策略参数到服务器中的方式，可以降低采样时的带宽占用，加快采样策略更新的速度。

在本发明的一种优选实施例中，在所述步骤102之前还可以包括如下步骤：

对所述采样数据进行压缩处理。

具体的，采样节点可以利用Lz4或者Snappy等压缩算法，对采样数据进行压缩处理，然后再将压缩后的采样数据发送至网络文件系统NFS。通过对采样数据进行压缩处理之后再发送至网络文件系统NFS，能够减少传输采样数据的时间，从而进一步加速采样的速度以及减少网络带宽的使用。作为一种示例，假设有250*96条采样数据，这250*96条采样数据大约2.5GB，则在经过压缩处理之后，采样数据的大小约为19MB，极大地减小采样数据的大小。

此外，采样节点还可以对采样数据进行序列化处理，通过序列化处理之后，可以将采集得到的数据转化为机器能够识别的格式，进一步加快采样的速度。

在本发明的一种优选实施例中，所述步骤102可以包括如下子步骤：

将所述采样数据发送到网络文件系统；从所述网络文件系统中读取采样数据；加载所述采样数据到所述训练节点的临时文件系统中。

具体的，采样节点可以在完成采样之后，将采样数据发送到网络文件系统NFS。训练节点可以具有对应的读取线程，通过该读取线程从网络文件系统NFS中读取采样数据。在具体实现中，由于网络文件系统NFS中的数据经过压缩处理，在读取到采样数据之后，读取线程可以对读取到的采样数据进行解压处理，然后将解压后的采样数据加载到训练节点的临时文件系统中。

在本发明的一种优选实施例中，所述步骤103可以包括如下子步骤：

采用所述多个训练节点从临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到多个梯度同步参数；根据所述多个梯度同步参数计算得到新的策略参数；采用所述新的策略参数更新所述预设初始策略模型得到目标策略模型。

具体的，通过采用各个训练节点分别从其对应的临时文件系统中读取采样数据对预设初始策略模型进行训练，得到梯度同步参数。在训练时，各个训练节点可以同步进行训练得到多个梯度同步参数，进而，根据多个梯度同步参数计算得到新的策略参数，例如，可以计算多个梯度同步参数的均值作为新的策略参数，采用新的策略参数更新预设初始策略模型得到目标策略模型。

在具体实现中，可以为每个训练节点分配对应的存储队列，用于存储用于训练的采样数据。存储队列可以是用于缓存数据的线性表，通过为每个训练节点分配一个对应的存储队列，在训练时，可以从存储队列中获取采样数据进行训练。存储队列的长度可以是固定的，以确保训练节点GPU得到的数据的高时效性，如，存储队列的长度略大于每次训练节点所需要的数据大小。由于存储队列中的采样数据是从临时文件系统中读取，相当于是直接从内存中读取采样数据，所以读取采样数据的速度会有极大的提升，从而提高训练的速度。

在本发明的一种优选实施例中，所述方法还包括：

具体的，训练节点在训练完成之后，可以将新的策略参数发送至网络文件系统NFS，以更新网络文件系统NFS中存储的策略参数，从而，采样节点在进行采样时，可以从网络文件系统NFS中获取到最新的策略参数进行采样。

如图2示出了本发明的一种采样系统的网络结构的示意图，采样系统的网络结构中包括采样节点10，训练节点20，网络文件系统NFS30和临时文件系统40，其中，采样节点中包括配置的采样环境101。通过采样节点10在采样环境101下，执行目标采样策略进行采样得到采样数据，然后将采样数据发送到网络文件系统NFS30，临时文件系统40从网络文件系统NFS30中读取采样数据进行存储，训练节点20从临时文件系统40中读取采样数据进行训练得到目标策略模型，从而利用网络文件系统NFS和临时文件系统来缓存采样数据，提升了读取采样数据的速度。

在本发明实施例中，通过引入了网络文件系统NFS和临时文件系统，构建了一套高效的异步采样框架，既引入了异步采样的高效性和高拓展性，同时利用网络文件系统NFS共享采样策略参数，极大缩小了采样策略参数同步所需的带宽，极大提升了同步参数的速度，利用临时文件系统进一步提升了训练节点读取采样结果的速度。而且，引入了采样节点的数据收集和压缩机制，来进一步减小整个系统的通信负载，提升整体的采样速度，并且，提供了调节采样时间小于单次训练时间的方法来缓解异步采样带来的采样策略滞后问题。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种数据采样装置实施例的结构框图，应用于采样系统，所述采样系统包含多个训练节点和多个采样节点，所述训练节点中具备与网络文件系统连接的临时文件系统，所述的装置具体可以包括如下模块：

采样模块301，用于采用所述多个采样节点从所述网络文件系统中确定目标采样策略，并执行所述目标采样策略进行采样得到采样数据；

存储模块302，用于通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中；

训练模块303，用于采用所述多个训练节点从所述临时文件系统中读取所述采样数据，对预设初始策略模型进行训练得到目标策略模型。

在本发明的一种优选实施例中，所述采样模块301，包括：

在本发明的一种优选实施例中，所述采样模块301包括：

在本发明的一种优选实施例中，所述装置还包括：

压缩模块，用于对所述采样数据进行压缩处理。

在本发明的一种优选实施例中，所述存储模块302，包括：

在本发明的一种优选实施例中，所述训练模块303，包括：

在本发明的一种优选实施例中，所述训练模块303，还包括：

策略参数发送子模块，用于将所述新的策略参数发送至所述网络文件系统，以更新所述网络文件系统中的策略参数。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图4所示，包括：

处理器401、存储介质402和总线403，所述存储介质402存储有所述处理器401可执行的机器可读指令，当电子设备运行时，所述处理器401与所述存储介质402之间通过总线403通信，所述处理器401执行所述机器可读指令，以执行如本发明实施例任一项所述的方法。具体实现方式和技术效果类似，这里不再赘述。

本发明实施例还提供了一种存储介质，如图5所示，所述存储介质上存储有计算机程序501，所述计算机程序501被处理器运行时执行如本发明实施例任一项所述的方法。具体实现方式和技术效果类似，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据采样方法和一种数据采样装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据采样方法，其特征在于，应用于采样系统，所述采样系统包含多个训练节点和多个采样节点，所述训练节点中具备与网络文件系统连接的临时文件系统，所述的方法包括：

采用所述多个训练节点从所述临时文件系统中读取所述采样数据，并采用所述采样数据对预设初始策略模型进行训练得到目标策略模型；其中，所述目标策略模型为采用新的策略参数对所述预设初始策略模型进行更新得到的策略模型；所述新的策略参数为采用所述采样数据对所述预设初始策略模型进行训练得到的策略参数；所述策略参数为描述采样策略的参数。

2.根据权利要求1所述的方法，其特征在于，所述执行所述目标采样策略进行采样得到采样数据，包括：

针对所述多个采样节点配置采样环境；

3.根据权利要求1或2所述的方法，其特征在于，所述采用所述采样节点从所述网络文件系统中确定目标采样策略，包括：

4.根据权利要求3所述的方法，其特征在于，在所述通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中的步骤之前，还包括：

对所述采样数据进行压缩处理。

5.根据权利要求1所述的方法，其特征在于，所述通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中，包括：

将所述采样数据发送到所述网络文件系统；

从所述网络文件系统中读取采样数据；

加载所述采样数据到所述训练节点的临时文件系统中。

6.根据权利要求1所述的方法，其特征在于，所述采用所述多个训练节点从所述临时文件系统中读取所述采样数据，并采用所述采样数据对预设初始策略模型进行训练得到目标策略模型，包括：

采用所述多个训练节点从所述临时文件系统中读取所述采样数据，并采用所述采样数据对预设初始策略模型进行训练得到多个梯度同步参数；

根据所述多个梯度同步参数计算得到新的策略参数；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种数据采样装置，其特征在于，应用于采样系统，所述采样系统包含多个训练节点和多个采样节点，所述训练节点中具备与网络文件系统连接的临时文件系统，所述的装置包括：

训练模块，用于采用所述多个训练节点从所述临时文件系统中读取所述采样数据，并采用所述采样数据对预设初始策略模型进行训练得到目标策略模型；其中，所述目标策略模型为采用新的策略参数对所述预设初始策略模型进行更新得到的策略模型；所述新的策略参数为采用所述采样数据对所述预设初始策略模型进行训练得到的策略参数；所述策略参数为描述采样策略的参数。

9.一种电子设备，其特征在于，包括：

处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1－7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1－7任一项所述的方法。