CN109948632A

CN109948632A - 数据训练方法、装置及系统、计算机设备

Info

Publication number: CN109948632A
Application number: CN201711377963.3A
Authority: CN
Inventors: 郑星
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2019-06-28
Anticipated expiration: 2037-12-19
Also published as: CN109948632B

Abstract

本发明公开了一种数据训练方法、装置及系统、计算机设备，属于人工智能领域。所述方法包括：与其他训练主机获取同一伪随机数种子，其他训练主机为多个训练主机中除第一训练主机以外的训练主机；执行至少一次训练过程，直至训练过程的执行结果满足预设停止条件，训练过程包括：基于伪随机数种子，对文件名集合进行随机化处理，得到更新后的文件名集合，基于更新后的文件名集合，对训练数据集中的第一数据子集进行训练，直至多个训练主机完成本次对训练数据集的训练后，再次执行训练过程，第一数据子集包括第一训练主机对应的数据。本发明解决了相关技术中数据训练网络开销较大，数据训练系统稳定性较差的问题。本发明用于数据训练。

Description

数据训练方法、装置及系统、计算机设备

技术领域

本发明涉及人工智能领域，特别涉及一种数据训练方法、装置及系统、计算机设备。

背景技术

深度学习是一种比较有效的人工智能方法，深度学习可以通过模拟人脑的学习行为从数据中学习相关知识，并将学习到的知识用于后续的预测。目前，在大规模的深度学习训练中，由于训练数据集的数据量较大，为了提高数据训练的效率，通常采用多台训练主机同时对数据进行训练。

相关技术中，在数据训练的初始化过程中，每台训练主机可以获取并存储同一训练数据集(即每台训练主机中存储的训练数据集均相同)，并由指定的训练主机A基于训练数据集生成文件名列表，该文件名列表中包括训练数据集中所有数据的名称。在数据训练过程中，训练主机A对文件名列表进行随机洗牌处理，并将随机洗牌处理后的文件名列表发送至所有其他训练主机，每个训练主机基于文件名列表中固定位置的数据名称从已存储的训练数据集中获取相应的数据，并对数据进行训练。

例如，假设数据训练系统中包括三台训练主机，分别为训练主机A、训练主机B和训练主机C，文件名列表中包含900个数据名称，在数据训练过程中，训练主机A用于训练文件名列表中1～300的数据名称对应的数据，训练主机B用于训练文件名列表中301～600的数据名称对应的数据，训练主机C用于训练文件名列表中601～900的数据名称对应的数据。在所有训练主机训练完成后，训练主机A再次对文件名列表进行随机洗牌处理，并重复上述过程，直至对训练数据集的训练次数达到预设次数阈值。

但是，采用相关技术中的数据训练方法，训练主机A每次对文件名列表进行随机洗牌处理后，都要将文件名列表发送至所有其他训练主机，由于文件名列表的数据量较大，因此数据训练过程中所占用的带宽较大，数据训练的网络开销较大，数据训练系统的稳定性较差。

发明内容

本发明实施例提供了一种数据训练方法、装置及系统、计算机设备，可以解决相关技术中数据训练的网络开销较大，数据训练系统的稳定性较差的问题。所述技术方案如下：

第一方面，提供了一种数据训练方法，用于数据训练系统中的第一训练主机，所述数据训练系统中包括多个训练主机，所述第一训练主机为所述多个训练主机中的一个，每个所述训练主机中存储有相同的训练数据集以及包括所述训练数据集中所有数据的名称的相同的文件名集合，所述方法包括：

与其他训练主机获取同一伪随机数种子，所述其他训练主机为所述多个训练主机中除所述第一训练主机以外的训练主机；

执行至少一次训练过程，直至所述训练过程的执行结果满足预设停止条件，所述训练过程包括：

基于所述伪随机数种子，对所述文件名集合进行随机化处理，得到更新后的文件名集合，

基于所述更新后的文件名集合，对所述训练数据集中的第一数据子集进行训练，直至所述多个训练主机完成本次对所述训练数据集的训练后，再次执行所述训练过程，所述第一数据子集包括所述第一训练主机对应的数据；

其中，所述数据训练系统中的所有训练主机在执行同一次训练过程时，所得到的更新后的文件名集合均相同。

可选地，所述第一训练主机为管理训练主机，所述与其他训练主机获取同一伪随机数种子，包括：

生成某一伪随机数种子；

向所述其他训练主机发送所述某一伪随机数种子。

可选地，所述方法还包括：

接收第二训练主机发送的所述训练数据集中的第二数据子集的训练进度信息，所述第二训练主机为所述其他训练主机中的任一训练主机，所述第二数据子集包括所述第二训练主机对应的数据；

在确定所述数据训练系统中的所有训练主机完成本次对所述训练数据集的训练后，执行新一次的训练过程，并向所述其他训练主机发送训练启动指示信息，所述训练启动指示信息用于指示所述其他训练主机执行新一次的训练过程。

可选地，所述方法还包括：

在完成对所述第一数据子集的训练后，向所述其他训练主机发送所述第一数据子集的训练进度信息；

在确定所述数据训练系统中的所有训练主机完成本次对所述训练数据集的训练后，执行新一次的训练过程。

可选地，所述向所述其他训练主机发送所述第一数据子集的训练进度信息，包括：

在所述数据训练系统中广播所述第一数据子集的训练进度信息。

可选地，所述基于所述伪随机数种子，对所述文件名集合进行随机化处理，包括：

基于所述伪随机数种子，采用随机洗牌算法对所述文件名集合进行随机化处理；

其中，所述数据训练系统中的所有训练主机在执行同一次训练过程时，所采用的随机洗牌算法的迭代次数相同。

可选地，所述文件名集合由多个文件名子集合组成，所述多个文件名子集合与所述多个训练主机一一对应，所述多个文件名子集合中任意两个文件名子集合中的所有数据名称均不相同；

所述基于所述更新后的文件名集合，对所述训练数据集中的第一数据子集进行训练，包括：

获取所述更新后的文件名集合中的第一文件名子集合，所述第一文件名子集合为所述第一训练主机对应的文件名子集合；

基于所述第一文件名子集合，从所述训练数据集中获取所述第一数据子集；

对所述第一数据子集进行训练。

可选地，所述文件名集合以文件名列表的形式表征。

可选地，所述预设停止条件，包括：

所述训练过程的执行次数达到预设次数阈值，和/或，所述训练数据集的训练结果的精度达到预设精度阈值。

第二方面，提供了一种数据训练装置，用于数据训练系统中的第一训练主机，所述数据训练系统中包括多个训练主机，所述第一训练主机为所述多个训练主机中的一个，每个所述训练主机中存储有相同的训练数据集以及包括所述训练数据集中所有数据的名称的相同的文件名集合，所述装置包括：

获取模块，用于与其他训练主机获取同一伪随机数种子，所述其他训练主机为所述多个训练主机中除所述第一训练主机以外的训练主机；

执行模块，用于执行至少一次训练过程，直至所述训练过程的执行结果满足预设停止条件，所述训练过程包括：

可选地，所述第一训练主机为管理训练主机，所述获取模块，用于：

生成某一伪随机数种子；

向所述其他训练主机发送所述某一伪随机数种子。

可选地，所述装置还包括：

第一接收模块，用于接收第二训练主机发送的所述训练数据集中的第二数据子集的训练进度信息，所述第二训练主机为所述其他训练主机中的任一训练主机，所述第二数据子集包括所述第二训练主机对应的数据；

所述执行模块，还用于在确定所述数据训练系统中的所有训练主机完成本次对所述训练数据集的训练后，执行新一次的训练过程；

第一发送模块，用于向所述其他训练主机发送训练启动指示信息，所述训练启动指示信息用于指示所述其他训练主机执行新一次的训练过程。

可选地，所述装置还包括：

第二发送模块，用于在完成对所述第一数据子集的训练后，向所述其他训练主机发送所述第一数据子集的训练进度信息；

第二接收模块，用于接收第二训练主机发送的所述训练数据集中的第二数据子集的训练进度信息，所述第二训练主机为所述其他训练主机中的任一训练主机，所述第二数据子集包括所述第二训练主机对应的数据；

所述执行模块，还用于在确定所述数据训练系统中的所有训练主机完成本次对所述训练数据集的训练后，执行新一次的训练过程。

可选地，所述第二发送模块，用于：

可选地，所述执行模块，用于：

所述执行模块，用于：

对所述第一数据子集进行训练。

可选地，所述文件名集合以文件名列表的形式表征。

可选地，所述预设停止条件，包括：

第三方面，提供一种数据训练系统，所述系统包括第二方面任一所述的数据训练装置。

第四方面，提供了一种计算机设备，包括处理器和存储器，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，实现第一方面任一所述的数据训练方法。

第五方面，提供了一种存储介质，所述存储介质上存储有计算机程序，当所述存储介质中的程序由处理器执行时，能够执行第一方面任一所述的数据训练方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的数据训练方法、装置及系统、计算机设备，由于第一训练主机可以与其他训练主机获取同一伪随机数种子，在每次训练过程中，第一训练主机可以基于该伪随机数种子，对文件名集合进行随机化处理得到更新后的文件名集合，并基于更新后的文件名集合对第一数据子集进行训练。由于数据训练系统中的所有训练主机在执行同一次训练过程时，得到的更新后的文件名集合均相同，各个训练主机可以基于更新后的文件名集合对相应的数据子集进行训练，与相关技术相比，无需在每次训练过程中，由指定的训练主机向其他训练主机发送文件名集合，减小了数据训练所占用的带宽，节省了网络开销，提高了数据训练系统的稳定性。

附图说明

图1是本发明实施例提供的一种数据训练方法所涉及的数据训练系统的结构示意图；

图2是本发明实施例提供的一种数据训练方法的流程图；

图3A是本发明实施例提供的另一种数据训练方法的流程图；

图3B是本发明实施例提供的一种文件名集合的示意图；

图3C是本发明实施例提供的一种对第一数据子集进行训练的方法流程图；

图4A是本发明实施例提供的数据初始化阶段的数据训练系统的结构示意图；

图4B是本发明实施例提供的第一次训练过程中的数据训练系统的结构示意图；

图4C是本发明实施例提供的第二次训练过程中的数据训练系统的结构示意图；

图5A是本发明实施例提供的一种数据训练装置的结构示意图；

图5B是本发明实施例提供的另一种数据训练装置的结构示意图；

图5C是本发明实施例提供的又一种数据训练装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种数据训练方法所涉及的数据训练系统的结构示意图，如图1所示，该数据训练系统可以包括：多个训练主机，例如，该多个训练主机可以包括第一训练主机A、第二训练主机B和第三训练主机C。

每个训练主机可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心等等，在此不做限定。多个训练主机中任意两个训练主机之间可以通过有线网络或无线网络建立连接，以进行通信。

在本发明实施例中，每个训练主机中存储有相同的训练数据集，以及包括训练数据集中所有数据的名称的相同的文件名集合。可选地，在数据训练的初始化阶段，可以由各个训练主机自行根据训练数据集生成文件名集合，或者，可以由指定的某个训练主机根据训练数据集生成文件名集合，并将文件名集合发送至其他训练主机，本发明实施例对此不做限定。其中，在数据训练的初始化阶段，各个训练主机获得的文件名集合均相同。

需要说明的是，在训练过程中，每个训练主机对训练数据集中对应的一个数据子集进行训练，在同一次训练过程中，不同训练主机训练的数据子集中不存在重复数据，且所有训练主机训练的数据子集能够组成上述训练数据集。

实际应用中，数据训练系统中可以包括管理训练主机，由该管理训练主机指示其他训练主机执行训练过程；或者，数据训练系统中也可以不包括管理训练主机，即数据训练系统中的所有训练主机的功能均相同，本发明实施例对此不做限定。

图2是本发明实施例提供的一种数据训练方法的流程图，可以用于如图1所示的数据训练系统中的第一训练主机，该第一训练主机可以为第一训练主机A、第二训练主机B或第三训练主机C，如图2所示，该方法可以包括：

步骤201、与其他训练主机获取同一伪随机数种子，其他训练主机为多个训练主机中除第一训练主机以外的训练主机。

步骤202、执行至少一次训练过程，直至训练过程的执行结果满足预设停止条件。

该训练过程包括：基于伪随机数种子，对文件名集合进行随机化处理，得到更新后的文件名集合，基于更新后的文件名集合，对训练数据集中的第一数据子集进行训练，直至多个训练主机完成本次对训练数据集的训练后，再次执行训练过程，该第一数据子集包括第一训练主机对应的数据。

其中，数据训练系统中的所有训练主机在执行同一次训练过程时，所得到的更新后的文件名集合均相同。

综上所述，本发明实施例提供的数据训练方法，由于第一训练主机可以与其他训练主机获取同一伪随机数种子，在每次训练过程中，第一训练主机可以基于该伪随机数种子，对文件名集合进行随机化处理得到更新后的文件名集合，并基于更新后的文件名集合对第一数据子集进行训练。由于数据训练系统中的所有训练主机在执行同一次训练过程时，得到的更新后的文件名集合均相同，各个训练主机可以基于更新后的文件名集合对相应的数据子集进行训练，与相关技术相比，无需在每次训练过程中，由指定的训练主机向其他训练主机发送文件名集合，减小了数据训练所占用的带宽，节省了网络开销，提高了数据训练系统的稳定性。

在本发明实施例中，为了便于说明，假设数据训练系统中包括第一训练主机A、第二训练主机B和第三训练主机C，以第一训练主机A为第一训练主机为例，第二训练主机B和第三训练主机C相对于第一训练主机均为其他训练主机，也即是其他训练主机为数据训练系统所包含的多个训练主机中除第一训练主机以外的训练主机。

当数据训练系统中的所有训练主机的功能均相同时，图3A是本发明实施例提供的另一种数据训练方法的流程图，如图3A所示，该方法以第一训练主机为主进行说明，其他训练主机的动作可以参考该第一训练主机，该方法可以包括：

步骤301、第一训练主机与其他训练主机获取同一伪随机数种子。

其中，伪随机数种子是一个随机数，可以以伪随机数种子作为初始条件，采用一定的算法迭代进一步产生随机数，也即是伪随机数种子决定了随机数的固定序列。示例的，假设第一训练主机与其他训练主机获取的伪随机数种子均为100，所有训练主机基于该伪随机数种子，采用一定的算法迭代产生的随机数的序列均可以为19，34，24，...，即所有训练主机基于伪随机数种子产生的随机数的序列都是相同的。

在本发明实施例中，可以由指定训练主机生成一个伪随机数种子，并将该伪随机数种子发送至数据训练系统中的所有训练主机；或者，可以在数据训练系统中的指定训练主机上人工输入一伪随机数种子，由该指定训练主机将该伪随机数种子发送至数据训练系统中的所有训练主机；又或者，可以在每个训练主机上人工输入同一伪随机数种子；又或者，可以由伪随机数发生装置生成一个伪随机数种子，并将该伪随机数种子发送至数据训练系统中的所有训练主机，本发明实施例对获取伪随机数种子的方式不做限定。

实际应用中，伪随机数种子是一个数值，例如可以将由数据训练的开始时刻值转化得到的数值作为伪随机数种子，假设数据训练的开始时刻为：2017.11.1618：01：22，则伪随机数种子可以为：20171116180122，本发明实施例对伪随机数种子的具体内容不做限定。

可选地，在本发明实施例中，数据训练系统中的训练主机可以对训练数据集执行多次训练过程，本发明实施例以第一训练主机执行第i次训练过程为例进行说明，具体过程参考下述步骤302至步骤306，其中，i的初始化值为1，i为正整数。

步骤302、在第i次训练过程中，第一训练主机基于伪随机数种子，对文件名集合进行随机化处理，得到更新后的文件名集合。

可选地，可以基于伪随机数种子，采用随机洗牌算法对文件名集合进行随机化处理。其中，数据训练系统中的所有训练主机在执行同一次训练过程时，所采用的随机洗牌算法的迭代次数相同。其中，采用随机洗牌算法对文件名集合进行随机化处理的具体过程可以参考相关技术，在此不做赘述。

在本发明实施例中，对于所有训练主机，其训练过程的执行次数与对文件名集合的随机化处理次数呈线性关系，例如，训练过程的执行次数与随机洗牌算法的迭代次数呈线性关系，该线性关系可以包括：训练过程的执行次数与随机洗牌算法的迭代次数相等，或者，训练过程的执行次数与随机洗牌算法的迭代次数的差值为1。例如，在执行第一次训练过程时，随机洗牌算法的迭代次数为1，或者，在执行第一训练过程时，随机洗牌算法的迭代次数为0。本发明实施例以训练过程的执行次数与随机洗牌算法的迭代次数相等为例进行说明。

需要说明的是，由于数据训练系统中所有训练主机在执行同一次训练过程(即执行训练过程的次数相同)时，所采用的随机洗牌算法的迭代次数相同，且是基于同一伪随机数种子对文件名集合进行随机化处理的，因此同一次训练过程中，所有训练主机得到的更新后文件名集合均是相同的，无需由指定的训练主机向其他训练主机发送文件名集合，减小了数据训练所占用的带宽，节省了网络开销。

步骤303、第一训练主机基于更新后的文件名集合，对训练数据集中的第一数据子集进行训练。

其中，第一数据子集包括第一训练主机对应的数据。文件名集合可以由多个文件名子集合组成，该多个文件名子集合与多个训练主机一一对应，且多个文件名子集合中任意两个文件名子集合中的所有数据名称均不相同，也即是，多个文件名子集合的并集为文件名集合，且任意两个文件名子集合的交集为空集。

示例的，假设数据训练系统包括三个训练主机，分别为第一训练主机、第二训练主机和第三训练主机，参见图3B，文件名集合M可以包括三个文件名集合，则第一训练主机可以对应第一文件名子集合a，第二训练主机可以对应第二文件名子集合b，第三训练主机可以对应第三文件名子集合c，相应的，第一数据子集包括的数据即为第一文件名子集合a中的数据名称对应的数据。

可选地，基于更新后的文件名集合，对训练数据集中的第一数据子集进行训练的方法，如图3C所示，可以包括：

步骤3031、第一训练主机获取更新后的文件名集合中的第一文件名子集合，该第一文件名子集合为第一训练主机对应的文件名子集合。

可选地，可以根据预设的对应关系，获取更新后的文件名集合中的第一文件名子集合，例如，参见图3B，第一训练主机可以根据预设的对应关系，获取更新后的文件名集合中的第一文件名子集合a。

步骤3032、第一训练主机基于第一文件名子集合，从训练数据集中获取第一数据子集。

可选地，第一训练主机在获取第一文件名子集合后，可以根据第一文件名子集合中的数据名称，从训练数据集中获取相应的数据。

实际应用中，当训练数据集中所有数据的数据名称中均包含编号，且所有数据的数据名称中的编号均不相同(即一个编号可唯一标识一个数据)时，第一训练主机在获取第一文件名子集合后，可以基于第一文件名子集合中的数据名称中的编号，在训练数据集中进行索引，以获取与编号对应的数据。

步骤3033、第一训练主机对第一数据子集进行训练。

实际应用中，训练过程的执行次数与随机洗牌算法的迭代次数的差值可以为1，也即是，第一训练主机在获取初始文件名集合后，可以对第一数据子集直接进行一次训练，本发明实施例对此不做限定。

步骤304、第一训练主机在完成对第一数据子集的训练后，向其他训练主机发送第一数据子集的训练进度信息。

其中，第一数据子集的训练进度信息用于指示第一训练主机已完成对第一数据子集的训练。可选地，第一训练主机可以在数据训练系统中广播第一数据子集的训练进度信息，或者，第一训练主机也可以向其他训练主机分别发送第一数据子集的训练进度信息，本发明实施例对此不做限定。

可选地，训练进度信息中可以携带有训练过程的执行次数，以便于训练主机确定接收到的训练进度信息是第几次训练过程的训练进度信息，避免发生混淆，提高数据训练的可靠性。

步骤305、第一训练主机接收第二训练主机发送的训练数据集中的第二数据子集的训练进度信息。

其中，第二训练主机为数据训练系统中除第一训练主机以外的任一训练主机，第二数据子集包括第二训练主机对应的数据。例如参考步骤303中的例子，假设第二训练主机对应第二文件名子集合b，则第二数据子集包括的数据即为第二文件名子集合b中的数据名称对应的数据。

可选地，第二训练主机向第一训练主机发送第二数据子集的训练进度信息的方式可以参考步骤304，在此不做赘述。

步骤306、第一训练主机在获取所有训练主机对应的训练进度信息后，确定多个训练主机完成本次对训练数据集的训练。

其中，第一训练主机获取所有训练主机对应的训练进度信息，也即是第一训练主机完成对第一数据子集的训练，且接收到其他训练主机中每个训练主机发送的训练进度信息。

步骤307、第一训练主机判断第i次训练过程的执行结果是否满足预设停止条件；当确定第i次训练过程的执行结果满足预设停止条件时，结束流程；当确定第i次训练过程的执行结果不满足预设停止条件时，更新i＝i+1，并返回步骤302。

可选地，预设停止条件可以包括：训练过程的执行次数达到预设次数阈值，和/或，训练数据集的训练结果的精度达到预设精度阈值。

示例的，预设次数阈值为100，训练数据集的训练结果的精度为0.99，假设训练数据集中包括100张图片，其中，每张图片为一个数据，数据训练系统用于对该100张图片进行分类训练，当对该100张图片的训练次数达到100次，和/或，对该100张图片的分类结果的准确度达到0.99时，可以确定训练过程的执行结果满足预设停止条件，结束流程，并输出相应的训练参数。

本发明实施例以以下一个示意性实施例对上述数据训练过程进行说明，包括：

在本发明的可选实施例中，以训练数据集为训练图片集为例进行说明，每个训练主机中存储有一相同的训练图片集，假设训练图片集中包括9张图片(图片名称分别为jpg1～jpg9)，预设停止条件为训练过程的执行次数达到预设次数阈值，预设次数阈值为100。

可选地，文件名集合可以以文件名列表的形式表征，参见图4A～图4C，数据训练系统10中包括三个训练主机，分别为第一训练主机A、第二训练主机B和第三训练主机C，每个训练主机中存储有一个文件名列表。

图4A是本发明实施例提供的数据初始化阶段的数据训练系统10的结构示意图，参见图4A，在数据训练的初始化阶段，每个训练主机获取文件名列表P₁，文件名列表P₁中包括9张图片的名称，分别依次为jpg1～jpg9，每个训练主机获取一伪随机数种子123，假设第一训练主机A对应的第一文件名子集合为文件名列表P₁中的区域X，第二训练主机B对应的第二文件名子集合为文件名列表P₁中的区域Y，第三训练主机C对应的第三文件名子集合为文件名列表P₁中的区域Z。

图4B是本发明实施例提供的第一次训练过程中的数据训练系统10的结构示意图，参见图4B，每个训练主机基于伪随机数种子123，对文件名列表进行随机处理后，得到更新后的文件名列表P₂，文件名列表P₂中图片名称的顺序依次为jpg1、jpg3、jpg5、jpg7、jpg9、jpg2、jpg4、jpg6和jpg8，则第一训练主机A对应的区域X中的图片名称包括jpg1、jpg3和jpg5，第二训练主机B对应的区域Y中的图片名称包括jpg7、jpg9和jpg2，第三训练主机C对应的区域Z中的图片名称包括jpg4、jpg6和jpg8；相应的，第一训练主机A对训练图片集中的图片jpg1、图片jpg3和图片jpg5进行训练，第二训练主机B对训练图片集中的图片jpg7、图片jpg9和图片jpg2进行训练，第三训练主机C对训练图片集中的图片jpg4、图片jpg6和图片jpg8进行训练；每个训练主机在完成对图片的训练后，可以向其他两个训练主机发送训练进度信息。

图4C是本发明实施例提供的第二次训练过程中的数据训练系统10的结构示意图，参见图4C，在每个训练主机完成图片训练且接收到其他两个训练主机发送的训练进度信息，再次基于伪随机数种子123，对文件名列表进行随机处理，得到更新后的文件名列表P₃，文件名列表P₃中图片名称的顺序依次为jpg2、jpg4、jpg6、jpg8、jpg1、jpg3、jpg5、jpg7和jpg9，则第一训练主机A对应的区域X中的图片名称包括jpg2、jpg4和jpg6，第二训练主机B对应的区域Y中的图片名称包括jpg8、jpg1和jpg3，第三训练主机C对应的区域Z中的图片名称包括jpg5、jpg7和jpg9；相应的，第一训练主机A对训练图片集中的图片jpg2、图片jpg4和图片jpg6进行训练，第二训练主机B对训练图片集中的图片jpg8、图片jpg1和图片jpg3进行训练，第三训练主机C对训练图片集中的图片jpg5、图片jpg7和图片jpg9进行训练；每个训练主机在完成对图片的训练后，可以向其他两个训练主机发送训练进度信息。重复执行上述过程，直至对训练图片集的训练次数达到100次，则可以结束整个训练过程。

需要说明的是，本发明实施例提供的数据训练方法步骤的先后顺序可以进行适当调整，例如步骤304和步骤305的顺序可以互换，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。

上述实施例以数据训练系统中的所有训练主机的功能均相同为例进行说明，实际应用中，数据训练系统中可以包括管理训练主机，假设第一训练主机为该管理训练主机，则上述步骤301中，第一训练主机与其他训练主机获取同一伪随机数种子的方法可以包括：第一训练主机可以生成某一伪随机数种子，并向其他训练主机发送该某一伪随机数种子。

进一步的，上述步骤304可以删除，即第一训练主机在完成对第一数据子集的训练后，无需向其他训练主机发送第一数据子集的训练进度信息，第一训练主机在完成对第一数据子集的训练，且接收到数据训练系统中的其他训练主机发送的训练进度信息后，可以确定数据训练系统中的所有训练主机完成本次对训练数据集的训练，第一训练主机可以执行新一次的训练过程，并向其他训练主机发送训练启动指示信息，该训练启动指示信息用于指示其他训练主机执行新一次的训练过程。

可选的，第一训练主机在执行新一次的训练过程之前，可以执行步骤307，在确定本次训练过程的执行结果不满足预设停止条件后，执行新一次的训练过程，并向其他训练主机发送训练启动指示信息。当第一训练主机为管理训练主机时，其他训练主机只需根据第一训练主机发送的训练启动指示信息，执行训练过程，并在完成相应的训练后将训练进度信息发送给第一训练主机即可，减少了其他训练主机的运算量。

需要说明的是，在对训练数据集训练的整个过程中，只需在训练的初始化阶段为每个训练主机提供一相同的伪随机数种子，基于该伪随机数种子可以保证不同训练主机中文件名集合的一致性，与相关技术相比，在后续的训练过程中，无需传输文件名集合，节省了网络开销。

图5A是本发明实施例提供的一种数据训练装置50的结构示意图，可以用于如图1所示的数据训练系统中的第一训练主机，数据训练系统中包括多个训练主机，第一训练主机为多个训练主机中的一个，每个训练主机中存储有相同的训练数据集以及包括训练数据集中所有数据的名称的相同的文件名集合，如图5A所示，装置50可以包括：

获取模块501，用于与其他训练主机获取同一伪随机数种子，其他训练主机为多个训练主机中除第一训练主机以外的训练主机。

执行模块502，用于执行至少一次训练过程，直至训练过程的执行结果满足预设停止条件，训练过程包括：

基于伪随机数种子，对文件名集合进行随机化处理，得到更新后的文件名集合，基于更新后的文件名集合，对训练数据集中的第一数据子集进行训练，直至多个训练主机完成本次对训练数据集的训练后，再次执行训练过程，第一数据子集包括第一训练主机对应的数据。

综上所述，本发明实施例提供的数据训练装置，由于第一训练主机可以通过获取模块与其他训练主机获取同一伪随机数种子，在每次训练过程中，第一训练主机可以通过执行模块基于该伪随机数种子，对文件名集合进行随机化处理得到更新后的文件名集合，并基于更新后的文件名集合对第一数据子集进行训练。由于数据训练系统中的所有训练主机在执行同一次训练过程时，得到的更新后的文件名集合均相同，各个训练主机可以基于更新后的文件名集合对相应的数据子集进行训练，与相关技术相比，无需在每次训练过程中，由指定的训练主机向其他训练主机发送文件名集合，减小了数据训练所占用的带宽，节省了网络开销，提高了数据训练系统的稳定性。

可选地，当第一训练主机为管理训练主机，获取模块可以用于：

生成某一伪随机数种子；向其他训练主机发送该某一伪随机数种子。

相应的，如图5B所示，装置50还可以包括：

第一接收模块503，用于接收第二训练主机发送的训练数据集中的第二数据子集的训练进度信息，第二训练主机为其他训练主机中的任一训练主机，第二数据子集包括第二训练主机对应的数据。

执行模块502，还用于在确定数据训练系统中的所有训练主机完成本次对训练数据集的训练后，执行新一次的训练过程。

第一发送模块504，用于向其他训练主机发送训练启动指示信息，训练启动指示信息用于指示其他训练主机执行新一次的训练过程。

可选地，如图5C所示，装置50还可以包括：

第二发送模块505，用于在完成对第一数据子集的训练后，向其他训练主机发送第一数据子集的训练进度信息。

第二接收模块506，用于接收第二训练主机发送的训练数据集中的第二数据子集的训练进度信息，第二训练主机为其他训练主机中的任一训练主机，第二数据子集包括第二训练主机对应的数据。

可选地，第二发送模块，可以用于：

在数据训练系统中广播第一数据子集的训练进度信息。

可选地，执行模块可以用于：

基于伪随机数种子，采用随机洗牌算法对文件名集合进行随机化处理；

其中，数据训练系统中的所有训练主机在执行同一次训练过程时，所采用的随机洗牌算法的迭代次数相同。

可选地，文件名集合由多个文件名子集合组成，多个文件名子集合与多个训练主机一一对应，多个文件名子集合中任意两个文件名子集合中的所有数据名称均不相同。

相应的，执行模块可以用于：

获取更新后的文件名集合中的第一文件名子集合，第一文件名子集合为第一训练主机对应的文件名子集合；

基于第一文件名子集合，从训练数据集中获取第一数据子集；

对第一数据子集进行训练。

可选地，文件名集合以文件名列表的形式表征。

本发明实施例提供了一种数据训练系统，该系统包括如图5A至图5C任一所示的数据训练装置。

可选地，当数据训练系统中包括管理训练主机时，该管理训练主机可以包括图5A或图5B所示的数据训练装置，数据训练系统中除管理训练主机以外的其他训练主机可以包括图5A所示的数据训练装置。

可选地，当数据训练系统中的所有训练主机均相同时，每个训练主机可以包括图5A或图5C所示的数据训练装置。

本发明实施例提供了一种计算机设备，该计算机设备可以为上述训练主机，计算机设备包括：处理器和存储器，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现上述实施例任一所述的数据训练方法。示例的，该方法可以包括：

本发明实施例提供了一种存储介质，所述存储介质上存储有计算机程序，当所述存储介质中的程序由处理器执行时，能够执行上述实施例涉及的数据训练方法。

以上所述仅为本发明的可选实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据训练方法，其特征在于，用于数据训练系统中的第一训练主机，所述数据训练系统中包括多个训练主机，所述第一训练主机为所述多个训练主机中的一个，每个所述训练主机中存储有相同的训练数据集以及包括所述训练数据集中所有数据的名称的相同的文件名集合，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一训练主机为管理训练主机，所述与其他训练主机获取同一伪随机数种子，包括：

生成某一伪随机数种子；

向所述其他训练主机发送所述某一伪随机数种子。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述向所述其他训练主机发送所述第一数据子集的训练进度信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述伪随机数种子，对所述文件名集合进行随机化处理，包括：

7.根据权利要求1所述的方法，其特征在于，所述文件名集合由多个文件名子集合组成，所述多个文件名子集合与所述多个训练主机一一对应，所述多个文件名子集合中任意两个文件名子集合中的所有数据名称均不相同；

对所述第一数据子集进行训练。

8.根据权利要求7所述的方法，其特征在于，

所述文件名集合以文件名列表的形式表征。

9.根据权利要求1所述的方法，其特征在于，所述预设停止条件，包括：

10.一种数据训练装置，其特征在于，用于数据训练系统中的第一训练主机，所述数据训练系统中包括多个训练主机，所述第一训练主机为所述多个训练主机中的一个，每个所述训练主机中存储有相同的训练数据集以及包括所述训练数据集中所有数据的名称的相同的文件名集合，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述第一训练主机为管理训练主机，所述获取模块，用于：

生成某一伪随机数种子；

向所述其他训练主机发送所述某一伪随机数种子。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述第二发送模块，用于：

15.根据权利要求10所述的装置，其特征在于，所述执行模块，用于：

16.根据权利要求10所述的装置，其特征在于，所述文件名集合由多个文件名子集合组成，所述多个文件名子集合与所述多个训练主机一一对应，所述多个文件名子集合中任意两个文件名子集合中的所有数据名称均不相同；

所述执行模块，用于：

对所述第一数据子集进行训练。

17.根据权利要求16所述的装置，其特征在于，

所述文件名集合以文件名列表的形式表征。

18.根据权利要求10所述的装置，其特征在于，所述预设停止条件，包括：

19.一种数据训练系统，其特征在于，所述系统包括权利要求10至18任一所述的数据训练装置。

20.一种计算机设备，其特征在于，包括处理器和存储器，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，实现权利要求1至9任一所述的数据训练方法。