CN113449876A

CN113449876A - 针对深度学习训练用数据的处理方法、系统及存储介质

Info

Publication number: CN113449876A
Application number: CN202110659553.8A
Authority: CN
Inventors: 沈彬; 张甜田; 冯立鹏; 王凯歌
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-28
Anticipated expiration: 2041-06-11
Also published as: CN113449876B

Abstract

本申请公开了一种针对深度学习训练用数据的处理方法、系统及存储介质，属于计算机技术领域。该针对深度学习训练用数据的处理方法包括：提取在云平台中标注数据仓库里包含的原始标注数据；通过插拔连接的预处理模块对原始标注数据进行预处理；将经过预处理得到的数据结果存储到云平台中的共享文件系统，其中，数据结果用于深度学习训练本申请通过插拔的预处理容器模块对数据进行处理，灵活性强，便于扩展；通过共享文件系统的设置，提高数据处理的效率以及数据传输的效率，降低资源损耗。

Description

针对深度学习训练用数据的处理方法、系统及存储介质

技术领域

本申请涉及计算机技术领域，特别是一种针对深度学习训练用数据的处理方法、系统及存储介质。

背景技术

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。那么如何快速地处理和提取数据对于提升机器学习训练的效率意义重大。目前在深度学习中对于数据的获取和预处理的方法分为两个阶段：

第一阶段，利用物理服务器或虚拟机，将数据手动拷贝到机器上，通过写预处理脚本的方式针对性的对数据进行处理；当前80％以上的数据获取和预处理都还处于第一阶段，对于资源的消耗大，存在大量的手工操作，并且复用性不高。

第二阶段，利用云计算技术，将数据统一存储到对象存储中，用户使用对象存储的软件开发工具SDK(Software Development Kit)，编写数据拉取程序获取数据，对于数据预处理，通过一些平台化的方式提供若干有限的标准化数据预处理方法，用户通过选择相应的方法进行数据处理。目前部分算法的数据处理已经实现了云化、平台化，不过实现方案因每次训练都需要重新通过SDK拉取数据，依然存在效率偏低问题，同时因无法自定义数据预处理模块并复用，从而缺乏灵活性。

对于上述做法，存在大量的重复性手工操作，资源消耗大，数据拉取和处理的效率低，同时缺少灵活性。

发明内容

本申请提供一种针对深度学习训练用数据的处理方法、系统及存储介质，以解决现有算法训练方法中需要重复性手工操作，资源消耗大，并且数据拉取护理的效率低，缺少灵活性的问题。

在本申请的一个技术方案中，提供一种针对深度学习训练用数据的处理方法，包括：提取在云平台中标注数据仓库里包含的原始标注数据；通过插拔连接的预处理模块对原始标注数据进行预处理；将经过预处理得到的数据结果存储到云平台中的共享文件系统，其中，数据结果用于深度学习训练。

在本申请的另一技术方案中，提供一种针对深度学习训练用数据的处理系统，包括：对象存储模块、计算资源集群模块、共享存储模块以及预处理模块，其中，计算资源集群模块，其用于接收数据预处理指令，提取在云平台中标注数据仓库里包含的原始标注数据，并存储到对象存储模块中；预处理模块，其通过插拔连接在处理系统中，用于根据数据预处理指令，对对象存储模块中的原始标注数据进行预处理，并将经过预处理得到的数据结果存储到共享存储模块中。

在本申请的另一技术方案中，提供一种计算机可读存储介质，其中，存储介质中存储有计算机指令，计算机指令被操作以执行方案1中描述的针对深度学习训练用数据的处理方法。

本申请技术方案可以达到的有益效果是：本申请通过可插拔式的预处理模块，可根据具体的算法任务选择合适的预处理模块进行数据处理，灵活性强；另外，通过共享文件系统将原始标注数据的预处理后的数据结果进行存储，使得在进行算法任务时，直接在共享文件系统中调取预处理后的数据结果进行使用，而不必每次均进行数据预处理以及在标注数据仓库中调取相应的数据，降低资源的消耗，提高数据传输的效率和数据处理的效率。

附图说明

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

图1是本申请针对深度学习训练用数据的处理方法的一个实施方式的流程示意图；

图2是本申请针对深度学习训练用数据的训练方法的一个实施例的流程示意图；

图3是本申请针对深度学习训练用数据的处理系统的一个具体实施方式；

图4是本申请针对深度学习训练用数据的处理系统的一个具体实例；

图5是本申请针对深度学习训练用数据的处理系统的一个实例的流程示意图；

图6是本申请可插拔式算法训练云平台的一个具体实例的系统架构图；

图7是本申请可插拔式算法训练云平台的用户操作流程的一个实例。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在进行算法训练及机器学习时，特征工程是机器学习中不可缺少的一部分，占有非常重要的地位。其中，特征工程是指一系列工程化的方式从原始数据中筛选出更好的数据特征，用来提升模型的训练效果。特征工程的主要过程包括数据预处理、特征选择等过程。好的数据和特征是模型和算法发挥更大作用的前提。因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。那么如何快速地处理和提取数据对于提升机器学习训练的效率意义重大。

现阶段的数据获取和预处理方法采用物理服务器或虚拟机技术，将数据手动拷贝到机器上，通过预处理脚本的方式针对性的对数据进行处理，该方法对资源的消耗大，存在大量的手工操作，并且复用性不高。另外利用云计算技术进行数据的获取和预处理时，每次训练都需要重复通过SDK拉取数据，依然存在效率偏低的问题，同时因无法自定义数据预处理模块，并且无法复用，从而存在缺乏灵活性等问题。

本申请的针对深度学习训练用数据的处理方法对包括特征工程在内的机器学习过程进行改进，可根据具体的算法任务选择合适的预处理模块进行数据预处理，灵活性强；另外，通过共享存储模块将数据的预处理结果进行存储，使得在进行算法任务时，直接从共享存储模块中调取预处理后的数据进行使用，而不必每次均进行数据预处理的工作，降低资源的消耗，提高数据处理的效率。

图1示出了本申请针对深度学习训练用数据的处理方法的一个具体实施方式。

在图1所示的具体实施方式中，本申请的针对深度学习训练用数据的处理方法包括：过程S101，提取在云平台中标注数据仓库里包含的原始标注数据；过程S102，通过插拔连接的预处理模块对原始标注数据进行预处理；以及过程S103，将经过预处理得到的数据结果存储到云平台中的共享文件系统，其中，数据结果用于深度学习训练。

在该具体实施方式中，在针对深度学习训练用数据的处理过程中，首先在云平台中标注数据仓库中，提取需要处理的原始标注数据；然后选择对应的通过插拔连接的预处理模块对提取出的原始标注数据进行预处理。其中，插拔连接的预处理模块可预先通过预设程序进行容器镜像处理，得到对应的预处理模块容器镜像，使得预处理模块插件化，以实现预处理模块的插拔连接；最后将预处理模块对原始标注数据处理后的数据结果存储到云平台的共享文件系统中，该数据结果用于后续的深度学习训练。将该预处理后的数据结果存储到云平台的共享文件系统中，从而在后续的深度学习训练过程中，可方便迅速地将该数据结果提取出来进行数据训练过程。

在对数据进行预处理时首先在原始标注数据仓库中提取对应的原始标注数据，然后通过预处理模块对原始标注数据进行预处理，其中预处理模块通过插拔的方式进行连接，根据不同的训练任务，选择对应的预处理模块进行预处理，便于预处理过程的延伸拓展；并将对原始标注数据进过预处理后得到的数据结果存储到共享文件系统中，便于后续对数据处理或数据训练时，对该数据结果的提取，加快数据的处理效率。

本申请的针对深度学习训练用数据的处理方法通过插拔的方式连接各个预处理模块，可根据具体的数据训练任务选择合适的预处理模块进行数据处理，具有灵活性强的特点；另外通过共享存储模块将对原始标注数据的数据处理结果进行存储，使得在进行算法任务时，直接在共享存储模块中调取预处理后的数据结果进行使用，而不必每次均进行数据预处理的工作，降低资源的消耗，提高数据处理的效率，同时避免直接在标注数据仓库中提取数据时，效率低的问题。

在图1所示的具体实施方式中，本申请的针对深度学习训练用数据的处理方法包括过程S101，提取在云平台中标注数据仓库里包含的原始标注数据。

在该具体实施方式中，在进行对原始标注数据进行预处理时，根据数据处理指令首先在标注数据仓库中提取对应的原始标注数据，后续对该原始标注数据进行相应的预处理过程。

在图1所示的具体实施方式中，本申请的针对深度学习训练用数据的处理方法包括过程S102，通过插拔连接的预处理模块对原始标注数据进行预处理。

在该具体实施方式中，各个预处理模块通过插拔的方式进行连接，进而根据预处理的需求，选择对应的预处理模块进行对原始标注数据的预处理过程。

在本申请的一个具体实施例中，通过插拔连接的预处理容器模块对原始标注数据进行预处理，包括：预先通过预设程序对多个预处理模块进行容器镜像处理，得到预处理模块容器镜像，使得预处理模块插件化；根据不同的数据预处理指令，选择对应的预处理模块容器镜像对原始标注数据进行预处理。

在该具体实施例中，预先通过预设的处理程序，例如Docker build容器镜像构建程序对预处理模块进行容器镜像处理，得到对应的预处理模块容器镜像。通过对预处理模块进行容器镜像处理，使得预处理模块插件化，实现将预处理模块以插拔方式进行连接，进行对原始标注数据的预处理。在预处理时，根据接收的预处理指令，在众多的预处理模块中选择对应的预处理模块镜像对原始标注数据进行预处理，便于对预处理过程进行延伸进和拓展。

对原始标注数据的预处理过程多种多样，其中，在具体的数据处理过程中，根据数据处理指令，在多个预处理模块中选择对应的预处理模块进行对应的预处理。预处理模块的插拔的连接方式，使得预处理过程进行延伸拓展，使得对数据的预处理过程更加高效便捷。

在本申请的一个实例中，可将多个预处理模块按照功能的需求进行分组，进而在对原始标注数据进行预处理时，选择对应功能的预处理模块组，并通过插拔的方式进行连接，进行对应的预处理过程。

通过预处理模块可插拔的连接方式，使得多样的预处理过程可灵活处理，需要什么预处理过程，就将对应的预处理模块通过插拔的方式进行连接，保证数据处理过程的快速有效，避免出现需要进行某一种预处理过程而没有对应的预处理模块，而无法进行数据处理的情况。

在图1所示的具体实施方式中，本申请的针对深度学习训练用数据的处理方法包括过程S103，将经过预处理得到的数据结果存储到云平台中的共享文件系统，其中，数据结果用于深度学习训练。

在该具体实施方式中，将预处理后的得到的数据结果存储到共享文件系统中，进而在后续对给该数据结果进行算法训练等训练任务时，直接从共享文件系统中提取对应的数据，方便数据的提取，提高数据的传输效率，进而加快后续的数据训练过程。

在本申请的一个具体实施例中，将经过预处理的数据结果存储到共享文件系统，包括：对预先构建的共享文件系统的存储空间进行划分，得到多个存储卷；在共享文件系统中设置存储配额管理；根据配额控制请求，通过存储配额管理对存储卷进行配置，将经过预处理的数据结果存储到对应的存储卷中。

在该具体实施例中，共享文件系统中设置存储配额管理程序agent，当接收到配额控制请求时，根据配额命令通过配额管理程序agent对存储空间进行配置。通过共享文件系统对原始标注数据预处理后的数据处理结果进行存储，使得在进行算法任务时，直接共享存储模块中调取数据处理后的数据进行使用，而不必每次均进行数据的数据预处理的工作，降低资源的消耗，提高数据处理及传输的效率。另外，在共享存储模块中进行配额管理，根据具体数据量的大小进行对应的配额，避免存储空间的浪费。

在本申请的一个实例中，共享文件系统可采用NFS协议，底层为基于XFS文件系统的Linux，当接收到配额控制请求时，利用XFS文件系统进行配额。其中，NFS协议为NetworkFileSyetem协议的简写形式，为网络文件系统，该网络文件系统允许一个系统在网络上共享目录和文件，通过使用NFS，用户或者程序可像访问本地文件一样访问远端系统上的文件，实现文件的共享。XFS文件系统为一种高级日志文件系统，可移植到Linux系统中使用。XFS文件系统具有保护数据的完整性，可扩展性等特点，即使发生设备的意外宕机，数据也不会被破坏。设置共享文件系统后，将原始标注数据经过预处理后的数据结果存储到共享文件系统中，当需要对该原始标注数据进行算法训练时，直接从共享存储模块中调取对应存储卷中经过预处理后的数据结果，而不必在标注数据仓库中提取原始标注数据，提高数据传输的效率。

本申请的针对深度学习训练用数据的处理方法通过对预处理模块进行容器镜像处理，得到对应的预处理模块容器镜像，使得预处理模块插件化，进行插拔连接。进而可根据具体的算法任务选择合适的预处理模块进行数据处理，灵活性强；另外，通过共享文件系统将原始标注数据的预处理后的数据结果进行存储，使得在进行算法任务时，直接在共享文件系统中调取预处理后的数据结果进行使用，而不必每次均进行数据预处理以及在标注数据仓库中调取相应的数据，降低资源的消耗，提高数据传输的效率和数据处理的效率。

在本申请的一个实施例中，图2示出了本申请的一个实施例，其中，本申请的针对深度学习训练用数据的处理方法在对原始标注数据进行预处理，得到对应的预处理结果后，还包括，过程S201，根据数据训练指令，在共享文件系统中提取对应的预处理的数据结果；过程S202通过预设置的数据训练模块，对数据结果进行训练。

在该具体实施例中，在根据上述的针对深度学习训练用数据的处理方法对原始标注数据进行预处理后，根据数据处理指令在共享文件系统中提取相应的经过预处理得到的数据结果，进行对应的数据训练。在深度学习的数据训练的过程中，通过上述的针对深度学习训练用数据的处理方法对原始标注数据进行预处理后，继续对预处理后的数据结果进行数据的训练任务。其中，在具体的训练任务中，根据具体的数据训练指令，在共享文件系统中提取对应的预处理后的数据结果，利用预设置的数据训练模块对该数据结果进行后续的算法训练过程。

在本申请的一个具体实施例中，预先通过预设程序对多个数据训练模块进行容器镜像处理，得到数据训练模块容器镜像，使得所述数据训练模块插件化，进行插拔连接；根据数据训练指令，选择对应的数据训练模块容器镜像，对相应的数据结果进行训练。

在该具体实施例中，预先通过预设程序对多个数据训练模块预先进行容器镜像处理，得到对应的数据训练模块容器镜像，使得数据训练模块插件化，数据训练模块通过插拔的方式进行连接，从而实现数据训练模块的灵活性处理；然后根据不同的数据训练任务，对数据训练模块进行扩展，选择对应的数据训练模块容器镜像对相应的预处理后的数据结果进行训练，实现对数据训练的快速有效的进行。

在本申请的一个实例中，可设置容器镜像仓库，对经过容器镜像处理得到的预处理模块容器镜像和数据训练模块容器镜像进行存储，进而在对原始标注数据进行预处理或者对预处理得到的数据结果进行数据训练时，直接在容器镜像仓库中提取相应的容器镜像进行相应的处理。

本申请的针对深度学习训练用数据的处理方法，通过插拔连接的预处理模块，可根据具体的数据处理任务选择合适的预处理模块进行数据处理，灵活性强，易于拓展；另外，通过共享文件系统将原始标注数据的预处理后的数据结果进行存储，使得在进行算法任务时，直接在共享文件系统中调取预处理后的数据结果进行使用，而不必每次均进行数据预处理以及在标注数据仓库中调取相应的数据，另外对包括共享文件系统在内的存储空间进行划分，根据实际的数据存储量进行存储配额的管理，节省存储空间，降低资源的消耗，提高数据传输的效率和数据处理的效率。

图3示出了本申请针对深度学习训练用数据的处理系统的一个具体实施方式。

在图3所示的具体实施方式中，本申请的针对深度学习训练用数据的处理系统包括：计算资源集群模块301，对象存储模块302，预处理模块303，以及共享存储模块304，其中，计算资源集群模块301，其用于接收数据预处理指令，提取在云平台中标注数据仓库里包含的原始标注数据，并存储到对象存储模块302中；预处理模块303，其通过插拔连接在处理系统中，用于根据数据预处理指令，对对象存储模块中的原始标注数据进行预处理，并存储到共享存储模块304中。

在该具体实施方式中，在进行对原始标注数据的预处理时，计算资源集群模块接收到相应的预处理指令，根据预处理指令将对应的原始标注数据从云平台标注数据仓库中提取出来，存储到到对象存储模块中。在进行具体的预处理过程时，通过插拔连接的预处理模块对对象存储模块中的存储的原始标注数据进行预处理，并将预处理后的数据结果存储到共享存储模块中，便于后续对该数据结果进行算法训练。

在本申请的一个实施例中，在图3所示的具体实施方式中，本申请的针对深度学习训练用数据的处理系统包括：计算资源集群模块301，其用于接收数据处理指令，提取在云平台中标注数据仓库里包含的原始标注数据，并存储在对象存储模块中进行后续的数据预处理过程。另外，在进行具体的数据预训练过程时，根据数据处理指令，在对象存储模块中拉取对应的原始标注数据，拉取对应的预处理模块，通过预处理模块对拉取的原始标注数据进行预处理。

在图3所示的具体实施方式中，本申请的针对深度学习训练用数据的处理系统包括对象存储模块302，其对原始标注数据进行存储。

在本申请的一个具体实施例中，在对象存储模块中，根据原始标注数据的存储需求，配置多个存储节点，并将原始标注数据存储在预先建立的存储桶中。

在该具体实施例中，在进行算法任务时首先对需进行算法训练任务的数据进行数据的处理过程。其中，需处理的数据为原始标注数据，在对象存储中，对该数据进行存储。其中，根据原始标注数据的存储需求，设置对应的存储节点对需进行数据处理的原始标注数据进行存储。即原始标注数据的数据量较大，则布置对应较多的存储节点；原始标注数据的数据量较小，则布置较少的存储节点对原始标注数据进行存储。通过对象存储模块，根据具体原始标注数据的具体存储量配置对应的存储节点进行存储，避免存储空间的滥用和浪费，提高资源的利用率，同时提高该数据处理的灵活性。

在本申请的一个实例中，本申请的针对深度学习训练用数据的处理系统中的对象存储模块可利用Ceph存储进行实现。其中，Ceph存储是一种基于Linux系统的PB量级得的分布式文件存储系统。

在该具体实例中，部署一套基于Ceph存储的对象存储，根据具体的存储资源的需求，部署对应若干个Ceph节点，在对象存储中创建存储桶(Annotation)，将数据上传到存储桶中。其中，对于进行算法任务的原始标注数据，根据原始标注数据的数据量大小，部署对应Ceph节点的存储桶，对原始标注数据进行存储，从而便于后续的数据处理过程对该数据的提取。

在本申请的针对深度学习训练用数据的处理系统中，通过部署对象存储模块，根据算法任务中的原始标注数据配置对应的存储节点进行存储，避免存储空间的滥用和浪费，提高资源的利用率，同时提高该数据处理的灵活性。

在图3所示的具体实施方式中，本申请的针对深度学习训练用数据的处理系统包括预处理模块303，其对通过插拔连接在所述处理系统中，用于根据所述数据预处理指令，对所述对象存储模块中的所述原始标注数据进行预处理。

在本申请的一个实施例中，对预处理模块预先通过预设程序进行容器镜像处理，得到预处理模块容器镜像，使得预处理模块插件化，以通过插拔的连接方式与处理系统连接。

在该实施例中，预先通过预设的处理程序，例如Docker build程序对预处理模块进行容器镜像处理，得到对应的预处理模块容器镜像。通过对预处理模块进行容器镜像处理，使得预处理模块插件化，实现将预处理模块以插拔方式进行连接，进行对原始标注数据的预处理。在预处理时，根据接收的预处理指令，在众多的预处理模块中选择对应的预处理模块镜像对原始标注数据进行预处理。

在图3所示的具体实施方式中，本申请的针对深度学习训练用数据的处理系统包括共享存储模块304，其对预处理模块处理后的数据结果进行存储。

在本申请的一个实施例中，在共享存储模块中对共享存储模对应的存储空间进行划分，得到多个存储卷，并设置存储配额管理；存储配额管理根据配额控制请求，对存储空间进行配置，将经过预处理的数据结果存储到对应的存储卷中。

在本申请的一个实例中，在共享存储模块中设置存储配额管理程序agent，当接收到管理服务模块发送的配额控制请求时，根据配额命令通过配额管理程序agent对存储空间进行配置，进而原始标注数据存储到配置好的存储卷中。通过共享存储模块对原始标注数据的数据处理结果进行存储，使得在进行算法任务时，直接共享存储模块中调取数据处理后的数据进行使用，而不必每次均进行数据的数据处理的工作，降低资源的消耗，提高数据处理的效率。另外，在共享存储模块中进行配额管理，根据具体数据量的大小进行对应的配额，避免存储空间的浪费。

在本申请的一个实例中，共享存储模块可采用NFS协议，底层为基于XFS文件系统的Linux，当接收管理服务模块发送的配额控制请求时，利用XFS文件系统进行配额。其中，NFS协议为NetworkFileSyetem协议的简写形式，为网络文件系统，该网络文件系统允许一个系统在网络上共享目录和文件，通过使用NFS，用户或者程序可像访问本地文件一样访问远端系统上的文件，实现文件的共享。XFS文件系统为一种高级日志文件系统，可移植到Linux系统中使用。XFS文件系统具有保护数据的完整性，可扩展性等特点，即使发生设备的意外宕机，数据也不会被破坏。设置共享存储模块后，将原始标注数据的数据处理结果存储到共享存储模块中，当需要对该原始标注数据进行算法训练时，直接从共享存储模块中调取对应的存储卷，提取对应的原始标注数据的数据处理结果进行后续的算法训练过程。

在本申请的一个实例中，在计算资源集群模块中，根据整体资源规模，设置对应的节点数，并配置对象存储模块和镜像仓库模块的访问，拉取对应的原始标注数据进和容器镜像。在计算资源集群模块中进行具体的原始标注数据的数据处理过程。其中，计算资源集群模块根据待处理数据的数据量设置对应的节点数，包括控制节点和计算节点。并且在计算资源集群模块中配置对象存储模块和镜像仓库模块的访问，对存储于对象存储模块存储桶中的原始标注数据和存储于镜像仓库模块中的预处理模块对应的容器镜像进行修改获取，进而利用预处理模块对应的数据处理过程对原始标注数据进行对应的数据处理过程。

例如：计算资源集群模块通过部署Kubernetes集群进行实现。其中，Kubernetes是Google开源的一个容器编排引擎，它支持自动化部署、大规模可伸缩、应用容器化管理。在生产环境中部署一个应用程序时，通常要部署该应用的多个实例以便对应用请求进行负载均衡。在Kubernetes中，我们可以创建多个容器，每个容器里面运行一个应用实例，然后通过内置的负载均衡策略，实现对这一组应用实例的管理、发现、访问，而这些细节都不需要运维人员去进行复杂的手工配置和处理。其中，Kubernetes集群具有可移植，其支持公有云，私有云，混合云以及多重云的模式；可扩展，其可进行模块化，插件化，可挂载；以及可组合自动化，其可实现自动部署，自动重启，自动复制，自动伸缩/扩展的特点。

根据算法任务整体规模的不同，部署不同的节点数，该节点数可包括3个控制节点以及若干计算节点，其中关于具体的控制节点和计算节点的数量，可根据实际的算法任务或者算法训练任务系统的相关要求进行部署。

在本申请的一个实例中，可设置镜像仓库模块，其中，在镜像仓库模块中除了存储预处理模块外，还可以存储数据训练模块，其中数据训练模块用于根据岁数据训练指令对预处理后的数据结果进行数据训练过程。其中数据训练模块可进行容器镜像处理，以插拔的连接方式存储在镜像仓库模块中。在镜像仓库模块中，以数据训练容器镜像的形式存储。在计算资源集群模块接收到关于数据训练的指令时，在共享存储模块中对应的经过所述预处理的数据结果，通过镜像仓库模块中的数据训练容器镜像对进行预处理后的数据结果进行后续的数据训练过程。

在该实例中，各个预处理模块通过插拔的方式进行连接，镜像仓库模块将预处理模块打包成对应的容器镜像，存储到镜像仓库中。镜像仓库模块存储预处理模块，并将预处理模块打包成容器镜像，进而在后续的处理过程中，便于预处理模块的提取，进而对原始标注数据进行对应的数据处理过程。镜像仓库模块通过插拔的方式配置在本申请的针对深度学习训练用数据的处理系统。通过插拔的方式，使得在面对不同的数据处理任务时，能够灵活使用包括对应预处理模块的镜像仓库模块进行数据处理，从而提高数据处理过程的灵活性，同时对数据的数据处理过程采用更适合的预处理模块，提高数据处理的质量和效果。

在本申请的一个实例中，在本申请的针对深度学习训练用数据的处理系统中可设置管理服务模块，其发出数据处理指令，调度数据的处理过程。

在本申请的一个实例中，在管理服务模块中，其接收浏览器客户端的数据拉取和数据处理请求，发出数据处理指令，调度数据的处理过程。当需要进行数据训练任务或者数据的处理任务时，客户端界面将相关的过程指令发送给管理服务模块中，通过管理服务模块对具体的算法任务或者数据处理的具体过程进行数据的调度和管理，包括需进行处理数据的提取，存储空间的调配等。通过管理服务模块对总体处理过程的统一调配，提高算法及数据处理过程的流畅性，提高数据或算法任务的处理效率。

在本申请的一个实例中，镜像仓库模块1中包含有预处理模块1对应的容器镜像，例如预处理模块1为数据归一化处理；镜像仓库模块2中包含有预处理模块2对应的容器镜像，例如预处理模块2为数据离散化处理。其中，现有需进行算法训练的原始标注数据1。在现有的算法训练系统中，镜像仓库模块为固定模块，其只能进行预先设计好的数据预处理过程。例如，若现有的镜像仓库模块中只存在离散化处理的预处理模块，则该系统就无法对需进行归一预处理的原始标注数据进行处理，从而降低算法训练系统的数据处理效率，缺乏灵活性。而在本申请的针对深度学习训练用数据的处理系统中，镜像仓库模块通过插拔的方式进行配置。当对需进行归一化预处理过程的原始标注数据进行算法训练任务时，则使用包括有预处理模块1对应的镜像仓库模块1进行该原始标注数据的预处理过程；当对需进行离散化预处理过程的标注数据进行算法训练任务时，则使用包括有预处理模块2对应的镜像仓库模块2进行该标注数据的预处理过程。

通过插拔式镜像仓库模块的配置方式，保证在面对不同的数据预处理任务时，选择对应的预处理模块进行处理，提高本申请针对深度学习训练用数据的处理系统处理的灵活性，提高数据处理的效率。

在本申请的针对深度学习训练用数据的处理系统中，通过管理服务模块发出数据处理指令，调度数据处理的过程，通过管理服务模块对总体处理过程的统一调配，提高算法及数据处理过程的流畅性，提高数据或算法任务的效率；通过对象存储模块对需进行训练任务的原始标注数据进行存储，通过部署对象存储模块，根据算法任务中的原始标注数据配置对应的存储节点进行存储，避免存储空间的滥用和浪费，提高资源的利用率，同时提高该数据处理的灵活性；通过插拔式镜像仓库模块的配置方式，保证在面对不同的数据处理任务时，选择对应的预处理模块进行处理，提高本申请针对深度学习训练用数据的处理系统处理的灵活性，提高数据处理的效率；通过计算资源模块对需进行数据处理的原始标注数据进行数据处理过程，根据算法任务整体规模的不同，部署不同的节点数；通过设置共享存储模块，将原始标注数据的数据处理结果存储到共享存储模块中，当需要对该原始标注数据进行算法训练时，直接从共享存储模块中调取对应的存储卷，提取对应的原始标注数据的数据处理结果，进行后续的算法训练过程。

图4示出了本申请针对深度学习训练用数据的处理系统的一个具体实例。

下面结合图4，对本申请的针对深度学习训练用数据的处理系统的具体工作流程进行进一步说明。如图4所示，原始的待处理的原始标注数据存储在对象存储模块中的原始标注数据仓库中，镜像仓库模块中以插拔的方式将预处理模块打包成容器镜像，并存储。管理服务模块，其接收浏览器客户端的数据拉取和数据处理请求，发出数据处理指令到计算资源集群模块后，计算资源集群模块根据数据处理指令，从对象存储模块的原始标注数据仓库中拉取原始标注数据，同时从镜像仓库模块获取数据处理的预处理模块对应的容器镜像，之后对数据进行处理过程。其中，处理过程包括对原始标注数据的数据处理、统计等过程。在对原始的原始标注数据处理完之后，处理后的数据可通过PV(Persistent Volume)或PVC(Persistent Volume Claim)的数据存储方式存储到共享存储模块中，以配额的存储卷进行存储。当后续对该处理后的原始标注数据执行模型训练任务或者模型训练环境的搭建时，直接从共享存储模块的存储卷中挂载相应的处理后的数据进行算法训练。

本申请的针对深度学习训练用数据的处理系统根据数据处理的数据量大小配置对应的处理节点和存储空间，根据数据量的大小灵活调控，避免资源的浪费，降低资源的消耗；同时通过插拔的方式将镜像仓库模块配置在算法训练系统中，可根据不同的数据处理过程选择对应的数据处理方法进行处理，体改系统的灵活性，提高数据处理的效率和质量。

图5示出了本申请针对深度学习训练用数据的处理系统的一个实例的流程示意图。

在图5所示的实例中，首先搭建云计算基础设施硬件环境，可使用多台服务器，如5台，连接内部局域网环境，其中关于具体服务器的数量可根据实际的算法任务的数据处理需求进行合理的设置，安装并配置系统服务环境。其中包括镜像仓库模块、共享存储模块、计算资源集群模块、管理服务模块以及对象存储模块。随后安装配置并启动控制器。至此，算法训练的准备工作就绪。在进行算法训练任务时，将原始的原始标注数据上传到对象存储模块中的存储桶中，见图5中(1)；准备预处理模块容器镜像和数据训练模块容器镜像，并上传到镜像仓库模块的指定项目中，见图5中(2)。其中，各个预处理模块容器镜像和数据训练模块容器镜像通过插拔的连接方式连接到镜像仓库模块中。在管理服务模块接收浏览器客户端的数据拉取和数据处理的应用请求后，见图5中(3)，管理服务模块调度共享存储模块，进行存储配额管理，见图5中(7)；随后，通过管理服务模块调度计算资源集群模块创建数据处理任务，见图5中(4)；计算资源集群模块从镜像仓库模块中拉取镜像，调度共享存储模块中的挂载存储卷，并启动数据处理任务，见图5中(5)(6)(8)；根据具体的数据处理任务指令，从对象存储模块的存储桶中拉取数据，并进行数据处理，处理后的数据进行持久化到配额的共享存储模块中存储卷中，见图5中(9)(10)；在数据处理完之后，后续便可对处理完后得到的数据结果进行具体的算法训练任务，其中计算资源集群模块从镜像仓库模块中拉取算法任务的数据处理模块容器镜像，启动算法训练任务，同时挂载数据，挂载存储有进行处理后得到的数据结果的存储卷，进行算法训练，见图5中(5)(11)(12)。

图6示出了本申请可插拔式算法训练云平台的一个具体实例的系统架构图。

如图6所示，本申请的可插拔式算法训练云平台包括基础设施层、系统服务层、控制管理层和用户接口层。其中，

基础设施层为基础架构云平台提供基础的硬件设施，包括服务器主要进行数据的计算过程、存储设备进行数据集数据处理结果的存储和网络设备，提供数据传输功能。

系统服务层，其提供计算、存储等基础系统能力，包括基于Harbor的容器镜像仓库服务，基于Ceph的分布式对象存储服务，基于NFS的共享存储服务以及基于Kubernetes的计算资源集群系统服务；其中NFS共享存储服务与Kubernetes计算资源集群系统服务直接对接，通过Kubernetes计算资源集群系统服务的插件调度和管理NFS共享存储服务的存储；Harbor容器镜像仓库服务通过http接口对外提供服务，同时与Kubernetes计算资源集群系统服务对接，用来拉取容器镜像；Ceph对象存储服务通过S3接口对外提供服务；Kubernetes计算资源集群系统服务通过http接口对外提供服务。

控制管理层，其实现了对于流程的调度管理，以及对存储单元进行配额管理，通过调用S3接口获取原始数据，通过调用Kubernetes计算资源集群系统接口启动数据处理任务，进行数据处理和持久化，通过调用Harbor容器镜像仓库服务的接口获取容器镜像信息，并构建数据处理镜像以及推送到Harbor仓库中；配额代理服务负责管理存储的配额，控制存储空间的使用，管理服务通过调用代理服务的http接口来管理存储的配额。

用户接口层，其实现了用户交互逻辑，包括了面向程序的SDK，UI程序以及基于浏览器/服务器模式的B/S(Browser/Server)的应用。用户可通过SDK实现整个控制逻辑，或通过基于浏览器的界面控制流程的执行。

图7示出了本申请可插拔式算法训练云平台的用户操作流程的一个实例。如图7所示，首先进入数据集页面创建数据集，选择要使用的数据类别，包括数据要素类别、标注类型、图像分辨率、图像类型、时间、图像的区域；定义要使用的数据量，比如图像张数；选择进行数据预处理的模块，比如清洗冗余要素、格式转换等；填写数据集名称，点击开始构建数据集，系统随即开始自动化拉取并进行数据处理；进入模型训练工作台，创建模型训练环境或模型训练任务，并选择已创建的数据集，进行模型训练。

在本申请的一个具体实施方式中，本申请的针对深度学习训练用数据的处理系统中的各种组成模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的一个具体实施方式中，一种计算机存储介质，存储介质中存储有计算机程序，其中计算机程序被运行以执行任一实施例描述的针对深度学习训练用数据的处理方法。

在本申请的一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中，处理器操作计算机指令以执行任一实施例描述的针对深度学习训练用数据的处理方法。

在本申请所提供的实施方式中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种针对深度学习训练用数据的处理方法，其特征在于，包括：

提取在云平台中标注数据仓库里包含的原始标注数据；

通过插拔连接的预处理模块对所述原始标注数据进行预处理；

将经过所述预处理得到的数据结果存储到云平台中的共享文件系统，其中，所述数据结果用于深度学习训练。

2.根据权利要求1所述的针对深度学习训练用数据的处理方法，其特征在于，所述通过插拔连接的预处理模块对所述原始标注数据进行预处理，包括：

预先通过预设程序对多个所述预处理模块进行容器镜像处理，得到预处理模块容器镜像，使得所述预处理模块插件化，进行插拔连接；

根据不同的数据预处理指令，选择对应的所述预处理模块容器镜像对所述原始标注数据进行预处理。

3.根据权利1所述的针对深度学习训练用数据的处理方法，其特征在于，所述将经过所述预处理的数据结果存储到共享文件系统，包括：

对预先构建的所述共享文件系统的存储空间进行划分，得到多个存储卷；

在所述共享文件系统中设置存储配额管理；

根据配额控制请求，通过所述存储配额管理对所述存储卷进行配置，将经过所述预处理得到的所述数据结果存储到对应的所述存储卷中。

4.根据权利要求1-3中任一项所述的针对深度学习训练用数据的处理方法，其特征在于，该方法还包括：

根据数据训练指令，在所述共享文件系统中提取对应的经过所述预处理得到的所述数据结果；

通过预设置的数据训练模块，对所述数据结果进行训练。

5.根据权利要求4所述的针对深度学习训练用数据的处理方法，其特征在于，所述通过预设置的数据训练模块，对所述数据结果进行训练，包括：

预先通过预设程序对多个所述数据训练模块进行容器镜像处理，得到数据训练模块容器镜像，使得所述数据训练模块插件化，进行插拔连接；

根据所述数据训练指令，选择对应的所述数据训练模块容器镜像，对相应的所述数据结果进行训练。

6.一种针对深度学习训练用数据的处理系统，其特征在于，包括：对象存储模块、计算资源集群模块、共享存储模块以及预处理模块，其中，

所述计算资源集群模块，其用于接收数据预处理指令，提取在云平台中标注数据仓库里包含的原始标注数据，并存储到所述对象存储模块中；

所述预处理模块，其通过插拔连接在所述处理系统中，用于根据所述数据预处理指令，对所述对象存储模块中的所述原始标注数据进行预处理，并将经过所述预处理得到的数据结果存储到所述共享存储模块中。

7.根据权利要求6所述的针对深度学习训练用数据的处理系统，其特征在于，

对所述预处理模块预先通过预设程序进行容器镜像处理，得到预处理模块容器镜像，使得所述预处理模块插件化，以通过插拔的连接方式与所述处理系统连接。

8.根据权利要求6所述的针对深度学习训练用数据的处理系统，其特征在于，

在所述共享存储模块中，对所述共享存储模块对应的存储空间进行划分，得到多个存储卷，并设置存储配额管理；

根据配额控制请求，通过所述存储配额管理对所述存储空间进行配置，将经过所述预处理的所述数据结果存储到对应的所述存储卷中。

9.根据权利要求6所述的针对深度学习训练用数据的处理系统，其特征在于，在所述对象存储模块中，根据所述原始标注数据的存储需求，配置多个存储节点，并将所述原始标注数据存储在预先建立的存储桶中。

10.一种计算机存储介质，其存储有计算机指令，所述计算机指令被操作以执行权利要求1-5任一项所述的针对深度学习训练用数据的处理方法。