CN111177100B

CN111177100B - 一种训练数据处理方法、装置及存储介质

Info

Publication number: CN111177100B
Application number: CN202010002753.1A
Authority: CN
Inventors: 艾长青; 张力柯; 荆彦青
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2023-05-12
Anticipated expiration: 2040-01-02
Also published as: CN111177100A

Abstract

本申请涉及一种训练数据处理方法、装置及存储介质，所述方法包括：基于训练过程中的执行信息，获取当前时间节点的训练数据；调用与所述训练任务解耦的数据写入工具，将所述训练数据写入训练数据日志文件中；检测当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息；存储所述训练过程信息的增量信息；当接收到训练数据可视化请求时，查找与待查询任务标识对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。本申请能够在与训练任务解耦的情况下实现训练数据的可视化，并且支持根据待查询任务标识对待查询任务的训练数据进行查询及可视化。

Description

一种训练数据处理方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种训练数据处理方法、装置及存储介质。

背景技术

模型训练是指采用大量已知的样本数据对预设模型进行训练，以得到能够解决某一具体问题的已训练模型的过程。一般在模型训练过程中，无法直接查看与模型训练相关的训练数据，这里的训练数据包括模型训练过程的状态信息、进度信息、迭代信息以及损失信息等。

为了对模型训练过程中的相关训练数据进行可视化处理，现有技术中提出的训练数据可视化的方法主要包括两种：第一种是在训练结束或者训练过程中，通过对记录有训练数据的日志进行解析，但是在大规模部署训练任务时，难以保证解析日志的实时性和健壮性；另一种是采用第三方算法框架来实现训练数据日志的记录及查看，由于其日志名称是自动命名的，无法区分日志所属的训练任务，从而无法支持按训练任务查询日志中的训练数据。

发明内容

本申请所要解决的技术问题在于，提供一种训练数据处理方法、装置及存储介质，能够在与训练任务解耦的情况下实现训练数据的可视化，并且支持根据待查询任务标识对待查询任务的训练数据进行查询及可视化。

为了解决上述技术问题，一方面，本申请提供了一种训练数据处理方法，所述方法包括：

基于训练过程中的执行信息，获取当前时间节点的训练数据，所述训练数据包括训练任务的任务标识以及相应的训练过程信息；

调用与所述训练任务解耦的数据写入工具，将所述训练数据写入训练数据日志文件中；

检测当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息；

存储所述训练过程信息的增量信息；

当接收到训练数据可视化请求时，所述训练数据可视化请求包括待查询任务标识，基于所述待查询任务标识，查找与所述待查询任务标识对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。

另一方面，本申请提供了一种训练数据处理装置，所述装置包括：

训练数据获取模块，用于基于训练过程中的执行信息，获取当前时间节点的训练数据，所述训练数据包括训练任务的任务标识以及相应的训练过程信息；

训练数据写入模块，用于调用与所述训练任务解耦的数据写入工具，将所述训练数据写入训练数据日志文件中；

增量信息检测模块，用于检测当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息；

增量信息存储模块，用于存储所述训练过程信息的增量信息；

可视化模块，用于当接收到训练数据可视化请求时，所述训练数据可视化请求包括待查询任务标识，基于所述待查询任务标识，查找与所述待查询任务标识对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。

另一方面，本申请提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的训练数据处理方法。

另一方面，本申请提供了一种计算机存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的训练数据处理方法。

实施本申请实施例，具有如下有益效果：

本申请基于训练过程中的执行信息获取当前时间节点的训练数据；调用与训练任务解耦的数据写入工具，将训练数据写入训练数据日志文件中；检测当前训练日志文件相对于上一时间节点的训练数据日志文件的增量信息，存储所述增量信息；当接收到训练数据可视化请求时，基于待查询任务标识，查找与所述待查询任务标识对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。本申请采用与训练任务解耦的数据写入工具来得到训练数据日志文件，从而在不影响训练性能的同时，可实现日志文件的写入以及训练数据可视化，并且支持根据待查询任务标识对待查询任务的训练数据进行查询及可视化；在训练过程中可随时查看训练任务的训练数据，及时为用户调整模型及参数提供指导，为用户节约大量时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的实施环境示意图；

图2是本申请实施例提供的一种训练数据处理方法流程图；

图3是本申请实施例提供的一种训练数据的获取方法流程图；

图4是本申请实施例提供的一种训练任务的处理方法流程图；

图5是本申请实施例提供的训练过程信息的增量信息检测方法流程图；

图6是本申请实施例提供的增量信息的解析方法流程图；

图7是本申请实施例提供的一种增量信息存储方法流程图；

图8是本申请实施例提供的一种训练数据可视化方法流程图；

图9是本申请实施例提供的一种训练数据可视化框架示意图；

图10是本申请实施例提供的一种结果展示示意图；

图11是本申请实施例提供的一种训练数据处理装置示意图；

图12是本申请实施例提供的训练任务处理模块示意图；

图13是本申请实施例提供的训练数据获取模块示意图；

图14是本申请实施例提供的增量信息检测模块示意图；

图15是本申请实施例提供的增量信息解析模块示意图；

图16是本申请实施例提供的增量信息存储模块示意图；

图17是本申请实施例提供的可视化模块示意图；

图18是本申请实施例提供的一种设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首选对本申请实施例中涉及的相关术语做以下说明：

Filebeat：一个日志文件托运工具，监控日志目录或者指定的日志文件，追踪读取这些文件。

Logstash：开源的服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送到指定的存储库中存储。

Elastic search：一个基于Lucene库的搜索引擎，它提供了一个分布式、支持多租户的全文搜索引擎，具有HTTP Web接口和无模式JSON文档。

消息队列：用于将消息进行暂时缓存，解决应用耦合、异步处理、流量削锋等问题，常见的有Rabbit MQ、Kafka、RocketMQ、ZeroMQ等，其中，Rabbit MQ是实现了高级消息队列协议(AMQP)的开源消息代理软件(亦称面向消息的中间件)；Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据；RocketMQ是一款分布式、队列模型的消息中间件；ZeroMQ实际类似于Socket的一系列接口，是一个简单好用的传输层，是一个消息处理队列库。

请参阅图1，其示出了一种应用场景示意图，该环境中可包括：至少一个用户终端110和服务器120，所述用户终端110和所述服务器120可通过网络进行数据通信。具体地，所述用户终端110向服务器120提交训练任务，服务器120执行所述训练任务，并对训练过程中的训练数据进行处理并存储；进一步地，所述用户终端110还可以向服务器120发送训练数据可视化请求；服务器120接收训练数据可视化请求，并对相应的训练数据进行可视化。

所述用户终端110可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与服务器120进行通信。所述用户终端110可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本发明实施例中的用户终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

所述服务器120与用户终端110可以通过有线或者无线建立通信连接，所述服务器120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，其中服务器可以是云端服务器。

模型训练是指根据已知数据寻找模型参数的过程，在模型训练过程中，如果用户不能及时查看训练的状态信息，以及根据状态信息及时调整模型的训练方向，可能会导致训练完成的模型不符合预期或者训练失败，为此需要对训练过程中的训练数据进行可视化。为了解决现有技术在对训练数据可视化过程中，通过对记录有训练数据的日志进行解析，但是在大规模部署训练任务时，难以保证解析日志的实时性和健壮性，以及采用第三方算法框架来实现训练数据日志的记录及查看而无法支持按训练任务查询日志中的训练数据的问题，本申请实施例提供了一种训练数据处理方法，其执行主体可以为图1中的服务器，具体地，请参阅图2，所述方法可包括：

S210.基于训练过程中的执行信息，获取当前时间节点的训练数据，所述训练数据包括训练任务的任务标识以及相应的训练过程信息。

本申请实施例中的训练过程信息是指可以用于表征训练状态以及训练过程的一系列信息，所述训练过程信息可以包括但不限于模型训练过程的状态信息、进度信息、迭代信息以及损失信息等。

本申请实施例中的训练是指采用大量已知的数据样本对预设模型进行训练的过程；训练过程中的执行信息是指随着训练的进行所生成的相关信息或者基于训练过程能够确定的信息，例如，执行信息可以包括但不限于训练时长、训练过程中的迭代次数等信息。

相应地，请参阅图3，其示出了一种训练数据的获取方法，所述方法具体可包括：

S310.若在当前时刻，训练时长满足第一预设条件或者训练过程中的迭代次数满足第二预设条件，确定当前时刻为当前时间节点。

本申请实施例中，只需训练时长或者迭代次数中任一项满足预设条件，就可以确定当前时刻为当前时间节点。

对于训练时长，其可以是指从训练开始时到当前时刻的时长，在具体判断当前训练时长是否满足第一预设条件时，可以是判断当前训练时长是否为某个预设的训练时长，或者是否为第一预设值的整数倍等等。

对于训练过程中的迭代次数，若当前时刻的迭代次数为第二预设值的整数倍，则判断当前时刻的迭代次数满足第二预设条件；例如在一次训练过程中，设置每隔20次为一个时间节点，那么可以直接判断当前时刻迭代次数是否为20的整数倍，若为20的整数倍，则确定当前时刻为当前时间节点。

S320.获取所述训练任务在当前时间节点的训练数据。

获取在当前时间节点处已得到的训练数据。

在上述步骤S210之前，还可以包括对于训练任务的处理方法，其可以看成是训练数据处理过程的准备工作，具体地，请参阅图4，所述训练任务处理方法可包括：

S410.响应于任务训练请求，所述任务训练请求包括待训练任务的任务标识。

后台服务器响应于用户终端提交的任务训练请求，所述任务训练请求中包括待训练任务的任务标识，以及相关的训练数据，后台服务器在接收到训练任务之后，便会根据待训练任务进行相关的系统配置以及资源配置等，具体可包括如下步骤：

S420.为所述待训练任务分配运行资源。

S430.创建与所述待训练任务的任务标识对应的训练数据日志文件。

S440.确定所述训练数据日志文件的文件地址。

服务器为待训练任务分配运行资源，例如创建容器等；并且为待训练任务创建相应的训练数据日志文件，以便于将训练过程中的训练数据记录到所述训练数据日志文件中，所述训练数据日志文件与待训练任务的任务标识一一对应，这样也便于基于任务标识进行训练数据日志文件的查找以及对训练数据进行标识；在创建训练数据日志文件之后，需要确定训练数据日志文件的文件地址，将后续处理过程中所用到的相关工具直接指向该文件地址，即基于该文件地址，可以找到该训练数据日志文件。

S220.调用与所述训练任务解耦的数据写入工具，将所述训练数据写入训练数据日志文件中。

与所述训练任务解耦的数据写入工具在将训练数据写入训练数据日志文件时，其写入过程与训练任务的执行过程是相对独立的，即训练数据写入操作不会影响训练任务的训练性能，不会占用训练任务的运行资源，从而使得在进行大规模数据训练过程中，保证了训练任务不受其他因素的影响，提高训练性能。

随着训练任务的不断进行，相关的训练数据都会发生更新，在当前时间节点调用数据写入工具将新产生的训练数据写入到训练数据日志文件中。

S230.检测当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息。

具体的训练过程信息的增量信息检测方法可参阅图5，所述方法可包括：

S510.基于所述训练数据日志文件的文件地址，获取当前的训练数据日志文件。

基于上述步骤中确定的训练数据日志文件的文件地址，此时可直接通过文件地址获取到训练数据日志文件。

S520.将当前的训练数据日志文件与上一时间节点的训练数据日志文件进行比较，确定当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息。

对于每个时间节点，均会有与该时间节点对应的训练数据日志文件，其中当前时间节点的训练数据日志文件相对于上一时间节点的训练数据日志文件会有一些添加更新，其中的一些训练过程信息发生了变化，此时将两个日志文件中的内容进行比较，得到训练过程信息的增量信息；例如对于迭代信息，上一时间节点迭代次数为20，当前时间节点迭代次数为40，那么当前时间节点的训练数据日志文件相比于上一时间节点的训练数据日志文件多了一项记录，迭代次数：40。得到的增量信息可以相应地携带有时间戳，即时间戳可用来标识当前存储的增量信息的时间信息，这样便于区分每一项增量信息所产生的时间。

在检测到当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息之后，可将检测到的增量信息放入到消息队列中；每检测到一次增量信息，便向消息队列中放入一次。

S240.存储所述训练过程信息的增量信息。

在存储所述训练过程信息的增量信息之前还包括对增量信息的解析过程，具体可参阅图6，增量信息的解析方法可包括：

S610.从所述消息队列中获取所述增量信息。

消息队列中可能有一项或者多项增量信息，按照增量信息放入的先后顺序，依次取出先放入的增量信息。

S620.对所述增量信息进行解析，得到预设格式的训练过程信息。

对每项增量信息分别进行解析，得到预设格式的训练过程信息，本申请实施例中，可解析得到键值key-value形式的训练过程信息。

相应地，请参阅图7，其示出了一种增量信息存储方法，所述方法可包括：

S710.将所述预设格式的训练过程信息存储到数据库中。

将携带有时间戳的键值key-value形式的各项训练过程信息存储到数据库中。

S720.基于所述训练任务的任务标识，创建与所述训练任务的任务标识对应的索引信息。

S730.建立所述索引信息与所述预设格式的训练过程信息的对应关系。

创建与所述训练任务的任务标识对应的索引信息，建立所述索引信息与训练过程信息的对应关系，从而可根据任务标识查询到对应的训练过程信息。

S250.当接收到训练数据可视化请求时，所述训练数据可视化请求包括待查询任务标识，基于所述待查询任务标识，查找与所述待查询任务标识对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。

具体地，请参阅图8，其示出了一种训练数据可视化方法，所述方法可包括：

S810.确定与所述待查询任务标识对应的所述索引信息。

S820.获取与所述索引信息对应的预设格式的训练过程信息。

S830.展示与所述待查询任务标识对应的一项或者多项预设格式的训练过程信息。

对于待查询的任务，在数据库中存储有与其对应的多项不同时间节点的训练过程信息，在具体进行查找时，用户可指定需要查找的时间节点，可以是当前时间节点的训练过程信息，也可以是之前的时间节点的训练过程信息；在基于用户的查找请求找到相应的训练过程数据时，对训练过程数据进行可视化。

下面以一示例说明本申请的具体实施过程。

请参阅图9，其示出了一种训练数据可视化框架示意图，该框架可包括：

模型训练模块910、日志收集器920、消息队列930、信息解析工具940、索引服务器950、训练任务提交模块960以及训练信息查看模块970，具体地，日志收集器可采用filebeat，消息队列可采用kafka消息队列，信息解析工具可采用logstash，其具体执行过程中可包括输入插件、过滤插件以及输出插件等，索引服务器可采用elastic search搜索引擎。

基于上述可视化框架实现训练数据可视化的具体流程可包括：

1.用户通过web提交训练任务，并上传训练需要的数据集。

2.后台接收到训练任务后进行配置处理，包括创建相应的容器、配置filebeat需要解析的日志，启动filebeat和训练任务，这里也可以使用其他更轻量级的日志收集工具。

3.训练过程中，调用数据写入工具将训练的迭代次数、总次数、训练loss和验证loss等数据按格式写入到日志文件中。为了与具体的训练任务解耦，这里只注册一个函数，具体的写日志等操作由该函数进行。

这里记录日志的方式可以是将函数注册到训练任务中，隔若干次调用该注册函数记录所需的数据，这里的若干次可以是指预设的迭代次数，即每隔预设的迭代次数调用一次；这里也可以将注册的函数封装在模块中，安装在运行环境中，在需要的地方直接import并调用。

4.filebeat检测日志的变化，并将新增日志上传到kafka消息队列中。

5.logstash从kafka消息队列中获取数据，进行解析并存入elastic search中。

6.用户需要查看训练过程时，后台会根据请求的训练任务id，找到对应的elasticsearch索引，并查询出相关的信息，返回给web进行显示。

在实际部署过程中，filebeat、消息队列、logstash以及elastic search均可以替换成其他更轻量、性能更好的工具。

用户请求查看某项训练任务的训练过程信息时，便可为其展示相关数据，请参阅图10，其示出了一种结果展示示意图，从图中可以看出，第29项训练任务的训练状态为训练中，训练进度为50％；第30项训练任务的训练状态为已完成，训练进度为100％。

通过上述的训练数据可视化方法，从训练程序写入日志文件到用户在web中查看，整个过程是分钟级的，当从elastic search中读取训练数据到显示loss等曲线时，耗时最多是秒级的，也是在可接受范围之内；上述的训练数据可视化方法可保证已有训练流程或算法不做改动或做最尽量小的改动的情况下，支持在训练过程中进行训练数据的收集，在动态收集训练数据并将对训练过程的影响降到最低；同时可实现对训练数据进行管理和搜索。

本申请针对现有的训练数据可视化方法难以保证在对大规模训练任务时的实时性和有效性，以及无法支持按训练任务查询训练数据的问题，引入了相关的处理工具，从而能够实现快速部署，快速查询，支持大规模训练任务同时查询，其解决的问题可包括：

1.若在训练过程中因为算法本身的bug或因为数据质量的问题导致程序出现异常导致无法继续运行，用户无法及时发现该问题并提出解决方案；

2.对于训练模型耗时较长的任务在训练过程中出现异常而言，其时间成本浪费更明显；

3.在训练模型时无法及时查看训练loss和验证loss，则无法及时有效的判断模型是否过拟合等问题。等模型训练好再去验证，会造成时间成本增加；

4.支持大规模模型训练的日志数据收集和查看。

本申请采用与训练任务解耦的数据写入工具来得到训练数据日志文件，从而在不影响训练性能的同时，可实现日志文件的写入以及训练数据可视化，并且支持根据待查询任务标识对待查询任务的训练数据进行查询及可视化；在训练过程中可随时查看训练任务的训练数据，及时查看训练loss和验证loss等信息，帮助用户及时查看训练过程，及时为用户调整模型及参数提供指导，为用户节约大量时间。

本实施例还提供了一种训练数据处理装置，请参阅图11，所述装置包括：

训练数据获取模块1110，用于基于训练过程中的执行信息，获取当前时间节点的训练数据，所述训练数据包括训练任务的任务标识以及相应的训练过程信息；

训练数据写入模块1120，用于调用与所述训练任务解耦的数据写入工具，将所述训练数据写入训练数据日志文件中；

增量信息检测模块1130，用于检测当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息；

增量信息存储模块1140，用于存储所述训练过程信息的增量信息；

可视化模块1150，用于当接收到训练数据可视化请求时，所述训练数据可视化请求包括待查询任务标识，基于所述待查询任务标识，查找与所述待查询任务标识对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。

请参阅图12，所述训练数据处理装置还包括训练任务处理模块1200，所述训练任务处理模块1200包括：

任务训练请求相应模块1210，用于响应于任务训练请求，所述任务训练请求包括待训练任务的任务标识；

运行资源分配模块1220，用于为所述待训练任务分配运行资源；

日志文件创建模块1230，用于创建与所述待训练任务的任务标识对应的训练数据日志文件；

文件地址确定模块1240，用于确定所述训练数据日志文件的文件地址。

所述训练过程中的执行信息包括训练时长或者训练过程中的迭代次数，相应地，请参阅图13，所述训练数据获取模块1110包括：

当前时间节点确定模块1310，用于若在当前时刻，训练时长满足第一预设条件或者训练过程中的迭代次数满足第二预设条件，确定当前时刻为当前时间节点；

第一获取模块1320，用于获取所述训练任务在当前时间节点的训练数据。

请参阅图14，所述增量信息检测模块1130包括：

日志文件获取模块1410，用于基于所述训练数据日志文件的文件地址，获取当前的训练数据日志文件；

比较模块1420，用于将当前的训练数据日志文件与上一时间节点的训练数据日志文件进行比较，确定当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息。

请参阅图15，所述装置还包括增量信息解析模块1500，所述增量信息解析模块1500包括：

增量信息获取模块1510，用于从所述消息队列中获取所述增量信息；

第一解析模块1520，用于对所述增量信息进行解析，得到预设格式的训练过程信息。

请参阅图16，所述增量信息存储模块1140包括：

第一存储模块1610，用于将所述预设格式的训练过程信息存储到数据库中；

索引信息创建模块1620，用于基于所述训练任务的任务标识，创建与所述训练任务的任务标识对应的索引信息；

对应关系建立模块1630，用于建立所述索引信息与所述预设格式的训练过程信息的对应关系。

请参阅图17，所述可视化模块1150包括：

索引信息确定模块1710，用于确定与所述待查询任务标识对应的所述索引信息；

第二获取模块1720，用于获取与所述索引信息对应的预设格式的训练过程信息；

信息展示模块1730，用于展示与所述待查询任务标识对应的一项或者多项预设格式的训练过程信息。

上述实施例中提供的装置可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的方法。

本实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如本实施例上述任一方法。

本实施例还提供了一种设备，其结构图请参见图18，该设备1800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1822(例如，一个或一个以上处理器)和存储器1832，一个或一个以上存储应用程序1842或数据1844的存储介质1830(例如一个或一个以上海量存储设备)。其中，存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对设备中的一系列指令操作。更进一步地，中央处理器1822可以设置为与存储介质1830通信，在设备1800上执行存储介质1830中的一系列指令操作。设备1800还可以包括一个或一个以上电源1826，一个或一个以上有线或无线网络接口1850，一个或一个以上输入输出接口1858，和/或，一个或一个以上操作系统1841，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。本实施例上述的任一方法均可基于图18所示的设备进行实施。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或中断产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。应当理解到，本实施例中所揭露的方法、装置等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元模块的间接耦合或通信连接。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到，结合本说明书所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种训练数据处理方法，其特征在于，包括：

若在当前时刻，训练时长满足第一预设条件或者训练过程中的迭代次数满足第二预设条件，确定当前时刻为当前时间节点；

获取训练任务在当前时间节点的训练数据，所述训练数据包括所述训练任务的任务标识以及相应的训练过程信息；

调用与所述训练任务解耦的数据写入工具，将所述训练数据写入训练数据日志文件中；所述数据写入工具对应的注册函数被注册到训练任务中，或者所述数据写入工具对应的注册函数安装在运行环境中；

存储所述训练过程信息的增量信息；

当接收到训练数据可视化请求时，所述训练数据可视化请求包括待查询任务标识以及待查找的时间节点，基于所述待查询任务标识以及所述待查找的时间节点，查找与所述待查询任务标识以及所述待查找的时间节点对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。

2.根据权利要求1所述的一种训练数据处理方法，其特征在于，所述方法还包括：

响应于任务训练请求，所述任务训练请求包括待训练任务的任务标识；

为所述待训练任务分配运行资源；

创建与所述待训练任务的任务标识对应的训练数据日志文件；

确定所述训练数据日志文件的文件地址。

3.根据权利要求2所述的一种训练数据处理方法，其特征在于，所述检测当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息包括：

基于所述训练数据日志文件的文件地址，获取当前的训练数据日志文件；

将当前的训练数据日志文件与上一时间节点的训练数据日志文件进行比较，确定当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息。

4.根据权利要求1所述的一种训练数据处理方法，其特征在于，所述检测当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息之后还包括：

将每次检测到的增量信息放入到消息队列中。

5.根据权利要求4所述的一种训练数据处理方法，其特征在于，所述存储所述训练过程信息的增量信息之前还包括：

从所述消息队列中获取所述增量信息；

对所述增量信息进行解析，得到预设格式的训练过程信息。

6.根据权利要求5所述的一种训练数据处理方法，其特征在于，所述存储所述训练过程信息的增量信息包括：

将所述预设格式的训练过程信息存储到数据库中；

基于所述训练任务的任务标识，创建与所述训练任务的任务标识对应的索引信息；

建立所述索引信息与所述预设格式的训练过程信息的对应关系。

7.根据权利要求6所述的一种训练数据处理方法，其特征在于，所述基于所述待查询任务标识，查找与所述待查询任务标识对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息包括：

确定与所述待查询任务标识对应的所述索引信息；

获取与所述索引信息对应的预设格式的训练过程信息；

展示与所述待查询任务标识对应的一项或者多项预设格式的训练过程信息。

8.一种训练数据处理装置，其特征在于，包括：

训练数据获取模块，用于若在当前时刻，训练时长满足第一预设条件或者训练过程中的迭代次数满足第二预设条件，确定当前时刻为当前时间节点；获取训练任务在当前时间节点的训练数据，所述训练数据包括所述训练任务的任务标识以及相应的训练过程信息；

训练数据写入模块，用于调用与所述训练任务解耦的数据写入工具，将所述训练数据写入训练数据日志文件中；所述数据写入工具对应的注册函数被注册到训练任务中，或者所述数据写入工具对应的注册函数安装在运行环境中；

可视化模块，用于当接收到训练数据可视化请求时，所述训练数据可视化请求包括待查询任务标识以及待查找的时间节点，基于所述待查询任务标识以及所述待查找的时间节点，查找与所述待查询任务标识以及所述待查找的时间节点对应的训练过程信息，可视化所述待查询任务标识以及相应的训练过程信息。

9.根据权利要求8所述的装置，其特征在于，所述训练数据处理装置还包括训练任务处理模块，所述训练任务处理模块包括：

任务训练请求相应模块，用于响应于任务训练请求，所述任务训练请求包括待训练任务的任务标识；

运行资源分配模块，用于为所述待训练任务分配运行资源；

日志文件创建模块，用于创建与所述待训练任务的任务标识对应的训练数据日志文件；

文件地址确定模块，用于确定所述训练数据日志文件的文件地址。

10.根据权利要求8所述的装置，其特征在于，所述增量信息检测模块包括：

日志文件获取模块，用于基于所述训练数据日志文件的文件地址，获取当前的训练数据日志文件；

比较模块，用于将当前的训练数据日志文件与上一时间节点的训练数据日志文件进行比较，确定当前的训练数据日志文件相对于上一时间节点的训练数据日志文件中的训练过程信息的增量信息。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括增量信息解析模块，所述增量信息解析模块包括：

增量信息获取模块，用于从消息队列中获取所述增量信息；

第一解析模块，用于对所述增量信息进行解析，得到预设格式的训练过程信息。

12.根据权利要求11所述的装置，其特征在于，所述增量信息存储模块包括：

第一存储模块，用于将所述预设格式的训练过程信息存储到数据库中；

索引信息创建模块，用于基于所述训练任务的任务标识，创建与所述训练任务的任务标识对应的索引信息；

对应关系建立模块，用于建立所述索引信息与所述预设格式的训练过程信息的对应关系。

13.根据权利要求12所述的装置，其特征在于，所述可视化模块包括：

索引信息确定模块，用于确定与所述待查询任务标识对应的所述索引信息；

第二获取模块，用于获取与所述索引信息对应的预设格式的训练过程信息；

信息展示模块，用于展示与所述待查询任务标识对应的一项或者多项预设格式的训练过程信息。

14.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如权利要求1至7任一项所述的训练数据处理方法。

15.一种电子设备，其特征在于，所述电子设备包括一个或一个以上处理器、存储器、以及存储应用程序或数据的存储介质，存储在存储介质的程序由处理器加载并执行如权利要求1至7任一项所述的训练数据处理方法。