CN109241141B - 深度学习的训练数据处理方法和装置 - Google Patents

深度学习的训练数据处理方法和装置 Download PDF

Info

Publication number
CN109241141B
CN109241141B CN201811026711.0A CN201811026711A CN109241141B CN 109241141 B CN109241141 B CN 109241141B CN 201811026711 A CN201811026711 A CN 201811026711A CN 109241141 B CN109241141 B CN 109241141B
Authority
CN
China
Prior art keywords
data
deep learning
training data
time sequence
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811026711.0A
Other languages
English (en)
Other versions
CN109241141A (zh
Inventor
夏燕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811026711.0A priority Critical patent/CN109241141B/zh
Publication of CN109241141A publication Critical patent/CN109241141A/zh
Application granted granted Critical
Publication of CN109241141B publication Critical patent/CN109241141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了深度学习的训练数据处理方法和装置。该方法的一具体实施方式包括:获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;从数据库中读取目标作业标识对应的中间训练数据;根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。该实施方式实现了对深度学习训练过程的中间数据进行自动读取和可视化效果生成,有助于用户更好地优化和调节深度学习模型。

Description

深度学习的训练数据处理方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及人工智能领域,尤其涉及深度学习的训练数据处理方法和装置。
背景技术
随着深度学习技术的不断发展,深度学习被应用在越来越多的领域。由于深度学习本身比较复杂且不易解释,使用者很难理解训练的过程,只能通过训练结果来评价模型的性能。
为了方便使用者理解训练过程,便于观测训练效果,可以将训练过程的所有数据输出至日志并以文本的方式进行保存和呈现。而现有的文本日志存储方式将训练过程中的所有数据进行保存,不利于对深度学习训练过程的感知和理解,由此可能增加模型调整的难度和训练的时间成本。
发明内容
本申请实施例提出了深度学习的训练数据处理方法和装置。
第一方面,本申请实施例提供了一种深度学习的训练数据处理方法,包括:获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;从数据库中读取目标作业标识对应的中间训练数据;根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
在一些实施例中,上述从数据库中读取目标作业标识对应的中间训练数据,包括:从时序数据库中读取目标作业标识对应的时序数据;和/或从对象存储数据库中读取目标作业标识对应的非时序数据。
在一些实施例中,上述方法还包括:获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中。
在一些实施例中,上述获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中,包括:响应于检测到数据可视化配置信息所指示的深度学习作业的中间训练数据,获取对应的深度学习作业的中间训练数据并解析,得到对应的深度学习作业标识;将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中。
在一些实施例中,上述中间训练数据包括时序数据;以及上述将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中,包括:将获取的时序数据存储至时序数据库中对应的作业标识的数据表中。
上述中间训练数据包括非时序数据;以及上述将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中,包括:解析接收到的非时序数据,得到非时序数据的数据标签;基于深度学习作业标识和数据标签生成对应的非时序数据的数据索引,将非时序数据添加至对象存储数据库中对应数据索引的数据结构中。
第二方面,本申请实施例提供了一种深度学习的训练数据处理装置,包括:获取单元,被配置成获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;读取单元,被配置成从数据库中读取目标作业标识对应的中间训练数据;生成单元,被配置成根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
在一些实施例中,上述读取单元进一步被配置成按照如下方式从数据库中读取目标作业标识对应的中间训练数据:从时序数据库中读取目标作业标识对应的时序数据;和/或从对象存储数据库中读取目标作业标识对应的非时序数据。
在一些实施例中,上述装置还包括:存储单元,被配置成获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中。
在一些实施例中,上述存储单元进一步被配置成按照如下方式获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中:响应于检测到数据可视化配置信息所指示的深度学习作业的中间训练数据,获取对应的深度学习作业的中间训练数据并解析,得到对应的深度学习作业标识;将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中。
在一些实施例中,上述中间训练数据包括时序数据;以及存储单元进一步被配置成按照如下方式将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中:将获取的时序数据存储至时序数据库中对应的作业标识的数据表中。
在一些实施例中,上述中间训练数据包括非时序数据;以及存储单元进一步被配置成按照如下方式将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中:解析接收到的非时序数据,得到非时序数据的数据标签;基于深度学习作业标识和数据标签生成对应的非时序数据的数据索引,将非时序数据添加至对象存储数据库中对应数据索引的数据结构中。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的深度学习的训练数据处理方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的深度学习的训练数据处理方法。
本申请上述实施例的深度学习的训练数据处理方法和装置,通过获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习作业的目标作业标识,然后从数据库中读取目标作业标识对应的中间训练数据,之后根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表,实现了对深度学习训练过程的中间数据进行自动读取和可视化效果生成,无需解析日志文件,使用户可以快速、直观地了解训练过程和模型的训练效果,有助于用户更好地优化和调节深度学习模型。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的深度学习的训练数据处理方法的一个实施例的流程图;
图3是根据本申请的深度学习的训练数据处理方法的一个应用场景示意图;
图4是根据本申请的深度学习的训练数据处理方法的另一个实施例的流程图;
图5是本申请的深度学习的训练数据处理装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的深度学习的训练数据处理方法或深度学习的训练数据处理装置的示例性系统架构100。
如图1所示,系统架构100可以包括由多个深度学习作业节点组成的分布式深度学习作业集群、网络以及租户客户端。其中,租户客户端通过网络与深度学习作业集群中的作业节点连接。
租户可以是使用分布式集群的资源进行深度学习计算的用户。租户可以通过租户客户端向深度学习作业集群提交作业,通过租户客户端查询作业进程,查看作业结果数据等。在实践中,租户在获得使用深度学习的分布式集群的计算资源的权限之后,可以通过租户客户端访问深度学习计算平台来提交深度学习作业任务或查询作业进程。
租户客户端可以是具有显示器、扬声器或其他输出部件并支持互联网访问的各种电子设备,包括但不限于智能手机、平板电脑、智能手表、膝上便携型电脑等。
作业节点可以是深度学习的服务器集群中的物理服务器,也可以是部署于物理服务器上的虚拟机或容器。作业节点可以执行分配至其上的深度学习作业,例如可以执行深度学习网络的参数计算操作。
需要说明的是,本申请实施例所提供的深度学习的训练数据处理方法可以由部署于作业节点上的数据处理模块执行,相应地,深度学习的训练数据处理装置可以设置于深度学习的作业节点上。
需要说明的是,作业节点可以由服务器实现,这里的服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的租户客户端、网络、作业节点的数目仅仅是示意性的。根据实现需要,可以具有任意数目的租户客户端、网络、作业节点。
继续参考图2,其示出了根据本申请的深度学习的训练数据处理方法的一个实施例的流程200。该深度学习的训练数据处理方法,包括以下步骤:
步骤201,获取针对深度学习的中间训练数据的可视化展示请求。
在本实施例中,深度学习的训练数据处理方法的执行主体(例如图1所示的作业节点上部署的数据处理模块)可以接收用户(例如租户)通过用户客户端(例如图1所示租户客户端)发送的针对深度学习的中间训练数据的可视化展示请求。其中,可视化展示请求包括所请求展示的深度学习作业的目标作业标识。
深度学习作业一般是基于深度神经网络的,而深度神经网络通常包含多个层,每层包含多个神经元,且神经网络的训练过程需要对大量的样本数据进行处理,因此,深度神经网络涉及大量的计算。在本实施例中,可以采用分布式集群来并行处理深度神经网络的训练任务。具体地,可以采用模型并行或数据并行的方式来处理深度学习作业。在模型并行的方式中,可以将深度神经网络拆分为多个模块,将集群中的作业节点划分为对应数量的节点组,每个节点组可以负责其中一个模块的深度学习作业处理。在数据并行的方式中,可以将样本数据拆分为多个数据组,每个节点上运行完整的深度神经网络,每个节点负责一个数据组的训练任务。
在用户提交深度学习训练任务之后,可以将任务按照上述模型并行方式或数据并行方式进行划分,得到多个子任务,每个子任务可以是一个深度学习作业,每个深度学习作业包含一部分样本数据的训练或者一部分神经网络结构的运算。每个深度学习作业可以包括执行相应的深度学习运算进程的分布式训练作业以及用于传递该深度学习作业相关的参数的参数服务器的分布式训练作业。并且,每个作业可以具有独立的作业标识。上述分布式集群中可以具有作业分配和调度模块,作业分配和调度模块可以在接收到深度学习训练任务之后按照作业分配和调度策略将训练任务划分为深度学习作业并配置对应的作业标识。还可以将作业标识通过网络发送至用户客户端,通过用户客户端将作业标识告知用户。则用户在发出可视化展示请求时,可以指定请求展示的深度学习作业的作业标识。
中间训练数据可以是深度学习作业训练过程中产生的数据。作为示例,深度学习作业可以是多层卷积神经网络的训练作业,中间训练数据可以是迭代调整卷积神经网络的参数过程中某一层或多层卷积层的输出数据,或者可以是用于表征训练中的多层卷积神经网络对样本数据的预测结果与样本数据的标注结果之间的误差的损失函数在某次迭代之后的值。
可视化展示请求可以是以可视化方式展示中间训练数据的请求,也即向用户呈现中间训练数据的请求。在本实施例中,用户可以通过用户客户端选择所请求展示的深度学习作业,并向上述执行主体发送包括所请求展示的深度学习训练作业的目标作业标识的可视化展示请求。
步骤202,从数据库中读取目标作业标识对应的中间训练数据。
在本实施例中,深度学习的中间训练数据可以被保存在数据库中。可选地,深度学习的中间训练数据可以采用分布式存储的方式保存在数据库中。在数据库中,可以按照深度学习作业的作业标识对数据进行存储。例如每个作业相关的中间训练数据可以按照数据生成时间添加至该作业的作业标识对应的列表中,或者可以将作业标识和对应的作业的中间训练数据以键值对方式存储至数据库中。
在接收到可视化展示请求后,可以从数据库中读取可视化展示请求中所指示的目标作业标识对应的中间训练数据。具体可以按照目标作业标识从数据库中查找出对应的中间训练数据。
在本实施例的一些可选的实现方式中,用于处理深度学习作业的分布式集群中可以部署有数据收集服务。数据收集服务可以获取各作业节点产生的中间训练数据,并按照作业标识以异步的方式写入数据库中。
在本实施例的一些可选的实现方式中,中间训练数据可以包括时序数据和非时序数据。时序数据是以同一指标按照时间记录的数据序列,可例如是每次迭代之后的损失函数值,预测结果的数值表示等;非时序数据则可以是不按时间记录、或没有特定的统一数据指标的数据,可例如是中间卷积层输出的特征图等,不同层的特征图的尺寸可能不相同,因而不具有统一的数据指标。时序数据和非时序数据可以分别存储在时序数据库中和对象存储数据库中。上述执行主体可以从时序数据库中读取目标作业标识对应的时序数据,和/或从对象数据库中读取目标作业标识对应的非时序数据。
步骤203,根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
在从数据库读取出所请求展示的中间训练数据之后,可以根据中间训练数据生成可视化的图表。在本实施例中,可以预先设定中间训练数据的可视化图表展示方式,例如可以设定采用时序曲线、柱状图等方式展示中间训练数据,则可以按照预先设定的展示方式来生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
作为示例,对于时序数据,可以采用数据表的方式展示不同时间点对应的中间训练数据,或者可以采用时序曲线的方式展示中间训练数据,这样,可以展示出中间训练数据随时间的变化趋势。对于非时序数据,可以直接将非时序数据中的图像、字符、数字等类型的数据提取出来进行展示。
本申请上述实施例的深度学习的训练数据处理方法,通过获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;从数据库中读取目标作业标识对应的中间训练数据;根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表,实现了对深度学习训练过程的中间数据进行自动读取和可视化效果生成,无需解析日志文件,使用户可以快速、直观地了解训练过程和模型的训练效果,有助于用户更好地优化和调节深度学习模型。
请参考图3,其示出了根据本申请实施例的深度学习的训练数据处理方法的一个应用场景示意图。如图3所示,分布式集群C的资源可以被配置为不同作业Job1、Job2…等的参数服务器Pserver和训练服务器Trainer,其中,参数服务器用于传递深度学习作业的相关参数,训练服务器用于运行训练进程,执行训练过程中的运算操作。具体地,例如深度学习作业Job1包含参数服务器Pserver11、Pserver12、…Pserver1m,以及训练服务器Trainer01、Trainer02、…、Trainer0n,m,n为正整数。分布式集群中的作业节点上还可以部署有数据收集服务Receive Server。数据收集服务Receive Server可以将分布式集群中各作业的中间训练数据保存至数据库,用户客户端可以向深度学习的分布式集群C发起针对深度学习作业的中间训练的数据的可视化展示请求,并指定作业标识Job1,则可以从数据库中读取出作业标识Job1对应的中间训练数据,并生成相应的可视化图表。
继续参考图4,其示出了根据本申请的深度学习的训练数据处理方法的另一个实施例的流程图。如图4所示,本实施例的深度学习的训练数据处理方法的流程400,包括以下步骤:
步骤401,获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中。
在本实施例中,可以在深度学习中嵌入可视化工具。该可视化工具可以以代码形式(例如python、C++等语言编写的代码)被加入至深度学习训练的代码中。该可视化工具可以允许用户进行配置,可以获取用户配置后生成的可视化配置信息。可视化配置信息可以包含所需要保存的深度学习作业的中间训练数据,例如可以包括用于指示所保存的训练数据的数据类型的信息,还可以包括用于指示所保存的训练数据的时间点的信息,等等。在这里,数据类型可以包括图片类、数值类、字符类等,时间点则可以以深度学习训练过程中的迭代次数来表征。
可选地,上述可视化配置信息还可以包括所需要保存的深度学习作业的作业标识。
在本实施例中,深度学习的训练数据处理方法的执行主体可以获取可视化配置信息,在深度学习训练过程中,获取可视化配置信息所指示的深度学习作业的中间训练数据,存储至数据库中。
可选地,在深度学习的作业节点执行作业过程中,可以将深度学习的中间训练数据保存在共享内存中。深度学习作业集群中可以部署有代理进程,该代理进程可以将共享内存中的中间训练数据取出,并通过socket连接的方式传输至数据收集服务器。数据收集服务器可以接收代理进程发送的中间训练数据并按照作业标识存储至数据库。
在本实施例的一些可选的实现方式中,可以按照步骤4010-步骤4020的方式来获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中:
步骤4010,响应于检测到数据可视化配置信息所指示的深度学习作业的中间训练数据,获取对应的深度学习作业的中间训练数据并解析,得到对应的深度学习作业标识。
在深度学习训练过程中,可以利用上述可视化工具检测是否产生数据可视化配置信息所指示的深度学习作业的中间训练数据,若是,则可以将产生的中间训练数据提取出来,进行解析,得出该中间训练数据对应的深度学习作业的作业标识。
通常在为深度学习作业分配作业标识之后,训练过程中产生的数据可以带有该作业标识,在本实施例中,可以通过解析检测到的中间训练数据来获得对应的作业标识。
步骤4020,将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中。
可以将检测到的深度学习的中间训练数据(例如损失函数值、特征图等)与对应的作业标识相关联生该作业标识对应的数据项,并保存在数据库中。
在本实施例的一些可选的实现方式中,上述中间训练数据可以是时序数据,或者可以是非时序数据。针对时序数据和非时序数据,可以采用不同的方式写入数据库中。
具体地,如果中间训练数据是时序数据,则在步骤4021中,将获取的时序数据存储至时序数据库中对应的作业标识的数据表中。
可以将时序数据组织成预先设定的格式,例如时序数据可以包括:用于标识作业的作业标识jobid、用于表示可视化图表所表征的训练数据的属性特征的图表名称、数据data。其中,数据data可以是由迭代次数和相应的数据值组成的二维坐标,例如(epoch,loss),epoch表示迭代次数,loss表示损失函数的值。
如果中间训练数据是非时序数据,则执行如下步骤4022和步骤4023:在步骤4022中,解析接收到的非时序数据,得到非时序数据的数据标签;在步骤4023中,基于深度学习作业标识和数据标签生成对应的非时序数据的数据索引,将非时序数据添加至对象存储数据库中对应数据索引的数据结构中。
对于非时序数据,可以进一步解析以确定非时序数据的数据标签。数据标签用于标识所得到的训练指标的名称(例如第一个卷积层的图像采样结果),可以是某一时刻的表示,例如第一次迭代,第N次迭代。可选地,还可以解析出非时序数据的数据类型,数据类型用于标识中间训练数据的类型,例如图片类、字符类、数字类等。然后可以根据作业标识和数据标签生成数据的索引。在对象存储数据库中,按照key-value(键值)方式将非时序数据存储在对应索引的数据结构中。在这里,对象存储数据库可以包括索引部分和对象存储部分。索引部分的key可以是作业标识,索引部分的value可以是对象存储部分的数据结构的key的值,可以将数据标签作为索引部分的value。对象存储的部分的key的值可以是索引部分的key-value,例如索引部分的key为jobid1,索引部分的value值为key1,key2,…时,对象存储部分的key值可以为jobid1-key1,jobid1-key2,…。对象存储部分的value可以是该非时序数据的数据标签所标识的时刻的数据值,例如图片的base64编码的值。
表一和表二分别示出了索引部分的数据存储格式和对象存储部分的数据结构。
表一索引部分的数据存储格式
Key Value
jobid1 key1,key2,…
jobid2 key1,key2,…
JobidN key1,key2,…
表二对象存储部分的数据结构
Key Value
jobid1_key1 value(base64或其他类型)
jobid1_key2 value(base64或其他类型)
jobidN_key1 value(base64或其他类型)
步骤402,获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识。
在本实施例中,深度学习的训练数据处理方法的执行主体可以接收用户通过用户客户端发送的针对深度学习的中间训练数据的可视化展示请求。其中,可视化展示请求包括所请求展示的深度学习作业的目标作业标识。
步骤403,从数据库中读取目标作业标识对应的中间训练数据。
在获取可视化展示请求之后,可以按照目标作业标识来查询数据库,以读取目标作业标识对应的中间训练数据。
在本实施例的一些可选的实现方式中,可以从时序数据库中读取目标作业标识对应的时序数据,和/或从对象数据库中读取目标作业标识对应的非时序数据。
步骤404,根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
可以根据中间训练数据生成可视化的图表。在本实施例中,可以预先设定中间训练数据的可视化图表展示方式,例如可以设定采用时序曲线、柱状图等方式展示中间训练数据,则可以按照预先设定的展示方式来生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
本实施的方法流程中的步骤402、步骤403、步骤404分别与前述实施例的步骤201、步骤202、步骤203一致,针对前述实施例的步骤201、步骤202、步骤203的描述也分别适用于步骤402、步骤403、步骤404,在此不再赘述。
从图4可以看出,本实施例的深度学习的训练数据处理方法,通过增加获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中的步骤,能够按照用户自定义的方式对深度学习训练过程的中间数据进行自动读取和可视化效果生成,提升了深度学习训练数据的可视化方法的灵活性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种深度学习的训练数据处理装置的一个实施例,该装置实施例与图2和图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的深度学习的训练数据处理装置500包括:获取单元501、读取单元502以及生成单元503。其中获取单元501被配置成获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;读取单元502被配置成从数据库中读取目标作业标识对应的中间训练数据;生成单元503被配置成根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
在一些实施例中,上述读取单元502可以进一步被配置成按照如下方式从数据库中读取目标作业标识对应的中间训练数据:从时序数据库中读取目标作业标识对应的时序数据;和/或从对象存储数据库中读取目标作业标识对应的非时序数据。
在一些实施例中,上述装置500还可以包括:存储单元,被配置成获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中。
在一些实施例中,上述存储单元可以进一步被配置成按照如下方式获取数据可视化配置信息所指示的深度学习作业的中间训练数据,并存储至对应的数据库中:响应于检测到数据可视化配置信息所指示的深度学习作业的中间训练数据,获取对应的深度学习作业的中间训练数据并解析,得到对应的深度学习作业标识;将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中。
在一些实施例中,中间训练数据包括时序数据;以及上述存储单元可以进一步被配置成按照如下方式将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中:将获取的时序数据存储至时序数据库中对应的作业标识的数据表中。
在一些实施例中,中间训练数据包括非时序数据;以及上述存储单元可以进一步被配置成按照如下方式将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中:解析接收到的非时序数据,得到非时序数据的数据标签;基于深度学习作业标识和数据标签生成对应的非时序数据的数据索引,将非时序数据添加至对象存储数据库中对应数据索引的数据结构中。
应当理解,装置500中记载的诸单元与参考图2和图4描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
本申请上述实施例的深度学习的训练数据处理装置500,通过获取单元获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习作业的目标作业标识,然后读取单元从数据库中读取目标作业标识对应的中间训练数据,之后生成单元根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表,实现了对深度学习训练过程的中间数据进行自动读取和可视化效果生成,无需解析日志文件,使用户可以快速、直观地了解训练过程和模型的训练效果,有助于用户更好地优化和调节深度学习模型。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、读取单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取针对深度学习的中间训练数据的可视化展示请求的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取针对深度学习的中间训练数据的可视化展示请求,可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;从数据库中读取目标作业标识对应的中间训练数据;根据所读取的中间训练数据,生成目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种深度学习的训练数据处理方法,包括:
响应于检测到数据可视化配置信息所指示的深度学习作业的中间训练数据,获取对应的深度学习作业的中间训练数据并解析,得到对应的深度学习作业标识,其中,所述中间训练数据包括非时序数据;解析接收到的非时序数据,得到所述非时序数据的数据标签;基于所述深度学习作业标识和数据标签生成对应的非时序数据的数据索引,将所述非时序数据添加至对象存储数据库中对应数据索引的数据结构中;
获取针对深度学习的中间训练数据的可视化展示请求,所述可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;
从数据库中读取所述目标作业标识对应的中间训练数据;
根据所读取的中间训练数据,生成所述目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
2.根据权利要求1所述的方法,其中,所述从数据库中读取所述目标作业标识对应的中间训练数据,包括:
从时序数据库中读取所述目标作业标识对应的时序数据;和/或
从对象存储数据库中读取所述目标作业标识对应的非时序数据。
3.根据权利要求1所述的方法,其中,所述中间训练数据包括时序数据;以及
将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中,包括:
将获取的时序数据存储至时序数据库中对应的作业标识的数据表中。
4.一种深度学习的训练数据处理装置,包括:
存储单元,被配置成响应于检测到数据可视化配置信息所指示的深度学习作业的中间训练数据,获取对应的深度学习作业的中间训练数据并解析,得到对应的深度学习作业标识,其中,所述中间训练数据包括非时序数据;解析接收到的非时序数据,得到所述非时序数据的数据标签;基于所述深度学习作业标识和数据标签生成对应的非时序数据的数据索引,将所述非时序数据添加至对象存储数据库中对应数据索引的数据结构中;
获取单元,被配置成获取针对深度学习的中间训练数据的可视化展示请求,所述可视化展示请求包括所请求展示的深度学习训练作业的目标作业标识;
读取单元,被配置成从数据库中读取所述目标作业标识对应的中间训练数据;
生成单元,被配置成根据所读取的中间训练数据,生成所述目标作业标识所指示的深度学习作业的中间训练数据的可视化图表。
5.根据权利要求4所述的装置,其中,所述读取单元进一步被配置成按照如下方式从数据库中读取所述目标作业标识对应的中间训练数据:
从时序数据库中读取所述目标作业标识对应的时序数据;和/或
从对象存储数据库中读取所述目标作业标识对应的非时序数据。
6.根据权利要求4所述的装置,其中,所述中间训练数据包括时序数据;以及
所述存储单元进一步被配置成按照如下方式将获取的深度学习作业的中间训练数据作为对应的深度学习作业标识的数据项存储至对应的数据库中:
将获取的时序数据存储至时序数据库中对应的作业标识的数据表中。
7.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN201811026711.0A 2018-09-04 2018-09-04 深度学习的训练数据处理方法和装置 Active CN109241141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811026711.0A CN109241141B (zh) 2018-09-04 2018-09-04 深度学习的训练数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811026711.0A CN109241141B (zh) 2018-09-04 2018-09-04 深度学习的训练数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN109241141A CN109241141A (zh) 2019-01-18
CN109241141B true CN109241141B (zh) 2022-04-29

Family

ID=65060288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811026711.0A Active CN109241141B (zh) 2018-09-04 2018-09-04 深度学习的训练数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN109241141B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209506B (zh) * 2019-05-09 2021-08-17 上海联影医疗科技股份有限公司 数据处理系统、方法、计算机设备及可读存储介质
CN112148276A (zh) * 2019-06-28 2020-12-29 微软技术许可有限责任公司 用于深度学习的可视化编程
CN110531975A (zh) * 2019-08-30 2019-12-03 陕西思科锐迪网络安全技术有限责任公司 一种图形化编程的深度学习模型训练方法
CN112578679B (zh) * 2019-09-30 2024-02-13 北京国双科技有限公司 控制系统及方法、存储介质及电子设备
CN111092935B (zh) * 2019-11-27 2022-07-12 中国联合网络通信集团有限公司 一种用于机器学习的数据共享方法和虚拟训练装置
CN111190805A (zh) * 2019-12-29 2020-05-22 广东浪潮大数据研究有限公司 深度学习训练平台的训练日志可视化系统、方法及设备
CN111177100B (zh) * 2020-01-02 2023-05-12 腾讯科技(深圳)有限公司 一种训练数据处理方法、装置及存储介质
CN111783949A (zh) * 2020-06-24 2020-10-16 北京百度网讯科技有限公司 基于迁移学习的深度神经网络的训练方法和装置
CN111814959A (zh) * 2020-06-30 2020-10-23 北京百度网讯科技有限公司 模型训练数据的处理方法、装置、系统和存储介质
CN111797294A (zh) * 2020-07-09 2020-10-20 上海商汤智能科技有限公司 可视化方法及相关设备
CN112035419A (zh) * 2020-08-12 2020-12-04 湖北世纪创新科技有限公司 一种新型数据中心可视化算法
CN112379886A (zh) * 2020-11-30 2021-02-19 北京一流科技有限公司 数据格式转换系统及其方法
CN112558966B (zh) * 2020-12-15 2022-09-23 北京百度网讯科技有限公司 深度模型可视化数据的处理方法、装置及电子设备
CN113419727A (zh) * 2021-06-22 2021-09-21 之江实验室 一种深度学习训练过程数据转化为可视化数据方法和系统
CN113704618B (zh) * 2021-08-31 2023-07-25 中国平安人寿保险股份有限公司 基于深度学习模型的数据处理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055426A1 (en) * 2014-08-25 2016-02-25 Sunstone Analytics Customizable machine learning models
CN107704925A (zh) * 2017-10-16 2018-02-16 清华大学 深度神经网络训练过程的可视分析系统及方法
CN108399458A (zh) * 2018-03-26 2018-08-14 成都睿码科技有限责任公司 一种基于saas构建的深度学习模型训练系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055426A1 (en) * 2014-08-25 2016-02-25 Sunstone Analytics Customizable machine learning models
CN107704925A (zh) * 2017-10-16 2018-02-16 清华大学 深度神经网络训练过程的可视分析系统及方法
CN108399458A (zh) * 2018-03-26 2018-08-14 成都睿码科技有限责任公司 一种基于saas构建的深度学习模型训练系统

Also Published As

Publication number Publication date
CN109241141A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241141B (zh) 深度学习的训练数据处理方法和装置
CN109460513B (zh) 用于生成点击率预测模型的方法和装置
CN109325213B (zh) 用于标注数据的方法和装置
CN109359194B (zh) 用于预测信息类别的方法和装置
CN113822440A (zh) 用于确定机器学习样本的特征重要性的方法及系统
US20170193541A1 (en) Agricultural products processing center adaptive analysis system and processing method thereof
CN111324786A (zh) 咨询问题信息的处理方法和装置
CN110737655B (zh) 用于上报数据的方法和装置
CN109409419B (zh) 用于处理数据的方法和装置
US11237951B1 (en) Generating test data for application performance
CN115686280A (zh) 深度学习模型管理系统、方法、计算机设备及存储介质
US20150169515A1 (en) Data driven synthesizer
US20180173776A1 (en) Mapping 1:Many Relationships for Elements in a Database System
CN111488386A (zh) 数据查询方法和装置
CN109144864B (zh) 用于测试窗口的方法及装置
US20130138690A1 (en) Automatically identifying reused model artifacts in business process models
CN104424525B (zh) 辅助确定项目范围的方法和装置
CN117716373A (zh) 基于期望的度量值提供机器学习模型
CN110413165B (zh) 图标配置方法、装置、电子设备和计算机可读介质
CN110084298B (zh) 用于检测图像相似度的方法及装置
CN113282631A (zh) 一种基于用户画像数据确定目标用户的方法与设备
CN109857838B (zh) 用于生成信息的方法和装置
CN113674798B (zh) 蛋白质组学数据的分析系统
US11823309B1 (en) Apparatus, system and method for data restructuring and visualization
JP7216883B2 (ja) 解析装置、解析方法、および解析プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant