CN115392485B

CN115392485B - 一种用于深度学习框架的数据处理方法及系统

Info

Publication number: CN115392485B
Application number: CN202211037656.1A
Authority: CN
Inventors: 马泽润; 李亦宁; 杨逸飞; 柳源; 刘奎坤; 张文蔚; 吕成器; 郑淼; 陈恺
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2024-06-11
Anticipated expiration: 2042-08-26
Also published as: CN115392485A

Abstract

本发明涉及计算机技术领域，提出一种用于深度学习框架的数据处理方法及系统，其中由多个数据变换模块执行数据变换操作，所述数据变换操作包括：读取输入数据中的数据字典；对所述数据字典中具有操作字段的数据进行数据变换；以及返回具有数据变换后的数据的数据字典。本发明为数据变换模块提供统一的接口使得数据变换模块通过统一的方式执行数据变换操作，使得任意两个数据变换模块之间均可以首尾相连，组成数据处理流程，而不必针对每一种数据类型组织单独的数据处理流程。

Description

一种用于深度学习框架的数据处理方法及系统

技术领域

本发明总的来说涉及计算机技术领域。具体而言，本发明涉及一种用于深度学习框架的数据处理方法及系统。

背景技术

深度学习框架在迭代神经网络时通常包括下列步骤：数据处理、神经网络前向计算、反向计算网络参数梯度以及更新网络参数，其中数据处理是将数据从存储设备读取到内存并处理成神经网络要求的输入格式、神经网络前向计算是将数据处理的输出作为输入并逐层计算网络的输出、反向计算网络参数梯度使用反向传播算法根据前向计算的输出计算参数的梯度、更新网络参数则用优化算法更新参数。

传统的数据处理方法，例如TorchVision工具集提供的数据变换模块在进行数据处理时，通过对模块类的调用接口进行重载，并且使用Compose模块将一系列数据变换模块组成数据变换流程。

然而在深度学习框架的数据处理阶段，根据任务类型、数据场景的不同，神经网络所需要接受的训练数据和测试数据各有不同，而传统的数据处理方法没有统一数据变换模块之间的接口。例如处理图像的模块只接收图像参数，因此在组织数据变换流程时，需要为每一种需要处理的数据类型单独提供一系列数据变换模块。并且为了保证数据变换流程中模块间的衔接，数据变换模块之间无法传递一些必要的信息，降低了数据变换模块的功能和灵活性。

因此需要提出一种统一的、可扩展的数据处理模块，处理包含各种类型数据的输入，并能够将输入组织为神经网络训练和测试所需要的数据。

发明内容

为至少部分解决现有技术中的上述问题，本发明提出一种用于深度学习框架的数据处理方法，其特征在于，由多个数据变换模块执行数据变换操作，所述数据变换操作包括：

读取输入数据中的数据字典；

对所述数据字典中具有操作字段的数据进行数据变换；以及

返回具有数据变换后的数据的数据字典。

在本发明一个实施例中规定，所述数据处理方法包括下列步骤：

将多个所述数据变换模块串联；

由所述数据变换模块通过所述数据变换操作执行下列各项数据处理动作的其中之一：更新数据、删除数据以及添加数据；以及

由所述数据变换模块将执行所述数据处理动作后的数据封装为神经网络输入格式。

在本发明一个实施例中规定，所述操作字段包括图像字段、分类标签字段以及检测框字段。

在本发明一个实施例中规定，所述数据变换模块执行随机行为操作，其中在所述数据变换模块中构造上下文管理器以及方法包装器以执行所述随机行为操作。

在本发明一个实施例中规定，执行所述随机行为操作包括：

通过所述上下文管理器执行下列动作：

在进入所述上下文管理器包裹的代码段时，在数据变换实例上将标识属性设置为真，其中所述标识属性表示启用固定随机行为；

以及

在离开所述上下文管理器包裹的代码段时，在所述数据变换实例上将所述标识属性设置为假；以及

由所述方法包装器执行下列操作：

检测所述数据变换实例的标示属性，其中当所述标示属性为假时，执行原操作并且清除缓存容器中的结果；以及

当所述标识属性为真时，检测所述数据变换实例的缓存容器，其中当没有缓存容器或者所述缓存容器中无结果时执行原操作，并且将返回值存储在缓存容器中，当所述缓存容器中存在结果时返回所述缓存容器中的结果。

在本发明一个实施例中规定，所述数据处理方法还包括构造数据变换模块包装器以增强所述数据变换模块的功能，其中包括：

构造字段映射包装器，其中所述数据变换模块通过所述字段映射包装器对数据字典中的字段进行映射；

构造多目标扩展包装器，其中所述数据变换模块通过所述多目标扩展包装器将数据变换操作应用至多个操作字段；

构造随机选择包装器，其中所述数据变换模块通过所述随机选择包装器随机选择多个数据处理动作的其中之一对数据进行处理；以及

构造随机执行包装器，其中所述数据变换模块通过所述随机执行包装器以可设置的概率执行或不执行数据变换操作。

本发明还提出一种用于深度学习框架的数据处理系统，其运行所述数据处理方法，其中所述数据处理系统包括：

多个数据变换模块，所述多个数据变换模块之间相互串联，并且所述数据变换模块被配置为执行下列动作：

通过数据变换操作执行下列各项数据处理动作的其中之一：更新数据、删除数据以及添加数据；以及

将执行所述数据处理动作后的数据封装为神经网络输入格式；

其中所述数据变换操作包括：

读取输入数据中的数据字典；

对所述数据字典中具有操作字段的数据进行数据变换；以及

返回具有数据变换后的数据的数据字典。

在本发明一个实施例中规定，所述数据变化模块包括：

上下文管理器以及方法包装器，所述上下文管理器以及方法包装器被配置为执行随机行为操作；

字段映射包装器，其被配置为对数据字典中的字段进行映射；

多目标扩展包装器，其被配置为将数据变换操作应用至多个操作字段；

构造随机选择包装器，其被配置为随机选择多个数据处理动作的其中之一对数据进行处理；以及

构造随机执行包装器，其被配置为以可设置的概率执行或不执行数据变换操作。

本发明还提出一种计算机系统，其包括：

处理器，其被配置为执行机器可执行指令；以及

存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据所述方法的步骤。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据所述方法的步骤。

本发明的技术方案所得出的数据变换模块可在深度学习的神经网络领域中用于实现如下技术效果：可以大幅减少各类数据处理人物例如视觉任务中冗余重复的数据变换代码，节省适配新任务所需要的时间，进而大大提节省了运算资源。其原理是通过为数据变换模块提供统一的接口使得数据变换模块通过统一的方式执行数据变换操作，使得任意两个数据变换模块之间均可以首尾相连，组成数据处理流程，而不必针对每一种数据类型组织单独的数据处理流程。并且由于数据变换模块的输出是一个字典容器类型，因而可以将数据处理过程中产生的额外信息保留下来，根据神经网络的需要直接取用，大大增强了数据处理模块的功能。此外由于数据处理模块的接口进行了统一并且输出是字典容器类型，因此可以提供一系列数据变换模块包装器，能够方便地对功能进行扩展，使用统一的流程处理复杂的情况，而不必额外编写处理代码。

附图说明

为进一步阐明本发明的各实施例中具有的及其它的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出了实现根据本发明的系统和/或方法的计算机系统。

图2示出了本发明一个实施例中一个用于深度学习框架的数据处理方法的流程示意图。

图3示出了本发明一个实施例中一个数据变换模块执行的数据变换操作的流程示意图。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

下面结合具体实施方式参考附图进一步阐述本发明。

图1示出了实现根据本发明的系统和/或方法的计算机系统100。如非特殊说明，根据本发明的方法和/或系统可以在图1所示的计算机系统100中执行以实现本发明目的，或者本发明可以在多个根据本发明的计算机系统100中通过网络、如局域网或因特网分布式地实现。本发明的计算机系统100可以包括各种类型的计算机系统、例如手持式设备、膝上型计算机、个人数字助理(PDA)、多处理器系统、基于微处理器或可编程消费者电子设备、网络PC、小型机、大型机、网络服务器、平板计算机等等。

如图1所示，计算机系统100包括处理器111、系统总线101、系统存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(USB)接口112。系统总线101可以是若干种总线结构类型的任一种，例如存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。系统总线101用于各个总线设备之间的通信。除了图1中所示的总线设备或接口以外，其它的总线设备或接口也是可设想的。系统存储器102包括只读存储器(ROM)103和随机存取存储器(RAM)104，其中ROM 103例如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出系统(BIOS)数据，而RAM 104用于为系统提供存取速度较快的运行内存。计算机系统100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如CD-ROM之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作系统和应用程序。驱动器及其相关联的计算机可读介质为计算机系统100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机系统100还可以包括用于图像处理和/或图像输出的视频适配器105，其用于连接显示器106等输出设备。计算机系统100还可以包括用于音频处理和/或音频输出的音频适配器107，其用于连接扬声器108等输出设备。此外，计算机系统100还可以包括用于网络连接的网络接口114，其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116，其中所述连接可以是有线或无线的。另外，此外，计算机系统100还可以包括用于连接外围设备的通用串行总线接口(USB)112，其中所述外围设备例如包括键盘117、鼠标118以及其它外围设备、例如麦克风、摄像头等。

当本发明在图1所述的计算机系统100上实现时，可以通过为数据变换模块提供统一的接口使得数据变换模块通过统一的方式执行数据变换操作，使得任意两个数据变换模块之间均可以首尾相连，组成数据处理流程，而不必针对每一种数据类型组织单独的数据处理流程，因此可以大幅减少各类数据处理人物例如视觉任务中冗余重复的数据变换代码，节省适配新任务所需要的时间，进而大大提节省了运算资源。

此外，可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但这不是必需的。

图2示出了本发明一个实施例中一个用于深度学习框架的数据处理方法的流程示意图。如图2所示，其中通过将若干数据变换模块串联，每个模块各自对其中流转的数据字典进行操作，或更新，或删除，或添加字段，从而完成完整的数据变换流程，最后将数据封装为神经网络输入所需要的格式。

图3示出了本发明一个实施例中一个数据变换模块执行的数据变换操作的流程示意图。如图3所示，其中包括下列步骤：

步骤301、读取输入数据中的数据字典；

步骤302、对所述数据字典中具有操作字段的数据进行数据变换；以及

步骤303、返回具有数据变换后的数据的数据字典。

在本发明的实施例中数据变换模块提供统一的数据处理接口(transform)，其处理输入的字典类型变量，并将处理的结果放入输入的字典类型变量，并返回。在数据变换模块中，可以直接用硬编码的形式设定操作字段，也可以通过参数的形式指定所操作的字段。字段的取用应与惯常实现保持一致，例如图像字段为″img″，分类标签字段为″gt_label″，检测框字段为″gt_bboxes″等。

数据变换模块还可以提供随机行为接口。部分类型的数据变换模块涉及随机行为，即每次调用时，其行为产生随机的变化。为了支持随机数据变换模块在多次调用中保持相同行为，数据变换模块中，涉及随机数生成的部分，应单独作为一个或多个方法。如果需要保持随机行为，则在调用这些方法前，检查是否已经存在缓存的结果，如果存在则直接返回；不存在则生成随机数，并将其保存至缓存。

可以通过上下文管理器(cache_random_params)和方法包装器(cache_randomness)来实现上述随机行为功能。

上下文管理器在进入其包裹的代码段时，将指定的所有包含随机方法的数据变换实例设置“启用固定随机行为”标示属性为真，该标示属性用来指示随机方法是否需要保持在多次调用中的随机行为；离开其包裹的代码段时，会将指定的所有包含随机方法的数据变换实例设置标示属性“启用固定随机行为”为假。上下文管理器的接口参数列表包括数据变换列表(容器类型，包含类型为数据变换实例)。上下文管理器的接口异常处理如下：没有错误：操作成功；运行时错误：传入的数据变换模块包含不允许缓存的方法；运行时错误：随机方法在一次“数据处理”调用中被调用了多次。

方法包装器在调用该包装器包装的方法时，首先检查该实例的随机行为标示属性“启用固定随机行为”——如果为假，则不进行任何操作，仍执行原方法的行为，并清除缓存容器中的结果；如果为真，则检查实例的缓存容器，如没有缓存容器或缓存容器中无结果，则执行原方法的行为，并将返回值存储在缓存容器中，如果缓存容器中有结果，则直接返回缓存容器中的结果。方法包装器的接口参数列表包括方法(方法类型)，接口异常处理包括：没有错误：操作成功；类型错误：输入的变量不是一个类的方法。

数据变换模块还可以包括数据变换模块包装器，数据变换模块包装器本身并不直接操作数据字典中的图像、标签等信息，而是在内部定义若干具体的数据变换模块，并对这些模块的功能进行增强。

数据变换模块包装器可以包括字段映射包装器(KeyMapper)、多目标扩展包装器(TransformBroadcaster)、随机选择包装器(RandomChoice)、随机执行包装器(RandomApply)。

字段映射包装器用于对数据字典中的字段进行映射，从而使被包装的数据变换模块可以操作任意指定的数据字段。例如，某数据变换模对数据字典中的″img″字段图像数据进行操作。通过使用字段映射包装器，对该数据变换模块进行包装，可以指定任意字段作为操作的对象，如″gt_img″。字段映射包装器的接口参数列表可以包括：transforms(单个或多个数据变换模块)：被包装的数据变换模块；mapping(字典类型)：输入数据的字段映射定义；remapping(字典类型)：输出数据的字段映射定义；auto_remap(布尔类型)：是否根据输入数据字段映射(mapping参数)自动生成输出数据字段映射(remapping参数)；allow_nonexist_keys(布尔类型)：是否允许字段映射定义中涉及的字段在数据数据字典中缺失。字段映射包装器的接口异常处理包括：没有错误：操作成功；值错误：指定auto_remap参数为True时，remapping参数应该为None(缺省值)。

多目标扩展包装器用于将被包装的数据变换应用在多个目标数据字段上。例如，某个数据变换对数据字典中的单个字段(如″img″)进行操作。通过使用多目标扩展包装器对该数据变换进行包装，可以使其对多个指定字段(如″Iq"和″hq″)进行相同的操作。多目标扩展包装器的接口参数列表包括：transforms(单个或多个数据变换模块)：被包装的数据变换模块；mapping(字典类型)：输入数据的字段映射定义；remapping(字典类型)：输出数据的字段映射定义；auto_remap(布尔类型)：是否根据输入数据字段映射(mapping参数)自动生成输出数据字段映射(remapping参数)；allow_nonexist_keys(布尔类型)：是否允许字段映射定义中涉及的字段在数据数据字典中缺失；share_random_params(布尔类型)：将随机数据变换应用在多个字段时，是否共用随机参数。多目标扩展包装器的接口异常处理包括：没有错误：操作成功；值错误：指定auto_remap参数为True时，remapping参数应该为None(缺省值)；值错误：被包装的数据变换涉及多个数据字段的情况下，扩展时各字段分配的目标数应当一致，否则会引发该错误。

随机选择包装器用于从一组数据变换中，每次选出一个数据变换，对数据进行处理。随机选择包装器的接口参数列表包括：transforms(多个数据变换模块)：被包裹的多个数据变换模块；prob(浮点型列表)：随机选择数据变换的概率分布。随机选择包装器的接口异常处理包括：没有错误：操作成功；断言错误：被包装的数据变换个数与给定概率分布长度不匹配。

随机执行包装器用于每次以给定概率执行或不执行被包裹的数据变换，其包装指定的多个数据变换，每次处理一个数据字典时，会按照指定概率随机选择一个数据变换执行。随机执行包装器的接口参数列表包括：transforms(数据变换模块)：被包装的数据变换模块；prob(浮点型)：随机执行数据变换的概率。随机执行包装器的接口异常处理包括：没有错误：操作成功。

本发明通过数据变换接口设计将数据加载、数据预处理和数据增强等一系列操作实现为统一的形式。数据变换模块能够处理高度可扩展的数据输入。数据变换模块支持对字典中固定字段的数据进行数据变换，并返回包含变换后数据的字典；支持保持随机状态，使随机的数据变换在多次应用中保持相同行为；并且支持通过数据变换模块包装器对功能进行拓展，包括但不限于：输入输出字段映射、同时应用数据变换于多个字段、随机选取数据变换进行应用。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种用于深度学习框架的数据处理方法，其特征在于，由多个数据变换模块执行数据变换操作，所述数据变换操作包括：

读取输入数据中的数据字典；

对所述数据字典中具有操作字段的数据进行数据变换；以及

返回具有数据变换后的数据的数据字典；

其中将多个所述数据变换模块串联；

由所述数据变换模块将执行所述数据处理动作后的数据封装为神经网络输入格式；

所述操作字段包括图像字段、分类标签字段以及检测框字段；

所述数据变换模块执行随机行为操作，其中在所述数据变换模块中构造上下文管理器以及方法包装器以执行所述随机行为操作；

执行所述随机行为操作包括：

通过所述上下文管理器执行下列动作：

在进入所述上下文管理器包裹的代码段时，在数据变换实例上将标识属性设置为真，其中所述标识属性表示启用固定随机行为；以及

由所述方法包装器执行下列操作：

当所述标识属性为真时，检测所述数据变换实例的缓存容器，其中当没有缓存容器或者所述缓存容器中无结果时执行原操作，并且将返回值存储在缓存容器中，当所述缓存容器中存在结果时返回所述缓存容器中的结果；

该方法还包括构造数据变换模块包装器以增强所述数据变换模块的功能，其中包括：

2.一种用于深度学习框架的数据处理系统，其特征在于，运行权利要求1所述的数据处理方法，其中所述数据处理系统包括：

其中所述数据变换操作包括：

读取输入数据中的数据字典；

对所述数据字典中具有操作字段的数据进行数据变换；以及

返回具有数据变换后的数据的数据字典。

3.根据权利要求2所述的数据处理系统，其特征在于，所述数据变换模块包括：

4.一种计算机系统，其特征在于，包括：

处理器，其被配置为执行机器可执行指令；以及

存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据权利要求1所述的方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据权利要求1所述的方法的步骤。