CN115905850A - 一种数据处理方法及相关设备 - Google Patents

一种数据处理方法及相关设备 Download PDF

Info

Publication number
CN115905850A
CN115905850A CN202111166701.9A CN202111166701A CN115905850A CN 115905850 A CN115905850 A CN 115905850A CN 202111166701 A CN202111166701 A CN 202111166701A CN 115905850 A CN115905850 A CN 115905850A
Authority
CN
China
Prior art keywords
data set
compression
characteristic
compressed data
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111166701.9A
Other languages
English (en)
Inventor
杨扩
洪蓝青
李震国
王立元
朱军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Huawei Technologies Co Ltd
Original Assignee
Tsinghua University
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Huawei Technologies Co Ltd filed Critical Tsinghua University
Priority to CN202111166701.9A priority Critical patent/CN115905850A/zh
Publication of CN115905850A publication Critical patent/CN115905850A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种数据处理方法,该方法可以应用于持续学习场景。具体的,可以用于实现分类任务或识别任务等。该方法包括:获取第一神经网络,第一神经网络是经过第一数据集训练得到的;基于第一压缩方式压缩第一数据集得到第一压缩数据集;存储第一压缩数据集;获取第二数据集,第二数据集的采集时刻晚于第一数据集的采集时刻;基于第一压缩数据集与第二数据集训练第一神经网络。在持续学习的增量信息带来的存储空间需求暴涨的情况下。存储压缩后的历史数据集,可以减少单个历史数据样本占用的存储空间,增加存储历史数据量。且基于压缩后的历史数据集与新增数据集训练,可以减少第一神经网络出现灾难性遗忘。

Description

一种数据处理方法及相关设备
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种数据处理方法及相关设备。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
目前,增量学习的能力就是能够不断地处理现实世界中连续的信息流,在吸收新知识的同时保留甚至整合、优化旧知识的能力。具体来讲,持续学习是指在连续的数据流中训练模型,即随着时间的推移,会出现更多的新数据,同时旧数据可能由于存储限制等原因而逐渐不可用,导致模型在持续学习中出现灾难性遗忘问题。现有解决该问题常用的技术方案是通过保存数据输入模型的中间特征,从而可以留下数据的更多信息。
然而,若特征提取器是持续更新的,因此如果特征提取器出现遗忘,也会反映在保存的特征上。若特征提取器是固定的,但也意味着特征提取器无法变得更好,保留的信息也会因此受特征提取器表征能力的限制。
发明内容
本申请实施例提供了一种数据处理方法及相关设备。在持续学习场景下,通过压缩的方式可以存储更多的历史数据,从而保证模型在后续学习过程中的数据量。
本申请实施例第一方面提供了一种网络训练数据处理方法,该方法可以由数据处理设备(例如终端设备或服务器)执行,也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法可以应用于持续学习场景。具体的,可以用于实现分类任务或识别任务等,例如:自动驾驶领域,例如:图像识别、行人再识别(Re-ID)、街景识别、视频理解等任务中。还可以应用于自然语言处理领域,例如:情感分析、语义分割、网页分类等任务中。该方法包括:获取第一神经网络,第一神经网络是经过第一数据集训练得到的;基于第一压缩方式压缩第一数据集得到第一压缩数据集,第一压缩方式为无损压缩或有损压缩;存储第一压缩数据集;获取第二数据集,第二数据集的采集时刻晚于第一数据集的采集时刻;基于第一压缩数据集与第二数据集训练第一神经网络。
本申请实施例中,在持续学习的类别增量、任务增量、样本增量、领域增量等带来的存储空间需求暴涨的情况下。通过第一压缩方式对第一数据集进行压缩,进而存储压缩后的第一压缩数据集。再获取第二数据集(即新增数据集),并基于第一压缩数据集与第二数据集训练第一神经网络。一方面,通过存储压缩后的历史数据集,可以减少单个历史数据样本占用的存储空间,增加存储历史数据量(例如,增加图片张数)。另一方面,通过训练压缩后的历史数据集(即第一压缩数据集)与新增数据集,可以减少第一神经网络出现灾难性遗忘。
可选地,在第一方面的一种可能的实现方式中,上述步骤:存储第一数据集之后,方法还包括:若第一压缩数据集所占用的存储空间大于或等于数据处理设备所支持的存储空间,则对第一压缩数据集进行采样得到多个第一压缩数据,多个第一压缩数据所占用的存储空间小于第一压缩数据集所占用的存储空间;存储第一压缩数据集,包括:存储多个第一压缩数据;基于第一压缩数据集与第二数据集训练第一神经网络,包括:基于多个第一压缩数据与第二数据集训练第一神经网络。
该种可能的实现方式中,对于有存储空间限制的情况,对压缩后的第一压缩数据集进行采样获取多个第一压缩数据,进而存储采样后的多个第一压缩数据。一方面,可以满足存储空间限制的要求。另一方面可以保证多个第一压缩数据与第一数据集的分布接近。
可选地,在第一方面的一种可能的实现方式中,上述的第一压缩方式为无损压缩,存储第一压缩数据集之前,方法还包括:确定第一压缩方式的压缩率大于或等于第一阈值。本步骤也可以理解为是,确定第一压缩数据集所占的存储空间小于阈值。
该种可能的实现方式中,在无损压缩的情况下,由于不用考虑第一数据集压缩后的失真情况,因此可以存储压缩率大于或等于第一阈值的压缩方式所压缩得到的第一压缩数据集,并保存压缩后的第一压缩数据集。使得第一压缩数据集中的每个数据所占用的存储空间更小,进而使得数据处理设备存储第一压缩数据集所耗费的存储空间更小,进而保证在持续学习场景下,数据处理设备可以有更多存储空间存储后续新增的数据(即第二数据集)。
可选地,在第一方面的一种可能的实现方式中,上述步骤:存储第一压缩数据集之前,方法还包括:基于第二压缩方式压缩第一数据集得到第二压缩数据集,第一压缩方式与第二压缩方式为无损压缩,第一压缩方式与第二压缩方式的类型不同或压缩率不同;确定第一压缩方式的压缩率大于或等于第二压缩方式的压缩率。也可以理解为是,确定第一压缩数据集所占用的存储空间小于或等于第二压缩数据集所占用的存储空间。
该种可能的实现方式中,在无损压缩的情况下,由于不用考虑第一数据集压缩后的失真情况,因此可以存储由压缩率较大的压缩方式压缩得到的第一压缩数据集,并保存压缩后的第一压缩数据集,使得数据处理设备存储第一压缩数据集所耗费的存储空间更小,进而保证在持续学习场景下,数据处理设备可以有更多存储空间存储后续新增的数据(即第二数据集)。
可选地,在第一方面的一种可能的实现方式中,上述的第一压缩方式为有损压缩,存储第一压缩数据集之前,方法还包括:获取第一数据集的第一特征流形体积;获取第一压缩数据集的第二特征流形体积;确定第一比值与1的差值小于或等于第二阈值,第一比值为第二特征流形体积与第一特征流形体积的比值。其中,特征流形体积可以理解为是特征矩阵的转置矩阵与特征矩阵内积的行列式开根号。即第一特征流形体积可以理解为是由第一特征矩阵的转置矩阵与第一特征矩阵的行列式开根号得到,第二特征流形体积可以理解为是由第二特征矩阵的转置矩阵与第二特征矩阵的行列式开根号得到。
该种可能的实现方式中,在有损压缩的场景,由于压缩率过高可能会导致数据失真程度严重,通过引入压缩前后数据的特征流形体积与第二阈值作为约束,使得压缩前后的数据集对应的特征流形体积相近,进而减少有损压缩使得压缩后数据的失真程度。或者理解为是通过特征流形体积相近可以保证回访数据与原始数据的分布足够接近。
可选地,在第一方面的一种可能的实现方式中,上述步骤:存储第一压缩数据集之前,方法还包括:基于第三压缩方式压缩第一数据集得到第三压缩数据集,第一压缩方式与第三压缩方式为有损压缩,第一压缩方式与第三压缩方式的类型不同或压缩质量不同;获取第一数据集的第一特征流形体积;获取第一压缩数据集的第二特征流形体积;获取第三压缩数据集的第三特征流形体积,其中,第三特征流形体积的计算方式与第一特征流形体积的计算方式类似,此处不再赘述;获取第一比值与第二比值,第一比值为第二特征流形体积与第一特征流形体积的比值,第二比值为第三特征流形体积与第一特征流形体积的比值,第一比值与1的差值小于或等于第二阈值,第二比值与1的差值小于或等于第二阈值;确定第一比值相较于第二比值更接近于1。
该种可能的实现方式中,在有多个有损压缩方式的场景,通过比较各压缩方式下,压缩前后特征流形体积的比值选择最终存储的压缩数据集,或者理解为是基于特征流形体积从多个有损压缩方式中选取较优的压缩方式,进而减少有损压缩使得压缩后数据的失真程度。或者理解为是通过特征流形体积相近可以保证回访数据与原始数据的分布足够接近。
可选地,在第一方面的一种可能的实现方式中,上述步骤:获取第一数据集的第一特征流形体积,包括:将第一数据集输入第一神经网络的编码器得到第一特征矩阵;基于第一特征矩阵获取第一特征流形体积;获取第一压缩数据集的第二特征流形体积,包括:将第一压缩数据集输入编码器得到第二特征矩阵;基于第二特征矩阵获取第二特征流形体积。
该种可能的实现方式中,通过获取数据集的特征矩阵以及计算特征矩阵的特征流形体积,可以量化压缩前后的数据分布的差异,进而选取差异较小的压缩方式压缩后的第一压缩数据集进行存储。
本申请实施例第二方面提供了一种数据处理设备,该数据处理设备可以是终端设备或服务器。该数据处理设备包括:获取单元,用于获取第一神经网络,第一神经网络是经过第一数据集训练得到的;压缩单元,用于基于第一压缩方式压缩第一数据集得到第一压缩数据集,第一压缩方式为无损压缩或有损压缩;存储单元,用于存储第一压缩数据集;获取单元,还用于获取第二数据集,第二数据集的采集时刻晚于第一数据集的采集时刻;训练单元,用于基于第一压缩数据集与第二数据集训练第一神经网络。
可选地,在第一方面的一种可能的实现方式中,上述的数据处理设备还包括:采样单元,用于若第一压缩数据集所占用的存储空间大于或等于数据处理设备所支持的存储空间,则对第一压缩数据集进行采样得到多个第一压缩数据,多个第一压缩数据所占用的存储空间小于第一压缩数据集所占用的存储空间;存储单元,具体用于存储多个第一压缩数据;训练单元,具体用于基于多个第一压缩数据与第二数据集训练第一神经网络。
可选地,在第一方面的一种可能的实现方式中,上述的第一压缩方式为无损压缩,数据处理设备还包括:第一确定单元,用于确定第一压缩方式的压缩率大于或等于第一阈值。
可选地,在第一方面的一种可能的实现方式中,上述的压缩单元,还用于基于第二压缩方式压缩第一数据集得到第二压缩数据集,第一压缩方式与第二压缩方式为无损压缩,第一压缩方式与第二压缩方式的类型不同或压缩率不同;数据处理设备还包括:第二确定单元,用于确定第一压缩方式的压缩率大于或等于第二压缩方式的压缩率。
可选地,在第一方面的一种可能的实现方式中,上述的第一压缩方式为有损压缩,获取单元,还用于获取第一数据集的第一特征流形体积;获取单元,还用于获取第一压缩数据集的第二特征流形体积;数据处理设备还包括:第三确定单元,用于确定第一比值与1的差值小于或等于第二阈值,第一比值为第二特征流形体积与第一特征流形体积的比值。
可选地,在第一方面的一种可能的实现方式中,上述的压缩单元,还用于基于第三压缩方式压缩第一数据集得到第三压缩数据集,第三压缩方式为有损压缩,第一压缩方式与第三压缩方式的类型不同或压缩质量不同;获取单元,还用于获取第一数据集的第一特征流形体积;获取单元,还用于获取第一压缩数据集的第二特征流形体积;获取单元,还用于获取第三压缩数据集的第三特征流形体积;获取单元,还用于获取第一比值与第二比值,第一比值为第二特征流形体积与第一特征流形体积的比值,第二比值为第三特征流形体积与第一特征流形体积的比值,第一比值与1的差值小于或等于第二阈值,第二比值与1的差值小于或等于第二阈值;数据处理设备还包括:第四确定单元,用于确定第一比值相较于第二比值更接近于1。
可选地,在第一方面的一种可能的实现方式中,上述的获取单元,具体用于将第一数据集输入第一神经网络的编码器得到第一特征矩阵;获取单元,具体用于基于第一特征矩阵获取第一特征流形体积;获取单元,具体用于将第一压缩数据集输入编码器得到第二特征矩阵;获取单元,具体用于基于第二特征矩阵获取第二特征流形体积。
本申请第三方面提供了一种数据处理设备,该数据处理设备执行前述第一方面或第一方面的任意可能的实现方式中的方法。
本申请第四方面提供了一种数据处理设备,包括:处理器,处理器与存储器耦合,存储器用于存储程序或指令,当程序或指令被处理器执行时,使得该数据处理设备实现上述第一方面或第一方面的任意可能的实现方式中的方法。
本申请第五方面提供了一种计算机可读介质,其上存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。
本申请第六方面提供了一种计算机程序产品,该计算机程序产品在计算机上执行时,使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。
其中,第二、第三、第四、第五、第六方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果,此处不再赘述。
从以上技术方案可以看出,本申请实施例具有以下优点:在持续学习的类别增量、任务增量、样本增量、领域增量等带来的存储空间需求暴涨的情况下。通过第一压缩方式对第一数据集进行压缩,进而存储压缩后的第一压缩数据集。再获取第二数据集(即新增数据集),并基于第一压缩数据集与第二数据集训练第一神经网络。一方面,通过存储压缩后的历史数据集,可以减少单个历史数据样本占用的存储空间,增加存储历史数据量(例如,增加图片张数)。另一方面,通过训练压缩后的历史数据集(即第一压缩数据集)与新增数据集,可以减少第一神经网络出现灾难性遗忘。
附图说明
图1为本发明实施例提供的系统架构的结构示意图;
图2为本申请实施例提供的一种芯片硬件结构示意图;
图3为本申请实施例提供的一种数据处理方法的一个流程示意图;
图4为本申请实施例提供的一种数据处理方法的另一个流程示意图;
图5为本申请实施例提供的一种数据处理方法的另一个流程示意图;
图6为本申请实施例提供的一种数据处理方法的另一个流程示意图;
图7为本申请实施例提供的数据处理方法与未压缩数据进行回放的对比图;
图8至图10为本申请实施例提供的数据处理设备的几个结构示意图。
具体实施方式
本申请实施例提供了一种数据处理方法及相关设备。在持续学习场景下,通过压缩的方式可以存储更多的历史数据,从而保证模型在后续学习过程中的数据量。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
为了便于理解,下面先对本申请实施例主要涉及的相关术语和概念进行介绍。
1、神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以Xs和截距1为输入的运算单元,该运算单元的输出可以为:
Figure BDA0003291602750000051
其中,s=1、2、……n,n为大于1的自然数,Ws为Xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
2、深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。当然,深度神经网络也可能不包括隐藏层,具体此处不做限定。
深度神经网络中的每一层的工作可以用数学表达式
Figure BDA0003291602750000061
来描述:从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维;2、放大/缩小;3、旋转;4、平移;5、“弯曲”。其中1、2、3的操作由
Figure BDA0003291602750000062
完成,4的操作由
Figure BDA0003291602750000063
完成,5的操作则由α()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合。其中,W是权重向量,该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换,即每一层的权重W控制着如何变换空间。训练深度神经网络的目的,也就是最终获取训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。
3、卷积神经网络
卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使同一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习获取的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习获取合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。本申请实施例中的分离网络、识别网络、检测网络、深度估计网络等网络都可以是CNN。
4、循环神经网络(RNN)
在传统的神经网络中模型中,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题是无法解决的。比如,预测句子的下一个单词是什么,因为一个句子中前后单词并不是独立的,一般需要用到前面的单词。循环神经网络(RNN)指的是一个序列当前的输出与之前的输出也有关。具体的表现形式为网络会对前面的信息进行记忆,保存在网络的内部状态中,并应用于当前输出的计算中。
5、损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(lossfunction)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
6、持续学习(continual learning,CL)
持续学习,又称增量学习(incremental learning)、终身学习(lifelonglearning),是一种机器学习的方法。其特征为学习系统不断从新样本中学习新知识(旧样本被丢弃),并能保存大部分以前已经学习到的知识。目前持续学习技术常见的实验设置有:
1)类别增量:学习系统每个阶段获得新的类别的训练样本,每个阶段学习结束,得到一个可以预测所有历史类别的模型。
2)任务增量:学习系统每次获得新任务的训练样本,每个任务学习结束,得到一个模型,将任务id和任务数据输入该模型,可以得到相应的预测结果。
3)样本增量:学习系统每个阶段获得相同类别的训练样本,但是每个阶段获得的样本均来自相同分布,每个阶段学习结束,得到一个模型,将不同领域的数据输入该模型,可以输出相应的预测类别。
4)领域增量:学习系统每个阶段获得相同类别的训练样本,但是每个阶段获得的样本来自不同领域(e.g.不同风格),每个阶段学习结束,得到一个模型,将不同领域的数据输入该模型,可以输出相应的预测类别。
7、无损压缩
无损压缩:对数据进行压缩的技术,压缩后的数据长度小于原始数据长度。压缩后的数据通过解压,恢复的数据必须与原始数据完全相同。无损压缩的核心是寻找数据内部的统计规律并用长度较短的编码表示待压文件中概率较高的变量取值。比如英文文档中字母e出现频率远高于z,如果对e用更短的编码进行表示,就可以使文档的编码长度更短。因为这种表示是可逆的,所以可以从编码中恢复出被压文件,从而实现无损压缩。
8、有损压缩
有损压缩:有损压缩是利用了人类对图像或声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全恢复原始数据,但是所损失的部分对理解原始图像的影响缩小,却换来了大得多的压缩率。
9、压缩质量
对于有损压缩来说,选择了一种压缩算法后还可以调整压缩质量,这个参数常用百分比来表示,100%表示最佳效果压缩。同一种压缩算法下,压缩质量越低,文件容量越小,丢失信息也越多。
10、压缩率
压缩率,也可以称为压缩比,是指原始数据的大小和压缩后数据的大小的比值。如果没有压缩,值为1。该值越大越好。
11、特征流形体积
特征:一般是可以描述输入数据的多维向量。
流形:正方形的流形是二维流形,正方体的流形是三维流形,多维体统称为流形。
特征流形体积一般是指特征矩阵内积(即特征矩阵的转置矩阵与特征矩阵的内积)的行列式开根号。
目前,增量学习的能力就是能够不断地处理现实世界中连续的信息流,在吸收新知识的同时保留甚至整合、优化旧知识的能力。具体来讲,持续学习是指在连续的数据流中训练模型,即随着时间的推移,会出现更多的新数据,同时旧数据可能由于存储限制等原因而逐渐不可用,导致模型在持续学习中出现灾难性遗忘问题。现有解决该问题常用的技术方案是通过保存数据输入模型的中间特征,从而可以留下数据的更多信息。然而,若特征提取器是持续更新的,因此如果特征提取器出现遗忘,也会反映在保存的特征上。若特征提取器是固定的,但也意味着特征提取器无法变得更好,保留的信息也会因此受特征提取器表征能力的限制。
为解决上述问题,本申请提供一种数据处理方法。在持续学习的类别增量、任务增量、样本增量、领域增量等带来的存储空间需求暴涨的情况下。通过第一压缩方式对第一数据集进行压缩,进而存储压缩后的第一压缩数据集。再获取第二数据集(即新增数据集),并基于第一压缩数据集与第二数据集训练第一神经网络。一方面,通过存储压缩后的历史数据集,可以减少单个历史数据样本占用的存储空间,增加存储历史数据量(例如,增加图片张数)。另一方面,通过训练压缩后的历史数据集(即第一压缩数据集)与新增数据集,可以减少第一神经网络出现灾难性遗忘。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
首先介绍本申请实施例提供的系统架构。
参见附图1,本发明实施例提供了一种系统架构100。如所述系统架构100所示,数据采集设备160用于采集第一数据集,本申请实施例中第一数据集包括:多个图像数据、文本数据或音频数据。并将第一数据集存入数据库130,训练设备120基于数据库130中维护的第一数据集训练获取目标模型/规则101。本申请实施例中的目标模型/规则101具体可以是第一神经网络。需要说明的是,在实际的应用中,所述数据库130中维护的第一数据集不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收获取的。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的第一数据集进行目标模型/规则101的训练,也有可能从云端或其他地方获取第一数据集进行模型训练,上述描述不应该作为对本申请实施例的限定。
另外,对于持续学习场景,采集设备160还用于采集第二数据集,该第二数据集的采集时刻晚于第一数据集的采集时刻。对于持续学习场景,数据库130的存储空间并不能保证可以存储所有数据集(历史数据集与新增书记)。尤其对于多次的类别增量、任务增量、样本增量、领域增量等带来的存储空间需求暴涨。因此,采集设备160还可以用于将第一数据集进行压缩得到第一压缩数据集,并将第一压缩数据集存入数据库130,训练设备120基于数据库130中维护的第一压缩数据集与新数据集(即第二数据集)再次更新目标模型/规则101。当然,上述压缩第一数据集的步骤也可以由其他设备执行,由其他设备将压缩后的第一压缩数据集存入数据库130中,具体此处不做限定。
根据训练设备120训练获取的目标模型/规则101(第一神经网络)可以应用于不同的系统或设备中,如应用于图1所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR),车载终端等,还可以是服务器或者云端等。在附图1中,执行设备110配置有I/O接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:图像数据、文本数据或音频数据,可以是用户输入的,也可以是用户通过音频设备、相机等设备上传的,当然还可以来自数据库,具体此处不做限定。
预处理模块113用于根据I/O接口112接收到的图像数据、文本数据或音频数据进行预处理,例如:音频数据的短时傅里叶变换处理、文本数据的音素处理或图像数据的尺寸处理等。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理获取的数据、指令等存入数据存储系统150中。
最后,I/O接口112将处理结果,如上述获取的分类结果或识别结果返回给客户设备140,从而提供给用户。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则101,该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在附图1中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获取用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,附图1仅是本发明实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在附图1中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。
如图1所示,根据训练设备120训练获取目标模型/规则101,该目标模型/规则101在本申请实施例中可以是第三神经网络,具体的,在本申请实施例提供的第三神经网络可以是卷积神经网络或者循环神经网络。
下面介绍本申请实施例提供的一种芯片硬件结构。
图2为本发明实施例提供的一种芯片硬件结构,该芯片包括神经网络处理器20。该芯片可以被设置在如图1所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中,用以完成训练设备120的训练工作并输出目标模型/规则101。如卷积神经网络中各层的算法均可在如图2所示的芯片中得以实现。
神经网络处理器20可以是神经网络处理器(neural-network processing unit,NPU),张量处理器(tensor processing unit,TPU),或者图形处理器(graphicsprocessing unit,GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例:神经网络处理器20作为协处理器挂载到主中央处理器(central processing unit,CPU)(hostCPU)上,由主CPU分配任务。NPU的核心部分为运算电路203,控制器204控制运算电路403提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路203内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路203是二维脉动阵列。运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路203是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器202中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器201中取矩阵A数据与矩阵B进行矩阵运算,获取的矩阵的部分结果或最终结果,保存在累加器208中。
向量计算单元207可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元207可以用于神经网络中非卷积/非FC层的网络计算,如池化(Pooling),批归一化(Batch Normalization),局部响应归一化(Local Response Normalization)等。
在一些实现种,向量计算单元能207将经处理的输出的向量存储到统一缓存器206。例如,向量计算单元207可以将非线性函数应用到运算电路203的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元207生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路203的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器206用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器205(direct memory accesscontroller,DMAC)将外部存储器中的输入数据搬运到输入存储器201和/或统一存储器206、将外部存储器中的权重数据存入权重存储器202,以及将统一存储器206中的数据存入外部存储器。
总线接口单元(bus interface unit,BIU)210,用于通过总线实现主CPU、DMAC和取指存储器209之间进行交互。
与控制器204连接的取指存储器(instruction fetch buffer)209,用于存储控制器204使用的指令。
控制器204,用于调用指存储器209中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器206,输入存储器201,权重存储器202以及取指存储器209均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory,DDR SDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
下面结合附图对本申请实施例的数据处理方法进行详细的介绍。本申请实施例提供的数据处理方法可以应用于持续学习场景中的数据回放场景。
首先,结合图3对本申请实施例的数据处理方法进行详细介绍。图3所示的方法可以由数据处理设备执行,也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该数据处理设备可以是云端设备,也可以是终端设备,例如:数据处理设备可以是手机、服务器等运算能力足以用来执行第二神经网络的训练方法的装置。可以理解的是,该方法也可以是由云端设备和终端设备构成的系统执行。示例性地,数据处理方法可以由图1中的训练设备120、图2中的神经网络处理器20执行。
可选地,数据处理方法可以由CPU处理,也可以由CPU和GPU共同处理,也可以不用GPU,而使用其他适合用于神经网络计算的处理器,本申请不做限制。
该方法的应用场景为持续学习场景(具体描述可参考前述名词解释的描述,此处不再赘述),具体的,可以用于实现分类任务或识别任务等,例如:自动驾驶领域,例如:图像识别、行人再识别(Re-ID)、街景识别、视频理解等任务中。还可以应用于自然语言处理领域,例如:情感分析、语义分割、网页分类等任务中。
本申请实施例提供的数据处理方法可以包括步骤301至步骤305。下面对步骤301至步骤305进行详细说明。
步骤301,获取第一神经网络。
本申请实施例中数据处理设备获取第一神经网络的方式有多种,可以是通过数据处理设备采集的第一数据集训练得到的方式,也可以是通过接收其他设备发送的第一神经网络的方式等,具体此处不做限定。其中,该第一神经网络是经过第一数据集训练得到的。
可选地,以第一数据集中的数据作为神经网络的输入,以第一损失函数的值小于第一预设阈值为目标进行训练得到第一神经网络。第一损失函数用于表示神经网络的输出与数据对应的真实值(或标签值)之间的差异。进而使得训练得到的第一神经网络可以输出与真实值更加接近的输出。其中,第一损失函数可以是平方损失、绝对值损失或交叉熵损失等,具体此处不做限定。
本申请实施例中数据处理设备获取第一数据集的方式有多种,可以是通过数据处理设备采集第一数据集的方式获取,也可以是通过接收其他设备发送第一数据集的方式获取,还可以是从数据库中选取第一数据集的方式等,具体此处不做限定。
本申请实施例中数据集(例如第一数据集、第二数据集等)中的数据可以有多种类型或形式,具体与第一神经网络所应用的场景相关。例如:当第一神经网络的作用是音频识别,则数据的具体形式可以是音频数据等。又例如:当第一神经网络的作用是图像分类,则数据的具体形式可以是图像数据等。再例如:当第一神经网络的作用是预测语音,则数据的具体形式可以是文本数据等。可以理解的是,上述几种情况只是举例,并且并不一定是一一对应的关系,例如对于音频识别,数据的具体形式还可以是图像数据或文本数据等(例如:若应用于教育领域中的看图播放语音场景,则模型的作用是识别图像对应的语音,则数据的具体形式可以是图像数据),在实际应用中,还有其他的场景,例如:当模型的作用的电影推荐场景,则数据可以是电影对应的词向量等。在一些应用场景,上述数据还可以同时包括不同模态的数据,比如在自动驾驶场景,训练数据可以包括摄像头采集的图像/视频数据,还可以包括用户发出指示的语音/文本数据等。本申请实施例中对于数据集中数据的具体形式或类型以及第一神经网络的结构和任务并不做限定。
可选地,训练第一神经网络的第一数据集是经过无损压缩或有损压缩压缩后的数据集。
示例性的,第一神经网络用于实现分类任务。第一数据集包括“猫”与“鱼”的图像数据。该种情况下,第一神经网络是经过第一数据集训练得到,第一神经网络也可以理解为是两分类预测模型。
步骤302,基于第一压缩方式压缩第一数据集得到第一压缩数据集。
数据处理设备获取第二数据集之后,可以基于第一压缩方式压缩第一数据集得到第一压缩数据集,第一压缩数据集所占用的存储空间小于第二数据集所占用的存储空间,第一压缩方式可以是无损压缩或有损压缩。关于无损压缩与有损压缩的描述可以参考前述名词解释的描述,此处不再赘述。
可选地,若第一数据集中的数据为图像数据,则第一压缩方式为图像压缩。若第一数据集中的数据为音频数据,则第一压缩方式为音频压缩或视频压缩。
示例性的,延续上述举例,若后续用户产生新的分类需求,例如需要新增两个类别“狮子”与“狗”,第一神经网络需要根据新增的第二数据集进行更新,从而提供四分类预测。为了减少历史数据集(即第一数据集)的存储空间,可以对第一数据集进行压缩得到第一压缩数据集。例如:旧类别“猫”与“鱼”对应的图片数据有2000张,每张占用5兆的存储空间。通过第一压缩方式压缩后,每张图像压缩至1兆的存储空间。
步骤303,存储第一压缩数据集。
数据处理设备压缩第一数据集得到第一压缩数据集之后,保存第一压缩数据集用于后续训练第一神经网络时使用。或者理解为,为了避免后续第一神经网络更新学习过程中初心灾难性遗忘,需要第一压缩数据集用于训练第一神经网络。
可选地,若压缩后的第一压缩数据集所占用的存储空间大于或等于数据处理设备的存储空间,则可以对第一压缩数据集进行采样得到多个第一压缩数据,该多个第一压缩数据可以理解为是第一压缩数据集中的一部分数据。其中,该采样方法可以是随机采样、最近邻原则采样等,具体此处不做限定。
步骤304,获取第二数据集。
本申请实施例中数据处理设备获取第二数据集的方式与获取第一数据集的方式类似,此处不再赘述。
该第二数据集的采集时刻晚于第一数据集的采集时刻,或者理解为,第二数据集属于新数据集,第一数据集为历史数据集。
示例性的,延续上述举例,在用户产生新的分类需求,需要新增两个类别“狮子”与“狗”的图像。
可选地,在持续学习场景,为了保证后续新增数据量(例如采集时刻晚于第二数据集的第三数据集等)的存储,也可以对第二数据集进行压缩处理,并保存压缩后的第二数据集。
步骤305,基于第一压缩数据集与第二数据集训练第一神经网络。
数据处理设备获取第二数据集之后,可以基于存储的第一压缩数据集与第二数据集训练第一神经网络,从而使得避免第一神经网络由于存储限制无法使用历史数据带来的灾难性遗忘。
可选地,以第一压缩数据集与第二数据集中的数据作为第一神经网络的输入,以第二损失函数的值小于第二预设阈值为目标进行训练。第二损失函数用于表示第一神经网络的输出与数据对应的真实值(或标签值)之间的差异。进而使得训练好的第一神经网络可以输出与真实值更加接近的输出。其中,第二损失函数与第一损失函数类似,可以是平方损失、绝对值损失或交叉熵损失等,具体此处不做限定。
示例性的,延续上述举例,经过第一压缩数据集(例如“猫”与“鱼”的图像)以及第二数据集(例如“狮子”与“狗”的图像),从而使得第一神经网络可以提供四分类预测。
示例性的,以两次新增数据集以及上述的分类任务为例进行描述,如图4所示,数据处理设备获取初始神经网络,并使用第一数据集(两个分类的图像)对初始神经网络进行训练得到第一神经网络(用于二分类)。在新增分类任务(新增二个分类)的情况下,先对第一数据集进行压缩处理得到第一压缩数据集,并获取第一次新增的数据集(即新增两个分类对应的第二数据集),则使用第一压缩数据集与第二数据集训练第一神经网络得到第二神经网络(用于四分类)。若后续又增加分类任务,则对第二数据集进行压缩得到第二压缩数据集。并获取第二次新增的数据集(即第三数据集)。并使用第一压缩数据集、第二压缩数据集以及第三数据集训练第二神经网络,使得第二神经网络训练好后,既可以实现之前的分类任务,又可以实现新增的分类任务,进而避免由于存储空间限制带来的神经网络灾难性遗忘。
可选地,第一压缩方式可以为无需解压的压缩技术或需要解压的压缩技术。若第一压缩方式为无需解压的压缩技术,则压缩后的第一压缩数据集无需进行解压就可以与新的数据集直接参与训练第一神经网络的过程。第一压缩方式可以为便携式网络图形(portable network graphics,PNG)、联合图像专家小组(joint photographic expertsgroup,JPEG)、JPEG200、自由无损图像格式(free lossless image format,FLIF)等,具体此处不做限定。
本申请实施例中,在持续学习的类别增量、任务增量、样本增量、领域增量等带来的存储空间需求暴涨的情况下。通过第一压缩方式对第一数据集进行压缩,进而存储压缩后的第一压缩数据集。再获取第二数据集(即新增数据集),并基于第一压缩数据集与第二数据集训练第一神经网络。一方面,通过存储压缩后的历史数据集,可以减少单个历史数据样本占用的存储空间,增加存储历史数据量(例如,增加图片张数)。另一方面,通过训练压缩后的历史数据集(即第一压缩数据集)与新增数据集,可以减少第一神经网络出现灾难性遗忘。
本申请实施例中,基于压缩方式(例如第一压缩方式)的不同,方法包括的步骤可能与图3所示实施例的步骤稍有增加,下面分别描述:
第一种,压缩方式为无损压缩。
该种方式下,无损压缩可以是PNG,JPEG XL,JPEG2000,FLIF、无损音频压缩编码(free lossless audio codec,FLAC)等。
请参阅图5,本申请实施例提供的另一种数据处理方法,该方法可以包括步骤501至步骤508。下面对步骤501至步骤508进行详细说明。
步骤501,获取第一神经网络。
步骤502,基于第一压缩方式压缩第一数据集得到第一压缩数据集。
本实施例中的步骤501、步骤502与前述图3所示实施例中的步骤301与步骤302类似,此处不在赘述。
步骤503,确定第一压缩方式的压缩率大于或等于第一阈值。本步骤是可选地。
数据处理设备基于第一压缩方式压缩第一数据集得到第一压缩数据集之后,可以获取第一压缩数据集与第一数据集的存储比值(即第一压缩方式的压缩率)。并确定该压缩率大于或等于第一阈值。其中,该第一阈值可以根据实际需要设置,例如,大于或等于该第一阈值的压缩率可以实现压缩第一数据集后得到的第一压缩数据集所占用的存储空间小于数据处理设备的存储空间。
该步骤也可以理解为,确定第一压缩数据集所占用的存储空间小于或等于某一阈值。
步骤504,存储第一压缩数据集。
其中,该步骤504之前,可以包括步骤503,或者包括步骤507与步骤508。
若是在步骤504之前包括步骤503,则步骤503与步骤504可以理解为是因果关系,即若确定第一压缩方式的压缩率大于或等于第一阈值,则存储第一压缩数据集。
若是在步骤504之前包括步骤507与步骤508,则步骤507、步骤508与步骤504可以理解为是因果关系,即若确定第一压缩方式的压缩率大于或等于第二压缩方式的压缩率,则存储第一压缩数据集。
步骤505,获取第二数据集。
步骤506,基于第一压缩数据集与第二数据集训练第一神经网络。
本实施例中的步骤504至步骤506与前述图3所示实施例中的步骤303至步骤305类似,此处不在赘述。
步骤507,基于第二压缩方式压缩第一数据集得到第二压缩数据集。本步骤是可选地。
可选地,数据处理设备还可以基于第二压缩方式压缩第一数据集得到第二压缩数据集。其中,第一压缩方式与第二压缩方式都为无损压缩。且第一压缩方式与第二压缩方式的类型不同或压缩率不同。
可选地,本步骤507可以在步骤502之前或之后,具体此处不做限定。即数据处理设备在基于第一压缩方式压缩第一数据集得到第一压缩数据集之前或之后,可以基于第二压缩方式压缩第一数据集得到第二压缩数据集。
步骤508,确定第一压缩方式的压缩率大于或等于第二压缩方式的压缩率。本步骤是可选地。
可选地,数据处理设备获取第二压缩数据集之后,与获取第一压缩方式的压缩率类似,可以获取第二压缩方式的压缩率。并确定第一压缩方式的压缩率大于或等于第二压缩方式的压缩率。
该步骤也可以理解为,确定第一压缩数据集所占用的存储空间小于或等于第二压缩数据集所占用的存储空间。
可以理解的是,本实施例仅以无损压缩包括第一压缩方式与第二压缩方式为例进行描述,在实际应用中,无损压缩方式的数量此处不做限定。另外,对于每一次新增数据,本实施例的步骤就可以重复一次,该实施例仅以新增一次数据集(即第二数据集)为例进行描述,并不对持续学习中数据的更新次数做任何限制。
在一种可能实现的方式中,本实施例提供的数据处理方法可以包括步骤501至步骤506。即若确定第一压缩方式的压缩率大于或等于第一阈值,则存储第一压缩数据集。在另一种可能实现的方式中,本实施例提供的数据处理方法可以包括步骤501、步骤502、步骤504至步骤508。即若确定第一压缩方式的压缩率大于或等于第二压缩方式的压缩率,则存储第一压缩数据集。
本实施例中,在无损压缩的情况下,由于不用考虑第一数据集压缩后的失真情况,因此可以存储由压缩率较大的压缩方式压缩得到的第一压缩数据集,并保存压缩后的第一压缩数据集,使得数据处理设备存储第一压缩数据集所耗费的存储空间更小,进而保证在持续学习场景下,数据处理设备可以有更多存储空间存储后续新增的数据(即第二数据集)。
第二种,压缩方式为有损压缩。
该种方式下,有损压缩可以是JPEG/JPG、WebP或JPEG2000等。
由于有损压缩会导致数据集中数据的失真,本申请实施例提出使用特征流形体积来对失真程度进行约束,从而减少压缩后数据的失真程度,下面对本申请提供的另一种数据处理方法进行描述。
请参阅图6,本申请实施例提供的另一种数据处理方法,该方法可以包括步骤601至步骤612。下面对步骤601至步骤612进行详细说明。
步骤601,获取第一神经网络。
步骤602,基于第一压缩方式压缩第一数据集得到第一压缩数据集。
本实施例中的步骤601、步骤602与前述图3所示实施例中的步骤301与步骤302类似,此处不在赘述。
步骤603,获取第一数据集的第一特征流形体积。
可选地,将第一数据集输入第一神经网络的编码器得到第一特征矩阵。并基于第一特征矩阵获取第一特征流形体积。其中,该第一特征流形体积可以理解为是第一特征矩阵内积的行列式的开方(第二特征流形体积与第三特征流形体积的计算方式类似,后续不再赘述)。该编码器也可以理解为是特征提取器。
本申请实施例中的特征矩阵(例如第一特征矩阵、第二特征矩阵等)可以是多行多列,也可以是一行多列,对于具体的行数与列数此处不做限定。
示例性的,第一特征矩阵用M1表示。第一特征流形体积用V1表示,
Figure BDA0003291602750000161
其中,
Figure BDA0003291602750000162
为M1的转置矩阵,det()是一个数学符号,用于表示行列式。例如,A的行列式为det(A)。
步骤604,获取第一压缩数据集的第二特征流形体积。
将采用第一压缩方式压缩后的数据集(即第一压缩数据集)输入第一神经网络的编码器得到第二特征矩阵。并基于第二特征矩阵获取第二特征流形体积。
示例性的,第二特征矩阵用M2表示。其中,2代表第一压缩方式。第二特征流形体积用V2表示,
Figure BDA0003291602750000163
其中,
Figure BDA0003291602750000164
为M2的转置矩阵,det()是一个数学符号,用于表示行列式。例如,A的行列式为det(A)。
步骤605,确定第一比值与1的差值小于或等于第二阈值。本步骤是可选地。
可选地,数据处理设备获取第一特征流形体积与第二特征流形体积之后,可以计算第一比值与1的差值,第一比值为第二特征流形体积与第一特征流形体积的比值。或者理解为,若差值小于或等于第二阈值,则确定第一压缩方式可以作为优选的压缩方式,即确定经过第一压缩方式压缩后的第一压缩数据集作为保存的数据集。差值小于或等于第二阈值也可以理解为是第一特征流形体积与第二特征流形体积接近。
示例性的,第一比值用R2表示,
Figure BDA0003291602750000165
且|R2-1|≤ε;ε为第二阈值,实际应用中可以根据实际需要设置,例如ε为0.5。
步骤606,存储第一压缩数据集。
其中,该步骤606之前,可以包括步骤605,或者包括步骤609至步骤612。
若是在步骤606之前包括步骤605,则步骤605与步骤606可以理解为是因果关系,即若确定第一比值与1的差值小于或等于第二阈值,则存储第一压缩数据集。
若是在步骤606之前包括步骤609至步骤612,则步骤609至步骤612与步骤606可以理解为是因果关系,即若确定第一比值相较于第二比值更接近于1,则存储第一压缩数据集。
步骤607,获取第二数据集。
步骤608,基于第一压缩数据集与第二数据集训练第一神经网络。
本实施例中的步骤606至步骤608与前述图3所示实施例中的步骤303至步骤305类似,此处不在赘述。
步骤609,基于第三压缩方式压缩第一数据集得到第三压缩数据集。本步骤是可选地。
可选地,数据处理设备还可以基于第三压缩方式压缩第一数据集得到第三压缩数据集。其中,第一压缩方式与第三压缩方式都为有损压缩。第一压缩方式与第三压缩方式的类型不同或压缩质量不同。其中,压缩质量用于衡量压缩前后的数据的丢失程度,压缩质量越高,丢失的数据信息越少;压缩质量越低,丢失的数据信息越多。
可选地,本步骤609可以在步骤602之前或之后,具体此处不做限定。即数据处理设备在基于第一压缩方式压缩第一数据集得到第一压缩数据集之前或之后,可以基于第三压缩方式压缩第一数据集得到第三压缩数据集。
步骤610,获取第三压缩数据集的第三特征流形体积。本步骤是可选地。
将采用第三压缩方式压缩后的数据集(即第三压缩数据集)输入第一神经网络的编码器得到第三特征矩阵。并基于第三特征矩阵获取第三特征流形体积。
示例性的,第三特征矩阵用M3表示。其中,3代表第三压缩方式。第三特征流形体积用V3表示,
Figure BDA0003291602750000171
其中,
Figure BDA0003291602750000172
为M3的转置矩阵,det()是一个数学符号,用于表示行列式。例如,A的行列式为det(A)。
步骤611,获取第一比值与第二比值。本步骤是可选地。
可选地,输出数据处理设备获取第一特征流形体积、第二特征流形体积以及第三特征流形体积之后可以获取第一比值与第二比值。其中,第一比值为第二特征流形体积与第一特征流形体积的比值,第二比值为第三特征流形体积与第一特征流形体积的比值。
可选地,第一比值与1的差值小于或等于第二阈值,第二比值与1的差值小于或等于第二阈值。
示例性的,第一比值用R2表示,
Figure BDA0003291602750000173
且|R2-1|≤ε;ε为第二阈值,实际应用中可以根据实际需要设置,例如ε为0.5。第二比值用R3表示,
Figure BDA0003291602750000174
且|R3-1|≤ε。
步骤612,确定第一比值相较于第二比值更接近于1。本步骤是可选地。
可选地,数据处理设备可以确定第一比值相较于第二比值更接近于1。即采用第一压缩方式压缩后数据的失真程度小于采用第三压缩方式压缩后数据的失真程度。也可以理解为在压缩数据过程中,通过数据在压缩前后的特征流形体积对失真程度进行约束。
换句话说,有损压缩相当于对原始数据引入了一个使其失真的映射,而压缩前后数据的特征体积比本质上是在用压缩前数据的特征体积去归一化掉数据量对判断失真程度的影响,这样可以通过体积比直接对失真程度进行约束。
可以理解的是,本实施例仅以有损压缩包括第一压缩方式与第三压缩方式为例进行描述,在实际应用中,有损压缩方式的数量此处不做限定。另外,对于每一次新增数据,本实施例的步骤就可以重复一次,该实施例仅以新增一次数据集(即第二数据集)为例进行描述,并不对持续学习中数据的更新次数做任何限制。
在一种可能实现的方式中,本申请实施例提供的数据处理方法可以包括步骤601至步骤608。即若确定第一比值与1的差值小于或等于第二阈值,则存储第一压缩数据集。在另一可能实现的方式中,本申请实施例提供的数据处理方法可以包括步骤601、步骤602、步骤606至步骤612。即确定第一比值与1的差值小于或等于第二阈值,确定第二比值与1的差值小于或等于第二阈值,且确定第一比值相较于第二比值更接近于1,则存储第一压缩数据集。
本申请实施例中,在有损压缩的场景,由于压缩率过高可能会导致数据失真程度严重,通过引入压缩前后数据的特征流形体积作为约束,进而减少有损压缩使得压缩后数据的失真程度。或者理解为是通过特征流形体积相近可以保证回访数据与原始数据的分布足够接近。
为了方便直观看出经过上述数据处理方法得到的第二神经网络的准确率,下面通过在两个数据集上的表现,对比现有训练方式得到的网络与经过上述数据处理方法得到的第二神经网络的准确率。
现有网络的训练方式采用以下几种算法:增量分类器与表示学习(incrementalclassifier and representation learning,iCaRL)、偏差校正法(bias correction,Bic)、Mnemonics、拓扑保持类增量学习(Topology-preserving class-incrementallearning,TPCIL)、LUCIR、混合输出蒸馏网络(pooled output distillation,PODnet)以及自适应聚合网络(adaptive aggregation naetworks,AANets)。
下面针对现有训练方式训练得到的模型以及本申请实施例提供的数据处理方法所训练得到的模型在准确率的维度上进行比较,其中模型可以都采用相同的网络结构。
实验一:采用数据集ImageNet的100类子集为例说明训练好的模型(经过压缩后的历史数据集与新数据集训练得到)的准确率。以模型的结构是18层残差神经网络(residualneural network,Resnet)为例,采样方法采用最近邻方法进行类别预测为例进行示例性描述。
示例性的,该模型的任务是分类任务。模型的输入为彩色图片,输出是类别标签。第一压缩方式为JPEG。其中,第一数据集的类别为50个,每类有1300张图像。新增情况分为3种,第一种是新增数据5次,每次图像是10类,每类1300张图像。第二种是新增数据10次,每次图像是5类,每类1300张图像。第三种是新增数据25次,每次图像是2类,每类1300张图像。
下面对现有训练方法或现有训练方法与本申请提供的数据处理方法相结合的训练方法得到的模型的准确率如表1至表3所示。具体的,采用上述iCaRL、Bic、Mnemonics以及TPCIL训练方法训练得到的模型的准确率如表1所示。采用LUCIR、LUCIR/AANets、LUCIR/无损压缩以及LUCIR/有损压缩训练得到的模型的准确率如表2所示。采用PODnet、PODnet/AANets、PODnet/无损压缩以及PODnet/有损压缩训练得到的模型的准确率如表2所示。
其中,iCaRL、Bic、Mnemonics、TPCIL、LUCIR以及PODnet是完整的训练方法。
表1
Figure BDA0003291602750000191
其中,iCaRL、Bic、Mnemonics、TPCIL是完整的训练方法。
表2
Figure BDA0003291602750000192
其中,LUCIR是完整的训练方法。LUCIR/AANets表示:AANets改进LUCIR算法中一部分流程后的训练方法得到的模型。LUCIR/无损压缩表示:利用本申请提供的无损压缩后的数据进行LUCIR的训练得到的模型(或者理解为LUCIR的数据回放部分采用了本实施例提供的如图3、图4或图5所示的数据处理方法)。LUCIR/有损压缩表示:利用本申请提供的有损压缩后的数据进行LUCIR的训练得到的模型(或者理解为LUCIR的数据回放部分采用了本实施例提供的如图3、图4或图6所示的数据处理方法)。
表3
Figure BDA0003291602750000193
其中,PODnet是完整的训练方法。PODnet/AANets表示:AANets改进PODnet算法中一部分流程后的训练方法得到的模型。PODnet/无损压缩表示:利用本申请提供的无损压缩后的数据进行PODnet的训练得到的模型(或者理解为PODnet的数据回放部分采用了本实施例提供的如图3、图4或图5所示的数据处理方法)。PODnet/有损压缩表示:利用本申请提供的有损压缩后的数据进行PODnet的训练得到的模型(或者理解为PODnet的数据回放部分采用了本实施例提供的如图3、图4或图6所示的数据处理方法)。
有表1至表3可以看出,有本申请实施例参与的训练方法(例如:LUCIR/无损压缩、LUCIR/有损压缩、PODnet/无损压缩、PODnet/有损压缩)所得到的模型的准确率更高。
即,一方面,在无损压缩的情况下,由于不用考虑第一数据集压缩后的失真情况,因此可以存储由压缩率较大的压缩方式压缩得到的第一压缩数据集,并保存压缩后的第一压缩数据集,使得数据处理设备存储第一压缩数据集所耗费的存储空间更小,进而保证在持续学习场景下,数据处理设备可以有更多存储空间存储后续新增的数据(即第二数据集)。从而提升经过无损压缩后的历史数据与新增数据训练得到的模型的准确率。另一方面,在有损压缩的场景,由于压缩率过高可能会导致数据失真程度严重,通过引入压缩前后数据的特征流形体积作为约束,进而减少有损压缩使得压缩后数据的失真程度。或者理解为是通过特征流形体积可以保证回访数据与原始数据的分布足够接近。从而提升经过有损压缩后的历史数据与新增数据训练得到的模型的准确率。
实验二:采用自动驾驶数据集SODA10M的全部有标注图片和100K张无标注图片为例说明训练好的模型(经过压缩后的历史数据集与新数据集训练得到)的准确率。以模型的结构包括基于区域的卷积神经网络(region based convolutional neural networks,RCNN)。具体的,以RCNN中采用特征金字塔网络(feature pyramid networks,FPN)和50层Resnet为例,采样方法采用随机采样方法进行物体检测为例进行示例性描述。
示例性的,该模型的任务是物体检测任务。模型的输入为彩色图片,输出是物体检测框坐标和物体类别标签。第一数据集(即初始训练图片)共有个6检测类别,共包括500张有标注图片和10K张无标注图片。每次新增训练图片含有相同的6个检测类别,包括500张有标注图片和10K张无标注图片。第一压缩方式为JPEG,压缩质量(quality)为50。
自动驾驶公开数据集SODA10M上的目标检测样本增量实验结果如图7所示。图7中下面的浅色线代表回放原始数据,图7中上面的深色代表回放压缩数据(即第一压缩方式采用JPEG quality=50),该曲线图的横坐标为迭代次数(Iteration),每个阶段做20000次迭代,因此每个虚线代表每次新阶段增量训练开始,纵坐标为全类平均精度(mean AveragePrecision,mAP)。第5阶段结束,用本发明提供的数据处理方法进行替代回放策略的精度为44.577%比用原始数据回放43.492%高约1%。
即,在有损压缩的场景,由于压缩率过高可能会导致数据失真程度严重,通过引入压缩前后数据的特征流形体积作为约束,进而减少有损压缩使得压缩后数据的失真程度。或者理解为是通过特征流形体积可以保证回访数据与原始数据的分布足够接近。从而提升经过有损压缩后的历史数据与新增数据训练得到的模型的准确率。
上面对本申请实施例中的数据处理方法进行了描述,下面对本申请实施例中的数据处理设备进行描述,请参阅图8,本申请实施例中数据处理设备的一个实施例包括:
获取单元801,用于获取第一神经网络,第一神经网络是经过第一数据集训练得到的;
压缩单元802,用于基于第一压缩方式压缩第一数据集得到第一压缩数据集,第一压缩方式为无损压缩或有损压缩;
存储单元803,用于存储第一压缩数据集;
获取单元801,还用于获取第二数据集,第二数据集的采集时刻晚于第一数据集的采集时刻;
训练单元804,用于基于第一压缩数据集与第二数据集训练第一神经网络。
本实施例中,数据处理设备中各单元所执行的操作与前述图3至图7所示实施例中描述的类似,此处不再赘述。
本实施例中,在持续学习的类别增量、任务增量、样本增量、领域增量等带来的存储空间需求暴涨的情况下。压缩单元802通过第一压缩方式对第一数据集进行压缩,进而存储单元803存储压缩后的第一压缩数据集。获取单元801再获取第二数据集(即新增数据集),训练单元804基于第一压缩数据集与第二数据集训练第一神经网络。一方面,通过存储压缩后的历史数据集,可以减少单个历史数据样本占用的存储空间,增加存储历史数据量(例如,增加图片张数)。另一方面,通过训练压缩后的历史数据集(即第一压缩数据集)与新增数据集,可以减少第一神经网络出现灾难性遗忘。
请参阅图9,本申请实施例中数据处理设备的另一个实施例包括:
获取单元901,用于获取第一神经网络,第一神经网络是经过第一数据集训练得到的;
压缩单元902,用于基于第一压缩方式压缩第一数据集得到第一压缩数据集,第一压缩方式为无损压缩或有损压缩;
存储单元903,用于存储第一压缩数据集;
获取单元901,还用于获取第二数据集,第二数据集的采集时刻晚于第一数据集的采集时刻;
训练单元904,用于基于第一压缩数据集与第二数据集训练第一神经网络。
另外,本实施例的数据处理设备还可以包括:
采样单元905,用于若第一压缩数据集所占用的存储空间大于或等于数据处理设备所支持的存储空间,则对第一压缩数据集进行采样得到多个第一压缩数据,多个第一压缩数据所占用的存储空间小于第一压缩数据集所占用的存储空间;
第一确定单元906,用于确定第一压缩方式的压缩率大于或等于第一阈值。
第二确定单元907,用于确定第一压缩方式的压缩率大于或等于第二压缩方式的压缩率。
第三确定单元908,用于确定第一比值与1的差值小于或等于第二阈值,第一比值为第二特征流形体积与第一特征流形体积的第一比值。
第四确定单元909,用于确定第一比值相较于第二比值更接近于1。
本实施例中,数据处理设备中各单元所执行的操作与前述图3至图7所示实施例中描述的类似,此处不再赘述。
本实施例中,在持续学习的类别增量、任务增量、样本增量、领域增量等带来的存储空间需求暴涨的情况下。压缩单元902通过第一压缩方式对第一数据集进行压缩,进而存储单元903存储压缩后的第一压缩数据集。获取单元901再获取第二数据集(即新增数据集),训练单元904基于第一压缩数据集与第二数据集训练第一神经网络。另外还可以基于确定单元基于压缩率(对于无损压缩)或者特征流形体积(对于有损压缩)可以确定优选的压缩方式。一方面,通过存储压缩后的历史数据集,可以减少单个历史数据样本占用的存储空间,增加存储历史数据量(例如,增加图片张数)。另一方面,通过训练压缩后的历史数据集(即第一压缩数据集)与新增数据集,可以减少第一神经网络出现灾难性遗忘。
本申请实施例还提供了另一种数据处理设备,如图10所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该数据处理设备可以为包括手机、平板电脑等任意终端设备,以数据处理设备是手机为例:
图10示出的是与本申请实施例提供的数据处理设备-手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线、IMU、SLAM传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1010,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1010,由扬声器1010转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080可以执行前述图3至图7所示实施例中数据处理设备的功能,此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。
当使用软件实现所述集成的单元时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

Claims (17)

1.一种数据处理方法,其特征在于,所述方法包括:
获取第一神经网络,所述第一神经网络是经过第一数据集训练得到的;
基于第一压缩方式压缩所述第一数据集得到第一压缩数据集,所述第一压缩方式为无损压缩或有损压缩;
存储所述第一压缩数据集;
获取第二数据集,所述第二数据集的采集时刻晚于所述第一数据集的采集时刻;
基于所述第一压缩数据集与所述第二数据集训练所述第一神经网络。
2.根据权利要求1所述的方法,其特征在于,所述存储所述第一数据集之后,所述方法还包括:
若所述第一压缩数据集所占用的存储空间大于或等于数据处理设备所支持的存储空间,则对所述第一压缩数据集进行采样得到多个第一压缩数据,所述多个第一压缩数据所占用的存储空间小于所述第一压缩数据集所占用的存储空间;
所述存储所述第一压缩数据集,包括:
存储所述多个第一压缩数据;
所述基于所述第一压缩数据集与所述第二数据集训练所述第一神经网络,包括:
基于所述多个第一压缩数据与所述第二数据集训练所述第一神经网络。
3.根据权利要求1或2所述的方法,其特征在于,所述第一压缩方式为所述无损压缩,所述存储所述第一压缩数据集之前,所述方法还包括:
确定所述第一压缩方式的压缩率大于或等于第一阈值。
4.根据权利要求1或2所述的方法,其特征在于,所述存储所述第一压缩数据集之前,所述方法还包括:
基于第二压缩方式压缩所述第一数据集得到第二压缩数据集,所述第一压缩方式与所述第二压缩方式为所述无损压缩,所述第一压缩方式与所述第二压缩方式的类型不同或压缩率不同;
确定所述第一压缩方式的压缩率大于或等于所述第二压缩方式的压缩率。
5.根据权利要求1或2所述的方法,其特征在于,所述第一压缩方式为所述有损压缩,所述存储所述第一压缩数据集之前,所述方法还包括:
获取所述第一数据集的第一特征流形体积,所述第一特征流形体积由所述第一数据集对应的第一特征矩阵的转置矩阵与所述第一特征矩阵内积的行列式开根号得到;
获取所述第一压缩数据集的第二特征流形体积,所述第二特征流形体积由所述第一压缩数据集对应的第二特征矩阵的转置矩阵与所述第二特征矩阵内积的行列式开根号得到;
确定第一比值与1的差值小于或等于第二阈值,所述第一比值为所述第二特征流形体积与所述第一特征流形体积的比值。
6.根据权利要求1或2所述的方法,其特征在于,所述存储所述第一压缩数据集之前,所述方法还包括:
基于第三压缩方式压缩所述第一数据集得到第三压缩数据集,所述第一压缩方式与所述第三压缩方式为所述有损压缩,所述第一压缩方式与所述第三压缩方式的类型不同或压缩质量不同;
获取所述第一数据集的第一特征流形体积,所述第一特征流形体积由所述第一数据集对应的第一特征矩阵的转置矩阵与所述第一特征矩阵内积的行列式开根号得到;
获取所述第一压缩数据集的第二特征流形体积,所述第二特征流形体积由所述第一压缩数据集对应的第二特征矩阵的转置矩阵与所述第二特征矩阵内积的行列式开根号得到;
获取所述第三压缩数据集的第三特征流形体积,所述第三特征流形体积由所述第三压缩数据集对应的第三特征矩阵的转置矩阵与所述第三特征矩阵内积的行列式开根号得到;
获取第一比值与第二比值,所述第一比值为所述第二特征流形体积与所述第一特征流形体积的比值,所述第二比值为所述第三特征流形体积与所述第一特征流形体积的比值,所述第一比值与1的差值小于或等于第二阈值,所述第二比值与1的差值小于或等于所述第二阈值;
确定所述第一比值相较于所述第二比值更接近于1。
7.根据权利要求5或6所述的方法,其特征在于,所述获取所述第一数据集的第一特征流形体积,包括:
将所述第一数据集输入所述第一神经网络的编码器得到所述第一特征矩阵;
基于所述第一特征矩阵获取所述第一特征流形体积;
所述获取所述第一压缩数据集的第二特征流形体积,包括:
将所述第一压缩数据集输入所述编码器得到所述第二特征矩阵;
基于所述第二特征矩阵获取所述第二特征流形体积。
8.一种数据处理设备,其特征在于,所述数据处理设备包括:
获取单元,用于获取第一神经网络,所述第一神经网络是经过第一数据集训练得到的;
压缩单元,用于基于第一压缩方式压缩所述第一数据集得到第一压缩数据集,所述第一压缩方式为无损压缩或有损压缩;
存储单元,用于存储所述第一压缩数据集;
所述获取单元,还用于获取第二数据集,所述第二数据集的采集时刻晚于所述第一数据集的采集时刻;
训练单元,用于基于所述第一压缩数据集与所述第二数据集训练所述第一神经网络。
9.根据权利要求8所述的设备,其特征在于,所述数据处理设备还包括:
采样单元,用于若所述第一压缩数据集所占用的存储空间大于或等于数据处理设备所支持的存储空间,则对所述第一压缩数据集进行采样得到多个第一压缩数据,所述多个第一压缩数据所占用的存储空间小于所述第一压缩数据集所占用的存储空间;
所述存储单元,具体用于存储所述多个第一压缩数据;
所述训练单元,具体用于基于所述多个第一压缩数据与所述第二数据集训练所述第一神经网络。
10.根据权利要求8或9所述的设备,其特征在于,所述第一压缩方式为所述无损压缩,所述数据处理设备还包括:
第一确定单元,用于确定所述第一压缩方式的压缩率大于或等于第一阈值。
11.根据权利要求8或9所述的设备,其特征在于,所述压缩单元,还用于基于第二压缩方式压缩所述第一数据集得到第二压缩数据集,所述第一压缩方式与所述第二压缩方式为所述无损压缩,所述第一压缩方式与所述第二压缩方式的类型不同或压缩率不同;
所述数据处理设备还包括:
第二确定单元,用于确定所述第一压缩方式的压缩率大于或等于所述第二压缩方式的压缩率。
12.根据权利要求8或9所述的设备,其特征在于,所述第一压缩方式为所述有损压缩,所述获取单元,还用于获取所述第一数据集的第一特征流形体积,所述第一特征流形体积由所述第一数据集对应的第一特征矩阵的转置矩阵与所述第一特征矩阵内积的行列式开根号得到;
所述获取单元,还用于获取所述第一压缩数据集的第二特征流形体积,所述第二特征流形体积由所述第一压缩数据集对应的第二特征矩阵的转置矩阵与所述第二特征矩阵内积的行列式开根号得到;
所述数据处理设备还包括:
第三确定单元,用于确定第一比值与1的差值小于或等于第二阈值,所述第一比值为所述第二特征流形体积与所述第一特征流形体积的比值。
13.根据权利要求8或9所述的设备,其特征在于,所述压缩单元,还用于基于第三压缩方式压缩所述第一数据集得到第三压缩数据集,所述第一压缩方式与所述第三压缩方式为所述有损压缩,所述第一压缩方式与所述第三压缩方式的类型不同或压缩质量不同;
所述获取单元,还用于获取所述第一数据集的第一特征流形体积,所述第一特征流形体积由所述第一数据集对应的第一特征矩阵的转置矩阵与所述第一特征矩阵内积的行列式开根号得到;
所述获取单元,还用于获取所述第一压缩数据集的第二特征流形体积,所述第二特征流形体积由所述第一压缩数据集对应的第二特征矩阵的转置矩阵与所述第二特征矩阵内积的行列式开根号得到;
所述获取单元,还用于获取所述第三压缩数据集的第三特征流形体积,所述第三特征流形体积由所述第三压缩数据集对应的第三特征矩阵的转置矩阵与所述第三特征矩阵内积的行列式开根号得到;
所述获取单元,还用于获取第一比值与第二比值,所述第一比值为所述第二特征流形体积与所述第一特征流形体积的比值,所述第二比值为所述第三特征流形体积与所述第一特征流形体积的比值,所述第一比值与1的差值小于或等于第二阈值,所述第二比值与1的差值小于或等于所述第二阈值;
所述数据处理设备还包括:
第四确定单元,用于确定所述第一比值相较于所述第二比值更接近于1。
14.根据权利要求12或13所述的设备,其特征在于,所述获取单元,具体用于将所述第一数据集输入所述第一神经网络的编码器得到第一特征矩阵;
所述获取单元,具体用于基于所述第一特征矩阵获取所述第一特征流形体积;
所述获取单元,具体用于将所述第一压缩数据集输入所述编码器得到第二特征矩阵;
所述获取单元,具体用于基于所述第二特征矩阵获取所述第二特征流形体积。
15.一种数据处理设备,其特征在于,包括处理器,所述处理器与存储器耦合,所述存储器用于存储计算机程序或指令,所述处理器用于执行存储器中的所述计算机程序或指令,使得权利要求1至7任一项所述的方法被执行。
16.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品在计算机上执行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
CN202111166701.9A 2021-09-30 2021-09-30 一种数据处理方法及相关设备 Pending CN115905850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111166701.9A CN115905850A (zh) 2021-09-30 2021-09-30 一种数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111166701.9A CN115905850A (zh) 2021-09-30 2021-09-30 一种数据处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN115905850A true CN115905850A (zh) 2023-04-04

Family

ID=86471606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111166701.9A Pending CN115905850A (zh) 2021-09-30 2021-09-30 一种数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN115905850A (zh)

Similar Documents

Publication Publication Date Title
CN110009052B (zh) 一种图像识别的方法、图像识别模型训练的方法及装置
WO2022083536A1 (zh) 一种神经网络构建方法以及装置
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN110222717B (zh) 图像处理方法和装置
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
CN111816159B (zh) 一种语种识别方法以及相关装置
CN113326930A (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
WO2021018245A1 (zh) 图像分类方法及装置
CN111209423B (zh) 一种基于电子相册的图像管理方法、装置以及存储介质
CN112990390B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
CN113469340A (zh) 一种模型处理方法、联邦学习方法及相关设备
WO2021227787A1 (zh) 训练神经网络预测器的方法、图像处理方法及装置
CN112529149B (zh) 一种数据处理方法及相关装置
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
WO2023165361A1 (zh) 一种数据处理方法及相关设备
CN112561028A (zh) 训练神经网络模型的方法、数据处理的方法及装置
CN114418069A (zh) 一种编码器的训练方法、装置及存储介质
CN115512005A (zh) 一种数据处理方法及其装置
WO2024067884A1 (zh) 一种数据处理方法及相关装置
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN114065900A (zh) 数据处理方法和数据处理装置
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN113111917A (zh) 一种基于双重自编码器的零样本图像分类方法及装置
WO2022001364A1 (zh) 一种提取数据特征的方法和相关装置
CN115905850A (zh) 一种数据处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination