CN115905932A - 一种数据处理方法及相关设备 - Google Patents

一种数据处理方法及相关设备 Download PDF

Info

Publication number
CN115905932A
CN115905932A CN202111166873.6A CN202111166873A CN115905932A CN 115905932 A CN115905932 A CN 115905932A CN 202111166873 A CN202111166873 A CN 202111166873A CN 115905932 A CN115905932 A CN 115905932A
Authority
CN
China
Prior art keywords
neural network
training data
data
transformation information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111166873.6A
Other languages
English (en)
Inventor
王若宇
易鸣洋
朱胜宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202111166873.6A priority Critical patent/CN115905932A/zh
Publication of CN115905932A publication Critical patent/CN115905932A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种数据处理方法,可以应用于图像识别、图像分类、健康医疗领域或自然语言处理领域等。该方法包括:获取训练数据;确定训练数据的变换信息,变换信息为不影响训练数据的分类结果或识别结果的信息;基于变换信息、损失函数与训练数据训练目标神经网络,得到训练好的目标神经网络,目标神经网络用于实现分类任务或识别任务。由于变换信息是不影响分类结果或识别结果的信息,通过基于变换信息的损失函数训练得到的目标神经网络可以减少由于变换信息这种伪相关性的误导,进而使得可以捕捉训练数据的本质特征,从而可以应用于对于训练数据属性变化的多个域,提升目标神经网络的域泛化能力。

Description

一种数据处理方法及相关设备
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种数据处理方法及相关设备。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
目前,传统的机器学习方法基于最优化模型在训练数据上的表现来训练模型。这样做法的有效性依赖于未来任务中遇到的测试数据与训练数据的同分布假定。如果测试数据与训练数据分布不同,机器学习算法的表现往往会大打折扣。然而,在实际中,如手机拍摄场景的自动识别、自动驾驶中周边环境的分析以及多局点业务布置中,数据分布在不同环境下的差异性与随时间的变异性是普遍存在的。
在具体的应用场景中,模型往往要面对来自不同域的任务。因此,如何提高模型的域泛化能力是亟待解决的技术问题。
发明内容
本申请实施例提供了一种数据处理方法及相关设备。可以提升神经网络的域泛化能力。
本申请实施例第一方面提供了一种网络训练方法,该方法可以由数据处理设备(例如终端设备或服务器)执行,也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法可以应用于图像识别、行人再识别(Re-ID)、街景识别、视频理解等计算机视觉的任务中。也可以应用于健康医疗领域,例如帕金森病识别、组织分割、X光胸片识别、以及震颤检测等任务中。还可以应用于自然语言处理领域,例如:情感分析、语义分割、网页分类等任务中。该方法包括:获取训练数据;确定训练数据的变换信息,变换信息为不影响训练数据分类结果或识别结果的信息;基于变换信息、损失函数以及训练数据训练目标神经网络,得到训练好的目标神经网络,损失函数包括损失项与正则项,损失项用于表示训练过程中目标神经网络的输出与训练数据的标签值的差异,正则项用于表示训练过程中第一输出与第二输出之间的差异,第一输出为训练数据输入目标神经网络的输出,第二输出为经过变换信息变换后的训练数据输入目标神经网络的输出,目标神经网络用于实现分类任务或识别任务。
其中,变换信息也可以理解为是不影响训练数据本质特征的信息,本质特征用于决定训练数据的分类结果或识别结果。该本质特征还要结合具体场景来判断,若任务是识别分类,对于训练数据是图像数据来说,图像的平移、旋转、颜色变换、风格变换等都可以人为是非本质特征。当然,若任务是与颜色相关,例如:任务是识别红色的马,则图像的颜色属于本质特征。即本质特征影响具体任务中的识别结果或分类结果。
本申请实施例中,通过确定训练数据变换信息,并基于该变换信息确定损失函数,再基于变换信息、损失函数以及训练数据训练目标神经网络。由于变换信息是不影响分类结果或识别结果的信息,减少由于变换信息这种伪相关性的误导,使得经过基于变换信息确定的损失函数、变换信息以及训练数据训练得到的目标神经网络可以捕捉训练数据的本质特征,从而可以应用于对于训练数据属性变化的多个域,提升目标神经网络的域泛化能力。
可选地,在第一方面的一种可能的实现方式中,上述步骤:确定训练数据的变换信息,包括:基于先验信息或第一神经网络确定变换信息,先验信息为用户基于训练数据所确定的,第一神经网络用于变换训练数据的属性,属性不改变本质特征。
该种可能的实现方式中,可以通过用户根据经验掌握的先验信息以及具有变换功能的神经网络确定训练数据的变换信息,或者理解为是基于用户的经验以及神经网络确定训练数据的伪相关特征的误导,例如背景为草原的马的图像,图像的背景草原并不会影响图像的分类或识别结果,该草原的背景就可以认为是图像的伪相关特征。
可选地,在第一方面的一种可能的实现方式中,上述步骤:基于先验信息或第一神经网络确定变换信息,包括:接收用户输入的变换信息。
该种可能的实现方式中,对于一些场景,可以通过用户的经验快速确定变换信息,例如红色的马图像,通过经验可快速获知该图像的颜色“红”并不会影响图像为“马”的分类结果或识别结果。又例如:在医疗场景,医学专家可以根据人为经验快速判断诊断片中的脂肪粒为变换信息,即该脂肪粒并不会影响在判断诊断片中是否具有肿瘤的判断。
可选地,在第一方面的一种可能的实现方式中,上述步骤:基于先验信息或第一神经网络确定变换信息,包括:确定第一神经网络对应的函数为变换信息。
该种可能的实现方式中,可以通过现有一些用于实现变换功能的第一神经网络获取变换信息,或者理解为是该第一神经网络对应的函数就是该变换信息。例如,用于图像风格转换的模型,本身就可以视为变换信息。
可选地,在第一方面的一种可能的实现方式中,上述的第一神经网络为循环生成式对抗网络CycleGAN,或星形生成式对抗网络StarGAN。
该种可能的实现方式中,通过常用的图像风格变换所用的模型可以快速确定图像数据的变换信息。
可选地,在第一方面的一种可能的实现方式中,上述的训练数据为图像数据,变换信息包括图像平移、图像旋转、图像颜色变换、图像风格变换、图像背景替换信息中的至少一种。
该种可能的实现方式中,对于不影响图像数据本质特征的变化都可以认为是变换信息,例如图像的平移、旋转、颜色、风格或背景等。
可选地,在第一方面的一种可能的实现方式中,上述的训练数据为音频数据,变换信息包括同义词替换;或者训练数据为文本数据,变换信息包括同义词替换或文本的音素位置替换。当然,变换信息还可以是文本数据中状语位置的替换、文本中音素位置替换或用词顺序的微调等。例如“研表究明,汉字的序顺并不定一能影阅响读”中的“研表究明”,并不影响“研究表明”的本质特征。
该种可能的实现方式中,对于不影响音频数据/文本数据本质特征的变化都可以认为是变换信息,例如同义词替换或文本的音素位置替换等。
可选地,在第一方面的一种可能的实现方式中,上述步骤:基于变换信息、损失函数以及训练数据训练目标神经网络,包括:以训练数据与变换信息作为目标神经网络的输入,以损失函数的值小于第一阈值为目标对目标神经网络进行训练,得到目标神经网络。
该种可能的实现方式中,通过在损失函数中引入由变换信息得到的正则项,可以减少由于变换信息这种伪相关性的误导,使得经过基于变换信息确定的损失函数与训练数据训练得到的目标神经网络可以捕捉训练数据的本质特征,从而可以应用于对于训练数据属性变化的多个域,提升目标神经网络的域泛化能力。
可选地,在第一方面的一种可能的实现方式中,上述的目标神经网络用于实现分类任务或识别任务。
该种可能的实现方式中,尤其对于识别或分类问题上,可以通过少量训练数据使得训练得到的目标神经网络可以识别待处理数据的本质特征,进而减少待处理数据的分类结果或识别结果受伪相关特征的影响,使得结果更加准确。
本申请实施例第二方面提供了一种数据处理设备,该数据处理设备可以是终端设备或服务器。该数据处理设备包括:获取单元,用于获取训练数据;确定单元,用于确定训练数据的变换信息,变换信息为不影响训练数据的分类结果或识别结果的信息;确定单元,还用于基于变换信息确定损失函数;训练单元,用于基于变换信息、损失函数以及训练数据训练目标神经网络,得到训练好的目标神经网络,损失函数包括损失项与正则项,损失项用于表示训练过程中目标神经网络的输出与训练数据的标签值的差异,正则项用于表示训练过程中第一输出与第二输出之间的差异,第一输出为训练数据输入目标神经网络的输出,第二输出为经过变换信息变换后的训练数据输入目标神经网络的输出,目标神经网络用于实现分类任务或识别任务。
可选地,在第二方面的一种可能的实现方式中,上述的确定单元,具体用于基于先验信息或第一神经网络确定变换信息,先验信息为用户基于训练数据所确定的,第一神经网络用于变换训练数据的属性,属性不改变本质特征。
可选地,在第二方面的一种可能的实现方式中,上述的确定单元,具体用于接收用户输入的变换信息。
可选地,在第二方面的一种可能的实现方式中,上述的确定单元,具体用于确定第一神经网络对应的函数为变换信息。
可选地,在第二方面的一种可能的实现方式中,上述的第一神经网络为循环生成式对抗网络CycleGAN,或星形生成式对抗网络StarGAN。
可选地,在第二方面的一种可能的实现方式中,上述的训练数据为图像数据,变换信息包括图像平移、图像旋转、图像颜色变换、图像风格变换、图像背景替换信息中的至少一种。
可选地,在第二方面的一种可能的实现方式中,上述的训练数据为音频数据,变换信息包括同义词替换;或者训练数据为文本数据,变换信息包括同义词替换或文本的音素位置替换。
可选地,在第二方面的一种可能的实现方式中,上述的训练单元,具体用于以训练数据与变换信息作为目标神经网络的输入,以损失函数的值小于第一阈值为目标对目标神经网络进行训练,得到目标神经网络。
可选地,在第二方面的一种可能的实现方式中,上述的目标神经网络用于实现分类任务或识别任务。
本申请第三方面提供了一种数据处理设备,该数据处理设备执行前述第一方面或第一方面的任意可能的实现方式中的方法。
本申请第四方面提供了一种数据处理设备,包括:处理器,处理器与存储器耦合,存储器用于存储程序或指令,当程序或指令被处理器执行时,使得该数据处理设备实现上述第一方面或第一方面的任意可能的实现方式中的方法。
本申请第五方面提供了一种计算机可读介质,其上存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。
本申请第六方面提供了一种计算机程序产品,该计算机程序产品在计算机上执行时,使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。
其中,第二、第三、第四、第五、第六方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果,此处不再赘述。
从以上技术方案可以看出,本申请实施例具有以下优点:通过确定训练数据变换信息,再基于变换信息、损失函数以及训练数据训练目标神经网络。由于变换信息是不影响分类结果或识别结果的信息,减少由于变换信息这种伪相关性的误导,使得经过基于变换信息确定的损失函数与训练数据训练得到的目标神经网络可以捕捉训练数据的本质特征,从而可以应用于对于训练数据属性变化的多个域,提升目标神经网络的域泛化能力。
附图说明
图1为本申请实施例提供的系统架构的结构示意图;
图2为本申请实施例提供的一种芯片硬件结构示意图;
图3为本申请实施例提供的数据处理方法一个流程示意图;
图4为本申请实施例提供的一种训练数据的示例;
图5至图7为本申请实施例提供的数据处理设备的几种结构示意图。
具体实施方式
本申请实施例提供了一种数据处理方法及相关设备。可以提升神经网络的域泛化能力。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
为了便于理解,下面先对本申请实施例主要涉及的相关术语和概念进行介绍。
1、神经网络。
神经网络可以是由神经单元组成的,神经单元可以是指以Xs和截距1为输入的运算单元,该运算单元的输出可以为:
Figure BDA0003291670090000051
其中,s=1、2、……n,n为大于1的自然数,Ws为Xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
2、深度神经网络。
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。当然,深度神经网络也可能不包括隐藏层,具体此处不做限定。
深度神经网络中的每一层的工作可以用数学表达式
Figure BDA0003291670090000052
来描述:从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维;2、放大/缩小;3、旋转;4、平移;5、“弯曲”。其中1、2、3的操作由
Figure BDA0003291670090000053
完成,4的操作由
Figure BDA0003291670090000054
完成,5的操作则由α()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合。其中,W是权重向量,该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换,即每一层的权重W控制着如何变换空间。训练深度神经网络的目的,也就是最终获取训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。
3、卷积神经网络。
卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使同一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习获取的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习获取合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。本申请实施例中的分离网络、识别网络、检测网络、深度估计网络等网络都可以是CNN。
4、循环神经网络(RNN)。
在传统的神经网络中模型中,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题是无法解决的。比如,预测句子的下一个单词是什么,因为一个句子中前后单词并不是独立的,一般需要用到前面的单词。循环神经网络(RNN)指的是一个序列当前的输出与之前的输出也有关。具体的表现形式为网络会对前面的信息进行记忆,保存在网络的内部状态中,并应用于当前输出的计算中。
5、损失函数。
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(lossfunction)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
6、生成式对抗网络
生成式对抗网络(generative adversarial networks,GAN)是一种深度学习模型。该模型中至少包括两个模块:一个模块是生成模型(Generative Model),另一个模块是判别模型(Discriminative Model),通过这两个模块互相博弈学习,从而产生更好的输出。生成模型和判别模型都可以是神经网络,具体可以是深度神经网络,或者卷积神经网络。GAN的基本原理如下:以生成图片的GAN为例,假设有两个网络,G(Generator)和D(Discriminator),其中G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z);D是一个判别网络,用于判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,如果为0,就代表不可能是真实的图片。在对该生成式对抗网络进行训练的过程中,生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D,而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样,G和D就构成了一个动态的“博弈”过程,也即“生成式对抗网络”中的“对抗”。最后博弈的结果,在理想的状态下,G可以生成足以“以假乱真”的图片G(z),而D难以判定G生成的图片究竟是不是真实的,即D(G(z))=0.5。这样就得到了一个优异的生成模型G,它可以用来生成图片。
7、域
域是指数据的来源或产生的环境,在不同的域中的数据分布往往是不同的。
8、域泛化
在分布不同于当前训练数据的测试集上泛化。
9、因果不变变换(causal invariant transformation,CIT)
不改变问题输入文本或者因果特征(也可以称为本质特征)的变换。
下面介绍本申请实施例提供的系统架构。
参见附图1,本发明实施例提供了一种系统架构100。如所述系统架构100所示,数据采集设备160用于采集训练数据,本申请实施例中训练数据包括:图像数据、文本数据或音频数据。并将训练数据存入数据库130,训练设备120基于数据库130中维护的训练数据训练获取目标模型/规则101。下面将以实施例一更详细地描述训练设备120如何基于训练数据获取目标模型/规则101,该目标模型/规则101能够用于实现分类任务或识别任务。本申请实施例中的目标模型/规则101具体可以包括识别网络、分类网络等,具体此处不做限定。在本申请提供的实施例中,该识别网络或分类网络等是第一神经网络。需要说明的是,在实际的应用中,所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收获取的。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备120训练获取的目标模型/规则101可以应用于不同的系统或设备中,如应用于图1所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR),车载终端等,还可以是服务器或者云端等。在附图1中,执行设备110配置有I/O接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:图像数据、文本数据或音频数据,可以是用户输入的,也可以是用户通过音频设备、相机等设备上传的,当然还可以来自数据库,具体此处不做限定。
预处理模块113用于根据I/O接口112接收到的图像数据、文本数据或音频数据进行预处理,例如:音频数据的短时傅里叶变换处理、文本数据的音素处理或图像数据的尺寸处理等。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理获取的数据、指令等存入数据存储系统150中。
最后,I/O接口112将处理结果,如上述获取的分类结果或识别结果返回给客户设备140,从而提供给用户。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则101,该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在附图1中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获取用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,附图1仅是本发明实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在附图1中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。
如图1所示,根据训练设备120训练获取目标模型/规则101,该目标模型/规则101在本申请实施例中可以是第一神经网络,具体的,在本申请实施例提供的第一神经网络可以是卷积神经网络或者循环神经网络。
下面介绍本申请实施例提供的一种芯片硬件结构。
图2为本发明实施例提供的一种芯片硬件结构,该芯片包括神经网络处理器20。该芯片可以被设置在如图1所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中,用以完成训练设备120的训练工作并输出目标模型/规则101。如卷积神经网络中各层的算法均可在如图2所示的芯片中得以实现。
神经网络处理器20可以是神经网络处理器(neural-network processing unit,NPU),张量处理器(tensor processing unit,TPU),或者图形处理器(graphicsprocessing unit,GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例:神经网络处理器20作为协处理器挂载到主中央处理器(central processing unit,CPU)(hostCPU)上,由主CPU分配任务。NPU的核心部分为运算电路203,控制器204控制运算电路203提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路203内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路203是二维脉动阵列。运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路203是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器202中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器201中取矩阵A数据与矩阵B进行矩阵运算,获取的矩阵的部分结果或最终结果,保存在累加器208中。
向量计算单元207可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元207可以用于神经网络中非卷积/非FC层的网络计算,如池化(Pooling),批归一化(Batch Normalization),局部响应归一化(Local Response Normalization)等。
在一些实现种,向量计算单元能207将经处理的输出的向量存储到统一缓存器206。例如,向量计算单元207可以将非线性函数应用到运算电路203的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元207生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路203的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器206用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器205(direct memory accesscontroller,DMAC)将外部存储器中的输入数据搬运到输入存储器201和/或统一存储器206、将外部存储器中的权重数据存入权重存储器202,以及将统一存储器206中的数据存入外部存储器。
总线接口单元(bus interface unit,BIU)210,用于通过总线实现主CPU、DMAC和取指存储器209之间进行交互。
与控制器204连接的取指存储器(instruction fetch buffer)209,用于存储控制器204使用的指令。
控制器204,用于调用指存储器209中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器206,输入存储器201,权重存储器202以及取指存储器209均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory,DDR SDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
下面结合附图对本申请实施例的数据处理方法进行详细的介绍。
首先,结合图3对本申请实施例的数据处理方法进行详细介绍。图3所示的方法可以由数据处理设备执行,也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该数据处理设备可以是云端设备,也可以是终端设备,例如:数据处理设备可以是手机、服务器等运算能力足以用来执行第一神经网络的训练方法的装置。可以理解的是,该方法也可以是由云端设备和终端设备构成的系统执行。示例性地,数据处理方法可以由图1中的训练设备120、图2中的神经网络处理器20执行。
可选地,训练方法可以由CPU处理,也可以由CPU和GPU共同处理,也可以不用GPU,而使用其他适合用于神经网络计算的处理器,本申请不做限制。
该方法的应用场景(或者理解为是目标神经网络的应用场景)可以用于实现分类任务或识别任务等,本申请实施例中对目标神经网络的结构和任务不做限定。尤其是对于数据分布不同的多个域的任务表现更好。例如:目标神经网络可以应用于图像识别、行人再识别(Re-ID)、街景识别、视频理解等计算机视觉的任务中。也可以应用于健康医疗领域,例如帕金森病识别、组织分割、X光胸片识别、以及震颤检测等任务中。还可以应用于自然语言处理领域,例如:情感分析、语义分割、网页分类等任务中。
本申请实施例提供的数据处理方法可以包括步骤301至步骤303。下面对步骤301至步骤303进行详细说明。
步骤301,获取训练数据。
本申请实施例中数据处理设备获取训练数据的方式有多种方式,可以是通过数据处理设备采集训练数据的方式,也可以是通过接收其他设备发送的训练数据的方式,还可以是从数据库中选取训练数据的方式等,具体此处不做限定。
本申请实施例中,仅以训练数据是图像数据为例进行示例性描述,可以理解的是,在实际应用中,训练数据还可以是音频数据或文本数据等,具体此处不做限定。
步骤302,确定训练数据的变换信息。
本申请实施例中的变换信息可以理解为是不影响训练数据的分类结果或识别结果的信息。也可以理解为是经过变换信息变换后的训练数据与变换前的训练数据的分类结果或识别结果不变,或者去掉变换信息后的训练数据与训练数据的分类结果或识别结果不变。该变换信息也可以理解为是不影响训练数据本质特征的变换,该本质特征用于决定训练数据的分类结果或识别结果。该变换信息可以称为因果不变变换(causal invarianttransformation,CIT)的信息。换句话说,训练数据以及经过CIT变换后的训练数据的本质特征相同或近似。
可选地,训练数据是图像数据,变换信息可以包括图像平移、图像旋转、图像颜色变换、图像风格变换以及图像背景替换信息中的至少一种。
可选地,训练数据是音频数据,变换信息可以是同义词替换等。训练数据是文本数据,变换信息可以是同义词替换或文本的音素位置替换等。当然,变换信息还可以是文本数据中状语位置的替换、文本中音素位置替换或用词顺序的微调等。例如“研表究明,汉字的序顺并不定一能影阅响读”中的“研表究明”,并不影响“研究表明”的本质特征。
该种可能的实现方式中,对于不影响音频数据/文本数据本质特征的变化都可以认为是变换信息,例如同义词替换或文本的音素位置替换等。
示例性的,训练数据是白色“马”的图像,经过CIT变换后的数据为红色“马”的图像。该示例下的本质特征就是“马”的特征。或者理解为,图像的类别与图像的颜色无关,即白色“马”的图像与红色“马”的图像并不会影响该图像是“马”的结果。因此,该颜色变换在该场景下并不影响训练数据的本质特征,该颜色变换即上述的CIT。
本申请实施例中确定训练数据的变换信息有多种方式,下面分别描述:
第一种,基于先验信息确定训练数据的变换信息。
该先验信息可以理解为是用户基于训练数据所确定的,该用户可以是指数据处理设备的使用者或者领域专家等。
可选地,基于用户对图像数据的先验信息,可以确定在分类或识别场景中,例如:图像的平移、旋转、颜色变换、图像风格变换以及图像背景替换等并不会影响图像数据的分类结果或识别结果。
第二种,基于第一神经网络确定训练数据的变换信息。
本申请实施例中的第一神经网络用于变换训练数据的属性,该属性不改变训练数据的本质特征。也可以理解为,第一神经网络用于图像平移、图像旋转、图像颜色变换、图像风格变换以及图像背景替换。
示例性的,第一神经网络可以是循环生成式对抗网络(cycle generativeadversarial networks,CycleGAN)、星形生成式对抗网络(star generative adversarialnetworks,StarGAN)等。
可选地,该第一神经网络可以是生成网络,具体也可以是通过训练数据以及经过变换信息变换后的训练数据训练得到的第一神经网络,具体此处不做限定。
本申请实施例中确定训练数据的变换信息有多种方式,上面两种只是举例,在实际应用中,还可以有其他方式确定变换信息,具体此处不做限定。
步骤303,基于变换信息、损失函数以及训练数据训练目标神经网络,得到训练好的目标神经网络。
数据处理设备获取训练数据与变换信息之后,可以基于变换信息确定损失函数。
进一步的,基于变换信息确定损失函数中的正则项,该正则项用于表示训练过程中第一输出与第二输出之间的差异。第一输出为训练数据输入目标神经网络的输出,第二输出是经过变换信息变换后的训练数据输入目标神经网络的输出。
另外,损失函数中还包括损失项。该损失项用于表示训练过程中第一输出与训练数据的标签值之间的差异。
可选地,在回归问题中,损失项常用平方损失或绝对值损失。在分类问题中,损失项常用交叉熵损失。可以理解的是,在实际应用中,损失项还可以有其他的形式,具体此处不做限定。
换句话说,如果目标神经网络的空间约束在所有满足“CIT不会改变目标神经网络的输出”这样性质的目标神经网络中,并寻找在训练数据上表现最好的目标神经网络(即目标神经网络),这样得到的目标神经网络具有良好的域泛化能力。根据这样的理论结果,本申请实施例通过构造正则项来增强目标神经网络输出关于因果不变变换的稳定性。
可选地,损失函数的具体公式可以如下:
L=损失项+正则项
损失项=L(Yi,h(Xi))
Figure BDA0003291670090000121
其中,i=1,…n;h()表示目标神经网络,训练数据包括X1,…Xn;例如,Xi是图像,Yi是图像Xi的标签;λ是调节参数,具体根据实际需要设置;k是变换信息T的数量;D(h(Xi),h(Tk(Xi)))表示h(Xi)与h(Tk(Xi))之间距离的度量,h(Xi)表示训练数据Xi输入目标神经网络h()的第一输出,h(Tk(Xi))表示经过变换信息Tk变换后的训练数据Tk(Xi)输入目标神经网络h()的第二输出。
可以理解的是,上述公式只是损失函数的一种举例,在实际应用中,还可以有其他形式的变形,具体此处不做限定。
数据处理设备基于变换信息确定损失函数之后,可以基于变换信息、损失函数以及训练数据训练目标神经网络,得到训练好的目标神经网络。
可选地,以训练数据与变换信息为目标神经网络的输入,以损失函数的值小于第一阈值为目标对目标神经网络训练得到。该过程也可以理解为不断缩小目标神经网络的输出与真实值(或称为标签值)之间的差异,进而使得训练得到的目标神经网络可以输出与真实值更加接近的输出。
本申请实施例中,通过确定训练数据变换信息,并基于该变换信息确定损失函数,再基于变换信息、损失函数以及训练数据训练目标神经网络。由于变换信息是不影响分类结果或识别结果的信息,减少由于变换信息这种伪相关性的误导,使得经过基于变换信息确定的损失函数与训练数据训练得到的目标神经网络可以捕捉训练数据的本质特征,从而可以应用于对于训练数据属性变化的多个域,提升目标神经网络的域泛化能力。
为了方便直观看出经过上述数据处理方法得到的目标神经网络的准确率,下面通过在两个数据集上的表现,对比现有训练方式得到的网络与经过上述数据处理方法得到的目标神经网络的准确率。
现有网络的训练方式采用以下几种算法:经验风险最小化(empirical riskminimization,ERM)、不变风险最小化(invariant risk minimization,IRM)、分组分布鲁棒优化(group distributionally robust optimization,GroupDRO)、域对抗神经网络(domain-adversarial neural networks,DANN)以及边际迁移学习(marginal transferlearning,MTL)。
下面针对现有训练方式训练得到的模型以及本申请实施例提供的数据处理方法所训练得到的模型在准确率的维度上进行比较,其中模型可以都采用相同的网络结构。
实验一:采用数据集C-MINST手写数字识别数据集为例说明目标神经网络的准确率。
C-MINST手写数字数据集包括彩色的手写数字图片。根据不同的数字(从零到九),图片可以分成十类。训练数据中数字与背景的颜色是与数字本身相关的。在测试数据中,每张图片的颜色是随机分配的。任务是使用在训练数据集中训练的模型完成在测试数据集中的数字识别。
在这个问题中,用户可以总结出训练数据的先验信息,即图片的类别与图片的颜色无关。根据这样的先验信息可以得到一种变换信息,也就是把原本彩色的图片变成黑白的。利用该颜色变换构建的损失函数训练目标神经网络,得到目标神经网络。
为了与已有的基于多个域的数据的算法进行比较,可以将原始训练数据看成一个域,将变换生成的黑白数字图片看成一个域,运行了一些域泛化算法。准确率结果见下表1:
表1
Figure BDA0003291670090000131
由表1可以看出,目标神经网络的准确率为96.8,远高于其他算法的准确率。
实验二:采用PACS数据集(Li et al,2017)为例说明目标神经网络的准确率。
PACS数据集包含照片、油画、卡通、素描四种风格的图片,每种风格的图片构成一个域。图片可以分成狗、大象、长颈鹿、吉他、马、房子、人这样的七类,任务是区分图片上的物体属于哪一类。可以在三个域上训练目标神经网络,得到目标神经网络,然后测试所得目标神经网络在另一个域上的效果。
由于风格变换不会改变图片的本质特征,因此风格变换是因果不变变换。利用训练数据中的三个域训练CycleGAN得到可以改变图片风格的变换模型。可以理解的是,也可以选择训练好的CycleGAN。
示例性的,如图4所示,三个域是油画、卡通以及照片,x是油画,T1(X)是油画到卡通的变换,T2(X)是油画到照片的变换。
采用在三个域(例如:油画、卡通以及照片)上训练模型(例如ResNet50),在另一个域(例如:素描)上做测试的方式评价算法的效果。几种算法的准确率结果见下表2:
表2
Figure BDA0003291670090000132
由表2可以看出,目标神经网络的平均准确率为88.4,高于其他算法的平均准确率。目标神经网络的最小准确率为84.3,远高于其他算法的最小准确率。
由实验一与实验二可以看出,引入了因果不变变换构造正则项,可以在保留输入数据本质特征的同时有效的减少伪相关的误导。在训练数据只含有少数几个域的情况下得到可以泛化到各种不同域的模型。
上面对本申请实施例中的数据处理方法进行了描述,下面对本申请实施例中的数据处理设备进行描述,请参阅图5,本申请实施例中数据处理设备的一个实施例包括:
获取单元501,用于获取训练数据;
确定单元502,用于确定训练数据的变换信息,变换信息为不影响训练数据的分类结果或识别结果的信息;
训练单元503,用于基于变换信息、损失函数以及训练数据训练目标神经网络,得到训练好的目标神经网络,损失函数包括损失项与正则项,损失项用于表示训练过程中目标神经网络的输出与训练数据的标签值的差异,正则项用于表示训练过程中第一输出与第二输出之间的差异,第一输出为训练数据输入目标神经网络的输出,第二输出为经过变换信息变换后的训练数据输入目标神经网络的输出,目标神经网络用于实现分类任务或识别任务。
本实施例中,数据处理设备中各单元所执行的操作与前述图3所示实施例中描述的类似,此处不再赘述。
本实施例中,确定单元502确定训练数据变换信息,并基于该变换信息确定损失函数,训练单元503再基于变换信息、损失函数以及训练数据训练目标神经网络。由于变换信息是不影响分类结果或识别结果的信息,减少由于变换信息这种伪相关性的误导,使得经过基于变换信息确定的损失函数与训练数据训练得到的目标神经网络可以捕捉训练数据的本质特征,从而可以应用于对于训练数据属性变化的多个域,提升目标神经网络的域泛化能力。
以数据处理设备为手机为例,图6示出的是与本申请实施例提供的数据处理设备-手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线、惯性测量单元(inertial measurementunit,IMU)、即时定位与地图构建(simultaneous localization and mapping,SLAM)传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成。
处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
手机还包括给各个部件供电的电源690(比如电池),优选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器680可以执行本申请实施例中数据处理设备的功能,此处不再赘述。
参阅图7,本申请提供的另一种数据处理设备的结构示意图。该数据处理设备可以包括处理器701、存储器702和通信接口703。该处理器701、存储器702和通信接口703通过线路互联。其中,存储器702中存储有程序指令和数据。
存储器702中存储了前述图3所示对应的实施方式中,由设备执行的步骤对应的程序指令以及数据。
处理器701,用于执行前述图3所示实施例中任一实施例所示的由设备执行的步骤。
通信接口703可以用于进行数据的接收和发送,用于执行前述图3所示实施例中任一实施例中与获取、发送、接收相关的步骤。
一种实现方式中,数据处理设备可以包括相对于图7更多或更少的部件,本申请对此仅仅是示例性说明,并不作限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。
当使用软件实现所述集成的单元时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

Claims (19)

1.一种数据处理方法,其特征在于,所述方法包括:
获取训练数据;
确定所述训练数据的变换信息,所述变换信息为不影响所述训练数据分类结果或识别结果的信息;
基于所述变换信息、所述损失函数以及所述训练数据训练目标神经网络,得到训练好的所述目标神经网络,所述损失函数包括损失项与正则项,所述损失项用于表示训练过程中所述目标神经网络的输出与所述训练数据的标签值的差异,所述正则项用于表示训练过程中第一输出与第二输出之间的差异,所述第一输出为所述训练数据输入所述目标神经网络的输出,所述第二输出为经过所述变换信息变换后的训练数据输入所述目标神经网络的输出,所述目标神经网络用于实现分类任务或识别任务。
2.根据权利要求1所述的方法,其特征在于,所述确定所述训练数据的变换信息,包括:
基于先验信息或第一神经网络确定所述变换信息,所述先验信息为用户基于所述训练数据所确定的,所述第一神经网络用于变换所述训练数据的属性,所述属性不改变所述本质特征。
3.根据权利要求2所述的方法,其特征在于,所述基于先验信息或第一神经网络确定变换信息,包括:
接收所述用户输入的所述变换信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述先验信息或第一神经网络确定变换信息,包括:
确定所述第一神经网络对应的函数为所述变换信息。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述第一神经网络为循环生成式对抗网络CycleGAN,或星形生成式对抗网络StarGAN。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述训练数据为图像数据,所述变换信息包括图像平移、图像旋转、图像颜色变换、图像风格变换、图像背景替换信息中的至少一种。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述训练数据为音频数据,所述变换信息包括同义词替换;或者所述训练数据为文本数据,所述变换信息包括同义词替换或文本的音素位置替换。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述基于所述变换信息、所述损失函数以及所述训练数据训练目标神经网络,包括:
以所述训练数据与所述变换信息作为所述目标神经网络的输入,以所述损失函数的值小于第一阈值为目标对所述目标神经网络进行训练,得到训练好的所述目标神经网络。
9.一种数据处理设备,其特征在于,所述数据处理设备包括:
获取单元,用于获取训练数据;
确定单元,用于确定所述训练数据的变换信息,所述变换信息为不影响所述训练数据分类结果或识别结果的信息;
训练单元,用于基于所述变换信息、所述损失函数以及所述训练数据训练目标神经网络,得到训练好的目标神经网络,所述损失函数包括损失项与正则项,所述损失项用于表示训练过程中所述目标神经网络的输出与所述训练数据的标签值的差异,所述正则项用于表示训练过程中第一输出与第二输出之间的差异,所述第一输出为所述训练数据输入所述目标神经网络的输出,所述第二输出为经过所述变换信息变换后的训练数据输入所述目标神经网络的输出,所述目标神经网络用于实现分类任务或识别任务。
10.根据权利要求9所述的设备,其特征在于,所述确定单元,具体用于基于先验信息或第一神经网络确定所述变换信息,所述先验信息为用户基于所述训练数据所确定的,所述第一神经网络用于变换所述训练数据的属性,所述属性不改变所述本质特征。
11.根据权利要求10所述的设备,其特征在于,所述确定单元,具体用于接收所述用户输入的所述变换信息。
12.根据权利要求10所述的设备,其特征在于,所述确定单元,具体用于确定所述第一神经网络对应的函数为所述变换信息。
13.根据权利要求10至12中任一项所述的设备,其特征在于,所述第一神经网络为循环生成式对抗网络CycleGAN,或星形生成式对抗网络StarGAN。
14.根据权利要求9至13中任一项所述的设备,其特征在于,所述训练数据为图像数据,所述变换信息包括图像平移、图像旋转、图像颜色变换、图像风格变换、图像背景替换信息中的至少一种。
15.根据权利要求9至13任一项所述的设备,其特征在于,所述训练数据为音频数据,所述变换信息包括同义词替换;或者所述训练数据为文本数据,所述变换信息包括同义词替换或文本的音素位置替换。
16.根据权利要求9至15中任一项所述的设备,其特征在于,所述训练单元,具体用于以所述训练数据与所述变换信息作为所述目标神经网络的输入,以所述损失函数的值小于第一阈值为目标对所述目标神经网络进行训练,得到训练好的所述目标神经网络。
17.一种数据处理设备,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序或指令,当所述程序或指令被所述处理器执行时,使得所述数据处理设备执行如权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品在计算机上执行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。
CN202111166873.6A 2021-09-30 2021-09-30 一种数据处理方法及相关设备 Pending CN115905932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111166873.6A CN115905932A (zh) 2021-09-30 2021-09-30 一种数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111166873.6A CN115905932A (zh) 2021-09-30 2021-09-30 一种数据处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN115905932A true CN115905932A (zh) 2023-04-04

Family

ID=86490002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111166873.6A Pending CN115905932A (zh) 2021-09-30 2021-09-30 一种数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN115905932A (zh)

Similar Documents

Publication Publication Date Title
CN111476306B (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
CN109919251B (zh) 一种基于图像的目标检测方法、模型训练的方法及装置
WO2022083536A1 (zh) 一种神经网络构建方法以及装置
US20190108447A1 (en) Multifunction perceptrons in machine learning environments
WO2022068623A1 (zh) 一种模型训练方法及相关设备
WO2021190296A1 (zh) 一种动态手势识别方法及设备
CN109903314A (zh) 一种图像区域定位的方法、模型训练的方法及相关装置
CN109902296B (zh) 自然语言处理方法、训练方法及数据处理设备
CN111401445B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
CN112487217A (zh) 跨模态检索方法、装置、设备及计算机可读存储介质
WO2021047587A1 (zh) 手势识别方法、电子设备、计算机可读存储介质和芯片
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
WO2021190433A1 (zh) 更新物体识别模型的方法和装置
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN113065593A (zh) 模型训练方法、装置、计算机设备和存储介质
CN115222896B (zh) 三维重建方法、装置、电子设备及计算机可读存储介质
WO2023185925A1 (zh) 一种数据处理方法及相关装置
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN112529149A (zh) 一种数据处理方法及相关装置
CN115879508A (zh) 一种数据处理方法及相关装置
CN112257840B (zh) 一种神经网络处理方法以及相关设备
CN112862021B (zh) 一种内容标注方法和相关装置
CN111695419B (zh) 一种图像数据处理方法及相关装置
CN116958041A (zh) 一种产品缺陷检测方法、装置、电子设备和存储介质
CN115795025A (zh) 一种摘要生成方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination