CN111626913A

CN111626913A - 一种图像处理方法、装置及存储介质

Info

Publication number: CN111626913A
Application number: CN201910147376.8A
Authority: CN
Inventors: 杨小平
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-09-04
Anticipated expiration: 2039-02-27
Also published as: CN111626913B

Abstract

本发明实施例公开了一种图像处理方法、装置及存储介质，方法包括：图像处理装置首先获取训练图像，其中，所述训练图像对应多个标签；然后根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；再将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；最后根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。本发明实施例中的训练图像对应多个标签，且只需要训练图像中损失值大于阈值的部分参与反向传播，可以更加明显地识别训练图像的边界部分，从而提高该神经网络模型的泛化能力以及准确度。

Description

一种图像处理方法、装置及存储介质

技术领域

本发明涉及数据识别领域，具体涉及一种图像处理方法、装置及存储介质。

背景技术

泛化能力是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

通常期望经训练样本训练的网络具有较强的泛化能力，也就是对新输入给出合理响应的能力，如何提高网络模型的泛化能力以及准确度一直是研究的热点。

发明内容

本发明实施例提供一种图像处理方法，装置和存储介质，可以提高模型的泛化能力以及准确度。

一方面，本发明提供一种图像处理方法，所述方法包括：

获取训练图像，所述训练图像对应多个标签；

根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；

将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；

根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。

可选的，在一些实施例中，所述根据神经网络模型确定所述训练图像中各个像素点所对应的损失值之前，所述方法还包括：

构建所述神经网络模型；

对所述神经网络模型的损失层进行大边界处理。

可选的，在一些实施例中，所述获取训练图像之后，所述方法还包括：

对所述训练图像进行数据增广处理，得到增广后的训练图像。

可选的，在一些实施例中，所述对所述训练图像进行数据增广处理，得到增广后的训练图像，包括：

根据所述神经网络模型分别确定所述增广后的训练图像中各个像素点所对应的损失值。

可选的，在一些实施例中，所述对所述训练图像进行数据增广处理，包括：

对所述训练图像进行旋转处理、剪切处理、镜像处理、像素偏移处理、模糊处理、放射变换处理、增加噪声处理、图像锐化处理和缩放处理中的一种或多种处理。

可选的，在一些实施例中，所述训练图像包括光流图和灰度图。

可选的，在一些实施例中，所述对所述训练图像进行数据增广处理之前，所述方法还包括：

对所述训练图像中的光流图和灰度图进行通道分离处理。

相应的，本发明实施例还提供一种图像处理装置，包括：

第一获取单元，用于获取训练图像，所述训练图像对应多个标签；

第一确定单元，用于根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；

第二确定单元，用于将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；

第三确定单元，用于根据所述目标像素点确定用于所述神经网络模型反向传播训练的目标图像。

可选的，在一些实施例中，所述装置还包括：

构建单元，用于构建所述神经网络模型；

第一处理单元，用于对所述神经网络模型的损失层进行大边界处理。

可选的，在一些实施例中，所述获取训练图像之后，所述装置还包括：

第二处理单元，用于对所述训练图像进行数据增广处理，得到增广后的训练图像。

可选的，在一些实施例中，所述第一确定单元具体用于：

可选的，在一些实施例中，所述第二处理单元具体用于括：

可选的，在一些实施例中，所述装置还包括：

第三处理单元，用于对所述训练图像中的光流图和灰度图进行通道分离处理。

本申请的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种图像处理方法中的步骤。

本发明实施例中，图像处理装置首先获取训练图像，其中，所述训练图像对应多个标签；然后根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；再将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；最后根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。本发明实施例中的训练图像对应多个标签，且只需要训练图像中损失值大于阈值的部分参与反向传播，可以更加明显地识别训练图像的边界部分，从而提高该神经网络模型的泛化能力以及准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理方法的一种流程示意图；

图2是本申请实施例提供的图像处理方法的另一种流程示意图；

图3a是本申请实施例提供的图像处理装置的一种结构示意图；

图3b是本申请实施例提供的图像处理装置的另一种结构示意图；

图4是本申请实施例提供的服务器的结构示意图；

图5是本申请实施例提供的存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本发明中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。

本发明实施例提供了一种图像处理方法、装置和存储介质。

该图像处理装置可以集成在网络设备如终端或服务器等设备中，例如，网络设备获取训练图像，其中，所述训练图像对应多个标签；然后根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；再将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；最后根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。

请参阅图1，图1为本发明实施例提供的图像处理方法的第一流程示意图。该方法的具体流程可以如下：

101、获取训练图像，所述训练图像对应多个标签。

本发明实施例中的训练图像对应多个标签，例如，一个训练图像对应两个标签结果，在一个具体的场景中，判断图中装卸口的状态，该装卸口的状态可以对应有车状态，也可以对应车到港状态，即该图对应有车和车到港两种标签。

其中，使用Multy task的方式，通过给每个训练图像多个标签(一般两个)的方式进行训练，可以增加不同标签之间图像在模型中的分散度，从而可以提高该神经网络模型的泛化能力以及准确度。

在一些实施例中，数据量比较小会导致模型过拟合,使得训练误差很小而测试误差特别大，为了解决这种问题，本发明还应用augmentation的方法对训练图像进行扩充处理，其中，该训练图像包括光流图和灰度图，在对训练图像进行扩充处理之前，首先需要对练图像中的光流图和灰度图进行通道分离处理。

在对训练图像进行扩充处理具体包括对所述训练图像进行旋转处理、剪切处理、镜像处理、像素偏移处理、模糊处理、放射变换处理、增加噪声处理、图像锐化处理和缩放处理中的一种或多种处理，更具体地：

旋转处理具体包括：对灰度图和光流图进行随机角度的旋转操作；

剪切处理具体包括：对灰度图和光流图同步进行随机剪切操作；

镜像处理具体包括：对灰度图和光流图做镜像操作；

像素偏移处理具体包括：仅仅对灰度图进行像素偏移(将像素值同步加、减一个随机数)，对比度增强，而光流图不做任何操作；

模糊处理具体包括：对灰度图加入椒盐噪声，和模糊操作，对光流图不做任何操作；

缩放处理具体包括：对灰度图不做任何操作，将光流图的灰度值进行线性变换，进行同步随机缩放，随机缩放的范围为[0.8-1.2]。

应用augmentation的方法对训练图像进行扩充处理可以提交训练的准确度。经试验得知，在一些实施例中，神经网络模型不加augmentation的方式，训练的准确度为92％，增加了augmentation的方式之后训练的准确度提升到94％，所以对样本进行augmentation，可以避免模型过拟合，提高训练的准确度。

102、根据神经网络模型确定所述训练图像中各个像素点所对应的损失值。

本实施例中，需要根据神经网络模型的损失层确定训练图像中各个像素点所对应的损失值，在一些实施例中，若是应用了augmentation的方法对训练图像进行扩充处理，则需要确定扩充处理后的所有训练图像的损失值。

在一些实施例中，在构建该神经网络模型之后，需要对该神经网络模型的损失层进行大边界(large-margin)处理，具体地，当我们定义第i个输入特征x_i以及它的标签y_i，N为训练样本的个数时，f是全连接层的激活函数W的输出，损失值：

其中，||W_yi||·||x_i||cos(θ_yi)＝f_yi；

经过改造后，即大边界处理之后，

其中，

训练过程中λ值与迭代次数相关，当迭代次数越大时，λ减少，这样使得最终的loss偏向

最终使得同类数据更聚集，而异类数据更分散。

对模型的损失层进行大边界处理可以提高准确度，经试验得知，在一些实施例中，在对样本进行augmentation的基础上，对模型的损失层进行大边界处理可以将准确度从94％提升到95％。

给训练图像设置多个标签可以提高准确度，由于本发明实施例中的训练图像对应多个标签，实验得知，在一些实施例中，在对样本进行augmentation以及对模型的损失层进行大边界处理的基础上，给一个训练图像设置多个标签，例如设置两个标签，可以将准确度从95％提升到97％。

103、将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点。

其中，当确定出输入神经网络模型的训练图像的损失值之后，将该图中损失值大于阈值的像素点确定为目标像素点，其中，目标像素点的为需要参与神经网络训练模型反向传播训练的像素点。

需要说明的是，该阈值可以为0.7，也可以为其他数值，具体数值此处不做限定。

在一些实施例中，可以获取损失值小于该阈值的像素点的在训练图像中的位置信息，其中该位置信息可以为坐标信息；然后在该位置信息对应的位置上标记非目标像素点标签，最后将没有标记该非目标像素点标签的像素点确定为该目标像素点。

此外，还可以直接获取损失值大于该阈值的像素点在训练图像中的位置信息，然后将该位置信息上的像素点确定为目标像素点。

104、根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。

本实施例中，当获取了目标像素点之后，还将根据目标像素点获取用于该神经网络模型反向传播训练的目标图像，具体地，可以如下：去除训练图像中的非目标像素点，保留目标像素点得到目标图像，或提取目标像素点以及目标像素点的坐标，构成目标图像。

其中，本发明实施例使用hard-mining的方法对神经网络模型进行训练，只需要损失值大于阈值的像素点所对应的图像进行反向传播，并计算其梯度，但是损失值较小，即损失值小于阈值的像素点所对应的图像不需要进行反向传播，也就是说，损失值比较小的像素点对梯度的更新不起任何作用，通过这样的方式，可以增加图片边界的明显度，分散度，通过实验，在对样本进行augmentation、对模型的损失层进行大边界处理以及给一个训练图像设置多个标签的基础上，可以提高准确度，经试验得知，在一些实施例中，上述步骤可以将准确度从97％提升到97.8％。

此外，在一些实施例中，本发明实施例还使用augmentation的方法增加了样本个数，以及使用large-margin的方法改造了模型损失层中损失值的计算方式，所以本发明可以进一步提高神经网络模型的泛化能力以及准确度，增加了神经网络模型对新鲜样本的适应能力。

请参阅图2，图2为本发明实施例提供的图像处理方法的另一流程示意图。方法的具体流程可以如下：

201、构建所述神经网络模型。

首先，本发明实施例需要构建神经网络模型，该神经网络模型主要包括卷积层，池化层(pooling)，全连接层，损失层等。

202、对所述神经网络模型的损失层进行大边界处理。

刚构建的神经网络模型的损失层一般是按照常规算法进行损失值的计算的，为了使得同类数据更聚集，而异类数据更分散，本发明需要对神经网络模型的损失层进行重新设计。

即需要对该神经网络模型的损失层进行大边界(large-margin)处理，具体地，当我们定义第i个输入特征x_i以及它的标签y_i，N为训练样本的个数时，f是全连接层的激活函数W的输出，损失值：

其中，||W_yi||·||x_i||cos(θ_yi)＝f_yi；

经过改造后，即大边界处理之后，

其中，

最终使得同类数据更聚集，而异类数据更分散。

对模型的损失层进行大边界处理可以提高准确度，经试验得知，在一些实施例中，对模型的损失层进行大边界处理可以将准确度从94％提升到95％。

203、获取训练图像，所述训练图像对应多个标签。

其中，本发明实施例中的训练图像对应多个标签，例如，一个训练图像对应两个标签结果，在一个具体的场景中，判断图中装卸口的状态，该装卸口的状态可以对应有车状态，也可以对应车到港状态，即该图对应有车和车到港两种标签。

204、对所述训练图像进行数据增广处理，得到增广后的训练图像。

在对训练图像进行扩充处理具体包括对所述训练图像进行旋转处理、剪切处理、镜像处理、像素偏移处理、模糊处理、放射变换处理、增加噪声处理、图像锐化处理和缩放处理中的一种或多种处理，更具体地，至少可以包括以下步骤：

镜像处理具体包括：对灰度图和光流图做镜像操作；

205、根据神经网络模型确定所述训练图像中各个像素点所对应的损失值。

在一些实施例中，本发明使用损失层进行过大边界处理的神经网络模型计算训练图像的损失值，其中，由于本发明还对训练图像进行过扩充处理，所以需要对扩充处理后的每张图像进行损失值的计算。

206、将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点。

207、根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。

为了更好地实施本发明实施例提供的图像处理方法，本发明实施例还提供一种图像处理装置，该图像处理装置具体可以集成在服务器中。其中名词的含义与上述图像处理方法中相同，具体实现细节可以参考方法实施例中的说明。请参阅图3a，图3a为本发明实施例提供的图像处理装置的结构示意图，该图像处理装置300包括第一获取单元301、第一确定单元302、第二确定单元303、第三确定单元304，如下：

第一获取单元301，用于获取训练图像，所述训练图像对应多个标签；

第一确定单元302，用于根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；

第二确定单元303，用于将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；

第三确定单元304，用于根据所述目标像素点确定用于所述神经网络模型反向传播训练的目标图像。

请参阅图3b，在一些实施例中，所述装置300还包括：

构建单元305，用于构建所述神经网络模型；

第一处理单元306，用于对所述神经网络模型的损失层进行大边界处理。

可选的，在一些实施例中，所述获取训练图像之后，所述装置300还包括：

第二处理单元307，用于对所述训练图像进行数据增广处理，得到增广后的训练图像。

在一些实施例中，所述第一确定单元302具体用于：

在一些实施例中，所述第二处理单元307具体用于括：

在一些实施例中，所述训练图像包括光流图和灰度图。

在一些实施例中，所述装置还300包括：

第三处理单元308，用于对所述训练图像中的光流图和灰度图进行通道分离处理。

本发明实施例中，首先第一获取单元301获取训练图像，其中，所述训练图像对应多个标签；然后第一确定单元302根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；第二确定单元303再将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；最后第三确定单元304根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。本发明实施例中的训练图像对应多个标签，且只需要训练图像中损失值大于阈值的部分参与反向传播，可以更加明显地识别训练图像的边界部分，从而提高该神经网络模型的泛化能力以及准确度。

参考图4，本发明实施例提供了一种服务器400，可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(RadioFrequency，RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。

RF电路403可用于收发信息过程中，信号的接收和发送。

服务器还包括给各个部件供电的电源404(比如电池)，优选的，电源可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

该服务器还可包括输入单元405，该输入单元405可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括显示单元406，该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取训练图像，所述训练图像对应多个标签；

由上可知，本发明实施例中，图像处理装置首先获取训练图像，其中，所述训练图像对应多个标签；然后根据神经网络模型确定所述训练图像中各个像素点所对应的损失值；再将所述损失值中大于阈值的损失值所对应的像素点确定为目标像素点；最后根据所述目标像素点获取用于所述神经网络模型反向传播训练的目标图像。本发明实施例中的训练图像对应多个标签，且只需要训练图像中损失值大于阈值的部分参与反向传播，可以更加明显地识别训练图像的边界部分，从而提高该神经网络模型的泛化能力以及准确度。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，如图5所示，本实施例提供了一种存储介质500，其上存储有计算机程序511(其中包含多条指令)，该计算机程序511被处理器执行时实现如下步骤：

获取训练图像，所述训练图像对应多个标签；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种图像处理方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取训练图像，所述训练图像对应多个标签；

2.根据权利要求1所述的方法，其特征在于，所述根据神经网络模型确定所述训练图像中各个像素点所对应的损失值之前，所述方法还包括：

构建所述神经网络模型；

对所述神经网络模型的损失层进行大边界处理。

3.根据权利要求1所述的方法，其特征在于，所述获取训练图像之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据神经网络模型确定所述训练图像中各个像素点所对应的损失值，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述训练图像进行数据增广处理，包括：

对所述训练图像进行旋转处理、剪切处理、镜像处理、像素偏移处理、模糊处理、放射变换处理、增加噪声处理、图像锐化处理、放射变换处理、增加噪声处理、图像锐化处理和缩放处理中的一种或多种处理。

6.根据权利要求5所述的方法，其特征在于，所述训练图像包括光流图和灰度图。

7.根据权利要求6所述的方法，其特征在于，所述对所述训练图像进行数据增广处理之前，所述方法还包括：

对所述训练图像中的光流图和灰度图进行通道分离处理。

8.一种图像处理装置，其特征在于，包括：

9.一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1至7中任意一项所述的图像处理方法中的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的图像处理方法中的步骤。