CN108304845B

CN108304845B - 图像处理方法、装置及存储介质

Info

Publication number: CN108304845B
Application number: CN201810039464.1A
Authority: CN
Inventors: 李毅; 张伟辰; 吕敏; 王红法; 薛伟; 肖磊; 金涬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2021-11-09
Anticipated expiration: 2038-01-16
Also published as: CN108304845A

Abstract

本发明公开了一种图像处理方法、装置及存储介质，属于图像处理技术领域。所述方法包括：对原始图像进行离散化处理，得到离散值图像；根据每个栅格的离散值，从离散值图像上，确定至少一个连通域；根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果；根据所有连通域上的池化计算结果，确定对原始图像的池化计算结果。本发明根据每个栅格的离散值和栅格间的位置关系，从离散值图像上确定出至少一个连通域，由于连通域上的各个像素点具有一定的关联性，因而池化计算结果更准确，进一步地提高了基于该池化结果所训练的图像识别模型的准确性。

Description

图像处理方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像处理方法、装置及存储介质。

背景技术

CNN(Convolutional Neural Networks，卷积神经网络)作为图像处理领域中一种常见的网络结构，其所训练的图像识别模型在图像物体检测、图像文字检测、图像分割等方面具有广泛的用途。CNN主要包括卷积层、池化层、规则化层及全连接层等主要结构，池化层作为CNN中重要的组成部分，主要对图像进行池化计算，从而达到降低图像特征的维度、突出显著特征、提高计算速度及模型训练精度的目的。

池化计算包括最大池化计算、平均池化计算等，以采用最大池化计算对原始图像进行处理为例，具体处理过程：对原始图像进行离散化计算，得到离散值图像；将离散值图像输入到CNN中，经过卷积层的卷积计算，得到特征图像，其中，特征图像包括至少一个特征点，每个特征点具有一个特征值；按照池化窗的设置将特征图像划分为多个矩形区域，从每个矩形区域所包括的特征点中，获取最大的特征值作为每个矩形区域上的池化计算结果；将所有矩形区域上的池化计算结果，添加到池化窗的相应位置上，得到对原始图像的池化计算结果，该池化计算结果用于训练图像识别模型。

然而，由于图像本身不同区域内的像素点之间具有一定的关联性，而相关技术仅将需要进行池化计算的图像划分为多个矩形区域，并在每个矩形区域内进行池化计算，导致图像处理结果并不准确，进一步地影响到所训练的图像识别模型的准确性。

发明内容

为了解决相关技术的问题，本发明实施例提供了一种图像处理方法、装置及存储介质。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

对原始图像进行离散化处理，得到离散值图像，所述离散值图像包括多个栅格，每个栅格代表所述原始图像上的一个像素点，且每个栅格对应一个离散值和一个特征值；

根据每个栅格的离散值，从所述离散值图像上，确定至少一个连通域，每个连通域包括一个栅格或两个以上具有相同的离散值且彼此邻接的栅格；

根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果；

根据所有连通域上的池化计算结果，确定对所述原始图像的池化计算结果。

另一方面，提供了一种图像处理装置，所述装置包括：

图像处理模块，用于对原始图像进行离散化处理，得到离散值图像，所述离散值图像包括多个栅格，每个栅格代表所述原始图像上的一个像素点，且每个栅格对应一个离散值和一个特征值；

区域确定模块，用于根据每个栅格的离散值，从所述离散值图像上，确定至少一个连通域，每个连通域包括一个栅格或两个以上具有相同的离散值且彼此邻接的栅格；

池化计算模块，用于根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果；

计算结果确定模块，用于根据所有连通域上的池化计算结果，确定对所述原始图像的池化计算结果。

另一方面，提供了一种用于图像处理的服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现第一方面所述的图像处理方法。

另一方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如第一方面所述的图像处理方法。

本发明实施例提供的技术方案带来的有益效果是：

根据每个栅格的离散值和栅格间的位置关系，从离散值图像上确定出至少一个连通域，由于连通域上的各个像素点具有一定的关联性，因而池化计算结果更准确，进一步地提高了基于该池化结果所训练的图像识别模型的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种卷积神经网络的结构示意图；

图2是本发明实施例提供的基于区域的最大池化计算的示意图；

图3是本发明实施例提供的一种图像处理方法的流程图；

图4是本发明实施例提供的一种二值图像及其连通区域的示意图；

图5是本发明实施例提供的按照位图排列的连通域标识的示意图；

图6是本发明实施例提供的按照连通域标识排列的像素坐标的示意图；

图7是本发明实施例提供的一种基于二值图像的特征图片进行最大池化计算的计算过程的示意图；

图8是本发明实施例提供的一种基于二值图像的特征图片进行最大池化计算的计算过程的示意图；

图9是本发明实施例提供的图像处理装置的结构示意图；

图10是根据一示例性实施例示出的一种用于图像处理的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在执行本发明之前，首先对本发明中涉及的名词进行如下解释：

池化(pooling)是指通过对图像上不同位置的特征进行聚合统计。池化计算包括最大池化计算、平均池化计算、L2范数池化计算等等。

二值图像是指每个像素只有两个可能值的数字图像。二值图像可采用图像高度、图像宽度及单通道像素值等方式进行存储。

离散值图像是指每个像素只有有限个可能离散值的数字图像。以围棋局面为例，可采用-1、0、1三个离散值表示，其中，1表示当前位置落黑子、-1表示当前位置落白子、0表示当前位置未落子。离散值图像可采用图像高度、图像宽度、单通道像素值等方式进行存储。

GPU(Graphic Processing Units，图像计算处理单元)用于对图像进行处理。

CNN模型的相关介绍

CNN是图像处理领域为识别二维形状而设计的多层感知器，包括至少一级卷积层、至少一级全连通层、共享权重层及池化层(Pooling Layer)等。CNN能够对输入的图像数据的平移、比例缩放、倾斜或者其他形式的变形具有高度不变性，而且CNN利用了图像固有的特性，即图像局部的统计特性与其他局部相同，基于该特性，CNN可将从某个局部所学习来的特征应用于其他局部，且对于该图像的所有位置均可使用同样的特征。CNN因其卷积层、池化层的实现方法，使得网络中具有更少的连接和参数，因而更易训练。

图1示出了一种CNN模型的结构示意图，参见图1，该CNN模型包括两路处理单元、多个全连接层及输出层。其中，每路处理模块包括五个串联的卷积单元，每个卷积单元包括卷积层、池化层及规则化层等，两路处理单元可对原始图像进行二路并行卷积操作。

池化计算的相关介绍

池化计算作为CNN模型训练过程中重要的组成部分，其实际上是一种下采样过程，即降维过程。目前，现有技术在进行池化计算时，通常会将图像划分为不同的区域，进而在每个区域内进行池化计算。采用池化计算能够不断地减小数据的存储空间，降低模型参数的数量和计算量，在一定程度上控制模型的过拟合，基于上述原因，CNN模型通常会在卷积层之间周期性地插入池化层。

以最大池化计算为例，具体的计算过程为：将原始图像划分为多个矩形区域，在每个矩形区域内找到该区域所包括的所有像素点的最大特征值，进而将该最大特征值作为对该矩形区域的池化计算结果。图2为对原始图像进行最大池化计算的计算过程，参见图2中的左图，输入一张9*9的原始图像，按照池化窗的设置，将该原始图像划分为3*3个矩形区域，以位图方式按照从上到下、从左到右的顺序，对3*3个矩形区域进行编号，进而从每个矩形区域内提取该区域内的最大特征值。具体地，对于第一个矩形区域，可得到该区域内的最大特征值为8；对于第二个区域，可得到该区域内的最大特征值为7；对于第三个区域，可得到该区域内的最大特征值为8；对于第四个区域，可得到该区域内的最大特征值为6；对于第五个区域，可得到该区域内的最大特征值为5；对于第六个区域，可得到该区域内的最大特征值为9；对于第七个区域，可得到该区域内的最大特征值为7；对于第八个区域，可得到该区域内的最大特征值为9；对于第九个区域，可得到该区域内的最大特征值为5。然后，按照池化窗的设置，将从9个区域内所提取的最大特征值，添加到池化窗的相应位置上，可得到图2中右图所示的池化计算结果。然而，现有的池化计算计算方法并未考虑到不同区域的像素点之间的关联性，而是机械地按照池化窗的设置，将需要进行池化计算的图像划分为多个矩形区域，从而在每个矩形区域内进行池化计算，因而对图像的处理结果并不准确。

本发明实施例提供了一种图像处理方法，以服务器执行本发明实施例为例，参见图3，本发明实施例提供的方法流程包括：

301、服务器对原始图像进行离散化处理，得到离散值图像。

在图像处理领域，服务器通过对原始图像进行离散化处理，可将原始图像中每个像素点用有限的离散值进行表示，以减少图像的数据量。离散化处理包括二值化处理、三值化处理、四值化处理等等，对于离散化处理后表示每个像素点的灰度值的数量，可根据服务器的处理能力及原始图像的数据量确定，例如，如果服务器的处理能力较强且原始图像的数据量较为丰富，则可将原始图像中的像素点采用较多的离散值进行表示；如果服务器的处理能力较弱且原始图像的数据量较为单一，则可将原始图像中的像素点采用较少的离散值进行表示。以对原始图像进行二值化处理为例，服务器通过对原始图像进行二值化处理，可将原始图像的每个像素点的用0或1表示，得到一张黑白图像。在对原始图像进行离散化处理时，所采用的算法包括差分变换法、零阶保持器法、双线性变换法等。

在本发明实施例中，将原始图像中每个像素点在离散值图像上的映射位置称为一个栅格，这样，离散值图像包括与原始图像上像素点数量相同的栅格，每个栅格代表原始图像上的一个像素点，且每个栅格对应一个离散值和一个特征值。其中，离散值由离散化处理结果确定，用于表示像素点的灰度值，例如，对原始图像进行二值化处理，则每个栅格对应的离散值可以为0或1表示。特征值用于表征原始图像中每个像素点的特征。

302、服务器根据每个栅格的离散值，从离散值图像上，确定至少一个连通域。

其中，连通域包括一个栅格或两个以上具有相同的离散值且彼此邻接的栅格。本发明实施例中所述的邻接是指两个以上栅格具有一条公共边。在二维图像中每个栅格都具有多个邻接的栅格，例如，对于位于离散值图像的顶角位置上的每个栅格具有2个邻接的栅格；对于位于离散值图像边界非顶角位置上的每个栅格具有3个邻接的栅格；对于位于离散值图像其他位置上的栅格具有8个邻接的栅格。基于所得到的离散值图像，服务器在根据每个栅格的离散值，从离散值图像上，确定至少一个连通域时，可采用如下方式：

对于离散值图像上任一栅格，服务器以该栅格为起点，在离散值图像上进行扩张，得到离散值与栅格的离散值相同且面积最大的目标区域，进而将该目标区域作为连通域。具体扩张时，可采用如下步骤：

3021、服务器可以该栅格的每条边为起点，在离散值图像上进行扩张，如果获取到与栅格的任一条边邻接且离散值与栅格的离散值相同的第一栅格，则将第一栅格与栅格合并为第一合并区域。

针对位于离散值图像不同位置的栅格，服务器在进行扩张时，可分为如下几种情况：

第一种情况、栅格位于离散值图像的顶角位置上

对于位于离散值图像的顶角位置上的栅格，服务器以该栅格的两条非离散值图像边界的边为起点进行扩张，在扩张过程中，获取与该栅格的两条边邻接且离散值与栅格的离散值相同的第一栅格，进而将第一栅格与该栅格合并为第一合并区域。

第二种情况、栅格位于离散值图像的边界非顶角位置上

对于位于离散值图像的边界非顶角位置上的栅格，服务器以该栅格的三条非离散值图像边界的边为起点进行扩张，在扩张过程中，获取与该栅格的三条边邻接且离散值与该栅格的离散值相同的第一栅格，进而将第一栅格与该栅格合并为第一合并区域。

第三种情况、栅格位于离散值图像的其他位置上

对于位于离散值图像的其他位置上的栅格，服务器以该栅格的四条边为起点进行扩张，在扩张过程中，获取与该栅格的四条邻接且离散值与该栅格的离散值相同的第一栅格，进而将第一栅格与该第一栅格合并为第一合并区域。

3022、服务器以第一合并区域的每条边为起点，在离散值图像上进行扩张，如果获取到与第一合并区域的任一条边邻接且离散值与栅格的离散值相同的第二栅格，将第二栅格与第一区域合并为第二合并区域。

为降低计算量，服务器可以第一合并区域的每条边为起点，在离散值图像上未处理的区域上进行扩张。

3023、依次循环，直至合并区域的面积不再变化，服务器将最终得到合并区域作为目标区域。

图4示出了连通域的确定过程，当服务器以离散值图像中每个栅格为起点进行扩张时，最终可得到10个连通域。

为了便于对每个连通域进行管理，服务器可按照位图方式为每个连通域设置连通域标识。具体的，服务器可按照从左到右、从上到下的方式，为至少一个连通域设置连通域标识。设定离散值图像的宽度为W个像素，高度为H个像素，服务器为离散值图像的连通域设置的连通域标识可以为0～W*H。例如，对于图4所示的9*9的离散值图像，按照位图方式为该离散值图像上的10个连通域设置连通域标识为0～9，采用该种设置方式，最终可得到图5所示的标记区域。

需要说明的是，对于一张离散值图像，在输入CNN模型进行建模时，进行建模的有效区域可能仅是该离散值图像的部分区域，为了降低图像处理压力，提高图像处理速度，服务器在从该离散值图像上，确定至少一个连通域时，可根据所选的离散值在离散值图像上确定至少一个连通域，对于未选的离散值，可无需确定该离散值对应的连通域。对于未选的离散值所在的无效区域，可为该无效区域设置无效的区域标识，例如-1等等。

为了便于后续进行池化计算，基于所确定的至少一个连通域，服务器可以该离散值图像的宽度为X轴、高度为Y轴、每个栅格的边长为单位长度，建立二维直角坐标系，进而基于所建立的直角坐标系，确定离散值图像上每个像素点的位置坐标，并存储连通域标识与连通域所包括的栅格的位置坐标之间的对应关系。具体存储时，可采用表格、矩阵等形式进行存储。

以采用矩阵形式对图5中的连通域信息进行存储为例，所存储的连通域标识与连通域内所包括的栅格的位置坐标之间的对应关系为：存储连通域标识0与栅格位置坐标(0，0)、(0，1)、(0，2)、(0，3)、(0，4)、(0，5)、(0，6)、(0，7)、(1，0)、(1，3)、(1，4)、(1，5)、(2，3)、(2，4)之间的对应关系；存储连通域标识1与栅格位置坐标(0，8)、(1，6)、(1，7)、(2，8)、(3，8)之间的对应关系；存储连通域标识2与栅格位置坐标(1，1)、(1，2)、(2，2)、(3，2)、(3，3)、(3，4)之间的对应关系；存储连通域标识3与栅格位置坐标(2，0)、(3，0)之间的对应关系；存储连通域标识4与栅格位置坐标(2，1)、(3，1)、(4，0)、(4，1)、(4，2)、(4，3)、(4，4)、(5，0)、(5，3)、(5，4)、(6，0)、(6，2)、(6，3)、(6，4)、(6，5)、(7，0)、(7，2)、(8，0)、(8，3)、(8，4)之间的对应关系；存储连通域标识5与栅格位置坐标(2，5)之间的对应关系；存储连通域标识6与栅格位置坐标(2，6)、(2，7)、(3，5)、(3，6)、(4，6)、(4，7)、(4，8)、(5，6)、(6，8)、(7，8)、(8，6)、(8，7)、(8，8)之间的对应关系；存储连通域标识7与栅格位置坐标(5，5)、(6，5)之间的对应关系；存储连通域标识8与栅格位置坐标(5，1)、(5，2)、(6，1)、(7，1)、(8，1)、(8，2)之间的对应关系；存储连通域标识9与栅格位置坐标(5，7)、(6，6)、(6，7)、(7，4)、(7，5)、(7，6)、(7，7)、(8，6)之间的对应关系。

由于每个连通域对应的离散值不同，且连通域内每个栅格的特征值也是不同的，为了便于后续计算，本发明实施例提供的方法还将存储每个连通域标识、对应的离散值、连通域内栅格位置坐标及每个栅格的特征值之间的对应关系。

303、服务器根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果。

其中，池化计算的类型包括最大池化计算、平均池化计算及L2范数池化等。

服务器根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果，包括但不限于如下几种情况：

第一种情况、池化计算类型为最大池化计算。

当池化计算类型为最大池化计算时，服务器从每个连通域内所有栅格的特征值中，获取最大的特征值，进而将每个连通域上的最大特征值作为每个连通域上的池化计算结果。

另外，当服务器从每个连通域内获取到最大特征值时，服务器还可存储最大特征值对应的栅格位置坐标，以便于后续步骤中能够根据该栅格位置坐标获取对应的最大特征值，从而计算出该池化层的回传梯度值。

第二种情况、池化计算类型为平均池化计算。

当池化计算类型为平均池化计算，服务器计算每个连通域内所有栅格的特征值的平均值，得到每个连通域内栅格的平均特征值，进而将每个连通域内栅格的平均特征值作为每个连通域上的池化计算结果。

第三种情况、池化计算类型为L2范数池化计算。

当池化计算类型为L2范数池化计算时，服务器计算每个连通域内所有栅格的特征值的平方，并对每个连通域内所有栅格的特征值的平方和开平方，得到每个连通域内栅格的L2范数特征值，进而将每个连通域内栅格的L2范数特征值作为每个连通域上的池化计算结果。

在使用GPU作为协处理硬件加速计算时，由于具有海量并行计算线程在其处理流程上调度运行的能力，可为离散值图像按像素粒度分配线程，并且硬件的众核并行(many-core-parallel)计算模型具有同时处理多张离散值图像的能力。因此，本发明实施例中服务器可为离散值图像上的每个栅格分配一个线程。对于张宽度为W、高度为H的特征图，服务器开辟总线程数为total_thread_num＝W*H，对于该张离散值图像上坐标为(w，h)的像素点分配的线程号为thread_id＝h*W+w。服务器在根据池化计算类型和每个连通域内每个栅格的特征值进行池化计算时，可采用为离散值图像上每个像素点分配的线程，并行对每个连通域内的每个栅格进行池化计算，从而得到每个连通域上的池化计算结果。

304、服务器根据所有连通域上的池化计算结果，确定对原始图像的池化计算结果。

由于池化计算主要是基于CNN中的池化层来实现的，池化计算结果需要参与到CNN模型训练过程中，而CNN模型训练是以反向传播算法为基础，因此，对于池化计算需要实现其前向计算及反向计算。

其中，前向计算过程可参见步骤303。基于每个连通域上的池化计算结果，服务器可将连通域上所有栅格的特征值修改为池化计算结果，进而根据所有连通域上的池化计算结果，将所有连通域上的计算结果组成对原始图像的池化计算结果。

其中，反向计算过程为：服务器将得到的池化计算结果输入到CNN中进行模型训练，该CNN模型中的池化层所采用的池化计算方法可采用本发明实施例提供的池化方法，也可采用现有的池化计算方法，本发明实施例对此不作具体的限定。由于每张原始图像都标记有一个实际识别结果，为了提高所获取的模型的精度，服务器可计算识别结果与实际识别结果的残差值，并将该残差值反向输入到CNN模型中，得到CNN每层的回传梯度值，进而根据CNN每层的回传梯度值，对CNN的模型参数进行调整。

需要说明的是，上述以包括多个离散值的离散值图像进行池化计算为例，当然，为了提高对离散值图像进行池化计算的计算速度，本发明实施例提供的方法在得到离散值图像后，可根据离散值将离散值图像拆分为多张离散值子图像，每张离散值子图像对应一个离散值，服务器在每张离散值子图像上，确定至少一个连通域，并在每个连通域上进行池化计算，得到池化计算结果，进而将所有连通域上的池化计算结果，作为对原始图像的池化计算结果。对于不同的离散值子图像，服务器在根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算时，可将其他每张离散值子图像上其他离散值的栅格所在位置的特征值设置为0。参见图7和图8，其中图7为对代表黑色像素的栅格进行池化计算的计算结果，图8为对代表白色像素的栅格进行池化计算的计算结果。

例如，对原始图像进行离散化处理，可得到用C个离散值表示的离散值图像，按照C个离散值，将离散值图像拆分为C个离散值子图像，每张离散值子图像对应一个离散值，且每张离散值子图像的宽度为W个像素，高度为H个像素，即每张离散值子图像的尺寸为W*H。对于C张尺寸为W*H的离散值子图像，服务器可分配C*W*H个线程。服务器从每张离散值子图像上确定G个连通域，为每个连通域设置连通域标识，并采用D_index(n,g)存储离散值子图像n、连通域标识g之间的对应关系。服务器在对离散值子图像n进行池化计算时，可获取当前线程所处理的所属的连通域标识g，进而采用每个栅格对应的线程遍历连通域标识g所属的D_index(n,g)，从而根据池化计算类型，从每个连通域内获取池化计算结果。以池化计算为最大池化为例，可获取到池化计算结果Pool(n，c,h,w)＝MAX{val|val＝Map(n,y,x)in D_index(n,g)}，同时记录该连通域内最大特征值所属栅格的位置坐标(w_max，h_max)。其中，n为离散值子图像标识，c为离散值子图像对应的离散值，h为离散值子图像的高度，w为离散值子图像的宽度，Map(n,y,x)为离散值子图像n上的连通域，D_index(n,g)为离散值子图像n上连通域标识为g的连通域。

在进行反向计算时，服务器将识别结果与实际识别结果之间的残差值回传到CNN模型的每一层。如果池化层输出Pool上的梯度为▽Pool，则当前线程处理的位置点回传梯度为▽Pool(n,c,h,w)，此时需要将其更新到池化层输入中。具体地更新方法为：按连通域标记g，将该连通域内所有输出回传梯度累积后，将累计值回传到最大特征值的位置坐标上，该输入的回传梯度▽Map(n,c,h_max,w_max)＝SUM{grad|grad＝▽Pool(n,c,y,x),(x,y)inD_index(n,g)}，其他位置的输入的回传梯度为0。

需要说明的是，上述以对原始图像进行离散化处理得到的离散值图像进行池化计算，得到池化计算结果，进而将池化计算结果输入到CNN模型为例，当然，也可对原始图像进行离散化处理得到的离散值图像输入到CNN模型，经过卷积层的卷积计算，得到特征图像，再对特征图像进行如本发明实施例提供的池化计算方法进行计算。

本发明实施例提供的方法，根据每个栅格的离散值和栅格间的位置关系，从离散值图像上确定出至少一个连通域，由于连通域上的各个像素点具有一定的关联性，因而池化计算结果更准确，进一步地提高了基于该池化结果所训练的图像识别模型的准确性。

参见图9，本发明实施例提供了一种图像处理装置，该装置包括：

图像处理模块901，用于对原始图像进行离散化处理，得到离散值图像，该离散值图像包括多个栅格，每个栅格代表原始图像上的一个像素点，且每个栅格对应一个离散值和一个特征值；

区域确定模块902，用于根据每个栅格的离散值，从离散值图像上，确定至少一个连通域，每个连通域包括一个栅格或两个以上具有相同的离散值且彼此邻接的栅格；

池化计算模块903，用于根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果；

计算结果确定模块904，用于根据所有连通域上的池化计算结果，确定对原始图像的池化计算结果。

在本发明的一个实施例中，区域确定模块902，用于对于离散值图像上任一栅格，以栅格为起点，在离散值图像上进行扩张，得到离散值与栅格的离散值相同且面积最大的目标区域，将目标区域作为连通域。

在本发明的一个实施例中，区域确定模块902，用于以栅格的每条边为起点，在离散值图像上进行扩张；如果获取到与栅格的任一条边邻接且离散值与栅格的离散值相同的第一栅格，则将第一栅格与栅格合并为第一合并区域；以第一合并区域的每条边为起点，在离散值图像上进行扩张；如果获取到与第一合并区域的任一条边邻接且离散值与栅格的离散值相同的第二栅格，将第二栅格与第一区域合并为第二合并区域；依次循环，直至合并区域的面积不再变化，将最终得到合并区域作为目标区域。

在本发明的一个实施例中，池化计算模块903，用于当池化计算类型为最大池化计算，从每个连通域内所有栅格的特征值中，获取最大的特征值，将每个连通域上的最大特征值作为每个连通域上的池化计算结果；当池化计算类型为平均池化计算，计算每个连通域内所有栅格的特征值的平均值，得到每个连通域内栅格的平均特征值，将每个连通域内栅格的平均特征值作为每个连通域上的池化计算结果；当池化计算类型为L2范数池化计算，计算每个连通域内所有栅格的特征值的平方和，并对每个连通域内所有栅格的特征值的平方和进行开方计算，得到每个连通域内栅格的L2范数特征值。

在本发明的一个实施例中，池化计算模块903，用于为离散值图像上的每个栅格分配一个线程；根据池化计算类型，采用多个线程对每个连通域内每个栅格的特征值进行并行计算，得到每个连通域上的池化计算结果。

在本发明的一个实施例中，该装置还包括：

结果输入模块，用于将池化计算结果输入到卷积神经网络CNN中，得到识别结果；

残差值计算模块，用于计算识别结果与实际识别结果的残差值；

反向输入模块，用于将残差值反向输入到CNN中，得到CNN每层的回传梯度值；

参数调整模块，用于根据CNN每层的回传梯度值，对CNN的模型参数进行调整。

需要说明的是，上述图像处理模块901用于执行图3中的步骤301、区域确定模块902用于执行图3中的步骤302、池化计算模块903用于执行图3中的步骤303、计算结果确定模块904用于执行图3中的步骤304。

综上，本发明实施例提供的装置，根据每个栅格的离散值和栅格间的位置关系，从离散值图像上确定出至少一个连通域，由于连通域上的各个像素点具有一定的关联性，因而池化计算结果更准确，进一步地提高了基于该池化结果所训练的图像识别模型的准确性。

图10是根据一示例性实施例示出的一种用于图像处理的服务器。参照图10，服务器1000包括处理组件1022，其进一步包括一个或多个处理器，以及由存储器1032所代表的存储器资源，用于存储可由处理组件1022的执行的指令，例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1022被配置为执行指令，以执行上述图像处理方法中服务器所执行的功能。

服务器1000还可以包括一个电源组件1026被配置为执行服务器1000的电源管理，一个有线或无线网络接口1050被配置为将服务器1000连接到网络，和一个输入输出(I/O)接口1058。服务器1000可以操作基于存储在存储器1032的操作系统，例如WindowsServer^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本发明实施例提供的服务器，根据每个栅格的离散值和栅格间的位置关系，从离散值图像上确定出至少一个连通域，由于连通域上的各个像素点具有一定的关联性，因而池化计算结果更准确，进一步地提高了基于该池化结果所训练的图像识别模型的准确性。

本发明实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图3所示的图像处理方法。

本发明实施例提供的计算机可读存储介质，根据每个栅格的离散值和栅格间的位置关系，从离散值图像上确定出至少一个连通域，由于连通域上的各个像素点具有一定的关联性，因而池化计算结果更准确，进一步地提高了基于该池化结果所训练的图像识别模型的准确性。

需要说明的是：上述实施例提供的图像处理装置在处理图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将图像处理装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

对于所述离散值图像上任一栅格，以所述栅格为起点，在所述离散值图像上进行扩张，得到离散值与所述栅格的离散值相同且面积最大的目标区域，将所述目标区域作为一个连通域，得到至少一个连通域，每个连通域包括至少一个栅格，当每个连通域包括两个或两个以上的栅格时，两个或两个以上的栅格具有相同的离散值且彼此邻接；

2.根据权利要求1所述的方法，其特征在于，所述以所述栅格为起点，在所述离散值图像上进行扩张，得到离散值与所述栅格的离散值相同且面积最大的目标区域，包括：

以所述栅格的每条边为起点，在所述离散值图像上进行扩张；

如果获取到与所述栅格的任一条边邻接且离散值与所述栅格的离散值相同的第一栅格，则将所述第一栅格与所述栅格合并为第一合并区域；

以所述第一合并区域的每条边为起点，在所述离散值图像上进行扩张；

如果获取到与所述第一合并区域的任一条边邻接且离散值与所述栅格的离散值相同的第二栅格，将所述第二栅格与所述第一合并区域合并为第二合并区域；

依次循环，直至合并区域的面积不再变化，将最终得到合并区域作为所述目标区域。

3.根据权利要求1所述的方法，其特征在于，所述根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果，包括：

当所述池化计算类型为最大池化计算，从每个连通域内所有栅格的特征值中，获取最大的特征值，将每个连通域上的最大特征值作为每个连通域上的池化计算结果；

当所述池化计算类型为平均池化计算，计算每个连通域内所有栅格的特征值的平均值，得到每个连通域内栅格的平均特征值，将每个连通域内栅格的平均特征值作为每个连通域上的池化计算结果；

当所述池化计算类型为L2范数池化计算，计算每个连通域内所有栅格的特征值的平方和，并对每个连通域内所有栅格的特征值的平方和进行开方计算，得到每个连通域内栅格的L2范数特征值。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据池化计算类型和每个连通域内每个栅格的特征值，对每个连通域进行池化计算，得到每个连通域上的池化计算结果，包括：

为所述离散值图像上的每个栅格分配一个线程；

根据池化计算类型，采用多个线程对每个连通域内每个栅格的特征值进行并行计算，得到每个连通域上的池化计算结果。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所有连通域上的池化计算结果，确定对所述原始图像的池化计算结果之后，还包括：

将所述池化计算结果输入到卷积神经网络CNN中，得到识别结果；

计算所述识别结果与实际识别结果的残差值；

将所述残差值反向输入到所述CNN中，得到所述CNN每层的回传梯度值；

根据所述CNN每层的回传梯度值，对所述CNN的模型参数进行调整。

6.一种图像处理装置，其特征在于，所述装置包括：

区域确定模块，用于对于所述离散值图像上任一栅格，以所述栅格为起点，在所述离散值图像上进行扩张，得到离散值与所述栅格的离散值相同且面积最大的目标区域，将所述目标区域作为一个连通域，得到至少一个连通域，每个连通域包括至少一个栅格，当每个连通域包括两个或两个以上的栅格时，两个或两个以上的栅格具有相同的离散值且彼此邻接；

7.根据权利要求6所述的装置，其特征在于，所述区域确定模块，用于以所述栅格的每条边为起点，在所述离散值图像上进行扩张；如果获取到与所述栅格的任一条边邻接且离散值与所述栅格的离散值相同的第一栅格，则将所述第一栅格与所述栅格合并为第一合并区域；以所述第一合并区域的每条边为起点，在所述离散值图像上进行扩张；如果获取到与所述第一合并区域的任一条边邻接且离散值与所述栅格的离散值相同的第二栅格，将所述第二栅格与所述第一合并区域合并为第二合并区域；依次循环，直至合并区域的面积不再变化，将最终得到合并区域作为所述目标区域。

8.根据权利要求6所述的装置，其特征在于，所述池化计算模块，用于当所述池化计算类型为最大池化计算，从每个连通域内所有栅格的特征值中，获取最大的特征值，将每个连通域上的最大特征值作为每个连通域上的池化计算结果；当所述池化计算类型为平均池化计算，计算每个连通域内所有栅格的特征值的平均值，得到每个连通域内栅格的平均特征值，将每个连通域内栅格的平均特征值作为每个连通域上的池化计算结果；当所述池化计算类型为L2范数池化计算，计算每个连通域内所有栅格的特征值的平方和，并对每个连通域内所有栅格的特征值的平方和进行开方计算，得到每个连通域内栅格的L2范数特征值。

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述池化计算模块，用于为所述离散值图像上的每个栅格分配一个线程；根据池化计算类型，采用多个线程对每个连通域内每个栅格的特征值进行并行计算，得到每个连通域上的池化计算结果。

10.根据权利要求6至8中任一项所述的装置，其特征在于，所述装置还包括：

结果输入模块，用于将所述池化计算结果输入到卷积神经网络CNN中，得到识别结果；

残差值计算模块，用于计算所述识别结果与实际识别结果的残差值；

反向输入模块，用于将所述残差值反向输入到所述CNN中，得到所述CNN每层的回传梯度值；

参数调整模块，用于根据所述CNN每层的回传梯度值，对所述CNN的模型参数进行调整。

11.一种用于图像处理的服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的图像处理方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5中任一项所述的图像处理方法。