CN109658455B

CN109658455B - 图像处理方法和处理设备

Info

Publication number: CN109658455B
Application number: CN201710941265.5A
Authority: CN
Inventors: 刘宇; 刘瑞涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2023-04-18
Anticipated expiration: 2037-10-11
Also published as: TW201923707A; US20190108411A1; US10740640B2; CN109658455A; WO2019075130A1

Abstract

本说明书实施例公开了一种图像处理方法和处理设备，所述方法可以包括：将原图像归一化为中间图像，所述中间图像包括多个局部区块；计算出所述局部区块的图像特征数据；根据所述图像特征数据，计算所述中间图像中所述局部区块对应的权重分布数据，所述权重分布数据表征所述局部区块包括部分或全部物体的可能程度；基于计算得到的所述权重分布数据确定所述原图像中物体的位置区域。利用本说明书实施例可以快速、高效的定位图像中物体，确定出主体区域，节省大量的图像人工标注作业量。

Description

图像处理方法和处理设备

技术领域

本说明书实施例方案属于图像数据处理的技术领域，尤其涉及一种图像处理方法和处理设备。

背景技术

随着互联网、电子商务等技术的不断发展，需要处理的图像数据越来越多。对图像进行有效的预处理是进行后续的图像分类、特征提取等任务的基础，其中图像主体位置区域的定位是重要的预处理手段。图像主体定位的处理通常是指识别出图像中的物体，定位出图像中的物体后，可以确定图像物体所在的主体区域，进而实现降低背景区域对后续图像处理的干扰，从而提升相关图像处理算法的精度和性能。

目前业内使用的图像物体定位方法主要包括基于全监督的物体检测方法以及其他的一些弱监督物体检测算法。但这些算法在实际应用中需要人工对图像进行标注，并进行运算量较大、过程较为复杂的模型训练。例如在弱监督算法中需要人工标注图像类别信息；在全监督的物体检测算法中除需要类别信息外，还需要图像中每个物体的物体定位框数据，因此需要人工标注数据量更大。在目前的互联网海量数据下，处理的图像数据量往往是巨大的，依靠人工对大量图像数据进行打标来实现图像主体定位的方式难以适应图像数据快速处理的需求。

因此，业内亟需一种可以更加快速、高效的定位图像中物体的解决方案。

发明内容

本说明书实施例目的在于提供一种图像处理方法和处理设备，可以快速、高效的定位图像中物体，确定图像的主体区域，节省大量的对图像进行人工标注数据处理的作业量。

本说明书实施例提供的一种图像处理方法和处理设备是包括以下方式实现的：

一种定位图像中物体位置的方法，所述方法包括：

将原图像归一化为中间图像，所述中间图像包括多个局部区块；

计算出所述局部区块的图像特征数据；

根据所述图像特征数据，计算所述中间图像中所述局部区块对应的权重分布数据，所述权重分布数据表征所述局部区块包括部分或全部物体的可能程度；

基于计算得到的所述权重分布数据确定所述原图像中物体的位置区域。

一种处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

计算出所述局部区块的图像特征数据；

一种图像处理的方法，所述方法包括：

获得包括多个局部区块的图像；

计算出所述局部区块的图像特征数据；

利用注意力模型对所述图像特征数据进行处理，输出与所述局部区块对应的权重分布数据，所述权重分布数据表征所述局部区块包括部分或全部物体的可能程度。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现上述方法的步骤。

本说明书实施例提供的一种图像处理方法和处理设备，其可以通过对原图像进行归一化处理后，进行局部特征数据的提取和计算，以获取各个局部区块的权重分布数据，所述权重分布数据中的权重可以表征对应的局部区块属于原图像中物体区域的可能程度。获取了权重分布数据后，可以利用该权重分布数据实现原图像中物体所处的位置区域定位，标记出原图形中的物体定位框。利用本说明书中提供的实施方案，在定位图像中物体位置区域的处理中，可以节省大量的对图像进行人工标注数据处理的作业量，快速、高效的实现定位图像中物体位置。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施本方案的一个处理过程示意图；

图2是本申请提供的所述方法中一个构建注意力模型实施例流程示意图；

图3是本说明书提供的所述一种图像物体定位的方法实施例的流程示意图；

图4是本申请中提供的一个线上应用场景中的待处理原图像；

图5是本申请中计算图像4中原图像得到的权重分布数据示意图；

图6是本申请中利用线性插值还原后的权重分布图对应的热力图；

图7是本申请中根据图6中的热力图定位的原图像中主体位置的示意图；

图8是本申请提供的服务器的架构示意图；

图9是本申请本申请提供的生成文本特征向量的一个实施例的处理流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书中的一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例保护的范围。

在当前许多在线产品选购服务中，不仅提供了可以利用文本匹配的产品搜索框架，还可以有利用图像等多媒体实现产品搜索的方案。当用户拍摄产品图像后，可以利用卷积神经网络对产品图像进行特征提取，然后进行相关产品的搜索，返回给用户产品搜索结果。对产品图像的特征提取的过程可以是直接在原图上进行，但如果利用物体定位(objectlocalization)先将产品图像中的物体框出，再利用卷积神经网络进行特征提取，这样得到的特征数据更集中于图像中的物体本身，减少了背景区域的干扰，从而具备更明显的特征表示能力，可以有效提升商品检索精度。本申请图像的主体通常是指图像中突出表现的物体，图像中的主体一般情况下在图像中占据较大的面积或特定的位置，或者可以与背景存在较大的视觉反差。在一些实施场景中，一张图像中可以包括多个物体，这些物体中一个或多个可以作为图像的主体，可以形成包括一个或多个物体的主体区域。在本申请中的一些实施例中，当图像中包含了多个主要物体时，可以定位出多个物体的位置区域。例如一位站立的女士和该女士手中举起的皮包，定位图像的物体区域位置时，输出的结果可以包括该女士以及手中的皮包两个物体的矩形区域。

传统的基于全监督或弱监督的图像物体检测方法需要大量的人工标注数据来训练网络模型，并且训练过程复杂。例如常用的state-of-the-art的弱监督算法中一般需要对基础的CNN(卷积神经网络)进行重新训练，此种方式需要对使用的基础卷积神经网络进行网络层的修改，然后利用人工打标的类别信息进行重新训练，需要较大的计算量。

本申请提供的图像物体定位方法，可以预先通过图像的文本特征数据和表征图像局部特征的图像特征数据进行匹配关系的学习训练，得到稳定、可用的注意力模型参数。在处理待识别图像时，通过计算待识别图像的图像特征数据可以得到不同图像区域的权重分布情况，然后利用所述权重分布的数据信息可以定位待处理图像的物体。计算主图权重分布时的模型参数可以通过样本训练获取得到。在本申请提供的实施方案中，样本训练所使用的图像的标注信息可以不需要传统的人工直接对原图像打标。本申请提供的一个实施例中，所使用的训练数据可以来自搜索引擎中用户的搜索文本-点击图像获取的数据信息。

本申请的一些实施中注意力模型参数训练采用的数据来自于实际场景下的用户搜索、点击行为数据，如在线产品选购的产品搜索点击日志。在一些线上产品搜索的应用中，用户可以通过搜索文本来检索得到产品的图像，当用户点击检索返回的某个图像时，在一定程度上可以表示用户点击的图像符合用户的预期，或者可以理解为用户点击的图像与用户在搜索引擎中输入的减少文本匹配度很高。那么在此种情况下，用户输入的搜索文本的全部或者部分词可以作为所述用户点击的图像的标签。具体的一个示例中，例如，用户输入的搜索文本为“卡其色小西装”，在返回的服装搜索结果中用户点击了图片P1，可以记录下用户的搜索文本和点击商品的图片P1。可以将搜索文本“卡其色小西装”与图片P1作为一组训练数据，其中“卡其色小西装”作为图片P1的文本描述信息。当然，也可以进一步将“卡其色小西装”分成表征颜色的“卡其色”标签和表征商品类别的“小西装”标签。这里的训练数据可以包括搜索文本和基于搜索文本点击的图像。由于是用户搜索、点击的行为数据，搜索文本与点击图像更加符合实际图像和文本匹配关系，并且实际实施过程中可以会着重选取多次点击的数据，因此可以保障训练数据的真实、有效，并可以提高训练的参数精度，进而提高整个图像中物体位置区域的定位精度。因此，本申请的一个实施方案中，下述使用的注意力模型可以通过使用用户搜索行为数据来训练。

本申请实施方案中利用上述的训练数据可以确定图像的类别标签。在深度学习算法中，有一种学习算为注意力模型(Attention model，AM)，模拟的是人脑的注意力模型，举例来说，当观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。本申请可以利用注意力模型的算法思想结合整个图像所属的类别标签，为图像中的不同局部区域赋予不同的权重，可以表示图像中的局部区块与原图像所属物体的类别标签(文本特征数据)的关联程度(或称为相关度)，可以用权重表示。这里的权重值的大小可以表示对应的局部区块包含或属于原图像中物体区域的概率大小。本申请的一个方案中，可以将待处理的原图归一化为中间图像，计算出中间图像中各个局部区块的图像特征数据，然后可以利用注意力模型对所述图像特征数据进行处理，输出与所述中间图像所述局部区块对应的权重分布数据。利用权重分布数据可以确定所述原图像中物体的位置区域。本方案的基于搜索引擎中的用户行为数据、视觉注意力机制(visual attention)来训练物体定位模型，实施本方案的一个处理过程示意图可以如图1所示，可以包括文本特征向量表示、图像特征向量表示、图像文本匹配、计算图像物体权重分布图、以及根据权重分布图计算出最终物体定位结果等。下面结合几个具体场景，对本申请中图像物体定位方法进行说明，然而，值得注意的是，该具体场景仅是为了更好地说明本申请，并不构成对本申请的不当限定。这样，计算出原图像中所有局部区块的权重的取值可以得到权重分布数据。

图2是本申请提供的所述方法中一个构建注意力模型实施例流程示意图。如图2所示，在一个实施方式中，所述注意力模型可以包括通过下述方式构建生成：

S0：获取训练数据，所述训练数据包括：搜索文本和基于搜索文本发生的点击行为所涉及的点击图像。

采用的训练数据可以来自于实际场景下的用户搜索、点击行为数据，如某在线产品选购中记录的产品搜索点击日志。

S2：根据所述点击图像的类别标签计算出所述点击图像的文本特征数据，所述类别标签基于点击图像对应的搜索文本得到。

可以对用户输入的检索文本进行分词、词性打标处理。由于本实施方法需要定位的目标是图像中的物体部分，因此可以保留词性打标中标志图像所属的类别标签的词，如表示图像所属“品类”的词即可，其他词性，如“颜色”、“品牌”等和物体定位无关，舍弃即可。

上述中所述的文本特征数据，在一些实施例使用的算法中可以为常规的数据类型。在图像数据的处理中，向量数据可以更加有利于图像的编码、转换、比较等处理。因此，本申请的一个实施方式中，所述的文本特征数据可以包括：通过词编码处理将所述类别标签对应的数据信息转换成的密集向量(也称为稠密向量)。所述的密集向量通常是指向量的值是一个普通的Double数组向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0]。稠密向量能够反映该品类词的语义信息，并且便于和图像编码向量进行比较。

可以对图像的类别标签转换为密集向量。具体的一个实现方式如9所示，图9是本申请提供的生成文本特征向量的处理流程示意图。可以将每个类别标签通过one-hot编码转换为向量，考虑到one-hot编码向量一般是稀疏的长向量，为了方便处理可以通过Embedding Layer将one-hot编码转换为较低维度的稠密向量，将形成的向量序列作为标签对应的文本特征数据。对于文本网络而言，可以采用两层全连接结构，并加入其它的非线性计算层，从而增强文本特征的表达能力，以得到某个图像对应的类别标签的文本特征数据。即，最终将类别标签转换为一个定长的实数向量。例如，将图1中的“小西装”通过标签编码模型转换为文本特征向量，通过该文本特征向量可以反映原始语义，从而便于与图像特征向量进行比较。

S4：将所述点击图像归一化成训练图像，所述训练图像包括多个局部区块。

一般的，在训练过程中，可以将原图像归一化为预定大小的中间图像，以适应于算法模型和提高处理速度。所述的图像归一化的处理，通常是指对图像进行了一系列标准的处理变换，使之变换为一固定标准形式的处理过程，该标准形式的图像可以称作归一化图像，本申请中可以将其称为中间图像。图像归一化主要是利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图像变换的影响，将待处理的原始图像转换成相应的唯一标准形式(该标准形式图像对平移、旋转、缩放等仿射变换具有不变特性)。在本实施例中，点击图像经过图像归一化处理后，相当于对图像缩放到一个固定大小(如224*224像素)，但仍保留原图像中的图像内容信息。

S6：提取所述局部区块的局部图像特征数据。

上述模型训练中所述的局部图像特征数据，在一些实施例使用的算法中可以为常规的数据类型。在图像数据的处理中，向量数据可以更加有利于图像的编码、转换、比较等处理。因此，本申请的一个实施方式中，所述的局部图像特征数据包括：图像经过神经网络模型的图像特征抽取后输出的图像特征向量。

所述的局部图像特征数据的提取方式可以使用多种处理算法，例如SIFT算法(Scale-invariant feature transform，尺度不变特征转换)、边界方向直方图法等。本申请的一个实施例中，可以采用ResNet-152作为图像特征抽取的神经网络模型，将原始图像统一归一化到预设像素值(例如：224x224像素)作为输入，然后取res5c层的特征作为网络输出，输出的特征向量长度为2048维。该神经网络模型的基础上，利用非线性变换进行迁移学习，可以得到最终的能反应图像内容的图像特征向量。如图1中所示，在利用卷积神经网络处理的过程中，每个卷积层，图像数据是以三维形式存在的。可以把它看成许多个二维图片叠在一起，其中每一个称为一个feature map。在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片，一般就是3个feature map(红绿蓝)。层与层之间会有若干个卷积核(kernel)，上一层和每个feature map跟每个卷积核做卷积，都会产生下一层的一个feature map。最后可以输出视觉注意力(Visual Attention)的图像向量表示。

S8：对基于所述文本特征数据和所述局部图像特征数据进行图像文本之间匹配关系的学习训练，直至得到符合预设阈值条件的注意力模型参数。

本实施例中使用的注意力模型，可以采用离线训练的方式，可以先使用训练数据离线训练注意力模型，训练完成后在线上使用。本申请不排除所述注意力模型采用在线训练的方式，在计算机能力足够的情况下，可以在线训练注意力模型，训练出的注意力模型可以同步在线使用，对待处理的图像进行物体区域位置的定位处理。

一个实施例中，注意力模型输出的每个局部区块属于部分或全体物体区域的概率分布可以如下所示：

其中，

上述中，

是初始的整体图像特征表示，W_v、W₀、P、P⁽⁰⁾矩阵参数均由训练学习得到，σ可以采用ReLU或者TanH函数计算。第i张图像对应的特征向量表示为V_i，i取值1～n，n为中间图像中局部区块的个数，αⁿ越大一般说明其属于图像中物体区域位置的概率越大。W_v、W₀、P、P⁽⁰⁾等参数的值即是匹配关系学习的目标，训练完成后可以利用这些参数来实现图像中的物体定位。

一个实施例中，模型训练时可以采用前述来自搜索引擎中用户的搜索文本-点击图像获取的训练数据。注意力模型的训练构建过程主要是在选定模型框架结构后通过迭代计算的学习和优化模型中的矩阵参数，直到矩阵参数符合图像数据处理的预设阈值条件。本申请提供的所述图像物体定位方法的一个实施例中，可以利用记录下的搜索引擎中用户的搜索文本和基于搜索文本点击的图像作为训练数据，通过图像-文本之间匹配关系的学习、训练，来得到注意力模型中的需要确定的矩阵参数。训练完成后可以利用这些参数来实现图像中的物体定位。

上述中，所述文本特征数据和所述图像特征数据进行图像文本之间匹配关系的学习训练的实施方式具体的可以选择衡量不同数据集合之间相似性程度的算法或自定义的处理方式，以实现一种或多种数据信息表征某个局部区块属于训练数据中样本图像所属类别标签的概率值。本申请提供的所述方法的一个实施例中，所述图像文本之间匹配关系的模型参数学习训练过程中，

S80：可以使用所述文本特征数据和所述局部图像特征数据内积运算的结果表征所述局部区块与所述类别标签之间的相关度；以及，基于所述相关度的反向传播训练得到所述注意力模型中指定矩阵参数的取值。

上述获取文本特征数据和局部图像特征数据的处理后，可以得到原图像的类别标签k对应的文本特征向量Uk，原图中第j个局部区块对应的图像特征向量Vj。最终的文本和图像特征可以表示为Uk、Vj。本实施例中可以利用采用内积运算结果来衡量图像和文本之间的相关度相似性，或者所述局部区块与所述类别标签之间的相关度。具体的，第j个局部区块与所述类别标签之间的相关度S为：

S＝Uk·Vj。

注意力模型的权重计算处理中，每个局部图像特征向量Vj分别于原图像的文本特征向量Uk进行内积运算。每次运算可以产生一个分数，这个分数可以描述某个局部区块与类别标签的匹配程度，或者可以理解描述某个区块属于原图像中部分或全部物体的概率。

例如一个示例中，搜索文本为“卡其色小西装”，对应的点击图像为P1。经过预处理后，点击图像P1的类别标签为“小西装”，其中点击图像P1被转化为224*224像素的训练图像P2，取32*32像素为所述训练图像P2的局部区块，所述训练图像P2被分为49个局部区块。计算得的每个局部区块的图像特征向量Vj，j取[1，49]。同时将类别标签“小西装”将wordembedding(词编码)后形成文本特征向量Uk。将图像特征向量Vi和文本特征向量Uk进行内积计算，分别得的49个局部区块中每个局部区块属于“小西装”物体区域的权重。内积计算的结果值越大，则可以表示对应的局部区块属于“小西装”物体区域的概率就越大。

为了确定出文本特征向量与图像特征向量之间的相关度，可以通过欧式距离进行表征。具体的，对于文本特征向量和图像特征向量都可以通过向量的方式进行表征，即，在同一向量空间中，可以通过比较两个特征向量之间的欧式距离来确定两者之间的相关度。

具体的，文本特征向量与图像特征向量之间的相关度可以为两个向量之间的欧氏距离，当基于两个向量计算得到的欧氏距离的数值越小，可以表示两个向量之间的匹配度越好，反之，当基于两个向量计算得到的欧氏距离的数值越大，可以表示两个向量之间的匹配度越差。

在一个实施方式中，在同一向量空间中，可以计算文本特征向量与图像特征向量之间的欧式距离，欧式距离越小，说明两者的相关度越高，欧式距离越大，说明两者的相关度越低。因此，在进行模型训练的时候，可以以欧式距离作为训练目标。相应的，在进行相关度确定的时候，上述的文本特征向量和图像特征向量可以经过L2norm处理，其可以基于欧式距离确定图像与文本之间的相关度。

上述仅是以欧式距离来衡量图像特征向量和文本特征向量之间的相关度，在实际实现的时候，还可以通过其它方式确定图像特征向量和文本特征向量之间的相关度。例如，还可以包括余弦距离、曼哈顿距离等，另外，在一些情况下，相关度可以是数值，也可以不是数值，例如，可以仅是程度或者趋势的字符化表征，这种情况下，可以通过预设的规则使得该字符化表征的内容量化为一特定值。进而，后续可以利用该量化的值确定两个向量之间的相关度。本申请实施例所述两个向量之间的相关度并不以上述为限。

本实施例方案中，可以将训练的样本图像归一化到224*224像素大小的中间图像，然后利用ResNet-152进行前向处理，取res5c层的特征作为网络输出，这样输出层大小为2048x7x7，即7x7＝49个中间图像的局部区块的图像特征数据。结合图像的文本特征数据进行图像文本之间匹配关系的模型参数学习训练，得到注意力模型中一些指定参数的取值。经过注意力模型中权重参数的训练，这样在线上应用时，对于大量的需要图像物体定位的图像，可以实现无需对这些需要图像物体定位的图像进行人工打标，节省大量人工处理，大大提高图像物体区域定位的处理效率。

训练结束后，在实际线上图像物体定位应用时，可以不再需要图像的文本信息，输入待识别的原图像后，同样将待识别的原图像归一化为中间图像大小，计算原图像各个局部区块的图像特征数据后。有了表征图像局部区域特征的数据，将其输入预先训练构建生成的注意力模型中，可以计算得到所述中间图像的权重分布数据。基于所述权重分布数据可以定位出原图像中物体的位置区域。当然，本申请其他的实施例中也可以采用其他方式实现根据图像特征数据计算出所述中间图像的权重分布图，例如基于局部区块中像素的RGB通道信息数据判断该局部区块属于物体区域的概率，或者利用图像的灰度、色阶、相邻局部区块像素之间的关联性等来确定局部区块是否属于部分或全部物体的概率等。

图3是本说明书提供的所述一种图像物体定位的方法实施例的流程示意图。具体的一个实施例如图3所示，所述方法可以包括：

S80：将原图像归一化为中间图像，所述中间图像包括多个局部区块；

S82：计算出所述局部区块的图像特征数据；

S84：根据所述图像特征数据，计算所述中间图像中所述局部区块对应的权重分布数据，所述权重分布数据表征所述局部区块包括部分或全部物体的可能程度；

S86：基于计算得到的所述权重分布数据确定所述原图像中物体的位置区域。

在线上应用的一个实施场景中，可以对原图像进行一些预定方式的预处理，提取出原图像的局部区块的图像特征数据。然后可以将每个局部区块的图像特征数据分别输入预先构建的注意力模型中，通过所述注意力模型的处理，给不同局部区块赋予相应的权重(这里计算出的权重可以为概率值)，得到所述局部区块对应的权重分布数据。所述的权重分布数据可以生成所述权重分布图。本申请实施例中利用训练得到注意力模型对所述图像特征数据进行处理，输出所述中间图像的权重分布数据，由此来定位图像中主体的位置区域，是一种可以更好表现图像内容的图像处理机制。并且，本说明书一个或多个使用注意力模型的实施方式中，可以仅训练不同局部区块的权重分布{αi}，因此前期图像物体定位模型的训练过程复杂度低、计算量小、便于快速应用扩展。

得到权重分布图后，可以利用该权重分布图实现对图像中物体的定位。由于本申请的一些实施例是在原图像的归一化图像基础上得到的权重分布数据，该权重分布数据可以根据对应的局部区块在所述中间图像中的位置生成权重分布图。在定位原图像的物体时可以将权重分布图还原到原始图像大小。具体的还原成原始图像大小的方式可以包括多种实施方式，如线性插值算法、双立方插值算法等。还原成原始图像大小后的权重分布图保留所述了各个局部区块的权重分布数据信息，因此，可以在还原后基于该权重分布图实现对图像中物体的定位。本申请提供的一个实施例中，所述基于计算得到的所述权重分布数据确定所述原图像中物体的位置区域，可以包括：

S860：根据所述局部区块对应在所述中间图像中的位置确定权重分布数据对应的权重分布图；

S862：利用线性插值算法将所述权重分布图还原成所述原图像大小；

S864：在所述还原后的权重分布图中，选取出大于预设阈值的权重值所对应的第一区域；

S866：基于所述第一区域对应在所述原图像中的第二区域，根据所述第二区域确定出所述原图像中定位到的物体所在的位置区域。

中间图像中每个局部区块对应中间图像的一个区域位置，该区域位置对应一个权重值。若将权重数据按照所述局部区块在中间图像的位置分布进行制图，可以得到权重分布图。所述的权重分可以与所述中间图像大小相同，也可以不相同。所述选取出大于预设阈值的权重值所对应的第一区域，可以包括设置一个阈值Y，如果某个局部区块的权重值大于Y，则可以认为这个局部区块包括部分或全部物体，属于原图像中的物体区域。当然，也可以通过其他方式来实现，一个示例中，中间图像中的一个局部区块维32*32像素的区域，该32*32的局部区块对应一个权重值。这些权重值可以生成权重分布图。权重分布图可以还原成原图像的大小。其中权重分布图中每个权重值可以根据值的大小取不同的颜色或是同种颜色的不同深浅。这样每个局部区块根据权重值的大小可以有着对应的颜色。最终，相应的填充上所有权重值对应的颜色，可以得到原图像中物体区域的热力图，该热力图热力集中部分代表了物体区域。根据所述热力图，利用像素属性值的阈值设定即可得到物体的bounding box(物体定位框)信息，即可实现原图像中的物体所在区域位置的定位。

具体的一个线上应用示例中，以图4中所示的某皮包产品物体图为例，原图大小为800*800像素，可以采用ResNet-152作为图像特征抽取的神经网络模型。将该皮包图像归一化到224*224像素的中间图像后，作为ResNet-152神经网络模型的输入，取res5c层的特征作为网络输出，输出7*7＝49个局部区块的图像特征数据。这49个局部区块的图像特征数据中每个图像特征数据对应中间图像中的一个32*32像素的局部图像区域。然后根据所述图像特征数据计算得到每个局部区块的权重分布数据，如图5中所示。其中，每个特征数据为2048维的数据集合，可以记为

其中每个权重的取值越大，可表示其属于皮包商品物体区域的概率越大。将此7*7＝49的权重分布数据按照局部区块的位置生成权重分布图，利用线性插值resize到原始图像800x800大小，其中不同的权重赋予不同的颜色，即得到图6中所示物体区域的热力图。基于图6中虚线框中所示的热力图，利用像素属性值的阈值设定即可得到物体的bounding box(物体定位框)信息，如图7所示，即可实现该皮包原图像中皮包产品物体的定位，图7中矩形框中即得定位的该皮包物体的主体位置区域。

本说明书实施例提供的一种图像处理方法和处理设备，可以快速、高效的定位图像中主体，节省大量的图像人工标注作业量。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图6是本发明实施例的一种搜索方法的服务器的硬件结构框图。如图8所示，服务器10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图8所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图8中所示更多或者更少的组件，例如还可以包括其他的处理硬件，例如GPU(Graphics Processing Unit，图形处理单元)等。或者具有与图8所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的搜索方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述搜索方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

基于上述所述的图像物体定位的方法，本说明书还提供一种图像物体定位的处理设备。所述的处理设备可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的设备装置。基于同一创新构思，本说明书提供的一种实施例中的处理装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的处理装置的实施可以参见前述方法的实施，重复之处不再赘述。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本说明书实施例提供的图像物体定位的方法可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c++语言在PC端实现，或其他例如Linux、android、iOS系统相对应的应用设计语言集合必要的硬件实现，以及基于量子计算机的处理逻辑实现等。具体的，本说明书提供的一种处理装置的一种实施例中，所述处理装置可以包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

计算出所述局部区块的图像特征数据；

在一个实施方式中，所述处理器计算所述中间图像中所述局部区块对应的权重分布数据时实现：利用注意力模型对所述图像特征数据进行处理，输出与所述中间图像所述局部区块对应的权重分布数据。

在一个实施方式中，所述处理器使用的注意力模型包括执行下述步骤构建生成：

获取训练数据，所述训练数据包括：搜索文本和基于搜索文本发生的点击行为所涉及的点击图像；

根据所述点击图像的类别标签计算出所述点击图像的文本特征数据，所述类别标签基于点击图像对应的搜索文本得到；

将所述点击图像归一化为训练图像，所述训练图像包括多个局部区块；

提取所述局部区块的局部图像特征数据；

对基于所述文本特征数据和所述局部图像特征数据进行图像文本之间匹配关系的学习训练，直至得到符合预设阈值条件的注意力模型参数。

在一个实施方式中，所述处理器执行所述图像文本之间匹配关系的模型参数学习训练过程中，使用所述文本特征数据和所述局部图像特征数据内积运算的结果表征所述局部区块与所述类别标签之间的相关度；

以及，基于所述相关度的反向传播训练得到所述注意力模型中指定矩阵参数的取值。

需要说明的是，本说明书实施例上述所述的装置根据相关方法实施例的描述还可以包括其他的实施方式，例如所述处理器处理的文本特征数据包括：将所述类别标签通过词编码处理转换后生成的密集向量等。具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书实施例提供的一种图像物体定位的装置，可以通过对原图像进行归一化处理后，进行局部特征数据的提取和计算，以获取各个局部区块的权重分布数据，所述权重分布数据中的权重可以表征对应的局部区块属于物体区域的可能程度。获取了权重分布数据后，可以利用该权重分布数据实现原图像中物体所处的位置区域定位，标记出原图形中的物体定位框。利用本说明书中提供的实施方案，在定位图像中物体位置区域的处理中，可以节省大量的对图像进行人工标注数据处理的作业量，快速、高效的实现定位图像中物体位置。

基于前述描述可知，计算图像中权重分布数据的技术方案也是可以被独立实施的。因此，本申请还提供一种图像处理的方法，所述方法包括：

获得包括多个局部区块的图像；

计算出所述局部区块的图像特征数据；

本申请还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现本说明书中上述任意一个方法实施例的步骤。

所述计算机可读存储介质可以包括用于存储信息的物理装置，可以将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

需要说明的，上述所述的计算机可读存储介质根据方法或装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

尽管本说明书实施例内容中提到通过Embedding Layer将one-hot编码转换为较低维度的稠密向量、利用ResNet-152提取局部图像特征、使用res5c层特征作为网络输出、采用欧式距离计算图像和文本向量之间的距离以及实施例中公开的注意力模型公式等之类的数据获取、向量编码、交互、计算、判断等描述，但是，本说明书实施例并不局限于必须是符合行业通信标准、标准图像数据处理协议、网络模型、向量编码规则和神经网络标准模型或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书的可选实施方案范围之内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

计算出所述局部区块的图像特征数据；

根据所述图像特征数据，计算所述中间图像中所述局部区块对应的权重分布数据，所述权重分布数据表征所述局部区块包括部分或全部物体的可能程度；所述计算所述中间图像中所述局部区块对应的权重分布数据，包括：利用注意力模型对所述图像特征数据进行处理，输出与所述中间图像中所述局部区块对应的权重分布数据；所述注意力模型用于确定图像的局部区块与原图像所属物体的类别标签的关联程度；

2.如权利要求1所述的方法，其特征在于，所述注意力模型通过使用用户搜索行为数据来训练。

3.如权利要求2所述的方法，其特征在于，所述训练包括：

提取所述局部区块的局部图像特征数据；

4.如权利要求3所述的方法，其特征在于，所述图像文本之间匹配关系的模型参数学习训练过程中，使用所述文本特征数据和所述局部图像特征数据内积运算的结果表征所述局部区块与所述类别标签之间的相关度；

5.如权利要求3所述的方法，其特征在于，所述的文本特征数据包括：将所述类别标签通过词编码处理转换后生成的密集向量。

6.如权利要求1所述的方法，其特征在于，所述的图像特征数据包括：图像区块经过神经网络模型的图像特征抽取后输出的表征所述图像区块中图像特征信息的数据。

7.如权利要求1所述的方法，其特征在于，所述基于计算得到的所述权重分布数据确定所述原图像中物体的位置区域，包括：

根据所述局部区块对应在所述中间图像中的位置得到权重分布数据对应的权重分布图；

利用线性插值算法将所述权重分布图还原成所述原图像大小；

在所述还原后的权重分布图中，选取出大于预设阈值的权重值所对应的第一区域；

基于所述第一区域对应在所述原图像中的第二区域，确定出所述原图像中定位到的物体所在的位置区域。

8.一种处理设备，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

计算出所述局部区块的图像特征数据；

9.如权利要求8所述的处理设备，其特征在于，所述处理器中使用的注意力模型通过使用用户搜索行为数据来训练得到。

10.如权利要求9所述的处理设备，其特征在于，所述处理器对所述注意力模型的训练包括：

提取所述局部区块的局部图像特征数据；

11.如权利要求10所述的处理设备，其特征在于，所述处理器执行所述图像文本之间匹配关系的模型参数学习训练过程中，使用所述文本特征数据和所述局部图像特征数据内积运算的结果表征所述局部区块与所述类别标签之间的相关度；

12.如权利要求10所述的处理设备，其特征在于，所述处理器处理的文本特征数据包括：将所述类别标签通过词编码处理转换后生成的密集向量。

13.如权利要求8所述的处理设备，其特征在于，所述处理器处理的图像特征数据包括：图像区块经过神经网络模型的图像特征抽取后输出的表征所述图像区块中图像特征信息的数据。

14.如权利要求8所述的处理设备，其特征在于，所述处理器基于计算得到的所述权重分布数据确定所述原图像中物体的位置区域，包括：

15.一种图像处理的方法，其特征在于，所述方法包括：

获得包括多个局部区块的图像；

计算出所述局部区块的图像特征数据；

利用注意力模型对所述图像特征数据进行处理，输出与所述局部区块对应的权重分布数据，所述权重分布数据表征所述局部区块包括部分或全部物体的可能程度；所述注意力模型用于确定图像的局部区块与原图像所属物体的类别标签的关联程度。

16.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至7中任一项所述方法的步骤。