CN110059807A

CN110059807A - 图像处理方法、装置和存储介质

Info

Publication number: CN110059807A
Application number: CN201910345632.4A
Authority: CN
Inventors: 牟帅; 肖万鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-07-26

Abstract

本发明实施例公开了一种图像处理方法、装置和存储介质。方法包括：通过第一神经网络模型从样本图像中提取对应的语义特征；对从所述样本图像中提取的语义特征进行聚类，得到所述样本图像对应的语义标签；通过所述样本图像以及对应的语义标签训练第二神经网络模型；通过所述第二神经网络模型，从第一图库中的第一图像、以及第二图库中的第二图像中提取对应的语义特征；根据从所述第一图像以及所述第二图像中提取的语义特征，确定用于将所述第一图像与所述第二图库进行区分的目标语义距离；根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像。通过本发明实施例，能够提高图像检索的准确率和效率。

Description

图像处理方法、装置和存储介质

技术领域

本发明涉及图像处理技术，尤其涉及一种图像处理方法、装置和存储介质。

背景技术

以神经网络模型为基础的深度学习技术得到快速发展，尤其在图像检索领域，很多图像检索类的任务场景引入了基于深度学习的检索算法。当用户输入一张待检索图像后，能够通过神经网络模型对输入的图像进行识别，基于用户设定的固定的匹配阈值，检索出大量的图像作为检索结果。其中，检索结果为疑似的相似图像，需要用户通过人工二次判断，从检索结果中找出与待检索的图像相同的图像，无法精确地检索出与待检索图像相同的图像。

发明内容

本发明实施例提供一种图像处理方法、装置和存储介质，能够提高图像检索的准确率和效率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种图像处理方法，包括：

通过第一神经网络模型从样本图像中提取对应的语义特征；

对从所述样本图像中提取的语义特征进行聚类，得到所述样本图像对应的语义标签；

通过所述样本图像以及对应的语义标签训练第二神经网络模型；

通过所述第二神经网络模型，从第一图库中的第一图像、以及从第二图库中的第二图像中提取对应的语义特征；

根据从所述第一图像以及所述第二图像中提取的语义特征，确定用于将所述第一图像与所述第二图库进行区分的目标语义距离；

根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像。

本发明实施例提供一种图像处理方法，包括：

将第一图库中第一图像与第二图库中第二图像之间的语义距离进行比较，以确定用于将所述第一图像与所述第二图库进行区分的目标语义距离；

根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像；

输出对应所述待检索图像的检索结果。

本发明实施例提供一种图像处理装置，包括：

第一提取单元，用于通过第一神经网络模型从样本图像中提取对应的语义特征；

聚类单元，用于对从所述样本图像中提取的语义特征进行聚类，得到所述样本图像对应的语义标签；

训练单元，用于通过所述样本图像以及对应的语义标签训练第二神经网络模型

第二提取单元，用于通过所述第二神经网络模型，从第一图库中的第一图像、以及从第二图库中的第二图像中提取对应的语义特征；

区分单元，用于根据从所述第一图像以及所述第二图像中提取的语义特征，确定用于将所述第一图像与所述第二图库进行区分的目标语义距离；

检索单元，用于根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像。

在一些实施例中，所述检索单元，还用于：

确定接收的待检索图像与所述第一图库中第一图像之间的语义距离；

当所述语义距离小于所述第一图像的目标语义距离时，将相应的第一图像识别为所述待检索图像对应的检索结果。

在一些实施例中，所述训练单元，还用于：

根据所述样本图像以及对应的语义标签，对所述第二神经网络模型的参数进行更新，直到所述第二神经网络模型的损失函数收敛；其中，所述第一神经网络模型的复杂度大于所述第二神经网络模型的复杂度。

本发明实施例提供一种图像处理装置，包括：

确定单元，用于将第一图库中第一图像与所述第二图库中第二图像之间的语义距离进行比较，以确定用于将所述第一图像与所述第二图库进行区分的目标语义距离；

匹配单元，用于根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像；

输出单元，用于输出对应所述待检索图像的检索结果。

本发明实施例提供一种图像处理装置，所述装置包括：存储器和处理器，其中：

所述存储器，用于存储计算机程序；

所述处理器，用于执行存储器中存储的计算机程序时，实现上述图像处理方法的步骤。

本发明实施例提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时，实现上述图像处理方法。

本发明实施例具有以下有益效果：

基于第一图库中的各第一图像的语义特征、以及第二图库中的各第二图像的语义特征进行处理，得到能够将第一图像与第二图库进行区分的信息，即目标语义距离，从而能够以目标语义距离为标准，从第一图库中查找与待检索图像具有相同语义特征的第一图像作为检索结果，实现了图像检索的良好的准确率和效率。

附图说明

图1是本发明实施例图像处理系统的一个可选的结构示意图；

图2是本发明实施例图像检索系统的一个可选的结构示意图；

图3是本发明实施例图像处理方法的一个可选的流程示意图；

图4是本发明实施例特征空间的语义特征分布示意图；

图5是本发明实施例图像处理方法的一个可选的流程示意图；

图6是本发明实施例基于像素特征检索的效果示意图；

图7是本发明实施例语义特征示意图；

图8是本发明实施例检索场景2的检索效果示意图；

图9是本发明实施例检索场景3中的图像检索系统的一个可选的结构示意图；

图10是本发明实施例图像处理方法的一个可选的框架组成示意图；

图11是本发明实施例图像处理装置的一个可选的结构示意图；

图12是本发明实施例图像处理装置的一个可选的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。本发明实施例所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)神经网络模型，包括第一神经网络模型和第二神经网络模型，其中，第二神经网络模型相对于第一神经网络模型而言具有更简单的结构，表现为模型参数少、包含的网络层的数量少、拓扑结构简单、路径短的特点。第一神经网络模型即复杂神经网络模型的图像特征的表达能力和鲁棒性强，可为ResNet152、DenseNet164、GoogleNet等神经网络模型。第二神经网络模型即轻量神经网络模型具有计算速度快、计算开销小以及占用资源少等特性，可为：MobileNet、ShuffleNet等神经网络模型。

2)第一图库，也称为种子图库，即图像检索的依据的图库，包括多个第一图像(也称为种子图像)。在进行图像检索时，需要在第一图库中检索与目标图像相似或相同的第一图像。

3)第二图库，也称为白库，包括多个第二图像，且第二图像与第一图像的语义内容不同，或不相关(语义距离大于语义距离阈值)。比如：第一图像为汽车的图像，第二图像为马路、树木、路灯等图像。又比如：第一图像为商标的图像，第二图像为景色图像。

4)图像特征，通过神经网络模型对图像进行特征提取后得到的图像表示，可为语义特征，也可为像素特征。其中，语义特征表征图像的语义内容，像素特征表征图像的像素信息。

5)聚簇，通过聚类分析得到的分组，即相似的属性的对象的集合。不同的聚簇中的对象的属性不相似。

6)伪标签，通过对无标签的训练图像的图像特征进行聚类分析得到的语义标签，可表征样本图像的分类。

本发明实施例可提供为图像处理方法、装置和存储介质。实际应用中，图像处理方法可由图像处理装置实现，图像处理装置中的各功能实体可以由设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。

参见图1，图1是本发明实施例提供的图像处理系统100所的示例性架构示意图，图像处理系统100包括第一图库11和第二图库12、第一神经网络模型13和第二神经网络模型14。图像处理系统100可部署在服务端或终端上。

图像处理系统100将样本图像输入第一神经网络模型13，第一神经网络模型13提取输入的样本图像的语义特征，图像处理系统100将第一神经网络模型13所提取的样本图像的语义特征进行聚类，得到各样本图像对应的语义标签，并基于样本图像以及对应的语义标签对第二网络模型14进行训练，在完成训练的第二网络模型14中，分别提取第一图库11中第一图像的语义特征和第二图库12中第二图像的语义特征，图像处理系统100根据第二神经网络模型14所提取的语义特征确定第一图像与所述第二图库12在整体上进行区分的目标语义距离即各个第一图像对应的目标语义特征。

示例性的，第一图库中第一图像对应的目标语义距离可以列表的形式存储，如列表16所示，第一图库中的第一图像包括图像1、图像2、图像3和图像4，图像1、图像2、图像3和图像4的目标语义距离分别为：阈值1、阈值2、阈值3、阈值4。在实际应用中，第一图像对应的目标语义距离的存储形式不进行任何的限定。

需要说明的是，图1中的第一图库11、第二图库12、第一神经网络模型13和第二神经网络模型14可位于同一功能实体上，也可位于不同的功能实体上。

当图像处理系统100接收到用户输入的待检索图像时，根据第一图像对应的目标语义距离从所述第一图库11中检索与待检索图像相同的第一图像作为检索结果。

这里，可确定待检索图像和第一图库11中的各第一图像之间的语义距离，将对应的目标语义距离大于语义距离的第一图像作为待检索图像的检索结果。比如，待检索图像与图像1之间的语义距离为d1，d1>阈值1；待检索图像与图像2之间的语义距离为d2，d2>阈值2；待检索图像与图像3之间的语义距离为d3，d3<阈值3；待检索图像与图像4之间的语义距离为d4、d4>阈值4；则认为图像3为与待检索图像相同的第一图像，待检索图像的检索结果为图像3。

示例性的，本发明实施例还提供一种数据检索系统，包括：终端和服务端，服务端或终端上运行有图像检索系统、第一图库和第二图库。第一图库和第二图库可分别为图1所示的图像处理系统100中的第一图库11、第二图库12。

图像检索系统将第一图库中各第一图像分别与第二图库中各第二图像之间的语义距离进行比较，以确定用于将所述第一图像与所述第二图库在整体上进行区分的目标语义距离；根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像；输出对应所述待检索图像的检索结果。

在实际应用中，数据检索系统还可包括第二神经网络模型，数据检索系统中的第二神经网络模型可为图像处理系统100中的第二神经网络模型14。这里，其中，图像检索系统与图像处理系统可集成在同一应用程序中。

在一示例性的场景中，当图像检索系统、第一图库和第二图库部署在终端上，终端接收到用户输入的待检索图像时，基于第一图库中各第一图像对应目标语义距离确定待检索图像的检索结果。

在一示例性的场景中，当图像检索系统、第一图库和第二图库部署在服务端上，如图2所示，数据检索系统包括终端21、服务端22和网络23，服务端22中运行有图像检索系统221、第一图库222和第二图库223。当终端21接收到用户输入的待检索图像时，通过网络23将待检索图像发送至服务端22，服务端22中的图像检索系统221将第一图库222中各第一图像分别与第二图库223中各第二图像之间的语义距离进行比较，以确定用于将第一图像与第二图库223进行区分的目标语义距离；根据所述目标语义距离从第一图库222中检索与接收的待检索图像相同的第一图像；将检索的第一图像作为检索结果通过网络23输出至终端21，终端21向用户展示检索结果。

在实际应用中，图2所示的服务端22中还可包括第二神经网络224，第二神经网络224可为图1所示的第二神经网络14。

其中，可在终端21上安装有图像检索的移动应用(App)或浏览网页作为图像检索系统221的客户端，用户可通过客户端提交待检索图像，由客户端将待检索图像通过网络发送至服务端22，并接收服务端22返回的检索结果。

在图2中仅示例性示出了服务端10中的一个服务器，当然，不排除可以实施多个服务器的情况，通过多个服务器构成服务器集群作为服务端22。

需要说明的是，本发明实施例提供的图像处理方法，适用于任何需要根据图像检索相似或相同图像的场景中。例如，云端相册管理中，根据给定用户A的图像搜索出所有包括用户A的图像；购物网站中，根据用户输入的给定的商品A图像，搜索出与商品A同类别的所有的商品的图像，又比如：商标查询系统中，根据用户输入的商标A，搜索出与商品A相似或相同的商标。

下面，结合图1所述的图像处理系统和图2所示的数据检索系统，对本发明实施例提供的图像处理方法、装置和计算机可读存储介质的各实施例进行说明。

参见图3，图3是本发明实施例提供的图像处理方法的流程示意图，将结合图3示出的步骤进行说明。

步骤S301，通过第一神经网络模型从样本图像中提取对应的语义特征；

图像处理系统将样本图像集合中的样本图像输入第一神经网络模型，在第一神经网络模型中，提取各样本图像的语义特征。样本图像可包括第一图库中的第一图像和第二图库中的第二图像，样本图像可为未标注语义标签的图像。

这里，第一神经网络模型可为不存在分类器的神经网络模型，输出的结果为从输入的图像中抽取的特征向量，将从输入的图像中抽取的特征向量作为输入的图像的语义特征。

步骤S302，对从所述样本图像中提取的语义特征进行聚类，得到所述样本图像对应的语义标签。

通过聚类算法对从各样本图像中提取的语义特征进行聚类分析，将相同的语义特征划分至紧密关系的集合，从而将所提取的样本图像的语义特征划分为多个集合即聚簇，并确定各集合的语义标签，将各集合的语义标签作为该集合中的语义特征对应的样本图像的语义标签。这里，采用的聚类算法可为：K均值(K-Means)、均值漂移、基于密度的聚类算法(Density-Based Spatial Clustering of Application with Noise，DBSCAN)等算法。

在本发明实施例中，对各样本图像的语义特征进行聚类，根据聚类结果确定各样本图像的语义标签，不需要通过人工标注的方式对样本图像进行语义标签的标注。

在一些实施例中，所述对从所述样本图像中提取的语义特征进行聚类，得到所述样本图像对应的语义标签，包括：将从所述样本图像中提取的语义特征映射到特征空间；根据所述样本图像的语义特征与所述特征空间中不同聚类中心之间的距离，将所述样本图像的语义特征划分到对应不同聚类中心的集合；对相同聚类中心的集合中的语义特征对应的样本图像统一分配相应的语义标签。

将各样本图像的语义特征映射到特征空间，随机挑选K个点作为K个集合的聚类中心，并迭代执行以下两个步骤，直到聚类中心不再改变：

步骤1、集合分类

根据所有语义特征与聚类中心之间的距离将语义特征分配到相应的集合中。

步骤2、移动聚类中心

计算各集合中的语义特征的位置的平均值，并将相应的聚类中心移到该平均值对应的位置处。

通过上述迭代，将样本图像的语义特征划分为K个集合，并将各集合中任一样本图像的标签作为相应集合的语义标签，将该语义标签分配给该集合中的语义特征对应的样本图像。其中，K大于2。

步骤S303，通过所述样本图像以及对应的语义标签训练第二神经网络模型。

在步骤S302中确定各样本图像对应的语义标签后，通过样本图像和各样本图像对应的语义标签对第二神经网络模型进行训练，以更新第二神经网络模型的参数。

在一些实施例中，第一神经网络模型的复杂度大于所述第二神经网络模型的复杂度。第一神经网络模型可为ResNet152、DenseNet164、GoogleNet等神经网络模型，第二神经网络模型可为MobileNet、ShuffleNet等神经网络模型。

在一些实施例中，对第二网络模型进行训练时，所述方法还包括：根据所述样本图像以及对应的语义标签，对所述第二神经网络模型的参数进行更新，直到所述第二神经网络模型的损失函数收敛。

通过样本图像和各样本图像对应的语义标签对第二神经网络模型的参数进行更新，并基于损失函数计算参数更新后的第二神经网络模型的损失，当当前的损失相对于更新之前的第二神经网络模型的损失存在下降值时，通过样本图像和各样本图像对应的语义标签继续对第二神经网络模型的参数进行更新，直到第二神经网络模型的损失的值不再变化，即第二神经网络模型收敛，完成对第二神经网络模型的训练。

这里，训练第二神经网络模型所使用的损失函数可为均方误差函数、Huber损失函数、softmax损失函数、中心损失(Center Loss)函数等。

步骤S304，通过所述第二神经网络模型，从第一图库中的第一图像、以及从第二图库中的第二图像中提取对应的语义特征。

在完成第二神经网络模型的训练后，在第二神经网络模型中，分别提取第一图库中各第一图像的语义特征和第二图库中各第二图像的语义特征。其中，第二神经网络模型可包括多个卷积层、全连接层和分类器。图像处理系统调用第二神经网络模型对各第一图像和各第二图像分别进行特征向量的提取，并将卷积层或全连接层输出的特征向量，作为各第一图像的语义特征和各第二图像的语义特征。

第一图库中的第一图像可为同一场景下的语义内容相同的图像，比如：认证系统中的不同人脸头像，又比如：如交通系统中不同车辆的图像。

在一些实施例中，所述第一图库中第一图像的语义特征与所述第二图库中第二图像的语义特征不相关。比如：第一图像为人脸头像，第二图像为与人脸的语义完全不同的树木、聊天界面、汽车等图像。又比如：第一图像为人脸头像，第二图像为与人脸的像素分布不同的树木、聊天界面、汽车等图像。

其中，第一图像和第二图像的语义内容不同，像素内容可相同，比如：第一图像为红色的国旗图像，第二图像为红色的帽子图像，二者的像素的颜色都是红色的，但第一图像的语义内容为国旗，第二图像的语义内容为帽子。

步骤S305，根据从所述第一图像以及所述第二图像中提取的语义特征，确定用于将所述第一图像与所述第二图库行区分的目标语义距离。

根据步骤S304所提取的第一图库中各第一图像的语义特征与第二图库中各第二图像的语义特征，确定各第一图像对应的目标语义距离。其中，语义距离表征对应的两个图像的语义内容之间的相似度，目标语义距离表征将相应的第一图像和第二图库在整体上进行区分的匹配相似度阈值，表征第一图像与第二图库的语义距离范围的分界。

在本发明实施例中，可至少通过以下两种方式之一来确定各第一图像对应的目标语义距离：

方式一、

对于每一第一图像，分别执行以下处理，从而确定每一第一图像对应的目标语义距离：计算该第一图像的语义特征与第二图像中不同第二图像的语义特征之间的语义距离，该第一图像与不同的第二图像之间的语义距离进行比较，对第一图像与不同的第二图像之间的语义距离进行排序，根据排序结果确定设定次序的语义距离作为该第一图像对应的目标语义距离。

两个图像的语义特征之间的语义距离可为两个语义特征之间的欧式距离、余弦距离等，本发明实施例对语义距离的计算方式不进行任何的限定。

方式二、

将第二神经网络模型所提取各第一图像的语义特征和各第二图像的语义特征映射到特征空间；根据所述各第一图像的语义特征和所述各第二图像的语义特征在特征空间中的分布，确定各第一图像对应的目标语义距离。

步骤S306，根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像。

当接收到待检索图像时，提取待检索图像的语义特征，并计算待检索图像的语义特征和第一图库中不同的第一图像的语义特征之间的语义距离，并将待检索图像和不同的第一图像之间的语义距离和相应的第一图像的目标语义距离进行比较，根据比较结果确定作为待检索图像对应的检索结果的第一图像。其中，可通过第二神经网络模型提取待检索图像的语义特征。

需要说明的是，本发明实施例中对待检索图像的接收时机不进行任何限定，比如，可为S301之前，可为S302之前，又或者S305之后等。

在一些实施例中，所述根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像，包括：确定接收的待检索图像与所述第一图库中第一图像之间的语义距离；当所述语义距离小于所述第一图像的目标语义距离时，将相应的第一图像识别为所述待检索图像对应的检索结果。

将待检索图像的语义特征和第一图库中各第一图像的语义特征之间的语义距离，和相应的第一图像的目标语义距离进行比较。当待检索图像与一第一图像之间的语义距离小于该第一图像对应的目标语义距离时，可认为该第一图像的与待检索图像的相同，该第一图像属于待检索图像的检索结果；当待检索图像与一第一图像之间的语义距离大于该第一图像对应的目标语义距离时，表征该第一图像的语义内容与待检索图像不同，该第一图像不属于待检索图像的检索结果。当待检索图像与一第一图像之间的语义距离等于该第一图像对应的目标语义距离时，可将该第一图像作为检索结果，也可不作为检索，可根据用户的实际需求进行设置。

比如，第一图库中的第一图像包括图像1、图像2、图像3和图像4，图像1、图像2、图像3和图像4的目标语义距离分别为：阈值1、阈值2、阈值3、阈值4。待检索图像与图像1之间的语义距离为d1，d1>阈值1；待检索图像与图像2之间的语义距离为d2，d2>阈值2；待检索图像与图像3之间的语义距离为d3，d3<阈值3；待检索图像与图像4之间的语义距离为d4、d4>阈值4；则待检索图像的检索结果为图像3。

在实际应用中，目标语义距离作为判断对应的第一图像是否与待检索图像相似的标准，可将目标语义距离称为匹配距离阈值。

本发明实施例提供的图像处理方法，基于第二神经网络模型所提取的第一图库中的各第一图像的语义特征、以及第二图库中的各第二图像的语义特征，确定用于将各第一图像和第二图像整体上进行区分的各第一图像对应的目标语义距离，以确定的目标语义距离为相似度的判断标准，从第一图库中查找与待检索图像的相同的第一图像作为检索结果，提高图像检索的准确率和效率，并且通过第一神经网络模型所提取的各样本图像的语义特征的聚类，得到各样本图像的语义标签，基于各样本图像以及对应的语义标签对第二神经网络模型进行训练，对第二神经网络模型进行有监督的训练，提高第二神经网络模型所提取的语义特征的表达能力，进一步提高图像检索的准确率和效率。

在一些实施例中，在步骤S305确定第一图像对应的目标语义距离时，所述根据从所述第一图像以及所述第二图像中提取的语义特征，确定用于将所述第一图像与所述第二图库进行区分的目标语义距离，包括：确定所述第一图像的语义特征与所述第二图库中第二图像的语义特征之间的语义距离，并进行语义距离的排序；确定在所述排序中处于设定次序的语义距离为将所述第一图像与所述第二图库在整体上进行区分的目标语义距离。

这里，可将第一图像的语义特征和第二图像的语义特征映射至同一特征空间，特征空间可为二维空间，也可为三维空间。这里以图4所示的二维空间为例，对第一图像的语义特征和第二图像的语义特征在特征空间40中的分布进行举例说明。其中，第一图像包括图像1、图像2和图像3，图像1的语义特征F11、图像2的语义特征F12以及图像3的语义特征F13在特征空间40的分布如图4所示，在图4中，特征空间40中F12、F13和F13之外的其他点表征第二图库中不同的第二图像的语义特征。

将第一图像的语义特征和第二图像的语义特征映射至同一特征空间后，对于各第一图像，分别计算该第一图像的语义特征和第二图库中不同的第二图像的语义特征之间的语义距离，对该第一图像与不同的第二图像之间的语义距离进行排序，并选取排序中设定次序的语义距离作为该第一图像对应的目标语义距离。

在一些实施例中，确定所述第一图像与所述第二图库的目标区分程度；根据所述目标区分程度确定所述设定次序。

这里，对于每一个第一图像，可根据该第一图像和第二图库中不同第二图像之间的语义距离，确定该第一图像和第二图库的目标区分程度。这里，目标区分程度表征第一图像与第二图库的区分程度，可采用点二列相关、二列相关法、四分相关法等计算第一图像和第二图库的相关系数来表示第一图像和第二图库的目标区分程度。

这里，不同的目标区分程度对应不同的设定次序，从而根据目标区分程度，确定在上述的语义距离的排序中处于设定次序的语义距离为目标语义距离。

在一些实施例中，当所述排序为升序时，所述目标区分程度与所述设定次序正相关。

这里，当排序为升序排列时，目标区分程度越高，表示第一图像和第二图库的区分性能越好，则选取升序排序中次序越高语义距离作为目标语义距离，也就是说，目标区分程度越高，选取的目标语义距离越小，从而能够使第一图像与第二图库中尽可能多的第二图像进行区分。

在本发明实施例中，根据第一图像和第二图库的目标区分程度，从第一图像和第二图库中的各第二图像之间的语义特征之间中选取设定次序的语义距离作为第一图像对应的目标语义距离，从而将第一图像和第二图库中的目标区分程度通过目标语义距离体现。第一图像和第二图库的目标区分程度越大，表示第一图像和第二图库的区分的性能越好，则区分第一图像和第二图像的性能越好，并通过目标语义距离来体现第一图像和第二图库的区分的性能，目标语义距离越小，则能够将第一图像与第二图库中越多的第二图像进行区分，在进行图像检索时，通过目标语义距离，能够精确地确定第一图像是否与待检索图像相同。

参见图5，图5是本发明实施例提供的图像处理方法的流程示意图，将结合图5示出的步骤进行说明。

S501，将第一图库中第一图像与所述第二图库中第二图像之间的语义距离进行比较，以确定用于将所述第一图像与所述第二图库进行区分的目标语义距离。

这里，图像检索系统通过各样本图像以及各样本图像对应的语义标签训练第二神经网络模型，通过第二神经网络模型从第一图库中各第一图像、以及从第二图库中各第二图像提取对应的语义特征；根据从第一图库中各第一图像、以及从第二图库中各第二图像中提取的语义特征，确定用于将第一图像与第二图库在整体上进行区分的目标语义距离。

S501的描述可参见S304和S305的描述。需要说明的是，在S501中的样本图像对应的语义标签可通过S301和S302确定，也可通过人工标注等其他方式确定。

在一些实施例中，所述第一图库中各第一图像的语义特征与所述第二图库中各第二图像的语义特征不相关。

S502，根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像。

S502的描述参见S306的描述。

S503，输出对应所述待检索图像的检索结果。

当服务端从所述第一图库中检索与待检索图像相同的第一图像作为待检索图像的检索结果时，可将检索结果输出至终端，并由终端展示给用户。

当终端从所述第一图库中检索与待检索图像相同的第一图像作为待检索图像的检索结果时，可将检索结果输出至显示界面，展示给用户。

本发明实施例提供的图像处理方法，基于第一图库中的各第一图像的语义特征、以及第二图库中的各第二图像的语义特征，确定用于将各第一图像和第二图像整体上进行区分的各第一图像对应的目标语义距离，以确定的语义距离为相似度的判断标准，从第一图库中查找与待检索图像的相同的第一图像作为检索结果，提高图像检索的准确率和效率。

下面，通过多个不同的检索场景对本发明实施例提供的图像处理方法进行进一步说明。

检索场景1

本发明实施例中，图像检索包括：基于图像的消息摘要算法(Message-Di gestAlgorithm，MD)5值进行检索，基于图像像素的图像检索，和基于语义内容的图像检索(Content-based Image Retrieval，CBIR)任务。与基于图像像素或者MD5的图像检索算法不同，CBIR算法主要关注图像整体的语义内容，例如两条品种不一样的狗，图像的MD5值显然不同，且在像素层面两者的相似程度也较低。

其中，可基于人工设计的图像特征提取器提取图像的图像像素，人工设计的图像特征提取器采用的图像相似度算法可为感知哈希(Perceptual Hash，PH ash)、方向梯度直方图(Histogram of Oriented Gradients，HOG)、尺度不变特征变换(Scale InvariantFeature Transform，SIFT)、离散余弦变换(Discrete Cosine Transform，DCT)等算法，这些图像相似度算法并不适合解决CBIR的语义内容匹配。其中，PHash算法或HOG算法容易受到像素干扰，在图像上添加滤镜或者简单的笔画，算法的匹配成功率会大幅下降。如图6所示，当在图像61上添加简单的笔画得到图像62时，图像61和图像62会匹配失败。SIFT算法要求图像的纹理信息足够多，否则所构造的128维特征向量不具有区分性，从而导致算法失效。

检索场景2

在本发明实施例中，基于VGG神经网络的图像检索算法中，以图7所示的卷积神经网络(Convolutional Neural Networks，CNN)模型的全连接(Full y Connecte，FC)层特征701或卷积层(Convolutional Layer)特征702作为语义特征进行图像检索。

全连接层特征701包含了图像703的高层特征，这些高层图像特征可以很好地应用于基于图像内容的检索任务中。CNN模型中卷积层特征702包含图像703的空间位置信息，其特征表达能力强于全连接层特征的特征表达，因此在图像检索时，可在提取出特征维度为C*H*W的卷积层特征之后，利用加和池化(Sum pooling)将卷积层特征降维至C*1*1，再使用主成分分析(Principal components analysis)和白化(Whiten)对降维后的特征进行后处理操作，从而达到降低特征维度和消除特征维度之间相关性的目的。

基于深度学习的算法采用模型作为图像特征提取模型，相对与人工设计的图像特征提取器，CNN模型提取的图像特征质量大幅提升，检索效果明显好于人工设计的图像特征提取器。

但基于深度神经网络的图像检索算法通过CNN模型卷积层或者全连接层完成图像的特征提取，特征的质量和鲁棒性明显高于手工提取的特征，但没有引入监督学习的过程，在特定的数据场景有明显的限制，检索效果表现不佳。如图8所示，当待检索图像为图像81时，期望匹配到图像82为检索结果，但在基于图像81和图像83的像素在纹理相同，真实的匹配结果为图像83。

检索场景3

在本发明实施例中，还提供一种基于注意力(Attention)机制的图像检索算法，可以更好地利用图像卷积层特征的空间信息，但是注意力网络层的参数需要有监督训练，当数据集未标注分类标签或者标签质量较差的时候，算法提取的特征质量会明显下降。如图9所示，基于深度神经网络和流形排序设计了一套图像检索系统，将图像901输入到包括C1至C5五个卷积层和FC6、FC7、FC8三个FC层的CNN904，通过CNN904对图像901的监督学习，提取网络中全连接层的图像特征902；其次，对图像特征902进行归一化处理后，用高效流形排序(EMR)算法对CNN904从图像数据集903中的图像所提取的图像特征905进行流行排序得到流行排序结果906，并对流行排序结果906中图像特征902所返回的结果进行图像排序，根据排序后的结果向用户返回最相似的图像907。图9所示的图像检索系统避免了使用单一的形似性度量方法，如余弦距离、欧式距离等，采用了一种基于流形距离的流形排序来更加真实地度量图像之间的相似度。

但图9所示的图像检索系统的匹配精度低，只将疑似相似图像返回给用户，检索结果需要通过用户判断是否有相似图像，无法适用图像内容精确匹配。进行图像内容匹配的图像匹配系统没有人工判定返回结果是否相似的交互过程，在进行图像匹配时，如果所查询图片在检索的图库包含对应的相似图片，即返回相似图片，若无相似图片(即判定没有达到匹配标准)，将不会返回任何结果。返回错误的结果或者结果漏过会给用户带来较差的体验，甚至引起法律上的纠纷，如商标注册过程因为匹配精度问题导致同一个商标或者相似商标被重复注册。

本发明实施例提供的上述几个检索场景，在图像相似度匹配过程中，首先通过人工设计的图像特征提取器或者CNN模型对查询图像即待检索图像提取几百到几千维度的特征向量表达，然后利用欧式距离或者余弦距离来计算查询图像和种子图库中的种子图像所提取的特征向量之间的距离，如果该距离小于人工设定的阈值时，则认为匹配成功，否则失败。人工设定的阈值为绝对阈值，因此，基于人工设定的阈值所返回的匹配结果不够准确。

针对上述检索场景存在的问题，本发明实施例提出了一种图像处理方法，利用复杂CNN模型辅助轻量CNN模型进行监督学习提升特征表达质量，并使用第二图库的第二图像对第一图库的第一图像进行白库清洗操作，通过第一图像和第二图像在轻量CNN模型的特征空间上的特征分布来衡量图像之间的相似程度，能够实现高效高精度的图像语义内容相似度匹配。

下面，结合图10所示的示例性架构，对本发明实施例提供的图像处理方法进行进一步描述。如图10所示，本发明实施例提供的图像处理方法包括：

通过复杂CNN模型1002提取场景图像集1001中的各图像的语义特征1003，并利用聚类算法对所提取的语义特征进行聚类分析，构建带分类标签的数据集1004。通过带分类标签的数据集合1004对轻量神经网络模型1005进行训练，通过训练完成后的轻量神经网络模型1005提取种子图库1006中种子图像的语义特征10081，并提取白库1007中第二图像的语义特征10082，通过第二图像的语义特征10082对种子图像的语义特征10081进行白库漂洗，得到各种子图像的匹配距离阈值1009。当接收到用户输入的待检索图像图像1010，抽取图像1010的语义特征1011，确定语义特征1011和种子图像的语义特征之间的语义距离1012，并基于图像1010和各种子图像之间的语义距离1012查询各种子图像对应的匹配距离阈值1009，得到匹配结果1013，即图像1010的检索结果。下面，进行进一步的描述。

第一步：生成带标签的数据集合。

通过复杂神经网络模型即第一神经网络模型提取场景图像集中的各图像的语义特征，并利用聚类算法对所提取的语义特征进行聚类分析，构建带分类标签的数据集合。复杂神经网络模型可包括：ResNet152、DenseNet164、Google Net等网络深度深的神经网络模型。聚类算法可为KMeans、谱聚类、冥迭代聚类(Power Iteration Clustering)等算法。这里，可通过聚类算法对无标签的图像特征进行聚类构建带标签的数据集合。

第二步、利用构造的待标签的数据集合训练轻量神经网络模型。

第二神经网络模型即轻量神经网络模型，可以为基于Bottleneck结构和分组卷积结构的MobileNet、ShuffleNet等。

为了进一步提升线上轻量神经网络模型即第二神经网络模型的图像特征的表达质量，可基于中心损失(Center Loss)函数对轻量神经网络模型进行训练。

虽然复杂神经网络模型的计算量巨大，参数存在冗余，但是图像特征的表达能力和鲁棒性强于轻量神经网络模型，这里，通过复杂神经网络模型输出的语义特征对轻量神经网络模型进行训练，能够提升轻量神经网络模型的图像特征的表达能力。

第三步、基于轻量神经网络模型提取第一图库和第二图库中图像的语义特征。

轻量神经网络模型训练完成之后，基于轻量神经网络模型对种子图库中的第一图像和白库中的第二图像提取语义特征，得到第一图像的语义特征和第二图像的语义特征。这里，可利用相似性检索系统比如Faiss构建快速索引系统，保证图像特征的检索效率。

第四步、通过对每一张第一图像的语义特征进行白库清洗操作，确定对应的匹配距离阈值。

通过白库确定第一图库中第一图像匹配距离阈值即目标语义距离的示例可如图4所示的虚线。由于第二图像是应用场景中与种子图库中种子图像的语义内容不相关的图像，可以认为这类图像是不需要做匹配操作的，那么依次计算种子图库每一张种子图像的语义特征与所有第二图像的语义特征之间的距离，然后取距当前种子图像第N近的第二图像的距离作为种子图像的匹配距离阈值，其中，N为较小的自然数，比如：1、5、10等。

这里，基于第四步能够保证图像检索的高准确性。

第五步、基于用户输入的图像进行图像检索。

在作为客户端的线上系统中，对用户输入的图像提取语义特征之后，当用户输入的图像的语义特征与种子图库中某张种子图像的语义特征之间的语义距离，小于该种子图像对应的匹配距离阈值时，则当前种子图像属于与用户输入的图像匹配的检索结果，被返回展示给用户。

由于白库中图像的量级可以设置为几十万至几百万(记为M)，因此，本发明实施例提供的图像处理方法的理论误匹配率为：N/M，这个误匹配率是非常小的，大部分情况下仅为万分之几，完全达到了商用标准。

本发明实施例提供的图像处理方法，能够作为基于卷积神经网络的高精度图像语义内容相似度匹配方法。首先，使用复杂神经网络模型提取应用场景中图像的全局语义特征；然后，使用聚类算法，基于所提取的全局语义特征构建可用于分类任务的数据集，每个数据集对应不同的伪标签，基于已分类的数据集和对应的伪标签训练轻量神经网络模型；最后，通过人工或者爬虫收集与应用场景中种子图像检索库中语义内容不相关(像素内容可相关)的数据集，基于轻量神经网络模型提取白库和种子图库中的图像的语义特征，以此来确定种子图库中每一张种子图像对应的匹配距离阈值。

这里，收集的与检索库中种子图像语义内容不相关的数据构成的数据集定义为“白库”(Clean Dataset)，确定检索库中单张种子图像的匹配距离阈值的过程可称为白库清洗操作。为了降低数据集之间的分布差异带来的影响，可利用复杂神经网络模型抽取的语义特征作为依据对轻量神经网络模型做微调(Fi netune)，保证轻量神经网络模型提取的全局语义特征质量的同时兼顾算法效率，再结合种子图像的白库清洗操作大幅提升图像语义相似度匹配结果的精准度。

在实际应用中，语义内容相似与像素级别相似、MD5匹配是一个包含关系，因此，本发明实施例提供的图像处理方法可用于图像语义内容检索和匹配系统，同时具有覆盖基于图像像素级别检索系统的能力。

本发明实施例提供的图像处理方法，能够提升语义特征提取器的能力，保证图像的语义特征表达包含更多具有区分性的信息，并基于客观的图像语义相似度评价(Semantic Similarity Evaluation，SSE)指标更好地衡量图像语义的相似程度，保证不同图像间的距离衡量能够真实地反映数据的分布，从而能够准确高效地匹配用户输入图像在种子库中的期望的相似图像样本，彻底解决当前基于语义内容的图像检索精度低下的问题。

为了更好地对本发明实施例提供的图像处理方法的检索效果进行说明，本发明实施例对图像检索1和图像检索系统2的准确率、覆盖率进行比较，比较结果如表1所示。，图像检索系统1为采用本发明实施例的图像处理方法的图像检索系统，图像检索系统2为采用ImageNet预训练模型的图像检索系统称。这里，在表1中，检索系统1的命中阈值分别时N为5、10、20时的目标语义距离，检索系统2的命中阈值为80分。其中，命中阈值为判断第一图库中的第一图像是否为检索结果的判定标准，当第一图像与待检索图像的语义距离小于命中阈值时，第一图像属于检索结果，当第一图像与待检索图像的语义距离大于命中阈值时，第一图像不属于检索结果。

表1图像检索系统1和图像检索系统2的检索性能比较示例

基于表1所示的比较结果，可表明本发明实施例提供的图像处理方法的检索结果的准确率和覆盖率都高于采用采用绝对命中阈值的检测系统2。

图11所示的图像处理装置1100为本发明实施例提供的图像处理方法的一种示例性的功能结构。图像处理装置1100的硬件层可以采用图1所述的图像处理系统100所在的终端或服务器的方式实现。

参见图11，图11是本发明实施例提供的图像处理装置1100的示例性的结构示意图，包括至少一个处理器1101、存储器1102、至少一个网络接口1103和用户接口1104。图像处理装置1100中的各个组件通过总线系统1105耦合在一起。可理解，总线系统1105用于实现这些组件之间的连接通信。总线系统1105除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图11中将各种总线都标为总线系统1105。用户接口1104可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。存储器1102可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。

本发明实施例中的存储器1102能够存储数据以支持图像处理装置1100的操作。这些数据的示例包括：用于在图像处理装置1100上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如第一神经网络模型、第二神经网络模型、第一图库、第二图库等，用于实现各种基础业务以及处理基于硬件的任务。

作为本发明实施例提供的方法采用软硬件结合实施的示例，本发明实施例所提供的图像处理方法可以直接体现为由处理器1101执行的软件模块组合，软件模块可以位于计算机可读存储介质中，计算机可读存储介质位于存储器1102，处理器1101读取存储器1102中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器1101以及连接到总线1105的其他组件)完成本发明实施例提供的图像处理方法。

下面结合图11说明存储器1102中的软件模块组合的示例，包括：

第一提取单元1110，用于通过第一神经网络模型从样本图像中提取对应的语义特征；

聚类单元1111，用于对从所述样本图像中提取的语义特征进行聚类，得到所述样本图像对应的语义标签；

训练单元1112，用于通过所述样本图像以及对应的语义标签训练第二神经网络模型；

第二提取单元1113，用于通过所述第二神经网络模型，从第一图库中的第一图像、以及从第二图库中的第二图像中提取对应的语义特征；

区分单元1114，用于根据从所述第一图像以及所述第二图像中提取的语义特征，确定用于将所述第一图像与所述第二图库进行区分的目标语义距离；

检索单元1115，用于根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像。

在一些实施例中，所述第一神经网络模型的复杂度大于所述第二神经网络模型的复杂度。

在一些实施例中，区分单元1114，还用于：

确定所述第一图像的语义特征、与所述第二图库中第二图像的语义特征之间的语义距离，并进行语义距离的排序；

确定在所述排序中处于设定次序的语义距离为将所述第一图像与所述第二图库在整体上进行区分的所述目标语义距离。

在一些实施例中，区分单元1114，还用于：

确定所述第一图像与所述第二图库的目标区分程度；

根据所述目标区分程度确定所述设定次序；其中，当所述排序为升序时，所述目标区分程度与所述设定次序正相关。

在一些实施例中，检索单元1115，还用于：

在一些实施例中，聚类单元1111，还用于：

将从所述样本图像中提取的语义特征映射到特征空间；

根据所述样本图像的语义特征与所述特征空间中不同聚类中心之间的距离，将所述样本图像的语义特征划分到对应不同聚类中心的集合；

对相同聚类中心的集合中的语义特征对应的样本图像统一分配相应的语义标签。

在一些实施例中，训练单元1112，还用于：

根据所述样本以及对应的语义标签，对所述第二神经网络模型的参数进行更新，直到所述第二神经网络模型的损失函数收敛。

图12所示的图像处理装置1200为本发明实施例提供的图像处理方法的一种示例性的功能结构。图像处理装置1200的硬件层可以采用图2所示的终端或服务器的方式实现。

参见图12，图12是本发明实施例提供的图像处理装置1200的示例性的结构示意图，包括至少一个处理器1201、存储器1202、至少一个网络接口1203和用户接口1204。图像检索装置1200中的各个组件通过总线系统1205耦合在一起。可理解，总线系统1205用于实现这些组件之间的连接通信。总线系统1205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图12中将各种总线都标为总线系统1205。用户接口1204可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。存储器1202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。

本发明实施例中的存储器1202能够存储数据以支持图像处理装置1200的操作。这些数据的示例包括：用于在图像处理装置1200上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如第一神经网络模型、第二神经网络模型、第一图库、第二图库等，用于实现各种基础业务以及处理基于硬件的任务。

作为本发明实施例提供的方法采用软硬件结合实施的示例，本发明实施例所提供的图像处理方法可以直接体现为由处理器1201执行的软件模块组合，软件模块可以位于计算机可读存储介质中，计算机可读存储介质位于存储器1202，处理器1201读取存储器1202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器1201以及连接到总线1205的其他组件)完成本发明实施例提供的图像处理方法。

下面结合图12说明存储器1202中的软件模块组合的示例，包括：

确定单元1210，用于将第一图库中第一图像与所述第二图库中第二图像之间的语义距离进行比较，以确定用于将所述第一图像与所述第二图库进行区分的目标语义距离；

匹配单元1211，用于根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像；

输出单元1212，用于输出对应所述待检索图像的检索结果。

本发明实施例还提供一种存储介质，即计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，实现本发明实施例提供的图像处理方法。

综上，基于第一图库中的各第一图像的语义特征、以及第二图库中的各第二图像的语义特征进行处理，得到能够第一图像与第二图库在整体上进行区分的信息，即目标语义距离，从而能够以语义距离为标准，从第一图库中查找与待检索图像具有相同语义特征的第一图像作为检索结果，实现了图像检索的良好的准确率和效率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

通过第一神经网络模型从样本图像中提取对应的语义特征；

通过所述第二神经网络模型，从第一图库中的第一图像、以及第二图库中的第二图像中提取对应的语义特征；

2.根据权利要求1所述的方法，其特征在于，所述根据从所述第一图像以及所述第二图像中提取的语义特征，确定用于将所述第一图像与所述第二图库进行区分的目标语义距离，包括：

确定所述第一图像的语义特征与所述第二图库中第二图像的语义特征之间的语义距离，并进行语义距离的排序；其中，所述第一图像的语义特征与所述第二图像的语义特征不相关；

确定在所述排序中处于设定次序的语义距离为将所述第一图像与所述第二图库在整体上进行区分的目标语义距离。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

确定所述第一图像与所述第二图库的目标区分程度；

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标语义距离从所述第一图库中检索与接收的待检索图像相同的第一图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述对从所述样本图像中提取的语义特征进行聚类，得到所述样本图像对应的语义标签，包括：

将从所述样本图像中提取的语义特征映射到特征空间；

6.根据权利要求1所述的方法，其特征在于，所述通过所述样本图像以及对应的语义标签训练第二神经网络模型，包括：

7.一种图像处理方法，其特征在于，所述方法包括：

输出对应所述待检索图像的检索结果。

8.一种图像处理装置，其特征在于，所述装置包括：

训练单元，用于通过所述样本图像以及对应的语义标签训练第二神经网络模型；

9.根据权利要求8所述的装置，其特征在于，所述区分单元，还用于：

10.根据权利要求9所述的装置，其特征在于，所述区分单元，还用于：

确定所述第一图像与所述第二图库的目标区分程度；

11.根据权利要求8所述的装置，其特征在于，所述聚类单元，还用于：

将从所述样本图像中提取的语义特征映射到特征空间；

12.一种图像处理装置，其特征在于，所述装置包括：

输出单元，用于输出对应所述待检索图像的检索结果。

13.一种图像处理装置，其特征在于，所述装置包括：存储器和处理器，其中：

所述存储器，用于存储计算机程序；

所述处理器，用于执行存储器中存储的计算机程序时，实现权利要求1至6中任一项所述的图像处理方法的步骤。

14.一种图像处理装置，其特征在于，所述装置包括：存储器和处理器，其中：

所述存储器，用于存储计算机程序；

所述处理器，用于执行存储器中存储的计算机程序时，实现权利要求7所述的图像处理方法的步骤。

15.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至6中任一项所述的图像处理方法，或权利要求7所述的图像处理方法。