CN111782837A

CN111782837A - 图像检索方法和装置

Info

Publication number: CN111782837A
Application number: CN201910956812.6A
Authority: CN
Inventors: 陈越; 李业豪; 于伟; 王林芳; 姚霆; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-10-16
Anticipated expiration: 2039-10-10
Also published as: CN111782837B

Abstract

本公开提供一种图像检索方法和装置。图像检索装置提取待检索物品的图像特征信息，利用经过训练的第一神经网络模型对图像特征信息进行处理，以得到第一输出结果；利用经过训练的第二神经网络模型对第一输出结果进行处理，以便从第二神经网络模型的每个特征层中提取出一个特征信息，其中不同特征层所提供的特征信息中所包含的图像特征信息不同；分别将提取出的特征信息发送给对应的全连接层进行处理，以便得到相应的特征向量；将所得到的特征向量进行合并，以得到图像特征向量；根据图像特征向量检索与待检索物品相关联的图像。本公开可有效提升物品检索结果的类别一致性。

Description

图像检索方法和装置

技术领域

本公开涉及信息处理领域，特别涉及一种图像检索方法和装置。

背景技术

图像检索技术是根据用户输入的图片或其他可以概括图片内容的信息，在数据库中搜索相同或相关的图片的技术。该技术具有广泛的应用场景，例如：搜索引擎的以图搜图，电商平台的相似性商品搜索，社交平台的相关内容推荐，监控系统中的人脸匹配等。

近年来，随着深度学习技术兴起，基于卷积神经网络的图像检索技术以其优越的性能迅速成为主流方法。这类方法采用监督学习的方式，训练一个卷积神经网络对图像视觉信息进行特征映射。训练过程的优化目标是减小同类图片的视觉信息经过卷积神经网络映射到高纬特征空间后特征点之间的距离，并增大不同类图片对应的特征点之间的距离。这类基于度量学习的损失函数，计算随机挑选的训练样本映射到特征空间中的距离，并依据不同的规则计算损失大小。

发明内容

发明人通过研究发现，基于度量学习的损失函数在优化卷积神经网络时，依据的信息只有该图片是否为相同类，对于相同类的图片，其趋向于减小网络输出的特征向量之间的距离；对于不同类，其趋向于增大网络输出的特征向量之间的距离。

在超大规模商品检索场景中，图片的类别是纷繁复杂的，宏观上可以分为服饰，电子产品，食品，日用品等，这些大类又可以划分为不同的小类，这样的多级分类系统呈现为树状的结构，其叶子节点为最终的商品级的类别。对于这样的树状类别系统，如果仅仅依据商品级别的类别标签进行度量学习，将导致特征空间中父节点的类别混乱。即，对于一个确定的商品类别，其相邻的商品完全依靠视觉的相似性决定，不一定是属于相同大类的商品。这样的问题将导致检索系统性能的下降，检索结果排名中大类别的混乱，严重影响用户体验。

为此，本公开提供一种能够在同类商品中进行图像检索的方案。

根据本公开实施例的第一方面，提供一种图像检索方法，包括：提取待检索物品的图像特征信息；利用经过训练的第一神经网络模型对所述图像特征信息进行处理，以得到第一输出结果；利用经过训练的第二神经网络模型对所述第一输出结果进行处理，以便从所述第二神经网络模型的每个特征层中提取出一个特征信息，其中不同特征层所提供的特征信息中所包含的图像特征信息不同；分别将提取出的特征信息发送给对应的全连接层进行处理，以便得到相应的特征向量；将所得到的特征向量进行合并，以得到图像特征向量；根据所述图像特征向量检索与所述待检索物品相关联的图像。

在一些实施例中，在所述第二神经网络模型中，各特征层所提供的特征信息中所包含的图像特征随着层数的增加而增多，各层所提供的特征信息中所包含的图像语义信息随着层数的增加而减少。

在一些实施例中，所述第二神经网络模型中的特征层的数量与所述物品的类别层级数相对应。

在一些实施例中，所述第一神经网络模型为卷积神经网络模型；所述第二神经网络模型为特征金字塔网络模型。

在一些实施例中，在对第一神经网络模型和第二神经网络模型进行训练的过程中：利用待训练的第一神经网络模型对训练图像特征信息进行处理，以得到第一训练输出结果；利用待训练的第二神经网络模型对所述第一训练输出结果进行处理，以便从第二神经网络模型的每个特征层中提取出一个训练特征信息；分别将提取出的训练特征信息发送给对应的全连接层进行处理，以便得到相应的训练特征向量；将所得到的训练特征向量进行合并，以得到训练图像特征向量，根据所述训练图像特征向量计算对比损失函数值；分别根据每个训练特征向量计算相应的分类损失函数值；利用所述对比损失函数值和所述分类损失函数值对待训练的第一神经网络模型和第二神经网络模型中的参数进行调整，以得到经过训练后的第一神经网络模型和第二神经网络模型。

在一些实施例中，所述对比损失函数值与随机选择的两个样本在每个训练特征向量上的欧式距离相关联。

在一些实施例中，所述分类损失函数为softmax损失函数。

根据本公开实施例的第二方面，提供一种图像检索装置，包括：提取模块，被配合为提取待检索物品的图像特征信息；第一处理模块，被配置为利用经过训练的第一神经网络模型对所述图像特征信息进行处理，以得到第一输出结果；第二处理模块，被配置为利用经过训练的第二神经网络模型对所述第一输出结果进行处理，以便从所述第二神经网络模型的每个特征层中提取出一个特征信息，其中不同特征层所提供的特征信息中所包含的图像特征信息不同；特征向量处理模块，被配置为分别将提取出的特征信息发送给对应的全连接层进行处理，以便得到相应的特征向量；合并模块，被配置为将所得到的特征向量进行合并，以得到图像特征向量；检索模块，被配置为根据所述图像特征向量检索与所述待检索物品相关联的图像。

根据本公开实施例的第三方面，提供一种图像检索装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例涉及的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的图像检索方法的流程示意图；

图2为本公开另一个实施例的图像检索方法的流程示意图；

图3为本公开一个实施例的图像检索装置的结构示意图；

图4为本公开另一个实施例的图像检索装置的结构示意图；

图5为本公开又一个实施例的图像检索装置的结构示意图；

图6为本公开一个实施例的图像检索架构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本公开一个实施例的图像检索方法的流程示意图。在一些实施例中，下列的图像检索方法步骤由图像检索装置执行。

在步骤101，提取待检索物品的图像特征信息。

在步骤102，利用经过训练的第一神经网络模型对图像特征信息进行处理，以得到第一输出结果。

在一些实施例中，第一神经网络模型为卷积神经网络模型。

在步骤103，利用经过训练的第二神经网络模型对第一输出结果进行处理，以便从第二神经网络模型的每个特征层中提取出一个特征信息，其中不同特征层所提供的特征信息中所包含的图像特征信息不同。

在一些实施例中，第二神经网络模型为FPN(Feature Pyramid Network，特征金字塔网络)模型。

这里需要说明的是，在FPN模型中包括多个特征层，其中每个特征层的图像特征信息各不相同。

在一些实施例中，在第二神经网络模型中，各特征层所提供的特征信息中所包含的图像特征随着层数的增加而增多，各层所提供的特征信息中所包含的图像语义信息随着层数的增加而减少。

在一些实施例中，第二神经网络模型中的特征层的数量与物品的类别层级数相对应。

例如，若一个物品按照三级类目进行类别划分，则在第二神经网络为三层结构。其中第一特征层的图像特征(即图像细节)最少，而图像语义信息最多，因此适合于粗粒度的类别分类。第三特征层的图像特征(即图像细节)最多，而图像语义信息最少，因此适合于细粒度的类别分类。

在步骤104，分别将提取出的特征信息发送给对应的全连接层进行处理，以便得到相应的特征向量。

例如，在FPN为三层结构的情况下，相应设置三个全连接层。第一全连接层对FPN中的第一特征层的输出进行处理，以得到第一特征向量。第二全连接层对FPN中的第二特征层的输出进行处理，以得到第二特征向量。第三全连接层对FPN中的第三特征层的输出进行处理，以得到第三特征向量。

在步骤105，将所得到的特征向量进行合并，以得到图像特征向量。

在一些实施例中，将得到的多个特征向量首尾相连，以得到图像特向量。

在步骤106，根据图像特征向量检索与待检索物品相关联的图像。

在一些实施例中，在得到多个检索结果的情况下，按照待查询图片和数据库中各图片的距离从小到大的顺序返回检索结果。

在本公开上述实施例提供的图像检索方法中，通过在第一神经网络模型的基础上增加FPN模型，从而充分利用分类损失优化网络的特征输出，使得输出特征能够按照不同类别呈现分离的空间分布。有效避免了因仅使用简单的度量学习导致不同类别间的特征空间分布混乱的情况发生。

图2为本公开另一个实施例的图像检索方法的流程示意图。其中，在对第一神经网络模型和第二神经网络模型进行训练时，采用下列步骤：

在步骤201，利用待训练的第一神经网络模型对训练图像特征信息进行处理，以得到第一训练输出结果。

在步骤202，利用待训练的第二神经网络模型对第一训练输出结果进行处理，以便从第二神经网络模型的每个特征层中提取出一个训练特征信息。

在步骤203，分别将提取出的训练特征信息发送给对应的全连接层进行处理，以便得到相应的训练特征向量。

在步骤204，将所得到的训练特征向量进行合并，以得到训练图像特征向量，根据训练图像特征向量计算对比损失函数值；分别根据每个训练特征向量计算相应的分类损失函数值。

在一些实施例中，对比损失函数值与随机选择的两个样本在每个训练特征向量上的欧式距离相关联。

在一些实施例中，上述对比损失函数为多级对比损失函数(MS ContrasiveLoss)。例如，若第二神经网络模型中包括3个特征层。这三个特征层的输出分别经过对应的全连接层，获得长度为128的特征向量Feature1、Feature2和Feature3。对于随机选择的样本a、b，它们的特征向量分别为

多级对比损失函数为：

其中，

margin是预设的距离阈值。y∈{0,1}表示a，b是否为同一物品，值为1表示是同一SKU，为0表示为不同SKU。

此外，分别根据每个训练特征向量计算相应的分类损失函数值。例如，上述的分类损失函数为softmax损失函数。

其中，j∈{0,1,2,…,J-1}，J为类别数。例如，当前需要对十类物品进行分类，则J＝10。x表示特性向量X上的一个元素，编号从0开始。其中，x|j表示第j个元素。x|cls表示第cls个元素。

在步骤205，利用对比损失函数值和分类损失函数值对待训练的第一神经网络模型和第二神经网络模型中的参数进行调整，以得到经过训练后的第一神经网络模型和第二神经网络模型。

图3为本公开一个实施例的图像检索装置的结构示意图。如图3所示，图像检索装置包括提取模块31、第一处理模块32、第二处理模块33、特征向量处理模块34、合并模块35和检索模块36。

提取模块31被配合为提取待检索物品的图像特征信息。

第一处理模块32被配置为利用经过训练的第一神经网络模型对图像特征信息进行处理以得到第一输出结果。

在一些实施例中，第一神经网络模型为卷积神经网络模型。

第二处理模块33被配置为利用经过训练的第二神经网络模型对第一输出结果进行处理，以便从第二神经网络模型的每个特征层中提取出一个特征信息，其中不同特征层所提供的特征信息中所包含的图像特征信息不同。

在一些实施例中，第二神经网络模型为FPN模型。

特征向量处理模块34被配置为分别将提取出的特征信息发送给对应的全连接层进行处理，以便得到相应的特征向量。

合并模块35被配置为将所得到的特征向量进行合并，以得到图像特征向量。

检索模块36被配置为根据图像特征向量检索与待检索物品相关联的图像。

在本公开上述实施例提供的图像检索装置中，通过在第一神经网络模型的基础上增加FPN模型，从而充分利用分类损失优化网络的特征输出，使得输出特征能够按照不同类别呈现分离的空间分布。有效避免了因仅使用简单的度量学习导致不同类别间的特征空间分布混乱的情况发生。

图4为本公开另一个实施例的图像检索装置的结构示意图。图4与图3的不同之处在于，在图4所示实施例中，图像检索装置还包括训练模块37。

训练模块37利用待训练的第一神经网络模型对训练图像特征信息进行处理，以得到第一训练输出结果。利用待训练的第二神经网络模型对第一训练输出结果进行处理，以便从第二神经网络模型的每个特征层中提取出一个训练特征信息。分别将提取出的训练特征信息发送给对应的全连接层进行处理，以便得到相应的训练特征向量。将所得到的训练特征向量进行合并，以得到训练图像特征向量，根据训练图像特征向量计算对比损失函数值；分别根据每个训练特征向量计算相应的分类损失函数值。利用对比损失函数值和分类损失函数值对待训练的第一神经网络模型和第二神经网络模型中的参数进行调整，以得到经过训练后的第一神经网络模型和第二神经网络模型。

在一些实施例中，对比损失函数值与随机选择的两个样本在每个训练特征向量上的欧式距离相关联。例如，上述对比损失函数为多级对比损失函数(MS Contrasive Loss)。

此外，上述的分类损失函数为softmax损失函数。

图5为本公开又一个实施例的图像检索装置的结构示意图。如图5所示，图像检索装置包括存储器51和处理器52。

存储器51用于存储指令，处理器52耦合到存储器51，处理器52被配置为基于存储器存储的指令执行实现如图1或图2中任一实施例涉及的方法。

如图5所示，该装置还包括通信接口53，用于与其它设备进行信息交互。同时，该装置还包括总线54，处理器52、通信接口53、以及存储器51通过总线54完成相互间的通信。

存储器51可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器51也可以是存储器阵列。存储器51还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外处理器52可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1或图2中任一实施例涉及的方法。

图6为本公开一个实施例的图像检索架构示意图。

在训练阶段，如图6所示，将训练样本输入神经网络模型，其中神经网络模型中包括第一神经网络模型和第二神经网络模型。例如，第一神经网络模型为卷积神经网络模型，第二神经网络模型为FPN。这里设物品按三级目类进行类别划分，因此FPN为3层结构。利用全连接层FC1将从FPN中的第1层提取出的训练特征信息进行处理，以得到训练特征向量f1。利用全连接层FC2将从FPN中的第2层提取出的训练特征信息进行处理，以得到训练特征向量f2。利用全连接层FC3将从FPN中的第3层提取出的训练特征信息进行处理，以得到训练特征向量f3。将f1-f3合并以得到训练图像特征向量，并根据训练图像特征向量计算多级对比损失函数值。此外，分别对f1、f2和f3计算相应的分类损失函数值。利用多级对比损失函数值和分类损失函数值对待训练的第一神经网络模型和第二神经网络模型中的参数进行调整，以得到经过训练后的第一神经网络模型和第二神经网络模型。

在检索阶段，如图6所示，将采集的图像特征信息输入神经网络模型。利用全连接层FC1将从FPN中的第1层提取出的特征信息进行处理，以得到特征向量F1。利用全连接层FC2将从FPN中的第2层提取出的特征信息进行处理，以得到特征向量F2。利用全连接层FC3将从FPN中的第3层提取出的特征信息进行处理，以得到特征向量F3。将F1-F3合并以得到图像特征向量，并根据该图像特征向量在数据库中进行检索，从而能够有效提升物品检索结果中的类别一致性。

在一些实施例中，在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称：ASIC)、现场可编程门阵列(Field-ProgrammableGate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像检索方法，包括：

提取待检索物品的图像特征信息；

利用经过训练的第一神经网络模型对所述图像特征信息进行处理，以得到第一输出结果；

利用经过训练的第二神经网络模型对所述第一输出结果进行处理，以便从所述第二神经网络模型的每个特征层中提取出一个特征信息，其中不同特征层所提供的特征信息中所包含的图像特征信息不同；

分别将提取出的特征信息发送给对应的全连接层进行处理，以便得到相应的特征向量；

将所得到的特征向量进行合并，以得到图像特征向量；

根据所述图像特征向量检索与所述待检索物品相关联的图像。

2.根据权利要求1所述的方法，其中，

在所述第二神经网络模型中，各特征层所提供的特征信息中所包含的图像特征随着层数的增加而增多，各层所提供的特征信息中所包含的图像语义信息随着层数的增加而减少。

3.根据权利要求2所述的方法，其中，

所述第二神经网络模型中的特征层的数量与所述物品的类别层级数相对应。

4.根据权利要求1所述的方法，其中：

所述第一神经网络模型为卷积神经网络模型；

所述第二神经网络模型为特征金字塔网络模型。

5.根据权利要求1-4中任一项所述的方法，还包括，在对第一神经网络模型和第二神经网络模型进行训练的过程中：

利用待训练的第一神经网络模型对训练图像特征信息进行处理，以得到第一训练输出结果；

利用待训练的第二神经网络模型对所述第一训练输出结果进行处理，以便从第二神经网络模型的每个特征层中提取出一个训练特征信息；

分别将提取出的训练特征信息发送给对应的全连接层进行处理，以便得到相应的训练特征向量；

将所得到的训练特征向量进行合并，以得到训练图像特征向量，根据所述训练图像特征向量计算对比损失函数值；分别根据每个训练特征向量计算相应的分类损失函数值；

利用所述对比损失函数值和所述分类损失函数值对待训练的第一神经网络模型和第二神经网络模型中的参数进行调整，以得到经过训练后的第一神经网络模型和第二神经网络模型。

6.根据权利要求5所述的方法，其中：

所述对比损失函数值与随机选择的两个样本在每个训练特征向量上的欧式距离相关联。

7.根据权利要求5所述的方法，其中：

所述分类损失函数为softmax损失函数。

8.一种图像检索装置，包括：

提取模块，被配合为提取待检索物品的图像特征信息；

第一处理模块，被配置为利用经过训练的第一神经网络模型对所述图像特征信息进行处理，以得到第一输出结果；

第二处理模块，被配置为利用经过训练的第二神经网络模型对所述第一输出结果进行处理，以便从所述第二神经网络模型的每个特征层中提取出一个特征信息，其中不同特征层所提供的特征信息中所包含的图像特征信息不同；

特征向量处理模块，被配置为分别将提取出的特征信息发送给对应的全连接层进行处理，以便得到相应的特征向量；

合并模块，被配置为将所得到的特征向量进行合并，以得到图像特征向量；

检索模块，被配置为根据所述图像特征向量检索与所述待检索物品相关联的图像。

9.一种图像检索装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-7中任一项的方法。

10.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-7中任一项的方法。