CN113704522B

CN113704522B - 基于人工智能的目标图像快速检索方法及系统

Info

Publication number: CN113704522B
Application number: CN202111259001.4A
Authority: CN
Inventors: 聂秀山; 史洋; 刘新锋; 刘兴波; 袭肖明; 尹义龙
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-18
Anticipated expiration: 2041-10-28
Also published as: US20230134531A1; US12277166B2; CN113704522A

Abstract

本发明公开了基于人工智能的目标图像快速检索方法及系统，获取模板图像和模板图像对应的若干个已知标签；从目标图像数据库中，抽取待检测图像；将待检测图像和模板图像，均输入到训练后的卷积神经网络中，输出待检测图像的哈希码和模板图像的哈希码；基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离，得到待检测图像与模板图像的相似度，选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。通过人工智能技术的使用实现对机器人视觉平台采集的复杂场景下的图像样本基于卷积神经网络，利用哈希方法提取图像特征，引入区分易混淆实体、可优化相似性关系以及区分样本关注度，更好地应对复杂场景下的物品检索。

Description

基于人工智能的目标图像快速检索方法及系统

技术领域

本发明涉及图像检索技术领域，特别是涉及基于人工智能的目标图像快速检索方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

物品检索旨在利用计算机或者机器人对摄像机拍摄的图像进行处理、分析和理解，以识别各种不同模式的目标和对象，它是计算机视觉领域的一个重要研究课题。

如今，已经可以使用机器人来收集真实环境的图像，对于简单的图像而言，很容易为其学到一个合适的特征表示将其与不同语义的样本区分开来。而在复杂场景中，图像则需要更多的关注才能得到一个恰当的特征表示。复杂场景例如，在多标签学习（图像包含多个标签）中，图像间的相似度并不具备传递性，即存在图像A与图像B相似（图像A与图像B拥有一个或者一个以上相同的标签），图像A与图像C相似，但是图像B与图像C不相似（图像B与图像C不存在相同的标签）。因而流行的物品检索方法平等地对待所有的样本，导致其在复杂场景下物品检索方法出现了相对较差的泛化性能。

（1）复杂场景下物品检索包含大量容易混淆的实体，这些实体一般具有相似的特征表征，流行的物品检索方法并不能将其区分开（未考虑易混淆的特点）；

（2）复杂场景下物品检索需要更加准确的图像相似性，以便挖掘图像的真实相似性关系来引导生成图像特征，现有的物品检索方法未考虑挖掘图像的相似性关系；

（3）复杂场景下物品检索需要提供更多的关注给复杂样本，合理划分注意力，但现有的物品检索方法平等对待所有样本。

发明内容

为了解决现有技术的不足，本发明提供了基于人工智能的目标图像快速检索方法及系统；

第一方面，本发明提供了基于人工智能的目标图像快速检索方法；

基于人工智能的目标图像快速检索方法，包括：

获取模板图像和模板图像对应的若干个已知标签；

从目标图像数据库中，抽取待检测图像；

将待检测图像和模板图像，均输入到训练后的卷积神经网络中，输出待检测图像的哈希码和模板图像的哈希码；

基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离，得到待检测图像与模板图像的相似度，汉明距离越小表示相似度越高，选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。

第二方面，本发明提供了基于人工智能的目标图像快速检索系统；

基于人工智能的目标图像快速检索系统，包括：

获取模块，其被配置为：获取模板图像和模板图像对应的若干个已知标签；

抽取模块，其被配置为：从目标图像数据库中，抽取待检测图像；

转换模块，其被配置为：将待检测图像和模板图像，均输入到训练后的卷积神经网络中，输出待检测图像的哈希码和模板图像的哈希码；

输出模块，其被配置为：基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离，得到待检测图像与模板图像的相似度，汉明距离越小表示相似度越高，选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。

与现有技术相比，本发明的有益效果是：

通过人工智能技术的使用实现对机器人视觉平台采集的复杂场景下的图像样本基于卷积神经网络，利用哈希方法提取图像特征，引入区分易混淆实体、可优化相似性关系以及区分样本关注度，更好地应对复杂场景下的物品检索。

本发明附加方面的优点将在下面的描述中部分给出，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于人工智能的目标图像快速检索方法；

如图1所示，基于人工智能的目标图像快速检索方法，包括：

S101：获取模板图像和模板图像对应的若干个已知标签；

S102：从目标图像数据库中，抽取待检测图像；

S103：将待检测图像和模板图像，分别输入到训练后的卷积神经网络中，输出待检测图像的哈希码和模板图像的哈希码；

S104：基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离，得到待检测图像与模板图像的相似度，汉明距离越小表示相似度越高，选择相似度高于设定阈值（设定阈值，例如

）的一个或多个待检测图像作为检索结果输出。

示例性地，所述模板图像为已知图像，所述模板图像对应的若干个已知标签，例如，包括：山、水、树、花、动物、行人、马路、车辆等。

示例性地，所述S102：从目标图像数据库中，抽取待检测图像；这里的抽取规则为无放回抽取。

进一步地，所述卷积神经网络为改进的卷积神经网络CNN-F；（CNN-F，Convolutional Neural Networks and the Improved Fisher Vector网络）。

其中，改进的卷积神经网络CNN-F，网络结构包括：

依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第一全连接层、第二全连接层、第三全连接层和Tanh函数层；

将第三全连接层的输出维度设定为K维。

进一步地，所述训练后的卷积神经网络；训练步骤包括：

构建训练集和测试集；所述训练集和测试集，均包括：已知标签的图像；

将训练集已知标签的图像，输入到卷积神经网络中进行训练，卷积神经网络输出已知标签图像的哈希码；根据已知标签图像的哈希码与已知标签，构建损失函数，当损失函数达到最小值时，停止训练；

将测试集，输入到卷积神经网络中进行测试，当准确率超过设定阈值时，停止测试，认定当前卷积神经网络为训练后的卷积神经网络。

进一步地，所述训练后的卷积神经网络，是基于不同情况下，采用不同的损失函数训练得到的。

进一步地，基于不同情况下，采用不同的损失函数训练得到的；具体包括：

当需要使得所有的负样本的预测得分尽可能低，所有正样本的预测得分尽可能高，且相似度得分的取值范围为

，则使用基于哈希码相似度的统一损失函数

；

当需要损失函数

关注相似度预测得分偏低的正样本，则使用对正负样本相似度预测得分的间隔进行加权的损失函数

；

当需要使得所有的负样本的预测得分尽可能低，所有正样本的预测得分尽可能高，且使用的相似度得分的取值范围为

，则使用基于哈希码相似度的损失函数

；

当需要损失函数

；

当需要损失函数

希望负样本的相似度预测得分与正样本的相似度预测得分之间存在明显的差距，则使用损失函数

；

当需要损失函数

在优化的过程中更新相似性矩阵，则使用基于优化相似性矩阵的间隔进行加权的统一损失函数

；

当需要损失函数

在优化的过程中更新相似性矩阵，则使用基于优化相似性矩阵的间隔进行加权的圆损失函数

；

当需要损失函数

在优化的过程中更新相似性矩阵，则使用损失函数

。

进一步地，所述基于哈希码相似度的统一损失函数

，其公式表达为：

（1）

其中，

表示集合中样本的数目，

表示样本

的相似样本集合，

表示样本

的不相似样本集合，

是缩放因子，

是间隔，

是训练集中图像的数量，

是样本

和

的哈希码预测样本相似度，

是样本

和

的哈希码预测样本相似度，

是第

个样本，

是第

个样本。

应理解地，首先利用机器人视觉平台采集的待检测图像

，送入卷积神经网络（CNN）获得图像的特征

，

、

和

分别是图像特征

的通道数、高和宽。

本发明采用深度有监督哈希学习方法，损失函数采用Circle Loss三元组损失。Circle Loss为三元组形式的复杂场景物品检索问题提供了一个简单而直观的思路。三元组损失包含锚点

与其正样本

（存在相同类）的预测得分

，锚点

与其负样本

（不存在相同类）的预测得分

。

在检索任务中，两个图像是否相似的依据是其是否包含同类对象，因此，当图像对中包含多实体复杂场景图像时，图像对的实际相似度与检索时的相似度之间就存在差异。具体来说，对于锚点而言，不同的正样本可能与其具有不同数目的同类对象（类别标签交集的数量），这意味着正样本与锚点之间的实际相似度存在差别（显然类别标签的交集数量越多，实际相似度应该越高）。虽然检索时图像对仅有相似与不相似两种标签，但是在训练时同样将图像对的相似度视为这两种标签（相似或不相似）会带来一定的问题因此应该区分图像对之间的相似度。

本发明将现有CNN-F网络最后一层新增Tanh函数层，Tanh函数层作为激活函数层来将网络输出的各维度取值范围限制在

区间上。对于输入图像

，经过CNN-F网络后得到图像特征

，之后经过Tanh激活层后得到输出

，从而可以得到哈希码

。这里的

是符号函数。

为了便于目标函数的优化求解，本方法在目标函数中直接使用

代替

。因此样本

和

的哈希码预测样本相似度得分被定义为：

其中，

表示哈希码的长度，

的取值范围是

，所以此时样本的相似度得分取值范围为

。

进一步地，所述对正负样本相似度预测得分的间隔进行加权的损失函数

，其公式表达为：

（2）

其中，

是样本

和

的相似度。

应理解地，显然最小化公式（1）会使得所有的负样本的预测得分尽可能低，所有的正样本的预测得分尽可能高。

但是，公式（1）没有考虑到正样本与锚点之间的相似度，也就是应该让正样本与锚点之间的相似度被用来对正负样本的相似度预测得分之间的间隔进行加权。

显然，该损失函数（公式（2））会关注相似度预测得分偏低的正样本，这种正样本一般都是复杂场景图像，从而提升了对复杂场景图像的检索能力。此外正样本与锚点的相似度越大，公式中相应地设置的间隔也越大，因此对于同样相似度预测得分的正样本，损失函数会基于相似度更高的正样本更大的权重（即关注度），从而进一步优化了哈希码的分布。

进一步地，所述损失函数

，其公式表达为：

（3）

其中，

为基于哈希码相似度的圆损失函数。

若使用的相似度预测得分的取值范围为

，则损失函数如公式（3）所示。

此时，负样本的相似度预测得分以-1为中心，此时若引入间隔加权的思想，可以得到新的损失函数（4）。

进一步地，所述损失函数

，其公式表达为：

（4）

其中，

表示正负样本相似度预测得分的间隔进行加权的圆损失函数。

三元组中三个变量被称为锚点、正样本和负样本。正样本与锚点相似，负样本与锚点不相似。正样本与锚点间的相似度越大，该圆损失函数circle loss的半径越小，即要求正负样本的相似度预测得分与-1或1的距离越近，反之则对距离的约束越小。

进一步地，所述损失函数

，其公式表达为：

（5）

其中，

表示结合哈希检索任务的特性的圆损失函数，

是调节负样本最高相似度得分的超参数，

是调节正样本最低相似度得分的超参数。根据公式（5）可以看出，其进队预测得分高于

的负样本关注，且得分越高，关注度越高，这使得上述公式仅为负样本的预测得分设置了

的阈值，而不强迫所有的负样本的预测得分都趋近于-1。此外，上述公式会给预测得分低于

的正样本关注，且得分越低，关注度越高，这同样使得上述公式仅为正样本的预测得分根据其实际相似度设置对应的阈值，而不迫使所有的正样本的预测得分都趋近于1。由此相对于

和

，该损失函数会更多地关注预测相似度得分与实际相似度差距过大的正样本，从而得到更隔离的哈希码分布。此时，再考虑可优化相似性关系，即在优化的过程中更新相似性矩阵，得到更加符合实际的相似性关系。上述损失函数中使用相似性矩阵的损失函数包括

，

和

，在该三个损失函数中引入迭代优化相似性矩阵（在训练时优化相似性矩阵），我们得到新的三个损失函数

，

和

。

进一步地，所述基于优化相似性矩阵的间隔进行加权的统一损失函数

，其公式表达为：

进一步地，所述基于优化相似性矩阵的间隔进行加权的圆损失函数

，其公式表达为：

进一步地，所述基于相似性矩阵的结合哈希检索任务特性的圆损失函数

，其公式表达为：

。

本发明的数据来源于机器人视觉平台在真实环境下采集的物体图片，比如一些数码设备、海底鱼类、陆地野生动物、地标建筑等各种各样的图片。而预处理包括之前提到的弱监督去背景、随机擦除、标准化、随机旋转等。

本技术可以更好地应对复杂场景下的图像检索问题，利用哈希方法生成图像特征，在损失函数中区分容易混淆的实体，并得到更加准确的图像相似性关系，同时提供更多的注意力给复杂样本。同时模型结构直观，容易迁移与部署实现。评价指标使用mAP（准确率），可以看出本发明的准确率比其他方法准确率都要高，特别是在NUS-WIDE和MS-COCO两个多标签数据集上，有着明显优异的性能。

实施例二

本实施例提供了基于人工智能的目标图像快速检索系统；

基于人工智能的目标图像快速检索系统，包括：

此处需要说明的是，上述获取模块、抽取模块、转换模块和输出模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。