CN115329118A

CN115329118A - 一种面向垃圾图像的图像相似性检索方法及系统

Info

Publication number: CN115329118A
Application number: CN202211256611.3A
Authority: CN
Inventors: 徐龙生; 庞世袭; 孙振行; 杨纪冲
Original assignee: Shandong Kailin Environmental Protection Equipment Co ltd
Current assignee: Shandong Kailin Environmental Protection Equipment Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-11-11
Anticipated expiration: 2042-10-14
Also published as: CN115329118B

Abstract

本公开提供了一种面向垃圾图像的图像相似性检索方法及系统，涉及图像处理技术领域，采集待检索的垃圾图像，构建并训练模型，获取待检索的垃圾图像输入至训练好的模型中进行编码，得到垃圾图像的第一二值码表示；从待检索的垃圾图像中随机抽取多个垃圾图像作为查询集同样输入至训练好的模型中，获取到查询集的第二二值码表示；计算第一二值码与第二二值码的汉明距离，基于MAP的度量方式返回查询集的查询精度，完成垃圾图像的相似性检索；通过二值语义表示方法，解决了无人清扫车垃圾图像数据量大、检索性能低、资源开销大的问题；引入了通道注意力机制的学习，该模型结构直观，容易迁移与部署实现。

Description

一种面向垃圾图像的图像相似性检索方法及系统

技术领域

本公开涉及图像处理技术领域，具体涉及一种面向垃圾图像的图像相似性检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

大数据和互联网的兴起使得计算机每秒需处理以万计的多媒体数据。庞大的数据量给很多需要进行高效多媒体数据处理的领域带来极大挑战，尤其是大规模的图像检索。图像检索作为计算机视觉领域的研究热点，旨在通过高效的检索方式在数据库中快速匹配待查询图像的相似图像集。当数据库数据量较小时，可以采样最简单的穷尽搜索方式，即将数据库中的点与查询点一一比较欧式距离，最终根据距离的大小排序选取数据库中最优的数据点集合，时间复杂度为线性复杂度O(d*n)，d和n分别是数据的维度和样本数。但是，当数据库规模较大时，线性搜索的方式将会消耗极大的算力资源和时间成本。因此，人们开始研究近似最近邻搜索(Approximate Nearest Neighbor Search)方法快速地搜索有效解。哈希方法就是其中一类重要的近似最近邻搜索算法，它可以将高维的多媒体数据压索成紧凑的二值码（也称为哈希码）同时保持原始样本空间之间的相似性，并通过汉明距离来度量二值码之间的相似性。二值码可以通过硬件的异或计算进行快速求解。因此，哈希方法凭借其低存储性，简洁性和高效性等优势成为最流行的近似最近邻搜索方法之一。在计算机视觉，大数据处理，多媒体计算等领域有着广泛的应用。

比如近些年来的无人清扫车，其通过摄像头采集的海量的垃圾图像数据，数据量规模达，数据高维化和结构化，如果仅仅使用线性的穷尽搜索方式，一方面不能直接反映结构化数据内部的相似关系和细粒度信息，这对于无人清扫车采集的垃圾图像数据表示至关重要。另一方面，在大规模的数据下，穷尽式搜索的硬件和时间成本开销巨大，这对于无人清扫车高效快捷的处理海量垃圾图像检索的任务是不可取的。在这些情况下，基于欧式距离的穷尽搜索方式存在很大的局限性，无法高效的完成相似性检索。

发明内容

本公开为了解决上述问题，提出了一种面向垃圾图像的图像相似性检索方法及系统，通过哈希学习的思想，利用面向大规模垃圾图像的二值语义表示方法，解决无人清扫车垃圾图像数据量大，检索性能低的问题。

根据一些实施例，本公开采用如下技术方案：

一种面向垃圾图像的图像相似性检索方法，包括：

采集待检索的垃圾图像，并进行图像的预处理；

构建并训练模型，获取待检索的垃圾图像输入至训练好的模型中进行编码，得到垃圾图像的第一二值码表示；

从待检索的垃圾图像中随机抽取多个垃圾图像作为查询集同样输入至训练好的模型中，获取到查询集的第二二值码表示；

计算第一二值码与第二二值码的汉明距离，基于MAP的度量方式返回查询集的查询精度，完成垃圾图像的相似性检索。

根据一些实施例，本公开采用如下技术方案：

一种面向垃圾图像的图像相似性检索系统，包括：

数据采集模块，包括无人车，用于采集待检索的垃圾图像，并进行图像的预处理；

模型构建与训练模块，用于模型的构建与训练；

相似性检索模块，用于获取待检索的垃圾图像输入至训练好的模型中进行编码，得到垃圾图像的第一二值码表示；从待检索的垃圾图像中随机抽取多个垃圾图像作为查询集同样输入至训练好的模型中，获取到查询集的第二二值码表示；计算第一二值码与第二二值码的汉明距离，基于MAP的度量方式返回查询集的查询精度，完成垃圾图像的相似性检索。

进一步的，所述图像的预处理包括：

对图像的随机裁剪、翻转、加噪以及标准化。

根据另一些实施例，本公开采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种面向垃圾图像的图像相似性检索方法。

根据另一些实施例，本公开采用如下技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种面向垃圾图像的图像相似性检索方法。

与现有技术相比，本公开的有益效果为：

本公开通过哈希学习的思想，基于无人清扫车（无人车）的垃圾图像检索任务，提出一种面向大规模垃圾图像的二值语义表示方法，与传统的检索方法相比，该方法通过一种图像的二值语义表示方法，解决无人清扫车垃圾图像数据量大、检索性能低、资源开销大等弊端。

为了挖掘图像数据内部的细粒度信息，引入通道注意力机制的学习，同时为了保持数据的结构化信息，设计基于哈希学习的成对相似度损失和量化损失来进一步学习图像的二值码，该模型结构直观，容易迁移与部署实现，可以很好的应用到无人清扫车的垃圾图像检索任务中。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开方法的模型图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种面向垃圾图像的图像相似性检索方法，包括：

步骤1：采集待检索的垃圾图像，并进行图像的预处理；

步骤2：构建并训练模型，获取待检索的垃圾图像输入至训练好的模型中进行编码，得到垃圾图像的第一二值码表示；

步骤3：从待检索的垃圾图像中随机抽取多个垃圾图像作为查询集同样输入至训练好的模型中，获取到待查询集的第二二值码表示；

步骤4：计算第一二值码与第二二值码的汉明距离，基于MAP的度量方式返回查询集的查询精度，完成垃圾图像的相似性检索。

在步骤1中，预处理的过程包括对图像的随机裁剪、翻转、加噪以及标准化操作得到待输入的图像集；

在步骤2中，作为一种实施例，如图1所示，对模型进行训练的过程包括：

S10：采集待检索的垃圾图像，进行图像的预处理，构建图像训练集；

其中，采集到的待检索的垃圾图像构成垃圾图像集

，然后对图像进行预处理，预处理的过程包括对图像的随机采集、翻转、加噪以及标准化操作得到待输入的图像训练集

。

S11：构建模型，将待检索的图像训练集作为模型的输入，经过深度卷积和池化操作获取初步的拟合低级特征图；

具体的，将待输入的图像训练集

作为模型的输入，经过深度卷积和池化网络得到初步的拟合低级特征图，并构成低级特征向量集

。

S12：将图像低级特征图从通道层次进行加权，获取图像的局部区域细节特征；

具体的，将图像低级特征集

输入到基于通道的注意力模块从通道层次进一步学习图像的细粒度信息。模型的通道注意力模块通过平均池化，卷积和矩阵相乘等操作对图像的通道进行加权来关注获取图像的局部其余细节特征信息，最后得到模型的输出

。

具体的，模型的通道注意力模块首先对特征集

进行平均池化得到一维向量集合，紧接着对每个一维向量做两次卷积操作得到加权后的一维向量，最后与原始特征集

相乘得到模型的输出

。此操作使得模型可以关注和获取图像的局部区域细节特征信息。

S13：基于图像标签的one-hot编码，构建输入垃圾图像之间的相似性矩阵，并计算成对相似度损失以及二值码的量化损失，获取得到最后的损失函数，进行迭代优化，获取到训练优化后的模型。

具体的，基于图像标签的one-hot编码，进一步构建输入垃圾图像之间的相似度矩阵Sm，所述相似度矩阵是一个方阵，表示的是样本之间的相似程度。若第

和第

个图像标签的one-hot编码在对应位置有一个或多个相同，则认为两张图像相似，

；否则

；认为两张图像不相似。利用原始样本标签之间的相似度矩阵来作为模型训练的监督信息，更好的指导图像二值码的学习。

计算成对相似度损失函数使得学习到的二值码保持原始样本空间中样本之间的相似性，所述公式为：

其中，

和

分别表示第

和第

个图像的二值码，

表示第

和第

个图像之间的相似性。

为超参数，定义相似和不相似对之间的最小相似度区间。此公式主要是保持学习到的二值码保持原始样本之间的类别相似关系。如果原始样本相似，则对应的二值码之间应该尽可能的相似；如果原始样本不相似，则对应的二值码应该不相似。

对二值码的量化损失进行计算，公式为：

其中，

，表示第

张图像经过模型的输出特征。量化损失旨在将模型输出的特征转化为二值码。此公式旨在端到端的建立模型的特征学习和二值码表示之间的关系，使得模型在特征学习的同时学习图像的二值码。

最终得到整体方法模型的损失函数为：

+

其中，

和

是网络的超参数，用来平衡两个损失项的贡献度。

最后，利用适应性矩估计算法对总损失

进行迭代优化，重复步骤步骤 S10-步骤S13大于等于

次，得到训练优化后的模型和对应损失函数的最优值。

进一步的，在步骤S11中，深度卷积网络中有四个卷积卷积层，每个卷积层后接入一个池化层，所述卷积层采用5*5大小的卷积核，所述池化层采用3*3大小的池化核，所述卷积层和池化层均采用PReLU激活函数。

步骤S12中的通道注意力模块，首先通过平均池化操作得到通道层次的权值，进一步通过两个卷积层从通道层来学习图像内的细粒度信息，每个卷积层均采用5*5大小的卷积核，第一个卷积层采用ReLU激活函数，第二个卷积层采用Sigmoid激活函数，最后与输入特征

相乘得到模型的输出

。

优选的，步骤S13中

和

分别取值10和0.5。

优选的，步骤S13中

取值150。

优选的，步骤S13中

取值20。

作为一种实施例，利用上述训练好的模型进行垃圾图像相似性检索的方法步骤包括：

S20：利用无人清扫车采集垃圾图像，并将垃圾图像存储到无人清扫车数据库中，构建垃圾图像集

，将所述垃圾图像集

输入到训练好的模型中进行编码，得到其二值表示

。

S21：在垃圾图像数据集

中划分出待检索的垃圾图像集

，从待检索的垃圾图像数据集

随机抽取

个垃圾图像作为查询集

并作为训练好的模型的输入，进一步得到查询集

的二值码表示

。

S22：计算

和

的汉明距离，并基于MAP(Mean Average Precision) 的度量方式返回查询集

的查询精度，完成无人清扫车垃圾图像的相似性检索。

实施例2

本公开的一种实施例中提供了一种面向垃圾图像的图像相似性检索系统，包括：

模型构建与训练模块，用于模型的构建与训练；

作为一种实施例，上述模块执行所述垃圾图像相似性检索的模型训练以及检索方法：

a) 无人车进行垃圾图像的采集，对无人车采集到的待检索的垃圾图像集

进行图像的预处理，包括对图像的随机裁剪，翻转，加噪，标准化等操作得到待输入的图像训练集

。

b) 将待输入的图像训练集

作为模型的输入，经过深度卷积和池化网络得到初步的拟合低级特征向量集

。

c) 将图像低级特征集

输入到基于通道的注意力模块从通道层次进一步学习图像的细粒度信息。最后得到模型的输出

。

d) 基于图像标签的one-hot编码，进一步构建输入垃圾图像集之间的相似度矩阵 Sm，若第

和第

；否则

；认为两张图像不相似。

e) 通过公式：

计算成对相似度损失函数

使得学习到的二值码保持原始样本空间中样本之间的相似性。其中，

和

分别表示第

和第

个图像的二值码，

表示第

和第

个图像之间的相似性。

为超参数，定义相似和不相似对之间的最小相似度区间。

f) 通过公式：

计算二值码的量化损失。其中，

，表示第

张图像经过模型的输出特征。量化损失旨在将模型输出的特征转化为二值码。

g) 最终得到方法的损失函数：

+

其中，

和

是网络的超参数，用来平衡两个损失项的贡献度。

h) 利用适应性矩估计算法对总损失

进行迭代优化，重复执行步骤a)至步骤g)大于等于

次，得到训练优化后模型和对应损失函数的最优值。

i)将无人清扫车数据库中的垃圾图像集

输入到训练好的模型中进行编码，得到其二值表示

。

j)从待检索垃圾图像数据集

随机抽取

个垃圾图像作为查询集

并作为训练好的模型的输入，进一步得到查询集

的二值码表示

。

k)计算

和

的汉明距离，并基于MAP(Mean Average Precision)的度量方式返回查询集

的查询精度，完成无人清扫车垃圾图像的相似性检索。

实施例3

本公开的一种实施例提供了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行任一项所述的一种面向垃圾图像的图像相似性检索方法。

基于哈希学习的思想，利用二值码低存储，高性能等特点，对大规模的垃圾图像进行简洁的二值语义表示，具体地，一方面，基于哈希学习的保相似性，设计成对相似度损失来保持学习到的二值码与原始样本之间的类别一致性，保持了图像集的数据结构相似性。另一方面，从通道层次对特征图加权来学习图像的细粒度信息，使得学习到的二值码蕴含了图像更多区域细节信息，丰富了图像集的数据语义的细致性。通过上述图像二值码的学习，大大提高了二值码的检索性能，进而很大程度提高了无人清扫车的大规模垃圾图像检索任务的效率，节省人力资源、高效检索的同时带来了巨大的经济效益。

实施例4

本公开的一种实施例提供了一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种面向垃圾图像的图像相似性检索方法。

本公开是参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种面向垃圾图像的图像相似性检索方法，其特征在于，训练的步骤包括：

采集待检索的垃圾图像，并进行图像的预处理；

2.如权利要求1所述的一种面向垃圾图像的图像相似性检索方法，其特征在于，模型训练的过程包括：

采集待检索的垃圾图像，进行图像的预处理，构建图像训练集；

构建模型，将待检索的图像训练集作为模型的输入，经过深度卷积和池化操作获取初步的拟合低级特征图；

将图像低级特征图从通道层次进行加权，获取图像的局部区域细节特征；

基于图像标签的one-hot编码，构建输入垃圾图像之间的相似性矩阵，并计算成对相似度损失以及二值码的量化损失，获取得到最后的损失函数，进行迭代优化，获取到训练优化后的模型。

3.如权利要求2所述的一种面向垃圾图像的图像相似性检索方法，其特征在于，深度卷积中的卷积网络有4个卷积层，每个卷积层后接入一个池化层，所述卷积层采用5*5大小的卷积核，所述池化层采用3*3大小的池化核。

4.如权利要求3所述的一种面向垃圾图像的图像相似性检索方法，其特征在于，所述卷积层和池化层均采用PReLU激活函数。

5.如权利要求2所述的一种面向垃圾图像的图像相似性检索方法，其特征在于，利用通道注意力学习模块通过平均池化操作得到通道层次的权值，通过两个卷积层从通道层来学习图像内的细粒度信息。

6.如权利要求5所述的一种面向垃圾图像的图像相似性检索方法，其特征在于，每个卷积层均采用5*5大小的卷积核，第一个卷积层采用ReLU激活函数，第二个卷积层采用Sigmoid激活函数，最后与低级特征图相乘得到模型的输出。

7.一种面向垃圾图像的图像相似性检索系统，其特征在于，包括：

模型构建与训练模块，用于模型的构建与训练；

8.如权利要求7所述的一种面向垃圾图像的图像相似性检索系统，其特征在于，所述图像的预处理包括：对图像的随机裁剪、翻转、加噪以及标准化。

9.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-6中任一项所述的一种面向垃圾图像的图像相似性检索方法。

10.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如权利要求1-6中任一项所述的一种面向垃圾图像的图像相似性检索方法。