CN112070159A

CN112070159A - 一种多尺度滑窗相似图片检测方法

Info

Publication number: CN112070159A
Application number: CN202010932634.6A
Authority: CN
Inventors: 吕晨; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-11

Abstract

本发明公开了一种多尺度滑窗相似图片检测方法，其特征在于利用不同尺度滑窗构建感兴趣域，利用构建的多层卷积网络筛选显著性物体，在显著性物体附近更加密集采样，去除部分纯色无效感兴趣域，利用构建的自适应池化卷积自编码器提取感兴趣域特征，与存储的图片特征进行比较，判别候选图片是否与存储图片库中图片相似。可以更精确的完整框选物体，特征抽取更加精准，表达更加丰富，能适应不同尺度的盗图行为，例如部分截图等，达到全方位检测相似图片的效果，极大减少了侵权等行为的发生，减少审核人员的工作量。

Description

一种多尺度滑窗相似图片检测方法

技术领域

本发明涉及相似图片自动检测领域，特别是涉及一种多尺度滑窗相似图片检测方法。

背景技术

目前，电商网站平台上卖家商品展示的方式主要是以图片和文字展示为主，其中图片展示较为直观全面，深得买家的认可。因此，图片展示成为商品展示的主打展示方式之一。

由于电商网站平台每日图片上传量巨大，存在部分商家盗用他人图片现象，该侵权行为极大的损害了原图作者的权益。同时，部分盗图采用截图、抠图等方式，原有的完全相似图片检测方法无法适用。

专利CN201911037783，一种基于滑窗的大尺寸图像中小目标识别方法，通过滑窗将大尺寸图片分割成固定尺寸图片，符合目标检测神经网络输入要求，解决了大尺寸图片因缩放导致小尺寸目标无法检测的问题，但是对于图片中具体存在的物体，并不能密集采样，获取尽可能多的信息，同时，滑窗大小的比例相对固定。

专利CN201810291398，一种图像多尺度特征提取方法，通过边缘检测和角点检测得到显著性区域，通过对显著性区域更加密集的采样更多的抽取图片特征，但是存在对于图片上存在背景、文字等非主要物体，通过边缘与角点检测无法确认显著性物体所在区域，同时对于滑窗产生的纯色背景区域并没有过滤，容易造成特征冗余，且提取的图像梯度方向直方图特征是一种基于方向梯度的边缘特征，只能描述相关外形，且无法描述重叠部分，无法描述颜色等其他图片特征。

因此，需要一种更有效的能快速准确的识别相似图片的检测方法。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种多尺度滑窗相似图片检测方法，利用深度学习技术，构建不同尺度滑窗，同时对图片主物体进行检测，对物体进行密集采样，生成图片特征，利用图片特征进行计算搜索，判断是否存在相似图片。

为解决上述技术问题，本发明提供一种多尺度滑窗相似图片检测方法，其特征在于，利用多尺度滑窗构建感兴趣域，利用构建的多层卷积神经网络检测显著性物体，在显著性物体附近密集采样以确定显著性物体存在区域，去除纯色的感兴趣域，利用构建的自适应池化卷积自编码器提取感兴趣域特征，与数据库中的图片特征进行相似度计算，判别候选图片是否与数据库中图片相似，包括如下步骤：

步骤一：获取候选图片的分辨率，所述分辨率包括以像素为单位的宽和高，配置不止一个的多尺度滑窗，所述多尺度滑窗分别配置不同的宽高比例和步长；

步骤二：检测候选图片中的显著性物体，确定显著性物体存在区域；

步骤三：利用多尺度滑窗对候选图片进行密集滑窗采样，获得感兴趣域图片，检测感兴趣域图片中的纯色区域，去除纯色区域；

步骤四：利用自适应池化卷积自编码器，对去除纯色区域的感兴趣域图片编码，提取相应图片特征；

步骤五：利用感兴趣域图片的图片特征，与数据库中图片的图片特征进行相似度计算，如大于设定阈值，则判定候选图片与数据库中的图片相似。

所述步骤一中，采用opencv读取候选图片，得到图片的宽和高，构建一类多尺度滑窗，所述一类多尺度滑窗的构建方法为：保持候选图片的宽高比，取候选图片宽高的5％-100％作为滑窗的宽高范围，以5％为一级，向下取整得到多个不同尺度的滑窗宽高，对于滑动步长，以向下取整的方式取滑窗宽高的10％。例如图片尺寸为600*800，则以10％为比例的滑窗宽高为60和80，滑动步长为滑窗宽高的10％，分别为水平方向步长为6，垂直方向步长为8。

构建二类多尺度滑窗，所述二类多尺度滑窗的构建方法为：在一类多尺度滑窗的基础上，增加宽高比为1:1.25、1:1.5、1:2、2:1、1.5:1、1.25:1的滑窗，二类多尺度滑窗的步长以向下取整的方式取滑窗宽高的5％。不同尺度的滑窗有利于框选不同宽高比的物体，使得物体占感兴趣域比例最大，由于相似图片信息主要集中在物体处，因此，对显著性物体存在区域，对显著性物体处使用二类多尺度滑窗进行密集采样有利于更加精准检测是否相似。

所述步骤二中，构建一个多层卷积神经网络，用于显著性物体检测，对于候选图片，通过输入显著性物体检测网络，可以得到图片中显著性物体的mask图，通过选取mask图最大边界，确定显著性物体存在区域。

所述步骤二中，显著性物体检测网络采用BASNet网络，所述BASNet网络分为两个模块：第一模块为预测模块，在第一模块中，输入候选图片，利用编码器将候选图片编码压缩，逐步获取高层语义特征，将高层语义特征逐步放大以使其和编码器部分的特征图融合，以获取不同层级的特征信息，第一模块输出的第一mask图与输入的候选图片同尺寸；第二模块为精细化模块，包括输入层、编码器、桥接器、解码器和输出层，其结构与第一模块类似，但更加简单，网络更浅，输入第一模块输出的第一mask图，输出为第二mask图，所述第二mask图精细度高于第一mask图。

所述步骤二中，BASNet网络的预测模块，其loss组成包含编码器最后一层的featuremap和解码器的全部六层featuremap,loss总数由各层loss相加，各层loss由交叉熵损失、结构相似性损失、IoU损失组成；所述精细化模块的loss总数由最后一层的输出与真实值计算得到。

所述步骤三中，对于候选图片，使用一类多尺度滑窗进行密集滑窗采样，对于显著性物体存在区域，将其扩大1.25倍，并采用二类多尺度滑窗进行密集滑窗采样。

采用显著性物体检测方法，在潜在区域通过增加不同尺寸比例滑窗，获取不同尺寸图片，可以更精确的完整框选物体。

所述步骤三中，利用步骤一中的多尺度滑窗，对候选图片进行密集滑窗，得到感兴趣域图片，部分滑窗在候选图中产生的感兴趣域为纯色图，其不包含物体或只包含物体局部，并不能有效判断是否相似，因此，将所有感兴趣域图片缩放至50×50，计算其颜色平方差的均值，具体为，将感兴趣域图片由RGB三色图转换为灰度图，计算灰度图的平均颜色和平方误差，即先计算灰度图的颜色平均值，再逐个像素计算与平均值的平方差，最后取其平方差的均值，对于纯色图，其平方差的均值极小，有明确物体的图片则平方差的均值较大，因此通过实验取得最佳实践阈值为大于200的为非纯色图，设定阈值为200，删除所有低于阈值的感兴趣域图片。

所述步骤四中，所述自适应池化卷积自编码器采用多层卷积结构，所述多层卷积结构用于图片特征的提取，为了适应不同尺寸，采用了自适应池化层，由于不同尺寸滑窗产生的感兴趣域图片尺寸各不相同，在比较过程中需要将其特征固定到统一维度，因此，所述图片特征设定为256维单精度浮点数组。例如不同尺度滑窗产生了80*60和40*30两种不同尺寸的感兴趣域图片，再输入自适应池化卷积自编码器后都得到256为特征向量，使得不同尺寸图片在encoder编码后得到统一维度的特征，。

所述步骤四中，所述自适应池化卷积自编码器包含8级具有残差结构的卷积网络，包括卷积层、最大池化层、自适应池化层、BN层，输入为不同尺寸图片，输出为256维特征向量；所述自适应池化卷积自编码器的训练过程配合具有对称结构的解码器，所述具有对称结构的解码器也包含8级结构，包括卷积层，自适应池化层、双线性差值层，输入为256维特征向量，解码输出为原图，可以将特征向量还原为原图。训练的loss采用L1loss,batch-size为64，epoch设置为50。

所述步骤五中，得到候选图片的多尺度滑窗的感兴趣域图片特征后，分别计算感兴趣域图片特征与数据库中图片的滑窗图特征相似度，相似度度量公式为

如相似度大于90％，则认为候选图片与数据库中图片存在相似。

本发明所达到的有益效果:本发明能快速准确的识别候选图片是否与图库中存在的图片相似，提高了相似图片检测的准确率，保护了原图拥有者的知识产权，降低了图片侵权行为的发生，同时提高了网站对知识产权保护的力度和范围，提高用户体验与网站整体质量。

附图说明

图1为本发明的示例性实施例的方法流程示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示的一种多尺度滑窗相似图片检测方法，包括如下步骤：

步骤S1：获取候选图片的分辨率，所述分辨率包括以像素为单位的宽和高，配置不止一个的多尺度滑窗，所述多尺度滑窗分别配置不同的宽高比例和步长；

步骤S2：检测候选图片中的显著性物体，确定显著性物体存在区域；

步骤S3：利用多尺度滑窗对候选图片进行密集滑窗采样，获得感兴趣域图片，检测感兴趣域图片中的纯色区域，去除纯色区域；

步骤S4：利用自适应池化卷积自编码器，对去除纯色区域的感兴趣域图片编码，提取相应图片特征；

步骤S5：利用感兴趣域图片的图片特征，与数据库中图片的图片特征进行相似度计算，如大于设定阈值，则判定候选图片与数据库中的图片相似。

所述步骤S1中，采用opencv读取候选图片，得到图片的宽和高，构建不同尺寸的一类多尺度滑窗，构建原则为保持图片宽高比，采用图片宽高的5％-100％作为滑窗的宽高，以5％为一级，向下取整得到不同尺度的滑窗宽高，对于滑窗的滑动步长，采用滑窗宽高的10％，向下取整，例如图片尺寸为600*800，则以10％为比例的滑窗宽高为60和80，滑动步长为滑窗宽高的10％，分别为水平方向步长为6，垂直方向步长为8。

所述步骤S1中，由于相似图片信息主要集中在物体处，因此需要对物体处进行密集采样，利用之前获得的物体所在区域坐标，在已有滑窗基础上增加宽高1:1.25，1:1.5，1:2，2:1，1.5:1，1.25:1的二类多尺度滑窗，对显著性物体存在区域进行密集滑窗，滑窗步长为滑窗宽高的5％。

所述步骤S2中，候选图中一般包含一些物体，这些物体往往是盗图者盗图的主要目标，盗图者会采用抠图，截图等手段获取这些物体，因此需要重点对主物体进行采样分析。构建一个多层卷积神经网络，用于显著性物体检测，对于候选图片，通过输入显著性物体检测网络，可以得到图片中显著性物体的mask图，通过选取mask图最大边界，确定显著性物体存在区域，得到物体所在区域坐标。

所述步骤S2中，显著性物体检测网络采用BASNet网络，所述BASNet网络分为两个模块：第一模块为预测模块，在第一模块中，输入候选图片，利用编码器将候选图片编码压缩，逐步获取高层语义特征，将高层语义特征逐步放大以使其和编码器部分的特征图融合，以获取不同层级的特征信息，第一模块输出的第一mask图与输入的候选图片同尺寸；第二模块为精细化模块，包括输入层、编码器、桥接器、解码器和输出层，其结构与第一模块类似，但更加简单，网络更浅，输入第一模块输出的第一mask图，输出为第二mask图，所述第二mask图精细度高于第一mask图。

所述步骤S2中，BASNet网络的预测模块，其loss组成包含编码器最后一层的featuremap和解码器的全部六层featuremap,loss总数由各层loss相加，各层loss由交叉熵损失、结构相似性损失、IoU损失组成；所述精细化模块的loss总数由最后一层的输出与真实值计算得到。

所述步骤S3中，利用步骤S1和步骤S2中产生的不同滑窗和规则，对候选图片进行密集滑窗，得到大量感兴趣域图片。使用一类多尺度滑窗进行密集滑窗采样，对于显著性物体存在区域，将其扩大1.25倍，并采用二类多尺度滑窗进行密集滑窗采样。

由于候选图片中包含大量纯色背景，由于滑窗的位置不定，大小不同，部分滑窗在候选图中产生的感兴趣域为纯色图，不包含物体或只包含物体局部，无法用于判断图片相似性，因此采用将所有感兴趣域缩放至50*50，统一计算其颜色方差，对于纯色图，其方差极小，有明确物体的图片则方差较大，因此阈值选定为大于200的为非纯色图，删除所有纯色无效感兴趣域图片。

通过深度神经网络预测分割可以排除无关背景，只获取显著性物体区域，同时去除了纯色背景滑窗图片，利用训练的自适应池化卷积自编码器，可以通过神经网络的方法提取纹理、边缘、颜色等局部和全局特征，使得特征抽取更加精准，表达更加丰富。

所述步骤S4中，由于不同尺寸滑窗产生的感兴趣域图片尺寸各不相同，在比较过程中需要将其特征固定到统一维度，因此构建了一种自适应池化卷积自编码器，该编码器采用多层卷积结构，多层卷积用于图片特征的提取，为了适应不同输入尺寸，采用了自适应池化层，使得不同尺寸图片在encoder编码后得到统一维度的特征，本方法将特征设定为256维单精度浮点数组。

所述步骤S4中，所述自适应池化卷积自编码器包含8级具有残差结构的卷积网络，包括卷积层、最大池化层、自适应池化层、BN层，输入为不同尺寸图片，输出为256维特征向量；所述自适应池化卷积自编码器的训练过程配合具有对称结构的解码器，所述具有对称结构的解码器也包含8级结构，包括卷积层，自适应池化层、双线性差值层，输入为256维特征向量，解码输出为原图，可以将特征向量还原为原图。训练的loss采用L1loss,batch-size为64，epoch设置为50。

所述步骤S5中，得到候选图片不同尺度滑窗感兴趣域图片特征后，分别计算其特征与库中所有图片滑窗图特征相似度，相似度度量公式为

相似度大于90％则认为候选图片有库中图片存在相似。

以上述方法实施的一种多尺度滑窗相似图片检测系统，包括如下结构：

滑窗构建模块，用于构建不同尺度滑窗，确定不同尺度滑窗步长。采用opencv读取候选图片，得到图片的宽和高，构建不同尺寸的滑窗，构建原则为保持图片宽高比，采用图片宽高的5％-100％作为滑窗的宽高，以5％为一级，向下取整得到不同尺度的滑窗宽高，对于滑窗的滑动步长，采用滑窗宽高的10％，向下取整。对于主物体区域附近的滑窗，在已有滑窗基础上增加宽高1:1.25，1:1.5，1:2，2:1，1.5:1，1.25:1，对显著性物体存在区域进行密集滑窗，滑窗步长为滑窗宽高的5％。

主物体检测模块，用于检测候选图片中主物体所在区域。候选图中一般包含一些物体，这些物体往往是盗图者盗图的主要目标，盗图者会采用抠图，截图等手段获取这些物体，因此需要重点对主物体进行采样分析。构建一个多层卷积神经网络，用于显著性物体检测，对于候选图片，通过输入显著性物体检测网络，可以得到图片中显著性物体的mask图，通过选取mask图最大边界，确定显著性物体存在区域，得到物体所在区域坐标。

感兴趣域生成模块，用于利用不同滑窗对候选图进行滑动，得到感兴趣域，对纯色感兴趣域删除，保留具有一定特征感兴趣域。候选图片中包含大量纯色背景，由于滑窗的位置不定，大小不同，部分滑窗在候选图中产生的感兴趣域为纯色图，不包含物体或只包含物体局部，无法用于判断图片相似性，因此采用将所有感兴趣域缩放至50*50，统一计算其颜色方差，对于纯色图，其方差极小，有明确物体的图片则方差较大，因此阈值选定为大于200的为非纯色图，删除所有纯色无效感兴趣域图片。

特征生成模块，用于对不同尺寸感兴趣域图片进行特征提取，将特征固定为256维。由于不同尺寸滑窗产生的感兴趣域图片尺寸各不相同，在比较过程中需要将其特征固定到统一维度，因此构建了一种自适应池化卷积自编码器，该编码器采用多层卷积结构，多层卷积用于图片特征的提取，为了适应不同输入尺寸，采用了自适应池化层，使得不同尺寸图片在encoder编码后得到统一维度的特征，本方法将特征设定为256维单精度浮点数组。

特性相似度计算模块，用于计算候选图感兴趣域特征与图库中图片特征相似度，相似度大于阈值则认为两图片相似。得到候选图片不同尺度滑窗感兴趣域图片特征后，分别计算其特征与库中所有图片滑窗图特征相似度，相似度度量公式为

相似度大于90％则认为候选图片有库中图片存在相似。

本发明主要用于提供一种多尺度滑窗相似图片检测方法,采用显著性物体检测方法，在潜在区域通过增加不同尺寸比例滑窗，获取不同尺寸图片，可以更精确的完整框选物体，通过深度神经网络预测分割可以排除无关背景，只获取显著性物体区域，同时去除了纯色背景滑窗图片，利用训练的自适应池化卷积自编码器，可以通过神经网络的方法提取纹理、边缘、颜色等局部和全局特征，使得特征抽取更加精准，表达更加丰富，能快速准确的识别候选图片是否与图库中存在的图片相似，保护了原图拥有者的知识产权，降低了图片侵权行为的发生，同时提高了网站对知识产权保护的力度和范围，提高了相似图片检测的准确率。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种多尺度滑窗相似图片检测方法，其特征在于，利用多尺度滑窗构建感兴趣域，利用构建的多层卷积神经网络检测显著性物体，在显著性物体附近密集采样以确定显著性物体存在区域，去除纯色的感兴趣域，利用构建的自适应池化卷积自编码器提取感兴趣域特征，与数据库中的图片特征进行相似度计算，判别候选图片是否与数据库中图片相似，包括如下步骤：

2.如权利要求1所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤一中，采用opencv读取候选图片，得到图片的宽和高，构建一类多尺度滑窗，所述一类多尺度滑窗的构建方法为：保持候选图片的宽高比，取候选图片宽高的5％-100％作为滑窗的宽高范围，以5％为一级，向下取整得到多个不同尺度的滑窗宽高，对于滑动步长，以向下取整的方式取滑窗宽高的10％；

构建二类多尺度滑窗，所述二类多尺度滑窗的构建方法为：在一类多尺度滑窗的基础上，增加宽高比为1:1.25、1:1.5、1:2、2:1、1.5:1、1.25:1的滑窗，二类多尺度滑窗的步长以向下取整的方式取滑窗宽高的5％。

3.如权利要求2所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤二中，构建一个多层卷积神经网络，用于显著性物体检测，对于候选图片，通过输入显著性物体检测网络，可以得到图片中显著性物体的mask图，通过选取mask图最大边界，确定显著性物体存在区域。

4.如权利要求3所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤二中，显著性物体检测网络采用BASNet网络，所述BASNet网络分为两个模块：第一模块为预测模块，在第一模块中，输入候选图片，利用编码器将候选图片编码压缩，逐步获取高层语义特征，将高层语义特征逐步放大以使其和编码器部分的特征图融合，以获取不同层级的特征信息，第一模块输出的第一mask图与输入的候选图片同尺寸；第二模块为精细化模块，包括输入层、编码器、桥接器、解码器和输出层，输入第一模块输出的第一mask图，输出为第二mask图，所述第二mask图精细度高于第一mask图。

5.如权利要求4所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤二中，BASNet网络的预测模块，其loss组成包含编码器最后一层的featuremap和解码器的全部六层featuremap,loss总数由各层loss相加，各层loss由交叉熵损失、结构相似性损失、IoU损失组成；所述精细化模块的loss总数由最后一层的输出与真实值计算得到。

6.如权利要求5所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤三中，对于候选图片，使用一类多尺度滑窗进行密集滑窗采样，对于显著性物体存在区域，将其扩大1.25倍，并采用二类多尺度滑窗进行密集滑窗采样。

7.如权利要求6所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤三中，利用步骤一中的多尺度滑窗，对候选图片进行密集滑窗，得到感兴趣域图片，将所有感兴趣域图片缩放至50×50，计算其颜色平方差的均值，具体为，将感兴趣域图片由RGB三色图转换为灰度图，计算灰度图的平均颜色和平方误差，即先计算灰度图的颜色平均值，再逐个像素计算与平均值的平方差，最后取其平方差的均值，设定阈值为200，删除所有低于阈值的感兴趣域图片。

8.如权利要求7所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤四中，所述自适应池化卷积自编码器采用多层卷积结构，所述多层卷积结构用于图片特征的提取，所述图片特征设定为256维单精度浮点数组。

9.如权利要求8所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤四中，所述自适应池化卷积自编码器包含8级具有残差结构的卷积网络，包括卷积层、最大池化层、自适应池化层、BN层，输入为不同尺寸图片，输出为256维特征向量；所述自适应池化卷积自编码器的训练过程配合具有对称结构的解码器，所述具有对称结构的解码器也包含8级结构，包括卷积层，自适应池化层、双线性差值层，输入为256维特征向量，解码输出为原图，训练的loss采用L1loss,batch-size为64，epoch设置为50。

10.如权利要求9所述的一种多尺度滑窗相似图片检测方法，其特征在于：所述步骤五中，分别计算感兴趣域图片特征与数据库中图片的滑窗图特征相似度，相似度度量公式为