CN110968721A

CN110968721A - 一种海量图像侵权检索方法、系统及其计算机可读存储介质

Info

Publication number: CN110968721A
Application number: CN201911189003.3A
Authority: CN
Inventors: 朱向军; 吴敏; 刘锋; 吴冠勇
Original assignee: SHANGHAI GUANYONG INFORMATION TECHNOLOGY CO LTD
Current assignee: SHANGHAI GUANYONG INFORMATION TECHNOLOGY CO LTD
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-07

Abstract

本发明提供了一种海量图像侵权检索方法、系统及其计算机可读存储介质，其方法步骤包括：S1生成词袋模型：提取模板图像的SIFT特征点，经聚类处理获取视觉词汇，建立词袋模型；S2制作训练集：计算各视觉词汇的反文档权重，定位出符合预设阀值的SIFT特征点，以对应裁剪模板图像获取原始训练数据；S3训练神经网络：采用步骤S2的原始训练数据，依据综合度量学习和哈希学习方法训练CNN网络，生成二进制特征；S4检索判断：利用步骤S1的词袋模型构建倒排索引系统，遍历待检索图像中各视觉词汇对应的条目，计算二进制特征间的汉明距离，根据预设阈值判断是否匹配，并根据累计匹配给出侵权系数。进而提高侵权图像检索速度，同时保证较高的准确率。

Description

一种海量图像侵权检索方法、系统及其计算机可读存储介质

技术领域

本发明涉及计算机视觉领域，具体地说，涉及一种基于SIFT和局部二进制特征的图像侵权检索方法、系统及其计算机可读存储介质。

背景技术

手工局部特征对于图像检索任务至关重要，在以深度学习为代表的全局特征表达出现前占据图像检索的主流方法。局部特征与词袋模型的结合提高了检索的速度和准确率，在图像规模较小的情况下，词袋模型包含较少的视觉词汇，一般采用局部特征聚合得到全局特征的方法，例如VALD；在图像规模较大时，视觉词汇较多，一般采用倒排索引系统，利用视觉词汇的直接匹配作为检索依据。

对于侵权特征检索，全局特征表现不佳，一个主要原因是某些侵权类型例如裁剪和拼接会大幅影响全局特征，现阶段主流方法为利用局部特征的精准匹配来筛选侵权图像。为了实现局部特征的精准匹配，现阶段主流方法都是采用几何验证的方法滤除掉错匹配.

如专利号：CN201710267385.1，提供了一种图像检索系统，该技术方案主要记载了包括：查询图像样本、提取图像库中的第一局部特征、防误判模块、提取图像库中的第二局部特征、安全控制模块、图像检索和图像安全显示器；本发明通过关键词和标记的运用，预先将数据库划分为多个子数据库，检索时先在相关度高的子数据库中进行检索，减少了计算量，提高了运算速度；基于单词词汇包表示图像时，提出了加权表示和第一视觉相似度，减少了时间开销；基于特征组合表示图像时，利用了局部特征之间的空间包含关系，提出将相关的局部特征组合在一起以增强其视觉表达能力；该特征组合不但具有良好的尺度和旋转不变性，而且还能够自然地利用各特征元素之间的相对位置信息进行局部几何校验，剔除可能存在的错误匹配。

但上述现有技术受限于较高的计算复杂度，该几何验证只适合小规模数据，无法满足大规模海量数据的精确检索的需求。

发明内容

本发明的主要目的在于提供一种海量图像侵权检索方法、系统及其计算机可读存储介质，以提高侵权图像检索识别的准确率。

为了实现发明目的，根据本发明的一个方面，提供了一种海量图像侵权检索方法，其步骤包括：

S1生成词袋模型：提取模板图像的SIFT特征点，经聚类处理获取视觉词汇，建立词袋模型；

S2制作训练集：计算各视觉词汇的反文档权重，定位出符合预设阀值的SIFT特征点，以对应裁剪模板图像获取原始训练数据；

S3训练神经网络：采用步骤S2的原始训练数据，依据综合度量学习和哈希学习方法训练CNN网络，生成二进制特征；

S4检索判断：利用步骤S1的词袋模型构建倒排索引系统，遍历待检索图像中各视觉词汇对应的条目，计算二进制特征间的汉明距离，根据预设阈值判断是否匹配，并根据累计匹配给出侵权系数。

在可能的优选实施方式下，其中步骤S1中，该提取模板图像的SIFT特征点步骤包括：对该模板图像进行保持宽高比缩放处理，以控制尺寸来限制SIFT特征点提取数。

在可能的优选实施方式下，其中步骤S1中，该经聚类处理获取视觉词汇步骤包括：对提取的SIFT特征点归集成特征集，并利用AKM聚类算法得到聚类中心，以每一个聚类中心视为一个视觉词汇，建立词袋模型。

在可能的优选实施方式下，其中步骤S2中，该视觉词汇的反文档权重计算步骤包括：将包含有K个视觉词汇的词袋模型{c₁，c₂，...c_K}分别进行计算：

并选择反文档权重最小的若干词汇。

在可能的优选实施方式下，其中步骤S2中，还包括侵权数据生成处理步骤：对根据定位出的SIFT特征点所对应裁剪出的图像块进行异常处理。

在可能的优选实施方式下，其中步骤S3中，该度量学习步骤包括：采用三元组损失作为损失函数，使得同一类别图像块输出特征尽量靠近，不同类别输出特征尽量远离处理。

在可能的优选实施方式下，其中步骤S3中，该哈希学习步骤包括：图像块x经过度量学习得到的特征f(x)，且各类别的所有训练图像块得到的特征经过平均化以及二值化后作为哈希学习的目标输出，即设{x₁，x₂...x_M}为同一类别图像块，则该类别的目标二进制特征为：

在可能的优选实施方式下，其中步骤S4中，该构建倒排索引系统步骤包括：在利用词袋模型对图像库中的图像编码，提取其SIFT特征及二进制特征，并根据聚类得到其对应的视觉词汇后，使其与图像编码及二进制特征对应存储。

为了实现发明目的，根据本发明的另一方面，提供了一种海量图像侵权检索系统，用于执行上述海量图像侵权检索方法，其包括：

第一数据处理模块：提取模板图像的SIFT特征点，经聚类处理获取视觉单词词汇，建立词袋模型；

第二数据处理模块：其与第一处理模块数据连接，以获取该视觉词汇并计算相应的反文档权重，定位出符合预设阀值的SIFT特征点，以对应裁剪模板图像获取原始训练数据

第三数据处理模块：其与第二处理模块数据连接，采集该原始训练数据，依据综合度量学习和哈希学习方法训练CNN网络，生成二进制特征；

第四数据处理模块：其与第一、三处理模块数据连接，获取词袋模型以构建倒排索引系统，遍历待检索图像中各视觉词汇对应的条目，计算二进制特征间的汉明距离，根据预设阈值判断是否匹配，并根据累计匹配给出侵权系数。

为了实现发明目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，存储有计算机可执行指令，当该计算机可执行指令被处理器执行时，该处理器执行上述海量图像侵权检索方法。

与现有技术相比，本发明具有如下有益效果：

1、本发明仅利用较少的训练图像即可以得到较多的训练数据，且训练方式为非监督，使得训练集制作非常容易。

2、本发明生成的二进制局部特征存储方便，且汉明距离计算速度快，可以提高错匹配筛选速度，进而提高检索速度，同时保证较高的准确率。

3、本发明具有较强的适应性，可以通过丰富侵权图像块样本制作来模拟实际应用中可能出现的侵权种类，提高了适用性。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的海量图像侵权检索方法及系统的逻辑构架图；

图2为本发明的海量图像侵权检索方法中步骤3的逻辑构架图；

图3为本发明的海量图像侵权检索方法及系统的流程示意图；

图4为本发明的海量图像侵权检索方法的逻辑步骤示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合，这些皆属于本发明的揭露及保护范围。同时为了使本领域的技术人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护范围。

此外还需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“S1”、“S2”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

其中本发明提供的该海量图像侵权检索方法和系统，主要基于SIFT和局部二进制特征技术，以利用基于图像块的CNN(卷积神经网络Convolutional Neural Network，全文简称：CNN)二进制特征来实现错匹配的快速滤除。此外本发明通过选择合适的训练图像块，以及设计较为丰富的侵权样本，训练针对性的CNN，同时结合度量学习以及哈希学习，使得CNN特征既具有较强的侵权区分能力，又具有二进制特性。

从而通过制作特殊样本训练CNN得到的二进制局部特征可以准确、快速的滤除视觉词汇匹配导致的错配问题，籍此提高侵权图像块匹配的准确率及处理速度，进而提高侵权图像检索准确率及判断速度。

(一)

具体来说，如图1至图4所示，该海量图像侵权检索方法，步骤主要包括：

S4检索判断：利用词袋模型构建倒排索引系统，遍历待检索图像中各视觉词汇对应的条目，计算二进制特征间的汉明距离，根据预设阈值判断是否匹配，并根据累计匹配给出侵权系数。

-S1步骤

具体地，在步骤S1中，该图像库中存放有用于侵权对比的模板图像，该词袋模型制作步骤包括，采用SIFT技术(即Scale-invariant feature transform尺度不变特征变换技术)对该些模板图像进行保持宽高比缩放处理，以控制尺寸以限制SIFT特征点数，值得一提的是，该特征点数上限并不固定限制，随各类数据处理设备的算力发展而调整，以达到现有技术的数据处理设备所能达到的优选算力条件下实现最佳体验效果，因而本领域技术人员也应当理解，随着技术发展计算机算力的提升，该特征点数的限制也可以被突破，从而并未进行限制。

之后对于提取的SIFT特征点归集成特征集，并利用近似K-means聚类(AKM算法)得到聚类中心，每一个聚类中心视为一个视觉词汇，籍此建立词袋模型。

-S2步骤

具体的，在步骤S2中，该训练集制作步骤，包括对模板图像进行裁剪，以得到对应各特征点的图像块，并根据S1步骤获取的词袋模型，计算每一个视觉词汇的反文档权重。

如对于包含有K个视觉词汇的模型，{c₁，c₂，...c_K}，某一个词汇的反文档权重刻画了其在所有词汇中出现的频率(反文档权重越小，频率越高)，具体定义为：

其中N表示库中图片总数，n_i表示出现视觉词汇c_i的图片数量。接着选择反文档权重最小的若干词汇，需要选择的词汇数量随聚类数量增加而增加，例如在本实施例中，例如可以选择权重最小的

个词汇。

从而定位这些词汇对应的SIFT特征点，并根据这些特征点对模板图像进行对应的裁剪切块处理，以获取原始训练数据。

此外为了增加训练数据的样本数量，步骤S2在优选实施方式下，还包括侵权数据生成处理步骤，以对根据定位出的SIFT特征点所对应裁剪出的图像块进行裁减、扭曲等异常处理，具体来说，即每一个图像块视为一个类别，针对每一类别分别做侵权数据生成处理，如对图像块做包括：旋转，压缩，添加噪声，调整色彩等异常处理，以模拟侵权使用状态下的各图像块可能存在的模样，得到每一个类别的较多训练样本。

-S3步骤

具体的，在步骤S3中，该网络训练步骤，采用交替训练及权重共享策略，如图2所示，交替训练分为度量学习和哈希学习，二者采用同一CNN网络，以度量学习作为初始阶段，迭代一定步数后得到的网络参数用来初始化哈希学习，并进行交替训练。

其中该度量学习优选采用三元组损失作为损失函数，使得同一类别图像块输出特征尽量靠近，不同类别输出特征尽量远离。

例如对于一个三元组输入(a，p，n)，其中三者都为图像块，a和p为同一类别，a和n为不同类别，三原则损失定义为：

loss＝max(d(a，p)-d(a，n)+m，0)

其中d(a，p)代表输出特征f(a)，f(p)的欧式距离。

其中该哈希学习具体为，该图像块x经过度量学习得到的特征f(x)，某一类别的所有训练图像块得到的特征经过平均化以及二值化后作为哈希学习的目标输出，设{x₁，x₂...x_M}为同一类别图像块，则该类别的目标二进制特征为：

该哈希学习采用二进制交叉熵作为损失函数，以网络输出的激活值(sigmoid函数)作为预测值，得到的y作为目标值训练网络。

-S4步骤

具体的，在步骤S4中，该检索步骤包括：利用词袋模型对图像库中每一张图像编码，提取其SIFT特征及二进制局部特征，并根据聚类得到其对应的视觉词汇。

构建倒排索引系统，每一个词汇存储对应的图像编码和二进制特征，如：表示为{(id₁，F₁)，(id₂，F₂)...(id_j，F_j)...}。具体来说该检索步骤，在检索时遍历待检索图像中每一个视觉词汇对应的条目，计算二进制特征的汉明距离，设置合适阈值判断是否匹配，并根据累计匹配给出侵权系数。

例如：设输入待检所图像提取m个sift特征，并通过量化得到其对应的视觉词汇{c₁，c₂...c_m}，每一个sift特征点对应的图像块输入CNN网络得到其二进制数据F_i。每一个局部特征在其对应的视觉词汇下查找符合侵权匹配的特征，比较汉明距离和阈值的大小判断是否匹配，阈值大小随二进制特征长度变化，实际应用中例如可设为

累计匹配次数作为库中图像的侵权指数，籍此便可精确的判断该图像是否侵权，有效提高侵权图像检索的准确率及处理速度。

(二)

请参阅图1及图3，本发明另一方面还提供一种海量图像侵权检索系统，用以执行实施例1中的该海量图像侵权检索方法，具体来说，该海量图像侵权检索系统包括：第一数据处理模块，第二数据处理模块，第三数据处理模块，第四数据处理模块，其中需要说明的是该第一至四的数据处理模块可以是集成在一起也可以分别单独设立，本发明并不进行限制，本领域技术人员无需智力劳动即可知晓本实施例的方案可根据实际情况进行选择。

具体来说，该海量图像侵权检索系统包括：

在优选实施方式中，该第一数据处理模块的数据处理过程包括：采用SIFT技术(即Scale-invariant feature transform尺度不变特征变换技术)对该些模板图像进行保持宽高比缩放处理，以控制尺寸以限制SIFT特征点数，值得一提的是，该特征点数上限并不固定限制，随各类数据处理设备的算力发展而调整，以达到现有技术的数据处理设备所能达到的优选算力条件下实现最佳体验效果，因而本领域技术人员也应当理解，随着技术发展计算机算力的提升，该特征点数的限制也可以被突破，从而并未进行限制。

在优选实施方式中，该第二数据处理模块的数据处理过程包括：对模板图像进行裁剪，以得到对应各特征点的图像块，并根据从第一数据处理模块获取的词袋模型，计算每一个视觉词汇的反文档权重。

个词汇。

此外为了增加训练数据的样本数量，在优选实施方式下，还包括侵权数据生成处理步骤，以对根据定位出的SIFT特征点所对应裁剪出的图像块进行裁减、扭曲等异常处理，具体来说，即每一个图像块视为一个类别，针对每一类别分别做侵权数据生成处理，如对图像块做包括：旋转，压缩，添加噪声，调整色彩等异常处理，以模拟侵权使用状态下的各图像块可能存在的模样，得到每一个类别的较多训练样本。

在优选实施方式中，该第三数据处理模块的数据处理过程包括：采用交替训练及权重共享策略训练CNN网络，其中交替训练分为度量学习和哈希学习，二者采用同一CNN网络，以度量学习作为初始阶段，迭代一定步数后得到的网络参数用来初始化哈希学习，并进行交替训练。

loss＝max(d(a，p)-d(a，n)+m，0)

其中d(a，p)代表输出特征f(a)，f(p)的欧式距离。

在优选实施方式中，该第四数据处理模块的数据处理过程包括：与第一、三处理模块数据连接，获取词袋模型以构建倒排索引系统，遍历待检索图像中各视觉词汇对应的条目，计算二进制特征间的汉明距离，根据预设阈值判断是否匹配，并根据累计匹配给出侵权系数。

其中该构建倒排索引系统，即每一个词汇存储对应的图像编码和二进制特征，如：表示为{(id₁，F₁)，(id₂，F₂)...(id_j，F_j)...}。具体来说该检索步骤，在检索时遍历待检索图像中每一个视觉词汇对应的条目，计算二进制特征的汉明距离，设置合适阈值判断是否匹配，并根据累计匹配给出侵权系数。

(三)

本发明另一方面还提供了一种计算机可读存储介质，其存储有计算机可执行指令，当该计算机可执行指令被处理器执行时，该处理器将执行实施例1中的该海量图像侵权检索方法。

综上所述，本发明的海量图像侵权检索方法、系统及计算机可读存储介质，利用词袋模型中的视觉词汇及其反文档权重选择合适的图像块用作网络训练，训练出来的网络产生的特征可以准确，快速的率滤除掉错匹配。同时，本发明仅利用较少的图像即可产生大量的训练数据，也可以根据实际应用中的侵权种类丰富训练集，使得模型非常契合实际需求，具有较高实际应用价值。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员可以理解，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

此外实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种海量图像侵权检索方法，步骤包括：

2.根据权利要求1所述的海量图像侵权检索方法，其中步骤S1中，所述提取模板图像的SIFT特征点步骤包括：对所述模板图像进行保持宽高比缩放处理，以控制尺寸来限制SIFT特征点提取数。

3.根据权利要求1所述的海量图像侵权检索方法，其中步骤S1中，所述经聚类处理获取视觉词汇步骤包括：对提取的SIFT特征点归集成特征集，并利用AKM聚类算法得到聚类中心，以每一个聚类中心视为一个视觉词汇，建立词袋模型。

4.根据权利要求1所述的海量图像侵权检索方法，其中步骤S2中，所述视觉词汇的反文档权重计算步骤包括：将包含有K个视觉词汇的词袋模型{c₁，c₂，...c_K}分别进行计算：

并选择反文档权重最小的若干词汇。

5.根据权利要求1所述的海量图像侵权检索方法，其中步骤S2中，还包括侵权数据生成处理步骤：对根据定位出的SIFT特征点所对应裁剪出的图像块进行异常处理。

6.根据权利要求5所述的海量图像侵权检索方法，其中步骤S3中，所述度量学习步骤包括：采用三元组损失作为损失函数，使得同一类别图像块输出特征尽量靠近，不同类别输出特征尽量远离处理。

7.根据权利要求6所述的海量图像侵权检索方法，其中步骤S3中，所述哈希学习步骤包括：图像块x经过度量学习得到的特征f(x)，且各类别的所有训练图像块得到的特征经过平均化以及二值化后作为哈希学习的目标输出，即设{x₁，x₂...x_M}为同一类别图像块，则该类别的目标二进制特征为：

8.根据权利要求1所述的海量图像侵权检索方法，其中步骤S4中，所述构建倒排索引系统步骤包括：在利用词袋模型对图像库中的图像编码，提取其SIFT特征及二进制特征，并根据聚类得到其对应的视觉词汇后，使其与图像编码及二进制特征对应存储。

9.一种海量图像侵权检索系统，用于执行如权利要求1至8任一所述的海量图像侵权检索方法，其包括：

第二数据处理模块：其与第一处理模块数据连接，以获取所述视觉词汇并计算相应的反文档权重，定位出符合预设阀值的SIFT特征点，以对应裁剪模板图像获取原始训练数据

第三数据处理模块：其与第二处理模块数据连接，采集所述原始训练数据，依据综合度量学习和哈希学习方法训练CNN网络，生成二进制特征；

10.一种计算机可读存储介质，存储有计算机可执行指令，当所述计算机可执行指令被处理器执行时，所述处理器执行如权利要求1至8任一所述的海量图像侵权检索方法。