CN111325245B

CN111325245B - 重复图像识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111325245B
Application number: CN202010080624.4A
Authority: CN
Inventors: 唐亚腾; 钟滨; 徐进
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2023-10-17
Anticipated expiration: 2040-02-05
Also published as: CN111325245A

Abstract

本发明提供了一种重复图像识别方法、装置、电子设备及计算机可读存储介质，方法包括：基于多个候选图像的图像特征，确定由所述多个候选图像中的任意两个相似候选图像组成的候选相似图像对；将对应所述候选相似图像对的相似度结果、以及对应所述候选相似图像对的文本的特征进行组合，得到对应所述候选相似图像对的组合特征；基于多个所述候选相似图像对各自对应的组合特征，对所述多个候选相似图像对进行聚类处理；将聚类结果中属于同一类别的候选图像分配生成相同的编码，并基于所述编码确定所述多个候选图像中的重复图像。通过本发明，能够通过对候选图像进行编码以快速对候选图像进行重复识别。

Description

重复图像识别方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及图像处理技术，尤其涉及一种重复图像识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

各种应用产品中的视频流中整合了来自多方视频提供方的视频数据，或者各种应用产品中的图像流中整合了来自多方图像提供方的图像数据，视频以及图像总量大，且存在较多重复视频或者图像，在给用户推荐的视频流以及图像流中，极易出现相同或相似的视频以及图像，造成不好的用户体验，对于视频而言，视频封面图像是用户观看视频时的第一印象，在线推荐时对图像的快速去重十分重要。

发明内容

本发明实施例提供一种重复图像识别方法、装置、电子设备及计算机可读存储介质，能够通过对候选图像进行编码以快速对候选图像进行后续重复识别。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种重复图像识别方法，包括：

基于多个候选图像的图像特征，确定由所述多个候选图像中的任意两个相似候选图像组成的候选相似图像对；

将对应所述候选相似图像对的相似度结果、以及对应所述候选相似图像对的文本的特征进行组合，得到对应所述候选相似图像对的组合特征；

基于每个所述候选相似图像对的组合特征，确定所述候选相似图像对中两个相似候选图像之间的相似度评分；

当所述相似度评分不小于相似度评分阈值时，将对应的候选相似图像对确定为相似图像对；

确定多个所述相似图像对中具有相同候选图像的相似图像对具有关联关系，并将具有关联关系的相似图像对中的相似候选图像确定为属于相同类别的候选图像；

将属于同一类别的候选图像分配生成相同的编码，并基于所述编码确定所述多个候选图像中的重复图像。

本发明实施例提供一种重复图像识别装置，包括：

候选相似图像对确定模块，用于基于多个候选图像的图像特征，确定由所述多个候选图像中的任意两个相似候选图像组成的候选相似图像对；

组合特征获取模块，用于将对应所述候选相似图像对的相似度结果、以及对应所述候选相似图像对的文本的特征进行组合，得到对应所述候选相似图像对的组合特征；

聚类处理模块，用于基于每个所述候选相似图像对的组合特征，确定所述候选相似图像对中两个相似候选图像之间的相似度评分；

编码模块，用于将属于同一类别的候选图像分配生成相同的编码，并基于所述编码确定所述多个候选图像中的重复图像。

在上述方案中，所述候选相似图像对确定模块，还用于：

当所述多个候选图像的数目超过候选图像数目阈值时，获取与所述多个候选图像的图像特征一一对应的哈希编码，并基于获取的多个所述哈希编码确定所述多个候选图像中的候选相似图像对；

当所述多个候选图像的数目不超过所述候选图像数目阈值时，对所述多个候选图像的图像特征进行聚类处理，并基于所述聚类处理的结果确定所述多个候选图像中的候选相似图像对。

在上述方案中，所述候选相似图像对确定模块，还用于：

通过位置敏感哈希函数，将所述多个候选图像的图像特征进行降维映射处理，以获取对应于所述图像特征的降维哈希编码；

遍历所述多个候选图像中任意两个候选图像组成的候选图像对，以执行以下处理：

当所述候选图像对中两个候选图像的哈希编码之间的汉明距离小于汉明相似度阈值时，确定候选图像对为候选相似图像对。

在上述方案中，所述候选相似图像对确定模块，还用于：

当所述聚类处理的结果表征多个所述图像特征属于同一类别时，遍历属于同一类别的候选图像对，以执行以下处理：

确定所述候选图像对中两个候选图像的图像特征之间的余弦距离；

将所述余弦距离小于余弦相似度阈值的候选图像对，确定所述候选图像对为候选相似图像对。

在上述方案中，所述聚类处理模块，还用于：

基于每个所述候选相似图像对的组合特征，确定所述候选相似图像对中两个相似的候选图像之间的相似度评分；

确定多个所述相似图像对中具有相同候选图像的相似图像对具有关联关系，并将具有关联关系的相似图像对中的相似候选图像确定为属于相同类别的候选图像。

在上述方案中，所述装置还包括：

新候选相似对组成模块，用于：

提取多个新候选图像的图像特征；

基于所述多个新候选图像的图像特征，获取与所述候选相似图像对相似的新候选图像；

确定由所述多个候选图像中任意一个、与所述多个新候选图像中任意一个组成新候选相似图像对。

在上述方案中，所述编码模块，还用于：

比较所述多个候选图像的编码，以将所述多个候选图像中满足以下条件至少之一的候选图像确定为重复图像：

具有相同编码的至少两个候选图像；

编码的相似度低于编码相似度阈值的任意两个候选图像；

所述装置还包括：

视频处理模块，用于：

当所述候选图像是待推荐视频的封面时，获取针对待推荐用户召回的多个视频对应的候选图像，以形成候选推荐图像队列；

对候选推荐图像队列中具有相同编码的候选推荐图像进行去重处理，并基于去重后的候选推荐图像队列执行对应所述待推荐用户的推荐操作。

在上述方案中，所述多个候选图像中的重复图像是通过相似图像对分类模型确定的；所述装置还包括：训练模块，用于：

构建用于确定所述相似图像对的相似图像对分类模型；

构建包括组合特征样本以及对应所述组合特征样本的相似度评分的损失函数；

基于所述损失函数训练所述相似图像对分类模型；

其中，在所述相似图像对分类模型的每次迭代训练过程中执行以下处理：

通过所述相似图像对分类模型，对训练样本集合包括的组合特征样本进行相似度评分，得到对应所述组合特征样本的相似度评分；

将对应所述组合特征样本的真实结果和所述相似度评分代入所述损失函数，以确定所述损失函数取得最小值时对应的相似图像对分类模型参数。

本发明实施例提供一种图像编码方法，所述方法包括：

将属于同一类别的候选图像分配生成相同的编码。

本发明实施例提供一种图像编码装置，所述装置包括：

编码模块，用于将属于同一类别的候选图像分配生成相同的编码。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的重复图像识别方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的重复图像识别方法。

本发明实施例具有以下有益效果：

通过本发明实施例，提取候选图像的抽象特征，以确定候选相似图像对，再结合文本的特征对候选相似图像对进行聚类以及唯一编码处理，以快速对候选图像进行后续重复识别。

附图说明

图1是本发明实施例提供的重复图像识别系统架构的一个可选的结构示意图；

图2是本发明实施例提供的应用重复图像识别方法的电子设备的一个可选的结构示意图；

图3A-3C是本发明实施例提供的重复图像识别方法的一个可选的流程示意图；

图4是本发明实施例提供的图像编码方法的一个可选的流程示意图；

图5是本发明实施例提供的重复图像识别方法中离线首次全量视频处理阶段流程图；

图6是本发明实施例提供的重复图像识别方法中离线新增视频处理阶段流程图；

图7是本发明实施例提供的重复图像识别方法中在线使用阶段流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)残差神经网络(Resnet，Residual Neural Network)，一种深度神经网络残差网络，容易优化，并且能够通过增加相当的深度来提高准确率，其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

2)局部敏感哈希(LSH，Locality-Sensitive Hashing)，一种用于海量高维数据的近似最近邻快速查找技术。

3)MD5：一种被广泛使用的密码散列函数，可以产生一个128位的散列值，用于确保信息传输的完整一致。

4)尺度不变特征变换(SIFT，Scale-invariant feature transform)，是一种检测图像局部特征的算法，是用于图像处理领域的一种描述，这种描述具有尺度不变性，可在图像中检测出关键点。

相关技术中通过计算候选图像的MD5，线上直接根据MD5的值进行去重，通过提取图像的SIFT特征，进而聚类生成图像的特征向量，线上通过计算向量相似度判断候选图像是否重复，离线计算所有候选图像的MD5值，在线存储候选图像的MD5值，在对召回队列的候选图像去重时，将相同MD5的重复候选图像去掉，当候选图像为视频封面图像时，将具有相同MD5的重复视频封面图像所对应的视频去掉，在相关技术中还可以离线提取候选图像的SIFT特征，对提取的SIFT特征进行聚类，生成对应的高维特征向量，线上存储候选图像的高维特征，在召回视频或者图像队列时，进行高维特征向量的相似度计算，对相似度高的重复候选图像以及对应重复候选图像的重复视频从召回队列中去除，上述技术方案存在以下缺陷，首先计算候选图像的MD5的值时，只能为完全相同的图像生成相同的MD5值，而对相似的图像无法去重，SIFT特征提取较慢，且生成的高维特征向量的图像特征表达能力不如深度网络，在线获取高维特征向量，进而计算相似度，内存占用高且耗时长，不适合线上实时推荐，不同类目、标签下的根据相似度去重的标准不一致，去重的误伤率高，基于此，本发明实施例提供一种重复图像识别方法，使用深度神经网络来进行图像特征提取，生成的高维图像特征表达能力更强，灵活使用聚类以及LSH技术，能够在不同数据量下都能快速高效的计算相似度，通过结合类目标签等外部文本的特征，满足了候选图像在不同类目、标签下的根据相似度去重的标准不一致的问题，误伤率低，通过离线生成唯一编码，在线直接使用编码的方式，避免了线上存储高维向量以及相似度计算的问题，可以实时快速进行召回队列中的图像所或者视频的去重。

本发明实施例提供一种重复图像识别方法、装置、电子设备和计算机可读存储介质，能够通过对候选图像进行编码以快速对候选图像进行后续重复识别，下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器，计算机是包括智能终端和服务器在内的各种计算设备，下面，将说明设备实施为服务器时示例性应用。

参见图1，图1是本发明实施例提供重复图像识别系统100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，服务器200中包括离线编码部分200-A和在线去重部分200-B，通过离线编码部分200-A对候选图像(由内容提供商500提供)进行离线编码以及重复识别，在线去重部分200-B通过读取编码对从多个候选图像中获取的候选推荐图像进行在线去重处理，将经过在线去重处理后得到的候选推荐图像推送至用户所使用的终端400，或者从多个候选图像中获取的候选推荐图像对应的视频进行在线去重处理，将经过在线去重处理后得到的视频推送至用户所使用的终端400。

参见图2，图2是本发明实施例提供的应用重复图像识别方法的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230，服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的重复图像识别装置可以采用软件方式实现，图2示出了存储在存储器250中的重复图像识别装置255，其可以是程序和插件等形式的软件，包括以下软件模块：候选相似图像对确定模块2551、组合特征获取模块2552、聚类处理模块2553、编码模块2554、新候选相似对组成模块2555、视频处理模块2556以及训练模块2557，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的重复图像识别装置可以采用硬件方式实现，作为示例，本发明实施例提供的重复图像识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的重复图像识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Comple x Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programma ble Gate Array)或其他电子元件。

下面将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的重复图像识别方法。

参见图3A，图3A是本发明实施例提供的重复图像识别方法的一个可选的流程示意图，将结合图3A示出的步骤101-104进行说明。

在步骤101中，服务器基于多个候选图像的图像特征，确定由多个候选图像中的任意两个相似候选图像组成的候选相似图像对。

这里的多个候选图像可以是来源于内容提供商的全量候选图像，这里的候选图像可以是视频封面图像、相册封面图像或者单独的图像，这里的多个候选图像的图像特征指的是多个候选图像中每个候选图像的图像特征。

参见图3B，基于图3A，图3B是本发明实施例提供的重复图像识别方法的一个可选的流程示意图，将结合图3B示出的步骤1011-1012进行说明，步骤101中基于多个候选图像的图像特征，确定由多个候选图像中的任意两个相似候选图像组成的候选相似图像对，可以通过步骤1011-1012实现，这里步骤1011和步骤1012之间的执行不分先后顺序。

在步骤1011中，当多个候选图像的数目超过候选图像数目阈值时，获取与多个候选图像的图像特征一一对应的哈希编码，并基于获取的多个哈希编码确定多个候选图像中的候选相似图像对。

这里的哈希编码是将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小，也就是说，如果对原始数据进行一些哈希映射后，希望原先相邻的两个数据能够被哈希映射到相同的桶内，具有相同的桶号，对原始数据集合中所有的数据都进行哈希映射后，可以得到了一个哈希表，这些原始数据集被分散到了哈希表的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被哈希到了同一个桶内，因此，通过设定这样的哈希函数，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么在该数据集合中进行近邻查找就变得容易了，只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据，即通过哈希函数映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，显然计算量下降了很多。

在步骤1012中，当多个候选图像的数目不超过候选图像数目阈值时，对多个候选图像的图像特征进行聚类处理，并基于聚类处理的结果确定多个候选图像中的候选相似图像对。

在一些实施例中，当候选图像的数目不超过图像数目阈值时，可以先对候选图像进行聚类处理，当候选图像的数目超过图像数目阈值时，进行聚类处理的速度较慢，且聚类结果准确率降低。

在一些实施例中，步骤1011中获取与多个候选图像的图像特征一一对应的多个哈希编码，可以通过以下技术方案中实现，通过位置敏感哈希函数，将多个候选图像的图像特征进行降维映射处理，以获取对应于图像特征的降维哈希编码，步骤1011中基于获取的多个哈希编码确定多个候选图像中的候选相似图像对，可以通过以下技术方案实现，遍历多个候选图像中任意两个候选图像组成的候选图像对，以执行以下处理：当候选图像对中两个候选图像的哈希编码之间的汉明距离小于汉明相似度阈值时，确定候选图像对为候选相似图像对。

在一些实施例中，可以通过局部敏感哈希实现编码，其在线查找时间由两个部分组成：通过局部敏感哈希函数计算哈希值(桶号)的时间以及将查询数据与桶内的数据进行比较计算的时间，其提供了一种在海量的高维数据集中查找与查询数据点近似最相邻的某个或某些数据点。需要注意的是，局部敏感哈希并不能保证一定能够查找到与查询数据点最相邻的数据，而是减少需要匹配的数据点个数的同时保证查找到最近邻的数据点的概率很大，在图像检索领域，每张图像可以由一个或多个特征向量来表达，为了检索出与查询图像相似的图像集合，可以对图像数据库中的所有特征向量建立局部敏感哈希索引，然后通过查找局部敏感哈希索引来加快检索速度。

在一些实施例中，步骤1012中基于聚类处理的结果确定多个候选图像中的候选相似图像对，可以通过以下技术方案实现，当聚类处理的结果表征多个图像特征属于同一类别时，遍历属于同一类别的候选图像对，以执行以下处理：确定候选图像对中两个候选图像的图像特征之间的余弦距离；将余弦距离小于余弦相似度阈值的候选图像对，确定候选图像对为候选相似图像对。

在一些实施例中，聚类是一种机器学习技术，它涉及到数据点的分组，给定一组数据点，使用聚类算法将每个数据点划分为一个特定的组，同一组中的数据点应该具有相似的属性和/或特征，而不同组中的数据点应该具有高度不同的属性和/或特征。

在一些实施例中可以使用K-均值(K-MEANS)聚类算法，是选择一些类/组来使用并随机地初始化它们各自的中心点，要想知道要使用的类的数量，最好快速地查看一下数据，并尝试识别任何不同的分组，中心点是与每个数据点向量相同长度的向量，每个数据点通过计算点和每个组中心之间的距离进行分类，然后将这个点分类为最接近它的组，基于这些分类点，通过取组中所有向量的均值来重新计算组中心，对一组迭代重复这些步骤，还可以选择随机初始化组中心几次，然后选择那些看起来对它提供了最好结果的来运行。

在一些实施例中可以使用均值偏移聚类算法，均值偏移聚类算法是一种基于滑动窗口(sliding-window)的算法，它试图找到密集的数据点，而且，它还是一种基于中心的算法，它的目标是定位每一组群/类的中心点，通过更新中心点的候选点来实现滑动窗口中的点的平均值，这些候选窗口在后期处理阶段被过滤，以消除几乎重复的部分，形成最后一组中心点及其对应的组。

在一些实施例中可以使用密度空间的聚类算法，基于密度空间的聚类算法类似于均值转移聚类算法以一个从未访问过的任意起始数据点开始，这个点的邻域是用距离ε(所有在ε距离的点都是邻点)来提取的，如果在这个邻域中有足够数量的点，那么聚类过程就开始了，并且当前的数据点成为新聚类中的第一个点，否则，该点将被标记为噪声(稍后这个噪声点可能会成为聚类的一部分)。在这两种情况下，这一点都被标记为“访问(visited)”，对于新聚类中的第一个点，其ε距离附近的点也会成为同一聚类的一部分。这一过程使在ε邻近的所有点都属于同一个聚类，然后重复所有刚刚添加到聚类组的新点，直到聚类中的所有点都被确定，就是说在聚类附近的所有点都已被访问和标记，一旦完成了当前的聚类，就会检索并处理一个新的未访问点，这将导致进一步的聚类或噪声的发现。这个过程不断地重复，直到所有的点被标记为访问，因为在所有的点都被访问过之后，每一个点都被标记为属于一个聚类或者是噪音。

在一些实施例中可以使用层次聚类算法，其实际上分为两类：自上而下或自下而上。自下而上的算法在一开始就将每个数据点视为一个单一的聚类，然后依次合并(或聚集)类，直到所有类合并成一个包含所有数据点的单一聚类。因此，自下而上的层次聚类称为合成聚类，聚类的层次结构用一棵树(或树状图)表示，树的根是收集所有样本的唯一聚类，而叶子是只有一个样本的聚类，合成聚类是首先将每个数据点作为一个单独的聚类进行处理，如果数据集有X个数据点，那么就有了X个聚类。然后选择一个度量两个聚类之间距离的距离度量，作为一个示例，将使用平均连接(average linkage)聚类，它定义了两个聚类之间的距离，即第一个聚类中的数据点和第二个聚类中的数据点之间的平均距离，接着在每次迭代中，将两个聚类合并为一个，将两个聚类合并为具有最小平均连接的组，比如说根据选择的距离度量，这两个聚类之间的距离最小，因此是最相似的，应该组合在一起，重复上述步骤直到到达树的根，即只有一个包含所有数据点的聚类，通过这种方式，可以选择最终需要多少个聚类，只需选择何时停止合并聚类，也就是停止建造这棵树的时候，层次聚类算法不要求指定聚类的数量，甚至可以选择哪个聚类看起来最好。

在步骤102中，服务器将对应候选相似图像对的相似度结果、以及对应候选相似图像对的文本的特征进行组合，得到对应候选相似图像对的组合特征。

在一些实施例中，这里的文本可以是类目或者标签以及其他可以表征图像场景的文本，对于不同的场景的下相同的相似度结果会被确认为不同的相似结果，例如对于风景而言，相似度需要达到90％才会被判断为相似，但是对于人物场景而言，相似度达到40％就会被判断为相似，因此需要将相似度结果与文本的特征进行组合，得到组合特征，并以组合特征为依据，输入到分类器中进行相似度判断。

在步骤103中，服务器基于多个候选相似图像对各自对应的组合特征，对多个候选相似图像对进行聚类处理。

参见图3C，基于图3A，图3C是本发明实施例提供的重复图像识别方法的一个可选的流程示意图，将结合图3C示出的步骤1031-1033进行说明，步骤103中基于多个候选相似图像对各自对应的组合特征，对多个候选相似图像对进行聚类处理，可以通过步骤1031-1033实现。

在步骤1031中，基于每个候选相似图像对的组合特征，确定候选相似图像对中两个相似的候选图像之间的相似度评分。

在步骤1032中，当相似度评分不小于相似度评分阈值时，将对应的候选相似图像对确定为相似图像对。

在步骤1033中，确定多个相似图像对中具有相同候选图像的相似图像对具有关联关系，并将具有关联关系的相似图像对中的相似候选图像确定为属于相同类别的候选图像。

在一些实施例中，通过分类器输出相似度评分，当相似度评分不小于相似度评分阈值时，将对应的候选相似图像对确定为相似图像对，确定多个相似图像对中具有相同候选图像的相似图像对具有关联关系，并将具有关联关系的相似图像对中的相似候选图像确定为属于相同类别的候选图像，例如，图像A和图像B之间是相似图像对，图像A和图像C是相似图像对，则这两个候选图像对是具有关联关系的。

在步骤104中，服务器将聚类结果中属于同一类别的候选图像分配生成相同的编码，并基于编码确定多个候选图像中的重复图像。

在一些实施例中，步骤104中基于编码确定多个候选图像中的重复图像，可以通过以下技术方案实现，比较多个候选图像的编码，以将多个候选图像中满足以下条件至少之一的候选图像确定为重复图像：具有相同编码的至少两个候选图像；编码的相似度低于编码相似度阈值的任意两个候选图像；方法还包括以下技术方案：当候选图像是待推荐视频的封面时，获取针对待推荐用户召回的多个视频对应的候选图像，以形成候选推荐图像队列；对候选推荐图像队列中具有相同编码的候选推荐图像进行去重处理，并基于去重后的候选推荐图像队列执行对应待推荐用户的推荐操作。

在一些实施例中，本发明实施例提供的重复图像识别方法还包括以下技术方案，提取多个新候选图像的图像特征；基于多个新候选图像的图像特征，获取与候选相似图像对相似的新候选图像；确定由多个候选图像中任意一个、与多个新候选图像中任意一个组成新候选相似图像对。

在一些实施例中，当聚类结果表征存在属于同一类别的候选图像以及新候选图像时，针对与候选图像属于同一类别的新候选图像分配生成与候选图像相同的编码，并将聚类结果中属于同一类别的，且与多个候选图像属于不同类别的新增候选图像分配生成相同的编码；针对没有被聚类到同一类别的其余新增候选图像生成与其余新增候选图像一一对应的唯一编码。

在一些实施例中，读取新增图像，输入到Resnet网络中提取高维特征向量，读取之前已生成的图像的特征向量，将之前已生成的与新增的特征向量合并到一起计算相似度，考虑到计算效率的问题，根据图像量的大小采用不同的策略计算获取到候选相似图像对，具体如下：如果整体图像量小于候选图像数目阈值，首先对所有特征向量进行聚类，聚类类簇数n可根据业务调整(n越大聚类越快，后续查找会变慢)，将新增图像对应的特征向量根据其所属类簇计算其与类簇内的其他图像向量的相似度，此处相似度计算可以使用余弦距离，保存不小于一定相似度阈值(此处阈值可根据业务调整)的图像对结果，如果整体图像量不小于图像数目阈值，根据LSH哈希函数生成所有特征向量的哈希编码，根据哈希编码计算新增视频封面图像与所有图像对之间的距离，此处可以使用汉明距离，查找速度很快，保存不小于一定相似度阈值(此处阈值可根据业务调整)的图像对结果，获取上步得到的候选相似图像对结果，再读取这些图像对应的类目和标签，将类目和标签以独热编码的形式与相似度结果整合到一起，形成组合特征，将上步得到的组合特征输入到分类模型判断是否满足业务场景下的相似定义，将所有判为相似的图像对进行聚合，例如图像a与图像b相似，图像b与图像c相似，则图像a、图像b和图像c聚合到一起，对聚合后的同一类簇内的图像打上同一编码，此处需要注意的是，如类簇内有之前已经编码过的图像，则以此已经编码过的图像的编码作为类簇的编码，对不存在相似的剩余新增图像依次打上其他唯一的编码，将新增图像的结果加入到之前的图像中保存。

在一些实施例中，将聚类结果中属于同一类别的候选图像分配生成相同的编码时，针对没有被聚类到同一类别的其余候选图像，生成与其余候选图像一一对应的唯一编码。

在一些实施例中，多个候选图像中的重复图像是通过相似图像对分类模型确定的，方法还包括以下技术方案：构建用于确定相似图像对的相似图像对分类模型；构建包括组合特征样本以及对应组合特征样本的相似度评分的损失函数；基于损失函数训练相似图像对分类模型；其中，在相似图像对分类模型的每次迭代训练过程中执行以下处理：通过相似图像对分类模型，对训练样本集合包括的组合特征样本进行相似度评分，得到对应组合特征样本的相似度评分；将对应组合特征样本的真实结果和相似度评分代入损失函数，以确定损失函数取得最小值时对应的相似图像对分类模型参数。

参见图4，图4是本发明实施例提供的图像编码方法的一个可选的流程示意图，将结合图4示出的步骤201-204进行说明。

在步骤201中，基于多个候选图像的图像特征，确定由所述多个候选图像中的任意两个相似候选图像组成的候选相似图像对。

在步骤202中，将对应所述候选相似图像对的相似度结果、以及对应所述候选相似图像对的文本的特征进行组合，得到对应所述候选相似图像对的组合特征。

在步骤203中，基于多个所述候选相似图像对各自对应的组合特征，对所述多个候选相似图像对进行聚类处理。

在步骤204中，将聚类结果中属于同一类别的候选图像分配生成相同的编码。

这里，上述步骤201-204所实现的具体技术方案均可以参考上文所述的发明实施例提供的图像重复识别方法，根据本发明实施例提供的图像编码方法可以将图像进行编码化，使得图像与编码之间存在对应关系，通过编码可以查询图像，将所得到的编码作为图像字典，使得图像存储所占用空间更少，图像之间的交互处理时能够通过编码来代替复杂的特征向量。

下面，将说明本发明实施例提供的重复图像识别方法在一个实际的应用场景中的示例性应用，以候选图像为视频封面图像为例。

应用产品的视频流中整合了来自多方视频源的视频数据，视频总量大，且存在较多重复视频，在给用户推荐的视频流中，极易出现相同或相似的视频，造成不好的用户体验。视频封面图是用户观看视频时的第一印象，在线推荐时对视频封面图像的快速去重是十分重要的，本发明实施例提供的重复识别方法通过使用深度学习、聚类、哈希编码等多项技术，结合视频类目、标签等多维特征，实现了视频封面图像的快速过滤，通过深度神经网络提取视频封面图像的具有高度表征性和高可用性的抽象特征，进而通过聚类或哈希编码的方式实现快速的高维图像特征的相似度计算，再结合类目、标签等外部文本属性得到两张视频封面图像是否相似，通过打上唯一的编码，使得线上可以避免耗时的计算，而直接进行去重操作即可，本发明实施例提供的重复图像识别方法可以应用于推荐类产品中，以在在线实时推荐时对召回的视频队列进行快速相似封面图像去重。

参见图5，图5是本发明实施例提供的重复图像识别方法中离线首次全量视频处理阶段流程图，读取首次处理时的全量视频封面图像，输入到Resnet网络中提取所有视频封面图像的高维特征向量，此处使用128维向量，考虑到计算效率的问题，根据图像量的大小采用不同的策略计算获取到候选相似图像对，具体如下：如果整体图像量小于100万(此处数据量100w可以根据业务情况调整)首先对所有特征向量进行聚类，聚类类簇数n可根据业务调整(n越大聚类越快，后续查找会变慢)所有特征向量根据其所属类簇计算其与类簇内的其他图像向量的相似度，此处相似度计算可以使用余弦距离，保存小于一定相似度阈值(此处阈值可根据业务调整)的图像对结果，如果整体图像量不小于100万，根据LSH哈希函数生成所有特征向量的哈希编码，根据哈希编码计算所有图像对之间的距离，此处可以使用汉明距离，查找速度很快，保存小于一定相似度阈值(此处阈值可根据业务调整)的图像对结果，获取上步得到的候选相似的图像对结果，再读取这些视频封面图像对应的视频类目和视频标签，将类目和标签以独热的形式与相似度结果整合到一起，形成组合的相似向量，将上步得到的相似向量输入到分类模型判断是否满足业务场景下的相似定义，将所有判为相似的图像对进行聚合，例如图像a与图像b相似，图像b与图像c相似，则图像a、图像b和图像c聚合到一起，对聚合后的同一类簇内的图像打上同一编码，对不存在相似的剩余图像依次打上其他唯一的编码，将生成结果进行保存。

参见图6，图6是本发明实施例提供的重复图像识别方法中离线新增视频处理阶段流程图，读取新增视频的视频封面图像，输入到Resnet网络中提取高维特征向量，此处使用128维向量，读取之前已生成的全量视频封面图像的特征向量，将之前全量与新增的特征向量合并到一起计算相似度，考虑到计算效率的问题，根据图像量的大小采用不同的策略计算获取到候选相似图像对，具体如下：如果整体图像量小于100万(此处数据量100w可以根据业务情况调整)，首先对所有特征向量进行聚类，聚类类簇数n可根据业务调整(n越大聚类越快，后续查找会变慢)，将新增视频对应的特征向量根据其所属类簇计算其与类簇内的其他图像向量的相似度，此处相似度计算可以使用余弦距离，保存不小于一定相似度阈值(此处阈值可根据业务调整)的图像对结果，如果整体图像量不小于100万，根据LSH哈希函数生成所有特征向量的哈希编码，根据哈希编码计算新增视频封面图像与所有图像对之间的距离，此处可以使用汉明距离，查找速度很快，保存不小于一定相似度阈值(此处阈值可根据业务调整)的图像对结果，获取上步得到的候选相似图像对结果，再读取这些视频封面图像对应的视频类目和视频标签，将类目和标签以独热编码的形式与相似度结果整合到一起，形成组合的相似向量，将上步得到的相似向量输入到分类模型判断是否满足业务场景下的相似定义，将所有判为相似的图像对进行聚合，例如图像a与图像b相似，图像b与图像c相似，则图像a、图像b和图像c聚合到一起，对聚合后的同一类簇内的图像打上同一编码，此处需要注意的是，如类簇内有之前已经编码过的视频封面图像，则以此已经编码过的视频封面图像的编码作为类簇的编码，对不存在相似的剩余新增图像依次打上其他唯一的编码，将新增视频的视频封面图像的结果加入到之前的全量视频结果库中保存。

参见图7，图7是本发明实施例提供的重复图像识别方法中在线使用阶段流程图，读取离线阶段生成好的视频库中所有视频的封面图像编码到内存中，在线推荐获取到用于推荐的候选视频队列，获取候选视频队列中视频对应的视频封面图像的编码，对具有相同编码的重复视频进行去重，将去重后的视频队列用于推荐的后续流程，例如推给用户展示等，本发明实施例提供的重复识别方法使用Resnet深度神经网络来进行图像特征提取，生成的高维图像特征表达能力更强，通过灵活使用聚类、以及LSH技术，能够在不同数据量下都能快速高效的计算相似度，通过结合了类目标签等外部文本特征，满足了视频封面图在不同类目、标签下的根据相似度去重的标准不一致的问题，误伤率低，通过离线生成唯一编码，在线直接使用编码的方式，避免了线上存储高维向量以及相似度计算的问题，可以实时快速进行视频召回队列的去重。

下面继续说明本发明实施例提供的重复图像识别装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的重复图像识别装置255中的软件模块可以包括：候选相似图像对确定模块2551，用于基于多个候选图像的图像特征，确定由多个候选图像中的任意两个相似候选图像组成的候选相似图像对；组合特征获取模块2552，用于将对应候选相似图像对的相似度结果、以及对应候选相似图像对的文本的特征进行组合，得到对应候选相似图像对的组合特征；聚类处理模块2553，用于基于多个候选相似图像对各自对应的组合特征，对多个候选相似图像对进行聚类处理；编码模块2554，用于将聚类结果中属于同一类别的候选图像分配生成相同的编码，并基于编码确定多个候选图像中的重复图像。

在上述方案中，候选相似图像对确定模块2551，还用于：当多个候选图像的数目超过候选图像数目阈值时，获取与多个候选图像的图像特征一一对应的哈希编码，并基于获取的多个哈希编码确定多个候选图像中的候选相似图像对；当多个候选图像的数目不超过候选图像数目阈值时，对多个候选图像的图像特征进行聚类处理，并基于聚类处理的结果确定多个候选图像中的候选相似图像对。

在上述方案中，候选相似图像对确定模块2551，还用于：通过位置敏感哈希函数，将多个候选图像的图像特征进行降维映射处理，以获取对应于图像特征的降维哈希编码；遍历多个候选图像中任意两个候选图像组成的候选图像对，以执行以下处理：当候选图像对中两个候选图像的哈希编码之间的汉明距离小于汉明相似度阈值时，确定候选图像对为候选相似图像对。

在上述方案中，候选相似图像对确定模块2551，还用于：当聚类处理的结果表征多个图像特征属于同一类别时，遍历属于同一类别的候选图像对，以执行以下处理：确定候选图像对中两个候选图像的图像特征之间的余弦距离；将余弦距离小于余弦相似度阈值的候选图像对，确定候选图像对为候选相似图像对。

在上述方案中，聚类处理模块2553，还用于：基于每个候选相似图像对的组合特征，确定候选相似图像对中两个相似的候选图像之间的相似度评分；当相似度评分不小于相似度评分阈值时，将对应的候选相似图像对确定为相似图像对；确定多个相似图像对中具有相同候选图像的相似图像对具有关联关系，并将具有关联关系的相似图像对中的相似候选图像确定为属于相同类别的候选图像。

在上述方案中，重复图像识别装置255还包括：新候选相似对组成模块2555，用于：提取多个新候选图像的图像特征；基于多个新候选图像的图像特征，获取与候选相似图像对相似的新候选图像；确定由多个候选图像中任意一个、与多个新候选图像中任意一个组成新候选相似图像对。

在上述方案中，编码模块2554，还用于：比较多个候选图像的编码，以将多个候选图像中满足以下条件至少之一的候选图像确定为重复图像：具有相同编码的至少两个候选图像；编码的相似度低于编码相似度阈值的任意两个候选图像；装置还包括：视频处理模块2556，用于：当候选图像是待推荐视频的封面时，获取针对待推荐用户召回的多个视频对应的候选图像，以形成候选推荐图像队列；对候选推荐图像队列中具有相同编码的候选推荐图像进行去重处理，并基于去重后的候选推荐图像队列执行对应待推荐用户的推荐操作。

在上述方案中，多个候选图像中的重复图像是通过相似图像对分类模型确定的，重复图像识别装置255还包括：训练模块2557，用于：构建用于确定相似图像对的相似图像对分类模型；构建包括组合特征样本以及对应组合特征样本的相似度评分的损失函数；基于损失函数训练相似图像对分类模型；其中，在相似图像对分类模型的每次迭代训练过程中执行以下处理：通过相似图像对分类模型，对训练样本集合包括的组合特征样本进行相似度评分，得到对应组合特征样本的相似度评分；将对应组合特征样本的真实结果和相似度评分代入损失函数，以确定损失函数取得最小值时对应的相似图像对分类模型参数。

本发明实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的重复图像识别方法，例如，如图3A-3C示出的重复图像识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例，提取候选图像的抽象特征，以确定候选相似图像对，再结合文本的特征对候选相似图像对进行聚类以及唯一编码处理，以快速对候选图像进行后续重复识别。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种重复图像识别方法，其特征在于，所述方法包括：

将对应所述候选相似图像对的相似度结果、以及对应所述候选相似图像对的文本的特征进行组合，得到对应所述候选相似图像对的组合特征，其中，所述文本为表征所述候选相似图像对所对应的图像场景的文本；在不同的图像场景下，具有相同相似度结果的候选相似图像对被认定为具有不同的相似结果；

2.根据权利要求1所述的方法，其特征在于，所述基于多个候选图像的图像特征，确定由所述多个候选图像中的任意两个相似候选图像组成的候选相似图像对，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取与所述多个候选图像的图像特征一一对应的多个哈希编码，包括：

所述基于获取的多个所述哈希编码确定所述多个候选图像中的候选相似图像对，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述聚类处理的结果确定所述多个候选图像中的候选相似图像对，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述编码确定所述多个候选图像中的重复图像，包括：

具有相同编码的至少两个候选图像；

编码的相似度低于编码相似度阈值的任意两个候选图像；

所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，

所述多个候选图像中的重复图像是通过相似图像对分类模型确定的；

所述方法还包括：

构建用于确定所述相似图像对的相似图像对分类模型；

基于所述损失函数训练所述相似图像对分类模型；

7.一种图像编码方法，其特征在于，所述方法包括：

将属于同一类别的候选图像分配生成相同的编码。

8.一种重复图像识别装置，其特征在于，所述装置包括：

组合特征获取模块，用于将对应所述候选相似图像对的相似度结果、以及对应所述候选相似图像对的文本的特征进行组合，得到对应所述候选相似图像对的组合特征，其中，所述文本为表征所述候选相似图像对所对应的图像场景的文本；在不同的图像场景下，具有相同相似度结果的候选相似图像对被认定为具有不同的相似结果；

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令，实现权利要求1至6任一项所述的重复图像识别方法或者权利要求7所述的图像编码方法。

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至6任一项所述的重复图像识别方法或者权利要求7所述的图像编码方法。