CN114463598A

CN114463598A - 一种图像去重方法、装置、设备及存储介质

Info

Publication number: CN114463598A
Application number: CN202210128958.3A
Authority: CN
Inventors: 高依铨; 邓富城; 罗韵; 陈振杰
Original assignee: Shandong Jivisual Angle Technology Co ltd
Current assignee: Shandong Jivisual Angle Technology Co ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-05-10

Abstract

本申请公开了一种图像去重方法、装置、设备及存储介质，包括：按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重，得到去重图像数据集；对去重图像数据集中的图像进行特征提取得到特征图像集；计算特征图像集中任意两张特征图像的余弦相似度，得到余弦相似值，并将余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数；利用目标度量分数对初始超参数集进行优化，得到目标超参数集，并利用目标超参数集对待去重图像数据集进行去重处理，得到目标去重图像集。本申请通过计算图像之间的余弦相似度，并结合去重数量平衡因子得到目标度量分数，进而得到高性能的超参数集，能够避免陷入超参数集的局部最优情况。

Description

一种图像去重方法、装置、设备及存储介质

技术领域

本申请涉及机器学习技术领域，特别涉及一种图像去重方法、装置、设备及存储介质。

背景技术

图像去重是数据清理中必不可少的技术，当前各种图像去重方法通常需要繁琐的手动调优来获得适当的超参数集，图像去重的效果在很大程度上取决于工程师的经验，并且通过人工调参的过程需要花费大量的时间和精力。尽管自动图像去重可以避免费力的手动调优问题，但它却面临另一个重要的挑战，即如何制定可行的目标函数。

自动图像去重的目标本质上是在一定程度上尽可能的减少任何成对去重结果图像之间的相似性。然而，如果目标函数仅简单地考虑成对去重结果图像的相似度最小化，这会使自动图像去重框架搜索到的超参数集陷入一些局部最优的情况，从而造成实际去重图像少于预期不合理的去重图像，即成对图像相似性和去重图像保留数量之间存在矛盾。因此，如何学习保留合理数量的去重图像也成为设计目标函数时应考虑的关键点。

发明内容

有鉴于此，本申请的目的在于提供一种图像去重方法、装置、设备及存储介质，能够克服成对去重图像相似度和去重图像保留数量之间的矛盾，得到高性能的超参数集，并避免陷入超参数集局部最优。其具体方案如下：

第一方面，本申请公开了一种图像去重方法，包括：

按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集；

对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集；

计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数；

利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集，并利用所述目标超参数集对所述待去重图像数据集进行去重处理，得到目标去重图像集。

可选的，所述初始超参数集属于预定义的有界超参数搜索空间。

可选的，所述去重数量平衡因子为λ₁n或λ₂(n-1)？；其中，λ₁和λ₂为可调节的权重参数，n为所述待去重图像数据集中所有图像的总数，？为阶加运算符。

可选的，所述目标度量分数的获取过程对应的函数表达式为：

式中，f_T1表示所述目标度量分数，D_θ表示使用初始超参数集θ进行去重后得到的所述去重图像数据集，Φ(x_i)和Φ(x_j)表示所述去重图像集中任意两张图像的特征图向量，

表示所述特征图像集中任意两张特征图像之间的余弦相似度的总和。

式中，f_T2表示所述目标度量分数，D_θ表示使用初始超参数集θ进行去重后得到的所述去重图像数据集，Φ(x_i)和Φ(x_j)表示所述去重图像集中任意两张图像的特征图向量，

可选的，所述对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集，包括：

通过预设的特征提取器对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集；其中，所述特征提取器的网络采用MobileNet、VGG或ResNet中的任意一种。

可选的，所述利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集，包括：

判断所述目标度量分数是否达到预设阈值，若未达到则将所述目标度量分数作为先验信息反馈至自动机器学习基线，以便所述自动机器学习基线利用所述目标度量分数对所述初始超参数集进行优化，并利用优化后的超参数集对所述待去重图像数据集进行去重处理，直到达到所述预设阈值，若达到则将所述目标度量分数对应的超参数集作为目标超参数集；

或，判断当前迭代次数是否达到最大迭代次数，若未达到则将所述目标度量分数反馈至自动机器学习基线，以便所述自动机器学习基线利用所述目标度量分数对所述初始超参数集进行优化，并利用优化后的超参数集对所述待去重图像数据集进行去重处理，直到达到所述最大迭代次数，若达到则将所述目标度量分数对应的超参数集作为目标超参数集。

第二方面，本申请公开了一种图像去重装置，包括：

第一图像去重模块，用于按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集；

特征提取模块，用于对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集；

相似度计算模块，用于计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数；

超参数集优化模块，用于利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集；

第二图像去重模块，用于利用所述目标超参数集对所述待去重图像数据集进行去重处理，得到目标去重图像集。

第三方面，本申请公开了一种电子设备，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现前述的图像去重方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述的图像去重方法。

可见，本申请先按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集，然后对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集，再计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数，最后利用所述目标度量分数对所述初始超参数集进行优化得到目标超参数集，并利用所述目标超参数集对所述待去重图像数据集进行去重处理，得到目标去重图像集。可见，本申请通过计算图像之间的余弦相似度，并结合去重数量平衡因子得到目标度量分数，进而得到高性能的超参数集，能够克服去重图像相似度和数量之间的矛盾，并避免陷入超参数集的局部最优情况，适用于多类场景图像的自动去重任务。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种图像去重方法流程图；

图2为本申请公开的一种具体的图像去重方法流程图；

图3为本申请公开的一种图像去重装置结构示意图；

图4为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种图像去重方法，参见图1所示，该方法包括：

步骤S11：按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集。

本实施例中，首先可以通过手动输入或者随机生成一个初始超参数集，然后按照预设的图像去重算法并基于上述初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集。其中，所述初始超参数集属于预定义的有界超参数搜索空间，所述图像去重算法包括但不限于感知哈希算法(PHA，Perceptual Hash Algorithm)。

步骤S12：对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集。

本实施例中，按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理得到去重图像数据集之后，可以通过预设的特征提取器对上述去重图像数据集中的图像进行特征提取，得到特征提取后的图像集；其中，所述特征提取器可基于包括但不限于MobileNet、VGG或ResNet等网络实现。

步骤S13：计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数。

本实施例中，对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集之后，通过预先基于余弦距离创建的余弦相似度计算公式计算上述特征图像集中任意两张特征图像之间的余弦相似度，得到预设数量的余弦相似值，然后将所有上述预设数量的余弦相似值相加得到总的余弦相似值，并将所述总的余弦相似值除以所述预设数量，即进行均值计算，再将均值计算的结果除以预设的去重数量平衡因子，得到目标度量分数。

具体的，本实施例中，所述去重数量平衡因子为λ₁n或λ₂(n-1)？；其中，λ₁和λ₂为可调节的权重参数，默认为1，n为所述待去重图像数据集中所有图像的总数，？为阶加运算符。

在一种具体的实施方式中，当所述去重数量平衡因子为λ₁n时，所述目标度量分数的获取过程对应的函数表达式为：

式中，f_T1表示所述目标度量分数，

表示使用初始超参数集θ进行去重后得到的所述去重图像数据集，并且θ∈Θ，Θ为预定义的有界超参数搜索空间，Φ(x_i)和Φ(x_j)表示所述去重图像集中任意两张图像的特征图向量，

表示所述特征图像集中任意两张特征图像之间的余弦相似度的总和，||Φ(x_i)||表示特征图向量Φ(x_i)的模长，Φ(x_i)·Φ(x_j)表示两个特征图向量的点积。

在另一种具体的实施方式中，当所述去重数量平衡因子为λ₂(n-1)？时，所述目标度量分数的获取过程对应的函数表达式为：

需要指出的是，上述目标度量分数f_T1适用于普遍数据集的去重任务优化，而上述目标度量分数f_T2适用于数据集中仅有相对少量重复图像的去重场景。

步骤S14：利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集，并利用所述目标超参数集对所述待去重图像数据集进行去重处理，得到目标去重图像集。

本实施例中，计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子得到目标度量分数之后，可以进一步的利用上述目标度量分数对所述初始超参数集进行调整优化得到目标超参数集，然后利用上述目标超参数集对上述待去重图像数据集进行去重处理，得到目标去重图像集。

在一种具体的实施方式中，所述利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集，具体可以包括：判断所述目标度量分数是否达到预设阈值，若未达到则将所述目标度量分数作为先验信息反馈至自动机器学习基线，以便所述自动机器学习基线利用所述目标度量分数对所述初始超参数集进行优化，并利用优化后的超参数集对所述待去重图像数据集进行去重处理，直到达到所述预设阈值，若达到则将所述目标度量分数对应的超参数集作为目标超参数集。可以理解的是，为了保证最后图像去重的结果既满足成对图像之间具有较小相似度又使得保留的图像数量合理，可以设置一个预设阈值对所述目标度量分数进行判断，如果达到了所述预设阈值，则将上述目标度量分数作为先验信息反馈至自动机器学习基线，所述自动机器学习基线在接收到所述目标度量分数后，利用上述目标度量分数对所述初始超参数集进行优化调整，然后利用优化后的超参数集对上述待去重图像数据集再次进行去重处理，直到达到上述预设阈值，并在达到上述预设阈值后将上述目标度量分数对应的超参数集作为目标超参数集。

在另一种具体的实施方式中，所述利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集，具体可以包括：判断当前迭代次数是否达到最大迭代次数，若未达到则将所述目标度量分数反馈至自动机器学习基线，以便所述自动机器学习基线利用所述目标度量分数对所述初始超参数集进行优化，并利用优化后的超参数集对所述待去重图像数据集进行去重处理，直到达到所述最大迭代次数，若达到则将所述目标度量分数对应的超参数集作为目标超参数集。可以理解的是，除了上述设置阈值的方式，还可以通过判断当前迭代次数是否达到最大迭代次数的方式获取目标度量分数，具体的，如果未达到所述最大迭代次数，可以将上述目标度量分数反馈至自动机器学习基线，所述自动机器学习基线利用上述目标度量分数对所述初始超参数集中的超参数进行优化调整，并利用优化后的超参数集对上述待去重图像数据集进行去重处理，直到达到所述最大迭代次数，如果达到所述最大迭代次数则将当前目标度量分数作为目标度量分数，并将所述目标度量分数对应的超参数集作为目标超参数集。

可见，本申请实施例先按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集，然后对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集，再计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数，最后利用所述目标度量分数对所述初始超参数集进行优化得到目标超参数集，并利用所述目标超参数集对所述待去重图像数据集进行去重处理，得到目标去重图像集。可见，本申请实施例通过计算图像之间的余弦相似度，并结合去重数量平衡因子得到目标度量分数，进而得到高性能的超参数集，能够克服去重图像相似度和数量之间的矛盾，并避免陷入超参数集的局部最优情况，适用于多类场景图像的自动去重任务。

另外，参见图2所示，图2示出了一种具体的图像去重方法流程图，首先按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到n张去重图像数据，然后对n张去重图像数据进行特征提取，得到对应的n张特征图，再将n张特征图输入至预先基于余弦距离创建的目标函数中，目标函数先计算n张特征图中任意两张特征图之间的余弦相似度，然后将得到的(n-1)？个余弦相似度值进行求和计算，再除以(n-1)？得到平均余弦相似值，最后除以去重数量平衡因子，即图3中的平衡控制项λ₁n或λ₂(n-1)？，得到度量分数，即目标函数的计算结果，然后判断所述度量分数或当前迭代次数是否触发某个条件机制，若触发了则将对应的度量分数作为目标度量分数，并利用所述目标度量分数对应的超参数集对待去重图像数据集进行去重操作。

其中，关于上述步骤更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请实施例以成对去重图像的相似性和数量之间的权衡为优化目标进行无监督学习，引导其搜索得到性能良好的超参数集，避免陷入超参数集的局部最优情况。

相应的，本申请实施例还公开了一种图像去重装置，参见图3所示，该装置包括：

第一图像去重模块11，用于按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集；

特征提取模块12，用于对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集；

相似度计算模块13，用于计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数；

超参数集优化模块14，用于利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集；

第二图像去重模块15，用于利用所述目标超参数集对所述待去重图像数据集进行去重处理，得到目标去重图像集。

其中，关于上述各个模块的具体工作流程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请实施例中，先按照预设图像去重算法并基于初始超参数集对待去重图像数据集进行去重处理，得到去重图像数据集，然后对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集，再计算所述特征图像集中任意两张特征图像的余弦相似度，得到预设数量的余弦相似值，并将所述余弦相似值之和的均值除以预设的去重数量平衡因子，得到目标度量分数，最后利用所述目标度量分数对所述初始超参数集进行优化得到目标超参数集，并利用所述目标超参数集对所述待去重图像数据集进行去重处理，得到目标去重图像集。可见，本申请实施例通过计算图像之间的余弦相似度，并结合去重数量平衡因子得到目标度量分数，进而得到高性能的超参数集，能够克服去重图像相似度和数量之间的矛盾，并避免陷入超参数集的局部最优情况，适用于多类场景图像的自动去重任务。

在一些具体实施例中，所述初始超参数集属于预定义的有界超参数搜索空间。

在一些具体实施例中，所述去重数量平衡因子为λ₁n或λ₂(n-1)？；其中，λ₁和λ₂为可调节的权重参数，n为所述待去重图像数据集中所有图像的总数，？为阶加运算符。

在一些具体实施例中，所述目标度量分数的获取过程对应的函数表达式为：

在一些具体实施例中，所述特征提取模块12，具体可以包括：

特征提取单元，用于通过预设的特征提取器对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集；其中，所述特征提取器的网络采用MobileNet、VGG或ResNet中的任意一种。

在一些具体实施例中，所述超参数集优化模块14，具体可以包括：

第一判断单元，用于判断所述目标度量分数是否达到预设阈值；

第一超参数集进行优化单元，用于如果所述目标度量分数未达到预设阈值，则将所述目标度量分数作为先验信息反馈至自动机器学习基线，以便所述自动机器学习基线利用所述目标度量分数对所述初始超参数集进行优化；

第一图像去重单元，用于利用优化后的超参数集对所述待去重图像数据集进行去重处理，直到达到所述预设阈值，若达到则将所述目标度量分数对应的超参数集作为目标超参数集；

或，第二判断单元，用于判断当前迭代次数是否达到最大迭代次数；

第二超参数集进行优化单元，用于如果所述目标度量分数未达到预设阈值，则将所述目标度量分数反馈至自动机器学习基线，以便所述自动机器学习基线利用所述目标度量分数对所述初始超参数集进行优化；

第二图像去重单元，用于利用优化后的超参数集对所述待去重图像数据集进行去重处理，直到达到所述最大迭代次数，若达到则将所述目标度量分数对应的超参数集作为目标超参数集。

进一步的，本申请实施例还公开了一种电子设备，图4是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的图像去重方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的图像去重方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的图像去重方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种图像去重方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像去重方法，其特征在于，包括：

2.根据权利要求1所述的图像去重方法，其特征在于，所述初始超参数集属于预定义的有界超参数搜索空间。

3.根据权利要求1所述的图像去重方法，其特征在于，所述去重数量平衡因子为λ₁n或λ₂(n-1)？；其中，λ₁和λ₂为可调节的权重参数，n为所述待去重图像数据集中所有图像的总数，？为阶加运算符。

4.根据权利要求3所述的图像去重方法，其特征在于，所述目标度量分数的获取过程对应的函数表达式为：

5.根据权利要求3所述的图像去重方法，其特征在于，所述目标度量分数的获取过程对应的函数表达式为：

6.根据权利要求1所述的图像去重方法，其特征在于，所述对所述去重图像数据集中的图像进行特征提取，得到对应的特征图像集，包括：

7.根据权利要求1至6任一项所述的图像去重方法，其特征在于，所述利用所述目标度量分数对所述初始超参数集进行优化，以得到目标超参数集，包括：

8.一种图像去重装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的图像去重方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像去重方法。