CN110390352A

CN110390352A - 一种基于相似性哈希的图像暗数据价值评估方法

Info

Publication number: CN110390352A
Application number: CN201910557932.9A
Authority: CN
Inventors: 周可; 刘渝; 杨玉娟; 王桦; 李春花; 汪洋涛; 刘毅斐
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-29
Also published as: US11138479B2; US20200410304A1

Abstract

本发明公开了一种基于相似性哈希的图像暗数据价值评估方法，包括以下步骤：获取暗数据集，并将该暗数据集输入训练好的DSTH模型中，以得到该暗数据集中每幅图像的哈希码，根据得到的暗数据集中每幅图像的哈希码构建哈希图谱，该哈希图谱中的节点就是图像的哈希码，节点之间的连接边是构建的邻接矩阵中的元素，获取得到的哈希图谱中每个节点的重要性分数，按照从大到小的顺序对得到的所有节点的重要性分数进行排序，将排序结果中前k位的重要性分数所对应的图像输出给用户。本发明针对企业对拥有的大规模图像暗数据占据着巨大的存储空间且缺乏管理和利用的问题，通过“点亮”其中价值被忽略的图像暗数据，提升其存储性价比。

Description

一种基于相似性哈希的图像暗数据价值评估方法

技术领域

本发明属于计算机图像挖掘技术领域，更具体地，涉及一种基于相似性哈希的图像暗数据价值评估方法。

背景技术

随着云计算和互联网的快速发展，数据的指数级增长已给存储系统与数据中心带来了巨大开销。然而，暗数据作为一种无标签无关联的数据资源，一直占据着大量的存储空间，却难以在当下发挥其自身的价值。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于相似性哈希的图像暗数据价值评估方法和系统，其目的在于，针对企业对拥有的大规模图像暗数据占据着巨大的存储空间且缺乏管理和利用的问题，通过“点亮”其中价值被忽略的图像暗数据，提升其存储性价比。

为实现上述目的，按照本发明的一个方面，提供了一种基于相似性哈希的图像暗数据价值评估方法，包括以下步骤：

(1)获取暗数据集，并将该暗数据集输入训练好的DSTH模型中，以得到该暗数据集中每幅图像的哈希码；

(2)根据步骤(1)得到的暗数据集中每幅图像的哈希码构建哈希图谱，该哈希图谱中的节点就是图像的哈希码，节点之间的连接边是构建的邻接矩阵中的元素。

(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数；

(4)按照从大到小的顺序对步骤(3)得到的所有节点的重要性分数进行排序，将排序结果中前k位的重要性分数所对应的图像输出给用户，其中k为自然数。

按照本发明的另一方面，提供了一种基于相似性哈希的图像暗数据价值评估方法，包括以下步骤：

(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数；

(4)从用户接收代表待挖掘任务T的查询元组q，该查询元组中包括多个待查询图像及其对应的权重；

(5)根据查询元组q获取该查询元组的价值评分S(q)和重要程度T(q)，并将该价值评分S(q)和重要程度T(q)返回给用户。

优选地，步骤(1)中的DSTH模型是通过以下步骤训练得来的：

(1-1)获取ImageNet数据集，使用该ImageNet数据集上训练的GoogLeNet作为网络模型对该ImageNet数据集进行特征提取；

(1-2)使用聚类算法并利用步骤(1-1)中提取到的特征构造图，利用拉普拉斯特征映射算法对构造的图进行降维处理；

(1-3)对步骤(1-2)降维处理后的结果进行二值化处理，以得到ImaggNet数据集的全部哈希标签；

(1-4)将ImageNet数据集输入卷积神经网络模型中进行迭代训练，以得到训练好的DSTH模型。

优选地，步骤(1-2)中使用的聚类算法是K近邻算法，该K近邻算法中的K值为12。

优选地，邻接矩阵中值等于-1的元素，就是表示在哈希图谱中，对应的两幅图像的哈希码之间没有连接边；邻接矩阵中值不等于-1的元素，就是表示在哈希图谱中，对应的两幅图像的哈希码之间具有连接边。

优选地，步骤(2)中的邻接矩阵是通过以下步骤构建的：

(2-1)设置计数器i＝1；

(2-2)判断i是否小于暗数据集中的图像总数，如果是则进入步骤(2-3)，否则过程结束；

(2-3)设置计数器j＝1；

(2-4)判断j是否小于暗数据集中的图像总数，如果是则进入步骤(2-5)，否则设置i＝i+1，并返回步骤(2-2)；

(2-5)计算暗数据集中第i个图像的哈希码与第j个图像的哈希码之间的汉明距离，并判断该汉明距离是否小于预设阈值，如果是则设置邻接矩阵中元素M[i][j]的值等于该汉明距离，然后转入步骤(2-6)，否则设置邻接矩阵中元素M[i][j]的值等于-1，然后转入步骤(2-6)；

(2-6)设置j＝j+1，并返回步骤(2-4)。

优选地，步骤(3)包括以下子步骤：

(3-1)根据哈希图谱计算该哈希图谱对应的迭代系数矩阵A_n：

其中n表示暗数据集中的图像总数，且有：

其中d_ij表示哈希图谱中第i个节点和第j个节点之间的汉明距离，l表示哈希码的码长，T_j表示和第j个节点相连接的所有节点下标的顺序集合；

(3-2)根据步骤(3-1)得到的迭代系数矩阵A并使用以下公式迭代计算哈希图谱中所有节点的重要性分数：

其中c表示迭代的次数，用于迭代的向量R^c是初始为全1的列向量。

优选地，步骤(3-2)中迭代过程的结束条件是：

R^c+1(N_m)-R^c(N_m)≤ε

其中m∈[1，n]，ε表示迭代阈值，其取值等于10^-7。

优选地，价值评分S(q)是采用以下公式计算：

其中img_i与w_i分别表示查询元组q中的第i幅待查询图像及其对应的权重，m_i表示第i幅待查询图像img_i在暗数据集中所匹配到的图像个数，r表示匹配范围，其是由用户设定，S_j(img_i)表示第i幅待查询图像img_i在暗数据集中所匹配到的第j个图像的重要性分数，且有j∈[1,m_i]。

优选地，重要程度T(q)是采用以下公式计算：

T(q)＝1-R(q)/n

其中R(q)＝v，S_v表示步骤(3)得到的所有节点的重要性分数中排在第v名的重要性分数，v的取值必须满足S_v-1≥S(q)≥S_v。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明通过利用步骤(1)中的相似性哈希算法、以及步骤(3)的图结构排名算法对暗数据的内容语义和价值进行分析与评估，从而为暗数据的点亮提供了一种全新的解决方案，并让相似性哈希算法及哈希图谱具有了新的意义与利用价值。

(2)本发明在图像哈希码获取过程中采用的是DSTH算法，该算法能够通过自学习的方法获取哈希标签，然后通过学习哈希标签来训练自定义的简单网络。由于其自学习产生标签时不仅经过深度模型的特征提取，还同时经过特征之间的相似性连接及映射，使得哈希标签能同时具有语义感知相似性和数据感知相似性，从而能使学习到的哈希函数具有更好的泛化表达能力；

(3)本发明使用卷积神经网络模型进行哈希函数的学习，使得该算法在对图像进行哈希映射时更为高效；

(4)本发明构建哈希图谱的过程是基于哈希图谱中节点之间的汉明距离，汉明距离的计算方法是位运算，因此与其他构图方法相比，本发明在构建图谱的速度上具有很大优势；

(5)本发明通过步骤(3)的图结构排名算法进行节点重要性计算,能够将节点连接的边数、边上权重及相邻节点的重要性综合作为影响因子，从而前置图谱中语义更为重要、影响力更强的节点的排名，后置语义不集中、影响力较弱的节点的排名，并且具有较高的迭代速度。

(6)由于本发明使用了步骤(4)和(5)，能够响应用户的实时查询与评估请求，根据用户输入的查询元组图像进行数据集匹配与加权计算，返回价值评分与重要程度，并给出相应的建议，用户可以根据评估结果和建议来考虑是否值得在此暗数据上进行针对此查询元组的数据挖掘；

(7)本发明的评估方法与传统的分类模型相比，能有效减少粗糙分类所推荐出的图像数量，从而匹配到更精准的图像，降低后续数据挖掘的时间成本。

附图说明

图1是本发明基于相似性哈希的图像暗数据价值评估方法的流程图。

图2是本发明构建的SHR算法在不同节点数量下的计算耗时图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

暗数据的处理方案主要分为两种，一种是建立评估机制删除数据，一种是构建关联挖掘数据的潜在价值，前者从节省存储空间和成本的角度出发，判断数据是否冗余；后者从提升数据价值的角度出发，通过关联分析将更匹配用户需求的数据更大概率地推荐给用户，使用户感知数据存在，从而重新审视数据价值。以社交网络平台存储的大量图像备份数据为例，它们常常作为独立资源与业务分离存储，在存储后因为几乎不会被再次使用而很快沦为暗数据，却仍然占用着大量的服务器资源。因此，对这些图像暗数据进行评估以帮助用户了解它们的价值，从而提升存储性价比是一项迫在眉睫的任务。但目前并没有从大规模图像暗数据的语义提取和关联分析的角度进行的处理方案。

图像的语义关联分析涉及到语义表达和关联分析两部分。相似性哈希作为一种能够实现相似数据的快速查找或去重的方法，常作为图像的语义表达，用于大规模的图像查找与匹配。浅层哈希算法往往只能根据数据特征完成分类或聚类任务而不能根据任务选择数据特征，精确性会受到限制，而深度哈希的方法虽然能更好的进行特征提取，但其对分类标签的强依赖使得其忽略数据之间的自身联系，不具备泛化能力，并且难以适应于无标签的大数据场景。在数据的关联分析领域，图谱化的组织使得相关性查询更加方便快捷，利用图的随机游走算法，还能够挖掘得到数据之间的关联度信息。

如图1所示，本发明提供了一种基于相似性哈希的图像暗数据价值评估方法，包括以下步骤：

(1)获取暗数据集，并将该暗数据集输入训练好的深度自学习哈希(Deep Self-Taught Hashing，简称DSTH)模型中，以得到该暗数据集中每幅图像的哈希码；

具体而言，使用的暗数据集是ImageNet数据集。

本步骤中的DSTH模型是通过以下步骤进行训练得来的：

(1-2)使用聚类算法并利用步骤(1-1)中提取到的特征构造图，利用拉普拉斯特征映射(Laplacian Eigenmaps，简称LE)算法对构造的图进行降维处理(即将图中的数据特征映射到预定义的l维空间中)；

具体而言，本步骤中使用的聚类算法是K近邻算法(K-nearest neighbor，简称KNN)，该K近邻算法中的K值优选设置为12。

由于在LE构图过程中加入了聚类算法，能使得DSTH在保留原有语义分类信息的前提下，还能具有较强的泛化能力。

(1-4)将ImageNet数据集输入卷积神经网络模型中进行迭代训练，以得到训练好的DSTH模型；

在本步骤中，迭代过程的迭代次数是60000次。

卷积神经网络模型的网络结构如下表1所示：

表1

本卷积神经网络模型同时搭配分片(Slice)层和激活(BatchNorm)层作为分片网络与激活函数，其中，分片层的分片数为16。在使用梯度下降法进行目标函数的优化时，设置学习率lr＝0.001，冲量ξ＝0.9，权值衰减ψ＝0.004。

具体而言，在构建好邻接矩阵后，该矩阵中为-1的元素，就是表示在哈希图谱中，对应的两幅图像的哈希码之间没有连接边；该矩阵中不为-1的元素，就是表示在哈希图谱中，对应的两幅图像的哈希码之间具有连接边。

本步骤中的邻接矩阵是通过以下步骤构建的：

(2-1)设置计数器i＝1；

(2-3)设置计数器j＝1；

在本步骤中，预设阈值等于哈希码码长的一半。

(2-6)设置j＝j+1，并返回步骤(2-4)。

(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数；

本步骤包括以下子步骤：

(3-1)根据哈希图谱计算该哈希图谱对应的迭代系数矩阵A_n：

其中n表示暗数据集中的图像总数，且有：

其中d_ij表示哈希图谱中第i个节点和第j个节点之间的汉明距离(如果二者之间存在连接边的情况下，如果不存在连接边，则该值为0)，l表示哈希码的码长，T_j表示和第j个节点相连接的所有节点下标的顺序集合。

上述迭代过程的结束条件是：

R^c+1(N_m)-R^c(N_m)≤ε

其中m∈[1，n]，ε表示迭代阈值，其取值等于10^-7。

(4)按照从大到小的顺序对步骤(3)得到的所有节点的重要性分数进行排序，将排序结果中前k位的重要性分数所对应的图像输出给用户，过程结束。

具体而言，k为自然数，其取值由用户自行设置。

作为本发明的另一种实现方式，上述步骤(4)也可以被替换为：

(4’)从用户接收代表待挖掘任务T的查询元组q，该查询元组中包括多个待查询图像及其对应的权重；

(5’)根据查询元组q获取该查询元组的价值评分S(q)和重要程度T(q)，并将该价值评分S(q)和重要程度T(q)返回给用户。

具体而言，价值评分S(q)表示暗数据集对于待挖掘任务T的潜在价值评分，重要程度T(q)表示查询元组q代表的语义在暗数据集中的重要程度。

其中价值评分S(q)是采用以下公式计算：

其中img_i与w_i分别表示查询元组q中的第i幅待查询图像及其对应的权重，m_i表示第i幅待查询图像img_i在暗数据集中所匹配到的图像个数，r表示匹配范围，其是由用户给定，S_j(img_i)表示第i幅待查询图像img_i在暗数据集中所匹配到的第j个图像的重要性分数，且有j∈[1,m_i]。

重要程度T(q)是采用以下公式计算：

T(q)＝1-R(q)/n

性能测试

本部分将对步骤(4’)和(5’)涉及的语义哈希排名(Semantic Hash Ranking，简称SHR)算法进行在时间效率上的性能测试，通过逐步增大图谱的节点数量，进行算法的迭代与计算，记录算法的迭代次数与计算耗时。本节实验以之前对CIFAR-10数据集生成的哈希码作为数据来源，并规定图谱构边阈值Ω为哈希码长度(48位)的一半(24位)，算法迭代的终止条件ε＝1.0E-7(参考公式3-20)，测试结果如下表2和图2所示。

表2

可以看到，随着节点数量的增加，算法的迭代次数与计算耗时也都随之增加，其中主要耗时的并非算法的迭代过程，而是计算迭代矩阵A的过程。并且，随着节点数量增多，算法的迭代次数并未增加太多，说明即使面对大规模的数据集，本发明提出的SHR算法收敛起来还是相对比较迅速的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于相似性哈希的图像暗数据价值评估方法，其特征在于，包括以下步骤：

(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数；

2.一种基于相似性哈希的图像暗数据价值评估方法，其特征在于，包括以下步骤：

(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数；

3.根据权利要求1或2所述的图像暗数据价值评估方法，其特征在于，步骤(1)中的DSTH模型是通过以下步骤训练得来的：

4.根据权利要求1或2所述的图像暗数据价值评估方法，其特征在于，步骤(1-2)中使用的聚类算法是K近邻算法，该K近邻算法中的K值为12。

5.根据权利要求1或2所述的图像暗数据价值评估方法，其特征在于，邻接矩阵中值等于-1的元素，就是表示在哈希图谱中，对应的两幅图像的哈希码之间没有连接边；邻接矩阵中值不等于-1的元素，就是表示在哈希图谱中，对应的两幅图像的哈希码之间具有连接边。

6.根据权利要求2所述的图像暗数据价值评估方法，其特征在于，步骤(2)中的邻接矩阵是通过以下步骤构建的：

(2-1)设置计数器i＝1；

(2-3)设置计数器j＝1；

(2-6)设置j＝j+1，并返回步骤(2-4)。

7.根据权利要求6所述的图像暗数据价值评估方法，其特征在于，步骤(3)包括以下子步骤：

(3-1)根据哈希图谱计算该哈希图谱对应的迭代系数矩阵A_n：

其中n表示暗数据集中的图像总数，且有：

8.根据权利要求7所述的图像暗数据价值评估方法，其特征在于，步骤(3-2)中迭代过程的结束条件是：

R^c+1(N_m)-R^c(N_m)≤ε

其中m∈[1，n]，ε表示迭代阈值，其取值等于10^-7。

9.根据权利要求8所述的图像暗数据价值评估方法，其特征在于，价值评分S(q)是采用以下公式计算：

10.根据权利要求9所述的图像暗数据价值评估方法，其特征在于，重要程度T(q)是采用以下公式计算：

T(q)＝1-R(q)/n