CN110390352A - 一种基于相似性哈希的图像暗数据价值评估方法 - Google Patents

一种基于相似性哈希的图像暗数据价值评估方法 Download PDF

Info

Publication number
CN110390352A
CN110390352A CN201910557932.9A CN201910557932A CN110390352A CN 110390352 A CN110390352 A CN 110390352A CN 201910557932 A CN201910557932 A CN 201910557932A CN 110390352 A CN110390352 A CN 110390352A
Authority
CN
China
Prior art keywords
image
dark data
hash
data set
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910557932.9A
Other languages
English (en)
Inventor
周可
刘渝
杨玉娟
王桦
李春花
汪洋涛
刘毅斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910557932.9A priority Critical patent/CN110390352A/zh
Priority to US16/526,967 priority patent/US11138479B2/en
Publication of CN110390352A publication Critical patent/CN110390352A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本发明公开了一种基于相似性哈希的图像暗数据价值评估方法,包括以下步骤:获取暗数据集,并将该暗数据集输入训练好的DSTH模型中,以得到该暗数据集中每幅图像的哈希码,根据得到的暗数据集中每幅图像的哈希码构建哈希图谱,该哈希图谱中的节点就是图像的哈希码,节点之间的连接边是构建的邻接矩阵中的元素,获取得到的哈希图谱中每个节点的重要性分数,按照从大到小的顺序对得到的所有节点的重要性分数进行排序,将排序结果中前k位的重要性分数所对应的图像输出给用户。本发明针对企业对拥有的大规模图像暗数据占据着巨大的存储空间且缺乏管理和利用的问题,通过“点亮”其中价值被忽略的图像暗数据,提升其存储性价比。

Description

一种基于相似性哈希的图像暗数据价值评估方法
技术领域
本发明属于计算机图像挖掘技术领域,更具体地,涉及一种基于相似性哈希的图像暗数据价值评估方法。
背景技术
随着云计算和互联网的快速发展,数据的指数级增长已给存储系统与数据中心带来了巨大开销。然而,暗数据作为一种无标签无关联的数据资源,一直占据着大量的存储空间,却难以在当下发挥其自身的价值。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于相似性哈希的图像暗数据价值评估方法和系统,其目的在于,针对企业对拥有的大规模图像暗数据占据着巨大的存储空间且缺乏管理和利用的问题,通过“点亮”其中价值被忽略的图像暗数据,提升其存储性价比。
为实现上述目的,按照本发明的一个方面,提供了一种基于相似性哈希的图像暗数据价值评估方法,包括以下步骤:
(1)获取暗数据集,并将该暗数据集输入训练好的DSTH模型中,以得到该暗数据集中每幅图像的哈希码;
(2)根据步骤(1)得到的暗数据集中每幅图像的哈希码构建哈希图谱,该哈希图谱中的节点就是图像的哈希码,节点之间的连接边是构建的邻接矩阵中的元素。
(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数;
(4)按照从大到小的顺序对步骤(3)得到的所有节点的重要性分数进行排序,将排序结果中前k位的重要性分数所对应的图像输出给用户,其中k为自然数。
按照本发明的另一方面,提供了一种基于相似性哈希的图像暗数据价值评估方法,包括以下步骤:
(1)获取暗数据集,并将该暗数据集输入训练好的DSTH模型中,以得到该暗数据集中每幅图像的哈希码;
(2)根据步骤(1)得到的暗数据集中每幅图像的哈希码构建哈希图谱,该哈希图谱中的节点就是图像的哈希码,节点之间的连接边是构建的邻接矩阵中的元素。
(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数;
(4)从用户接收代表待挖掘任务T的查询元组q,该查询元组中包括多个待查询图像及其对应的权重;
(5)根据查询元组q获取该查询元组的价值评分S(q)和重要程度T(q),并将该价值评分S(q)和重要程度T(q)返回给用户。
优选地,步骤(1)中的DSTH模型是通过以下步骤训练得来的:
(1-1)获取ImageNet数据集,使用该ImageNet数据集上训练的GoogLeNet作为网络模型对该ImageNet数据集进行特征提取;
(1-2)使用聚类算法并利用步骤(1-1)中提取到的特征构造图,利用拉普拉斯特征映射算法对构造的图进行降维处理;
(1-3)对步骤(1-2)降维处理后的结果进行二值化处理,以得到ImaggNet数据集的全部哈希标签;
(1-4)将ImageNet数据集输入卷积神经网络模型中进行迭代训练,以得到训练好的DSTH模型。
优选地,步骤(1-2)中使用的聚类算法是K近邻算法,该K近邻算法中的K值为12。
优选地,邻接矩阵中值等于-1的元素,就是表示在哈希图谱中,对应的两幅图像的哈希码之间没有连接边;邻接矩阵中值不等于-1的元素,就是表示在哈希图谱中,对应的两幅图像的哈希码之间具有连接边。
优选地,步骤(2)中的邻接矩阵是通过以下步骤构建的:
(2-1)设置计数器i=1;
(2-2)判断i是否小于暗数据集中的图像总数,如果是则进入步骤(2-3),否则过程结束;
(2-3)设置计数器j=1;
(2-4)判断j是否小于暗数据集中的图像总数,如果是则进入步骤(2-5),否则设置i=i+1,并返回步骤(2-2);
(2-5)计算暗数据集中第i个图像的哈希码与第j个图像的哈希码之间的汉明距离,并判断该汉明距离是否小于预设阈值,如果是则设置邻接矩阵中元素M[i][j]的值等于该汉明距离,然后转入步骤(2-6),否则设置邻接矩阵中元素M[i][j]的值等于-1,然后转入步骤(2-6);
(2-6)设置j=j+1,并返回步骤(2-4)。
优选地,步骤(3)包括以下子步骤:
(3-1)根据哈希图谱计算该哈希图谱对应的迭代系数矩阵An
其中n表示暗数据集中的图像总数,且有:
其中dij表示哈希图谱中第i个节点和第j个节点之间的汉明距离,l表示哈希码的码长,Tj表示和第j个节点相连接的所有节点下标的顺序集合;
(3-2)根据步骤(3-1)得到的迭代系数矩阵A并使用以下公式迭代计算哈希图谱中所有节点的重要性分数:
其中c表示迭代的次数,用于迭代的向量Rc是初始为全1的列向量。
优选地,步骤(3-2)中迭代过程的结束条件是:
Rc+1(Nm)-Rc(Nm)≤ε
其中m∈[1,n],ε表示迭代阈值,其取值等于10-7
优选地,价值评分S(q)是采用以下公式计算:
其中imgi与wi分别表示查询元组q中的第i幅待查询图像及其对应的权重,mi表示第i幅待查询图像imgi在暗数据集中所匹配到的图像个数,r表示匹配范围,其是由用户设定,Sj(imgi)表示第i幅待查询图像imgi在暗数据集中所匹配到的第j个图像的重要性分数,且有j∈[1,mi]。
优选地,重要程度T(q)是采用以下公式计算:
T(q)=1-R(q)/n
其中R(q)=v,Sv表示步骤(3)得到的所有节点的重要性分数中排在第v名的重要性分数,v的取值必须满足Sv-1≥S(q)≥Sv
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明通过利用步骤(1)中的相似性哈希算法、以及步骤(3)的图结构排名算法对暗数据的内容语义和价值进行分析与评估,从而为暗数据的点亮提供了一种全新的解决方案,并让相似性哈希算法及哈希图谱具有了新的意义与利用价值。
(2)本发明在图像哈希码获取过程中采用的是DSTH算法,该算法能够通过自学习的方法获取哈希标签,然后通过学习哈希标签来训练自定义的简单网络。由于其自学习产生标签时不仅经过深度模型的特征提取,还同时经过特征之间的相似性连接及映射,使得哈希标签能同时具有语义感知相似性和数据感知相似性,从而能使学习到的哈希函数具有更好的泛化表达能力;
(3)本发明使用卷积神经网络模型进行哈希函数的学习,使得该算法在对图像进行哈希映射时更为高效;
(4)本发明构建哈希图谱的过程是基于哈希图谱中节点之间的汉明距离,汉明距离的计算方法是位运算,因此与其他构图方法相比,本发明在构建图谱的速度上具有很大优势;
(5)本发明通过步骤(3)的图结构排名算法进行节点重要性计算,能够将节点连接的边数、边上权重及相邻节点的重要性综合作为影响因子,从而前置图谱中语义更为重要、影响力更强的节点的排名,后置语义不集中、影响力较弱的节点的排名,并且具有较高的迭代速度。
(6)由于本发明使用了步骤(4)和(5),能够响应用户的实时查询与评估请求,根据用户输入的查询元组图像进行数据集匹配与加权计算,返回价值评分与重要程度,并给出相应的建议,用户可以根据评估结果和建议来考虑是否值得在此暗数据上进行针对此查询元组的数据挖掘;
(7)本发明的评估方法与传统的分类模型相比,能有效减少粗糙分类所推荐出的图像数量,从而匹配到更精准的图像,降低后续数据挖掘的时间成本。
附图说明
图1是本发明基于相似性哈希的图像暗数据价值评估方法的流程图。
图2是本发明构建的SHR算法在不同节点数量下的计算耗时图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
暗数据的处理方案主要分为两种,一种是建立评估机制删除数据,一种是构建关联挖掘数据的潜在价值,前者从节省存储空间和成本的角度出发,判断数据是否冗余;后者从提升数据价值的角度出发,通过关联分析将更匹配用户需求的数据更大概率地推荐给用户,使用户感知数据存在,从而重新审视数据价值。以社交网络平台存储的大量图像备份数据为例,它们常常作为独立资源与业务分离存储,在存储后因为几乎不会被再次使用而很快沦为暗数据,却仍然占用着大量的服务器资源。因此,对这些图像暗数据进行评估以帮助用户了解它们的价值,从而提升存储性价比是一项迫在眉睫的任务。但目前并没有从大规模图像暗数据的语义提取和关联分析的角度进行的处理方案。
图像的语义关联分析涉及到语义表达和关联分析两部分。相似性哈希作为一种能够实现相似数据的快速查找或去重的方法,常作为图像的语义表达,用于大规模的图像查找与匹配。浅层哈希算法往往只能根据数据特征完成分类或聚类任务而不能根据任务选择数据特征,精确性会受到限制,而深度哈希的方法虽然能更好的进行特征提取,但其对分类标签的强依赖使得其忽略数据之间的自身联系,不具备泛化能力,并且难以适应于无标签的大数据场景。在数据的关联分析领域,图谱化的组织使得相关性查询更加方便快捷,利用图的随机游走算法,还能够挖掘得到数据之间的关联度信息。
如图1所示,本发明提供了一种基于相似性哈希的图像暗数据价值评估方法,包括以下步骤:
(1)获取暗数据集,并将该暗数据集输入训练好的深度自学习哈希(Deep Self-Taught Hashing,简称DSTH)模型中,以得到该暗数据集中每幅图像的哈希码;
具体而言,使用的暗数据集是ImageNet数据集。
本步骤中的DSTH模型是通过以下步骤进行训练得来的:
(1-1)获取ImageNet数据集,使用该ImageNet数据集上训练的GoogLeNet作为网络模型对该ImageNet数据集进行特征提取;
(1-2)使用聚类算法并利用步骤(1-1)中提取到的特征构造图,利用拉普拉斯特征映射(Laplacian Eigenmaps,简称LE)算法对构造的图进行降维处理(即将图中的数据特征映射到预定义的l维空间中);
具体而言,本步骤中使用的聚类算法是K近邻算法(K-nearest neighbor,简称KNN),该K近邻算法中的K值优选设置为12。
由于在LE构图过程中加入了聚类算法,能使得DSTH在保留原有语义分类信息的前提下,还能具有较强的泛化能力。
(1-3)对步骤(1-2)降维处理后的结果进行二值化处理,以得到ImaggNet数据集的全部哈希标签;
(1-4)将ImageNet数据集输入卷积神经网络模型中进行迭代训练,以得到训练好的DSTH模型;
在本步骤中,迭代过程的迭代次数是60000次。
卷积神经网络模型的网络结构如下表1所示:
表1
本卷积神经网络模型同时搭配分片(Slice)层和激活(BatchNorm)层作为分片网络与激活函数,其中,分片层的分片数为16。在使用梯度下降法进行目标函数的优化时,设置学习率lr=0.001,冲量ξ=0.9,权值衰减ψ=0.004。
(2)根据步骤(1)得到的暗数据集中每幅图像的哈希码构建哈希图谱,该哈希图谱中的节点就是图像的哈希码,节点之间的连接边是构建的邻接矩阵中的元素。
具体而言,在构建好邻接矩阵后,该矩阵中为-1的元素,就是表示在哈希图谱中,对应的两幅图像的哈希码之间没有连接边;该矩阵中不为-1的元素,就是表示在哈希图谱中,对应的两幅图像的哈希码之间具有连接边。
本步骤中的邻接矩阵是通过以下步骤构建的:
(2-1)设置计数器i=1;
(2-2)判断i是否小于暗数据集中的图像总数,如果是则进入步骤(2-3),否则过程结束;
(2-3)设置计数器j=1;
(2-4)判断j是否小于暗数据集中的图像总数,如果是则进入步骤(2-5),否则设置i=i+1,并返回步骤(2-2);
(2-5)计算暗数据集中第i个图像的哈希码与第j个图像的哈希码之间的汉明距离,并判断该汉明距离是否小于预设阈值,如果是则设置邻接矩阵中元素M[i][j]的值等于该汉明距离,然后转入步骤(2-6),否则设置邻接矩阵中元素M[i][j]的值等于-1,然后转入步骤(2-6);
在本步骤中,预设阈值等于哈希码码长的一半。
(2-6)设置j=j+1,并返回步骤(2-4)。
(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数;
本步骤包括以下子步骤:
(3-1)根据哈希图谱计算该哈希图谱对应的迭代系数矩阵An
其中n表示暗数据集中的图像总数,且有:
其中dij表示哈希图谱中第i个节点和第j个节点之间的汉明距离(如果二者之间存在连接边的情况下,如果不存在连接边,则该值为0),l表示哈希码的码长,Tj表示和第j个节点相连接的所有节点下标的顺序集合。
(3-2)根据步骤(3-1)得到的迭代系数矩阵A并使用以下公式迭代计算哈希图谱中所有节点的重要性分数:
其中c表示迭代的次数,用于迭代的向量Rc是初始为全1的列向量。
上述迭代过程的结束条件是:
Rc+1(Nm)-Rc(Nm)≤ε
其中m∈[1,n],ε表示迭代阈值,其取值等于10-7
(4)按照从大到小的顺序对步骤(3)得到的所有节点的重要性分数进行排序,将排序结果中前k位的重要性分数所对应的图像输出给用户,过程结束。
具体而言,k为自然数,其取值由用户自行设置。
作为本发明的另一种实现方式,上述步骤(4)也可以被替换为:
(4’)从用户接收代表待挖掘任务T的查询元组q,该查询元组中包括多个待查询图像及其对应的权重;
(5’)根据查询元组q获取该查询元组的价值评分S(q)和重要程度T(q),并将该价值评分S(q)和重要程度T(q)返回给用户。
具体而言,价值评分S(q)表示暗数据集对于待挖掘任务T的潜在价值评分,重要程度T(q)表示查询元组q代表的语义在暗数据集中的重要程度。
其中价值评分S(q)是采用以下公式计算:
其中imgi与wi分别表示查询元组q中的第i幅待查询图像及其对应的权重,mi表示第i幅待查询图像imgi在暗数据集中所匹配到的图像个数,r表示匹配范围,其是由用户给定,Sj(imgi)表示第i幅待查询图像imgi在暗数据集中所匹配到的第j个图像的重要性分数,且有j∈[1,mi]。
重要程度T(q)是采用以下公式计算:
T(q)=1-R(q)/n
其中R(q)=v,Sv表示步骤(3)得到的所有节点的重要性分数中排在第v名的重要性分数,v的取值必须满足Sv-1≥S(q)≥Sv
性能测试
本部分将对步骤(4’)和(5’)涉及的语义哈希排名(Semantic Hash Ranking,简称SHR)算法进行在时间效率上的性能测试,通过逐步增大图谱的节点数量,进行算法的迭代与计算,记录算法的迭代次数与计算耗时。本节实验以之前对CIFAR-10数据集生成的哈希码作为数据来源,并规定图谱构边阈值Ω为哈希码长度(48位)的一半(24位),算法迭代的终止条件ε=1.0E-7(参考公式3-20),测试结果如下表2和图2所示。
表2
可以看到,随着节点数量的增加,算法的迭代次数与计算耗时也都随之增加,其中主要耗时的并非算法的迭代过程,而是计算迭代矩阵A的过程。并且,随着节点数量增多,算法的迭代次数并未增加太多,说明即使面对大规模的数据集,本发明提出的SHR算法收敛起来还是相对比较迅速的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于相似性哈希的图像暗数据价值评估方法,其特征在于,包括以下步骤:
(1)获取暗数据集,并将该暗数据集输入训练好的DSTH模型中,以得到该暗数据集中每幅图像的哈希码;
(2)根据步骤(1)得到的暗数据集中每幅图像的哈希码构建哈希图谱,该哈希图谱中的节点就是图像的哈希码,节点之间的连接边是构建的邻接矩阵中的元素。
(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数;
(4)按照从大到小的顺序对步骤(3)得到的所有节点的重要性分数进行排序,将排序结果中前k位的重要性分数所对应的图像输出给用户,其中k为自然数。
2.一种基于相似性哈希的图像暗数据价值评估方法,其特征在于,包括以下步骤:
(1)获取暗数据集,并将该暗数据集输入训练好的DSTH模型中,以得到该暗数据集中每幅图像的哈希码;
(2)根据步骤(1)得到的暗数据集中每幅图像的哈希码构建哈希图谱,该哈希图谱中的节点就是图像的哈希码,节点之间的连接边是构建的邻接矩阵中的元素。
(3)获取步骤(2)得到的哈希图谱中每个节点的重要性分数;
(4)从用户接收代表待挖掘任务T的查询元组q,该查询元组中包括多个待查询图像及其对应的权重;
(5)根据查询元组q获取该查询元组的价值评分S(q)和重要程度T(q),并将该价值评分S(q)和重要程度T(q)返回给用户。
3.根据权利要求1或2所述的图像暗数据价值评估方法,其特征在于,步骤(1)中的DSTH模型是通过以下步骤训练得来的:
(1-1)获取ImageNet数据集,使用该ImageNet数据集上训练的GoogLeNet作为网络模型对该ImageNet数据集进行特征提取;
(1-2)使用聚类算法并利用步骤(1-1)中提取到的特征构造图,利用拉普拉斯特征映射算法对构造的图进行降维处理;
(1-3)对步骤(1-2)降维处理后的结果进行二值化处理,以得到ImaggNet数据集的全部哈希标签;
(1-4)将ImageNet数据集输入卷积神经网络模型中进行迭代训练,以得到训练好的DSTH模型。
4.根据权利要求1或2所述的图像暗数据价值评估方法,其特征在于,步骤(1-2)中使用的聚类算法是K近邻算法,该K近邻算法中的K值为12。
5.根据权利要求1或2所述的图像暗数据价值评估方法,其特征在于,邻接矩阵中值等于-1的元素,就是表示在哈希图谱中,对应的两幅图像的哈希码之间没有连接边;邻接矩阵中值不等于-1的元素,就是表示在哈希图谱中,对应的两幅图像的哈希码之间具有连接边。
6.根据权利要求2所述的图像暗数据价值评估方法,其特征在于,步骤(2)中的邻接矩阵是通过以下步骤构建的:
(2-1)设置计数器i=1;
(2-2)判断i是否小于暗数据集中的图像总数,如果是则进入步骤(2-3),否则过程结束;
(2-3)设置计数器j=1;
(2-4)判断j是否小于暗数据集中的图像总数,如果是则进入步骤(2-5),否则设置i=i+1,并返回步骤(2-2);
(2-5)计算暗数据集中第i个图像的哈希码与第j个图像的哈希码之间的汉明距离,并判断该汉明距离是否小于预设阈值,如果是则设置邻接矩阵中元素M[i][j]的值等于该汉明距离,然后转入步骤(2-6),否则设置邻接矩阵中元素M[i][j]的值等于-1,然后转入步骤(2-6);
(2-6)设置j=j+1,并返回步骤(2-4)。
7.根据权利要求6所述的图像暗数据价值评估方法,其特征在于,步骤(3)包括以下子步骤:
(3-1)根据哈希图谱计算该哈希图谱对应的迭代系数矩阵An
其中n表示暗数据集中的图像总数,且有:
其中dij表示哈希图谱中第i个节点和第j个节点之间的汉明距离,l表示哈希码的码长,Tj表示和第j个节点相连接的所有节点下标的顺序集合;
(3-2)根据步骤(3-1)得到的迭代系数矩阵A并使用以下公式迭代计算哈希图谱中所有节点的重要性分数:
其中c表示迭代的次数,用于迭代的向量Rc是初始为全1的列向量。
8.根据权利要求7所述的图像暗数据价值评估方法,其特征在于,步骤(3-2)中迭代过程的结束条件是:
Rc+1(Nm)-Rc(Nm)≤ε
其中m∈[1,n],ε表示迭代阈值,其取值等于10-7
9.根据权利要求8所述的图像暗数据价值评估方法,其特征在于,价值评分S(q)是采用以下公式计算:
其中imgi与wi分别表示查询元组q中的第i幅待查询图像及其对应的权重,mi表示第i幅待查询图像imgi在暗数据集中所匹配到的图像个数,r表示匹配范围,其是由用户设定,Sj(imgi)表示第i幅待查询图像imgi在暗数据集中所匹配到的第j个图像的重要性分数,且有j∈[1,mi]。
10.根据权利要求9所述的图像暗数据价值评估方法,其特征在于,重要程度T(q)是采用以下公式计算:
T(q)=1-R(q)/n
其中R(q)=v,Sv表示步骤(3)得到的所有节点的重要性分数中排在第v名的重要性分数,v的取值必须满足Sv-1≥S(q)≥Sv
CN201910557932.9A 2019-06-26 2019-06-26 一种基于相似性哈希的图像暗数据价值评估方法 Withdrawn CN110390352A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910557932.9A CN110390352A (zh) 2019-06-26 2019-06-26 一种基于相似性哈希的图像暗数据价值评估方法
US16/526,967 US11138479B2 (en) 2019-06-26 2019-07-30 Method for valuation of image dark data based on similarity hashing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910557932.9A CN110390352A (zh) 2019-06-26 2019-06-26 一种基于相似性哈希的图像暗数据价值评估方法

Publications (1)

Publication Number Publication Date
CN110390352A true CN110390352A (zh) 2019-10-29

Family

ID=68286011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910557932.9A Withdrawn CN110390352A (zh) 2019-06-26 2019-06-26 一种基于相似性哈希的图像暗数据价值评估方法

Country Status (2)

Country Link
US (1) US11138479B2 (zh)
CN (1) CN110390352A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209389A (zh) * 2019-12-31 2020-05-29 天津外国语大学 一种电影故事生成方法
CN112163641A (zh) * 2020-10-30 2021-01-01 浙江大学 一种基于概率多层次图结构的高维数据可视化方法
CN113707214A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 代谢物标记方法、装置、计算机设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671241B2 (en) * 2019-07-18 2023-06-06 International Business Machines Corporation Privacy-preserving fast approximate K-means clustering with hamming vectors
US11922628B2 (en) * 2020-04-08 2024-03-05 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for the generation of self-taught models genesis absent manual labeling for the processing of medical imaging
US11574022B2 (en) * 2021-03-23 2023-02-07 International Business Machines Corporation Derivation of progressively variant dark data utility
CN114974400B (zh) * 2022-03-29 2023-06-16 江南大学 一种全局生物网络比对方法
CN117034367B (zh) * 2023-10-09 2024-01-26 北京点聚信息技术有限公司 一种电子印章密钥管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160015583A (ko) * 2014-07-31 2016-02-15 한국과학기술연구원 이미지 처리 장치 및 방법
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5527554B2 (ja) * 2009-03-04 2014-06-18 公立大学法人大阪府立大学 画像検索方法、画像検索プログラム及び画像登録方法
US8761512B1 (en) * 2009-12-03 2014-06-24 Google Inc. Query by image
US20120030234A1 (en) * 2010-07-31 2012-02-02 Sitaram Ramachandrula Method and system for generating a search query
US8483427B2 (en) * 2010-09-28 2013-07-09 Futurewei Technologies, Inc. System and method for image authentication
EP2437498A1 (en) * 2010-09-30 2012-04-04 British Telecommunications Public Limited Company Digital video fingerprinting
KR101491446B1 (ko) * 2010-10-14 2015-02-23 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
US8903198B2 (en) * 2011-06-03 2014-12-02 International Business Machines Corporation Image ranking based on attribute correlation
US8909563B1 (en) * 2011-06-17 2014-12-09 Google Inc. Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels
US8909648B2 (en) * 2012-01-18 2014-12-09 Technion Research & Development Foundation Limited Methods and systems of supervised learning of semantic relatedness
US10311096B2 (en) * 2012-03-08 2019-06-04 Google Llc Online image analysis
US8655029B2 (en) * 2012-04-10 2014-02-18 Seiko Epson Corporation Hash-based face recognition system
KR101259957B1 (ko) * 2012-11-16 2013-05-02 (주)엔써즈 이미지 매칭을 이용한 부가 정보 제공 시스템 및 방법
GB2508343A (en) * 2012-11-28 2014-06-04 Ibm Replacing a hash function if a second hash function is more effective
WO2015017796A2 (en) * 2013-08-02 2015-02-05 Digimarc Corporation Learning systems and methods
US9740963B2 (en) * 2014-08-05 2017-08-22 Sri International Multi-dimensional realization of visual content of an image collection
CN105354307B (zh) * 2015-11-06 2021-01-15 腾讯科技(深圳)有限公司 一种图像内容识别方法及装置
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN106126617B (zh) * 2016-06-22 2018-11-23 腾讯科技(深圳)有限公司 一种视频检测方法及服务器
US10460203B2 (en) * 2016-10-31 2019-10-29 Salesforce.Com, Inc. Jaccard similarity estimation of weighted samples: scaling and randomized rounding sample selection with circular smearing
KR102570278B1 (ko) * 2017-07-31 2023-08-24 삼성전자주식회사 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
CN108885596A (zh) * 2017-12-29 2018-11-23 深圳市大疆创新科技有限公司 数据处理方法、设备、dma控制器及计算机可读存储介质
US10896503B2 (en) * 2018-03-23 2021-01-19 International Business Machines Corporation Identification of areas of interest in imaging applications
US10902052B2 (en) * 2018-03-26 2021-01-26 Microsoft Technology Licensing, Llc Search results through image attractiveness
CN108647245B (zh) * 2018-04-13 2023-04-18 腾讯科技(深圳)有限公司 多媒体资源的匹配方法、装置、存储介质及电子装置
WO2019222761A1 (en) * 2018-05-18 2019-11-21 Deep Labs Inc. Systems and methods for generating hash trees and using neural networks to process the same
US10534708B1 (en) * 2018-06-25 2020-01-14 Microsoft Technology Licensing, Llc Shallow cache for content replication
US20200065395A1 (en) * 2018-08-22 2020-02-27 Ebay Inc. Efficient leaf invalidation for query execution
GB201902470D0 (en) * 2019-02-22 2019-04-10 Secure Thingz Ltd Security data processing device
US11003950B2 (en) * 2019-03-29 2021-05-11 Innoplexus Ag System and method to identify entity of data
US20210012200A1 (en) * 2019-04-03 2021-01-14 Mashtraxx Limited Method of training a neural network and related system and method for categorizing and recommending associated content
US11296993B2 (en) * 2019-06-28 2022-04-05 Intel Corporation Information centric network approximate computation caching
US11715032B2 (en) * 2019-09-25 2023-08-01 Robert Bosch Gmbh Training a machine learning model using a batch based active learning approach
CN112581477A (zh) * 2019-09-27 2021-03-30 京东方科技集团股份有限公司 图像处理方法、图像匹配方法、设备以及存储介质
US11307953B2 (en) * 2019-10-03 2022-04-19 Oracle International Corporation Block-based anomaly detection in computing environments
KR102636558B1 (ko) * 2019-11-07 2024-02-15 한국전자통신연구원 전자 장치, 행동 인스턴스 생성 방법 및 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160015583A (ko) * 2014-07-31 2016-02-15 한국과학기술연구원 이미지 처리 장치 및 방법
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIANGLONG LIU等: "Query-Adaptive Hash Code Ranking for Large-Scale Multi-View Visual Search", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
YANTAO WANG 等: "Multi-view fuzzy clustering with minimax optimization for effective clustering of data from multiple sources", 《ELSEVIER》 *
刘渝: "基于机器学习的图像内容分析与存储方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209389A (zh) * 2019-12-31 2020-05-29 天津外国语大学 一种电影故事生成方法
CN111209389B (zh) * 2019-12-31 2023-08-11 天津外国语大学 一种电影故事生成方法
CN112163641A (zh) * 2020-10-30 2021-01-01 浙江大学 一种基于概率多层次图结构的高维数据可视化方法
CN112163641B (zh) * 2020-10-30 2022-06-14 浙江大学 一种基于概率多层次图结构的高维数据可视化方法
CN113707214A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 代谢物标记方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US11138479B2 (en) 2021-10-05
US20200410304A1 (en) 2020-12-31

Similar Documents

Publication Publication Date Title
CN110390352A (zh) 一种基于相似性哈希的图像暗数据价值评估方法
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
US9792304B1 (en) Query by image
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN102364498B (zh) 一种基于多标签的图像识别方法
JP6216467B2 (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
CN111125422A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN104346438A (zh) 基于大数据数据管理服务系统
CN108509543A (zh) 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
CN106874426A (zh) 基于Storm的RDF流式数据关键词实时搜索方法
CN108804576A (zh) 一种基于链接分析的域名层级结构探测方法
CA3167569A1 (en) Systems and methods for determining entity attribute representations
Ma et al. A remote-sensing image-retrieval model based on an ensemble neural networks
CN115686868A (zh) 一种基于联邦哈希学习的面向跨节点多模态检索方法
KR101467707B1 (ko) 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
CN109614521B (zh) 一种高效的隐私保护子图查询处理方法
CN110413807A (zh) 一种基于内容语义元数据的图像查询方法与系统
Cousseau et al. Linking place records using multi-view encoders
Yao et al. Unified entity search in social media community
CN116304213B (zh) 基于图神经网络的rdf图数据库子图匹配查询优化方法
CN108256086A (zh) 数据特征统计分析方法
CN108280176A (zh) 基于MapReduce的数据挖掘优化方法
CN108256083A (zh) 基于深度学习的内容推荐方法
Rao et al. A knowledge ecosystem for the food, energy, and water system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191029