CN104008174A - 一种海量图像检索的隐私保护索引生成方法 - Google Patents
一种海量图像检索的隐私保护索引生成方法 Download PDFInfo
- Publication number
- CN104008174A CN104008174A CN201410244992.2A CN201410244992A CN104008174A CN 104008174 A CN104008174 A CN 104008174A CN 201410244992 A CN201410244992 A CN 201410244992A CN 104008174 A CN104008174 A CN 104008174A
- Authority
- CN
- China
- Prior art keywords
- image
- index
- sift
- retrieval
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009467 reduction Effects 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种海量图像检索的隐私保护索引生成方法,涉及海量图像检索中的隐私保护问题,将隐私保护融入到图像检索中,本发明方法建立一种具有隐私保护的图像索引,在保证检索性能的同时,保护用户隐私信息的安全。本发明首先,提取并优化尺度不变特征转换SIFT和HSV颜色直方图,采用局部保持投影的流形降维方法对特征进行降维,并将降维后的特征数据用于构建词汇树。利用词汇树建立倒排索引结构,本发明不仅减少了特征的个数,提高了明文域图像检索的速度,更优化了图像检索的性能。本发明在明文域检索框架的基础上加入隐私保护,利用二元随机编码和随机投影对倒排索引进行双重加密,实现了具有隐私保护的图像索引。
Description
技术领域
本发明涉及海量图像检索中的隐私保护问题,将隐私保护融入到图像检索中,旨在建立一种具有隐私保护的图像索引,在保证检索性能的同时,保护用户隐私信息的安全。
背景技术
随着现代信息技术的飞速发展,特别是近年来云计算、社交媒体等大规模新型应用的不断推广,图像/视频等数据量迅猛增长。作为对图像/视频资源进行合理利用和有效管理的重要手段,基于内容的海量图像检索技术(CBIR,Content-based Image Retrieval)也因此成为目前图像检索领域的研究热点。
但是,现有的图像搜索技术所关注的是如何设计有效的机制来提高检索的性能,而往往忽略了用户隐私信息的保护等安全性问题。实际上,在各种图像/视频数据中,尤其是社交网络产生的大数据中,包含了各种各样的用户隐私信息,这些隐私信息的泄漏将会给用户带来无法估量的负面影响。存储在服务器端的用户隐私数据通常会受到不可信赖的管理操作或恶意入侵者的攻击,存在着被窃取、泄漏和篡改的巨大风险。
为了阻止在图像检索、图像传输和共享过程中频发的侵权行为,需要一种行之有效的隐私保护手段来保证图像信息的安全性,使得用户能够进行安全的检索,保证图像隐私信息的安全性。数据加密是一种非常常用、且有效的安全保护措施。很显然,加密虽然可以保证图像内容的安全,但是现有的图像检索技术无法对加密后的图像直接进行检索。因此,如何设计有效的隐私保护检索机制,在保证用户隐私信息不泄露的情况下,准确、快速地检索出用户感兴趣的图像就成为目前图像搜索技术需要重点解决的一个问题。
在基于隐私保护的海量图像检索技术中,需要同时考虑两个方面的因素:(1)保护图像内容的安全性和隐私性;(2)建立面向海量图像的、可供查询的安全索引,既保证检索的安全性,又满足图像检索速度的需求。图像内容的安全保护可以通过成熟的加密算法来实现,例如高级加密标准(AES,Advanced Encryption Standard)和RSA(Rivest,Shamirand Adleman)公钥加密算法均可以对图像进行加密,保护图像内容的安全性和隐私性。
本发明将加密技术与图像检索结合起来,提出了一种海量图像检索的隐私保护索引生成方法,该方法可以生成具有隐私保护的图像索引,在保证检索性能的同时,保证检索的安全性和隐私性,满足海量图像检索在安全性和速度上的需求。
发明内容
本发明的目的在于,提出了一种海量图像检索的隐私保护索引生成方法。首先,提取并优化SIFT(Scale Invariant Feature Transform)特征和HSV(Hue,Saturation and Value)直方图,采用局部保持投影(LPP,Locality Preserving Projections)的流形降维方法对特征进行降维后,并将降维后的特征数据用于构建词汇树。利用词汇树建立倒排索引结构,这种方法不仅减少了特征的个数,提高了明文域图像检索的速度,更优化了图像检索的性能。接下来,本发明在明文域检索框架的基础上加入隐私保护,利用二元随机编码和随机投影对倒排索引进行双重加密,实现了具有隐私保护的图像索引。本发明的具体实现框架如图1所示。
本发明采用以下技术手段实现:
一种海量图像检索的隐私保护索引生成方法,包括:尺度不变特征转换SIFT和HSV颜色直方图的提取和优化、局部保持投影LPP降维、词汇索引构建以及隐私保护索引生成,其特征在于包括如下步骤:
步骤1:SIFT特征和HSV直方图特征的提取和优化,构建图像特征库;
步骤1.1:提取SIFT特征;
步骤1.2:对SIFT进行合理优化:对SIFT描述符集中的区域进行优化整合,以较少数量的描述符对图像内容进行准确的表征,设定图像中第i个SIFT描述符的横纵坐标分别为Siftdes[i].x,Siftdes[i].y,优化阈值为Topt,优化范围为Ropt;对于任意两个不同的SIFT描述符Siftdes[i]与Siftdes[j],当两点的横坐标和纵坐标的距离均小于优化阈值Topt时,则表示这些点存在于需要优化的范围Ropt内,需要进行优化操作,即:将存在于Ropt内的所有特征点合并成一个特征点,以它们的均值代表该范围内的所有特征点;如果该两点的横坐标距离或者纵坐标距离大于优化阈值Topt时,则表示这些点无需进行优化,优化方法如下:
优化后的SIFT特征点个数明显减少,提高检索速度;
步骤1.3:提取HSV颜色直方图特征;
步骤1.4:利用SIFT特征和HSV直方图特征共同形成图像特征库;
步骤2:利用LPP对图像特征进行降维;
步骤2.1:构建邻接图,计算图上每个点x的k最邻域点,计算每条边的权重Wij,不相连的边权重为0,否则为1,计算特征向量方法如下:
XLpXTa=λXDdiaXTa (2)
其中,图像特征X∈RD×N,N为样本个数,每个样本有D维特征,Ddia是对角矩阵,Dii=∑jWji;Lp=Ddia-W,Lp是半正定的拉普拉斯矩阵,W是由权重Wij构成的稀疏对称矩阵;
步骤2.2:依据约束条件aTXDdiaXTa=1,计算最小化函数,方法如下:
其中,前d个最小的非零特征值对应的特征向量即为投影矩阵;
步骤2.3:利用投影矩阵A={ai}∈RD×d(d<D,ai≠0),找到数据的低维嵌入表示,方法如下:
Y=ATX (4)
其中,Y即为降维后的特征向量;
步骤3:词汇树索引的构建;
步骤3.1:随机的选取K个初始聚类中心Ci;
步骤3.2:使用分层K-means,计算聚类中心Ci与每个特征点的距离,并把与聚类中心距离最小的点归到该类中;
步骤3.3:重新计算每个聚类中心Ci;
步骤3.4:计算判断聚类中心Ci与所属该类的特征点之间的距离是否满足收敛阈值,如果不满足,则重复步骤2、步骤3,直到满足收敛阈值且聚类中心不再发生变化;
步骤3.5:继续对聚类得到的K个簇集利用K-means算法聚类,再分成K个簇集,重复步骤3.1-步骤3.4,直至达到词汇树的高度L时,停止聚类,形成特征词汇树,其中K=10,L=3;
步骤3.6:统计每个特征点的词频-倒排文件频率TF-IDF加权,其中TF表示的是词频,词汇树中的节点i,对每一个视觉单词Ci,查询图像和数据库中图像通过节点i的特征数分别为qi和di,IDF计算方法如下:
其中,N是图像库的图像总数,Ni是包含节点i的图像的数量,查询图像的索引向量为Qi=qiwi,数据库中图像的索引向量表示为Di=diwi;
步骤4:隐私保护索引的生成;
步骤4.1:将数据库的索引F={fi}放大1,000,000倍,四舍五入成为整数,找到最大的整数,将该倒排索引利用二进制数表示,方法如下:
其中fimax为最大的整数索引,Digmax为二进制的最大位数;
步骤4.2:将所有整数形式的索引表示为二进制数,将位数不足Digmax的二进制数前补零,方法如下:
其中Digi表示的是b(fi)的二进制位数;
步骤4.3:将所有整数依次提取b(fi)的n个bit位,将b(fi)重新排列为新的向量,方法如下:
b(fi)=[b(fi1),b(fi2),...,b(fim)] (9)其中m=Digmax/n,经过二元随机编码的倒排索引可以表示为其中N是图像的数量,dnew是经过二元随机编码后,新索引的维度;
步骤4.4:使用高斯随机投影矩阵进行随机投影,其中dnew是原始维度,d'是降维后的维度,加密函数可以定义为:ε(b(F))=b(F)·G';
步骤4.5:图像的索引完成随机投影之后,利用L1范数对加密索引的距离进行度量,方法如下:
步骤4.6:对相似性结果进行排序,将最终将前k幅图像返回显示给用户,方法如下:
dε(Similar)=αdε(SimSIFT)+βdε(SimHSV) (11)
其中α,β分别为SIFT特征词汇树和HSV直方图词汇树的匹配权重,α=1.5,β=0.3。
本发明与现有技术相比,具有以下明显的优势和有益的效果:
本发明通过优化SIFT特征,采用LPP的流形降维方法对SIFT特征和HSV直方图进行降维,利用降维后的特征数据构建词汇树。接下来,基于词汇树建立了倒排索引结构,这种方法不仅大大减少了SIFT特征点的个数,提高了图像检索的速度,也优化了图像检索的性能。接下来,本发明利用二元随机编码和随机投影对倒排索引进行双重隐私保护,实现了一种海量图像检索的隐私保护索引生成方法。其优势具体表现在:
1、传统的SIFT描述符在具有相同特征的某些区域内过于集中,本发明对该区域的SIFT描述符进行优化整合,利用较少数量的描述符对图像内容进行准确的表征;
2、利用LPP流形方法对海量高维特征数据进行降维,解决了“维度灾难”这一问题,有效地减少了构建词汇树所用的离线训练时间;
3、在图像检索过程中采用一个树状的结构,不用遍历所有的视觉单词去寻找匹配的图像,满足了海量图像检索对速度上的需求;
4、利用二元随机编码和随机投影构建隐私保护索引,并设置SIFT特征词汇树和HSV直方图词汇树的匹配权重,能够在不解密的前提下,为用户提供安全可靠的并且精准的搜索性能。
附图说明
图1海量图像的隐私保护检索框图;
图2词汇树构建过程示意图;
图3隐私保护索引生成流程图;
图4隐私保护的海量图像检索结果图;
图5有隐私保护与无隐私保护的海量图像检索的查全率-查准率曲线;
图6利用错误密钥攻击的海量图像检索查全率-查准率曲线;
图7利用错误的比特位攻击的海量图像检索查全率-查准率曲线;
图8利用LPP降维攻击的海量图像检索查全率-查准率曲线。
具体实施方式
以下结合说明书附图,结合上述描述,介绍本发明的具体实施流程:
(1)对海量图像库中的图像分别提取SIFT特征和HSV颜色直方图特征,得到2种特征向量;
(2)对得到SIFT特征和HSV颜色直方图特征利用公式(2)~(4)进行LPP降维,得到降维后的特征向量;
(3)对降维后的特征进行分层聚类,形成词汇树,并利用公式(5)统计图像倒排索引;
(4)通过统计方法构建图像库中每幅图像的索引,利用公式(6)~(9)对索引进行加密,将图像对应的隐私保护索引存储在图像特征库中。
(5)查询时,提取查询图像的SIFT特征和HSV颜色直方图特征,并建立隐私保护索引。将查询图像的安全索引与图像特征库的索引逐一进行对比,利用公式(10)计算索引之间的距离。按照公式(11)从小到大的顺序对距离进行排序,将前k个距离对应的图像作为检索结果返回显示给用户。
利用从Corel标准数据库、百度,以及Flickr中获得的一共22,908张不同大小的彩色图像进行了测试,其中包含了非洲人、海滩、建筑、飞机、赛车、花,蝴蝶等50种不同类别的图像。图像特征库由图像库中图像的SIFT特征和HSV直方图组成,特征提取工作离线进行,特征提取、词汇树索引的构建和LPP降维方法是公知技术。
下面对本发明的具体实施例加以说明。
1、有关评价标准;
图像检索性能常利用查准率(precision)和查全率(recall)作为评判标准。定义检索结果中相似图像的数量为SIR(the number of Similar Images Retrieved),检索结果中不相似的图像数量为NSIR(the number of Non-Similar Images Retrieved),以及没有检索到的相似图像数量为SINR(the number of Similar Images Not Retrieved)。查准率和查全率的定义如公式(12),(13)所示:
查准率反映了一个检索算法的准确性,而查全率反映了检索算法的全面性。
从统计学的角度考虑,F-measure是评价检索性能的另一个评价标准。它同时考虑了查全率和查准率,并因此对检索性能进行了综合的评价。F-Measure是查全率和查准率的加权调和平均。
通常情况下,F-measure的计算公式如公式(14)所示:
其中β是正实数。当β=1时,就是传统的F1-measure,公式(14)可化简为:
F1的范围是[0,1],当F1值越大时则能说明实验方法比较有效。
2、隐私保护索引的检索性能
在隐私保护的海量图像检索实验中,对图像库中的22,908张图像进行测试,通过训练得到分支K=10,高度L=3的词汇树,共得到2,220个视觉单词。本发明对倒排索引进行加密形成隐私保护索引,从而实现了海量图像检索的隐私保护索引生成方法。隐私保护的海量图像检索结果如图4所示。
首先将明文域的倒排索引扩大1,000,000倍,然后将扩大后的倒排索引四舍五入,对索引取整并转化成二进制数b(F)。依次提取b(F)的4个bit位,进行重新排列。在经过随机二元编码之后,使得原来2,220维(其中DIndexSIFT=1,110,DIndexHSV=1,110)的倒排索引增加至11,100维。
这样高维度的索引,无法满足海量图像检索的高效性。于是,本发明利用基于密钥的高斯随机矩阵对b(F)进行降维至256维(DIndexSIFT=128,DIndexHSV=128),同时利用随机投影矩阵对b(F)进行二次加密。
有隐私保护与无隐私保护的海量图像检索的查全率-查准率曲线如图5所示,其中2条不同颜色的曲线分别代表的是经过LPP将特征维度降至8维后,基于词汇树构建的2,220维倒排索引,以及利用二元随机编码和高斯随机投影双重加密得到256维的隐私保护索引。表1所示的是他们各自的查准率,平均查准率,平均查全率和F1值。
从表1中,我们可以看出,与SIFT和HSV特征的维度降低为8维的检索性能相比,利用二元随机编码和高斯随机投影对索引进行双重加密的性能略有下降,查准率为达到82.1%,F1的值为0.560,说明本发明提出的加密方法可以较好维持图像检索的性能,具有一定的有效性。
3、安全性分析
下面对三种攻击情况进行安全性分析,表2所示的是恶意攻击情况下图像检索查准率,平均查准率,平均查全率和F1值。
1)第一种攻击情况为:黑客已知用户利用二维编码和高斯投影对索引进行加密,并窃取了编码比特位数。但高斯投影正确的密钥对于黑客而言是未知的,于是利用错误的密钥对索引进行降维,最终得到256维查询索引。
这种攻击下的检索结果如图6所示。通过统计实验数据,从表2可以看出,在这种攻击情况下的查准率仅为16.9%,F1仅为0.233。
2)第二种攻击情况为:黑客已窃取了高斯投影的密钥,但是黑客无法获取随机二维编码正确的比特位数,则利用错误的比特位数对索引进行编码,通过高斯投影进行降维,得到256维查询索引。
这种攻击下的检索结果如图7所示。统计实验数据之后,从表2可以看出,在这种攻击情况下的查准率仅为15.1%,F1仅为0.210。
3)第三种攻击情况为:黑客暂时无法得知数据库中安全索引的加密方式,于是黑客利用常用的降维方法,使得查询的维数降为256维,尝试对安全索引进行攻击。
这种攻击下的检索结果如图8所示。通过统计数据,从表2可以观察到在这种攻击情况下的查准率仅为12.4%,F1仅为0.205。
通过分析上述三种攻击情况,说明本发明提出的二元随机编码和高斯随机投影的加密方案在保证检索性能的同时,具有一定抵御攻击的能力。
综上所述,通过分析与对比加密域图像的检索性能和安全性,说明本发明采用的加密方式能够将隐私保护保护安全的融入到图像检索中,直接在已加密的图像数据库中进行检索,为用户提供有效的并且精准的搜索。
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
表1.隐私保护的图像检索查准率,平均查准率,平均查全率和F1值
表2.恶意攻击情况下图像检索查准率,平均查准率,平均查全率和F1值
Claims (1)
1.一种海量图像检索的隐私保护索引生成方法,包括:尺度不变特征转换SIFT和HSV颜色直方图的提取和优化、局部保持投影LPP降维、词汇索引构建以及隐私保护索引生成,其特征在于包括如下步骤:
步骤1:SIFT特征和HSV直方图特征的提取和优化,构建图像特征库;
步骤1.1:提取SIFT特征;
步骤1.2:对SIFT进行合理优化:对SIFT描述符集中的区域进行优化整合,以较少数量的描述符对图像内容进行准确的表征,设定图像中第i个SIFT描述符的横纵坐标分别为Siftdes[i].x,Siftdes[i].y,优化阈值为Topt,优化范围为Ropt;对于任意两个不同的SIFT描述符Siftdes[i]与Siftdes[j],当两点的横坐标和纵坐标的距离均小于优化阈值Topt时,则表示这些点存在于需要优化的范围Ropt内,需要进行优化操作,即:将存在于Ropt内的所有特征点合并成一个特征点,以它们的均值代表该范围内的所有特征点;如果该两点的横坐标距离或者纵坐标距离大于优化阈值Topt时,则表示这些点无需进行优化,优化方法如下:
优化后的SIFT特征点个数明显减少,提高检索速度;
步骤1.3:提取HSV颜色直方图特征;
步骤1.4:利用SIFT特征和HSV直方图特征共同形成图像特征库;
步骤2:利用LPP对图像特征进行降维;
步骤2.1:构建邻接图,计算图上每个点x的k最邻域点,计算每条边的权重Wij,不相连的边权重为0,否则为1,计算特征向量方法如下:
XLpXTa=λXDdiaXTa
其中,图像特征X∈RD×N,N为样本个数,每个样本有D维特征,Ddia是对角矩阵,Dii=∑jWji;Lp=Ddia-W,Lp是半正定的拉普拉斯矩阵,W是由权重Wij构成的稀疏对称矩阵;
步骤2.2:依据约束条件aTXDdiaXTa=1,计算最小化函数,方法如下:
其中,前d个最小的非零特征值对应的特征向量即为投影矩阵;
步骤2.3:利用投影矩阵A={ai}∈RD×d(d<D,ai≠0),找到数据的低维嵌入表示,方法如下:
Y=ATX
其中,Y即为降维后的特征向量;
步骤3:词汇树索引的构建;
步骤3.1:随机的选取K个初始聚类中心Ci;
步骤3.2:使用分层K-means,计算聚类中心Ci与每个特征点的距离,并把与聚类中心距离最小的点归到该类中;
步骤3.3:重新计算每个聚类中心Ci;
步骤3.4:计算判断聚类中心Ci与所属该类的特征点之间的距离是否满足收敛阈值,如果不满足,则重复步骤2、步骤3,直到满足收敛阈值且聚类中心不再发生变化;
步骤3.5:继续对聚类得到的K个簇集利用K-means算法聚类,再分成K个簇集,重复步骤3.1-步骤3.4,直至达到词汇树的高度L时,停止聚类,形成特征词汇树,其中K=10,L=3;
步骤3.6:统计每个特征点的词频-倒排文件频率TF-IDF加权,其中TF表示的是词频,词汇树中的节点i,对每一个视觉单词Ci,查询图像和数据库中图像通过节点i的特征数分别为qi和di,IDF计算方法如下:
其中,N是图像库的图像总数,Ni是包含节点i的图像的数量,查询图像的索引向量为Qi=qiwi,数据库中图像的索引向量表示为Di=diwi;
步骤4:隐私保护索引的生成;
步骤4.1:将数据库的索引F={fi}放大1,000,000倍,四舍五入成为整数,找到最大的整数,将该倒排索引利用二进制数表示,方法如下:
其中fimax为最大的整数索引,Digmax为二进制的最大位数;
步骤4.2:将所有整数形式的索引表示为二进制数,将位数不足Digmax的二进制数前补零,方法如下:
其中Digi表示的是b(fi)的二进制位数;
步骤4.3:将所有整数依次提取b(fi)的n个bit位,将b(fi)重新排列为新的向量,方法如下:
b(fi)=[b(fi1),b(fi2),...,b(fim)]
其中m=Digmax/n,经过二元随机编码的倒排索引可以表示为其中N是图像的数量,dnew是经过二元随机编码后,新索引的维度;
步骤4.4:使用高斯随机投影矩阵进行随机投影,其中dnew是原始维度,d'是降维后的维度,加密函数可以定义为:ε(b(F))=b(F)·G';
步骤4.5:图像的索引完成随机投影之后,利用L1范数对加密索引的距离进行度量,方法如下:
步骤4.6:对相似性结果进行排序,将最终将前k幅图像返回显示给用户,方法如下:
dε(Similar)=αdε(SimSIFT)+βdε(SimHSV)
其中α,β分别为SIFT特征词汇树和HSV直方图词汇树的匹配权重,α=1.5,β=0.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410244992.2A CN104008174B (zh) | 2014-06-04 | 2014-06-04 | 一种海量图像检索的隐私保护索引生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410244992.2A CN104008174B (zh) | 2014-06-04 | 2014-06-04 | 一种海量图像检索的隐私保护索引生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008174A true CN104008174A (zh) | 2014-08-27 |
CN104008174B CN104008174B (zh) | 2017-06-06 |
Family
ID=51368831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410244992.2A Active CN104008174B (zh) | 2014-06-04 | 2014-06-04 | 一种海量图像检索的隐私保护索引生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008174B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239898A (zh) * | 2014-09-05 | 2014-12-24 | 浙江捷尚视觉科技股份有限公司 | 一种快速卡口车辆比对和车型识别方法 |
CN104331448A (zh) * | 2014-10-29 | 2015-02-04 | 上海大学 | 基于jpeg图像交流系数直方图的密文域图像检索方法 |
CN104683885A (zh) * | 2015-02-04 | 2015-06-03 | 浙江大学 | 一种基于近邻保持重构的视频关键帧摘要提取方法 |
CN104765764A (zh) * | 2015-02-06 | 2015-07-08 | 南京理工大学 | 一种基于大规模图像检索方法 |
CN104991959A (zh) * | 2015-07-21 | 2015-10-21 | 北京京东尚科信息技术有限公司 | 一种基于内容检索相同或相似图像的方法与系统 |
CN106446867A (zh) * | 2016-10-13 | 2017-02-22 | 济南大学 | 一种基于随机投影加密的双因子掌纹识别方法 |
CN106599311A (zh) * | 2016-12-29 | 2017-04-26 | 广州市奥威亚电子科技有限公司 | 一种基于云计算的互联网教育平台资源库的图像检索方法 |
CN106649690A (zh) * | 2016-12-16 | 2017-05-10 | 西安电子科技大学 | 一种安全图像检索方法和系统、一种图像检索服务器 |
CN106778494A (zh) * | 2016-11-21 | 2017-05-31 | 河海大学 | 一种基于sift‑lpp的高光谱遥感影像特征提取方法 |
CN106844726A (zh) * | 2017-02-10 | 2017-06-13 | 深圳前海大造科技有限公司 | 一种基于词汇树检索与暴力匹配的图像识别方法 |
CN107480163A (zh) * | 2017-06-19 | 2017-12-15 | 西安电子科技大学 | 一种云环境下支持隐私保护的高效密文图像检索方法 |
CN108256031A (zh) * | 2018-01-11 | 2018-07-06 | 北京理工大学 | 一种支持隐私保护的多源加密图像检索方法 |
WO2018166273A1 (zh) * | 2017-03-17 | 2018-09-20 | 北京京东尚科信息技术有限公司 | 高维图像特征匹配方法和装置 |
CN110019874A (zh) * | 2017-12-29 | 2019-07-16 | 上海全土豆文化传播有限公司 | 索引文件的生成方法、装置及系统 |
CN110163250A (zh) * | 2019-04-10 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 基于分布式调度的图像脱敏处理系统、方法以及装置 |
CN110163218A (zh) * | 2019-04-10 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 基于图像识别的脱敏处理方法以及装置 |
CN110163292A (zh) * | 2019-05-28 | 2019-08-23 | 电子科技大学 | 基于向量同态加密的隐私保护k-means聚类方法 |
CN110163982A (zh) * | 2019-04-11 | 2019-08-23 | 浙江大学 | 一种基于草图检索且形状可控的沉浸式虚拟烟花模拟方法 |
CN110175623A (zh) * | 2019-04-10 | 2019-08-27 | 阿里巴巴集团控股有限公司 | 基于图像识别的脱敏处理方法以及装置 |
CN110188217A (zh) * | 2019-05-29 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像查重方法、装置、设备和计算机可读储存介质 |
CN110866135A (zh) * | 2019-11-12 | 2020-03-06 | 重庆邮电大学 | 一种基于响应长度隐藏的k-NN图像检索方法及系统 |
CN111368126A (zh) * | 2017-02-13 | 2020-07-03 | 哈尔滨理工大学 | 一种面向图像检索的生成方法 |
CN111522973A (zh) * | 2020-04-16 | 2020-08-11 | 重庆邮电大学 | 一种融合压缩感知的隐私保护图像检索方法 |
US10762607B2 (en) | 2019-04-10 | 2020-09-01 | Alibaba Group Holding Limited | Method and device for sensitive data masking based on image recognition |
CN111738194A (zh) * | 2020-06-29 | 2020-10-02 | 深圳力维智联技术有限公司 | 一种用于人脸图像相似性的评价方法和装置 |
CN111881928A (zh) * | 2020-05-19 | 2020-11-03 | 杭州中奥科技有限公司 | 一种编码模型训练方法、装置、存储介质及电子设备 |
CN112541855A (zh) * | 2020-12-10 | 2021-03-23 | 东北大学 | 基于多层复杂网络和sir模型的图像加密方法 |
CN113536020A (zh) * | 2021-07-23 | 2021-10-22 | 北京房江湖科技有限公司 | 数据查询的方法、存储介质和计算机程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0913780A2 (en) * | 1997-10-31 | 1999-05-06 | Hitachi, Ltd. | Method and apparatus for data clustering |
US20070098266A1 (en) * | 2005-11-03 | 2007-05-03 | Fuji Xerox Co., Ltd. | Cascading cluster collages: visualization of image search results on small displays |
CN103678480A (zh) * | 2013-10-11 | 2014-03-26 | 北京工业大学 | 具有隐私分级可控的个性化图像检索方法 |
CN103744976A (zh) * | 2014-01-13 | 2014-04-23 | 北京工业大学 | 一种基于同态加密的图像安全检索方法 |
-
2014
- 2014-06-04 CN CN201410244992.2A patent/CN104008174B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0913780A2 (en) * | 1997-10-31 | 1999-05-06 | Hitachi, Ltd. | Method and apparatus for data clustering |
US20070098266A1 (en) * | 2005-11-03 | 2007-05-03 | Fuji Xerox Co., Ltd. | Cascading cluster collages: visualization of image search results on small displays |
CN103678480A (zh) * | 2013-10-11 | 2014-03-26 | 北京工业大学 | 具有隐私分级可控的个性化图像检索方法 |
CN103744976A (zh) * | 2014-01-13 | 2014-04-23 | 北京工业大学 | 一种基于同态加密的图像安全检索方法 |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239898A (zh) * | 2014-09-05 | 2014-12-24 | 浙江捷尚视觉科技股份有限公司 | 一种快速卡口车辆比对和车型识别方法 |
CN104239898B (zh) * | 2014-09-05 | 2017-07-14 | 浙江捷尚视觉科技股份有限公司 | 一种快速卡口车辆比对和车型识别方法 |
CN104331448B (zh) * | 2014-10-29 | 2018-04-06 | 上海大学 | 基于jpeg图像交流系数直方图的密文域图像检索方法 |
CN104331448A (zh) * | 2014-10-29 | 2015-02-04 | 上海大学 | 基于jpeg图像交流系数直方图的密文域图像检索方法 |
CN104683885A (zh) * | 2015-02-04 | 2015-06-03 | 浙江大学 | 一种基于近邻保持重构的视频关键帧摘要提取方法 |
CN104765764A (zh) * | 2015-02-06 | 2015-07-08 | 南京理工大学 | 一种基于大规模图像检索方法 |
CN104991959A (zh) * | 2015-07-21 | 2015-10-21 | 北京京东尚科信息技术有限公司 | 一种基于内容检索相同或相似图像的方法与系统 |
CN104991959B (zh) * | 2015-07-21 | 2019-11-05 | 北京京东尚科信息技术有限公司 | 一种基于内容检索相同或相似图像的方法与系统 |
CN106446867A (zh) * | 2016-10-13 | 2017-02-22 | 济南大学 | 一种基于随机投影加密的双因子掌纹识别方法 |
CN106446867B (zh) * | 2016-10-13 | 2019-03-15 | 济南大学 | 一种基于随机投影加密的双因子掌纹识别方法 |
CN106778494A (zh) * | 2016-11-21 | 2017-05-31 | 河海大学 | 一种基于sift‑lpp的高光谱遥感影像特征提取方法 |
CN106649690A (zh) * | 2016-12-16 | 2017-05-10 | 西安电子科技大学 | 一种安全图像检索方法和系统、一种图像检索服务器 |
CN106599311A (zh) * | 2016-12-29 | 2017-04-26 | 广州市奥威亚电子科技有限公司 | 一种基于云计算的互联网教育平台资源库的图像检索方法 |
CN106844726A (zh) * | 2017-02-10 | 2017-06-13 | 深圳前海大造科技有限公司 | 一种基于词汇树检索与暴力匹配的图像识别方法 |
CN111368126B (zh) * | 2017-02-13 | 2022-06-07 | 哈尔滨理工大学 | 一种面向图像检索的生成方法 |
CN111368126A (zh) * | 2017-02-13 | 2020-07-03 | 哈尔滨理工大学 | 一种面向图像检索的生成方法 |
WO2018166273A1 (zh) * | 2017-03-17 | 2018-09-20 | 北京京东尚科信息技术有限公司 | 高维图像特征匹配方法和装置 |
CN108629345A (zh) * | 2017-03-17 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 高维图像特征匹配方法和装置 |
US11210555B2 (en) | 2017-03-17 | 2021-12-28 | Beijing Jingdong Shangke Information Technology Co., Ltd. | High-dimensional image feature matching method and device |
CN107480163A (zh) * | 2017-06-19 | 2017-12-15 | 西安电子科技大学 | 一种云环境下支持隐私保护的高效密文图像检索方法 |
CN107480163B (zh) * | 2017-06-19 | 2020-03-24 | 西安电子科技大学 | 一种云环境下支持隐私保护的高效密文图像检索方法 |
CN110019874A (zh) * | 2017-12-29 | 2019-07-16 | 上海全土豆文化传播有限公司 | 索引文件的生成方法、装置及系统 |
CN108256031A (zh) * | 2018-01-11 | 2018-07-06 | 北京理工大学 | 一种支持隐私保护的多源加密图像检索方法 |
CN108256031B (zh) * | 2018-01-11 | 2021-09-10 | 北京理工大学 | 一种支持隐私保护的多源加密图像检索方法 |
CN110175623A (zh) * | 2019-04-10 | 2019-08-27 | 阿里巴巴集团控股有限公司 | 基于图像识别的脱敏处理方法以及装置 |
US10762607B2 (en) | 2019-04-10 | 2020-09-01 | Alibaba Group Holding Limited | Method and device for sensitive data masking based on image recognition |
CN110163250B (zh) * | 2019-04-10 | 2023-10-24 | 创新先进技术有限公司 | 基于分布式调度的图像脱敏处理系统、方法以及装置 |
CN110163250A (zh) * | 2019-04-10 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 基于分布式调度的图像脱敏处理系统、方法以及装置 |
CN110163218A (zh) * | 2019-04-10 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 基于图像识别的脱敏处理方法以及装置 |
CN110163982A (zh) * | 2019-04-11 | 2019-08-23 | 浙江大学 | 一种基于草图检索且形状可控的沉浸式虚拟烟花模拟方法 |
CN110163982B (zh) * | 2019-04-11 | 2021-04-27 | 浙江大学 | 一种基于草图检索且形状可控的沉浸式虚拟烟花模拟方法 |
CN110163292A (zh) * | 2019-05-28 | 2019-08-23 | 电子科技大学 | 基于向量同态加密的隐私保护k-means聚类方法 |
CN110188217A (zh) * | 2019-05-29 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像查重方法、装置、设备和计算机可读储存介质 |
US11886492B2 (en) | 2019-05-29 | 2024-01-30 | Boe Technology Group Co., Ltd. | Method of matching image and apparatus thereof, device, medium and program product |
WO2020238515A1 (zh) * | 2019-05-29 | 2020-12-03 | 京东方科技集团股份有限公司 | 图像匹配方法、装置、设备、介质和程序产品 |
CN110866135B (zh) * | 2019-11-12 | 2022-09-23 | 重庆邮电大学 | 一种基于响应长度隐藏的k-NN图像检索方法及系统 |
CN110866135A (zh) * | 2019-11-12 | 2020-03-06 | 重庆邮电大学 | 一种基于响应长度隐藏的k-NN图像检索方法及系统 |
CN111522973B (zh) * | 2020-04-16 | 2023-03-31 | 重庆邮电大学 | 一种融合压缩感知的隐私保护图像检索方法 |
CN111522973A (zh) * | 2020-04-16 | 2020-08-11 | 重庆邮电大学 | 一种融合压缩感知的隐私保护图像检索方法 |
CN111881928A (zh) * | 2020-05-19 | 2020-11-03 | 杭州中奥科技有限公司 | 一种编码模型训练方法、装置、存储介质及电子设备 |
CN111881928B (zh) * | 2020-05-19 | 2022-07-29 | 杭州中奥科技有限公司 | 一种编码模型训练方法、装置、存储介质及电子设备 |
CN111738194A (zh) * | 2020-06-29 | 2020-10-02 | 深圳力维智联技术有限公司 | 一种用于人脸图像相似性的评价方法和装置 |
CN111738194B (zh) * | 2020-06-29 | 2024-02-02 | 深圳力维智联技术有限公司 | 一种用于人脸图像相似性的评价方法和装置 |
CN112541855A (zh) * | 2020-12-10 | 2021-03-23 | 东北大学 | 基于多层复杂网络和sir模型的图像加密方法 |
CN112541855B (zh) * | 2020-12-10 | 2023-07-28 | 东北大学 | 基于多层复杂网络和sir模型的图像加密方法 |
CN113536020A (zh) * | 2021-07-23 | 2021-10-22 | 北京房江湖科技有限公司 | 数据查询的方法、存储介质和计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN104008174B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008174A (zh) | 一种海量图像检索的隐私保护索引生成方法 | |
CN103678702B (zh) | 视频去重方法及装置 | |
CN110659379B (zh) | 一种基于深度卷积网络特征的可搜索加密图像检索方法 | |
EP2953064B1 (en) | Information conversion method, information conversion device, and information conversion program | |
CN108171071B (zh) | 一种面向云计算的多关键字可排序密文检索方法 | |
CN108763295B (zh) | 一种基于深度学习的视频近似拷贝检索算法 | |
Xu et al. | A large-scale secure image retrieval method in cloud environment | |
AL-Hashemy et al. | A new algorithm based on magic square and a novel chaotic system for image encryption | |
CN110334290B (zh) | 一种基于MF-Octree的时空数据快速检索方法 | |
Cheng et al. | Secure index construction for privacy-preserving large-scale image retrieval | |
CN109086830B (zh) | 基于样本惩罚的典型关联分析近重复视频检测方法 | |
Bai et al. | An adaptive threshold fast DBSCAN algorithm with preserved trajectory feature points for vessel trajectory clustering | |
CN111859421A (zh) | 一种基于词向量的多关键字密文存储、检索方法及系统 | |
CN111324766A (zh) | 一种基于lbp特征的加密图像检索方法 | |
CN116383470B (zh) | 一种具有隐私保护的图像搜索方法 | |
Feng et al. | Evit: Privacy-preserving image retrieval via encrypted vision transformer in cloud computing | |
Magdy et al. | Privacy preserving search index for image databases based on SURF and order preserving encryption | |
CN108829714A (zh) | 一种密文数据多关键词的模糊搜索方法 | |
CN111046280B (zh) | 一种应用fm的跨领域推荐方法 | |
Remil et al. | Data‐Driven Sparse Priors of 3D Shapes | |
Zhang et al. | Image retrieval method based on entropy and fractal coding | |
CN115481415A (zh) | 基于纵向联邦学习的通信成本优化方法、系统、设备及介质 | |
CN110704575B (zh) | 一种动态自适应二元层次词汇树图像检索方法 | |
Zheng et al. | Deep learning hash for wireless multimedia image content security | |
Huang et al. | A Hybrid Clustering Approach for Bag‐of‐Words Image Categorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220802 Address after: 100004 1-14-2107, floor 2, No. 136, Xiwai street, Xicheng District, Beijing Patentee after: Shuanxin (Beijing) Technology Co.,Ltd. Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing Patentee before: Beijing University of Technology |
|
TR01 | Transfer of patent right |