CN107423309A - 基于模糊哈希算法的海量互联网相似图片检测系统及方法 - Google Patents

基于模糊哈希算法的海量互联网相似图片检测系统及方法 Download PDF

Info

Publication number
CN107423309A
CN107423309A CN201610384446.8A CN201610384446A CN107423309A CN 107423309 A CN107423309 A CN 107423309A CN 201610384446 A CN201610384446 A CN 201610384446A CN 107423309 A CN107423309 A CN 107423309A
Authority
CN
China
Prior art keywords
hash
burst
algorithm
picture
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610384446.8A
Other languages
English (en)
Inventor
徐杰
陈训逊
王博
王东安
包秀国
黄亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201610384446.8A priority Critical patent/CN107423309A/zh
Publication of CN107423309A publication Critical patent/CN107423309A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于模糊哈希算法相似图片检索方法及系统,其通过分片模块,根据设定的分片值,对图片进行分片;通过哈希算法模块,读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;通过压缩映射算法模块,将每片的哈希值进行压缩,映射为一个更短的哈希值;通过连接哈希值算法模块,将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;最后通过比较算法模块,将待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度,给出检索结果;解决了图像背景色被改变,或被裁剪、旋转或者某一个像素被修改后相似的图像的比较问题。本发明能够应用于海量互联网图片中的有害图片发现。

Description

基于模糊哈希算法的海量互联网相似图片检测系统及方法
技术领域
本发明涉及网络信息安全技术领域,特别涉及一种基于模糊哈希算法的海量互联网相似图片检测系统及方法。
背景技术
现在的图像检索技术基本上还是分为两类,基于文本的图像检索(Text-based ImageRetrieval,TBIR)和基于内容的图像检索(Content-based Image Retrieval,CBIR)。
基于文本的图像检索也就是主要利用文本描述的方式对一幅图像进行特征的描述,建立相应的描述子或者key words,比如图像的年代、作者、尺寸、编码、名称等一些关键性的信息,将它们进行自动或者人工采集标注,产生图像的索引数据库,然后将用户输入的关键字,进行匹配查找,再返回结果的一种图像检索方式。它易于实现,查准率也较高,但是存在文本描述有限,有些图像特征不好描述甚至无法描述,而且存在不同描述人的较大的主观性,并且需要人工标注,在海量数据的处理中越来越失去应用价值,进而也不能满足检索的要求。
基于内容的检索技术是由计算机对图像的特征进行分析,提取特征,如颜色、纹理和形状等,将提取的特征作为向量存入图像数据库,对于输入的检索图片做相同的处理,利用相似性准则计算该查询图片与图像特征库中的每一个特征向量的相似度,根据相似度排序后,输出给定阈值下的检索结果。其优点在于使用机器对图像的内容进行判别性的信息提取,得到特征的描述子,不需要人为地对图像进行文本标注;并且,该过程作为一个近似匹配的过程,对于检索效率的提升也有了很大的贡献,但是对于图像特征的提取上,复杂的算法需要实现从最底层图像特征到高层的语义信息的联系显得有点困难,因此检索准确性上不是很高。
在海量数字图像数据再互联网上泛滥之后,对于图像的快速和有效检索就显得日益重要。传统的方法有基于树的索引结构,如k-d树,但它仅仅在处理低维数据时可以有效提高检索速度,当数据维度超过20维时,其检索效率就接近于穷举的搜索方式。因此,目前针对高维数据的快速检索问题,图像哈希技术在上世纪九十年代末诞生。对于训练图像和查询图像都需要进行特征的提取,之后通过哈希函数的转化,压缩为一定数目的二进制编码序列,该过程称为哈希编码。然后将得到的哈希编码,进行汉明距离的计算,在设置的汉明距离阈值范围内再对候选样本做欧式距离排序,也就是重排(一般论文这一步都是没有的),最后返回检索到的图像,这些得到的图像称为查询图像的近似最近邻。
对于哈希函数的期望,我们希望其满足以下两个必要的条件:
(1)对于内容相似的图像,其哈希编码的序列能够尽可能相同或者十分接近;
(2)对于内容不同的图像,其哈希编码的序列能够尽可能不同。
加密哈希算法是常用的哈希算法。目前采用的MD5,SHA1,SHA256这些哈希算法对于未被篡改的文件非常有效。但是,如果数据有细微变化,加密哈希算法都会导致雪崩效应,从而造成新文件的哈希值完全不同于原始文件哈希值。对于图像来说,如果其背景色被改变,或被裁剪、旋转或者某一个像素被修改,那么都无法在图像哈希库中匹配。可见传统哈希算法并不具有实用性。
发明内容
本发明的目的提供一种基于模糊哈希算法的海量互联网相似图片检测系统及方法,可实现图片内容被部分篡改后,图片相似性的判定问题。
本发明的技术方案是,一种基于模糊哈希算法相似图片检索方法,其特征在于,该方法包括如下步骤:
(1)设定分片值,对图片进行分片;
(2)读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;
(3)将每片的哈希值进行压缩,映射为一个更短的哈希值;
(4)将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;
(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。
进一步的,步骤(2)中的哈希算法采用滚动哈希算法或MD5哈希算法。
一种基于模糊哈希算法相似图片检索系统,该系统包括:
分片模块,用以根据设定的分片值,对图片进行分片;
哈希算法模块,用以读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;
压缩映射算法模块,用以将每片的哈希值进行压缩,映射为一个更短的哈希值;
连接哈希值算法模块,用以将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;
比较算法模块,待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。
进一步的,所述哈希算法采用滚动哈希算法或MD5哈希算法。
本发明的有益效果在于:本发明对于基于图片视觉相似性而不是文件精确性的检索系统,解决了图像背景色被改变,或被裁剪、旋转或者某一个像素被修改后相似的图像的比较问题。本发明能够应用于海量互联网图片中的有害图片发现。
附图说明
图1为本发明图片模糊哈希值计算流程图。
图2为本发明基于模糊哈希算法的相似图片检索流程图。
具体实施方式
下面,结合附图对于本发明进行如下详细说明:
如图1和图2所示,选择待检索的图片库,将图片和设定的分片值输入分片模块,分片模块根据设定的分片值,对图片进行分片,分片结果输送到哈希算法模块;哈希算法模块,接收分片模块发送的分片结果,读取一部分图片内容,采用滚动哈希算法或MD5哈希算法进行计算,得到每一个分片的哈希值,并将计算结果送入压缩映射算法模块,压缩映射算法模块将每片的哈希值进行压缩,映射为一个更短的哈希值,并将压缩结果送入连接哈希值算法模块,连接哈希值算法模块将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值,模糊哈希值最后被送入哈希值数据库,当有检索命令时,将待检索图片的模糊哈希值送入比较算法模块,较算法模块采用加权的汉明距离方法计算相似程度,最终给出检索结果。
所述仅是本发明的具体实例,任何基于本发明方法基础的等效变换,均属于本发明保护范围之内。

Claims (4)

1.一种基于模糊哈希算法相似图片检索方法,其特征在于,该方法包括如下步骤:
(1)设定分片值,对图片进行分片;
(2)读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;
(3)将每片的哈希值进行压缩,映射为一个更短的哈希值;
(4)将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;
(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。
2.根据权利要求1所述的方法,其特征在于,所述步骤(2)中的哈希算法采用滚动哈希算法或MD5哈希算法。
3.一种基于模糊哈希算法相似图片检索系统,该系统包括:
分片模块,用以根据设定的分片值,对图片进行分片;
哈希算法模块,用以读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;
压缩映射算法模块,用以将每片的哈希值进行压缩,映射为一个更短的哈希值;
连接哈希值算法模块,用以将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;
比较算法模块,待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。
4.根据权利要求3所述的系统,其特征在于,所述哈希算法采用滚动哈希算法或MD5哈希算法。
CN201610384446.8A 2016-06-01 2016-06-01 基于模糊哈希算法的海量互联网相似图片检测系统及方法 Pending CN107423309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610384446.8A CN107423309A (zh) 2016-06-01 2016-06-01 基于模糊哈希算法的海量互联网相似图片检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610384446.8A CN107423309A (zh) 2016-06-01 2016-06-01 基于模糊哈希算法的海量互联网相似图片检测系统及方法

Publications (1)

Publication Number Publication Date
CN107423309A true CN107423309A (zh) 2017-12-01

Family

ID=60422884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610384446.8A Pending CN107423309A (zh) 2016-06-01 2016-06-01 基于模糊哈希算法的海量互联网相似图片检测系统及方法

Country Status (1)

Country Link
CN (1) CN107423309A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073815A (zh) * 2017-12-29 2018-05-25 哈尔滨安天科技股份有限公司 基于代码切片的家族判定方法、系统及存储介质
CN109634953A (zh) * 2018-11-07 2019-04-16 宁波大学 一种面向高维大数据集的加权量化哈希检索方法
CN110034921A (zh) * 2019-04-18 2019-07-19 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN110503504A (zh) * 2019-03-14 2019-11-26 杭州海康威视数字技术股份有限公司 网络产品的信息识别方法、装置及设备
CN111368128A (zh) * 2020-03-12 2020-07-03 北京海益同展信息科技有限公司 目标图片的识别方法、装置和计算机可读存储介质
CN112381151A (zh) * 2020-11-17 2021-02-19 有米科技股份有限公司 相似视频的确定方法及装置
CN113659993A (zh) * 2021-08-17 2021-11-16 深圳市康立生物医疗有限公司 免疫批次数据处理方法、装置、终端及可读存储介质
CN115190217A (zh) * 2022-07-07 2022-10-14 国家计算机网络与信息安全管理中心 一种融合自编码网络的数据安全加密方法和装置
CN116127457A (zh) * 2023-02-16 2023-05-16 软安科技有限公司 一种基于winnowing算法的恶意代码检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693258A (zh) * 2011-02-28 2012-09-26 株式会社日立制作所 高精度的类似检索系统
CN103336890A (zh) * 2013-06-08 2013-10-02 东南大学 一种快速计算软件相似度的方法
CN104298713A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于模糊聚类的图片检索方法
CN104881449A (zh) * 2015-05-15 2015-09-02 西安电子科技大学 基于流形学习数据压缩哈希的图像检索方法
CN105095435A (zh) * 2015-07-23 2015-11-25 北京京东尚科信息技术有限公司 一种图像高维特征的相似比较方法及装置
CN105574063A (zh) * 2015-08-24 2016-05-11 西安电子科技大学 基于视觉显著性的图像检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693258A (zh) * 2011-02-28 2012-09-26 株式会社日立制作所 高精度的类似检索系统
CN103336890A (zh) * 2013-06-08 2013-10-02 东南大学 一种快速计算软件相似度的方法
CN104298713A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于模糊聚类的图片检索方法
CN104881449A (zh) * 2015-05-15 2015-09-02 西安电子科技大学 基于流形学习数据压缩哈希的图像检索方法
CN105095435A (zh) * 2015-07-23 2015-11-25 北京京东尚科信息技术有限公司 一种图像高维特征的相似比较方法及装置
CN105574063A (zh) * 2015-08-24 2016-05-11 西安电子科技大学 基于视觉显著性的图像检索方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073815B (zh) * 2017-12-29 2022-02-15 安天科技集团股份有限公司 基于代码切片的家族判定方法、系统及存储介质
CN108073815A (zh) * 2017-12-29 2018-05-25 哈尔滨安天科技股份有限公司 基于代码切片的家族判定方法、系统及存储介质
CN109634953A (zh) * 2018-11-07 2019-04-16 宁波大学 一种面向高维大数据集的加权量化哈希检索方法
CN109634953B (zh) * 2018-11-07 2021-08-17 宁波大学 一种面向高维大数据集的加权量化哈希检索方法
CN110503504A (zh) * 2019-03-14 2019-11-26 杭州海康威视数字技术股份有限公司 网络产品的信息识别方法、装置及设备
CN110503504B (zh) * 2019-03-14 2022-02-15 杭州海康威视数字技术股份有限公司 网络产品的信息识别方法、装置及设备
CN110034921A (zh) * 2019-04-18 2019-07-19 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN110034921B (zh) * 2019-04-18 2022-04-15 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN111368128A (zh) * 2020-03-12 2020-07-03 北京海益同展信息科技有限公司 目标图片的识别方法、装置和计算机可读存储介质
CN111368128B (zh) * 2020-03-12 2023-09-29 京东科技信息技术有限公司 目标图片的识别方法、装置和计算机可读存储介质
CN112381151A (zh) * 2020-11-17 2021-02-19 有米科技股份有限公司 相似视频的确定方法及装置
CN112381151B (zh) * 2020-11-17 2024-03-22 有米科技股份有限公司 相似视频的确定方法及装置
CN113659993A (zh) * 2021-08-17 2021-11-16 深圳市康立生物医疗有限公司 免疫批次数据处理方法、装置、终端及可读存储介质
CN115190217A (zh) * 2022-07-07 2022-10-14 国家计算机网络与信息安全管理中心 一种融合自编码网络的数据安全加密方法和装置
CN115190217B (zh) * 2022-07-07 2024-03-26 国家计算机网络与信息安全管理中心 一种融合自编码网络的数据安全加密方法和装置
CN116127457A (zh) * 2023-02-16 2023-05-16 软安科技有限公司 一种基于winnowing算法的恶意代码检测方法及系统
CN116127457B (zh) * 2023-02-16 2024-05-14 软安科技有限公司 一种基于winnowing算法的恶意代码检测方法及系统

Similar Documents

Publication Publication Date Title
CN107423309A (zh) 基于模糊哈希算法的海量互联网相似图片检测系统及方法
CN107256262B (zh) 一种基于物体检测的图像检索方法
Wang et al. MARCH: Multiscale-arch-height description for mobile retrieval of leaf images
JP5911578B2 (ja) 画像の特徴点位置情報を符号化する方法、コンピュータプログラム、モバイルデバイス
CN105022752B (zh) 图像检索方法与装置
CN114461839B (zh) 基于多模态预训练的相似图片检索方法、装置及电子设备
CN104376105A (zh) 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN105335469A (zh) 一种图像匹配、检索方法和装置
CN111325245A (zh) 重复图像识别方法、装置、电子设备及计算机可读存储介质
Vázquez et al. Using normalized compression distance for image similarity measurement: an experimental study
Tolias et al. Towards large-scale geometry indexing by feature selection
CN105183746A (zh) 从多相关图片中挖掘显著特征实现图像检索的方法
CN105809087B (zh) 辐射检查系统及车型模板检索方法
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
Sadique et al. Content-based image retrieval using color layout descriptor, gray-level co-occurrence matrix and k-nearest neighbors
CN109697240A (zh) 一种基于特征的图像检索方法及装置
CN109344276B (zh) 一种图像指纹生成方法、图像相似度比较方法及存储介质
Liu et al. Video copy detection by conducting fast searching of inverted files
Li A fast algorithm for near-duplicate image detection
CN111178409B (zh) 基于大数据矩阵稳定性分析的图像匹配与识别系统
CN104199950A (zh) 一种基于图像相似度快速匹配的学术论文搜索方法
CN109460701B (zh) 一种基于纵横直方图的字体识别方法
Du et al. A Low Overhead Progressive Transmission for Visual Descriptor Based on Image Saliency.
Nayef et al. Efficient symbol retrieval by building a symbol index from a collection of line drawings
Tsai et al. Mobile visual search with word-HOG descriptors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171201

WD01 Invention patent application deemed withdrawn after publication