CN107480203A - 一种针对相同及相似图片去重的图像数据清洗方法 - Google Patents
一种针对相同及相似图片去重的图像数据清洗方法 Download PDFInfo
- Publication number
- CN107480203A CN107480203A CN201710599473.1A CN201710599473A CN107480203A CN 107480203 A CN107480203 A CN 107480203A CN 201710599473 A CN201710599473 A CN 201710599473A CN 107480203 A CN107480203 A CN 107480203A
- Authority
- CN
- China
- Prior art keywords
- image
- similar
- picture
- pictures
- duplicate removal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种针对相同及相似图片去重的图像数据清洗方法,包含图像预处理模块和相似图像去重模块;图像预处理模块包括图像数据集合、生成路径文件和生成特征文件;相似图像去重模块包括图象特征相似度计算、相似判别和去重。本发明在对图片生成特征值的时候考虑了图片的局部性因素,并对图片的局部特征值与全局平均值作比较得出最终的二值化图片特征,这样得出的图片特征值能够很好的保留图片的局部特征信息,同时也很好的保留了每个局部块之间的关系,即使图片在局部发生改变、或者整体对比度亮度发生一定程度的改变,其与原图片之间具有的高度相似性都会被发现,因此该方法在很大程度上提高了对图像数据中相似图片去重的效率和精度。
Description
技术领域
本发明属于图像处理清洗领域,特别是涉及一种针对相同及相似图片去重的图像数据清洗方法。
背景技术
图像数据是互联网数据中最重要的组成元素之一,它可以更逼真地记录更多细节内容。但是,从网络海量数据中得到的图片数据,往往包含有很多相似甚至完全相同的内容,这些冗余的图像数据占据了额外的存储空间,并且使图片的处理过程变得重复和繁琐,降低整体工作效率。所以,需要对网络中得到的图像数据进行清洗,找到其中彼此相同或者高度相似的图片,完成去重任务。
针对图像数据中相似或者相同图片的筛选,目前经常采用的方法有下面几种:
(1)人工检测
人工检测的方法是最原始的图片筛选方法,该方法的优点就是精度高,缺点是该方法需要的人力成本大,检测速度慢,标准存在差异,面对海量的互联网图片数据,效果并不理想。
(2)MD5匹配
利用图片的MD5值进行相同图片的查找,能够精准的从海量网络图片中找到彼此相同的数据,而且速度比较快。而这种方法的缺点是:只能从网络中的海量数据中筛选出MD5值完全相同的图片,只要两张图片间存在一点差异,基于MD5的筛选方法就不能生效,所以,MD5不能完成对相似图片的清洗工作。
以上的针对冗余图像数据的清洗方法都不能同时满足对网络数据中相同和相似图片进行筛选时速度快,精度高而且召回率高的要求。所以,研究一种能够快速、准确的实现相同以及相似图片的清洗技术具有重要的研究价值和应用前景。
发明内容
本发明要解决的技术问题:本发明针对现有对于冗余图像数据的清洗方法中存在的问题,提出了一种用于相同相似图片去重的数据清洗方法。该方法基于现有的图像处理程序库,能够处理多种图片格式。针对现有关于冗余图像清理方法中存在的局限性问题,本发明在对图片进行特征值计算时将会根据图片的局部特征生成多个局部特征值,并将局部特征值整合在一起作为整个图片最终的特征值。
本发明的技术方案:一种针对相同及相似图片去重的图像数据清洗方法,包含图像预处理模块和相似图像去重模块;所述图像预处理模块包括图像数据集合、生成路径文件和生成特征文件;所述相似图像去重模块包括图象特征相似度计算、相似判别和去重;
所述一种针对相同及相似图片去重的图像数据清洗方法还包含如下步骤:
(1)遍历待检测设备中的所有图像数据,生成图像数据集合;
(2)根据所述图像数据集合的路径信息生成路径文件;
(3)根据所述路径文件,依次读取每张图片,对每张图片进行特定值处理,生成特征文件,并将所有图片的特征文件存入内存或文件;
(4)读取保存有所有图片的特征文件的内存或文件,对所有的特征文件进行图像特征相似度计算,根据计算结果进行相似判别,判别图像是否属相同或相似,并将相似和相同的图片找出并完成去重,最后输出清洗后的图像数据集合。
进一步的,所述步骤(3)中所述特定值处理还包括如下步骤:
a.将图片转换为灰度图像;
b.将所述灰度图像划分为若干个相同大小的块,对图像的大小进行调整,将每个块缩小为一个像素点;
c.计算压缩后所有像素点的均值;
d.将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理;
e.将二值化后的压缩像素值作为图像特征值写入文件,图像路径和图像特征值逐行写入,即奇数行存储图像路径,偶数行存储对应的图像特征值。
进一步的,所述步骤(4)中所述图像特征相似度计算的方法还包括:设定一个阈值,对所有图像数据的特征值进行海明距离的计算,若海明距离小于或等于这个阈值,则认为两图片相似,予以去重处理。
本发明与现有技术相比的有益效果:本发明在对图片生成特征值的时候考虑了图片的局部性因素,并对图片的局部特征值与全局平均值作比较得出最终的二值化图片特征,这样得出的图片特征值能够很好的保留图片的局部特征信息,同时也很好的保留了每个局部块之间的关系,即使图片在局部发生改变、或者整体对比度亮度发生一定程度的改变,其与原图片之间具有的高度相似性都会被发现,因此该方法在很大程度上提高了对图像数据中相似图片去重的效率和精度。
附图说明
图1是本发明的图像数据清洗方法流程图。
具体实施方式
为了加深本发明的理解,下面我们将结合附图对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1示出了本发明一种针对相同及相似图片去重的图像数据清洗方法,包含图像预处理模块S1和相似图像去重模块S2;图像预处理模块S1包括图像数据集合101、生成路径文件102和生成特征文件103;相似图像去重模块S2包括图象特征相似度计算200、相似判别201和去重202;
一种针对相同及相似图片去重的图像数据清洗方法还包含如下步骤:
(1)遍历待检测设备100中的所有图像数据,生成图像数据集合101;
(2)根据图像数据集合101的路径信息生成路径文件102;
(3)根据路径文件102,依次读取每张图片,对每张图片进行特定值处理,生成特征文件103,并将所有图片的特征文件103存入内存或文件;
(4)读取保存有所有图片的特征文件的内存或文件,对所有的特征文件进行图像特征相似度计算200,根据计算结果进行相似判别201,判别图像是否属相同或相似,并将相似和相同的图片找出并完成去重202,最后输出清洗后的图像数据集合S3。
在本实施例中,步骤(3)中特定值处理还包括如下步骤:
a.将图片转换为灰度图像;
b.将灰度图像划分为若干个相同大小的块,对图像的大小进行调整,将每个块缩小为一个像素点;
c.计算压缩后所有像素点的均值;
d.将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理;
e.将二值化后的压缩像素值作为图像特征值写入文件,图像路径和图像特征值逐行写入,即奇数行存储图像路径,偶数行存储对应的图像特征值。
在本实施例中,步骤(4)中图像特征相似度计算200的方法还包括:设定一个阈值,对所有图像数据的特征值进行海明距离的计算,若海明距离小于或等于这个阈值,则认为两图片相似,予以去重202处理。
本发明的工作原理:一种用于相同及相似图片去重的图像数据清洗技术主要由两个模块构成:图像预处理模块S1和相似图像去重模块S2;下面结合实例分别说明每个模块的功能。
(1)图像预处理模块S1
本模块数据的预处理过程主要包括待检测设备100中全部图像生成路径文件102以及全部图像生成特征文件103两部分。
具体的,待检测设备100中有4个文件夹,共有MD5值不重复实网数据图像244774张图片。
第一步,算法遍历四个文件夹,将每个文件夹中的图片路径读取出来,写入到路径文件path.txt中,路径文件中的每一行代表一张图片数据的路径。生成了全部图像的路径文件之后,第二步算法访问路径文件path.txt,根据路径依次读取每一张图片,对每一张图片计算特征值,计算特征值的具体流程如下:
a读取一张图像;
b将图像转换为灰度图像;
c将图像划分为256个相同大小的块,对图像的大小进行压缩操作,将每个块缩小为一个像素点;
d计算压缩后所有像素点的均值;
e将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理。如果压缩像素值大于等于均值,该值置为1,否则,置为0;
f二值化后的256位二进制码作为一张图片的特征值。
生成特征值之后,将该图片的完整路径和特征值逐行写入文件feature.txt。即奇数行存储图像的完整路径,偶数行存储对应的256位图像特征值。
(2)相似图像去重模块S2
在相似图像去重模块,本工具将根据图像预处理模块S1得到的特征文件feature.txt进行图像的相似度辨别。具体实施步骤如下:
a.逐行读取特征文件feature.txt,将奇数行数据保存在奇数行数据存储模块中,将偶数行数据保存在偶数行数据存储模块中;
b.对偶数行数据存储模块进行两两间的256位比较,得出海明距离;
c.将得出的海明距离跟阈值5比较,若小于等于阈值,则判为两图片相似,做去重202处理。
两模块的工作执行完成后,就完成了待检测设备100中所有图像数据的相似相同数据的清洗工作。
本发明是针对相同及相似图片去重的图像数据清洗技术,其测试环境及实验数据为:
1.测试环境:
系统环境:Windows10
处理器:英特尔第三代酷睿i7-3720QM@2.60GHz四核
测试使用图像处理程序库:opencv2.4.9
2.实验数据及结果
244774张MD5值不相同的实网图像数据,背景图片的分辨率分多种,包括:720*480、768*576、1024*768、1280*720等。经测试,精度方面算法对相似图像的去重精度达到98.6%,精度较高;速度方面,算法每秒可以进行1000万次匹配,能够实现快速去重功能。
考虑到目前通过各种途径获取的图像数据中存在很多相同相似的图片,本发明使用了一种对图像分块生成局部特征值的方法,并通过生成特征文件103进行后续的图像特征相似度计算200,前者提高了对相似图片查找的效果,后者提高了整个工作流程的效率。综上所述,本发明在对图片生成特征值的时候考虑了图片的局部性因素,并对图片的局部特征值与全局平均值作比较得出最终的二值化图片特征,这样得出的图片特征值能够很好的保留图片的局部特征信息,同时也很好的保留了每个局部块之间的关系,即使图片在局部发生改变、或者整体对比度亮度发生一定程度的改变,其与原图片之间具有的高度相似性都会被发现,因此该方法在很大程度上提高了对图像数据中相似图片去重的效率和精度。
当实验环境、筛选标准、数据规模、分块数目的多少等参数信息产生变化时,数据清洗的过程和结果也会产生相应变化。以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书为准。
Claims (3)
1.一种针对相同及相似图片去重的图像数据清洗方法,其特征在于:包含图像预处理模块和相似图像去重模块;所述图像预处理模块包括图像数据集合、生成路径文件和生成特征文件;所述相似图像去重模块包括图象特征相似度计算、相似判别和去重;
所述一种针对相同及相似图片去重的图像数据清洗方法还包含如下步骤:
(1)遍历待检测设备中的所有图像数据,生成图像数据集合;
(2)根据所述图像数据集合的路径信息生成路径文件;
(3)根据所述路径文件,依次读取每张图片,对每张图片进行特定值处理,生成特征文件,并将所有图片的特征文件存入内存或文件;
(4)读取保存有所有图片的特征文件的内存或文件,对所有的特征文件进行图像特征相似度计算,根据计算结果进行相似判别,判别图像是否属相同或相似,并将相似和相同的图片找出并完成去重,最后输出清洗后的图像数据集合。
2.根据权利要求1所述的一种针对相同及相似图片去重的图像数据清洗方法,其特征在于:所述步骤(3)中所述特定值处理还包括如下步骤:
a.将图片转换为灰度图像;
b.将所述灰度图像划分为若干个相同大小的块,对图像的大小进行调整,将每个块缩小为一个像素点;
c.计算压缩后所有像素点的均值;
d.将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理;
e.将二值化后的压缩像素值作为图像特征值写入文件,图像路径和图像特征值逐行写入,即奇数行存储图像路径,偶数行存储对应的图像特征值。
3.根据权利要求1所述的一种针对相同及相似图片去重的图像数据清洗方法,其特征在于:所述步骤(4)中所述图像特征相似度计算的方法还包括:设定一个阈值,对所有图像数据的特征值进行海明距离的计算,若海明距离小于或等于这个阈值,则认为两图片相似,予以去重处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710599473.1A CN107480203A (zh) | 2017-07-23 | 2017-07-23 | 一种针对相同及相似图片去重的图像数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710599473.1A CN107480203A (zh) | 2017-07-23 | 2017-07-23 | 一种针对相同及相似图片去重的图像数据清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107480203A true CN107480203A (zh) | 2017-12-15 |
Family
ID=60595065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710599473.1A Pending CN107480203A (zh) | 2017-07-23 | 2017-07-23 | 一种针对相同及相似图片去重的图像数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480203A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334593A (zh) * | 2018-01-30 | 2018-07-27 | 西安电子科技大学 | 一种安全的云环境下的密文图像去重方法、云服务器 |
CN108763570A (zh) * | 2018-06-05 | 2018-11-06 | 北京拓世寰宇网络技术有限公司 | 一种识别相同房源的方法及装置 |
CN109241310A (zh) * | 2018-07-25 | 2019-01-18 | 南京甄视智能科技有限公司 | 人脸图像数据库的数据去重方法与系统 |
WO2019136897A1 (zh) * | 2018-01-10 | 2019-07-18 | 武汉斗鱼网络科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN110334730A (zh) * | 2019-05-09 | 2019-10-15 | 河南萱闱堂医疗信息科技有限公司 | 比较和归档人工智能训练数据集中高相似图片的方法 |
CN110377781A (zh) * | 2019-06-06 | 2019-10-25 | 福建讯网网络科技股份有限公司 | 一种应用鞋底搜索匹配的改进算法 |
CN110490250A (zh) * | 2019-08-19 | 2019-11-22 | 广州虎牙科技有限公司 | 一种人工智能训练集的获取方法及装置 |
CN110781917A (zh) * | 2019-09-18 | 2020-02-11 | 北京三快在线科技有限公司 | 重复图像的检测方法、装置、电子设备及可读存储介质 |
CN110942081A (zh) * | 2018-09-25 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
CN111797894A (zh) * | 2020-05-27 | 2020-10-20 | 北京齐尔布莱特科技有限公司 | 一种图像分类方法及计算设备 |
CN113780042A (zh) * | 2020-11-09 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 图片集操作方法、图片集标注方法和装置 |
CN114120579A (zh) * | 2021-11-26 | 2022-03-01 | 广东电网有限责任公司 | 一种智能井盖监测系统、方法、设备及存储介质 |
CN115098026A (zh) * | 2022-06-27 | 2022-09-23 | 四三九九网络股份有限公司 | 一种基于iOS系统相册保存图片不重复的方法 |
-
2017
- 2017-07-23 CN CN201710599473.1A patent/CN107480203A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136897A1 (zh) * | 2018-01-10 | 2019-07-18 | 武汉斗鱼网络科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN108334593A (zh) * | 2018-01-30 | 2018-07-27 | 西安电子科技大学 | 一种安全的云环境下的密文图像去重方法、云服务器 |
CN108763570A (zh) * | 2018-06-05 | 2018-11-06 | 北京拓世寰宇网络技术有限公司 | 一种识别相同房源的方法及装置 |
CN109241310A (zh) * | 2018-07-25 | 2019-01-18 | 南京甄视智能科技有限公司 | 人脸图像数据库的数据去重方法与系统 |
CN109241310B (zh) * | 2018-07-25 | 2020-05-01 | 南京甄视智能科技有限公司 | 人脸图像数据库的数据去重方法与系统 |
CN110942081A (zh) * | 2018-09-25 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
CN110942081B (zh) * | 2018-09-25 | 2023-08-18 | 北京嘀嘀无限科技发展有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
CN110334730A (zh) * | 2019-05-09 | 2019-10-15 | 河南萱闱堂医疗信息科技有限公司 | 比较和归档人工智能训练数据集中高相似图片的方法 |
CN110334730B (zh) * | 2019-05-09 | 2022-07-29 | 河南萱闱堂医疗信息科技有限公司 | 比较和归档人工智能训练数据集中高相似图片的方法 |
CN110377781A (zh) * | 2019-06-06 | 2019-10-25 | 福建讯网网络科技股份有限公司 | 一种应用鞋底搜索匹配的改进算法 |
CN110490250A (zh) * | 2019-08-19 | 2019-11-22 | 广州虎牙科技有限公司 | 一种人工智能训练集的获取方法及装置 |
CN110781917A (zh) * | 2019-09-18 | 2020-02-11 | 北京三快在线科技有限公司 | 重复图像的检测方法、装置、电子设备及可读存储介质 |
CN110781917B (zh) * | 2019-09-18 | 2021-03-02 | 北京三快在线科技有限公司 | 重复图像的检测方法、装置、电子设备及可读存储介质 |
CN111797894A (zh) * | 2020-05-27 | 2020-10-20 | 北京齐尔布莱特科技有限公司 | 一种图像分类方法及计算设备 |
CN113780042A (zh) * | 2020-11-09 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 图片集操作方法、图片集标注方法和装置 |
CN114120579A (zh) * | 2021-11-26 | 2022-03-01 | 广东电网有限责任公司 | 一种智能井盖监测系统、方法、设备及存储介质 |
CN115098026A (zh) * | 2022-06-27 | 2022-09-23 | 四三九九网络股份有限公司 | 一种基于iOS系统相册保存图片不重复的方法 |
CN115098026B (zh) * | 2022-06-27 | 2024-04-30 | 四三九九网络股份有限公司 | 一种基于iOS系统相册保存图片不重复的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480203A (zh) | 一种针对相同及相似图片去重的图像数据清洗方法 | |
Qi et al. | Pointnet++: Deep hierarchical feature learning on point sets in a metric space | |
Shinde et al. | YOLO based human action recognition and localization | |
Li et al. | Superpixel Masking and Inpainting for Self-Supervised Anomaly Detection. | |
CN111681273B (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
US9053386B2 (en) | Method and apparatus of identifying similar images | |
CN101140216A (zh) | 基于数字图像处理技术的气液两相流流型识别方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN103929644A (zh) | 一种视频指纹库建立、视频指纹识别方法及装置 | |
Li et al. | Enhancing part features via contrastive attention module for vehicle re-identification | |
CN114169381A (zh) | 图像标注方法、装置、终端设备及存储介质 | |
Dong et al. | Locally directional and extremal pattern for texture classification | |
CN110851627B (zh) | 一种用于描述全日面图像中太阳黑子群的方法 | |
CN116311462A (zh) | 一种结合上下文信息和vgg19的人脸图像修复识别方法 | |
CN111709338B (zh) | 一种用于表格检测的方法、装置及检测模型的训练方法 | |
CN110516640B (zh) | 一种基于特征金字塔联合表示的车辆再辨识方法 | |
CN114565511B (zh) | 基于全局单应性估计的轻量级图像配准方法、系统及装置 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
JP5095790B2 (ja) | 特徴量算出装置及び識別装置 | |
KR101572330B1 (ko) | 동영상의 근복사 검출 방법 및 시스템 | |
KR20160030871A (ko) | 그래픽 프로세싱 유닛을 사용하여 히스토그램 계산을 위한 시스템 및 방법 | |
JP6336827B2 (ja) | 画像検索装置、画像検索方法および検索システム | |
Liu et al. | A lightweight and efficient network for logistics truck scene semantic segmentation | |
Ren et al. | 3D reconstruction from monocular images based on deep convolutional networks | |
CN111881942B (zh) | 一种基于压缩学习的目标分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171215 |
|
WD01 | Invention patent application deemed withdrawn after publication |