CN112200740B

CN112200740B - 一种基于图像边缘检测的图像分块去重方法和系统

Info

Publication number: CN112200740B
Application number: CN202011070261.2A
Authority: CN
Inventors: 胡燏翀; 徐佳
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2022-05-31
Anticipated expiration: 2040-10-08
Also published as: CN112200740A

Abstract

本发明公开了一种基于图像边缘检测的图像分块去重方法和系统，属于计算机存储领域。本发明在图片在二维像素矩阵的状态下进行分块，并利用均值哈希算法计算小块的标识，避免了编码对去重造成的影响。图片的均值哈希算法则用于计算小图片块的指纹，从而判断小图片块是否重复。算法简单计算速度快，对内容敏感。对于两张相似冗余度很高的图片，分块操作将它们完全相同的部分与存在差异的部分进行了分割，完全相同的部分作为冗余块被去掉，存在差异的部分则被保留下，从而实现了图片的去重。本发明利用图像边缘检测技术来确定分块方式，同样均匀分块的条件下，分块效果实现了画面中主要物体分离的分块方式最终实现的去重率最高。

Description

一种基于图像边缘检测的图像分块去重方法和系统

技术领域

本发明属于计算机存储技术领域，更具体地，涉及一种基于图像边缘检测的图像分块去重方法和系统。

背景技术

随着互联网与其应用的飞速发展，后台服务提供者们的信息存储系统的中的数据量正在爆炸式的增长，其存储成本随之增加。数据去重技术是一种数据无损压缩技术，由于其具有可扩展性强和压缩吞吐率高等特点，目前已被广泛地应用在数据存储与备份系统中。数据去重技术是将存储的文件在数据流格式下进行划分为多个数据块，并采用特定的算法对数据块进行其指纹摘要的计算，计算得到的指纹摘要则是作为数据块的唯一标识，用以匹配确定重复数据块。数据去重技术能够显著降低存储空间开销，从而达到降低存储成本的目的。

现有技术存在一种文件分块去重技术，其本质上是在一维的文件流上进行分块，通过特定的算法生成文件块的标识，从而确定重复的文件块，并将重复的文件块去掉。图片本身是二维的，它在被传递或者存储前会被编码压缩为一维的文件。同一张图片如果采用不同编码压缩方式，最后得到的文件流会是完全不同的，使用文件分块去重技术将达不到去重的目的。除此之外，对于连拍图片等图片数据，它们两张图片之间本身就存在大量的相同感知信息，但是由于内容上的细微差异它们在编码流上也是不同的，使用文件分块去重技术也达不到去重的目的。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于图像边缘检测的图像分块去重方法和系统，其目的在于利用图像的检测算法提取图片的内容信息，根据图片的内容信息确定图片的分块方式，再利用图片均值哈希算法计算出图片块的唯一标识指纹，以此判断图片块是否为重复图片块，实现对感知高度相似而在编码数据流上并不相同的图片数据集(例如，连拍图片数据集)中的图片进行数据去重，从而达到减小图片集的总存储空间、节约存储成本的目的。

为实现上述目的，按照本发明的第一方面，提供了一种基于图像边缘检测的图像分块去重方法，该方法包括以下步骤：

S1.从相似图片集中随机选取一张图片作为代表图片，对代表图片进行边缘检测，得到不同物体的边缘位置信息，初始化指纹库为空；

S2.对相似图片集中每一张图片进行以下处理，直至所有图片均处理完毕：

(1)利用代表图片得到的物体的边缘位置信息，对相似图片集中的当前图片进行分块，使得分块后的每个图片块尽可能只包含一个物体；

(2)计算每个图片块的指纹，每计算出一个图片块的指纹后遍历指纹库，判断当前图片块的指纹是否已经存在，若存在，则不保存该图片块；若不存在，则保存该图片块，并将图片块的指纹加入指纹库。

优选地，对代表图片进行边缘检测，得到不同物体的边缘位置信息，具体如下：

①对代表图片进行边缘检测，检测出具有完整边缘的物体，以及，检测出的边缘和图片边缘形成完整闭环的物体；

②获取所有边缘像素点的色彩RGB值；

③对每两个边缘像素点进行以下判断，直至所有边缘像素点处理完毕：如果两个边缘像素点的色彩RGB值之间的汉明距离大于第一阈值且这两个像素位置的汉明距离大于第二阈值，则认为这两个边缘像素分别属于两个物体，否则，认为属于同一个物体；

④对于同一个物体的边缘像素，记录其四个方向上的极值，将其整合为物体的位置信息(x，y，w，h)，其中，x，y为以左上角为原点，矩形左上角的坐标，w，h分别代表矩形的宽和高。

优选地，边缘检测采用基于Canny算子的边缘检测算法。

优选地，采用均值哈希算法，计算图片块的指纹。

优选地，采用均值哈希算法，计算图片块的指纹，具体如下：

I.将图片块进行缩放，缩放到8×8的尺寸；

II.将缩放之后的图片转化为灰度图；

III.计算所有64个像素的灰度平均值；

IV.将每个像素的灰度值与平均值进行比较，大于或等于平均值的记为1，小于平均值的记为0；

V.从左至右，从上至下，将步骤IV中的比较结果组合在一起，构成图片块64位的哈希指纹。

优选地，该方法在步骤(2)之后还包括：

步骤(3)根据当前图片的所有小图片块的存储信息，得到小图片块还原得到原图片关系的图片谱。

为实现上述目的，按照本发明的第二方面，提供了一种基于图像边缘检测的图像分块去重系统，计算机可读存储介质和处理器；

计算机可读存储介质用于存储可执行指令；

处理器用于读取计算机可读存储介质中存储的可执行指令，执行第一方面的基于图像边缘检测的图像分块去重方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在图片在二维像素矩阵的状态下进行分块，并利用均值哈希算法计算得到的小块的标识。不同于文件分块去重，本发明的分块是在图片在像素矩阵的状态下进行的，避免了编码对去重造成的影响。图片的均值哈希算法则用于计算小图片块的指纹，从而判断小图片块是否重复。算法简单计算速度快，对内容敏感。对于两张相似冗余度很高的图片，分块步骤将它们完全相同的部分与存在差异的部分进行了分割，完全相同的部分作为冗余块被去掉，存在差异的部分则被保留了下了，从而实现了图片的去重。

(2)为了进一步提升分块去重的去重效果，本发明利用了图像边缘检测技术，来确定分块方式。在实验研究中发现，同样均匀分块的条件下，分块效果实现了画面中主要物体分离的分块方式最终实现的去重率最高。

附图说明

图1为本发明提供的一种基于图像边缘检测的图像分块去重方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的图像分块去重方法的输入为内容相似的图片，输出为内容基本不存在相似的小图片块与保存着小图片块还原得到原图片关系的图片谱文件，即对感知高度相似、编码数据流不同的相似图片数据集进行了重复数据删除步骤，提高了存储系统的空间利用率，从而降低了大型图片存储系统的存储成本开销。

如图1所示，本发明公开了一种基于图像边缘检测的图像分块去重方法，该方法包括：

步骤S1.对相似图片集中的图像进行边缘检测，确定画面中的物体位于图像中的位置。

该步骤对于一个数据集只用进行一次。输入作为数据集代表的单张图片，输出是图片中物体的位置信息。对进入系统的图片进行边缘检测和色彩分析。

边缘检测，确定画面中的物体位于图像中的位置。物体在图片中位置以(x,y,w,h)表示，其中，x、y为以左上角为原点，矩形左上角的坐标。w、h分别代表矩形的宽和高。

本实施例中采用的基于Canny算子的边缘检测算法。这里的“物体”指的是边缘检测算法能够检测出的完整边缘的物体，或者是检测出的边缘和图片边缘形成完整闭环的物体。

色彩分析，获取边缘检测中，确定的边缘像素点的色彩RGB值(r，b，g)。边缘检测结果为检测出的物体边缘的像素，对于不同物体的边缘是不加以区分的。结合色彩分析的目的就是对于不同的物体边缘进行区分。对于获取到的色彩RGB值，如果两个值之间的汉明距离大于100且这两个像素位置(x，y)的汉明距离大于20，则认为这两个边缘像素分别属于两个物体。对于同一个物体的边缘像素，记录其四个方向上的极值(每个方向上最靠外的)，将其整合为物体的位置信息(x，y，w，h)，x，y，w，h确定出的为能圈住物体的最小矩形。

步骤S2.利用图像中物体位置信息对所有图片进行分块。

根据图片的内容信息确定图片的分块方式，图片分块方案的原则是：尽量将画面中不同物体划分开来，分块得到的每个图片块尽量仅包含一个物体。输入是单张图片、图片中物体的位置信息，输出是分块完成后的小图片块。

步骤S3.通过均值哈希算法计算每个图片块的指纹。

输入是所有的小图片块，输出是所有小图片块的指纹标识。

通过均值哈希算法计算每个图片块的指纹包括以下步骤：

(1)将图片块进行缩放，缩放到8×8的尺寸；

(2)将缩放之后的图片转化为灰度图；

(3)计算所有64个像素的灰度平均值；

(4)将每个像素的灰度值与平均值进行比较，大于或等于平均值的记为1，小于平均值的记为0；

(5)从左至右，从上至下，将(4)中的比较结果组合在一起，构成图片块64位的哈希指纹。

步骤S4.对系统中已有的指纹进行遍历，判断新生成的指纹是否已经存在，若存在，则不保存该图片块；若不存在，则保存该图片块。

该步骤对每个小图片块都会进行一次。输入是系统中存在的指纹索引，单个小图片块的指纹；输出是小图片块的存储信息。

步骤S5.对系统中原图片的图片谱信息进行相应的维护。

输入是一张图片的所有小图片块的存储信息，输出是小图片块还原得到原图片关系的图片谱。

上述步骤S2～S5对于每张图片会进行一次。

本发明提供了一种基于图像边缘检测与均值哈希的图像分块去重系统，是一个简易的图片存储系统。该图片存储系统的功能模块结构包括：检测模块、分块去重模块、索引模块和存储模块。

检测模块，其主要功能是对进入系统的图片进行边缘检测和色彩分析，并将边缘检测结果与色彩分析结果相结合，得到画面物体在图片中位置，从而确定图片的分块方案。图片分块方案的原则是尽量将画面中不同物体划分开来，分块得到的每个图片块尽量仅包含一个物体。

分块去重模块，其主要功能是对图片进行分块与指纹计算。它对还未进行分块的图片根据检测模块得到的分块方案对其进行分块；对分块后得到的小图片块根据均值哈希算法计算其唯一标识指纹，并将其传输到索引模块。根据索引模块的反馈结果，将需要存储的图片块存储到存储模块。

索引模块，其主要功能是存储所有图片块的指纹。对于分块去重模块传递来的新指纹，索引模块会对原有指纹进行遍历，判断该指纹是否已经存在(指纹存在即意味着系统中已存在感知内容相同的图片块)，若不存在则对该指纹进行保存，若存在则不保存，并将结果反馈给去重模块。

存储模块，其主要功能是存储还原得到原图所需要的图片谱与图片块。图片谱描述的是原图与小图片块的组成关系。

本实施例采取拍摄的连拍图片数据集：连拍数据集1、连拍数据集2、连拍数据集3，分别作为图片集1、图片集2和图片集3。连拍数据集1采集于2020年5月3日下午16:37分，是对窗外随风而动的树木与三栋高楼进行了连拍。此数据集包括95张照片，每张照片的尺寸为4032×3024。连拍数据集2采集于2020年6月28日下午15:13分，是对窗外下雨天的两栋高楼与多栋矮楼以及树木云朵进行了连拍。此数据集包括98张照片，每张照片的尺寸为4032×3024。连拍数据集3采集于2020年6月20日下午15:14分，是对窗外雨天独栋楼房及其楼下树木进行了连拍。此数据集包括81张照片，每张照片的尺寸为3024×4032。

采用本发明的方法进行处理后，得到的去重率结果如表1所示。

表1

测试数据集	图片集1	图片集2	图片集3
				去重率	13.86％	24.82％	23.58％

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像边缘检测的图像分块去重方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述对代表图片进行边缘检测，得到不同物体的边缘位置信息，具体如下：

①对代表图片进行边缘检测，检测出完整物体边缘，以及，和图片边缘形成完整闭环的物体边缘；

②获取所有边缘像素点的色彩RGB值；

④对于同一个物体的边缘像素，记录其四个方向上的极值，将其整合为物体的位置信息(x,y,w,h)，其中，x,y,w,h确定出能圈住物体的最小矩形，x,y为最小矩形左上角的坐标，w,h分别代表最小矩形的宽和高。

3.如权利要求2所述的方法，其特征在于，所述边缘检测采用基于Canny算子的边缘检测算法。

4.如权利要求1至3任一项所述的方法，其特征在于，采用均值哈希算法，计算图片块的指纹。

5.如权利要求4所述的方法，其特征在于，所述采用均值哈希算法，计算图片块的指纹，具体如下：

I.将图片块进行缩放，缩放到8×8的尺寸；

II.将缩放之后的图片块转化为灰度图；

III.计算所有64个像素的灰度平均值；

6.如权利要求1至3任一项所述的方法，其特征在于，该方法在步骤(2)之后还包括：

7.一种基于图像边缘检测的图像分块去重系统，其特征在于，计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至6任一项所述的基于图像边缘检测的图像分块去重方法。