CN108259909B

CN108259909B - 基于显著性对象检测模型的图像压缩方法

Info

Publication number: CN108259909B
Application number: CN201810135190.6A
Authority: CN
Inventors: 余春艳; 徐小丹; 杨素琼; 陈立; 王秀
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2020-09-01
Anticipated expiration: 2038-02-09
Also published as: CN108259909A

Abstract

本发明是一种基于显著性对象检测的图像压缩方法。首先，在显著性对象检测模型中，采用去卷积注意力残差模块来增加上下文信息，以提高检测精度。然后，采用贪婪非极大值抑制方法从许多显著性对象候选检测框中消除冗余的检测框，找到最佳的显著性对象位置。最后，利用基于小波变换的图像压缩标准对显著性的区域与背景采取不同的压缩率进行压缩。

Description

基于显著性对象检测模型的图像压缩方法

技术领域

本发明属于数字图像处理领域，具体涉及一种基于显著性对象检测模型的图像压缩方法。

背景技术

随着科学技术的迅速发展，所获得的图像分辨率越来越高，目前的传输速率还无法满足需求，因此需要对图像进行压缩处理。图像压缩是图像处理的重要研究领域，现有的压缩方法要么丢失重要的细节信息，无法满足实际的应用需要，要么压缩率过低，难以达到实时处理的要求。将视觉注意机制引入到图像压缩中，对显著性区域与背景采用不同的压缩率，这样不仅可以对整个图像达到一个高的压缩率，而且还可以保持重要区域的高分辨率，实现了可变分辨率的图像压缩。

发明内容

本发明的目的在于针对现有的图像压缩方法存在的问题，提供一种基于显著性对象检测的图像压缩方法，本发明能够通过检测到的显著性对象，从而对该对象区域与背景通过不同压缩率进行压缩。

为实现上述目的，本发明采用以下技术方案：一种基于显著性对象检测的图像压缩方法，其包括以下步骤：步骤S1：使用有去卷积注意力残差模块的显著性对象检测模型获取候选检测框；步骤S2：采用贪婪非极大值抑制方法对从所述候选检测框，进行冗余检测框的消除；步骤S3：然后根据检测到的显著性对象根据置信度值减少压缩比例对图像进行压缩。

在本发明一实施例中，所述显著性对象检测模型包含去卷积注意力残差模块、定位预测模块及类别预测模块。

进一步的，去卷积注意力残差模块具体操作如下：设输入分别为特征图C₁和特征图C₂，其大小分别为(h₁,w₁,k₁)和(h₂,w₂,k₂)且特征图C₁的尺寸小于特征图C₂的尺寸；第一层为去卷积层，使用k₂个卷积核，尺寸为(4，4，k₁)，激活函数为ReLU函数，输入为特征图C₁；第二层为卷积层，使用k₂个卷积核，尺寸为(1，1，k₂)，激活函数为Sigmoid函数；第三层为Eltwise层，对第一层与第二层输出进行逐像素相加，激活函数为ReLU函数；第四层为剪切层，根据特征图C₂的尺寸对上一层输出进行剪切；第五层为Eltwise层，对特征图C₂与上一层输出进行逐像素相乘，激活函数为ReLU函数。

进一步的，定位预测模块具体操作如下：设输入特征图C₁，其大小为(h₁,w₁,k₁)；第一层为卷积层，使用16个卷积核，尺寸为(1，1，k₁)；第二层为Permute层，对特征进行重新排列，顺序为(0,2,3，1)；第三层为Flatten层，将特征平铺成一维。

进一步的，类别预测模块具体操作如下：设输入特征图C₁，其大小为(h₁,w₁,k₁)；第一层为卷积层，使用8个卷积核，尺寸为(1，1，k₁)；第二层为Permute层，对特征进行重新排列，顺序为(0,2,3，1)；第三层为Flatten层，将特征平铺成一维。

在本发明一实施例中，所述显著性对象检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第二层由两个卷积层构成，其中第一个卷积层使用64个卷积核，尺寸为(4，4，3)，第二个卷积层使用64个卷积核，尺寸为(3，3，64)，激活函数为ReLU函数；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第四层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为(3，3，64)，第二个卷积层使用128个卷积核，尺寸为(3，3，128)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第六层由三个卷积层构成，其中第一个卷积层使用256个卷积核，尺寸为(3，3，128)，第二个卷积层使用256个卷积核，尺寸为(3，3，256)，第三个卷积层使用256个卷积核，尺寸为(3，3，256)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第八层由三个卷积层构成，其中第一个卷积层使用512个卷积核，尺寸为(3，3，256)，第二个卷积层使用512个卷积核，尺寸为(3，3，512)，第三个卷积层使用512个卷积核，尺寸为(3，3，512)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第十层由三个卷积层构成，其中第一个卷积层使用512个卷积核，尺寸为(3，3，512)，第二个卷积层使用512个卷积核，尺寸为(3，3，512)，第三个卷积层使用512个卷积核，尺寸为(3，3，512)，激活函数为ReLU函数；

第十一层为池化层，尺寸为(3，3)，扩充边缘尺寸为1，激活函数为ReLU函数；

第十二层由两个卷积层构成，其中第一个卷积层使用1024个卷积核，尺寸为(3，3，512)，第二个卷积层使用512个卷积核，尺寸为(3，3，1024)，激活函数为ReLU函数；

第十三层由两个卷积层构成，其中第一个卷积层使用256个卷积核，尺寸为(3，3，512)，第二个卷积层使用512个卷积核，尺寸为(3，3，256)，激活函数为ReLU函数；

第十四层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为(3，3，512)，第二个卷积层使用256个卷积核，尺寸为(3，3，128)，激活函数为ReLU函数；

第十五层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为(3，3，256)，第二个卷积层使用256个卷积核，尺寸为(3，3，128)，激活函数为ReLU函数；

第十六层为去卷积注意力残差模块，其中两个输入分别为第十五层输出与第十四层输出；

第十七层为去卷积注意力残差模块，其中两个输入分别为第十六层输出与第十三层输出；

第十八层为去卷积注意力残差模块，其中两个输入分别为第十七层输出与第十二层输出；

第十九层为去卷积注意力残差模块，其中两个输入分别为第十八层输出与第八层输出；

第二十层为定位预测模块，其中输入为第十九层输出；

第二十一层为类别预测模块，其中输入为第十九层输出；

第二十二层为PriorBox层，使用第一层与第十九层输出作为输入，最大最小尺寸参数分别为44.8与22.4，长宽比率参数为2；

第二十三层为定位预测模块，其中输入为第十八层输出；

第二十四层为类别预测模块，其中输入为第十八层输出；

第二十五层为PriorBox层，使用第一层与第十八层输出作为输入，最大最小尺寸参数分别为96.32与44.8，长宽比率参数为2和3；

第二十六层为定位预测模块，其中输入为第十七层输出；

第二十七层为类别预测模块，其中输入为第十七层输出；

第二十八层为PriorBox层，使用第一层与第十七层输出作为输入，最大最小尺寸参数分别为147.84与96.32，长宽比率参数为2和3；

第二十九层为定位预测模块，其中输入为第十六层输出；

第三十层为类别预测模块，其中输入为第十六层输出；

第三十一层为PriorBox层，使用第一层与第十六层输出作为输入，最大最小尺寸参数分别为199.36与147.84，长宽比率参数为2和3；

第三十二层为定位预测模块，其中输入为第十四层输出；

第三十三层为类别预测模块，其中输入为第十四层输出；

第三十四层为PriorBox层，使用第一层与第十四层输出作为输入，最大最小尺寸参数分别为250.88与199.36，长宽比率参数为2和3；

第三十五层为Concat层，对第二十层、第二十三层、第二十六层、第二十九层、第三十二层输出进行通道连接；

第三十六层为Concat层，对第二十一层、第二十四层、第二十七层、第三十层、第三十三层输出进行通道连接；

第三十七层为Concat层，对第二十二层、第二十五层、第二十八层、第三十一层、第三十四层输出进行通道连接；

第三十八层为Reshape层，改变第三十六层输出维度，参数为(0，-1，2)，激活函数为Softmax函数；

第三十九层为Flatten层，将第三十八层输出平铺成一维；

第四十层为DetectionOutput层，输入为第三十六层、第三十九层、第三十七层，类别参数为2，得到最终结果。

在本发明一实施例中，所述步骤S2中，贪婪非极大值抑制方法的步骤如下：步骤S21：将候选显著性对象检测框按照置信度进行从高到低的排序；步骤S22：计算当前最大置信度候选显著性对象检测框与其余候选显著性对象检测框的交并比，去除交并比大于设定的阈值的候选显著性对象检测框；步骤S23：重复上面的过程，直至初始候选显著性对象检测框为空。

在本发明一实施例中，所述步骤S3中，对于不同的显著性对象区域，采用了不同压缩率的JPEG2000的图像压缩方法；对于非显著性对象区域采用最高的压缩率，其余部分根据置信度值从高到低的顺序采用有低到高的压缩率进行压缩。

与现有技术相比，本发明通过检测到的显著性对象，从而对该对象区域与背景通过不同压缩率进行压缩；不仅可以对整个图像达到一个高的压缩率，而且还可以保持重要区域的高分辨率，实现了可变分辨率的图像压缩。

附图说明

图1是本发明的基于显著性对象检测的图像压缩方法的结构示意图。

图2是本发明的执行结果示例图，左图为原图；有图为本发明对图像压缩的结果。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明的目的在于针对现有的图像压缩方法存在的问题，提供一种基于显著性对象检测的图像压缩方法，本发明能够通过检测到的显著性对象，从而对该对象区域与背景通过不同压缩率进行压缩。本发明的技术方案如下：

S1.使用去卷积注意力残差模块的显著性对象检测模型获取候选检测框；

S2.采用贪婪非极大值抑制方法对从所述候选检测框，进行冗余检测框的消除；

S3.然后根据检测到的显著性对象根据置信度值减少压缩比例对图像进行压缩。

进一步的，其所述显著性对象检测模型包含去卷积注意力残差模块、定位预测模块、类别预测模块。其中去卷积注意力残差模块具体操作如下：设输入分别为特征图C₁和特征图C₂，其大小分别为(h₁,w₁,k₁)和(h₂,w₂,k₂)且特征图C₁的尺寸小于特征图C₂的尺寸。第一层为去卷积层，使用k₂个卷积核，尺寸为(4，4，k₁)，激活函数为ReLU函数，输入为特征图C₁；第二层为卷积层，使用k₂个卷积核，尺寸为(1，1，k₂)，激活函数为Sigmoid函数；第三层为Eltwise层，对第一层与第二层输出进行逐像素相加，激活函数为ReLU函数；第四层为剪切层，根据特征图C₂的尺寸对上一层输出进行剪切；第五层为Eltwise层，对特征图C₂与上一层输出进行逐像素相乘，激活函数为ReLU函数。定位预测模块具体操作如下：设输入特征图C₁，其大小为(h₁,w₁,k₁)。第一层为卷积层，使用16个卷积核，尺寸为(1，1，k₁)；第二层为Permute层，对特征进行重新排列，顺序为(0,2,3，1)；第三层为Flatten层，将特征平铺成一维；类别预测模块具体操作如下：设输入特征图C₁，其大小为(h₁,w₁,k₁)。第一层为卷积层，使用8个卷积核，尺寸为(1，1，k₁)；第二层为Permute层，对特征进行重新排列，顺序为(0,2,3，1)；第三层为Flatten层，将特征平铺成一维；

其所述显著性对象检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第二十层为定位预测模块，其中输入为第十九层输出；

第二十一层为类别预测模块，其中输入为第十九层输出；

第二十三层为定位预测模块，其中输入为第十八层输出；

第二十四层为类别预测模块，其中输入为第十八层输出；

第二十六层为定位预测模块，其中输入为第十七层输出；

第二十七层为类别预测模块，其中输入为第十七层输出；

第二十九层为定位预测模块，其中输入为第十六层输出；

第三十层为类别预测模块，其中输入为第十六层输出；

第三十二层为定位预测模块，其中输入为第十四层输出；

第三十三层为类别预测模块，其中输入为第十四层输出；

第三十九层为Flatten层，将第三十八层输出平铺成一维；

第四十层为DetectionOutput层，输入为第三十六层、第三十九层、第三十七层，类别参数为2，得到最终结果；

进一步的，其所述贪婪非极大值抑制方法步骤如下：

首先，将候选显著性对象检测框按照置信度进行从高到低的排序；然后，计算当前最大置信度候选显著性对象检测框(即排完序后的第一个检测框)与其余候选显著性对象检测框的交并比，去除交并比大于设定的阈值的候选显著性对象检测框；最后，重复上面的过程，直至初始候选显著性对象检测框为空。

所述步骤S3中，对于不同的显著性对象区域，采用了不同压缩率的JPEG2000的图像压缩方法。对于非显著性对象区域采用最高的压缩率，其余部分根据置信度值从高到低的顺序采用有低到高的压缩率进行压缩。其中，将背景区域的置信度值置为0，设置信度值为conf，则压缩率为c＝1-f(conf).其中f(·)为分段函数，公式如下：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于显著性对象检测的图像压缩方法，其特征在于：包括以下步骤：

步骤S1：使用有去卷积注意力残差模块的显著性对象检测模型获取候选检测框；

步骤S2：采用贪婪非极大值抑制方法对从所述候选检测框，进行冗余检测框的消除；

步骤S3：然后根据检测到的显著性对象根据置信度值减少压缩比例对图像进行压缩；

所述显著性对象检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第二层由两个卷积层构成，其中第一个卷积层使用64个卷积核，尺寸为（4，4，3），第二个卷积层使用64个卷积核，尺寸为（3，3，64），激活函数为ReLU函数；

第三层为池化层，尺寸为（2，2），激活函数为ReLU函数；

第四层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为（3，3，64），第二个卷积层使用128个卷积核，尺寸为（3，3，128），激活函数为ReLU函数；

第五层为池化层，尺寸为（2，2），激活函数为ReLU函数；

第六层由三个卷积层构成，其中第一个卷积层使用256个卷积核，尺寸为（3，3，128），第二个卷积层使用256个卷积核，尺寸为（3，3，256），第三个卷积层使用256个卷积核，尺寸为（3，3，256），激活函数为ReLU函数；

第七层为池化层，尺寸为（2，2），激活函数为ReLU函数；

第八层由三个卷积层构成，其中第一个卷积层使用512个卷积核，尺寸为（3，3，256），第二个卷积层使用512个卷积核，尺寸为（3，3，512），第三个卷积层使用512个卷积核，尺寸为（3，3，512），激活函数为ReLU函数；

第九层为池化层，尺寸为（2，2），激活函数为ReLU函数；

第十层由三个卷积层构成，其中第一个卷积层使用512个卷积核，尺寸为（3，3，512），第二个卷积层使用512个卷积核，尺寸为（3，3，512），第三个卷积层使用512个卷积核，尺寸为（3，3，512），激活函数为ReLU函数；

第十一层为池化层，尺寸为（3，3），扩充边缘尺寸为1，激活函数为ReLU函数；

第十二层由两个卷积层构成，其中第一个卷积层使用1024个卷积核，尺寸为（3，3，512），第二个卷积层使用512个卷积核，尺寸为（3，3，1024），激活函数为ReLU函数；

第十三层由两个卷积层构成，其中第一个卷积层使用256个卷积核，尺寸为（3，3，512），第二个卷积层使用512个卷积核，尺寸为（3，3，256），激活函数为ReLU函数；

第十四层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为（3，3，512），第二个卷积层使用256个卷积核，尺寸为（3，3，128），激活函数为ReLU函数；

第十五层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为（3，3，256），第二个卷积层使用256个卷积核，尺寸为（3，3，128），激活函数为ReLU函数；

第二十层为定位预测模块，其中输入为第十九层输出；

第二十一层为类别预测模块，其中输入为第十九层输出；

第二十三层为定位预测模块，其中输入为第十八层输出；

第二十四层为类别预测模块，其中输入为第十八层输出；

第二十六层为定位预测模块，其中输入为第十七层输出；

第二十七层为类别预测模块，其中输入为第十七层输出；

第二十九层为定位预测模块，其中输入为第十六层输出；

第三十层为类别预测模块，其中输入为第十六层输出；

第三十二层为定位预测模块，其中输入为第十四层输出；

第三十三层为类别预测模块，其中输入为第十四层输出；

第三十八层为Reshape层，改变第三十六层输出维度，参数为（0，-1，2），激活函数为Softmax函数；

第三十九层为Flatten层，将第三十八层输出平铺成一维；

2.根据权利要求1所述的基于显著性对象检测的图像压缩方法，其特征在于：所述显著性对象检测模型包含去卷积注意力残差模块、定位预测模块及类别预测模块。

3.根据权利要求2所述的基于显著性对象检测的图像压缩方法，其特征在于：去卷积注意力残差模块具体操作如下：设输入分别为特征图C₁和特征图C₂，其大小分别为(h₁ ,w₁ ,k₁)和(h₂ ,w₂ ,k₂)且特征图C₁的尺寸小于特征图C₂的尺寸；第一层为去卷积层，使用k₂个卷积核，尺寸为(4，4，k₁)，激活函数为ReLU函数，输入为特征图C₁；第二层为卷积层，使用k₂个卷积核，尺寸为(1，1，k₂)，激活函数为Sigmoid函数；第三层为Eltwise层，对第一层与第二层输出进行逐像素相加，激活函数为ReLU函数；第四层为剪切层，根据特征图C₂的尺寸对上一层输出进行剪切；第五层为Eltwise层，对特征图C₂与上一层输出进行逐像素相乘，激活函数为ReLU函数。

4.根据权利要求2所述的基于显著性对象检测的图像压缩方法，其特征在于：定位预测模块具体操作如下：设输入特征图C₁，其大小为(h₁ ,w₁ ,k₁)；第一层为卷积层，使用16个卷积核，尺寸为(1，1，k₁)；第二层为Permute层，对特征进行重新排列，顺序为(0 ,2 ,3，1)；第三层为Flatten层，将特征平铺成一维。

5.根据权利要求2所述的基于显著性对象检测的图像压缩方法，其特征在于：类别预测模块具体操作如下：设输入特征图C1，其大小为(h₁ ,w₁ ,k₁)；第一层为卷积层，使用8个卷积核，尺寸为(1，1，k₁)；第二层为Permute层，对特征进行重新排列，顺序为(0 ,2 ,3，1)；第三层为Flatten层，将特征平铺成一维。

6.根据权利要求1所述的基于显著性对象检测的图像压缩方法，其特征在：所述步骤S2中，贪婪非极大值抑制方法的步骤如下：

步骤S21：将候选显著性对象检测框按照置信度进行从高到低的排序；

步骤S22：计算当前最大置信度候选显著性对象检测框与其余候选显著性对象检测框的交并比，去除交并比大于设定的阈值的候选显著性对象检测框；

步骤S23：重复上面的过程，直至初始的候选显著性对象检测框冗余数量为空。

7.根据权利要求1所述的基于显著性对象检测的图像压缩方法，其特征在于：所述步骤S3中，对于不同的显著性对象区域，采用了不同压缩率的JPEG2000的图像压缩方法；对于非显著性对象区域采用最高的压缩率，其余部分根据置信度值从高到低的顺序采用有低到高的压缩率进行压缩。