CN111935487B

CN111935487B - 一种基于视频流检测的图像压缩方法及系统

Info

Publication number: CN111935487B
Application number: CN202010807779.3A
Authority: CN
Inventors: 汪礼君
Original assignee: Beijing Guanghui Jintong Education Technology Co ltd
Current assignee: Beijing Guanghui Jintong Education Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-08-12
Anticipated expiration: 2040-08-12
Also published as: CN111935487A

Abstract

本发明涉及一种图像压缩的技术领域，揭露了一种基于视频流检测的图像压缩方法，包括：获取待检测视频流，利用目标检测模型检测视频流中的目标图像，并提取所述目标图像；利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝，并利用剪枝后的目标检测模型提取目标图像特征；使用基于滑动窗口的特征切分方法，对目标图像特征进行切分；利用基于变换域的编码采样算法对切分后的特征进行编码处理，完成目标图像的压缩。本发明还提供了一种基于视频流检测的图像压缩系统。本发明实现了图像的压缩。

Description

一种基于视频流检测的图像压缩方法及系统

技术领域

本发明涉及图像压缩的技术领域，尤其涉及一种基于视频流检测的图像压缩方法及系统。

背景技术

随着移动设备的快速迭代更新，人们可以及时搜索所需的信息，并相互传输。简简单单的文字传输信息已不能满足需求，语言和图像作为传递信息的载体，越来越受到大家的欢迎，使用频率逐渐上升。尤其是图像，传达着文字和语言所不能替代的信息。同时，随着信息化的发展，网络中的视频量也越来越大，如何从视频流中获得想要的图像，并高效地传输图像数据信息，将成为当前研究的热门话题。

现有图像压缩算法主要有分形压缩编码算法，但是在分形图像编码过程中，需要在海量码本中搜索最佳匹配块，这需要耗费大量的时间，不利于分形图像压缩编码的推广和应用，并且在编码过程中会出现“块效应”，这也影响着重构图像质量。

鉴于此，如何检测到视频流中的目标图像，并在保证目标图像压缩质量的基础上，对目标图像的进行更为快速的压缩编码，同时对现有压缩图像重建算法进行改进，从而实现对目标图像的压缩，成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于视频流检测的图像压缩方法，通过利用一种目标检测算法检测到视频流中的目标图像，并提出一种图像编码算法，利用该图像编码算法对视频流中的目标图像进行编码处理，实现了目标图像的压缩。

为实现上述目的，本发明提供的一种基于视频流检测的图像压缩方法，包括：

获取待检测视频流，利用目标检测网络提取视频流帧特征；

利用光流网络估计视频流中当前帧的视频流特征和临近帧的视频流特征之间的流场，得到当前帧的扭曲特征；

计算当前帧的扭曲特征与当前帧的视频流特征之间的余弦相似度，并基于两者的余弦相似度进行帧权重的赋值；

利用基于帧权重的特征聚类公式进行帧特征的聚类，利用汉明距离计算当前帧的聚类特征与视频流帧特征之间的相似性，选取相似度最高的K个图像作为视频流中所检测到的目标图像；

利用自适应剪枝算法对目标检测网络中的卷积核和参数进行剪枝，并利用剪枝后的目标检测模型提取目标图像特征；

使用基于滑动窗口的特征切分方法，对目标图像特征进行切分；

利用基于变换域的编码采样算法对切分后的特征进行编码处理，完成目标图像的压缩。

可选地，所述利用目标检测网络提取视频流帧特征，包括：

对于每一帧图像I，所述目标检测网络所生成的特征图为：

f_I＝N_feat(I)

其中：

N_feat为目标检测网络ResNet-101残差网络结构。

可选地，所述利用光流网络估计视频流中当前帧的视频流特征和临近帧的视频流特征之间的流场，包括：

利用光流网络F估计视频流中当前帧I_i和临近帧I_j之间的流场M_i→j＝F(I_i，I_j)，根据光流，临近帧的特征图可扭曲至当前帧，此时当前帧累积了多个附近帧的特征图，其中扭曲函数定义为：

f_j→i＝W(f_j，M_i→j)

其中：

W(·)为双线性扭曲函数，应用于特征图每一通道的位置；

f_j→i为从j帧向i帧扭曲后的特征图；

所述光流网络采用前后两帧图像堆叠的方式作为网络输入，网络通过多个卷积层的叠加缩小特征图的尺寸，并利用反卷积和双线性插值将经过缩小的特征图放大至图像尺寸，其中将反卷积后得到的特征图、卷积过程中对应层的特征图和光流场检测图相拼接。

可选地，所述基于两者的余弦相似度进行帧权重的赋值，包括：

对于空间位置p，若其扭曲特征f_j→i(p)与视频流特征f_i(p)接近，则为其分配较大的权重，反之则分配较小权重，因此扭曲特征f_j→i对应的权重矩阵为w_j→i。

可选地，所述利用汉明距离计算当前帧的聚类特征与视频流帧特征之间的相似性，包括：

所述汉明距离的计算公式为：

其中：

f为目标图像特征；

为当前帧的聚类特征；

a₁，a₂分别为视频流帧特征与聚类特征的二进制数值。

可选地，所述利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝，包括：

1)统计每个卷积层内卷积核的L1范数值，并以数值大小排序；

2)遍历所有可能的组合情况，需要删除卷积核时，以该层L1范数值为标准从小到大依次删除，但每层至少保留一个卷积核；

3)对所述目标检测模型利用测试集进行测试，并按准确率排序，设置组合选择阈值，即以准确率小于该阈值且最接近该阈值的组合作为最佳组合，如果最佳组合不唯一，则选取其中FLOPs值最小的组合；

4)将最佳组合进行再训练，恢复其准确率，设置终止迭代阈值，即再训练后准确率高于该阈值则带入2)继续迭代，否则结束。

可选地，所述利用基于滑动窗口的特征切分方法，对目标图像特征进行切分，包括：

1)固定大小n/2的滑动窗口对目标特征进行切分，其中n表示原始数据的特征维度，切分出的特征数量，既可以避免用于特征处理的单层随机森林发生过拟合，又可以降低单次处理的特征维度并生成有效类概率向量；

2)将每一个切分后的特征向量子片都将输入单层随机森林，对于一个长度为n的一维特征向量，若使用总长度为m的滑动窗口进行特征切片且每次滑动一个单位长度，将产生n-m+1个m维的特征向量子片，对于包含c个目标类别的检测问题，经过随机森林分类后，长度为n的一维特征向量将产生长度为c(n-m+1)的类概率向量；

对于一个n的二维图像数据，将产生长度为2c(n-m+1)的类概率向量；

3)随后生成类概率向量并进行有序重连接，形成一个重新表示的特征向量作为新的表征。

可选地，所述利用基于变换域的编码采样算法对切分后的特征进行编码处理，包括：

1)通过二维变换将切分后的特征b转换为系数块B_2D，所述二维变换公式为：

B_2D＝CbC^T

其中：

C是二维变换矩阵；

B_2D中包含高频系数和低频系数，根据系数性质可将其划分为：

其中：

B₀₀表示低频系数，B₀₁，B₁₀，B₁₁表示高频系数；

2)从B_2D中删除高频信息，得到N/2×N/2的系数子块↓B_2D；

3)将b按列重排转化为列向量x，同时将B_2D按列重排转化为列向量X，则有

其中↓B_2D的一维形式为X_l，设

4)利用基于范数约束的目标函数，将X_l进行编码：

其中：

C是二维变换矩阵；

为对角矩阵，是根据量化表自适应生成的加权矩阵，用于控制X_l中不同系数的稀疏程度；

l₂范数约束是保真项，是为了确保重建图像的高质量；

l₁范数约束是为了保证X_l的稀疏性，从而降低编码消耗。

此外，为实现上述目的，本发明还提供一种基于视频流检测的图像压缩系统，所述系统包括：

视频流图像获取装置，用于利用目标检测模型检测视频流中的目标图像，并提取目标图像；

图像处理器，用于利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝，并利用剪枝后的目标检测模型提取目标图像特征，同时使用基于滑动窗口的特征切分方法，对目标图像特征进行切分；

图像压缩装置，用于利用基于变换域的编码采样算法对切分后的特征进行编码处理。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频流图像压缩程序指令，所述视频流图像压缩程序指令可被一个或者多个处理器执行，以实现如上所述的基于视频流检测的图像压缩的实现方法的步骤。

相对于现有技术，本发明提出一种基于视频流检测的图像压缩方法，该技术具有以下优势：

针对视频流中的图像，本发明提出一种视频流检测方法检测视频流中的目标图像，首先利用光流网络计算当前帧和临近帧之间的流场，利用当前帧与临近帧之间的流场，将临近帧的特征图扭曲到当前帧即可得到当前帧的扭曲特征，通过计算扭曲特征与当前帧特征的相似性，若相似度较高说明当前帧在视频流中并未发生较大的扭曲，即当前帧在视频流中具有较高的重要性，通过基于帧在视频流中的重要性对临近帧特征进行赋值，通过将临近帧特征进行聚合，并利用相似度算法得到与目标图像特征相似的帧特征，所得帧特征即为所视频流中检测到的目标图像特征。对于所述本发明所提出的光流网络，采用前后两帧图像堆叠的方式作为网络输入，网络主要分为由多个卷积层叠加的缩小部分和由反卷积和双线性插值组成的放大两个步骤；在缩小步骤中，每个卷积层后跟ReLU激活函数，多个卷积层的叠加可以大幅的缩小流特征图的尺寸，使得网络对较大的位移也具有捕捉能力；对于放大步骤，反卷积和双线性插值将经过缩小的特征图放大至图像尺寸，其中又将反卷积后得到的特征图、卷积过程中对应层的特征图和光流场检测图相拼接，结合高层语义信息和低层位置细节，提高检测精度。

同时目前大多使用基于L1范数的方式计算每个卷积层中每个卷积核参数绝对值之和，即L1范数值来判断该卷积核的重要性，范数值越小，重要性越低，根据所计算得到的卷积核重要性进行卷积核的删除，该方法计算简便，实用性强，但需要手动设置每个卷积层需要删除的比例，存在较大不确定性。因此本发明提出一种自适应剪枝算法，通过遍历所有组合情况，需要删除卷积核时，以该层L1范数值为标准从小到大依次删除，但每层至少保留一个卷积核，然后以准确率及FLOPs的排名为标准自动确定最佳剪枝策略，即设置组合选择阈值，即以准确率小于该阈值且最接近该阈值的组合作为最佳组合，如果最佳组合不唯一，则选取其中FLOPs值最小的组合。通过准确率排名，可以保证一次迭代不会出现过分剪枝，使模型难以恢复，然后将FLOPs引入策略，可以在相同准确率情况下得到计算量最小的模型，从而利用更为精简的目标检测模型更快地提取出目标图像特征，能加快整个基于视频流检测的图像压缩流程。

附图说明

图1为本发明一实施例提供的一种基于视频流检测的图像压缩方法的流程示意图；

图2为本发明一实施例提供的一种基于视频流检测的图像压缩系统的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

通过利用一种目标检测算法检测到视频流中的目标图像，并提出一种图像编码算法，利用该图像编码算法对视频流中的目标图像进行编码处理，实现了目标图像的压缩。参照图1所示，为本发明一实施例提供的基于视频流检测的图像压缩方法示意图。

在本实施例中，基于视频流检测的图像压缩方法包括：

S1、获取待检测视频流，利用目标检测模型检测视频流中的目标图像，并提取所述目标图像。

首先，本发明获取待检测的视频流，并利用目标检测算法检测视频流中的目标图像，所述目标检测算法的检测流程为：

1)利用目标检测网络ResNet-101残差网络结构提取视频流帧特征，对于每一帧图像I，所述目标检测网络所生成的特征图为：

f_I＝N_feat(I)

其中：

N_feat为目标检测网络ResNet-101残差网络结构；

2)利用光流网络F估计视频流中当前帧的视频流特征I_i和临近帧的视频流特征I_j之间的流场M_i→j＝F(I_i，I_j)，根据光流，临近帧的特征图可扭曲至当前帧，此时当前帧的视频流特征累积了多个附近帧的特征图，其中扭曲函数定义为：

f_j→i＝W(f_j，M_i→j)

其中：

W(·)为双线性扭曲函数，应用于特征图每一通道的位置；

f_j→i为从j帧向i帧扭曲后的特征图；

所述光流网络采用前后两帧图像堆叠的方式作为网络输入，网络主要分为由多个卷积层叠加的缩小部分和由反卷积和双线性插值组成的放大两个步骤；在缩小步骤中，每个卷积层后跟ReLU激活函数，多个卷积层的叠加可以大幅的缩小流特征图的尺寸，使得网络对较大的位移也具有捕捉能力；对于放大步骤，反卷积和双线性插值将经过缩小的特征图放大至图像尺寸，其中又将反卷积后得到的特征图、卷积过程中对应层的特征图和光流场检测图相拼接，结合高层语义信息和低层位置细节，提高检测精度；

3)特征图中不同的空间位置具有不同的权重，本发明通过衡量所有帧在每个空间位置对当前帧的视频流特征的重要性进行帧权重的赋值，即利用余弦相似性度量计算扭曲特征与当前帧特征的相似性，相似度越高则说明当前帧的重要性越高，具体地，对于空间位置p，若其扭曲特征f_j→i(p)与特征f_i(p)接近，则为其分配较大的权重，反之则分配较小权重，因此扭曲特征f_j→i对应的权重矩阵为w_j→i；

4)利用特征聚类公式得到当前帧的视频流特征的聚类特征

其中：

K表示用于聚类的临近帧的范围；

f_j→i为从j帧向i帧扭曲后的特征图；

5)利用汉明距离计算当前帧的聚类特征与视频流帧特征之间的相似性，选取相似度最高的K个图像作为视频流中所检测到的目标图像，所述汉明距离的计算公式为：

其中：

f为目标图像特征；

为当前帧的聚类特征；

a₁，a₂分别为视频流帧特征与聚类特征的二进制数值。

S2、利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝，并利用剪枝后的目标检测模型提取目标图像特征。

进一步地，本发明在原有训练好的目标检测模型的基础上，利用自适应剪枝算法对目标检测模型的卷积核进行剪枝处理，剪除部分冗余的参数或卷积核，使模型更加精简，同时通过使部分冗余的参数归零，使参数矩阵稀疏化从而减少参数量及计算量，所述自适应剪枝算法的流程为：

1)统计每个卷积层内卷积核的L1范数值，并以数值大小排序；

例如首次遍历时，C1，C2，C3三个卷积层中卷积核个数分别为6，16，32。所以共有3072种组合情况，假设第N种情况C1，C2，C3卷积核个数分别为6，13，15，则将C1中卷积核全部保留，C2中卷积核删除范数值最低的3个卷积核，C3中卷积核删除范数值最低的17个卷积核，其余参数保留。然后计算此时模型的FLOPs及在测试集上的准确率。如果该准确率小于且最接近组合选择阈值，则该组合被选为最佳组合进行再训练，如果再训练后，准确率恢复至终止迭代阈值以上，则以该模型为基础继续迭代。

S3、使用基于滑动窗口的特征切分方法，对目标图像特征进行切分。

进一步地，本发明使用基于滑动窗口的特征切分方法对目标特征进行切分，所述基于滑动窗口的特征切分过程为：

S4、利用基于变换域的编码采样算法对切分后的特征进行编码处理，完成目标图像的压缩。

进一步地，本发明利用基于变换域的编码采样算法对切分后的特征进行编码处理，所述编码处理流程为：

B_2D＝CbC^T

其中：

C是二维变换矩阵；

其中：

B₀₀表示低频系数，B₀₁，B₁₀，B₁₁表示高频系数；

2)从B_2D中删除高频信息，得到N/2×N/2的系数子块↓B_2D；

其中↓B_2D的一维形式为X_l，设

4)利用基于范数约束的目标函数，将X_l进行编码：

其中：

l₂范数约束是保真项，是为了确保重建图像的高质量；

l₁范数约束是为了保证X_l的稀疏性，从而降低编码消耗。

下面通过一个算法实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境部署在tensorflow深度学习框架中，处理器为Intel(R)Core(TM)i5-8700 CPU 8核，显卡为GeForce GTX 1080Ti，显存8G，开发环境为Tensorflow，开发工具为Anaconda科学计算库；对比算法模型为JPEG、DnCNN、TNRD和ARCNN模型。

在本发明所述算法实验中，数据集为BSD500数据集，该数据集包含500张RGB彩色图像。对于训练集中的每张图像，首先将其转化为灰度图像，然后将图像进行缩放(系数分别为0.9，0.8，0.7)和旋转(角度分别为90，180，270)并使用对比算法模型和本发明所提出的模型进行编码压缩，通过计算图像的压缩效率实现对算法模型的评估。

根据实验结果，JPEG模型的图像压缩效率为68.13％，DnCNN模型的图像压缩效率为56.25％，TNRD模型的图像压缩效率为70.18％，ARCNN模型的图像压缩效率为70.32％，本发明所述算法的图像压缩效率为75.10％，相较于对比算法，本发明所提出的基于视频流检测的图像压缩方法具有更高的图像压缩效率。

发明还提供一种基于视频流检测的图像压缩系统。参照图2所示，为本发明一实施例提供的基于视频流检测的图像压缩系统的内部结构示意图。

在本实施例中，所述基于视频流检测的图像压缩系统1至少包括视频流图像获取装置11、图像处理器12、图像压缩装置13，通信总线14，以及网络接口15。

其中，视频流图像获取装置11可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

图像处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。图像处理器12在一些实施例中可以是基于视频流检测的图像压缩系统1的内部存储单元，例如该基于视频流检测的图像压缩系统1的硬盘。图像处理器12在另一些实施例中也可以是基于视频流检测的图像压缩系统1的外部存储设备，例如基于视频流检测的图像压缩系统1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，图像处理器12还可以既包括基于视频流检测的图像压缩系统1的内部存储单元也包括外部存储设备。图像处理器12不仅可以用于存储安装于基于视频流检测的图像压缩系统1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

图像压缩装置13在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行图像处理器12中存储的程序代码或处理数据，例如视频流图像压缩程序指令等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该系统1与其他电子设备之间建立通信连接。

可选地，该系统1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于视频流检测的图像压缩系统1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及基于视频流检测的图像压缩系统1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于视频流检测的图像压缩系统1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，图像处理器12中存储有基于视频流检测的图像压缩程序指令；图像压缩装置13执行图像处理器12中存储的视频流图像压缩程序指令的步骤，与基于视频流检测的图像压缩方法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频流图像压缩程序指令，所述视频流图像压缩程序指令可被一个或多个处理器执行，以实现如下操作：

获取待检测视频流，利用目标检测网络提取视频流帧特征；

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。