CN111935487A - 一种基于视频流检测的图像压缩方法及系统 - Google Patents
一种基于视频流检测的图像压缩方法及系统 Download PDFInfo
- Publication number
- CN111935487A CN111935487A CN202010807779.3A CN202010807779A CN111935487A CN 111935487 A CN111935487 A CN 111935487A CN 202010807779 A CN202010807779 A CN 202010807779A CN 111935487 A CN111935487 A CN 111935487A
- Authority
- CN
- China
- Prior art keywords
- video stream
- image
- target
- feature
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/56—Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种图像压缩的技术领域,揭露了一种基于视频流检测的图像压缩方法,包括:获取待检测视频流,利用目标检测模型检测视频流中的目标图像,并提取所述目标图像;利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝,并利用剪枝后的目标检测模型提取目标图像特征;使用基于滑动窗口的特征切分方法,对目标图像特征进行切分;利用基于变换域的编码采样算法对切分后的特征进行编码处理,完成目标图像的压缩。本发明还提供了一种基于视频流检测的图像压缩系统。本发明实现了图像的压缩。
Description
技术领域
本发明涉及图像压缩的技术领域,尤其涉及一种基于视频流检测的图像压缩方法及系统。
背景技术
随着移动设备的快速迭代更新,人们可以及时搜索所需的信息,并相互传输。简简单单的文字传输信息已不能满足需求,语言和图像作为传递信息的载体,越来越受到大家的欢迎,使用频率逐渐上升。尤其是图像,传达着文字和语言所不能替代的信息。同时,随着信息化的发展,网络中的视频量也越来越大,如何从视频流中获得想要的图像,并高效地传输图像数据信息,将成为当前研究的热门话题。
现有图像压缩算法主要有分形压缩编码算法,但是在分形图像编码过程中,需要在海量码本中搜索最佳匹配块,这需要耗费大量的时间,不利于分形图像压缩编码的推广和应用,并且在编码过程中会出现“块效应”,这也影响着重构图像质量。
鉴于此,如何检测到视频流中的目标图像,并在保证目标图像压缩质量的基础上,对目标图像的进行更为快速的压缩编码,同时对现有压缩图像重建算法进行改进,从而实现对目标图像的压缩,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种基于视频流检测的图像压缩方法,通过利用一种目标检测算法检测到视频流中的目标图像,并提出一种图像编码算法,利用该图像编码算法对视频流中的目标图像进行编码处理,实现了目标图像的压缩。
为实现上述目的,本发明提供的一种基于视频流检测的图像压缩方法,包括:
获取待检测视频流,利用目标检测网络提取视频流帧特征;
利用光流网络估计视频流中当前帧的视频流特征和临近帧的视频流特征之间的流场,得到当前帧的扭曲特征;
计算当前帧的扭曲特征与当前帧的视频流特征之间的余弦相似度,并基于两者的余弦相似度进行帧权重的赋值;
利用基于帧权重的特征聚类公式进行帧特征的聚类,利用汉明距离计算当前帧的聚类特征与目标图像特征之间的相似性,选取相似度最高的K个图像作为视频流中所检测到的目标图像;
利用自适应剪枝算法对目标检测网络中的卷积核和参数进行剪枝,并利用剪枝后的目标检测模型提取目标图像特征;
使用基于滑动窗口的特征切分方法,对目标图像特征进行切分;
利用基于变换域的编码采样算法对切分后的特征进行编码处理,完成目标图像的压缩。
可选地,所述利用目标检测网络提取视频流帧特征,包括:
对于每一帧图像I,所述目标检测网络所生成的特征图为:
fI=Nfeat(I)
其中:
Nfeat为目标检测网络ResNet-101残差网络结构。
可选地,所述利用光流网络估计视频流中当前帧的视频流特征和临近帧的视频流特征之间的流场,包括:
利用光流网络F估计视频流中当前帧Ii和临近帧Ij之间的流场Mi→j=F(Ii,Ij),根据光流,临近帧的特征图可扭曲至当前帧,此时当前帧累积了多个附近帧的特征图,其中扭曲函数定义为:
fj→i=W(fj,Mi→j)
其中:
W(·)为双线性扭曲函数,应用于特征图每一通道的位置;
fj→i为从j帧向i帧扭曲后的特征图;
所述光流网络采用前后两帧图像堆叠的方式作为网络输入,网络通过多个卷积层的叠加缩小特征图的尺寸,并利用反卷积和双线性插值将经过缩小的特征图放大至图像尺寸,其中将反卷积后得到的特征图、卷积过程中对应层的特征图和光流场检测图相拼接。
可选地,所述基于两者的余弦相似度进行帧权重的赋值,包括:
对于空间位置p,若其扭曲特征fj→i(p)与视频流特征fi(p)接近,则为其分配较大的权重,反之则分配较小权重,因此扭曲特征fj→i对应的权重矩阵为wj→i。
可选地,所述利用汉明距离计算当前帧的聚类特征与目标图像特征之间的相似性,包括:
所述汉明距离的计算公式为:
其中:
f为目标图像特征;
a1,a2分别为目标图像特征与聚类特征的二进制数值。
可选地,所述利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝,包括:
1)统计每个卷积层内卷积核的L1范数值,并以数值大小排序;
2)遍历所有可能的组合情况,需要删除卷积核时,以该层L1范数值为标准从小到大依次删除,但每层至少保留一个卷积核;
3)对所述目标检测模型利用测试集进行测试,并按准确率排序,设置组合选择阈值,即以准确率小于该阈值且最接近该阈值的组合作为最佳组合,如果最佳组合不唯一,则选取其中FLOPs值最小的组合;
4)将最佳组合进行再训练,恢复其准确率,设置终止迭代阈值,即再训练后准确率高于该阈值则带入2)继续迭代,否则结束。
可选地,所述利用基于滑动窗口的特征切分方法,对目标图像特征进行切分,包括:
1)固定大小n/2的滑动窗口对目标特征进行切分,其中n表示原始数据的特征维度,切分出的特征数量,既可以避免用于特征处理的单层随机森林发生过拟合,又可以降低单次处理的特征维度并生成有效类概率向量;
2)将每一个切分后的特征向量子片都将输入单层随机森林,对于一个长度为n的一维特征向量,若使用总长度为m的滑动窗口进行特征切片且每次滑动一个单位长度,将产生n-m+1个m维的特征向量子片,对于包含c个目标类别的检测问题,经过随机森林分类后,长度为n的一维特征向量将产生长度为c(n-m+1)的类概率向量;
对于一个n的二维图像数据,将产生长度为2c(n-m+1)的类概率向量;
3)随后生成类概率向量并进行有序重连接,形成一个重新表示的特征向量作为新的表征。
可选地,所述利用基于变换域的编码采样算法对切分后的特征进行编码处理,包括:
1)通过二维变换将切分后的特征b转换为系数块B2D,所述二维变换公式为:
B2D=CbCT
其中:
C是二维变换矩阵;
B2D中包含高频系数和低频系数,根据系数性质可将其划分为:
其中:
B00表示低频系数,B01,B10,B11表示高频系数;
2)从B2D中删除高频信息,得到N/2×N/2的系数子块↓B2D;
4)利用基于范数约束的目标函数,将Xl进行编码:
其中:
C是二维变换矩阵;
l2范数约束是保真项,是为了确保重建图像的高质量;
l1范数约束是为了保证Xl的稀疏性,从而降低编码消耗。
此外,为实现上述目的,本发明还提供一种基于视频流检测的图像压缩系统,所述系统包括:
视频流图像获取装置,用于利用目标检测模型检测视频流中的目标图像,并提取目标图像;
图像处理器,用于利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝,并利用剪枝后的目标检测模型提取目标图像特征,同时使用基于滑动窗口的特征切分方法,对目标图像特征进行切分;
图像压缩装置,用于利用基于变换域的编码采样算法对切分后的特征进行编码处理。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有视频流图像压缩程序指令,所述视频流图像压缩程序指令可被一个或者多个处理器执行,以实现如上所述的基于视频流检测的图像压缩的实现方法的步骤。
相对于现有技术,本发明提出一种基于视频流检测的图像压缩方法,该技术具有以下优势:
针对视频流中的图像,本发明提出一种视频流检测方法检测视频流中的目标图像,首先利用光流网络计算当前帧和临近帧之间的流场,利用当前帧与临近帧之间的流场,将临近帧的特征图扭曲到当前帧即可得到当前帧的扭曲特征,通过计算扭曲特征与当前帧特征的相似性,若相似度较高说明当前帧在视频流中并未发生较大的扭曲,即当前帧在视频流中具有较高的重要性,通过基于帧在视频流中的重要性对临近帧特征进行赋值,通过将临近帧特征进行聚合,并利用相似度算法得到与目标图像特征相似的帧特征,所得帧特征即为所视频流中检测到的目标图像特征。对于所述本发明所提出的光流网络,采用前后两帧图像堆叠的方式作为网络输入,网络主要分为由多个卷积层叠加的缩小部分和由反卷积和双线性插值组成的放大两个步骤;在缩小步骤中,每个卷积层后跟ReLU激活函数,多个卷积层的叠加可以大幅的缩小流特征图的尺寸,使得网络对较大的位移也具有捕捉能力;对于放大步骤,反卷积和双线性插值将经过缩小的特征图放大至图像尺寸,其中又将反卷积后得到的特征图、卷积过程中对应层的特征图和光流场检测图相拼接,结合高层语义信息和低层位置细节,提高检测精度。
同时目前大多使用基于L1范数的方式计算每个卷积层中每个卷积核参数绝对值之和,即L1范数值来判断该卷积核的重要性,范数值越小,重要性越低,根据所计算得到的卷积核重要性进行卷积核的删除,该方法计算简便,实用性强,但需要手动设置每个卷积层需要删除的比例,存在较大不确定性。因此本发明提出一种自适应剪枝算法,通过遍历所有组合情况,需要删除卷积核时,以该层L1范数值为标准从小到大依次删除,但每层至少保留一个卷积核,然后以准确率及FLOPs的排名为标准自动确定最佳剪枝策略,即设置组合选择阈值,即以准确率小于该阈值且最接近该阈值的组合作为最佳组合,如果最佳组合不唯一,则选取其中FLOPs值最小的组合。通过准确率排名,可以保证一次迭代不会出现过分剪枝,使模型难以恢复,然后将FLOPs引入策略,可以在相同准确率情况下得到计算量最小的模型,从而利用更为精简的目标检测模型更快地提取出目标图像特征,能加快整个基于视频流检测的图像压缩流程。
附图说明
图1为本发明一实施例提供的一种基于视频流检测的图像压缩方法的流程示意图;
图2为本发明一实施例提供的一种基于视频流检测的图像压缩系统的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
通过利用一种目标检测算法检测到视频流中的目标图像,并提出一种图像编码算法,利用该图像编码算法对视频流中的目标图像进行编码处理,实现了目标图像的压缩。参照图1所示,为本发明一实施例提供的基于视频流检测的图像压缩方法示意图。
在本实施例中,基于视频流检测的图像压缩方法包括:
S1、获取待检测视频流,利用目标检测模型检测视频流中的目标图像,并提取所述目标图像。
首先,本发明获取待检测的视频流,并利用目标检测算法检测视频流中的目标图像,所述目标检测算法的检测流程为:
1)利用目标检测网络ResNet-101残差网络结构提取视频流帧特征,对于每一帧图像I,所述目标检测网络所生成的特征图为:
fI=Nfeat(I)
其中:
Nfeat为目标检测网络ResNet-101残差网络结构;
2)利用光流网络F估计视频流中当前帧的视频流特征Ii和临近帧的视频流特征Ij之间的流场Mi→j=F(Ii,Ij),根据光流,临近帧的特征图可扭曲至当前帧,此时当前帧的视频流特征累积了多个附近帧的特征图,其中扭曲函数定义为:
fj→i=W(fj,Mi→j)
其中:
W(·)为双线性扭曲函数,应用于特征图每一通道的位置;
fj→i为从j帧向i帧扭曲后的特征图;
所述光流网络采用前后两帧图像堆叠的方式作为网络输入,网络主要分为由多个卷积层叠加的缩小部分和由反卷积和双线性插值组成的放大两个步骤;在缩小步骤中,每个卷积层后跟ReLU激活函数,多个卷积层的叠加可以大幅的缩小流特征图的尺寸,使得网络对较大的位移也具有捕捉能力;对于放大步骤,反卷积和双线性插值将经过缩小的特征图放大至图像尺寸,其中又将反卷积后得到的特征图、卷积过程中对应层的特征图和光流场检测图相拼接,结合高层语义信息和低层位置细节,提高检测精度;
3)特征图中不同的空间位置具有不同的权重,本发明通过衡量所有帧在每个空间位置对当前帧的视频流特征的重要性进行帧权重的赋值,即利用余弦相似性度量计算扭曲特征与当前帧特征的相似性,相似度越高则说明当前帧的重要性越高,具体地,对于空间位置p,若其扭曲特征fj→i(p)与特征fi(p)接近,则为其分配较大的权重,反之则分配较小权重,因此扭曲特征fj→i对应的权重矩阵为wj→i;
其中:
K表示用于聚类的临近帧的范围;
fj→i为从j帧向i帧扭曲后的特征图;
5)利用汉明距离计算当前帧的聚类特征与目标图像特征之间的相似性,选取相似度最高的K个图像作为视频流中所检测到的目标图像,所述汉明距离的计算公式为:
其中:
f为目标图像特征;
a1,a2分别为目标图像特征与聚类特征的二进制数值。
S2、利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝,并利用剪枝后的目标检测模型提取目标图像特征。
进一步地,本发明在原有训练好的目标检测模型的基础上,利用自适应剪枝算法对目标检测模型的卷积核进行剪枝处理,剪除部分冗余的参数或卷积核,使模型更加精简,同时通过使部分冗余的参数归零,使参数矩阵稀疏化从而减少参数量及计算量,所述自适应剪枝算法的流程为:
1)统计每个卷积层内卷积核的L1范数值,并以数值大小排序;
2)遍历所有可能的组合情况,需要删除卷积核时,以该层L1范数值为标准从小到大依次删除,但每层至少保留一个卷积核;
3)对所述目标检测模型利用测试集进行测试,并按准确率排序,设置组合选择阈值,即以准确率小于该阈值且最接近该阈值的组合作为最佳组合,如果最佳组合不唯一,则选取其中FLOPs值最小的组合;
4)将最佳组合进行再训练,恢复其准确率,设置终止迭代阈值,即再训练后准确率高于该阈值则带入2)继续迭代,否则结束。
例如首次遍历时,C1,C2,C3三个卷积层中卷积核个数分别为6,16,32。所以共有3072种组合情况,假设第N种情况C1,C2,C3卷积核个数分别为6,13,15,则将C1中卷积核全部保留,C2中卷积核删除范数值最低的3个卷积核,C3中卷积核删除范数值最低的17个卷积核,其余参数保留。然后计算此时模型的FLOPs及在测试集上的准确率。如果该准确率小于且最接近组合选择阈值,则该组合被选为最佳组合进行再训练,如果再训练后,准确率恢复至终止迭代阈值以上,则以该模型为基础继续迭代。
S3、使用基于滑动窗口的特征切分方法,对目标图像特征进行切分。
进一步地,本发明使用基于滑动窗口的特征切分方法对目标特征进行切分,所述基于滑动窗口的特征切分过程为:
1)固定大小n/2的滑动窗口对目标特征进行切分,其中n表示原始数据的特征维度,切分出的特征数量,既可以避免用于特征处理的单层随机森林发生过拟合,又可以降低单次处理的特征维度并生成有效类概率向量;
2)将每一个切分后的特征向量子片都将输入单层随机森林,对于一个长度为n的一维特征向量,若使用总长度为m的滑动窗口进行特征切片且每次滑动一个单位长度,将产生n-m+1个m维的特征向量子片,对于包含c个目标类别的检测问题,经过随机森林分类后,长度为n的一维特征向量将产生长度为c(n-m+1)的类概率向量;
对于一个n的二维图像数据,将产生长度为2c(n-m+1)的类概率向量;
3)随后生成类概率向量并进行有序重连接,形成一个重新表示的特征向量作为新的表征。
S4、利用基于变换域的编码采样算法对切分后的特征进行编码处理,完成目标图像的压缩。
进一步地,本发明利用基于变换域的编码采样算法对切分后的特征进行编码处理,所述编码处理流程为:
1)通过二维变换将切分后的特征b转换为系数块B2D,所述二维变换公式为:
B2D=CbCT
其中:
C是二维变换矩阵;
B2D中包含高频系数和低频系数,根据系数性质可将其划分为:
其中:
B00表示低频系数,B01,B10,B11表示高频系数;
2)从B2D中删除高频信息,得到N/2×N/2的系数子块↓B2D;
4)利用基于范数约束的目标函数,将Xl进行编码:
其中:
l2范数约束是保真项,是为了确保重建图像的高质量;
l1范数约束是为了保证Xl的稀疏性,从而降低编码消耗。
下面通过一个算法实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境部署在tensorflow深度学习框架中,处理器为Intel(R)Core(TM)i5-8700CPU 8核,显卡为GeForce GTX 1080Ti,显存8G,开发环境为Tensorflow,开发工具为Anaconda科学计算库;对比算法模型为JPEG、DnCNN、TNRD和ARCNN模型。
在本发明所述算法实验中,数据集为BSD500数据集,该数据集包含500张RGB彩色图像。对于训练集中的每张图像,首先将其转化为灰度图像,然后将图像进行缩放(系数分别为0.9,0.8,0.7)和旋转(角度分别为90,180,270)并使用对比算法模型和本发明所提出的模型进行编码压缩,通过计算图像的压缩效率实现对算法模型的评估。
根据实验结果,JPEG模型的图像压缩效率为68.13%,DnCNN模型的图像压缩效率为56.25%,TNRD模型的图像压缩效率为70.18%,ARCNN模型的图像压缩效率为70.32%,本发明所述算法的图像压缩效率为75.10%,相较于对比算法,本发明所提出的基于视频流检测的图像压缩方法具有更高的图像压缩效率。
发明还提供一种基于视频流检测的图像压缩系统。参照图2所示,为本发明一实施例提供的基于视频流检测的图像压缩系统的内部结构示意图。
在本实施例中,所述基于视频流检测的图像压缩系统1至少包括视频流图像获取装置11、图像处理器12、图像压缩装置13,通信总线14,以及网络接口15。
其中,视频流图像获取装置11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
图像处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。图像处理器12在一些实施例中可以是基于视频流检测的图像压缩系统1的内部存储单元,例如该基于视频流检测的图像压缩系统1的硬盘。图像处理器12在另一些实施例中也可以是基于视频流检测的图像压缩系统1的外部存储设备,例如基于视频流检测的图像压缩系统1上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,图像处理器12还可以既包括基于视频流检测的图像压缩系统1的内部存储单元也包括外部存储设备。图像处理器12不仅可以用于存储安装于基于视频流检测的图像压缩系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
图像压缩装置13在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行图像处理器12中存储的程序代码或处理数据,例如视频流图像压缩程序指令等。
通信总线14用于实现这些组件之间的连接通信。
网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于视频流检测的图像压缩系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及基于视频流检测的图像压缩系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于视频流检测的图像压缩系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,图像处理器12中存储有基于视频流检测的图像压缩程序指令;图像压缩装置13执行图像处理器12中存储的视频流图像压缩程序指令的步骤,与基于视频流检测的图像压缩方法的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有视频流图像压缩程序指令,所述视频流图像压缩程序指令可被一个或多个处理器执行,以实现如下操作:
获取待检测视频流,利用目标检测网络提取视频流帧特征;
利用光流网络估计视频流中当前帧的视频流特征和临近帧的视频流特征之间的流场,得到当前帧的扭曲特征;
计算当前帧的扭曲特征与当前帧的视频流特征之间的余弦相似度,并基于两者的余弦相似度进行帧权重的赋值;
利用基于帧权重的特征聚类公式进行帧特征的聚类,利用汉明距离计算当前帧的聚类特征与目标图像特征之间的相似性,选取相似度最高的K个图像作为视频流中所检测到的目标图像;
利用自适应剪枝算法对目标检测网络中的卷积核和参数进行剪枝,并利用剪枝后的目标检测模型提取目标图像特征;
使用基于滑动窗口的特征切分方法,对目标图像特征进行切分;
利用基于变换域的编码采样算法对切分后的特征进行编码处理,完成目标图像的压缩。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于视频流检测的图像压缩方法,其特征在于,所述方法包括:
获取待检测视频流,利用目标检测网络提取视频流帧特征;
利用光流网络估计视频流中当前帧的视频流特征和临近帧的视频流特征之间的流场,得到当前帧的扭曲特征;
计算当前帧的扭曲特征与当前帧的视频流特征之间的余弦相似度,并基于两者的余弦相似度进行帧权重的赋值;
利用基于帧权重的特征聚类公式进行帧特征的聚类,利用汉明距离计算当前帧的聚类特征与目标图像特征之间的相似性,选取相似度最高的K个图像作为视频流中所检测到的目标图像;
利用自适应剪枝算法对目标检测网络中的卷积核和参数进行剪枝,并利用剪枝后的目标检测模型提取目标图像特征;
使用基于滑动窗口的特征切分方法,对目标图像特征进行切分;
利用基于变换域的编码采样算法对切分后的特征进行编码处理,完成目标图像的压缩。
2.如权利要求1所述的一种基于视频流检测的图像压缩方法,其特征在于,所述利用目标检测网络提取视频流帧特征,包括:
对于每一帧图像I,所述目标检测网络所生成的特征图为:
fI=Nfeat(I)
其中:
Nfeat为目标检测网络ResNet-101残差网络结构。
3.如权利要求2所述的一种基于视频流检测的图像压缩方法,其特征在于,所述利用光流网络估计视频流中当前帧的视频流特征和临近帧的视频流特征之间的流场,包括:
利用光流网络F估计视频流中当前帧Ii和临近帧Ij之间的流场Mi→j=F(Ii,Ij),根据光流,临近帧的特征图可扭曲至当前帧,此时当前帧累积了多个附近帧的特征图,其中扭曲函数定义为:
fj→i=W(fj,Mi→j)
其中:
W(·)为双线性扭曲函数,应用于特征图每一通道的位置;
fj→i为从j帧向i帧扭曲后的特征图;
所述光流网络采用前后两帧图像堆叠的方式作为网络输入,网络通过多个卷积层的叠加缩小特征图的尺寸,并利用反卷积和双线性插值将经过缩小的特征图放大至图像尺寸,其中将反卷积后得到的特征图、卷积过程中对应层的特征图和光流场检测图相拼接。
4.如权利要求3所述的一种基于视频流检测的图像压缩方法,其特征在于,所述基于两者的余弦相似度进行帧权重的赋值,包括:
对于空间位置p,若其扭曲特征fj→i(p)与视频流特征fi(p)接近,则为其分配较大的权重,反之则分配较小权重,因此扭曲特征fj→i对应的权重矩阵为wj→i。
6.如权利要求5所述的一种基于视频流检测的图像压缩方法,其特征在于,所述利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝,包括:
1)统计每个卷积层内卷积核的L1范数值,并以数值大小排序;
2)遍历所有可能的组合情况,需要删除卷积核时,以该层L1范数值为标准从小到大依次删除,但每层至少保留一个卷积核;
3)对所述目标检测模型利用测试集进行测试,并按准确率排序,设置组合选择阈值,即以准确率小于该阈值且最接近该阈值的组合作为最佳组合,如果最佳组合不唯一,则选取其中FLOPs值最小的组合;
4)将最佳组合进行再训练,恢复其准确率,设置终止迭代阈值,即再训练后准确率高于该阈值则带入2)继续迭代,否则结束。
7.如权利要求6所述的一种基于视频流检测的图像压缩方法,其特征在于,所述利用基于滑动窗口的特征切分方法,对目标图像特征进行切分,包括:
1)固定大小n/2的滑动窗口对目标特征进行切分,其中n表示原始数据的特征维度;
2)将每一个切分后的特征向量子片都将输入单层随机森林,对于一个长度为n的一维特征向量,若使用总长度为m的滑动窗口进行特征切片且每次滑动一个单位长度,将产生n-m+1个m维的特征向量子片,对于包含c个目标类别的检测问题,经过随机森林分类后,长度为n的一维特征向量将产生长度为c(n-m+1)的类概率向量;
对于一个n的二维图像数据,将产生长度为2c(n-m+1)的类概率向量;
3)随后生成类概率向量并进行有序重连接,形成一个重新表示的特征向量作为新的表征。
8.如权利要求7所述的一种基于视频流检测的图像压缩方法,其特征在于,所述利用基于变换域的编码采样算法对切分后的特征进行编码处理,包括:
1)通过二维变换将切分后的特征b转换为系数块B2D,所述二维变换公式为:
B2D=CbCT
其中:
C是二维变换矩阵;
B2D中包含高频系数和低频系数,根据系数性质可将其划分为:
其中:
B00表示低频系数,B01,B10,B11表示高频系数;
2)从B2D中删除高频信息,得到N/2×N/2的系数子块↓B2D;
4)利用基于范数约束的目标函数,将Xl进行编码:
其中:
C是二维变换矩阵;
l2范数约束是保真项,是为了确保重建图像的高质量;
l1范数约束是为了保证Xl的稀疏性,从而降低编码消耗。
9.一种基于视频流检测的图像压缩系统,其特征在于,所述系统包括:
视频流图像获取装置,用于利用目标检测模型检测视频流中的目标图像,并提取目标图像;
图像处理器,用于利用自适应剪枝算法对目标检测模型中的卷积核和参数进行剪枝,并利用剪枝后的目标检测模型提取目标图像特征,同时使用基于滑动窗口的特征切分方法,对目标图像特征进行切分;
图像压缩装置,用于利用基于变换域的编码采样算法对切分后的特征进行编码处理。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有视频流图像压缩程序指令,所述视频流图像压缩程序指令可被一个或者多个处理器执行,以实现如权利要求1至8中任一项所述的一种基于视频流检测的图像压缩的实现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807779.3A CN111935487B (zh) | 2020-08-12 | 2020-08-12 | 一种基于视频流检测的图像压缩方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807779.3A CN111935487B (zh) | 2020-08-12 | 2020-08-12 | 一种基于视频流检测的图像压缩方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111935487A true CN111935487A (zh) | 2020-11-13 |
CN111935487B CN111935487B (zh) | 2022-08-12 |
Family
ID=73311613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010807779.3A Active CN111935487B (zh) | 2020-08-12 | 2020-08-12 | 一种基于视频流检测的图像压缩方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111935487B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113422935A (zh) * | 2021-07-06 | 2021-09-21 | 城云科技(中国)有限公司 | 视频流处理方法、装置及系统 |
CN115052160A (zh) * | 2022-04-22 | 2022-09-13 | 江西中烟工业有限责任公司 | 基于云数据自动下载的图像编码方法、装置及电子设备 |
CN115499670A (zh) * | 2022-11-17 | 2022-12-20 | 广东电网有限责任公司中山供电局 | 一种基于边缘计算的视频图像压缩处理设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100315505A1 (en) * | 2009-05-29 | 2010-12-16 | Honda Research Institute Europe Gmbh | Object motion detection system based on combining 3d warping techniques and a proper object motion detection |
CN106210612A (zh) * | 2015-04-30 | 2016-12-07 | 杭州海康威视数字技术股份有限公司 | 视频编码方法、解码方法及其装置 |
CN107103614A (zh) * | 2017-04-12 | 2017-08-29 | 合肥工业大学 | 基于层次独立成分编码的运动异常检测方法 |
JP2018093374A (ja) * | 2016-12-02 | 2018-06-14 | 日本電信電話株式会社 | 予測画像生成方法、予測画像生成装置及びコンピュータプログラム |
CN110111338A (zh) * | 2019-04-24 | 2019-08-09 | 广东技术师范大学 | 一种基于超像素时空显著性分割的视觉跟踪方法 |
CN110163196A (zh) * | 2018-04-28 | 2019-08-23 | 中山大学 | 显著特征检测方法和装置 |
US20190311478A1 (en) * | 2016-07-08 | 2019-10-10 | Avent, Inc. | System and Method for Automatic Detection, Localization, and Semantic Segmentation of Anatomical Objects |
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN111277835A (zh) * | 2020-02-18 | 2020-06-12 | 济南浪潮高新科技投资发展有限公司 | 一种结合yolo3与flownet2网络的监控视频压缩及解压方法 |
-
2020
- 2020-08-12 CN CN202010807779.3A patent/CN111935487B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100315505A1 (en) * | 2009-05-29 | 2010-12-16 | Honda Research Institute Europe Gmbh | Object motion detection system based on combining 3d warping techniques and a proper object motion detection |
CN106210612A (zh) * | 2015-04-30 | 2016-12-07 | 杭州海康威视数字技术股份有限公司 | 视频编码方法、解码方法及其装置 |
US20190311478A1 (en) * | 2016-07-08 | 2019-10-10 | Avent, Inc. | System and Method for Automatic Detection, Localization, and Semantic Segmentation of Anatomical Objects |
JP2018093374A (ja) * | 2016-12-02 | 2018-06-14 | 日本電信電話株式会社 | 予測画像生成方法、予測画像生成装置及びコンピュータプログラム |
CN107103614A (zh) * | 2017-04-12 | 2017-08-29 | 合肥工业大学 | 基于层次独立成分编码的运动异常检测方法 |
CN110163196A (zh) * | 2018-04-28 | 2019-08-23 | 中山大学 | 显著特征检测方法和装置 |
CN110111338A (zh) * | 2019-04-24 | 2019-08-09 | 广东技术师范大学 | 一种基于超像素时空显著性分割的视觉跟踪方法 |
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN111277835A (zh) * | 2020-02-18 | 2020-06-12 | 济南浪潮高新科技投资发展有限公司 | 一种结合yolo3与flownet2网络的监控视频压缩及解压方法 |
Non-Patent Citations (1)
Title |
---|
孙彬: "基于内容的视频分析关键技术研究", 《中国优秀硕士论文全文数据库(电子期刊)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113422935A (zh) * | 2021-07-06 | 2021-09-21 | 城云科技(中国)有限公司 | 视频流处理方法、装置及系统 |
CN115052160A (zh) * | 2022-04-22 | 2022-09-13 | 江西中烟工业有限责任公司 | 基于云数据自动下载的图像编码方法、装置及电子设备 |
CN115052160B (zh) * | 2022-04-22 | 2023-07-07 | 江西中烟工业有限责任公司 | 基于云数据自动下载的图像编码方法、装置及电子设备 |
CN115499670A (zh) * | 2022-11-17 | 2022-12-20 | 广东电网有限责任公司中山供电局 | 一种基于边缘计算的视频图像压缩处理设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111935487B (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111935487B (zh) | 一种基于视频流检测的图像压缩方法及系统 | |
CN112329888B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
US20230245266A1 (en) | Generating digital images utilizing high-resolution sparse attention and semantic layout manipulation neural networks | |
CN115443490A (zh) | 影像审核方法及装置、设备、存储介质 | |
CN114358203B (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
US11062210B2 (en) | Method and apparatus for training a neural network used for denoising | |
CN115953665B (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN106033426A (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN113869138A (zh) | 多尺度目标检测方法、装置及计算机可读存储介质 | |
WO2018228399A1 (zh) | 运算装置和方法 | |
Wang et al. | Jpeg artifacts removal via contrastive representation learning | |
CN116894974A (zh) | 图像分类方法、装置、计算机设备及其存储介质 | |
CN115410131A (zh) | 一种用于短视频智能分类的方法 | |
CN117333666A (zh) | 一种半监督图像语义分割方法、系统、计算机设备及介质 | |
CN110717405A (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN110659641A (zh) | 一种文字识别的方法、装置及电子设备 | |
WO2023185209A1 (zh) | 模型剪枝 | |
CN115082840B (zh) | 基于数据组合和通道相关性的动作视频分类方法和装置 | |
CN108416389B (zh) | 基于降噪稀疏自动编码器和密度空间采样的图像分类方法 | |
CN115546554A (zh) | 敏感图像的识别方法、装置、设备和计算机可读存储介质 | |
CN116758601A (zh) | 人脸识别模型的训练方法、装置、电子设备及存储介质 | |
CN111090723B (zh) | 一种基于知识图谱的电网安全生产内容推荐方法 | |
CN113205149A (zh) | 图片处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220725 Address after: 101300 No.10, xiaowangxinzhuang South Road, Tianzhu town, Shunyi District, Beijing Applicant after: Beijing Guanghui Jintong Education Technology Co.,Ltd. Address before: 410205 No.1002, Lugu Yuyuan venture building, No.27 Wenxuan Road, high tech Development Zone, Changsha City, Hunan Province Applicant before: Wang Lijun |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |