CN116456090A - 一种基于目标检测算法的视频压缩方法 - Google Patents
一种基于目标检测算法的视频压缩方法 Download PDFInfo
- Publication number
- CN116456090A CN116456090A CN202310339155.7A CN202310339155A CN116456090A CN 116456090 A CN116456090 A CN 116456090A CN 202310339155 A CN202310339155 A CN 202310339155A CN 116456090 A CN116456090 A CN 116456090A
- Authority
- CN
- China
- Prior art keywords
- code rate
- target
- output code
- adopting
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006835 compression Effects 0.000 title claims abstract description 33
- 238000007906 compression Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013139 quantization Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000009956 embroidering Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于目标检测算法的视频压缩方法,涉及视频压缩领域。该方法通过目标检测算法对采集的画面进行检测,然后基于检测结果进行H.265编码压缩,获取更优的压缩效果,使得感兴趣区域的画面质量更优。同时,该方法通过采取变步长的策略改变量化参数QP来调整实际输出码率,实现码率自适应。一方面当信道状态变好时,能够向上提升服务质量,提高传输的视频质量,另一方面当信道状态变差时,能够降低输出码率,从而保证视频数据的有效传输。本发明能提高重构图像中用户感兴趣区域的图像质量,并且实现输出码率的自适应,保证视频数据的有效传输。
Description
技术领域
本发明涉及视频压缩领域,更具体的涉及基于目标检测算法的视频压缩应用领域。
背景技术
视频处理系统作为无人机的“眼睛”,在无人机执行任务时担任着不可或缺的角色。随着成像技术的飞速发展,无人机采集图像的数据量也爆炸增长,如果直接对其进行传输或存储,需要耗费巨大的信道带宽和存储空间。而无人机的无线传输信道由于受到地理环境、噪声干扰等因素的影响,一般带宽比较有限。因此,对无人机的视频数据进行压缩处理是无人机视频处理系统中必不可少的一部分。
目前主流的H.265/HEVC(High Efficiency Video Coding)视频压缩标准虽然可以有效地将原始视频数据进行压缩,但是观察者对于图像中的不同区域关注度一般不同,而H.265压缩算法未将这一因素考虑在内。
由于在无人机的应用场景下,往往观察者只关注图像中的某些重要目标所在的区域,而对其他区域仅仅进行粗略分析甚至忽视,那么如果对图像中的感兴趣区域和非感兴趣区域采用相同的压缩策略势必会造成不必要的资源浪费。
同时,在不同的信道状态下系统所要求的目标码率一般有所变化,为了保证视频数据的有效传输,需要视频处理系统能够在目标码率改变时调节实际输出码率满足传输要求。
发明内容
针对上述的问题,本发明提出了一种基于目标检测的视频压缩方法,通过目标检测算法对采集的画面进行检测,然后基于检测结果进行H.265编码压缩,获取更优的压缩效果,使得感兴趣区域的画面质量更优。同时,该方法通过采取变步长的策略改变量化参数QP来调整实际输出码率,实现码率自适应。一方面当信道状态变好时,能够向上提升服务质量,提高传输的视频质量,另一方面当信道状态变差时,能够降低输出码率,从而保证视频数据的有效传输。
本发明提出的一种基于目标检测算法的视频压缩方法,包括以下步骤:
步骤1:进行视频数据的采集;
步骤2:构建深度学习网络。使用SSD算法作为实现目标检测的基础,将SSD中主干网络VGG16网络替换为更轻量化的MobileNetV2网络,并且增加特征融合模块来将浅层特征与更深层的特征进行融合,从而提高网络的检测能力。
其中,以维度分别为w×h×c1和2w×2h×c2的特征图为例,特征融合模块结构如图1所示。特征融合模块的实现包括以下步骤:
步骤2.1:将深层特征图与浅层特征图的尺度进行统一,对较小尺寸的深层特征图进行上采样操作,将其尺寸将扩展为原来的2倍;
步骤2.2:将维度为2w×2h×c1的深层特征图与维度为2w×2h×c2的浅层特征图分别通过卷积层、批归一化(Batch Normalization,BN)层和ReLU6激活函数进行特征再提取;
步骤2.3:将统一尺寸后的两个特征图进行通道合并以增加当前特征图的信息量,此时特征图维度为2w×2h×(c1+c2);
步骤2.4:对合并后的特征图利用1×1的卷积操作进一步完成特征融合,得到语义更丰富的2w×2h×c的特征图。
步骤3:根据实际使用场景中所需检测的特定目标制作数据集,使用制作的包含所需检测的特定目标类别的数据集训练网络模型;
步骤4:利用步骤3所训练好的网络模型对采集视频画面进行目标检测,输出目标的坐标信息并画出目标框,所画出的目标框即为感兴趣区域;
步骤5:将目标检测的结果(即步骤4中所框选的感兴趣区域)与H.265视频压缩进行结合。在视频压缩时,当采集的画面中没有用户感兴趣的特定目标(即无感兴趣区域)时,画面整体采用较高压缩率进行压缩;当采集的画面中出现用户感兴趣的特定目标(即有感兴趣区域)时,仅针对目标检测算法框选出的感兴趣区域采用较低压缩率进行压缩,针对感兴趣区域之外的背景区域采用较高的压缩率进行压缩。
在视频压缩的一些实际应用中,针对不同的信道状态,一般压缩时需要采用不同的目标码率,从而满足压缩后数据的传输要求。在目标码率变化时,整体上采用变步长的策略调整实际输出码率,具体的:在实际输出码率与目标码率差距悬殊时采用大步长调整QP变化从而快速调整输出码率;当实际输出码率与目标码率差距不大时采用中步长较为快速地调整输出码率;最后,当实际输出码率与目标码率比较接近时采用小步长微调输出码率直至满足目标码率。
其中,在调节图像中的量化参数QP时,可将其分为感兴趣区域的QP和背景区域的QP两部分,分别使用QPROI表示感兴趣区域的QP、QPBG代表背景区域的QP,一般情况下QP调整时只针对QPBG进行改变,当出现特殊情况再去对QPROI进行改变。
如图2所示,变步长的调整策略的实现包括以下步骤:
步骤5.1:定义实际输出码率与目标码率之比F来描述两者关系,公式如下:
其中,Rreal为计算的实际输出码率值,RTarget为目标码率值。
步骤5.2:针对实际输出码率与目标码率不同的大小关系设置步长变化的门限,根据式(1)得出的F(F>0)的值,将其分为0<F,,1和F>1两种情形。
步骤5.3:当0<F,,1时,说明实际输出码率小于目标码率,则需要减小QP,从而增大输出码率,保证信道资源的合理利用。
对于0<F,,1,设置两个门限Fl1和Fh1(Fl1<Fh1且0<Fl1,Fh1<1)将其细分分为三种情况,对于不同情况使用不同的步长来减小QP。
如果Fh1剟F1,则表示基本充分利用信道资源,保持原有QP设置,不做改变;如果0<F<Fl1,说明大部分信道资源未利用,故采用中步长减小QPBG,较为快速地提高码率;当Fl1,,F<Fh1,说明少量信道资源未充分利用,则采用小步长减小QPBG,“保守”地趋近目标码率,直至F∈[Fh1,1]。
在上述过程中,如果出现QPBG和QPROI的值相等的情况,则采用小步长同步减小QPBG和QPROI来提高码率,直至F∈[Fh1,1];
步骤5.4:当F>1时,说明实际输出码率大于目标码率,这时为了保证视频在有限带宽内有效传输,需要增大QP,从而降低输出码率。
对于F>1,同样设置两个门限Fl2和Fh2(Fl2<Fh2且Fl2,Fh2>1)将其分为三种情况。
当F>Fh2时,表示实际输出码率已经超出目标码率较多,为了在信道速率降低时快速适应,采用大步长增大QPBG,“激进”地降低输出码率。当Fl2<F,,Fh2时,采用中步长增大QPBG,较为快速地降低码率。当1<F,,Fl2时,表示已经接近目标码率,此时采用小步长增大QPBG,“保守”地降低码率,直至F∈[Fh1,1]。
在上述大步长的“激进”的策略下,如果出现降低后的码率出现过小的情况,即F∈(0,Fh1)的情况,这时仍可以采用步骤5.3中的策略调整输出码率,直至F∈[Fh1,1]。
本发明的有益效果:本发明提出了基于目标检测算法的视频压缩方法,能够在有限带宽的应用场景下,通过对感兴趣区域采用较小的QP进行编码、背景区域采用较大的QP进行编码,提高重构图像中用户感兴趣区域的图像质量。并且能够在信道带宽变化时,通过建立实际输出码率与目标码率之间的关系,采取变步长的策略调节感兴趣区域和背景区域的量化参数QP来调节输出码率,从而实现输出码率的自适应,保证视频数据的有效传输。
附图说明
图1是特征融合模块的设计说明示意图;
图2是变步长调整策略流程图;
图3是基于SSD和MobileNetV2的深度学习网络结构图;
图4是所述方法压缩效果示意图。
具体实施例
该实施例中的基于目标检测算法的视频压缩方法,包括以下步骤:
步骤1:通过MIPI接口连接高清摄像头,进行视频数据的采集;
步骤2:选择SSD算法作为实现目标检测的基础,使用MobileNetV2作为主干网络进行特征提取,同时使用特征融合模块将Conv11的输出特征图与Conv13的输出特征图进行特征融合得到新的特征图,将Conv13的输出特征图和Conv14_2的输出特征图进行特征融合得到新的特征图,加上Conv14_2、Conv15_2、Conv16_2、Conv17_2输出的特征图,共6个特征层用于预测。最终,所构建的基于SSD和MobileNetV2的深度学习网络结构如图3所示。
步骤3:训练模型时所需检测的特定目标类别选取飞机、汽车、船舶三类,数据集选择上使用中国科学院西安光学精密机械研究所光学影像分析与学习中心制作的HRRSD数据集,其中将飞机、汽车、船舶三类目标的数据集挑选出来生成新的数据集,数据集如表1所示。
表1数据集信息
基于步骤2所构建的网络结构,使用上述包含飞机、汽车、船舶三类目标的新数据集进行网络模型的训练,得到所需的目标检测网络模型;
步骤4:利用步骤3所训练好的网络模型对采集的视频画面进行目标检测,得到模型的最终检测结果,即预测框的归一化坐标位置,然后将归一化的坐标映射到需要进行编码的图像上,根据坐标信息画出目标框,目标框所在区域即为感兴趣区域;
步骤5:将目标检测的结果与H.265视频压缩进行结合。当采集的画面中没有用户感兴趣的特定目标时,整个画面均采用较大量化参数QP进行压缩;当采集的画面中出现用户感兴趣的特定目标时,对目标检测算法框选出的感兴趣区域采用较小的量化参数QP进行压缩,对针对感兴趣区域之外的背景区域采用较大量化参数QP进行压缩。
通过上述方法对所选取视频进行压缩,效果如图4所示。
可以看出,该方法压缩后的重构图像中感兴趣区域相比于背景区域的图像质量更好。
在目标码率变化时,整体上采用变步长的策略调整实际输出码率,其中大步长取5,中步长取2,小步长取1。基础码率控制模式选择CBR模式——固定比特率,QP配置模式上选择相对QP模式,在已经设置的CBR模式的基础上对不同区域的QP进行修正,将感兴趣区域量化参数的初始值设置为-8,背景区域量化参数的初始值设置为+2。当目标码率变化时,根据实际输出码率与目标码率的关系,利用所设计的码率自适应算法按照所设置参数调整输出码率来满足目标码率。
选取两个不同的场景,分别设置两种典型的目标码率1024kbps和2048kbps使用上述方法进行实验,效果如表2所示。
表2码率调整效果
可以看出,该方法能够在目标码率变化时调整实际输出码率来适应目标码率,从而满足传输需求。
Claims (1)
1.一种基于目标检测算法的视频压缩方法,其特征在于,包括以下步骤:
步骤1:进行视频数据的采集;
步骤2:构建深度学习网络:使用SSD算法作为实现目标检测的基础,将SSD中主干网络VGG16网络替换为更轻量化的MobileNetV2网络,并且增加特征融合模块来将浅层特征与更深层的特征进行融合,从而提高网络的检测能力;
对于维度分别为w×h×c1和2w×2h×c2的特征图,所述特征融合模块的实现包括以下步骤:
步骤2.1:将深层特征图与浅层特征图的尺度进行统一,对较小尺寸的深层特征图进行上采样操作,将其尺寸将扩展为原来的2倍;
步骤2.2:将维度为2w×2h×c1的深层特征图与维度为2w×2h×c2的浅层特征图分别通过卷积层、批归一化(Batch Normalization,BN)层和ReLU6激活函数进行特征再提取;
步骤2.3:将统一尺寸后的两个特征图进行通道合并以增加当前特征图的信息量,此时特征图维度为2w×2h×(c1+c2);
步骤2.4:对合并后的特征图利用1×1的卷积操作进一步完成特征融合,得到语义更丰富的2w×2h×c的特征图;
步骤3:根据实际使用场景中所需检测的特定目标制作数据集,使用制作的包含所需检测的特定目标类别的数据集训练网络模型;
步骤4:利用步骤3所训练好的网络模型对采集视频画面进行目标检测,输出目标的坐标信息并画出目标框,所画出的目标框即为感兴趣区域;
步骤5:将目标检测的结果,即步骤4中所框选的感兴趣区域与H.265视频压缩进行结合;在视频压缩时,当采集的画面中没有用户感兴趣的特定目标即无感兴趣区域时,画面整体采用较高压缩率进行压缩;当采集的画面中出现用户感兴趣的特定目标即有感兴趣区域时,仅针对目标检测算法框选出的感兴趣区域采用较低压缩率进行压缩,针对感兴趣区域之外的背景区域采用较高的压缩率进行压缩;
在目标码率变化时,整体上采用变步长的策略调整实际输出码率,具体的:在实际输出码率与目标码率差距悬殊时采用大步长调整QP变化从而快速调整输出码率;当实际输出码率与目标码率差距不大时采用中步长较为快速地调整输出码率;最后,当实际输出码率与目标码率比较接近时采用小步长微调输出码率直至满足目标码率;
其中,在调节图像中的量化参数QP时,将其分为感兴趣区域的QP和背景区域的QP两部分,分别使用QPROI表示感兴趣区域的QP、QPBG代表背景区域的QP,一般情况下QP调整时只针对QPBG进行改变,当出现特殊情况再去对QPROI进行改变。
所述变步长的调整策略的实现包括以下步骤:
步骤5.1:定义实际输出码率与目标码率之比F来描述两者关系,公式如下:
其中,Rreal为计算的实际输出码率值,RTarget为目标码率值。
步骤5.2:针对实际输出码率与目标码率不同的大小关系设置步长变化的门限,根据式(1)得出的F(F>0)的值,将其分为0<F”1和F>1两种情形;
步骤5.3:当0<F”1时,说明实际输出码率小于目标码率,则需要减小QP,从而增大输出码率,保证信道资源的合理利用;
对于0<F”1,设置两个门限Fl1和Fh1(Fl1<Fh1且0<Fl1,Fh1<1)将其细分分为三种情况,对于不同情况使用不同的步长来减小QP;
如果Fh1剟F1,则表示基本充分利用信道资源,保持原有QP设置,不做改变;如果0<F<Fl1,说明大部分信道资源未利用,故采用中步长减小QPBG,较为快速地提高码率;当Fl1”F<Fh1,说明少量信道资源未充分利用,则采用小步长减小QPBG,“保守”地趋近目标码率,直至F∈[Fh1,1];
在上述过程中,如果出现QPBG和QPROI的值相等的情况,则采用小步长同步减小QPBG和QPROI来提高码率,直至F∈[Fh1,1];
步骤5.4:当F>1时,说明实际输出码率大于目标码率,这时为了保证视频在有限带宽内有效传输,需要增大QP,从而降低输出码率。
对于F>1,同样设置两个门限Fl2和Fh2(Fl2<Fh2且Fl2,Fh2>1)将其分为三种情况:
当F>Fh2时,表示实际输出码率已经超出目标码率较多,为了在信道速率降低时快速适应,采用大步长增大QPBG,“激进”地降低输出码率。当Fl2<F”Fh2时,采用中步长增大QPBG,较为快速地降低码率。当1<F”Fl2时,表示已经接近目标码率,此时采用小步长增大QPBG,“保守”地降低码率,直至F∈[Fh1,1];
在上述大步长的“激进”的策略下,如果出现降低后的码率出现过小的情况,即F∈(0,Fh1)的情况,这时仍采用步骤5.3中的策略调整输出码率,直至F∈[Fh1,1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310339155.7A CN116456090A (zh) | 2023-04-01 | 2023-04-01 | 一种基于目标检测算法的视频压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310339155.7A CN116456090A (zh) | 2023-04-01 | 2023-04-01 | 一种基于目标检测算法的视频压缩方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116456090A true CN116456090A (zh) | 2023-07-18 |
Family
ID=87123122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310339155.7A Pending CN116456090A (zh) | 2023-04-01 | 2023-04-01 | 一种基于目标检测算法的视频压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116456090A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117395424A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市视晶无线技术有限公司 | 一种用于视频无线传输监控系统的视频优化方法 |
-
2023
- 2023-04-01 CN CN202310339155.7A patent/CN116456090A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117395424A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市视晶无线技术有限公司 | 一种用于视频无线传输监控系统的视频优化方法 |
CN117395424B (zh) * | 2023-12-11 | 2024-03-22 | 深圳市视晶无线技术有限公司 | 一种用于视频无线传输监控系统的视频优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3744007B1 (en) | Controlling image display via real-time compression in peripheral image regions | |
CN110852964A (zh) | 一种基于深度学习的图像比特增强方法 | |
WO2011008239A1 (en) | Contrast enhancement | |
CN113781320A (zh) | 一种图像处理方法、装置、终端设备及存储介质 | |
CN116456090A (zh) | 一种基于目标检测算法的视频压缩方法 | |
CN114079779A (zh) | 图像处理方法、智能终端及存储介质 | |
CN105850129A (zh) | 对高动态范围图像进行色调映射的方法及设备 | |
US20220342365A1 (en) | System and method for holographic communication | |
US20220067417A1 (en) | Bandwidth limited context based adaptive acquisition of video frames and events for user defined tasks | |
CN102801993A (zh) | 图像信号处理装置、图像信号处理方法 | |
CN112465726A (zh) | 基于参考亮度指标指导的低照度可调节亮度增强方法 | |
CN115984570A (zh) | 一种视频去噪方法、装置、存储介质和电子装置 | |
CN110717864B (zh) | 一种图像增强方法、装置、终端设备及计算机可读介质 | |
JP2022525580A (ja) | 異なる圧縮レベルでのビデオコーディングのためのサイド情報 | |
CN115329112B (zh) | 一种无人机遥感图像高效存储方法 | |
CN115330633A (zh) | 图像色调映射方法及装置、电子设备、存储介质 | |
CN113724151B (zh) | 一种图像增强方法、电子设备和计算机可读存储介质 | |
WO2022141222A1 (zh) | 虚拟视点生成、渲染、解码方法及装置、设备、存储介质 | |
US20240193819A1 (en) | Learning-based point cloud compression via tearing transform | |
US11842283B2 (en) | Learning method, computer program, classifier, generator, and processing system | |
CN114640860B (zh) | 一种网络数据处理与传输方法及系统 | |
CN114697709B (zh) | 视频传输方法及装置 | |
JP2024516550A (ja) | ティアリング変換による学習ベースの点群圧縮 | |
Rajankar et al. | Effect of Single and Multiple ROI Coding on JPEG2000 Performance | |
US20240196065A1 (en) | Information processing apparatus and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |