CN109005409A - 一种基于目标检测与跟踪的智能视频编码方法 - Google Patents

一种基于目标检测与跟踪的智能视频编码方法 Download PDF

Info

Publication number
CN109005409A
CN109005409A CN201810845985.6A CN201810845985A CN109005409A CN 109005409 A CN109005409 A CN 109005409A CN 201810845985 A CN201810845985 A CN 201810845985A CN 109005409 A CN109005409 A CN 109005409A
Authority
CN
China
Prior art keywords
target object
detecting
tracking
target
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810845985.6A
Other languages
English (en)
Other versions
CN109005409B (zh
Inventor
朱威
王东洋
王义锋
吴远
陈朋
郑雅羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810845985.6A priority Critical patent/CN109005409B/zh
Publication of CN109005409A publication Critical patent/CN109005409A/zh
Application granted granted Critical
Publication of CN109005409B publication Critical patent/CN109005409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于目标检测与跟踪的智能视频编码方法,包括以下步骤:(1)输入原始视频图像和目标对象类别的权重值;(2)生成检测跟踪图像;(3)目标对象检测;(4)目标对象特征提取;(5)目标对象跟踪;(6)生成感兴趣区域;(7)计算感兴趣区域量化参数下调值;(8)视频图像编码。通过深度学习检测感兴趣目标对象及确定感兴趣区域,提高检测效率和准确度,可以有效保证感兴趣区域的图像质量,同时本发明将检测到的目标对象信息压入码流中,有利于后期的视频检索与摘要。

Description

一种基于目标检测与跟踪的智能视频编码方法
技术领域
本发明涉及视频编码技术领域,特别涉及一种基于目标检测与跟踪的智能视频编码方法。
背景技术
目前常用的视频图像分辨率已经达到1080P高清,正逐渐向4K和8K超清方向发展,这些高分辨率视频的码流数据在传输和存储方面受到巨大的挑战。对于主要采用高分辨率视频且对实时性和图像质量要求较高的视频监控、视频会议等应用领域,如何在有限的网络带宽和存储空间下合理分配码率资源至关重要。在视频信息处理领域,感兴趣区域的提出与应用主要利用了人类视觉系统(Human Visual System,HVS)的特征。HVS在面对一个复杂场景时优先将注意力集中在少数几个具有显著视觉特征的视频对象上,对场景中的不同区域给于不同级别的关注程度。因此,在对整个视频图像区域进行处理时,那些不符合人眼特性的区域会造成码流资源和计算资源的浪费。感兴趣区域(Region of Interest,ROI)在视频编码领域中的主要应用体现在优先保证人眼关注区域的图像清晰度,并降低非关注区域的码流比特数。此外,ROI中清晰目标对象也为后续高质量的智能视频分析打下良好基础。
在视频监控等应用中,除了运动区域之外,静止区域也很有可能包含重要的监控目标。目前大多数感兴趣区域获取方法主要分为两类:一种是用户指定一块区域,此类方法只能选择固定区域当作感兴趣区域,其灵活性受到限制;另一种是基于运动目标检测的方法,此类方法缺点是依赖运动目标的检测,但运动的目标也可能是非感兴趣的目标,而静止的目标也有可能是用户感兴趣的目标。近年来,深度学习取得了重大突破,其在图像分类、人脸识别、语音识别等领域取得了不错效果,其中卷积神经网络就是一种采用深度学习技术的深度神经网络,该网络能够利用大量的训练样本深入地学习图像的抽象信息,更灵活地获取图像特征。在计算机视觉应用方面,SSD(Single Shot multiBox Detector)检测模型是典型的神经网络模型,结合了YOLO和FasterRCNN两者的优点。标准的SSD框架可以分为基础网络、检测网络和分类网络。SSD的基础网络也称为特征提取层,可以采用常见的特征提取网络包括ResNet、VGG-Net、Inception-Net,并由此衍生出各种改进的SSD模型。目前,基于VGG-Net的SSD模型在高配置的GPU上可以达到实时性要求,但在计算性能一般的设备、尤其在小型嵌入式设备进行目标检测时仍难以满足实时应用需求。为此,学术界也涌现出一批轻量型神经网络,代表性的模型主要有MobileNet、ShuffleNet、SqueezeNet和XceptionNet。这些模型的参数较少,层数不多,减少了训练和推理的计算量,同时也具备较好的检测准确率。
在视频编码处理中,对于感兴趣区域和非感兴趣区域的处理往往通过设置不同的量化参数值来实现。量化参数(Quant Parameter,QP)是量化步长(Qstep)的编号,对于目前主流的H.264和HEVC编码标准而言,Qstep共有52个值,对应的QP取值范围为[0,51]。QP和ln(Qstep)之间具有线性相关性,Qstep随着QP的增加而增大,每当QP值增加6,Qstep便增加一倍。当QP取最小值0时,Qstep值最小,表示量化最精细;反之,当QP取最大值51时,Qstep值最大,表示量化是最粗糙。目前推出的主流视频编解码处理芯片都支持对若干个矩形区域进行QP相对值的设置,方便用户根据需求实现感兴趣区域编码。
目前国内外的相关研究主要集中在目标检测的算法优化以及感兴趣区域的提取。申请号为CN201010505812.3的专利公开了一种视频序列感兴趣区域的校正方法,通过将前后帧的感兴趣区域投影到当前帧图像,结合当前帧的原始感兴趣区域,确定当前帧的一个增强的感兴趣区域,来校正视频序列的感兴趣轨迹,使得感兴趣区域轨迹变得平滑。申请号为CN201310034633.X的专利公开了一种基于感兴趣区域的视频编码方法,通过先检测特定对象来识别视频帧中的感兴趣区域和非感兴趣区域,然后计算宏块的量化参数值以及宏块的类型,再对视频帧进行编码。申请号为CN201610541399.3的专利公开了一种视频编码方法,通过运动检测确定感兴趣区域,并采用感兴趣区域保真度高于非感兴趣区域的方式进行视频编码。这些发明虽然能够实现感兴趣区域的提取和针对性编码,但不能识别感兴趣区域中的目标对象,无法根据目标对象重要程度进行智能编码和存储。
发明内容
为了合理分配码流资源,保证用户感兴趣的目标区域的图像质量,提高视频存储和传输的效率,本发明提出了一种基于目标检测与跟踪的智能视频编码方法。该方法利用卷积神经网络检测用户感兴趣目标所在的区域,并对目标区域进行特征提取,在后续视频帧中,利用目标跟踪算法对检测到的感兴趣目标进行跟踪,预测目标所在位置,编码器根据目标位置信息,在已有码率控制算法的基础上,调整感兴趣目标区域的量化参数,从而保证感兴趣区域的图像质量。
本发明提出的一种基于目标检测与跟踪的智能视频编码方法,该方法具体包括以下步骤:
(1)输入原始视频图像P1和目标对象类别的权重值
本发明支持的目标对象类别包括儿童、成年人、自行车、两轮电动车、两轮摩托车、三轮车、轿车、客车、货车、专用车等人和车;针对不同智能视频处理应用场景,结合人眼特性以及目标对象在场景中的重要程度,分别对每个感兴趣目标对象类别设置不同的权重值Weight,其取值范围为[1,10],权重值越大说明对应的目标对象类别越重要,具体取值根据用户应用需求设定。
(2)生成检测跟踪图像P2
目前大多数摄像头拍摄的视频分辨率都比较高,为了加快感兴趣目标检测跟踪的处理速度,本发明基于水平像素分辨率,对原始视频图像P1进行缩放获得分辨率较小的用于目标检测与跟踪的图像P2。若原始视频图像P1的水平像素分辨率小于等于1920,则采用双线性插值算法将输入的原始视频图像P1缩放到分辨率为R的检测跟踪图像P2,以降低图像缩放的计算量;否则采用基于像素区域关系的插值算法将原始视频图像P1缩放到分辨率为R的检测跟踪图像P2,以保证图像质量;分辨率R的大小在640×480至960×720之间,用户根据计算资源决定,分辨率越高,则检测和跟踪的计算量越大。
(3)目标对象检测
目标检测是整个处理流程中的关键环节,为了减少计算资源消耗,本发明有选择的对步骤(2)生成的检测跟踪图像P2进行目标对象检测,从第1帧开始检测,之后每隔N帧检测一次,N的取值范围为[15,150],进行检测的帧称为检测帧,其它在检测间隔中的帧称为非检测帧;若当前帧为检测帧,并且检测到目标对象,则输出目标对象的位置坐标、检测框宽高、置信度最大的对象类别及置信度值,并进行步骤(4);若当前帧中没有目标对象,进行步骤(8),完成视频图像编码。
若当前帧为非检测帧,并且在最近一次检测中已检测到目标对象,则进行步骤(5);若当前帧中没有目标对象,进行步骤(8),完成视频图像编码。
本发明将步骤(2)生成的检测跟踪图像P2输入到经大量数据样本离线训练好改进的SSD神经网络模型,检测输入图像P2中是否存在目标对象;若检测到目标对象,则为了减少后续特征提取和目标跟踪的计算量,本发明选择像素尺寸较大的前M个目标对象进行下一步处理,M的取值范围为[1,50],用户根据应用系统的计算资源决定。
为了提高检测速率,本发明设计的改进的SSD神经网络模型以SSD检测框架为基础,该改进模型包括11层网络,前5层由Xception神经网络的前5个卷积层组成,替换了原有的VGG-16网络的前5个卷积层,后6层为SSD原有的5个卷积层和1个池化层。该模型结合了Xception和SSD两种类型网络的优势,在特征提取时采用轻量型神经网络Xception替代原先的VGG网络,以Xception的卷积层作为基础网络,在基础网络之后使用SSD原有的5个卷积层作为检测网络,使用3*3卷积进行多尺度的预测。改进的SSD神经网络模型可极大减少神经网络参数,并维持SSD的多尺度预测特点,在保持检测准确率的同时,提高了处理速度。此外,Xception使用深度可分卷积增加网络宽度,不仅提升了分类的正确率,也增强了网络对细微特征的学习能力,非常适合本发明支持的目标对象进行快速准确识别。
(4)目标对象特征提取
特征提取是目标跟踪的基础,表达性良好的特征有利于提高目标对象的跟踪精度。本发明在步骤(2)生成的检测跟踪图像P2中,对检测到的每个目标对象的像素区域提取方向梯度直方图和颜色直方图这两类统计特征,用于后续跟踪算法的初始化和对象匹配。
方向梯度直方图特征即HOG特征,对运动模糊和光照变化有较强的适应能力,但该特征中没有尺度信息,因此对快速变形和快速运动效果不佳。颜色直方图描述的是图像中不同色彩所占比例,与其所处的空间位置无关,可以脱离图像中具体对象描述全局的颜色统计信息,因此其对形变和快速运动不敏感,但是受光照的影响较大。本发明通过HOG特征弥补颜色特征所忽略的空间信息,减少光照、尺度变换以及背景颜色相似的影响,综合互补二者的特性,有效提高特征鲁棒性,较好的解决运动目标跟踪过程中遇到的遮挡、尺度变化及背景相似等问题。
(5)目标对象跟踪
本发明利用两帧间被跟踪目标对象的相关性,采用核相关滤波目标跟踪算法对目标对象进行跟踪:若当前帧在步骤(3)中已经进行了目标对象检测,则将检测到的目标对象初始化核相关滤波目标跟踪算法,并用步骤(4)提取的方向梯度直方图和颜色直方图特征训练对应的滤波器;若当前帧未在步骤(3)中进行检测,即为非检测帧,则采用核相关滤波目标跟踪算法确定各个目标对象在当前帧中的位置。
(6)生成感兴趣区域
由于进行目标检测跟踪图像P2与待编码的原始视频图像P1的分辨率不同,需要将目标的位置和大小重新映射为以原图像P1分辨率为基准的位置和大小。本发明利用目标对象与检测跟踪图像P2及原始视频图像P1的关系,首先将检测跟踪图像P2中的目标位置和大小映射到原始视频图像P1中的位置和大小,然后将映射后P1中的目标区域矩形框上下左右四条边往外扩展到最接近像素个数为16倍数的边界作为感兴趣区域。
(7)计算感兴趣区域量化参数下调值
对于每个目标对象所在的感兴趣区域,根据步骤(1)设置的目标对象类别的权重值Weight和步骤(3)输出的目标对象置信度值Conf,按式(1)计算对应感兴趣区域量化参数下调值QPdown
即该感兴趣区域实际编码量化参数相对于原始编码器计算的量化参数QPorg的下调值,其中Conf的取值范围为[0,1],当Conf小于等于0.5时,d1为调节参数,其取值范围为[0.3,0.7];当Conf大于0.5时,d2为调节参数,其取值范围为(0.7,0.1.3];为向上取整符号,当Weight值为1时,计算出来的QPdown值为0,对应的感兴趣区域不用下调编码量化参数。
(8)视频图像编码
若当前帧中存在目标对象,则在编码器已有的码率控制算法基础上,根据感兴趣区域位置及其对应的量化参数下调值,实现感兴趣区域编码,同时将检测到的目标对象类别、位置和大小压入码流:首先将四个字节的同步头0x00000001写入码流,再将一个字节的目标信息标识0xFF写入码流,然后将目标对象的数据结构写入码流。目标对象的数据结构包含:目标对象总个数Cntobj,每个目标对象的类别编号Typeobj、位置Xpos和Ypos,长宽Xwith和Yheight;其中,目标对象总个数Cntobj和每个目标对象的类别Typeobj各占2个字节,目标位置Xpos、Ypos、宽Xwith和Yheight各占4个字节;编码时把目标对象的数据结构信息放置到帧头位置。本发明对步骤(1)支持的目标对象类别进行编号,即Typeobj,具体如下:0:儿童,1:成年人,2:自行车,3:两轮电动车,4:两轮摩托车,5:三轮车,6:轿车,7:客车,8:货车,9:专用车。
若当前帧中不存在目标对象,则根据编码器已有的码率控制算法进行视频图像编码,输出视频码流。
本发明与传统感兴趣区域编码方法相比,主要优势在于:
通过深度学习检测感兴趣目标对象及确定感兴趣区域,提高检测效率和准确度,可以有效保证感兴趣区域图像质量。本发明提出的方法,不仅可以检测运动的目标,还可以检测静止的目标,比传统基于运动的感兴趣区域编码方法具有更稳定的检测效果。在支持的目标对象上有很大的灵活性,可以弥补传统感兴趣区域编码在对象识别上的不足。此外,在编码过程中,本发明将检测到的目标对象信息压入码流中,有利于后期的视频检索与摘要。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合实施例来详细描述本发明,本项实例在JetsonTX2处理器平台,在其H.264硬件编码器的基础上实现智能视频编码,但本发明并不仅限于此。
如图1所示,一种基于目标检测与跟踪的智能视频编码方法,包括以下步骤:
(1)输入原始视频图像P1和目标对象类别的权重值Weight;
(2)生成检测跟踪图像P2;
(3)目标对象检测;
(4)目标对象特征提取;
(5)目标对象跟踪;
(6)生成感兴趣区域;
(7)计算感兴趣区域量化参数下调值QPdown
(8)视频图像编码。
本实例中,步骤(1)具体包括:
输入原始视频图像P1的分辨率为1080P,即宽width值为1920,高height值为1080。根据交通监控场景,设置感兴趣目标对象类别的权重值如下:儿童、成年人和自行车的权重值Weight为8,两轮电动车、两轮摩托车和三轮车的权重值Weight为6,轿车、客车、货车和专用车的权重值Weight为4。
步骤(2)具体包括:
采用双线性插值算法对输入的视频图像P1进行缩小,缩小后图像P2的分辨率R为640×480。
步骤(3)具体包括:
设计一个改进的SSD神经网络模型,包括11层网络,前5层由Xception网络的前5个卷积层组成,替换了原有的VGG-16网络的前5个卷积层,后6层为SSD原有的5个卷积层和1个池化层;根据支持的目标对象类别进行离线训练。采用训练好的SSD的神经网络改进模型,对步骤(2)生成的检测跟踪图像P2进行目标对象检测,检测从第1帧开始,检测间隔N取值为30。若当前帧为检测帧,并且检测到目标对象,则输出目标对象的位置坐标、检测框宽高、置信度最大的对象类别及置信度值Conf,并进行步骤(4);若当前帧中没有目标对象,进行步骤(8),完成视频图像编码;若当前帧为非检测帧,并且在最近一次检测中已检测到目标对象,则进行步骤(5);若当前帧中没有目标对象,进行步骤(8),完成视频图像编码。为了减少后续特征提取和目标跟踪的计算量,选择像素尺寸较大的前M个目标对象进行输出,根据JetsonTX2支持的H.264硬件编码器的最大ROI区域个数,M的取值为8。
步骤(4)具体包括:
根据步骤(3)的检测结果,对检测到的每个目标对象区域提取方向梯度直方图和颜色直方图这两类特征。
步骤(5)具体包括:
利用两帧间被跟踪目标对象的相关性,采用核相关滤波目标跟踪算法对每个目标对象进行跟踪:若当前帧在步骤(3)中已经进行了目标对象检测,则将检测到的目标对象初始化核相关滤波目标跟踪算法,并用步骤(4)提取的方向梯度直方图和颜色直方图特征训练对应的滤波器;若当前帧未在步骤(3)中进行检测,即为非检测帧,则采用核相关滤波目标跟踪算法确定各个目标对象在当前帧中的位置。
步骤(6)具体包括:
将检测跟踪图像P2中的目标位置和大小映射为原始视频图像P1中的位置和大小,然后将映射后的矩形框上下左右四条边往外扩展到最近像素个数为16倍数的边界作为感兴趣区域。
步骤(7)具体包括:
根据步骤(1)设置的目标对象类别权重值Weight和步骤(3)输出的目标对象置信度值Conf,按式(1)计算对应感兴趣区域量化参数下调值QPdown,其中参数d1的取值为0.5,参数d2的取值为1:
步骤(8)具体包括:
若当前帧中存在目标对象,则在编码器已有的码率控制算法基础上,根据感兴趣区域位置及其对应的量化参数下调值,实现感兴趣区域编码,同时将检测到的目标对象类别、位置和大小压入码流:首先将四个字节的同步头0x00000001写入码流,再将一个字节的目标信息标识0xFF写入码流,然后将目标对象的数据结构写入码流。目标对象结构包含:目标对象总个数Cntobj,每个目标对象的类别Typeobj、位置Xpos和Ypos,长宽Xwith和Yheight。其中,目标对象总个数Cntobj和每个目标对象的类别Typeobj各占2个字节,目标位置Xpos、Ypos、宽Xwith和Yheight各占4个字节。编码时把目标对象的数据结构信息放置到帧头位置。对步骤(1)支持的目标对象进行编号,具体如下:0:儿童,1:成年人,2:自行车,3:两轮电动车,4:两轮摩托车,5:三轮车,6:轿车,7:客车,8:货车,9:专用车。
若当前帧中不存在目标对象,则按编码器已有的码率控制算法进行视频图像编码,输出视频码流。

Claims (10)

1.一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述方法包括以下步骤:
步骤1:输入原始视频图像P1,设定目标对象类别的权重值Weight;
步骤2:基于原始视频图像P1的水平像素分辨率,生成检测跟踪图像P2;
步骤3:对检测跟踪图像P2进行目标对象检测,输出检测到目标对象的位置坐标、检测框宽高、置信度最大的对象类别及置信度值;
步骤4:在生成的检测跟踪图像P2中,根据检测结果提取目标对象特征;
步骤5:采用核相关滤波目标跟踪算法对目标对象进行跟踪;
步骤6:利用目标对象与检测跟踪图像P2及原始视频图像P1的关系生成感兴趣区域;
步骤7:计算感兴趣区域量化参数下调值QPdown
步骤8:视频图像编码。
2.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤1中,支持目标对象类别包括人和车,Weight取值范围为[1,10]。
3.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤2中,若原始视频图像P1的水平像素分辨率小于等于1920,则采用双线性插值算法将输入的原始视频图像P1缩放到分辨率为R的检测跟踪图像P2;否则采用基于像素区域关系的插值算法将原始视频图像P1缩放到分辨率为R的检测跟踪图像P2;分辨率R的大小在640×480至960×720之间,用户根据计算资源决定。
4.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤3中,对步骤2生成的检测跟踪图像P2采用改进的SSD神经网络模型进行目标对象检测,从第1帧开始检测,每隔N帧检测一次,N的取值范围为[15,150];
若当前帧为检测帧,并且检测到目标对象,则输出像素尺寸较大的前M个目标对象的位置坐标、检测框大小、置信度最大的对象类别及置信度值Conf,并进行步骤4;若当前帧中没有目标对象,进行步骤8,完成视频图像编码;M的取值范围为[1,50];
若当前帧为非检测帧,并且在最近一次检测中已检测到目标对象,则进行步骤5,若当前帧中没有目标对象,进行步骤8,完成视频图像编码。
5.根据权利要求4所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述改进的SSD神经网络模型以SSD检测框架为基础,模型包括11层网络,前5层以Xception神经网络的前5个卷积层替换VGG-16网络的前5个卷积层,后6层为SSD的5个卷积层和1个池化层。
6.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤4中,目标对象特征包括对检测到的每个目标对象区域提取的方向梯度直方图和颜色直方图特征。
7.根据权利要求6所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤5中,若当前帧在步骤3中已经进行了目标对象检测,则将检测到的目标对象初始化核相关滤波目标跟踪算法,并用步骤4提取的目标对象特征训练对应的滤波器;若当前帧未在步骤3中进行检测,则采用核相关滤波目标跟踪算法确定各个目标对象在当前帧中的位置。
8.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤6中,将检测跟踪图像P2中的目标位置和大小映射到原始视频图像P1中的位置和大小,然后将映射后P1中的目标区域矩形框上下左右四条边往外扩展到最接近像素个数为16倍数的边界作为感兴趣区域。
9.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤7中,基于步骤1设置的目标对象类别权重值Weight和步骤3输出的目标对象置信度值Conf,按式(1)计算对应感兴趣区域量化参数下调值QPdown
其中,Conf的取值范围为[0,1],d1和d2为调节参数,d1的取值范围为[0.3,0.7],d2的取值范围为(0.7,0.1.3]。
10.根据权利要求4所述的一种基于目标检测与跟踪的智能视频编码方法,其特征在于:所述步骤8中,若当前帧中存在目标对象,则在编码器已有的码率控制算法基础上,根据感兴趣区域位置及其对应的量化参数下调值,实现感兴趣区域编码,同时将检测到的目标对象类别、位置和大小压入码流;否则按编码器已有的码率控制算法进行视频图像编码,输出视频码流。
CN201810845985.6A 2018-07-27 2018-07-27 一种基于目标检测与跟踪的智能视频编码方法 Active CN109005409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810845985.6A CN109005409B (zh) 2018-07-27 2018-07-27 一种基于目标检测与跟踪的智能视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810845985.6A CN109005409B (zh) 2018-07-27 2018-07-27 一种基于目标检测与跟踪的智能视频编码方法

Publications (2)

Publication Number Publication Date
CN109005409A true CN109005409A (zh) 2018-12-14
CN109005409B CN109005409B (zh) 2021-04-09

Family

ID=64597452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810845985.6A Active CN109005409B (zh) 2018-07-27 2018-07-27 一种基于目标检测与跟踪的智能视频编码方法

Country Status (1)

Country Link
CN (1) CN109005409B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584558A (zh) * 2018-12-17 2019-04-05 长安大学 一种面向城市交通信号配时的交通流统计方法
CN109785362A (zh) * 2018-12-26 2019-05-21 中国科学院自动化研究所南京人工智能芯片创新研究院 基于目标对象检测的目标对象跟踪方法、装置及存储介质
CN109934848A (zh) * 2019-03-07 2019-06-25 贵州大学 一种基于深度学习的运动物体精准定位的方法
CN110135377A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 物体运动状态检测方法、装置、服务器和计算机可读介质
CN110225341A (zh) * 2019-06-03 2019-09-10 中国科学技术大学 一种任务驱动的码流结构化图像编码方法
CN110662080A (zh) * 2019-09-30 2020-01-07 中国科学技术大学 面向机器的通用编码方法
CN110807392A (zh) * 2019-10-25 2020-02-18 浙江大华技术股份有限公司 编码控制方法以及相关装置
CN110913137A (zh) * 2019-11-27 2020-03-24 深圳市瓴鹰智能科技有限公司 手势控制与人物追踪自拍杆系统及控制方法
CN111093077A (zh) * 2019-12-31 2020-05-01 深圳云天励飞技术有限公司 一种视频编码方法、装置、电子设备及存储介质
CN111369592A (zh) * 2020-03-13 2020-07-03 浙江工业大学 一种基于牛顿插值的快速全局运动估计方法
CN111447449A (zh) * 2020-04-01 2020-07-24 北京奥维视讯科技有限责任公司 基于roi的视频编码方法和系统以及视频传输和编码系统
CN111461104A (zh) * 2019-01-22 2020-07-28 北京京东尚科信息技术有限公司 视觉识别方法、装置、设备及存储介质
CN111462221A (zh) * 2020-04-03 2020-07-28 深圳前海微众银行股份有限公司 待侦测物体阴影面积提取方法、装置、设备及存储介质
CN111696136A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于编解码结构的目标跟踪方法
WO2020192465A1 (zh) * 2019-03-26 2020-10-01 腾讯科技(深圳)有限公司 一种三维对象重建方法和装置
CN111797737A (zh) * 2020-06-22 2020-10-20 重庆高新区飞马创新研究院 遥感目标检测方法及装置
CN112001347A (zh) * 2020-08-31 2020-11-27 重庆科技学院 一种基于人体骨架形态与检测目标的动作识别方法
CN112839227A (zh) * 2019-11-22 2021-05-25 浙江宇视科技有限公司 一种图像编码方法、装置、设备和介质
CN113453007A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种提高监控场景h264编码效率的方法
CN113762498A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种量化RoiAlign算子的方法
CN113824967A (zh) * 2021-11-23 2021-12-21 环球数科集团有限公司 一种基于深度学习的视频压缩方法
CN114299450A (zh) * 2021-12-29 2022-04-08 成都考拉悠然科技有限公司 一种工地出入车辆清洗监管方法
CN117395424A (zh) * 2023-12-11 2024-01-12 深圳市视晶无线技术有限公司 一种用于视频无线传输监控系统的视频优化方法
CN117671801A (zh) * 2024-02-02 2024-03-08 中科方寸知微(南京)科技有限公司 基于二分缩减的实时目标检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090167866A1 (en) * 2007-12-31 2009-07-02 Lee Kual-Zheng Methods and systems for image processing in a multiview video system
CN102369522A (zh) * 2009-01-12 2012-03-07 美信集成产品公司 计算引擎的并行流水线式集成电路实现
CN104065964A (zh) * 2014-06-19 2014-09-24 上海交通大学 感兴趣区域信息的编解码方法以及视频编解码装置
CN105096279A (zh) * 2015-09-23 2015-11-25 成都融创智谷科技有限公司 一种基于卷积神经网络的数字图像处理方法
US20160337647A1 (en) * 2008-11-17 2016-11-17 Checkvideo Llc Analytics-modulated coding of surveillance video
US20170280166A1 (en) * 2014-07-28 2017-09-28 Jaunt, Inc. Probabilistic model to compress images for three-dimensional video
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090167866A1 (en) * 2007-12-31 2009-07-02 Lee Kual-Zheng Methods and systems for image processing in a multiview video system
US20160337647A1 (en) * 2008-11-17 2016-11-17 Checkvideo Llc Analytics-modulated coding of surveillance video
CN102369522A (zh) * 2009-01-12 2012-03-07 美信集成产品公司 计算引擎的并行流水线式集成电路实现
CN104065964A (zh) * 2014-06-19 2014-09-24 上海交通大学 感兴趣区域信息的编解码方法以及视频编解码装置
US20170280166A1 (en) * 2014-07-28 2017-09-28 Jaunt, Inc. Probabilistic model to compress images for three-dimensional video
CN105096279A (zh) * 2015-09-23 2015-11-25 成都融创智谷科技有限公司 一种基于卷积神经网络的数字图像处理方法
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
REDMON J ET AL.: "《You only look once: unified, real-time object》", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
WANG M: "An efficient frame-content based intra frame rate control for high efficiency video coding", 《IEEE SIGNAL PROCESSING LETTERS》 *
蔡睿: "分布式视频编码关键技术研究", 《中国优秀硕士学位论文全文库》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584558A (zh) * 2018-12-17 2019-04-05 长安大学 一种面向城市交通信号配时的交通流统计方法
CN109785362A (zh) * 2018-12-26 2019-05-21 中国科学院自动化研究所南京人工智能芯片创新研究院 基于目标对象检测的目标对象跟踪方法、装置及存储介质
CN111461104A (zh) * 2019-01-22 2020-07-28 北京京东尚科信息技术有限公司 视觉识别方法、装置、设备及存储介质
CN111461104B (zh) * 2019-01-22 2024-04-09 北京京东乾石科技有限公司 视觉识别方法、装置、设备及存储介质
CN109934848B (zh) * 2019-03-07 2023-05-23 贵州大学 一种基于深度学习的运动物体精准定位的方法
CN109934848A (zh) * 2019-03-07 2019-06-25 贵州大学 一种基于深度学习的运动物体精准定位的方法
US11715224B2 (en) 2019-03-26 2023-08-01 Tencent Technology (Shenzhen) Company Limited Three-dimensional object reconstruction method and apparatus
WO2020192465A1 (zh) * 2019-03-26 2020-10-01 腾讯科技(深圳)有限公司 一种三维对象重建方法和装置
CN110135377A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 物体运动状态检测方法、装置、服务器和计算机可读介质
CN110225341A (zh) * 2019-06-03 2019-09-10 中国科学技术大学 一种任务驱动的码流结构化图像编码方法
CN110662080A (zh) * 2019-09-30 2020-01-07 中国科学技术大学 面向机器的通用编码方法
CN110662080B (zh) * 2019-09-30 2021-10-01 中国科学技术大学 面向机器的通用编码方法
CN110807392A (zh) * 2019-10-25 2020-02-18 浙江大华技术股份有限公司 编码控制方法以及相关装置
CN110807392B (zh) * 2019-10-25 2022-09-06 浙江大华技术股份有限公司 编码控制方法以及相关装置
CN112839227A (zh) * 2019-11-22 2021-05-25 浙江宇视科技有限公司 一种图像编码方法、装置、设备和介质
CN112839227B (zh) * 2019-11-22 2023-03-14 浙江宇视科技有限公司 一种图像编码方法、装置、设备和介质
CN110913137A (zh) * 2019-11-27 2020-03-24 深圳市瓴鹰智能科技有限公司 手势控制与人物追踪自拍杆系统及控制方法
CN111093077A (zh) * 2019-12-31 2020-05-01 深圳云天励飞技术有限公司 一种视频编码方法、装置、电子设备及存储介质
CN111369592A (zh) * 2020-03-13 2020-07-03 浙江工业大学 一种基于牛顿插值的快速全局运动估计方法
CN113453007A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种提高监控场景h264编码效率的方法
CN111447449B (zh) * 2020-04-01 2022-05-06 北京奥维视讯科技有限责任公司 基于roi的视频编码方法和系统以及视频传输和编码系统
CN111447449A (zh) * 2020-04-01 2020-07-24 北京奥维视讯科技有限责任公司 基于roi的视频编码方法和系统以及视频传输和编码系统
CN111462221A (zh) * 2020-04-03 2020-07-28 深圳前海微众银行股份有限公司 待侦测物体阴影面积提取方法、装置、设备及存储介质
CN113762498B (zh) * 2020-06-04 2024-01-23 合肥君正科技有限公司 一种量化RoiAlign算子的方法
CN113762498A (zh) * 2020-06-04 2021-12-07 合肥君正科技有限公司 一种量化RoiAlign算子的方法
CN111696136A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于编解码结构的目标跟踪方法
CN111797737A (zh) * 2020-06-22 2020-10-20 重庆高新区飞马创新研究院 遥感目标检测方法及装置
CN112001347A (zh) * 2020-08-31 2020-11-27 重庆科技学院 一种基于人体骨架形态与检测目标的动作识别方法
CN113824967A (zh) * 2021-11-23 2021-12-21 环球数科集团有限公司 一种基于深度学习的视频压缩方法
CN114299450A (zh) * 2021-12-29 2022-04-08 成都考拉悠然科技有限公司 一种工地出入车辆清洗监管方法
CN117395424B (zh) * 2023-12-11 2024-03-22 深圳市视晶无线技术有限公司 一种用于视频无线传输监控系统的视频优化方法
CN117395424A (zh) * 2023-12-11 2024-01-12 深圳市视晶无线技术有限公司 一种用于视频无线传输监控系统的视频优化方法
CN117671801A (zh) * 2024-02-02 2024-03-08 中科方寸知微(南京)科技有限公司 基于二分缩减的实时目标检测方法及系统
CN117671801B (zh) * 2024-02-02 2024-04-23 中科方寸知微(南京)科技有限公司 基于二分缩减的实时目标检测方法及系统

Also Published As

Publication number Publication date
CN109005409B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN109005409A (zh) 一种基于目标检测与跟踪的智能视频编码方法
WO2018006825A1 (zh) 视频编码方法和装置
CN103002289B (zh) 面向监控应用的视频恒定质量编码装置及其编码方法
CN103440668B (zh) 一种在线视频目标跟踪方法和装置
CN104835182A (zh) 摄像机上实现动态目标实时跟踪的方法
CN109712247B (zh) 基于混合现实技术的实景训练系统
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN102034267A (zh) 基于关注度的目标物三维重建方法
CN110853027A (zh) 一种基于局部变动和全局变化的三维合成图像无参考质量评价方法
CN109583355A (zh) 一种基于边界选择的人流统计的装置和方法
CN113688741A (zh) 一种基于事件相机和视觉相机协同的运动训练评估系统及方法
Wei et al. MSPNET: Multi-supervised parallel network for crowd counting
Zhong et al. Key frame extraction algorithm of motion video based on priori
CN110363197A (zh) 基于改进视觉背景提取模型的视频感兴趣区域提取方法
Zhao et al. Deformable density estimation via adaptive representation
CN102509076B (zh) 基于主成分分析的视频图像背景检测方法
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
Ye et al. SNR-Prior Guided Trajectory-Aware Transformer for Low-Light Video Enhancement
Wang et al. Human action recognition algorithm based on multi-feature map fusion
CN101605269A (zh) 一种密集深度图像跟踪的方法和装置
CN113657186B (zh) 一种基于行人重识别的特征提取方法、装置和存储介质
CN108462878A (zh) 基于关键帧和指示符运动模型的教学视频压缩算法
CN101639940A (zh) 一种基于视频内容的提取视频注意窗序列的方法及系统
Maity et al. A survey on super resolution for video enhancement using gan
CN110414301A (zh) 一种基于双摄头的列车车厢人群密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant