CN111683248A - 基于roi的视频编码方法以及视频编码系统 - Google Patents

基于roi的视频编码方法以及视频编码系统 Download PDF

Info

Publication number
CN111683248A
CN111683248A CN202010366816.1A CN202010366816A CN111683248A CN 111683248 A CN111683248 A CN 111683248A CN 202010366816 A CN202010366816 A CN 202010366816A CN 111683248 A CN111683248 A CN 111683248A
Authority
CN
China
Prior art keywords
roi
video
prediction mode
channel
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010366816.1A
Other languages
English (en)
Other versions
CN111683248B (zh
Inventor
王宇
宗文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aowei Video Technology Co ltd
Original Assignee
Beijing Aowei Video Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aowei Video Technology Co ltd filed Critical Beijing Aowei Video Technology Co ltd
Priority to CN202010366816.1A priority Critical patent/CN111683248B/zh
Publication of CN111683248A publication Critical patent/CN111683248A/zh
Application granted granted Critical
Publication of CN111683248B publication Critical patent/CN111683248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/675Focus control based on electronic image sensor signals comprising setting of focusing regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于ROI的视频编码方法,包括:获取待编码视频的视频帧,所述视频帧包括多个编码块;将所述视频帧分为ROI区域和非ROI区域;生成所述视频帧的掩模,所述掩模可区分所述ROI区域和非ROI区域;获得所述视频帧的颜色空间的至少一个通道的量化参数的差值;对于所述视频帧的每个编码块,根据所述掩模,选择所述至少一个通道的预测模式;对于所述视频帧的每个编码块,根据所述至少一个通道的量化参数的差值,根据该编码块包括ROI区域和/或非ROI区域,调整所述至少一个通道的量化参数;和根据所述预测模式、以及所述至少一个通道的量化参数,对所述视频帧进行编码。

Description

基于ROI的视频编码方法以及视频编码系统
技术领域
本公开大致涉及图像处理技术领域,尤其涉及一种基于ROI的视频编码方法、基于ROI的视频编码系统以及视频传输和编码系统。
背景技术
作为目前主流的视频编码技术,混合视频编码将变换编码与预测编码组合在一起,就构成新的一类所谓混合编码,通常使用DCT、小波变换等频域变换进行空间冗余度的压缩,用帧内预测、带有运动补偿的帧间预测等技术进行时间冗余度的压缩,从而实现对视频数据更高的压缩效率。早期的ITU会议电视和电视电话图像压缩编码标准建议H.261以及后续ISO/IEC的MPEG-1、MPEG-2、MPEG-4、H.264、HEVC以及国内视频编码标准AVS等视频压缩编码标准都采用了这一混合编码方案。
与混合视频编码技术不同,基于感兴趣区域(Region of Interest,ROI)的视频编码技术更侧重于针对特定应用场景进行编码优化,其核心思想是将一帧图像划分为ROI区域及非ROI区域,针对ROI区域适当提高其编码后的视频质量。ROI视频编码技术通常应用在对带宽或存储容量敏感的应用场景,例如视频监控、视频会议、体育赛事直播等场景,从理论上将可以大幅提升编码后视频的主观图像质量。当在视频图像中选定ROI后,在编码过程中通常的做法是相较于非ROI区域,给予ROI区域更多的码字,提高ROI区域的编码质量。如何在ROI区域与非ROI区域之间分配码字在实际应用中是一个重要的问题,但没有统一的标准和算法。一种简单直观的码字分配方法是:为ROI区域和非ROI区域设置不同的量化参数,但这种方法容易在ROI与非ROI的相邻区域产生伪边界,当视频实时播放的时候,这种伪边界严重影响用户的视觉体验。如何根据ROI进行编码优化提升主观视觉效果,同时又不引入量化引起的伪边界或者快效应,是本发明需要解决的问题。
背景技术部分的内容仅仅是发明人所知晓的技术,并不当然代表本领域的现有技术。
发明内容
有鉴于现有技术的至少一个问题,本发明提供一种基于ROI的视频编码方法,包括:
S101:获取待编码视频的视频帧,所述视频帧包括多个编码块;
S102:将所述视频帧分为ROI区域和非ROI区域;
S103:生成所述视频帧的掩模,所述掩模可区分所述ROI区域和非ROI区域;
S104:获得所述视频帧的颜色空间的至少一个通道的量化参数的差值;
S105:对于所述视频帧的每个编码块,根据所述掩模,选择所述至少一个通道的预测模式;
S106:对于所述视频帧的每个编码块,根据所述至少一个通道的量化参数的差值,根据该编码块包括ROI区域和/或非ROI区域,调整所述至少一个通道的量化参数;和
S107:根据所述预测模式、以及所述至少一个通道的量化参数,对所述视频帧进行编码。
根据本发明的一个方面,所述至少一个通道包括亮度通道和色度通道。
根据本发明的一个方面,所述步骤S105包括:
获得该编码块在所述掩模中的对应块;
如果所述对应块中全部为ROI区域或者非ROI区域,则:
如果所述编码块的所述预测模式只能选择帧内预测模式,则对所有可能的帧内预测模式进行遍历,通过率失真优化获得最优帧内预测模式,作为所选择的预测模式;
如果所述编码块的所述预测模式可以选择帧内预测模式或帧间模式,对可选的帧间预测模式进行遍历,通过率失真优化获得最优帧间预测模式,作为所选择的预测模式。
根据本发明的一个方面,所述视频编码方法还包括:如果所述对应块中既包含ROI区域也包含非ROI区域,则:
计算所述掩模中的对应块的每个点的梯度的方向角;
如果所述编码块的所述预测模式只能选择帧内预测模式,对全部点的梯度的方向角进行直方图计算,直方图在[-90°,90°]之间划分为4个区间:b0=[-90°,-67.5°]∪(67.5°,90°],b1=(-67.5°,-22.5°],b2=(22.5°,67.5°],b3=(-22.5°,22.5°],每一点的方向角根据它与相邻两个区间的距离来成比例地放入这相邻两个区间内,对方向角的直方图hist=(hθb0,hθb1,hθb2,hθb3,hθb4},选取h值最大的两个区间,bk1和bk2;仅考虑预测方向落在bk1或bk2之内的帧内预测模式,通过率失真优化选择最优帧内预测模式,作为所选择的预测模式。
根据本发明的一个方面,所述视频编码方法还包括:
如果所述编码块的所述预测模式可以选择帧内预测模式也可以选择帧间模式,对全部点的梯度方向角进行直方图计算,直方图在[-90°,90°]之间划分为4个区间:b0=[-90°,-67.5°]∪(67.5°,90°],b1=(-67.5°,-22.5°],b2=(22.5°67.5°],b3=(-22.5°22.5°],每一点的方向角根据它与相邻两个区间的距离来成比例地放入这相邻两个区间内,对方向角的直方图hist={hθb0,hθb1,hθb2,hθb3,hθb4},选取h值最大的两个区间,bk1和bk2;仅考虑预测方向落在bk1或bk2之内的帧内预测模式;对于帧间预测模式,对所述方向角的直方图hist={hθb0,hθb1,hθb2,hθb3,hθb4},观察hθb0和hθb2:如果hθb0是hist中的最小值,则凡是垂直方向划分的帧间预测模式全部不予考虑(如图2中的M/2xM,M/4xM(L),M/2xM(R));如果hθb2是hist中的最小值,则凡是水平方向划分的帧间预测模式全部不予考虑(参见图2的MxM/2,MxM/4(U),MxM/4(D));
对通过上述方法预选得到的全部帧内预测模式和帧间预测模式进行遍历,通过率失真优化获得最优预测模式作为最终的预测模式。
根据本发明的一个方面,所述至少一个通道包括亮度通道和色度通道,所述视频编码方法还包括:对所述颜色空间的色度通道,采用与所述亮度通道相同的预测模式。
根据本发明的一个方面,所述步骤S106包括:
如果所述对应块仅包含ROI区域,令其量化参数为QPY0-ΔQPY;
如果对应块仅包含非ROI区域,令其量化参数为QPY0+ΔQPY;
如果对应块既包含ROI区域又包含非ROI区域,令其量化参数为QPY0,
其中QPY0为所述亮度通道的量化参数的参考值,ΔQPY为所述亮度通道的量化参数的差值。
根据本发明的一个方面,所述步骤S106还包括:
如果对应块仅包含ROI区域,令其量化参数为QPC0-ΔQPC;
如果对应块仅包含非ROI区域,令其量化参数为QPC0+ΔQPC;
如果对应块既包含ROI区域又包含非ROI区域,令其量化参数为QPC0;
其中QPC0为所述色度通道的量化参数的参考值,ΔQPC为所述色度通道的量化参数的差值。
根据本发明的一个方面,通过以下方式计算所述差值:
Figure BDA0002476745320000041
1≤ΔQPY≤S,1≤ΔQPC≤T
其中SR为所述掩模中ROI区域的面积,
Figure BDA0002476745320000042
为非ROI区域的面积,,S和T为预设阈值。
本发明还提供一种基于ROI的视频编码系统,包括:
ROI区域提取单元,配置成接收待编码视频的视频帧的单元,所述视频帧包括多个编码块,并将所述视频帧分为ROI区域和非ROI区域的单元,生成所述视频帧的掩模,所述掩模可区分所述ROI区域和非ROI区域;
视频编码单元,所述视频编码单元配置:
接收所述掩模以及所述视频帧,
获得所述视频帧的颜色空间的至少一个通道的量化参数的差值,
对于所述视频帧的每个编码块,根据所述掩模,选择所述至少一个通道的预测模式;
对于所述视频帧的每个编码块,根据所述至少一个通道的量化参数的差值,根据该编码块包括ROI区域和/或非ROI区域,调整所述至少一个通道的量化参数;和
根据所述预测模式/以及所述至少一个通道的量化参数,对所述视频帧进行编码。
根据本发明的一个方面,所述ROI区域提取单元和视频编码单元从视频源接收所述待编码视频的视频帧;或者
所述ROI区域提取单元从视频源接收所述待编码视频的视频帧,所述视频编码单元从所述ROI区域提取单元接收所述待编码视频的视频帧。
根据本发明的一个方面,所述的视频编码系统还包括摄像头和摄像头控制单元,所述摄像头控制单元与所述摄像头连接,并与所述ROI区域提取单元通讯,并配置成可根据所述ROI区域在所述视频区域中的大小和/或位置调节所述摄像头的角度和/或焦距。
附图说明
构成本公开的一部分的附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1示出了根据本发明一个实施例的基于ROI的视频编码方法;
图2示出了感兴趣区域掩模的方向梯度直方图的区间以及帧内预测模式的选择;
图3示出了HEVC的帧间预测模式;
图4示出了根据本发明一个实施例的基于ROI的视频编码系统;
图5示出了集成了针对ROI的视频编码优化的实时视频通讯系统;和
图6示出了集成了针对ROI的视频编码优化的远程教育录播系统。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
在本发明的描述中,需要理解的是,术语″中心″、″纵向″、″横向″、″长度″、″宽度″、″厚度″、″上″、″下″、″前″、″后″、″左″、″右″、″坚直″、″水平″、″顶″、″底″、″内″、″外″、″顺时针″、″逆时针″等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语″第一″、″第二″仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有″第一″、″第二″的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,″多个″的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语″安装″、″相连″、″连接″应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接:可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之″上″或之″下″可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征″之上″、″上方″和″上面″包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征″之下″、″下方″和″下面″包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
针对在对带宽或存储容量有一定限制要求的视频编码应用场景,即要求恒定码率或近似恒定码率的条件下,本发明提出了一种针对ROI的视频编码优化的方法与装置,具体说来,在给定当前帧的帧级别量化参数的参考值的前提下,对图像中的ROI及非ROI分别提取与图像内容以及应用场景相关的统计量。ROI的位置信息以及该统计量共同指导每一个编码块的帧内/帧间预测模式的选择以及量化参数的调整,达到既提高主观视觉质量,同时又降低编码预测模式选择的计算复杂度。主观质量的提高表现在与整帧采用同样的量化参数相比,基于本发明方法的图像中ROI区域图像质量明显提高,同时ROI与非ROI的过渡区不会出现明显的伪边界。该编码技术在视频编码过程中也可以与其他码率控制算法相结合。本发明同时给出根据该方法,针对不同视频应用场景下的视频编码装置。
本发明涉及一种视频混合编码系统与装置,在现有国际视频编码标准H.264以及HEVC或者国内视频编码标准AVS等混合编码框架的基础之上,提出一种针对视频画面中的感兴趣区域进行编码参数和编码策略的优化方法与装置,达到提高主观视觉质量、降低码流带宽或视频文件存储空间的目的。编码器输出码流可以是符合H.264、HEVC、AVS等视频编码标准的码流,也可以是符合私有视频编码标准的码流,满足不同应用场景的需求。
图1示出了根据本发明一个实施例的基于ROI的视频编码方法100,下面参考附图详细描述。
在步骤S101:获取待编码视频的视频帧,所述视频帧包括多个编码块。所述待编码的视频例如为包括实时采集的连续图像帧,或者是存储或者缓冲的连续图像帧。所述编码块例如为16*16的像素区域,或者32*32的像素区域,或者64*64的像素区域。
在步骤S102:将所述视频帧分为ROI区域和非ROI区域。本领域技术人员可以理解,可以通过各种图像处理方式来将视频帧分为ROI区域和非ROI区域。例如对于演讲、会议视频直播,人物的头肩部分可以分类为ROI区域,背景区域可分类为非ROI区域;对于体育赛事直播,运动员对应的前景部分可以分类为ROI区域,观众席区域可分类为非ROI区域。下文将给出一种根据本发明优选实施例的ROI区域识别方法。
在步骤S103:生成所述视频帧的掩模,所述掩模可区分所述ROI区域和非ROI区域。
本发明中,使用掩膜来区分ROI区域和非ROI区域。不失一般性的可以设定:ROI信息以掩模(Mask)的形式表现,其精度为WMxHM,设视频图像的分辨率为WxH,则满足WM≤W,HM≤H,
Figure BDA0002476745320000081
其中nW和nH为整数。
因此上述掩膜在本质上是一幅二值图像:属于ROI区域的点的像素值为1,非ROI区域的点的像素值为0。掩模的精度或者分辨率可以与视频图像帧的分辨率相等。例如对于1920*1080的图像帧,该掩膜同样为1920*1080的二值图像或者矩阵。根据本发明的一个实施例,上述掩膜的精度或者分辨率低于视频图像帧的分辨率。这是由于在实际应用中为了适应算法、算力以及存储空间等多种因素的限制,可以使得掩膜的精确度低于视频图像的分辨率。例如对于上述1920*1080的图像帧,掩膜可以为960*540的二值图像或者矩阵,从而掩膜的一个像素对应于图像帧的四个像素(2*2)。
在步骤S104:获得所述视频帧的颜色空间的至少一个通道的量化参数的差值。
根据本发明的一个优选实施例,所述至少一个通道包括亮度通道和色度通道,下面将以此为例进行详细描述。容易理解,本发明不限于此,所述至少一个通道也可以包括其他的通道,或者仅包括一个通道,这些都在本发明的保护范围内。
设定当前帧的亮度通道和色度通道的量化参数的参考值分别为QPY0和QPC0。通常在对一帧视频帧进行编码时,可以对整体设定一个量化参数,例如采用均值的方式。对于视频帧中的每个编码块,根据该编码块的特性来调整局部的量化参数,例如增加一个delta,或者减一个delta。
根据上述掩模,可以统计ROI区域的面积SR,并且得到非ROI的面积为
Figure BDA0002476745320000091
设ROI区域的亮度通道的量化参数为QPY0-ΔQPY,非ROI区域的量化参数为QPY0+ΔQPY;设ROI区域的色度通道的量化参数为QPC0-ΔQPC,非ROI区域的量化参数为QPC0+ΔQPC,则ΔQPY的及ΔQPC的选择应满足下式:
Figure BDA0002476745320000092
在主流的视频编码标准中,量化参数一般是以整数的形式给定,对于上式可以通过数值计算的方法得到ΔQPY和ΔQPC。当计算得到的ΔQPY或ΔQPC小于1时令其等于1。
优选的,为了避免ROI区域与非ROI区域的量化参数差距过大引起伪边界或者块效应,还可以设定一个ΔQPY和ΔQPC的最大值,即:
Figure BDA0002476745320000101
对于采用H.264以及HEVC的视频编码系统,可以设定S=T=3。
在步骤S105:对于所述视频帧的每个编码块,根据所述掩模,选择所述至少一个通道的预测模式。下面描述根据本发明一个优选实施例的选择预测模式的方法。
设编码块CB的亮度通道为CBY(x,y)(矩阵),其中x,y为编码块CB左上角的像素的横坐标和纵坐标。编码块CB在掩模中的对应块为Mask(xM,yM),xM,yM可通过如下计算得到:
Figure BDA0002476745320000102
在子步骤S105-1,计算该对应块Mask(xM,yM)中每个点梯度的方向角θ(x′,y′)。θ(x′,y′)可以通过空域梯度模板(例如Sobel算子,Roberts算子、Canny算子等)或者频域滤波获得水平方向和垂直的梯度图像,然后再根据梯度方向角的定义得到,此处不再赘述。不失一般性,θ(x′,y′)定义为与Y轴正方向的夹角,其取值范围[-90°,90°]。如果对应块Mask(xM,yM)中全部为ROI区域或者非ROI区域,则无需计算方向角θ(x′,y′)。
在子步骤S105-2,判断编码块的亮度通道CBY(x,y)的预测模式只能选择帧内预测模式,还是既可以选择帧内预测模式也可以选择帧间预测模式。然后根据判断结果,按照以下方式(1)和(2)之一来进行处理。
(1)如果编码块的亮度通道CBY(x,y)的预测模式只能选择帧内预测模式(例如对于H.264以及HEVC中的I帧和IDR帧),那么根据以下步骤a)、b)、c)、d)和e)来进行处理。
a)如果对应块Mask(xM,yM)中全部为ROI区域或者非ROI区域,则对所有可能的帧内预测模式进行遍历(视频处理中所有可能的帧内预测模式都可作为备选),通过率失真优化(Rate-Distortion Optimization,RDO)获得最优帧内预测模式,作为当前编码块的亮度通道的预测模式;
b)如果对应块Mask(xM,yM)中既包含ROI区域也包含非ROI区域,则对全部点的梯度方向角θ(x,y)进行直方图计算(也被称为方向梯度直方图,Histogram of Gradient,HoG),HoG在[-90°,90°]之间例如可划分为以下4个区间:
b0=[-90°,-67.5°]∪(67.5°,90°]
b1=(-67.5°,-22.5°]
b2=(22.5°,67.5°]
b3=(-22.5°,22.5°]
上述4个区间如图2(a)所示。其中每一点的方向角θ(x′,y′)都会根据它与相邻两个区间的距离来成比例地放入这相邻两个区间内。
c)对方向角θ(x′,y′)的直方图hist={hb0,hb1,hb2,hb3},选取h值最大的区间,记为bk,其中k=1、2、3或4。
d)在进行帧内预测模式选择的时候,仅考虑预测方向落在bk之内的模式,其他模式不用考虑。例如h值最大的区间为b1,则选择的帧内预测模式如图2(b)所示。
e)对通过步骤d)得到的全部帧内预测模式进行遍历,通过率失真优化(Rate-Distortion Optimization,RDO)获得最优预测模式作为最终的预测模式。
因此,如果对应块Mask(xM,yM)中全部为ROI区域或者非ROI区域,采用上述步骤a)来选择预测模式;如果对应块Mask(xM,yM)中既包含ROI区域也包含非ROI区域,采用上述步骤b)-e)来选择预测模式。
(2)如果编码块的亮度通道CBY(x,y)的预测模式既可以选择帧内预测模式也可以选择帧间模式(例如H.264以及HEVC中的B帧和P帧),那么根据以下步骤a)、b)、c)来处理。
a)如果对应块Mask(xM,yM)中全部为ROI区域或者非ROI区域,则不考虑帧内预测模式,对所有可能的帧间预测模式进行遍历,通过率失真优化(Rate-DistortionOptimization,RDO)获得最优帧间预测模式作为最终的预测模式。
b)如果对应块Mask(xM,yM)中既包含ROI区域也包含非ROI区域,则对全部点的梯度方向角θ(x′,y′)利用上述的方法计算HoG并进行帧内预测模式的选择,获得候选的帧内预测模式;对于帧间预测模式,同样可以利用HoG来进行预测模式的选择,方法如下:对方向角θ(x′,y′)的直方图hist=(hb0,hb1,hb2,hb3},观察hb0和hb3:如果hb0是hist中的最小值,则凡是垂直方向划分的帧间预测模式全部不予考虑(参见图3中的M/2xM,M/4xM(L),M/4xM(R));如果hb3是hist中的最小值,则凡是水平方向划分的帧间预测模式全部不予考虑(参见图3中的MxM/2,MxM/4(U),MxM/4(D))。通过这样的方式,排除掉一部分帧间预测模式,获得候选的帧间预测模式。
c)对通过上述步骤b)预选得到的全部候选的帧内预测模式和帧间预测模式进行遍历,通过率失真优化(Rate-Distortion Optimization,RDO)获得最优预测模式作为最终的预测模式。
上面以亮度通道为例,说明了预测模式的选择。类似的,可以对色度通道进行相应的预测模式的选择。另外根据本发明的一个实施例,对所述颜色空间的色度通道,可以直接采用与所述亮度通道相同的预测模式,而无需再次进行相应的预测模式的选择。
在步骤S106:对于所述视频帧的每个编码块,根据所述至少一个通道的量化参数的差值,根据该编码块包括ROI区域和/或非ROI区域,调整所述至少一个通道的量化参数。
对于每一个编码块的亮度通道CBY(x,y),根据步骤S104中计算出的ΔQPY调整CBY(x,y)的量化参数,具体计算方法如下:
a)如果对应块Mask(xM,yM)仅包含ROI区域,令其量化参数为QPY0-ΔQPY;
b)如果对应块Mask(xM,yM)仅包含非ROI区域,令其量化参数为QPY0+ΔQPY:
c)如果对应块Mask(xM,yM)既包含ROI又包含非ROI,令其量化参数为QPY0。
对于每一个编码块的色度通道CBC1(x,y)和CBC2(x,y),根据步骤S104中计算出的ΔQPC调整CBC1(x,y)和CBC2(x,y)的量化参数,具体计算方法如下:
a)如果对应块Mask(xM,yM)仅包含ROI区域,令其量化参数为QPC0-ΔQPC;
b)如果对应块Mask(xM,yM)仅包含非ROI区域,令其量化参数为QPC0+ΔQPC;
c)如果对应块Mask(xM,yM)既包含ROI又包含非ROI区域,令其量化参数为QPC0。
在步骤S107:根据所述预测模式、以及所述至少一个通道的量化参数,对所述视频帧进行编码。
在对每一个编码块确定了其预测模式并调节了量化参数后,根据相应的预测模式和量化参数,对该视频帧进行编码。
本发明还涉及一种基于ROI的视频编码系统200,如图4所示,下面参考附图详细描述。
如图4所示,视频编码系统200包括ROI区域提取单元201和视频编码单元202,其中ROI区域提取单元配置成接收待编码视频的视频帧的单元,所述视频帧包括多个编码块,并将所述视频帧分为ROI区域和非ROI区域的单元,生成所述视频帧的掩模,所述掩模可区分所述ROI区域和非ROI区域。
所述视频编码单元202配置执行以下步骤:
接收所述掩模以及所述视频帧,
获得所述视频帧的颜色空间的至少一个通道的量化参数的差值,
对于所述视频帧的每个编码块,根据所述掩模,选择所述至少一个通道的预测模式;
对于所述视频帧的每个编码块,根据所述至少一个通道的量化参数的差值,根据该编码块包括ROI区域和/或非ROI区域,调整所述至少一个通道的量化参数;和
根据所述预测模式/以及所述至少一个通道的量化参数,对所述视频帧进行编码。
根据本发明的一个实施例,所述ROI区域提取单元和视频编码单元从视频源接收所述待编码视频的视频帧;或者
所述ROI区域提取单元从视频源接收所述待编码视频的视频帧,所述视频编码单元从所述ROI区域提取单元接收所述待编码视频的视频帧。
根据本发明的一个实施例,所述视频编码系统还包括摄像头和摄像头控制单元,所述摄像头控制单元与所述摄像头连接,并与所述ROI区域提取单元通讯,并配置成可根据所述ROI区域在所述视频区域中的大小和/或位置调节所述摄像头的角度和/或焦距。
图5和图6分别示出了根据本发明的两个具体实施例。
【实施例一】
图5示出了根据本发明实施例一的集成了针对ROI的视频编码优化的实时视频通讯系统,其视频内容的特点如下:背景相对固定,全景以头肩序列或其他活动目标为主。该系统的实施可利用图4所示的视频编码系统200实施,可执行如图1所示的视频编码方法100。并进行下述补充或修改:
该系统主要分为两个单元:ROI区域提取单元和视频编码单元。如图5所示,实时的视频输入信号被ROI区域提取单元和视频编码单元接收,ROI区域提取单元负责提取ROI并输出ROI掩模;视频编码模块接收输入视频信号以及ROI掩模,采用图1所示的视频编码方法100中的步骤S104、S105、S106及S107实现针对ROI的视频编码优化,输出编码后的码流。
图5中的ROI区域提取单元和视频编码单元被描述为两个独立模块,在实际应用中,这两个单元既可以是串行结构,也可以是并行异步结构。
(1)串行结构:即对于当前编码帧,输入信号首先进入ROI区域提取单元提取ROI区域,获得了ROI掩模之后再进入视频编码单元。串行结构实现简单,不易发生系统拥塞,缺点是处理效率低;
(2)并行异步结构:ROI区域提取单元和视频编码单元是两个并行运行的处理单元,ROI区域提取单元接收输入视频信号并进行提取ROI区域的操作,获得的ROI掩模放入FIFO缓存单元;视频编码单元接收输入视频信号并访问FIFO缓存单元,一旦获得当前编码帧的ROI掩模则立即开始编码。并行异步结构处理效率高,但实现较串行结构复杂,特别要注意设计好缓冲器的容量和操作流程。
ROI区域提取单元提取的ROI区域由应用场景决定:例如在视频会议中提取的是人体的头肩部分,而在体育比赛直播中,提取的ROI是活动目标:包括足球和运动员的身体,绿色的场地为非ROI。
【实施例二】
实施例二为集成了针对ROI的视频编码优化的远程教育录播系统,参见图6。该场景需要云台摄像机拍摄老师画面和学生画面,动态跟踪老师。因此,在实施例一的基础之上增加了一个控制云台单元,该单元的输入为ROI掩模,通过ROI区域在视频图像中的大小、位置等信息来调整摄像机的角度和焦距。ROI提取单元提取的ROI为人体(老师),可以通过光流、运动检测,甚至深度学习网络来实现。
对于视频图像可以预设一个有效区域,如果所有ROI的中心位置均在有效区域之内,则无需调整摄像机的角度;如果有任何一个ROI的中心位置在有效区域之外,则系统需发送指令给云台调整摄像机的角度。本领域技术人员容易理解,本发明中,可以选择使得ROI区域的中心位置位于有效区域内,或者使得ROI区域的全部都位于有效区域内,这些都在本发明的保护范围内。为了确保摄像机拍摄的画面不会出现剧烈晃动,摄像机的角度每次均进行微调,经过多次微调后将ROI调整到画面的有效区域之内。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于ROI的视频编码方法,包括:
S101:获取待编码视频的视频帧,所述视频帧包括多个编码块;
S102:将所述视频帧分为ROI区域和非ROI区域;
S103:生成所述视频帧的掩模,所述掩模可区分所述ROI区域和非ROI区域;
S104:获得所述视频帧的颜色空间的至少一个通道的量化参数的差值;
S105:对于所述视频帧的每个编码块,根据所述掩模,选择所述至少一个通道的预测模式;
S106:对于所述视频帧的每个编码块,根据所述至少一个通道的量化参数的差值,根据该编码块包括ROI区域和/或非ROI区域,调整所述至少一个通道的量化参数;和
S107:根据所述预测模式、以及所述至少一个通道的量化参数,对所述视频帧进行编码。
2.如权利要求1所述的视频编码方法,其中所述至少一个通道包括亮度通道和色度通道。
3.如权利要求1或2所述的视频编码方法,其中所述步骤S105包括:
获得该编码块在所述掩模中的对应块;
如果所述对应块中全部为ROI区域或者非ROI区域,则:
如果所述编码块的所述预测模式只能选择帧内预测模式,则对所有可能的帧内预测模式进行遍历,通过率失真优化获得最优帧内预测模式,作为所选择的预测模式;
如果所述编码块的所述预测模式可以选择帧内预测模式或帧间模式,对可选的帧间预测模式进行遍历,通过率失真优化获得最优帧间预测模式,作为所选择的预测模式。
4.如权利要求3所述的视频编码方法,还包括:如果所述对应块中既包含ROI区域也包含非ROI区域,则:
计算所述掩模中的对应块的每个点的梯度的方向角;
如果所述编码块的所述预测模式只能选择帧内预测模式,对全部点的梯度的方向角进行直方图计算,直方图在[-90°,90°]之间划分为4个区间:b0=[-90°,-67.5°]∪(67.5°,90°],b1=(-67.5°,-22.5°],b2=(22.5°,67.5°],b3=(-22.5°,22.5°],每一点的方向角根据它与相邻两个区间的距离来成比例地放入这相邻两个区间内,对方向角的直方图hist={hb0,hb1,hb2,hb3},选取h值最大的区间,记为bk;仅考虑预测方向落在bk之内的帧内预测模式,通过率失真优化选择最优帧内预测模式,作为所选择的预测模式。
5.如权利要求4所述的视频编码方法,还包括:
如果所述编码块的所述预测模式可以选择帧内预测模式也可以选择帧间模式,对全部点的梯度方向角进行直方图计算,直方图在[-90°,90°]之间划分为4个区间:b0=[-90°,-67.5°]∪(67.5°,90°],b1=(-67.5°,-22.5°],b2=(22.5°,67.5°],b3=(-22.5°,22.5°],每一点的方向角根据它与相邻两个区间的距离来成比例地放入这相邻两个区间内,对方向角的直方图记为bk,选取h值最大的区间,记为bk;仅考虑预测方向落在bk之内的帧内预测模式作为候选的帧内预测模式;对于帧间预测模式,对所述方向角的直方图hist={hb0,hb1,hb2,hb3},观察hb0和hb3:如果hb0是hist中的最小值,则凡是垂直方向划分的帧间预测模式不予考虑;如果hb3是hist中的最小值,则凡是水平方向划分的帧间预测模式不予考虑,获得候选的帧间预测模式;
对候选的帧内预测模式和帧间预测模式进行遍历,通过率失真优化获得最优预测模式作为最终的预测模式。
6.如权利要求5所述的视频编码方法,其中所述至少一个通道包括亮度通道和色度通道,所述视频编码方法还包括:对所述颜色空间的色度通道,采用与所述亮度通道相同的预测模式。
7.如权利要求6所述的视频编码方法,其中所述步骤S106包括:
如果所述对应块仅包含ROI区域,令其亮度通道的量化参数为QPY0-ΔQPY;
如果对应块仅包含非ROI区域,令其亮度通道的量化参数为QPYO+ΔQPY;
如果对应块既包含ROI区域又包含非ROI区域,令其亮度通道的量化参数为QPY0,
其中QPY0为所述亮度通道的量化参数的参考值,ΔQPY为所述亮度通道的量化参数的差值。
8.如权利要求7所述的视频编码方法,其中所述步骤S106还包括:
如果对应块仅包含ROI区域,令其色度通道的量化参数为QPC0-ΔQPC;
如果对应块仅包含非ROI区域,令其色度通道的量化参数为QPC0+ΔQPC;
如果对应块既包含ROI区域又包含非ROI区域,令其色度通道的量化参数为QPC0;
其中QPC0为所述色度通道的量化参数的参考值,ΔQPC为所述色度通道的量化参数的差值。
9.如权利要求8所述的视频编码方法,其中通过以下方式计算所述差值:
Figure FDA0002476745310000031
1≤ΔQPY≤S,1≤ΔQPC≤T
其中SR为所述掩模中ROI区域的面积,
Figure FDA0002476745310000041
为非ROI区域的面积,,S和T为预设阈值。
10.一种基于ROI的视频编码系统,包括:
ROI区域提取单元,配置成接收待编码视频的视频帧的单元,所述视频帧包括多个编码块,并将所述视频帧分为ROI区域和非ROI区域的单元,生成所述视频帧的掩模,所述掩模可区分所述ROI区域和非ROI区域;
视频编码单元,所述视频编码单元配置:
接收所述掩模以及所述视频帧,
获得所述视频帧的颜色空间的至少一个通道的量化参数的差值,
对于所述视频帧的每个编码块,根据所述掩模,选择所述至少一个通道的预测模式;
对于所述视频帧的每个编码块,根据所述至少一个通道的量化参数的差值,根据该编码块包括ROI区域和/或非ROI区域,调整所述至少一个通道的量化参数;和
根据所述预测模式/以及所述至少一个通道的量化参数,对所述视频帧进行编码。
11.如权利要求10所述的视频编码系统,其中所述ROI区域提取单元和视频编码单元从视频源接收所述待编码视频的视频帧;或者
所述ROI区域提取单元从视频源接收所述待编码视频的视频帧,所述视频编码单元从所述ROI区域提取单元接收所述待编码视频的视频帧。
12.如权利要求10或11所述的视频编码系统,还包括摄像头和摄像头控制单元,所述摄像头控制单元与所述摄像头连接,并与所述ROI区域提取单元通讯,并配置成可根据所述ROI区域在所述视频区域中的大小和/或位置调节所述摄像头的角度和/或焦距。
CN202010366816.1A 2020-04-30 2020-04-30 基于roi的视频编码方法以及视频编码系统 Active CN111683248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010366816.1A CN111683248B (zh) 2020-04-30 2020-04-30 基于roi的视频编码方法以及视频编码系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010366816.1A CN111683248B (zh) 2020-04-30 2020-04-30 基于roi的视频编码方法以及视频编码系统

Publications (2)

Publication Number Publication Date
CN111683248A true CN111683248A (zh) 2020-09-18
CN111683248B CN111683248B (zh) 2022-04-22

Family

ID=72452277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010366816.1A Active CN111683248B (zh) 2020-04-30 2020-04-30 基于roi的视频编码方法以及视频编码系统

Country Status (1)

Country Link
CN (1) CN111683248B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205583A (zh) * 2022-01-20 2022-03-18 深圳市瑞驰信息技术有限公司 一种基于h265的视频编码方法、系统及电子设备
WO2023082773A1 (zh) * 2021-11-12 2023-05-19 华为技术有限公司 视频编解码方法、装置、设备、存储介质及计算机程序

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945275A (zh) * 2010-08-18 2011-01-12 镇江唐桥微电子有限公司 一种基于感兴趣区域的视频编码方法
CN102724509A (zh) * 2012-06-19 2012-10-10 清华大学 视频序列的最优帧内编码模式选择方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945275A (zh) * 2010-08-18 2011-01-12 镇江唐桥微电子有限公司 一种基于感兴趣区域的视频编码方法
CN102724509A (zh) * 2012-06-19 2012-10-10 清华大学 视频序列的最优帧内编码模式选择方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082773A1 (zh) * 2021-11-12 2023-05-19 华为技术有限公司 视频编解码方法、装置、设备、存储介质及计算机程序
CN114205583A (zh) * 2022-01-20 2022-03-18 深圳市瑞驰信息技术有限公司 一种基于h265的视频编码方法、系统及电子设备
CN114205583B (zh) * 2022-01-20 2024-01-16 深圳市瑞驰信息技术有限公司 一种基于h265的视频编码方法、系统及电子设备

Also Published As

Publication number Publication date
CN111683248B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
US20220312021A1 (en) Analytics-modulated coding of surveillance video
CA2614016C (en) Moving image encoding device, moving image decoding device, moving image encoding method, and moving image decoding method
ES2630452T3 (es) Dispositivo de codificación de imágenes, dispositivo de descodificación de imágenes, procedimiento de codificación de imágenes y procedimiento de descodificación de imágenes
US10277901B2 (en) Encoding a video stream having a privacy mask
CN105472205B (zh) 编码过程中的实时视频降噪方法和装置
US8179961B2 (en) Method and apparatus for adapting a default encoding of a digital video signal during a scene change period
US20220058775A1 (en) Video denoising method and apparatus, and storage medium
CN111447449B (zh) 基于roi的视频编码方法和系统以及视频传输和编码系统
EP1915825A2 (en) Coding device, coding method, decoding device, decoding method, and programs of same
KR20160058020A (ko) 디지털 이미지들에서 관련된 영역들을 식별하는 방법, 디지털 이미지들을 인코딩하는 방법 및 인코더 시스템
KR20040018506A (ko) 비디오 데이터 스트림에서 카툰을 검출하기 위한 방법 및시스템
CN111683248B (zh) 基于roi的视频编码方法以及视频编码系统
US11240510B2 (en) Blurring privacy masks
CN114157870A (zh) 编码方法、介质及电子设备
KR100816013B1 (ko) 압축영상의 장면전환 검출장치 및 방법
US11539944B2 (en) Method and device for intra-coding an image frame
Paul et al. Pattern-based video coding with dynamic background modeling
Kim et al. ROI-centered compression by adaptive quantization for sports video
De Bruyne et al. Temporal video segmentation on H. 264/AVC compressed bitstreams
An et al. Low-complexity motion estimation for H. 264/AVC through perceptual video coding.
Mallik et al. HEVC based mixed-resolution stereo video codec
WO2009152536A1 (en) Method for processing sport video sequences
CN106878753B (zh) 一种使用纹理平滑信息的3d视频残差编码模式选择方法
Karlsson Spatio-temporal pre-processing methods for region-of-interest video coding
Arrivukannamma et al. An Enriched Quality Metrics for Rate Control Algorithm Using H. 264/AVC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant