CN103826121B

CN103826121B - 低延迟视频编码基于场景切换检测的码率控制方法

Info

Publication number: CN103826121B
Application number: CN201310711785.9A
Authority: CN
Inventors: 周益民; 朱策
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2017-05-10
Anticipated expiration: 2033-12-20
Also published as: CN103826121A

Abstract

本发明提供一种低延迟视频编码中基于场景切换的码率控制方法。本发明通过计算当前帧的灰度直方图与上一帧的灰度直方图计算两相邻帧的相似度指标准确地检测出场景切换，从而有效地通过调节GOP长度来控制码率，进一步的，还可以同时通过调节量化参数、当前编码帧率来控制码率。如果场景切换检测到发生，立即将当前帧类型设置为I‑帧，将GOP中关于已编码P‑帧的计数器置0，相关环境作初始化，即重新开始一个GOP的编码以提高视频编码的自适应性。

Description

低延迟视频编码基于场景切换检测的码率控制方法

技术领域

本发明涉及视频图像压缩编码技术。

背景技术

码率控制是视频编码器中重要的功能组成部分。随着网络视频应用的不断拓展，网上视频点播、网络视频监控、视频电话通信和社交网络中视频应用的不断兴起和流行，视频图像的即时高质量传输及服务成为急迫的技术需求。上述这些应用在低延迟数据传输、控制、响应、带宽等方面都具有相对受限性。因此，开发适用于多种视频编解码标准的低延迟码率控制系统具有强烈的现实意义。

视频编码中的低延迟(Low-delay)特指帧间预测编码过程中仅包含帧内预测I-帧和单向预测P-帧，不使用双向预测即不采用B-帧结构编码。低延迟编码是快速进行的顺序编码，编码顺序和播放顺序一致。最常见的低延迟编码为“IPP..”或“IPP..IPP..”结构。图像组GOP被定义为以一个起始I-帧和若干连续P-帧组成，它的长度可以是固定的也可以是变化的。此外，全I-帧编码结构作为低延迟编码的特殊，其编码为“III..”。在全I-帧编码结构下，每一个GOP仅包含一个I-帧。

视频图像信号源场景变化、镜头瞬间切换频繁。从编解码器内部来看，由于采用帧间预测方式，后续帧将参考早前解码帧，那么在场景切换的瞬间，当前编码帧将无法直接从早前解码帧中获得有效的可参考图像(块)。从外部应用角度来看，场景切换时恰好应该是图像进行合理重新分组的时候，这样可以有效阻断视频编码预测误差蔓延。

发明内容

本发明所要解决的技术问题是，提供一种面向低延迟视频编码结构，可以准确检测出场景切换，进一步调整GOP长度，进行码率控制的方法。

本发明为解决上述技术问题所采用的技术方案是，低延迟视频编码中基于场景切换的码率控制方法，包括以下步骤：

1)计算当前帧的灰度直方图；

2)通过当前帧的灰度直方图与上一帧的灰度直方图计算两相邻帧的相似度指标；所述相似度指标通过高维向量余弦相似度表示：

其中，cos(θ_t-1,t)为两相邻帧直方图的余弦相似度，t表示当前编码时刻，H_t[i]表示在编码时刻t的视频图像帧像素灰度值为i的像素点总数，H_t-1[i]表示在上一编码时刻t-1的视频图像帧像素灰度值为i的像素点总数，视频图像帧像素灰度值的范围为1至n，n是灰度直方图用一维数组表示时的总元素个数；

3)当两相邻帧的相似度指标小于阈值，则表示发生场景切换，进入步骤4)；否则设置当前帧类型设置为P-帧，提取下一帧数据后返回步骤1)；

4)统计当前图像组GOP中已编码的P-帧是否达到帧率周期数值，如是，则进入步骤5)，否则设置当前帧类型设置为P-帧，提取下一帧数据后返回步骤1)；

5)设置当前帧类型设置为I-帧，开始一个新的GOP，提取下一帧数据后返回步骤1)；

在当前的编码时刻t，如当前编码帧为I-帧时，使用量化参数Q：

在当前的编码时刻t，如当前编码帧为P-帧时，使用量化参数Q：

其中，Q_t为当前的编码时刻t使用的量化参数Q，Q_t-1为上一个编码时刻t-1使用的量化参数Q，R_t-1表示上一个编码时刻t-1的帧编码输出比特，C_t为当前的编码时刻t的编码图像纹理复杂度，C_t-1为上一个编码时刻t-1的编码图像纹理复杂度；ΔR为编码时刻t需要修正的比特增量，表示B(t)被修正后的结果，Ipt(t)表示1个实际编码帧率F_C周期内相邻帧编码的量化参数Q的绝对差值和，为B(t)为当前的编码时刻t的缓冲区容量，B(t-1)为上一编码时刻t-1的缓冲区容量，α,β称为控制器参数，μ为防除0的经验参数；

当前编码帧为I-帧时率失真模型为lnR＝a·lnQ+b·lnC+c，Q表示量化参数，R表示帧编码输出比特，C表示编码图像纹理复杂度，a、b、c为率失真模型参数，率失真模型参数a、b的取值通过多元线性回归进行更新；当前编码帧为P-帧时率失真模型为lnR＝a·lnQ+c，率失真模型参数a的取值通过一元线性回归进行更新。

本发明的目的是，如果场景切换检测到发生，立即将当前帧类型设置为I-帧，将GOP中关于已编码P-帧的计数器置0，相关环境作初始化，即重新开始一个GOP的编码以提高视频编码的自适应性，还可以在通过调节GOP长度的同时，通过调节量化参数来控制码率。

进一步的，为了提高检测准确性，引入线性相关系数，与余弦相似度一起来表征相似度指标；

其中，r_t-1,t为两相邻帧直方图的线性相关系数，为在编码时刻t的视频图像帧像素灰度值均值，为在编码时刻t-1的视频图像帧像素灰度值均值。

具体的，相似度指标可以为余弦相似度与线性相关系数的乘积；也可以为线性相关系数的平方与余弦相似度的乘积。

本发明通过建立的率失真模型，发现了视频图像编码中量化参数、帧编码输出比特、编码图像纹理复杂度之间的两两存在的线性关系，给出了一种调节量化参数的新方法。并且，为了合理地进行量化参数的调节，引入了调节强度Ipt(t)，当连续若干帧编码的量化参数值变化的频率和强度越大，那么将减小调节强度Ipt(t)；连续若干帧编码的量化参数值变化的频率和强度越小，那么将增大调节强度Ipt(t)。

进一步的，本发明还可以在通过调节GOP长度的同时，通过调节当前编码帧率来控制码率。本发明方法还包括，通过当前的Q来调节当前编码帧率F_C：当Q的取值在低段区间，在不高于帧率上限范围内增加当前编码帧率F_C；当Q的取值在高段区间，在不低于帧率下限范围内降低当前编码帧率F_C；当Q的取值在中段区间，保持当前编码帧率F_C不变；

当Q值频繁落在低段区间时候，适当增加帧率，将直接减小帧编码输出比特数，码率控制将调节后续QP值到中段区间；当Q值频繁落在高段区间时候，适当减小帧率，将直接增加帧编码输出比特数，也可以使得后续QP值调整到中段区间，保证视觉质量保持平滑和优异。

当上一编码时刻中的编码帧率F_C变化后，需要根据新的编码帧率F_C重新确定像素点目标比特Tbpp，从而当前编码时刻的缓冲区容量B(t)，B(t)＝B(t-1)+R_t-1-Tbpp，R_t-1表示上一个编码时刻t-1时帧编码输出比特，TBR为目标比特率，W为图像像素宽，为图像像素高H。

码率控制中，输出码流数据受Q值影响明显，但同时受图像内容的影响也很大。场景纹理复杂、运动变化剧烈的视频信源将消耗更多的比特。为了平衡编码消耗比特极少和编码消耗比特极多的视频源，采取主动的帧率调节既可以保证传输过程中的码率控制，又能在视觉质量上保持平滑和优异。

本发明的有益效果是，能准确地检测出场景切换，从而有效地通过调节GOP长度来控制码率，进一步的，还可以同时通过调节量化参数、当前编码帧率来控制码率。

附图说明

图1为实施例集成码率控制器在整个视频编码系统中的位置。

图2是实施例集成码率控制器工作原理图。

图3是实施例场景切换检测与动态GOP调整流程图。

图4是实施例可变帧率的调节流程图。

图5是实施例可变比特率的控制流程图。

图6是实施例在不同序列组中的测试结果缓冲区、相似度和场景切换检测状态图。

图7是实施例以全I-帧可变比特率控制在Deadline序列编码后的状态图。

具体实施方式

本实施例中码率控制通过视频图像编码码率控制器来完成，具体而言包含三个部分的功能：可变比特率控制功能，场景切换检测与动态GOP调整功能、可变帧率的调节功能，可变比特率控制、可变帧率的调节功能与场景切换检测与动态GOP调整功能、可变帧率的调节功能可以同时进行，除了可变帧率的调节结果将一下次对可变比特率控制有所影响之外，这三个功能基本彼此独立。

一、可变比特率控制

视频图像的分辨率在编码开始前即被给定，以像素点宽(W)和高(H)的乘积形式所表示。由于视频图像源采样中可能有多种采样方式的存在，其色度方向上的两个分辨率可能有不同的尺寸。不失一般性，以像素点灰度分量的分辨率代表该图像的实际分辨率。

对于目标比特率(TBR)单位比特每秒(bps)在编码开始时被设置，在编码过程中的任意时刻都可以被改写。当TBR初始设置后，不被改写的情况称为恒定比特率(CBR)，被改写一次或一次以上的情况称为可变比特率(VBR)。在不引起混淆的情况下，TBR被认为是可以变动的输入参数，当TBR取值在编码过程中保持不变，则认为是CBR模式，当TBR取值在编码过程中发生改变(即使只有一次)，则认为是VBR模式。帧率(F)即每秒播放的帧的数量，单位帧每秒(fps)。受图像采样的限制，信源帧率(F_S)在视频编码前被给定。实际编码帧率(F_C)通常被初始设置为与F_S保持一致，但也可以被设置为与F_S不相等。视频编码码率可以统一地由每像素点比特(bpp)来进行指标进行统一，那么，可以将目标比特率规范化为像素点目标比特(Tbpp)，由公式(1)计算获得。

其中，W和H的值为固定，TBR和F_C在编码过程中可能值有变化，当编码帧率F_C进行调整后，Tbpp即需更新。

编码输入量化参数(QP)用Q表示，是一个非负整数。在MPEG-1、MPEG-2、MPEG-4、H.261、H.263、WMV1、WMV2、RV10、RV20等编码器中其合理取值范围在[0,31]，在H.264/AVC、H.264/SVC、HEVC等编码器中其合理取值范围在[0,51]。

图像帧级纹理复杂度用C表示，表征图像内容本身的细节丰富程度，以像素点灰度梯度的均值来刻画。如公式(2)所示，其中l_i,j表示下标为(i,j)的像素点灰度值。对于图像帧级纹理复杂度的计算并不限于式(2)，现有用于计算图像帧级纹理复杂度算法均可以适用。

解码视频的失真用D表示，以原始图像和编码后恢复图像的像素点平均方差(MSE)来刻画。常见的刻画图像失真度量值峰值信号比(PSNR)的计算就是由D所变换得来，如公式(3)所示。

其中，K表示像素点灰度值用二进制表示时的位数。例如，以1个字节(8位)表示1个像素灰度即256色时，K的取值为8；以10-bit表示一个像素点灰度值时，K的取值为10。

帧编码输出比特用R表示，建立的率失真模型如公式(4)所示，也可以将公式(4)重写为如公式(5)。隐含的关系是视频图像编码中三个变量lnR，lnQ，lnC之间存在二元一次线性关系。

lnR＝a·lnQ+b·lnC+c (4)

R＝Q^a·C^b·e^c (5)

二元一次线性关系(4)将直接用于码率控制，a,b,c是三个模型参数，Q和C是自变量，R是因变量。对于不同的信源、采用不同的编码器、配置不同的编码结构都会引起a,b,c三个模型参数的取值不相同。但是，对于确定的信源、确定的编码器、确定的编码结构，上述三个模型参数的取值就非常稳定了。二元线性关系(5)表示的是失真与比特之间的关系，直观地，投入的比特数与失真之间呈现单调函数关系。

对I-帧编码率失真模型(4)中a,b,c三个参数的取值引入多元线性回归进行更新。构造的输入矩阵如公式(6)所示。在编码时刻t，收集之前最近连续I-帧的s帧数据的Q，C和R构造出s行3列的矩阵。公式(6)中矩阵每一行的数据对应一个I-帧编码后的输出结果。

在进行P-帧码率控制时，参数b被强制设定为0，以不考虑纹理复杂度对编码的影响。此时仅有a,c两个参数被保留，引入一元线性回归进行更新。构造的输入矩阵如公式(7)所示。同样地，在编码时刻t，收集之前最近连续P-帧的s帧数据的Q和R构造出s行2列的矩阵。公式(7)中矩阵每一行的数据对应一个P-帧编码后的输出结果。

线性回归是最常见的统计和分析工具，很容易获得其实现。本发明所用的一元和多元线性回归采用最小二乘逼近来拟合。当然，它也可能用别的方法来拟合，比如最小绝对误差回归等。公式(6)和(7)中所示的输入矩阵行数s即多元线性回归的样本数，也可以被称为窗口大小。本发明中，s的取值为介于极小值5，极大值30之间的合理最大值。

设置假象参考解码缓冲区(后简称缓冲区)，用B(t)表示当前t时刻缓冲区容量，单位为每像素点比特(bpp)。其初始值和目标值都固定设置为0，即B(0)＝0。在每一帧编码过后，缓冲区容量将被更新，如公式(8)所示。

B(t)＝B(t-1)+R_t-1-Tbpp (8)

对于公式(8)，当B(t)>0时，表示过度使用比特；当B(t)<0时，表示使用比特不足。码率控制的目标就是尽可能地使B(t)值接近目标值0。帧级编码的比特分配在额定的Tbpp基础上必须考虑到B(t)的反馈。为了快速响应偏差的变化，使待调节的量在最短的时间内达到目标，本发明选用PD控制器来修正B(t)。修正过程如公式(9)所示。

其中，表示B(t)被修正后的结果，参数α,β称为控制器参数其取值可以依靠经验值选取。本发明推荐的取值为α＝0.45，β＝0.55。

为了合理地进行码率控制中QP值变化的调节，引入调节强度(Ipt)的因素，基于这样的考虑：连续若干帧编码QP值变化的频率和强度越大，那么将减小调节的强度；连续若干帧编码QP值变化的频率和强度越小，那么将增大调节的强度。在当前编码时刻t，计算1个帧率周期内相邻帧编码QP值的绝对差值和，Ipt(t)的计算如公式(10)所示。

那么，在编码时刻t需要修正的比特增量ΔR将由公式(11)计算获得。

其中，μ为经验参数，其取值通常落在区间[0.5，1.0]中，值越小则调节的强度越大，值越大则调节的强度越小。本发明推荐的μ取值为黄金分割点0.618。

对于现有的量度参数调整而言，通常直接采用或者ΔR＝B(t)的形式，ΔR反应了调整量度参数的频率，当ΔR＝B(t)时，对于量度参数的调整过于频繁，而时，又会较长时间不进行调整，本发明中引入Ipt(t)修正使得编码效果更好，波动更小。

对率失真模型公式(4)中lnR＝a·lnQ+b·lnC+c部分进行全微分求导，如公式(12)所示。

在当前的编码时刻t，定义ΔQ＝Q_t-Q_t-1、ΔC＝C_t-C_t-1，那么计算当前I-帧的Q，依赖公式(13)进行。对于P-帧编码b被强制设定为0，那么Q依赖公式(14)进行。

公式(13)和公式(14)中引入的比特增量ΔR由公式(11)计算获得。

二、场景切换检测与动态GOP调整方法

视频图像在播放中常常遇到场景切换的情况，通常切换的内容和切换的频率都是无规律的。从编解码方面来看，由于帧间预测方式在视频编码中的广泛应用，后续帧将参考早前解码帧，那么，在场景切换的瞬间，当前编码帧将无法直接从早前解码帧中获得有效的可参考图像(块)。从应用的角度来看，场景切换时恰好应该是图像进行合理重新分组的时候。每个图像组的独立分组既可以将数据传输过程中丢包引起的不必要失真(马赛克现象)阻断在一个GOP中，也可以为用户提供支持随机选择时间点的播放功能。总之，在场景切换时进行新的GOP初始化，在提高视频客观视觉质量和服务质量方面都有明显优势。

本发明提出两种场景切换检测计算方法。这两种方法都依赖视频图像的灰度直方图统计，既可以单独实施，也可以联合实施。

用一维数组H来表示图像的灰度直方图，K表示像素点灰度值用二进制表示时的位数，那么数组H的总的元素个数为n＝2^K，例如常见的用一个字节(8bit)表示一个像素灰度值的时候，H的总的元素个数为n＝256。定义H_t[i]表示在编码时刻t视频图像帧像素灰度值为i的像素点总数。用卡尔·皮尔森线性相关系数来表示连续两帧图像灰度直方图的关系如公式(15)所示。

公式(15)中，相关系数r_t-1,t取值范围为[-1,1]，正值表示正相关，负值表示负相关。对r_t-1,t进行平方，则可以将值落在[0,1]范围，越接近1表示连续两帧的直方图相关性越强；越接近0表示连续两帧的直方图相关性越弱。通常认为，值大于0.8时，线性相关性显著。公式(15)的计算时间复杂度为O(n²)。

用高维向量夹角余弦值可以描述两个高维向量的相关性，称为余弦相似性。通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。公式(16)给出了以直方图统计值为高维向量的余弦相似性计算方法。

公式(16)中，由于灰度直方图统计中，H_t[i]取值总为非负，那么H_t-1和H_t的向量总是落在高维空间的第一象限，那么它们的夹角θ_t-1,t落在0°与90°之间。因此，余弦相似度cos(θ_t-1,t)的值为0到1之间。θ_t-1,t取值越接0°那么cos(θ_t-1,t)越接近1，这表示两向量相关性越强，反之则越弱。与公式(15 )的计算复杂度类似，公式(16)的时间复杂度为O(n²)。

定义Sim_t表示编码时刻t相邻两帧之间的相似性，如公式(17)所示。

判断场景切换的检测方法为，当Sim_t≥ξ表示未发生场景切换；当Sim_t<ξ表示场景切换发生。这里ξ是一个经验值，表示出对场景检测的敏感程度。ξ的取值太大(比如0.95)，那么检测结果可能会出现误检；ξ的取值太小(比如0.5)，那么检测结果可能会出现漏检。本发明建议的取值为0.85。

如果场景切换检测到发生，立即将当前帧类型设置为I-帧，将GOP中关于已编码P-帧的计数器置0，相关环境作GOP的初始化，即重新开始一个GOP的编码。在本发明中，场景切换检测和可变GOP长度相互结合，将使得对于比较长的待编码视频源，编码输出的结果呈现GOP长度各不相同的特点。每个GOP的起始都对应着一个新的场景。

三、可变帧率的调节方法

视频编码的帧率(F)是一个标量单位，表示在单位时间内显示或刷新的帧的数量，常用的单位为每秒显示帧数(frames per second，fps或Hz)。帧率受采样的限制，常见的取值有电影：24fps、电视(PAL)：25fps、电视(NTSC)：29.97fps、CRT显示器：60Hz-85Hz、液晶显示器：60Hz、3D显示器：120Hz。从视频压缩源来讲，通常包含有20fps，24fps，30fps，50fps，60fps等几种典型的帧率类型。

从视频源获得的采样帧率F_S通常是固定的，在编解码过程中如果改变帧率可能有两种方法。其一，新生成一些帧，扩大帧率。运动补偿类帧率提升依赖大规模的运算，插值算法类帧率提升将引起运动物体边缘模糊或静止画面抖动现象。其二，主动舍弃一些帧，即对选定的帧不进行编码。

码率控制中，输出码流数据受QP值影响明显，但同时受图像内容的影响也很大。场景纹理复杂、运动变化剧烈的视频信源将消耗更多的比特。为了平衡编码消耗比特极少和编码消耗比特极多的视频源，采取主动的帧率调节既可以保证传输过程中的码率控制，又能在视觉质量上保持平滑和优异。

将编码的合法QP取值进行分段。以20％为经验分割点，即低段20％，中段60％，高段20％。对于QP取值范围在[0,31]的编码器来说，其分段为低段[0,8]、中段[9,24]、高段[25,31]。对于QP取值范围在[0,51]的编码器来说，其分段为低段[0,10]、中段[11,40]、高段[41,51]。

可变帧率的调节的思想是，当帧编码QP值频繁落在低段区间时候，适当增加帧率，将直接减小帧编码输出比特数，码率控制将调节后续QP值到中段区间；当帧编码QP值频繁落在高段区间时候，适当减小帧率，将直接增加帧编码输出比特数，也可以使得后续QP值调整到中段区间。

在编码的初始化阶段，实际的编码帧率被设置为F_C←F_S，即与采样帧率相等。设置帧率变化因子本发明的帧率修改策略为，在当前编码时刻t，求最近1秒编码中，求得QP值的平均如公式(18)所示。

判断的取值范围，将可能出现三种情况：

第一种情况，如果落在低段区间，那么

第二种情况，如果落在中段区间，那么帧率保持不变；

第三种情况，如果落在高段区间，那么

最后，实际编码帧率被修改为当然，为了保证视觉感受的连续和播放设备的能力，F_C的修改将被严格限制在10Hz-100Hz之间。

在第一种情况中，帧率的翻倍将需要新插入相应数量的帧。本发明规定用最临近帧的视频源数据作为新插入帧的视频数据，即在帧率翻倍的情况下，重复进行同样的帧编码两次。这个方法可以有效避免采用插值类和运动补偿类方法带来的不必要失真。

在第三种情况中，帧率的折半意味着将有一半数量的帧将不被编码，即以固定间隔步长的帧进行编码。被跳过的视频源数据不会被引入到编码器中，那么编码过程中的帧间编码部分将不会使用到跳帧数据。因此，在用户观看视频的时候不会因为丢帧而感受到视觉质量的突变。

在第一和第三这两种情况修改帧率后，都需要将新的F_C值代入公式(1)重新计算像素点目标比特Tbpp。在进行帧率的修改后，后续编码必须再完成一个帧率周期后才可进行下一次的帧率判断及修改。

实施例

图1是编码实现过程的主要步骤流程图，具体而言包括：

步骤101：选择/确定编码器。视频图像编码的标准有许多，常见的有：MPEG-1、MPEG-2、MPEG-4、H.261、H.263、WMV1、WMV2、RV10、RV20、H.264/AVC、H.264/SVC、HEVC等。从配置文件中读取编码器的选择和码流封装格式。

步骤102：初始化码率控制参数。从配置文件中输入码率控制的目标比特率，信源视频的帧率、分辨率，GOP预设长度。根据指定文件封装格式(容器)，建立编码后输出文件接口。

步骤103：循环编码开始，读取信源视频的帧数据。依赖实际编码帧率从信源视频文件或数据流中取得一帧视频原始数据。

步骤104：本发明集成码率控制器。进行帧级码率控制，包含有场景检测与GOP长度调整功能、可变帧率的调节功能、可变比特率的控制功能。本步骤的具体工作原理由图2进行详细描述。

步骤105：编码器进行编码。根据集成码率控制器给出的编码参数包含帧类型、QP值、帧率等关键参数，对步骤103中取得的原始视频数据进行一帧的视频编码。

步骤106：NAL打包。将步骤105中编码获得的流进行NAL打包操作，即将NAL流写入预先设定文件格式(容器)中。统计NAL长度即比特数，统计编码后的客观视觉质量失真PSNR。

步骤107：循环判断编码是否完成。编码结束判断的情况可能有信源视频结束和预设编码帧数达预期这两种。当上述两种可能任有一条为真时，结束循环，否则跳转到步骤103继续进行下一帧编码。

上述对图1的描述展现了视频编码过程中实现码率控制的集成码率控制器所处的位置。图2给出了本实施例集成码率控制器工作原理。如图2所示，包含有唯一的入口和唯一的出口，其中关键的步骤有：

步骤201：码率控制相关参数初始化/更新操作。在编码进行的第一帧时，需要对码率控制相关参数的初始化，包含有目标比特率、信源分辨率、信源帧率、预设GOP长度、缓冲区初始化为0，读取预设QP值。检查集成码率控制器的开关控制，若可变比特率控制打开，则可变GOP长度调整可变帧率调节根据配置输入设置为打开或关闭；若可变比特率控制关闭，则可变GOP长度调整可变帧率调节强制设置为关闭。设置帧率变化因子初始化为1。在整个编码过程中，初始化操作仅进行一次配置。在编码进行到非第一帧时，进行码率控制相关参数更新操作：统计上一帧编码的帧类型，实际QP值Q_t-1，NAL输出比特数R_t-1，若上一帧编码帧为I-帧，则已编码I-帧数值加1且已编码P-帧数值置0，若上一帧编码帧为P-帧，则当前GOP已编码P-帧数值加1。在整个编码过程中，更新操作将在除第一帧以外的每一帧进行。

步骤202：编码器参数改写。每一帧的编码参数在本步骤进行储存和整定。整定的过程就是通过外接步骤203分支器逐一进行改写。

步骤203：码率控制功能分支器。该分支器将三部分的功能逐一分开，首先进行步骤204的调用和改写，然后进行步骤205的调用和改写，最后进行步骤206的调用和改写。这里强调，步骤204、205、206的调用必须顺序进行。

步骤204：可变GOP长度调整。当场景检测和GOP长度调整控制开关打开时，执行场景检测和GOP长度的调整；关闭时跳转返回不作任何操作。本步骤的具体流程由图3给出。

步骤205：可变帧率调节。当可变帧率调节控制开关打开时，执行对帧率的改动同时涉及其后对信源数据的读取方式的设定；关闭时跳转返回不作任何操作。本步骤的具体流程由图4给出。

步骤206：可变比特率控制。当可变比特率控制开关打开时，执行本步骤，否则跳转返回不作任何操作。本步骤的具体流程由图5给出。

步骤207：存储和记录编码数据。包含有信源视频数据，每一帧的编码输出视频流NAL，当前的缓冲区高度。这些编码相关的数据将为步骤204、205、206提供计算的依据与反馈。

上述图2中最主要的三部分功能由图3、图4和图5进行展开。图3给出了场景切换检测与动态GOP调整流程图，具体而言包括：

步骤301：读取获得当前待编码帧(t)的信源视频数据。规定t＝0,1,2…。

步骤302：暂时缓存信源视频数据。Z^-1是一个滞后存储器，输入为当前帧(t)的信源视频数据，输出为相邻上一时刻编码帧(t-1)的信源视频数据。

步骤303：统计当前帧和最近相邻帧的灰度直方图H_t-1和H_t。

步骤304：相似度计算分支器。将灰度直方图数据H_t-1和H_t同时发送到步骤305和步骤306中进行运算。

步骤305：对于t≥1，计算卡尔·皮尔森线性相关系数r_t-1,t：

其中,

步骤306：对于t≥1，计算高维向量夹角余弦值cos(θ_t-1,t)：

步骤307：相似度计算分量汇总。根据步骤305和步骤306中计算获得的r_t-1,t和cos(θ_t-1,t)进行相似度指标Sim_t运算Sim₀＝1,

步骤308：判断是否相似度指标Sim_t<ξ，若为真则认为是场景切换产生并转步骤309，若为假则认为场景切换没有产生，不作处理并结束。ξ的取值为经验值0.85。

步骤309：统计当前GOP中已经编码的P-帧数量是否达到一个帧率周期的数值，是则转步骤310进行GOP长度调整，否则结束。

步骤310：结束上一个GOP，新开始一个GOP，将当前帧类型设置为I-帧。

步骤311：设置新的GOP，将GOP已编码P-帧数置0，设置GOP长度为预设值。

图4给出了可变帧率调整的流程图，具体而言包括：

步骤401：计算当前采用编码器的QP值低(20％)、中(60％)、高(20％)三段区间。对于QP取值范围在[0,31]的编码器(如MPEG-1、MPEG-2、MPEG-4、H.261、H.263、WMV1、WMV2、RV10、RV20)来说，其分段为低段[0,8]、中段[9,24]、高段[25,31]。对于QP取值范围在[0,51]的编码器(如H.264/AVC、H.264/SVC、HEVC)来说，其分段为低段[0,10]、中段[11,40]、高段[41,51]。

步骤402：判断已编码帧数是否达到帧率数值(即1秒视频的帧数)，是则进入步骤403，否则结束。

步骤403：统计最近1秒编码中QP均值，

其中，实际的编码帧率F_C初始化被设置为采样帧率F_S。

步骤404：判断步骤403中计算得来的QP均值是否落在高段QP区间，是则转步骤407，否则转步骤405进行再判断。

步骤405：判断步骤403中计算得来的QP均值是否落在低段QP区间，是则转步骤406，否则说明落在中段QP区间，不作处理并退出。

步骤406：帧率翻倍处理。若则且否则F_C保持不变。

步骤407：帧率折半处理。若则且否则F_C保持不变。

上述图4步骤中出现的帧率变化因子的初始化操作在图2步骤201中完成。变化因子的数值将为后续码率控制中信源视频的读取进行限制。

图5给出了可变比特率的控制流程图，具体而言包括：

步骤501：计算当前帧像素点目标比特值，

其中，目标比特率TBR在编码开始时被初始设置，在编码过程中可以被改写，这里采用最新最近的数值；实际编码帧率在初始化时被指定为信源帧率即F_C←F_S，这里采用最新最近的数值。

步骤502：根据图2步骤201中的更新数据，进行缓冲区大小更新，

采用PD控制器来修正缓冲区大小，计算为其中表示B(t)被修正后的结果，参数α,β依靠经验值选取α＝0.5，β＝0.55；计算1个帧率周期内相邻帧编码QP值的绝对差值和，

最后比特增量ΔR被计算为：

其中，μ为经验参数取值为0.618。

步骤503：进行帧类型判断分支。若为I-帧编码则转步骤504，若为P帧则转步骤506，若为B-帧则转步骤508报错并退出。

步骤504：I-帧率失真模型lnR＝a·lnQ+b·lnC+c参数更新。收集之前最近连续I-帧的s帧数据的Q，C和R构造出s行3列的矩阵，

窗口大小s的取值为介于极小值5，极大值30之间的合理最大值。利用多元线性回归，采用最小二乘逼近来拟合，计算获得模型参数a,b,c。

步骤505：计算当前帧纹理复杂度，

增量计算获得当前编码I-帧QP值，

最后，Q_t值将被绑定，Q_t←min{Q_t-1+2,max{Q_t,Q_t-1-2}}，并限制在合法的取值范围。

步骤506：P-帧率失真模型lnR＝a·lnQ+c参数更新。收集之前最近连续P-帧的s帧数据的Q和R构造出s行2列的矩阵：

窗口大小s的取值为介于极小值5，极大值30之间的合理最大值。利用一元线性回归，采用最小二乘逼近来拟合，计算获得模型参数a,c。

步骤507：增量计算获得当前编码P-帧QP值，

上述描述中，图3计算修改的GOP和帧类型、图4计算修改的帧率、图5计算获得的QP值都将被直接用于后续编码器进行一帧编码。

本发明已实现集成并以动态链接的方式提供接口。为了说明本发明的整体性能，以开源编码器平台HEVC裁剪后的快速编码器x265为例，可以直接调用本发明接口，实现统一的可变比特率、可变帧率、可变GOP长度码率控制。

本发明以CIF(352×288,4:2:0)序列为例，用20个常见YUV序列拼接构造三组视频数据如表1所示。

表1 CIF序列分组及总帧数

^*注：M-cif中含有Table序列，Table序列本身具有2个场景。因此M-cif总场景数也是7。

对构造的三组视频序列进行编码测试，以固定QP值(分别为17,22,27,32,37,42)低延迟编码(IPP..PP)结构下的输出结果为目标，进行本发明测试。目标比特率和初始QP值都按照固定QP值编码的输出结果来配置。如表2中所示，RC(on/off)、SC(on/off)、AS(on/off)分别表示码率控制开关、场景检测开关、帧率控制开关。表2中以固定比特率(CBR)为控制目标进行测试。BD-Rate表示比特率与失真之间的曲线关系，它是一个百分比数值，其值为负表示达到相同的视觉质量，比特率节省的比例，为正表示比特率过多消耗的比例。从表2中可以看出，本发明实施的码率控制、场景检测、帧率控制在三种不同的开关组合下都出现比特率节省的情形。BD-Rate数值在Y分量上分别达到-32.89％，-31.74％，-42.71％，这说明本发明实施将直接为视频编码带来明显的性能提升。表2的最后一行列出的数值为BD-Rate-Old的公式计算结果，以做对照参考，不作专门讨论。

表2本发明实施后BD-Rate性能比较

如图6中所示H-cif，M-cif，L-cif三组测试序列在编码结构IPP..PP下的测试结果，X-轴坐标表示CIF(30Hz)视频图像播放的时间刻度，Y-轴分别表示了缓冲区高度和帧间相似度数值。以Y-轴表示缓冲区的三幅子图中，可以看到缓冲区曲线在理论水平0线附近呈现紧密围绕并频繁绕动。在场景切换引起GOP初始化，其首帧(I-帧)编码引起缓冲区明显冲高，而后码率控制可以快速有效使得缓冲区再次趋于0线，表明本发明的码率控制能力强。在以相似度为Y-轴坐标的三幅子图中，可以明显看到由于本发明提出的相似度指标的有效性，在场景统一的时候，相似度指标都非常趋近理论最优值1，当场景切换发生时候，相似度指标出现不同程度的明显下坠。在本发明的实施测试中，对于上述三种序列，利用本发明提出的场景切换检测方法，没有出现错检和漏检，准确率100％。

如图7中所示全I-帧连续编码CIF(30Hz)序列Dealdline共1372帧。图7中X-坐标表示编码帧号流水。设置目标比特率增量为1mbps，合目标像素点比特0.328809。即以196帧为比特率变化段，共分为7段：0帧-195帧TBR＝2mbps,Tbpp＝0.657618；196帧-391帧TBR＝3mbps,Tbpp＝0.986427；392帧-587帧TBR＝4mbps,Tbpp＝1.315236；588帧-783帧TBR＝5mbps,Tbpp＝1.644045；784帧-979帧TBR＝4mbps,Tbpp＝1.315236；980帧-1175帧TBR＝3mbps,Tbpp＝0.986427；1176帧-1371帧TBR＝2mbps,Tbpp＝0.657618。从图7的第一个子图可以看到，帧平均像素点实际输出和目标非常好的贴近，随着目标像素点比特的增长和降低，实际输出的帧平均像素点比特快速地进行了跟进和环绕波动。第二幅子图表明，在非常狭窄的缓冲区区间内[-1,1]，本发明可以有力地控制可变比特率下的视频编码。第三和第四幅子图分别给出了PSNR曲线和帧实际编码QP值。可以看到，随着目标比特率的变化，PSNR曲线和QP值分布呈现分段相应的特点，在每一个分段中都具有良好的波动或分布规则。

Claims

1.低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，包括以下步骤：

1)计算当前帧的灰度直方图；

c o s (θ_{t - 1, t}) = \frac{Σ_{i = 1}^{n} H_{t - 1} [i] \cdot H_{t} [i]}{\sqrt{Σ_{i = 1}^{n} {(H_{t - 1} [i])}^{2}} \sqrt{Σ_{i = 1}^{n} {(H_{t} [i])}^{2}}};

Q_{t} = Q_{t - 1} + \frac{Q_{t - 1}}{a} \cdot [\frac{Δ R}{R_{t - 1}} - \frac{b \cdot (C_{t} - C_{t - 1})}{C_{t - 1}}];

Q_{t} = Q_{t - 1} + \frac{Q_{t - 1}}{a} \cdot \frac{Δ R}{R_{t - 1}};

其中，Q_t为当前的编码时刻t使用的量化参数Q，Q_t-1为上一个编码时刻t-1使用的量化参数Q，R_t-1表示上一个编码时刻t-1的帧编码输出比特，C_t为当前的编码时刻t的编码图像纹理复杂度，C_t-1为上一个编码时刻t-1的编码图像纹理复杂度；△R为编码时刻t需要修正的比特增量，表示B(t)被修正后的结果，Ipt(t)表示1个实际编码帧率F_C周期内相邻帧编码的量化参数Q的绝对差值和，为B(t)为当前的编码时刻t的缓冲区容量，B(t-1)为上一编码时刻t-1的缓冲区容量，α,β称为控制器参数，μ为防除0的经验参数；

2.如权利要求1所述低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，引入线性相关系数，与高维向量余弦相似度一起来表征相似度指标：

r_{t - 1, t} = \frac{Σ_{i = 1}^{n} (H_{t - 1} [i] - {\overset{&OverBar;}{H}}_{t - 1}) (H_{t} [i] - {\overset{&OverBar;}{H}}_{t})}{\sqrt{Σ_{i = 1}^{n} {(H_{t - 1} [i] - {\overset{&OverBar;}{H}}_{t - 1})}^{2}} \sqrt{Σ_{i = 1}^{n} {(H_{t} [i] - {\overset{&OverBar;}{H}}_{t})}^{2}}}

{\overset{&OverBar;}{H}}_{t} = \frac{1}{n} Σ_{i = 1}^{n} H_{t} [i]

3.如权利要求2所述低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，相似度指标为余弦相似度与线性相关系数的乘积，或者为线性相关系数的平方与高维向量余弦相似度的乘积。

4.如权利要求1所述低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，还包括，通过当前的量化参数Q来调节当前编码帧率F_C，当量化参数Q的取值在低段区间，在不高于帧率上限范围内增加当前编码帧率F_C；当量化参数Q的取值在高段区间，在不低于帧率下限范围内降低当前编码帧率F_C；当量化参数Q的取值在中段区间，保持当前编码帧率F_C不变；

当上一编码时刻中的编码帧率F_C变化后，需要根据新的编码帧率F_C重新确定像素点目标比特Tbpp，从而当前编码时刻的缓冲区容量B(t)，B(t)＝B(t-1)+R_t-1-Tbpp，R_t-1表示上一个编码时刻t-1时帧编码输出比特，TBR为目标比特率，W为图像像素宽，H为图像像素高。

5.如权利要求4所述低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，通过帧率变化因子来调节当前编码帧率F_C，其中←表示向箭头方向的参数赋值，F_S为从视频源获得的采样帧率；

增加当前编码帧率F_C为降低当前编码帧率F_C为

6.如权利要求4所述低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，当前的量化参数Q表示为在当前编码时刻t为止的最近1秒编码中使用的量化参数的平均值

7.如权利要求4所述低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，帧率下限为10Hz，帧率上限100Hz。

8.如权利要求4所述低延迟视频编码基于场景切换检测的码率控制方法，其特征在于，所述低段区间为合法量化参数Q值取值范围中低段20％，高段区间为合法量化参数Q值取值范围中高段20％，量化参数Q值取值范围中剩余的60％为中段区间。