CN104320667A

CN104320667A - 多过程最优化编转码系统及方法

Info

Publication number: CN104320667A
Application number: CN201410610390.4A
Authority: CN
Inventors: 王志诚
Original assignee: ZHEJIANG TELEMEDIA TECHNOLOGY Co Ltd
Current assignee: ZHEJIANG TELEMEDIA TECHNOLOGY Co Ltd
Priority date: 2014-11-03
Filing date: 2014-11-03
Publication date: 2015-01-28
Anticipated expiration: 2034-11-03
Also published as: CN104320667B

Abstract

本发明公开了一种多过程最优化编码系统，包括若干个并行编码器、前瞻缓冲器和二次编码器，前瞻缓冲器的输入端与并行编码器的输出端连接，前瞻缓冲器的输出端与二次编码器的输入端连接，并公开了其方法，包括第一编码阶段、最优化选择阶段和第二编码阶段3个步骤，第一编码阶段由若干个并行编码器同时进行编码，前瞻缓冲器对第一编码阶段所得到的结果进行最优化选择以获得最优编码路径，二次编码器根据最优化选择阶段所获得的最优编码路径第二次编码，获得最终而最优的编码结果。本发明性能、质量、带宽效率更高，编码/转码结果更好，非常易于配置并且非常灵活，既可用于高视频质量的4K和超高清应用，也可用于超高效带宽的移动视频应用。

Description

多过程最优化编转码系统及方法

技术领域

本发明涉及视频编解码领域，尤其是指一种多过程最优化编转码系统及方法。

背景技术

在高质量视频转码和编码产业领域，系统和芯片开发商会想尽办法来提高自己的视频质量和压缩效率以获得市场竞争力，如如何优化多过程编码和转码，通过多过程系统提供的高质量视频和低带宽来吸引客户，并以此获取更大的利润空间；系统使用者和服务供应商也在不断的寻求找到更高视频质量、进一步减少码率带宽、具有多过程编码/转码特征的产品，更愿意购买性能、质量、带宽效率更高的产品。

传统的多过程编码方案是使用多个过程的第一个过程，向前获取编码信息、比特数据和即将接收的图像特征，随后通过下一个过程提高质量，即多个过程编码连续进行。

传统的多过程编码方案有以下几个缺点：1.它会造成长编码延时，这一延时随编码过程(阶段)数量的改变而改变，并且当操作员改变编码过程数量时，所提供的服务和网络也会发生变化；2.因为视频具有时域的相关性，并且缓存器的空间也是有限的，所以过长的前向预测是不必要的；3.后续的编码过程收效甚微；4.传统结构会产生冗余并且不灵活，具有脆弱性，在编码过程的任何阶段都可能产生错误动作并且这些错误会造成累加；5.传统多过程编码系统的硬件或软件实现不易于改变和提高。

发明内容

为了解决常规的多过程编转码方法效率低的问题，本发明提出了一种多过程最优化编转码系统及方法，性能、质量、带宽效率更高，编码/转码结果更好，非常易于配置并且非常灵活，既可用于高视频质量的4K和超高清应用，也可用于超高效带宽的移动视频应用。

本发明所采用的技术方案是：一种多过程最优化编转码系统，包括若干个并行编码器、一个前瞻缓冲器和一个二次编码器，所述前瞻缓冲器的输入端与并行编码器的输出端连接，前瞻缓冲器的输出端与二次编码器的输入端连接。

其中，若干个并行编码器用于对原始图像同时进行编码，前瞻缓冲器用于对第一编码阶段得到的若干个初次编码结果进行最优化选择，二次编码器根据最优化选择阶段所获得的最优编码路径继续编码，获得最终编码结果。

在上述基础上，本发明的另一技术方案是：一种多过程最优化编转码方法，包括如下步骤：

(1)第一编码阶段：由若干个并行编码器对原始图像同时进行编码，即多过程编码，得到初次编码结果；

(2)最优化选择阶段：前瞻缓冲器对第一编码阶段得到的若干个初次编码结果进行最优化选择，获得最优编码路径；

(3)第二编码阶段：由二次编码器根据最优化选择阶段所获得的最优编码路径继续编码，获得最终编码结果。

本发明具有灵活、编码延时可预测、功能多样、易于应用等诸多特性，针对不同内容的最优化过程以及灵活的比特率和编码控制，性能、质量、带宽效率更高，编码/转码结果更好。

作为优选，所述步骤(1)中的并行编码器和步骤(3)中的二次编码器的编码方式均为H.265、H.264、MPEG-2或AVS的任意一种。目前国际视频压缩标准HEVC(H.265)、H.264、MPEG-2和国内AVS各版本都可应用于本发明的步骤(1)中的并行编码器和步骤(3)中的二次编码器。

作为优选，所述步骤(1)中，并行编码器的数量为3个。

作为优选，所述步骤(2)的最优化选择包括如下步骤：

a.收集视频特征：根据第一编码阶段各并行编码器的每一帧的编码结果，定义N为原始图像和第一编码阶段后图像的总像素数，p_i、分别为原始图像和第一编码阶段后图像中像素i的像素值，i为像素的序号，原始图像包含M_B个模块，原始图像信道频域的频带总数为N_F，t是画面帧的时间，分别计算距离绝对值和SAD、像素均值M_p、像素方差值V_p、信道频域绝对值Φ_F(f,t)、信道频域方差σ_F(f,t)及运动向量值MV(x,y)，其中：距离绝对值和

SAD = \frac{1}{N} Σ_{i = 1}^{N} | p_{i} - \tilde{p_{i}} | - - - (1)

像素均值

M_{p} = \frac{1}{N} Σ_{i = 1}^{N} p_{i} - - - (2)

像素方差值

V_{p} = \frac{1}{N} Σ_{i = 1}^{N} {(p_{i} - M_{p})}^{2} - - - (3)

信道频域绝对值

Φ_{F} (f, t) = \frac{1}{M_{B}} Σ_{j = 1}^{M_{B}} | s_{i} (f, t) | - - - (4)

信道频域方差

σ_{F} (f, t) = \frac{1}{M_{B}} Σ_{j = 1}^{M_{B}} {(| s_{i} (f, t) | - Φ_{F} (f, t))}^{2} - - - (5)

s_j(f,t)为频域离散傅里叶变换函数，

s_{j} (f, t) = \frac{1}{N} Σ_{i = 0}^{N - 1} p_{i} e^{- j 2 πf \cdot \frac{i}{N}} - - - (6)

式(4)、式(5)和式(6)中，{f＝0,1,...,N_F-1}，f为频带序数，j为模块序数，

运动向量值为MV(x,y)，定义运动向量得到叠加运动向量MV(z)，其中x和y是运动向量的水平和垂直坐标；

b.据步骤a获得的各视频特征依次计算得到各个并行编码器所得第一帧的编码结果的失真度d(t)：

d(t)＝w₁*SAD+w₂*f_Φ(Φ_F,M_p)+w₃*f_σ(σ_F,V_p)+w₄*MV(z) (7)

式(7)中，SAD为距离绝对值和，w₁、w₂、w₃和w₄均为取值范围在{0,1}的经验加权数且w₁+w₂+w₃+w₄＝1，f_Φ(Φ_F,M_p)为空间域中基于变量Φ_F、M_p的均值经验方程或线性方程，f_σ(σ_F,V_p)为频域中基于变量σ_F、V_p的均值经验方程或线性方程，MV(z)是叠加运动向量；

c.将若干个并行解码器所用的比特率分别记为r_m，步骤b获得的若干个叠加失真度分别记为d_m，m为1到K的自然数，K为并行编码器的数量，得到比特率/失真度比值，

\frac{Δ d_{m}}{Δ r_{m}} = \frac{d_{m + 1} - d_{m}}{r_{m + 1} - r_{m}} - - - (8)

将得到的若干个比特率/失真度比值进行比较，比特率/失真度比值最小的即为第一帧的最优编码途径；

d.重复步骤a至c，获得第二帧到最后一帧的最优编码途径，从而获得整个原始图像的最优编码途径。

本发明的有益效果是：对编码延时有预测性，使操作者的使用和服务不会受到影响，即使当编码过程的数量由于操作者的应用和需求发生改变；从应用和编码控制的角度来说，具有灵活性，并且第一阶段的编码过程仅取决于编码准则和方法的控制调节；能够提供广泛编码选项和最优化；对于大范围的不同的视频内容和网络环境具有稳固适应性；硬件和软件实施具有灵活性、稳固适应性，并且易于应用到目前的和其它的硬件平台。

附图说明

图1是本发明中一种多过程最优化编转码系统的结构框图；

图2是本发明中第一帧最优化选择的示意图；

图3是本发明中最优化路径选择的示意图。

图中，1-并行编码器，2-前瞻缓冲器，3-二次编码器，4-原始图像，5-最终编码结果。

具体实施方式

下面结合实施例对本发明作进一步的详细说明。

如图1所示，一种多过程最优化编转码系统，包括三个并行编码器1、一个前瞻缓冲器2和一个二次编码器3，前瞻缓冲器2的输入端与并行编码器1的输出端连接，前瞻缓冲器2的输出端与二次编码器3的输入端连接。

多过程最优化编转码方法的步骤如下：

步骤(1)中的并行编码器和步骤(3)中的二次编码器的编码方式均为H.265、H.264、MPEG-2或AVS的任意一种。目前国际视频压缩标准H.265(HEVC)、H.264、MPEG-2和国内AVS各版本都可应用于本发明的步骤(1)中的并行编码器和步骤(3)中的二次编码器。

步骤(2)的最优化选择包括如下步骤：

第一步，收集视频特征：根据第一编码阶段各并行编码器的每一帧的编码结果，定义N为原始图像和第一编码阶段后图像的总像素数，p_i、分别为原始图像和第一编码阶段后图像中像素i的像素值，i为像素的序号，原始图像包含M_B个模块，原始图像信道频域的频带总数为N_F，t是画面帧的时间，分别计算距离绝对值和SAD、像素均值M_p、像素方差值V_p、信道频域绝对值Φ_F(f,t)、信道频域方差σ_F(f,t)及运动向量值MV(x,y)。

距离绝对值和即Sum of Absolute Distance，简称SAD，是视频图像压缩领域传统且广泛应用的测量方法。

SAD = \frac{1}{N} Σ_{i = 1}^{N} | p_{i} - \tilde{p_{i}} | - - - (1)

像素均值

M_{p} = \frac{1}{N} Σ_{i = 1}^{N} p_{i} - - - (2)

像素方差值

V_{p} = \frac{1}{N} Σ_{i = 1}^{N} {(p_{i} - M_{p})}^{2} - - - (3)

信道频域绝对值

Φ_{F} (f, t) = \frac{1}{M_{B}} Σ_{j = 1}^{M_{B}} | s_{i} (f, t) | - - - (4)

信道频域方差

σ_{F} (f, t) = \frac{1}{M_{B}} Σ_{j = 1}^{M_{B}} {(| s_{i} (f, t) | - Φ_{F} (f, t))}^{2} - - - (5)

s_j(f,t)为频域离散傅里叶变换函数，

s_{j} (f, t) = \frac{1}{N} Σ_{i = 0}^{N - 1} p_{i} e^{- j 2 πf \cdot \frac{i}{N}} - - - (6)

运动向量值为MV(x,y)，定义运动向量得到叠加运动向量MV(z)，其中x和y是运动向量的水平和垂直坐标。

第二步，根据第一步获得的各视频特征依次计算得到各个并行编码器所得第一帧的编码结果的失真度d(t)：

d(t)＝w₁*SAD+w₂*f_Φ(Φ_F,M_p)+w₃*f_σ(σ_F,V_p)+w₄*MV(z) (7)

式(7)中，SAD为距离绝对值和，w₁、w₂、w₃和w₄均为取值范围在{0,1}的经验加权数且w₁+w₂+w₃+w₄＝1，f_Φ(Φ_F,M_p)为空间域中基于变量Φ_F、M_p的均值经验方程或线性方程，f_σ(σ_F,V_p)为频域中基于变量σ_F、V_p的均值经验方程或线性方程，MV(z)是叠加运动向量。

第三步，将三个并行解码器所用的比特率分别记为r_m，步骤b获得的三个叠加失真度分别记为d_m，m为1到3的自然数，得到比特率/失真度比值，

\frac{Δ d_{m}}{Δ r_{m}} = \frac{d_{m + 1} - d_{m}}{r_{m + 1} - r_{m}} - - - (8)

将得到的若干个比特率/失真度比值进行比较，比特率/失真度比值最小的即为第一帧的最优编码途径。

第四步，重复步骤a至c，获得第二帧到最后一帧的最优编码途径，从而获得整个原始图像的最优编码途径。

如图2所示，三个并行编码器分别以不同的比特率同时处理同样的原始图像，尽可能接近比特-失真率的极限曲线(香农信源编码定理的极限)，比特率分别为r₁、r₂、r₃且取P₁、P₂、P₃分别为T₁时刻第一帧处理后的位置，L₁、L₂分别为经过P₁和P₂、P₂和P₃的两条直线。

由于比特率的取值△r₁＝r₂-r₁，△r₂＝r₃-r₂，得到△r₁＝△r₂；分别计算失真度d₁、d₂、d₃，△d₁＝d₂-d₁，△d₂＝d₃-d₂。具体计算步骤如式(1)至式(7)，这里不加赘述。

计算得到或者表现在图2中，就是直线L₂比L₁要陡。

所以r₁和r₂之间的比特率是较为理想的选择，即根据比特率-失真范围在编码点P₁和P₂之间选择编码点，具有最低失真增长的比特率就是最优编码选择。

如图3所示，以帧为单位计算，设格状路径深度为D(从T₁到T_D)，在T₁已有第一编码阶段计算得到的四个状态P₁、P₂、P₃、P₄及其比特率和失真度，P₂为T₁最佳路径；继续计算从T₁到T₂时间帧的各状态的累积比特率和累积失真度，并保留各路径的累积比特率和累积失真度，以此类推到格状路径深度为D为止，具有最低累积失真度增长的低累积比特率就是最优路径选择，如图3中的黑点所示。

本发明的优点和特征：对编码延时有预测性，使操作者的使用和服务不会受到影响，即使当编码过程的数量由于操作者的应用和需求发生改变；从应用和编码控制的角度来说，具有灵活性，并且第一阶段的编码过程仅取决于编码准则和方法的控制调节；能够提供广泛编码选项和最优化；对于大范围的不同的视频内容和网络环境(特别对于转码)具有稳固适应性；硬件和软件实施具有灵活性、稳固适应性，并且易于应用到目前的和其它的硬件平台。

为了使本发明的多过程编码/转码解决方案变的更加功能多样和灵活，一个高清的视频流(基带信号或者压缩传输流)可输入到一阶编码/转码器中转变为一个标清分辨率，并且同时进行编码和输出。在多路系统中添加了多个编码/转码特征，并且仍然带有高清编码功能和HD到HD的转码功能。有些功能例如背景改变识别、分辨率设置、噪声和熵滤波器也可以被加入到编码过程中。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明的保护范围之内。

Claims

1.一种多过程最优化编转码系统，其特征在于：包括若干个并行编码器、一个前瞻缓冲器和一个二次编码器，所述前瞻缓冲器的输入端与并行编码器的输出端连接，前瞻缓冲器的输出端与二次编码器的输入端连接。

2.一种基于权利要求1所述多过程最优化编转码系统的多过程最优化编转码方法，其特征在于：包括如下步骤：

3.根据权利要求2所述的多过程最优化编转码方法，其特征在于：所述步骤(1)中的并行编码器和步骤(3)中的二次编码器的编码方式均为H.265、H.264、MPEG-2或AVS的任意一种。

4.根据权利要求2或3所述的一种多过程最优化编转码方法，其特征在于：所述步骤(1)中，并行编码器的数量为3个。

5.根据权利要求2所述的多过程最优化编转码方法，其特征在于：所述步骤(2)的最优化选择包括如下步骤：

a.收集视频特征：根据第一编码阶段各并行编码器的每一帧的编码结果，定义N为原始图像和第一编码阶段后图像的总像素数，p_i、分别为原始图像和第一编码阶段后图像中像素i的像素值，i为像素的序号，原始图像包含M_B个模块，原始图像信道频域的频带总数为N_F，t是画面帧的时间，分别计算距离绝对值和SAD、像素均值M_p、像素方差值V_p、信道频域绝对值Φ_F(f,t)、信道频域方差σ_F(f,t)及运动向量值MV(x,y)，其中：

距离绝对值和

SAD = \frac{1}{N} Σ_{i = 1}^{N} | p_{i} - {\tilde{p}}_{i} | \cdot \cdot \cdot (1)

像素均值

M_{p} = \frac{1}{N} Σ_{i = 1}^{N} p_{i} \cdot \cdot \cdot (2)

像素方差值

V_{p} = \frac{1}{N} Σ_{i = 1}^{N} {(p_{i} - M_{p})}^{2} \cdot \cdot \cdot (3)

信道频域绝对值

Φ_{F} (f, t) = \frac{1}{M_{B}} Σ_{j = 1}^{M_{B}} | s_{j} (f, t) | \cdot \cdot \cdot (4)

信道频域方差

σ_{F} (f, t) = \frac{1}{M_{B}} Σ_{j = 1}^{M_{B}} {(| s_{j} (f, t) | - Φ_{F} (f, t))}^{2} \cdot \cdot \cdot (5)

s_j(f,t)为频域离散傅里叶变换函数，

s_{j} (f, t) = \frac{1}{N} Σ_{i = 0}^{N - 1} p_{i} e^{- j 2 πf \cdot \frac{i}{N}} \cdot \cdot \cdot (6)

b.根据步骤a获得的各视频特征依次计算得到各个并行编码器所得第一帧的编码结果的失真度d(t)：

d(t)＝w₁*SAD+w₂*f_Φ(Φ_F,M_p)+w₃*f_σ(σ_F,V_p)+w₄*MV(z) (7)

\frac{{Δd}_{m}}{{Δr}_{m}} = \frac{d_{m + 1} - d_{m}}{r_{m + 1} - r_{m}} \cdot \cdot \cdot (8)