CN114071189A

CN114071189A - 视频处理装置及视频串流的处理方法

Info

Publication number: CN114071189A
Application number: CN202010966599.XA
Authority: CN
Inventors: 李元兵; 丁筱雯
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2020-08-03
Filing date: 2020-09-15
Publication date: 2022-02-18
Anticipated expiration: 2040-09-15
Also published as: CN114071189B; JP7075983B2; TW202207708A; TWI743919B; US11363298B2; EP3952307A1; US20220038747A1; JP2022028586A

Abstract

本发明实施例提出视频处理装置及视频串流的处理方法。在此方法中，对影像画面形成编码单元，依据影像序列中的数个编码单元中的次编码单元中的第一次编码单元与第二次编码单元之间的相关性编码那些次编码单元，并依据影像序列的编码结果产生视频串流。影像画面是影像序列中的一张画面，且各编码单元用于记录所属区块的编码信息。借此，可改善编码效率。

Description

视频处理装置及视频串流的处理方法

技术领域

本发明涉及一种视频编码技术，且特别涉及一种视频处理装置及视频串流的处理方法。

背景技术

近年来，机器学习(machine learning)技术在许多领域中己得到许多显著的成果，更尤其是在电脑视觉和影像处理。然而，基于机器学习的视频编码(video coding)仍处于起步阶段。视频编码(video coding)是网络电话(VoIP)的基础，其效率直接影响到使用者的感受。相较于其他的背景噪声抑制(background noise suppression)、回音消除(echocancellation)及语音及脸部识别(voice and facial recognition)等视频领域应用，视频编码目前发展最快，并可通过机器学习提升或改善通话/视频品质。值得注意的是，第五代(5G)移动通信时代的来临，在移动及高效传输的需求浮现后，影像传输品质的问题势必再度被关注，且高效率的视频编码更不断试图突破网络传输的限制。

VoIP在远距离语音会议的应用方面，不但能节省费用，还能同时允许多人上线会谈，且通过各种会议工具(例如，表达工具(presentation tool)、直播串流(livestreaming)等)提供身临其境的会议体验。然而，随着上线人数的增加，网络的频宽需求与连线数量相对倍增，影像及语音延迟时间也因频道拥塞而难以控制。此时，会议的品质(例如，服务品质(QoS)/体验品质(OoE))往往大打折扣。VoIP通常会经由有线网络连线至网际网络(Internet)上使用，但近年来有越来越多需求是经由移动通信(例如，4G或5G移动网络)提供服务，使得管理和部署更多资源不仅会增加成本，有时更成为不可能的任务(例如，移动环境中，频宽不能超过一个上限)。随着视频技术的进步，尤其是超高分辨率(Ultra-High Definition，UHD)视频的普及，迫切需要进一步提高压缩效率，以便将UHD视频容纳在有限的存储空间和有限的传输频宽。因此，如何有效地管理和控制资源，是业界期待解决的问题之一。

此外，随着网络频宽不断地提升，也相对带动实时会议视频服务的需求。在频宽有限或分配不足的情况下，容易造成封包传送延迟(Delay)、抖动(Jitter)或是封包遗失等网络效能降低的状况，使得VoIP视频的品质低落。因此，如何维持实时视频传输品质，亦是业界期待解决的问题之一。

发明内容

有鉴于此，本发明实施例提供一种视频处理装置及视频串流的处理方法，基于影像画面中的不同区块的差异来编码，从而降低运算复杂度，并达到影像传输需求。

本发明实施例的视频串流的处理方法包括(但不仅限于)下列步骤：对影像画面形成编码单元，依据影像序列中的各编码单元中的次编码单元中的第一次编码单元与第二次编码单元之间的相关性编码那些次编码单元，并依据影像序列的编码结果产生视频串流。影像画面是影像序列中的一张画面，且各编码单元用于记录所属区块的编码信息。

本发明实施例的视频处理装置包括(但不仅限于)通信收发器及处理器。通信收发器用以传送或接收数据。处理器耦接通信收发器，并经配置用以对影像画面形成编码单元，依据影像序列中的各编码单元中的次编码单元中的第一次编码单元与第二次编码单元之间的相关性编码那些次编码单元，并依据影像序列的编码结果产生视频串流。影像画面是影像序列中的一张画面，且各编码单元用于记录所属区块的编码信息。

基于上述，本发明实施例的视频处理装置及视频串流的处理方法，对影像画面的编码单元处理，并依据编码单元中的不同次编码单元之间在空间及时间上的相关性来决定这些次编码单元的决策，使差异较小的次编码单元可忽略，从而减少编码的复杂度，进而提升使用者体验。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合说明书附图作详细说明如下。

附图说明

图1是依据本发明一实施例的视频串流系统的方框图。

图2是依据本发明一实施例的视频串流的处理方法的流程图。

图3是一范例说明单元。

图4是一范例说明各单元对应处理步骤的流程图。

图5是依据本发明一实施例的编码处理方法的流程图。

图6A是一范例说明自动编码器(AutoEncoder，AE)。

图6B是依据本发明一实施例的应用AE决策单元大小的示意图。

图6C是一范例说明四分树的结构。

图7是依据本发明一实施例的影像品质评估方法的流程图。

附图标记说明：

1：视频串流系统

50：客户装置

51、110：通信收发器

53、130：存储器

55：显示器

57、170：处理器

100：视频处理装置

S210～S230、S405～S435、S510～S530、S710～S750：步骤

CU、CU₁、CU₂、CU₃：编码单元

PU：预测单元

TU、TU₁、TU₂：转换单元

410：编码流程

430：解码流程

AE：自动编码器

OI：原始输入

CI：压缩表示

RI：重建输入

CS：编码空间

PS：表示空间

TUT：次编码单元

x、

z、

值

y、

编码

g_p：函数

q：量化值

D：函数

R：编码率

具体实施方式

图1是依据本发明一实施例的视频串流系统1的方框图。请参照图1，视频串流系统1包括(但不仅限于)一台或更多台客户装置50以及视频处理装置100。

客户装置50可以是台式电脑、笔记本电脑、智能手机、智能电视、平板、或机上盒等装置。客户装置50包括(但不仅限于)通信收发器51、存储器53、显示器55及处理器57。

通信收发器51可以是支援诸如以太网络、光纤网络、移动网络、Wi-Fi或其他通信技术的传送电路及接收电路。在一实施例中，通信收发器51用以连线至网际网络或区域网络，进而与视频处理装置100相互传送数据。

存储器53可以是任何形态的固定或可移动随机存取存储器(Radom AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、快闪存储器(flash memory)、传统硬盘(Hard Disk Drive，HDD)、固态硬盘(Solid-State Drive，SSD)或类似元件。在一实施例中，存储器53用以存储软件模块、应用程序及其程序码、以及其他暂存或永久数据或文件(例如，影像序列、影像画面、编码信息、视频串流、品质评估模型)，且这些数据将待后续实施例详述。

显示器55可以是液晶显示器(Liquid-Crystal Display，LCD)、发光二极管(Light-Emitting Diode，LED)显示器或有机发光二极管(Organic Light-EmittingDiode，OLED)显示器。在一实施例中，显示器55用以呈现影像画面或使用者界面。

处理器57可以是中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphic Processing Unit，GPU)、微控制单元(Micro Control Unit，MCU)、或特殊应用集成电路(Application-Specific Integrated Circuit，ASIC)等运算单元。在一实施例中，处理器57用以执行客户装置50的所有运行，并可载入且执行存储器53所存储的软件模块或应用程序，其详细运行待后续实施例详述。

视频处理装置100可以是台式电脑、笔记本电脑、服务器、云端平台、或后台主机等装置。视频处理装置100包括(但不仅限于)通信收发器110、存储器130及处理器170。

通信收发器110、存储器130及处理器170的实施方式可分别参照通信收发器51、存储器53及处理器57的说明，于此不再赘述。

在一实施例中，通信收发器110用以连线至网际网络或区域网络，进而与客户装置50相互传送数据。

在一实施例中，存储器130用以存储软件模块、应用程序及其程序码、以及其他暂存或永久数据或文件(例如，影像序列、影像画面、编码信息、视频串流、异常检测模型)，且这些数据将待后续实施例详述。

在一实施例中，处理器170用以执行视频处理装置100的所有运行，并可载入且执行存储器130所存储的软件模块或应用程序，其详细运行待后续实施例详述。

下文中，将搭配视频串流系统1中的各项装置、元件及模块说明本发明实施例所述的方法。各个流程可依照实施情形而随之调整，且并不仅限于此。

图2是依据本发明一实施例的视频串流的处理方法的流程图。请参照图2，处理器170对影像画面形成一个或更多个编码单元(步骤S210)。具体而言，影像画面是影像序列(即，由多张画面形成的序列)中的一张画面。影像序列可能是由相机、录影机或监视器拍摄所形成数字视频数据，也可能是经任何运算装置(例如，电脑、或智能手机等)编辑所形成的动画、电影、广告或电视剧等视频数据。原始的影像序列可能包括相当多的信息(例如，各像素的色彩、明度等信息)，导致数据量过大而不便于传输或存储。因此，需要对影像序列进行视频压缩处理。

在一实施例中，针对高效率视频编码(High Efficiency Video Coding，HEVC)或进阶视频编码(MPEG-4Part 10,Advanced Video Coding，MPEG-4AVC)等视频编码标准，影像序列中的一个或更多张影像画面会被进一步分割成一个或更多个处理单元(例如，编码树单元(Coding Tree Block，CTU)、宏码区块(macroblock)或其他基本编码单元)，且各处理单元还可能进一步对应分割成一个或更多个编码单元。各编码单元用于记录所属区块的编码信息(例如，编码模式、亮度、色彩、或语法等)。

以HEVC为例，HEVC技术在输入影像序列进行编码之前，会先对影像序列中的影像画面分别切割成相等大小的编码树单元后再输入至编码器进行编码。区块(Block)是存储数据之处，且许多区块加上语法元素组成一个单元(Unit)。若输入的影像画面采用YUV(明度(Luma)-色度(Chroma)-浓度)的颜色编码格式，则一个编码树单元是由一个明度编码树区块(Coding Tree Block，CTB)、两个色度编码树区块及语法元素(Syntax Element)所组成。在其他实施例中，颜色编码格式可能是RGB(红色-绿色-蓝色)或其他格式。

在一实施例中，编码单元还能进一步被分割而形成一个或更多个次编码单元。在部分视频编码机制中，通过记录区块的实际值与画面间(inter)或画面内(intra)预测的预测值之间的残量(residual)(即，实际值与预测值之间的差异)来压缩影像画面。而次编码单元即是用于记录所属区块的预测值与实际值之间的残量。

以HEVC为例，编码单元还能进一步被分割形成一个或更多个预测单元(Prediction Unit，PU)(由亮度和色度预测块组成)及转换单元(Transform Unit，TU)(作为次编码单元)。图3是一范例说明单元。请参照图3，编码树单元可能包括不同大小的编码单元CU₁,CU₂,CU₃(其大小例如分别是32×32、16×16及8×8像素)。编码单元CU₂还可能进一步包括8×8像素的预测单元PU、8×8像素的转换单元TU₁及4×4像素的转换单元TU₂。

图4是一范例说明各单元对应处理步骤的流程图。请参照图4，处理器170输入影像序列(步骤S405)之后，将针对各影像画面所形成的各编码单元CU处理。针对编码流程410，对于预测单元PU而言，处理器170可进行画面内预测(intra prediction)模式(步骤S411)或画面间预测(inter prediction)模式(步骤S414)。画面内预测模式包括画面内预测估测(步骤S412)及画面内预测(步骤S413)。而画面间预测模式包括动态(motion)估测(步骤S415)及动态补偿(compensation)(步骤S416)。画面内预测模式或画面间预测模式的预测值与原影像画面的实际值之间的差异量即是残量。对于转换单元TU而言，残量经转换(步骤S417)及量化(步骤S418)所形成的系数(coefficients)数据可与预测模式(画面间预测及画面内预测中择一)、估测所得的动态数据(例如，动态向量)及滤波控制数据形成标头(header)并据以熵(Entropy)编码(步骤S425)，即可形成位元串流(bit stream)(可进一步通过通信收发器110转换成封包并经由网络传送到客户装置50(可能会经过其他服务器转送))。

针对解码流程430，客户装置50的处理器57可对转换单元TU反量化(步骤S431)及反转换(步骤S432)以还原出残量。残量与预测值合并后将经滤波控制分析(例如，确认环路(loop)滤波器)(步骤S433)、以及解区块(deblocking)及取样自适应偏移(SampleAdaptive Offset，SAO)滤波(步骤S434)来还原影像画面，并据以存储在画面缓冲器(步骤S435)以供显示器55播放。

须说明的是，在一些实施例中，依据不同视频编码规格，次编码单元可能是不同于转换单元的其他名称。

处理器170依据影像序列中的数个编码单元中的那些次编码单元中的第一次编码单元与第二次编码单元之间的相关性编码那些次编码单元(步骤S220)。具体而言，虽然HEVC可节约流量，但却增加了压缩时间及解压缩所需的运算量，进而大幅提高压缩复杂性。研究指出，HEVC的编码时间(encoding time)平均比H.264/AVC高253％，这对于实现多媒体应用是不切实际的，尤其是实时视频的VoIP应用，实时串流的延迟可能会造成许多损失及误解。编码单元分割预测方法是根据编码中的一些特征(例如，影像内容复杂度、动态向量(motion vector)等)及人为制定的决策规则，来决定如何对编码单元分割，且编码单元再递回(Recursion)划分出不同层次的树结构(例如，四叉树结构)以形成转换单元(即，次编码单元)。

针对次编码单元的编码，本发明实施例对时间及空间维度分析。图5是依据本发明一实施例的编码处理方法的流程图。请参照图5，在一实施例中，相关性是时间相关性。处理器170可依据时间相关性决定次编码单元的单元大小(步骤S510)。具体而言，处理器170依据第一次编码单元与第二次编码单元之间的差异决定第一次编码单元或第二次编码单元的单元大小，且第二次编码单元是影像序列中不同于影像画面的另一张画面中的对应次编码单元。处理器170利用“时间(temporal)”概念判断不同影像画面之间的差异(形成时间差异序列)，并通过时间上的差异大小来决定对应的单元大小。其中，若差异越大(代表像素之间越不相似)，则单元大小越小，且对应信息量较多；若差异越小(代表像素之间越相似)，则单元大小越大，且对应信息量较少。

为了得出时间上的差异，在一实施例中，处理器170将第二次编码单元输入至异常检测模型，以得出还原单元。异常检测模型是将第一次编码单元作为训练数据并基于机器学习演算法所训练。机器学习演算法可以是自动编码器(AutoEncoder，AE)、降噪自动编码器(Denoising Autoencoder)、主成分分析(Principal components analysis，PCA)或其他演算法。在一实施例中，处理器170可将一张或更多张场景影像(例如，会议室、办公室的视频会议影像、或直播串流影像等，并视为正常影像)输入到机器学习演算法的初始模型进行训练，以形成异常检测模型。在一些实施例中，处理器170还可使用测试数据(即，特定影像数据，例如是特定场景影像的集合)输入到异常检测模型，来测试异常检测模型的准确率及失败率，进而修正异常检测模型。

以自动编码器为例，图6A是一范例说明自动编码器AE。请参照图6A，自动编码器AE的架构中可细分为编码器(encoder)和解码器(decoder)两部分，它们分别进行压缩与解压缩的动作。在训练过程中，让输出值和输入值表示相同意义(损失函数(lose function)为输出值和输入值越接近越好)。自动编码器AE的编码器可进行降维(dimensionreduction)，而解码器可进行还原，使得自动编码器AE可解释为使用较低维度的特征来近似原始输入。原始输入OI经编码器处理可得到压缩的嵌入编码(embedding code)，这个编码即是原始输入OI的一个压缩表示CI。为了取得中间的编码的输入表示，压缩表示CI的编码经解码器处理可得到重建输入RI。若此输出的重建输入RI与原始输入OI相近，则代表这个压缩表示CI与原始输入OI之间存在特定映射关系。

将自动编码器AE概念应用在切割次编码单元的决策中，在训练阶段中，处理器170可使用参考区块(reference block)训练自动编码器AE的异常检测模型。例如，参考区块可以是将前述场景影像或其他影像分割成对应次编码单元的数个训练区块。此外，假设异常检测模型将参考区块作为输入数据可输出相同或相近的区块。换句而言，可预期自动编码器AE将参考区块编码后再解码所得的估测区块几乎相同于参考区块。接着，处理器170基于训练数据中的输入物件(例如，参考区块)及预期的输出结果(例如，相同或相近的参考区块)训练异常检测模型，使输入物件输入到异常检测模型可得出预期的输出结果(几乎相同于参考区块的估测区块)。例如，处理器170将输入物件作为异常检测模型对应函数的输入变数，而输出结果作为此函数的输出变数，并据以找出此函数。

处理器170可依据第一次编码单元与第二次编码单元的还原单元之间的差异形成时间差异序列。具体而言，处理器170可将影像序列中的一张影像画面的某一个或更多个次编码单元(例如，第一次编码区块)作为训练所用的参考区块，且通过已训练的异常检测模型推论此影像序列中不同时间点的另一张影像画面的对应次编码单元(例如，第二次编码单元)的还原单元是否相近于参考区块。若将第二次编码单元输入到自动编码器AE所得出的估测区块(即，其还原单元)相同或相近于训练所用的参考区块，则表示此次编码单元的动态差异较低。若将第二次编码单元输入到自动编码器AE得出的估测区块(即，其还原单元)不同于训练所用的参考区块，则异常检测模型可判断此次编码单元具有动态差异较高，并需要进一步对其编码。

图6B是依据本发明一实施例的应用自动编码器AE决策单元大小的示意图。请参照图6B，待测的次编码单元TUT的单元大小例如是32×32、16×16、8×8或4×4像素。假设次编码单元TUT已被分割成特定单元大小，次编码单元TUT的值x(对应到第一次编码单元)经分析函数g_a转换可得出新编码y(位于编码空间CS)，编码y经量化得出量化值q，且量化值q被压缩成位元后即可用于测量编码率R。接着，量化值q经反量化后形成编码

编码

经合成函数g_s反转换后可获得重建的次编码单元TUT(其值

)。接着，将第二次编码单元输入到值

值为x及

的次编码单元TUT同时通过相同的函数g_p(例如，自动编码器的异常检测模型)转换，以分别得到还原单元的值为z及

(位于表示空间PS)。处理器170可由公式(1)：

得出两者之间的差异V(其中，λ是常数，D是用于得出让值z,

相等的函数并可用诸如均方误差(MSE)或差值等方式实现)。

由于考虑的差异时间序列(对应到画面间的像素之间的时间相关性)，因此处理器170会对影像序列中不同影像画面中的对应次编码单元依据时间顺序产生一连串的差异V，并据以形成时间差异序列。处理器170即可判断时间差异序列对应的单元大小。

在一实施例中，处理器170可设定多个时间细度群组(分别对应到不同时间细粒度(grain fineness)(对应到不同单元大小))，并判断时间差异序列所对应的时间细度群组。例如，表(1)是不同时间细度群组T1～T4对应的单元大小：

表(1)

时间细度群组	单元大小
		T1	32×32
T2	16×16
		T3	8×8
T4	4×4

假设差异V属于时间细度群组T1，则表示此第一次编码单元的单元大小被设定为32×32像素，即平面区域或细节信息较少。假设差异V属于时间细度群组T4，则表示此第一次编码单元的单元大小被设定为4×4像素，即细节信息较多。其余依此类推，于此不再赘述。此外，图6C是一范例说明四分树的结构。请参照图6C，四个时间细度群组将形成四个阶层，并可依照此阶层进行编码，例如以1代表分割为更小的单元。

须说明的是，表(1)中的时间细度群组数量及其对应的单元大小仅是作为范例说明，应用者可视需求自行变化。此外，在一些实施例中，基于不同训练机制，异常检测模型还可能直接将第一次编码单元分类到特定时间细度群组。

请返回图5，在一实施例中，相关性是空间相关性。处理器170可依据空间相关性决定是否对次编码单元编码(步骤S530)。具体而言，处理器170依据第一次编码单元与第二次编码单元之间的差异决定是否编码。此时，第二次编码单元是与第一次编码单元相同的影像画面中的另一次编码单元。处理器170利用“空间”概念判断相同影像画面中不同区块之间的差异(即，空间差异或空间相关性)。在一实施例中，第一次编码单元与第二次编码单元之间在空间上的差异是第一次编码单元与第二次编码单元的像素之间的差的绝对值总合((Sum of Absolute Difference，SAD)，其数学表示式(2)为：

其中，SAD_1,2是第一次编码单元B₁与第二次编码单元B₂在各像素坐标(i,j)之间的差的绝对值总合，i为1至N之间的整数，j是1至M之间的整数，N、M为正整数。

在其他实施例中，空间差异也可以是第一次编码单元与第二次编码单元的像素之间的平均差、均方根误差或其他差异的量度。在一些实施例中，图5所示实施例可应用在图4中画面内编码模式S411及画面间编码模式S414。例如，在画面内编码模式S411中，使用自动编码器AE及时间差异序列作为转换单元TU的切割大小的判断。又例如，在画面间编码模式S414中，使用转换单元TU在差的绝对值总合来决定是否编码此转换单元TU。

空间差异得出之后，处理器170可依据此差异大小来决定是否对第一次编码单元或第二次编码单元(例如，对应到影像画面中的某一区块)编码。其中，若差异越大(例如，未小于空间差异门限值，即代表像素之间越不相似)，则处理器170将执行此第一次编码单元或第二次编码单元的编码；若差异越小(例如，小于空间差异门限值，即代表像素之间越相似，例如都是办公室的墙(即，相同背景))，则处理器170将禁能此第一次编码单元或第二次编码单元的编码。

在一实施例中，针对被禁能编码的第一次编码单元或第二次编码单元，处理器170可将其合并到与其空间中像素差异度低的其他第三次编码单元，以形成合并单元，且第三次编码单元与第一次编码单元或第二次编码单元的差异小于空间差异门限值。即，将差异较小的次编码单元合并。接着，处理器170即可执行对合并单元的编码。例如，第一次编码单元是参考第三次编码单元的预测值得出残量。又例如，第一次编码单元与第三次编码单元结合在一起并同时进行预测及编码。

在另一实施例中，处理器170可设定多个空间等级(分别对应到不同空间细粒度)，并判断空间差异所对应的空间等级。这些空间等级分别对应到不同像素差异程度，并依据差异程度大小排序。例如，表(2)是不同空间等级S1～S3对应的值域：

表(2)

假设空间差异的值在0到第一等级上限之间，则归类到空间等级S1，且表示此第一次编码单元与第二次编码单元之间的像素差异较小。假设空间差异的值在第一等级上限到第二等级上限之间，则归类到空间等级S2，且表示此第一次编码单元与第二次编码单元之间的像素差异相较大些(可能具有较粗糙的纹理)。假设空间差异的值在第二等级上限到第三等级上限之间，则归类到空间等级S3，且表示此第一次编码单元与第二次编码单元之间的像素差异更大(可能是影像画面的边缘像素)。

在一些实施例中，处理器170可将前述判断是否编码的空间差异门限值设定成第一等级上限、第二等级上限或第三等级上限，以决定那些空间等级的次编码单元需要进一步编码。

须说明的是，表(2)中的空间等级数量及其对应的值域仅是作为范例说明，应用者可视需求自行变化。

又一实施例中，处理器170可对整张影像画面决定相关于自然影像的统计分布。次编码单元经切割之后，处理器170分别决定第一次编码单元及第二次编码单元对应的统计分布，且判断两统计分布之间的差异，并据以决定是否需要对第一次编码单元或第二次编码单元进一步编码。于另一实施例中，处理器170可判断第一次编码单元或第二次编码单元对应的统计分布中是否具有重要特征，并决定对具有重要特征的第一次编码单元或第二次编码单元进行编码。具体而言，自然影像的统计分布例如是基于自然场景统计(NaturalScene Statistics，NSS)。自然场景统计能描述自然影像中的统计性质。处理器170可应用小波或拉普拉斯分别计算统计分布。通过对整张影像画面决定统计分布后再分割成区块的手段，处理器170可得知此区块是否包括重要特征。例如，假设一张人脸是很重要的，整张画面的统计分布中，对应于此张人脸的部分的统计分布会显示出具有重要特征，但是分割后的区块却是一个眼睛，此时统计分布可表现出此区块重要(即，眼睛对应的统计分布为人脸的统计分布中的一部分，故可从对应眼睛的统计分布中判断眼睛为重要特征)。基于自然场景统计对应的重要程度，若不同次编码单元的两统计分布相近(例如使用相似度门限值比较)，则代表空间上的变化是平坦区域(即，重要程度相近，故不需要编码或合并编码)；若两统计分布不相近，则表示空间上的变化较大(即，重要程度的差异大，故需要编码)。于一实施例中，若差的绝对值总合(SAD)所得的空间差异较小，则处理器170可进一步比对第一次编码单元及第二次编码单元的统计分布。若两者的统计分布相近或相同，即可禁能编码。通过两种比对手段(即，差的绝对值总合及统计分布的比对)，可确保空间差异评估的正确性。

在另一实施例中，影像可被切割成较小的评估区块，并应用小波或拉普拉斯计算各评估区块的统计分布，以作为各评估区块的特征值。这些评估区块的特征值可做为编码过程中特征提取的确认。此特征值代表NSS的规律性。在一些实施例中，前述场景影像也可被切成较小的评估区块，并应用小波或拉普拉斯计算各评估区块的统计分布，以进行NSS规律评估。

请回到图2，基于前述次编码单元的单元大小决策及编码与否的决策，处理器170可依据影像序列的编码结果产生视频串流(步骤S230)。例如，处理器170使用设定的单元大小来承载预测信息与实际信息之间的残量、对次编码单元合并编码、或者对设定的次编码单元编码所产生的位元串流即是编码结果(可参照图4的编码流程410，但不限于特定视频编码标准)。视频串流可进一步通过通信收发器110传送而出。另一方面，客户装置50的处理器57可通过通信收发器51直接或间接地自视频处理装置100接收到此视频串流，并对视频串流解码(与编码作业相反的动作(例如，反量化、反转换、加上预测值等))即可得到重建后的影像画面，且可进一步通过显示器55播放。

除了编码复杂度的降低，本发明实施例更进一步考虑影像品质，以避免减损使用者的观看体验。影像品质的评估方法可概括分为客观及主观二种，常见的客观评估数学模型有均方根误差(Root-Mean-Square Error，RMSE)，平均误差(MSE)及峰值讯杂比(PeakSignal to Noise Ratio，PSNR)。以均方根误差为例，均方根误差的值越小，代表着兩张影像相似性愈高，但并不代表此影像的品质越好。为了能呈现使用者对实时串流的影像品质的主观视觉感受，本发明实施例将位元率(bitrate)、串流内容及使用者体验三种信息作为影像品质的评估因素。

在与“分辨率”相配性的前提下，较高的位元率可容纳更高的视频品质。因此，当传输数据的位元率增加时，人们的感知品质会提高。为了提升使用者的实时串流的品质满意度及有效的利用频宽，传输的数据量应该在位元率较低时提高。本发明实施例将“编码等级”用于调整位元率的机制可满足使用者主观对实时串流的品质满意度，而不是广泛性的提升或降低位元率。

在一实施例中，处理器170可依据传送视频串流的传输频宽决定数个编码等级中的一者。这些编码等级即是分别对应前述那些空间等级。例如，编码等级b1对应到表(2)的空间等级S1，编码等级b2对应到空间等级S2，且编码等级b3对应到空间等级S3。须说明的是，编码等级不限于三个，并可视需求而变化。

在保持影像品质的前提下，处理器170可依据当前的传输频宽设置最接近但不超过的可用传输频宽的编码层级，以增加或减少数据传输流量。主要概念是将实时串流中的影像画面中相较复杂或有较多变化的部分进行处理(例如，编码及传输)，而简单的部分(例如，没有变化或较少变化的部分)则不进行处理，解码时使用前面已经编码过的画面进行预测即可。通过这些动态调整方式可进一步取得编码效率及节约流量之间的平衡，从而达到使用者对实时串流的品质(例如是QoE)的期望。

当传输频宽小于频宽门限值时，代表可用传输频宽不够，且需要减少数据传输量，因此编码等级须提升。例如，将当前编码等级升高一个等级或视可用传输频宽调整。反之，当传输频宽未小于频宽门限值时，代表可用传输频宽足够，且可进一步增加数据传输量，因此编码等级可降低。例如，将当前编码等级降低一个等级或降到最低等级。举例而言，假设当前编码等级为b2，当传输频宽小于40Kbps(即，频宽门限值)时，则处理器170将编码等级修改成b3。

此外，处理器170可依据决定的编码等级改变前述空间差异门限值。若编码等级增加(即，传输频宽降低)，则空间差异门限值也增加；若编码等级降低(即，传输频宽增加)，则空间差异门限值也降低。举例而言，当传输频宽降低时，编码等级被提升至b3，且只对边缘像素的区块进行编码及传输，而其他部分是使用前面已经编码过的画面进行预测，即可减少传输数据量。相反而言，当传输频宽增加时，编码等级被降低到b2或b1，则需要进一步对纹理(texture)或平坦(flat)的区块进行编码及传输。借此，可因应于传输频宽的变化而重新分配编码机制，进而改善了编码效率及用户对实时串流的体验。

以实际情境说明，假设目前编码等级为对应空间等级S2的b2，且频宽门限值设为40Kbps。当传输频宽小于频宽门限值时，视频会议应用程序将无法正常工作(可能会有延迟或封包遗失等情况发生)，因此无法满足用户的实时视频期望。

一旦传输频宽小于频宽门限值，处理器170可将空间差异门限值及编码等级提升(但不可高于最高的空间等级的上限及编码等级的上限)。例如，编码等级提升到为b3，空间差异门限值设为空间等级S3，代表次编码单元是边缘(即，空间差异大于空间等级S2的上限)才需编码。即，只对有实时串流进行重点(此处将空间差异较大的次编码单元视为重点)的编码，以降低整体的位元率，提高编码效率，并维持实时串流品质。

在另一实施例中，视频处理装置100可依据客户装置50对于影像品质评估(例如，针对前述串流内容及使用者体验因素)的反馈来改变编码机制。图7是依据本发明一实施例的影像品质评估方法的流程图。请参照图7，客户装置50的处理器57对视频串流中的影像形成数个待评估区块(步骤S710)。具体而言，有别于传统技术对于整张影像的所有像素进行影像品质评估，本发明实施例是以区块为基本单位来评估。而待评估区块可以是前述次编码单元的单元大小或是其他大小。

处理器57可将待评估区块输入品质评估模型(步骤S730)。具体而言，品质评估模块是基于机器学习演算法所训练。此机器学习演算法可以是胶囊网络(Capsule network，CapsNet)、卷积神经网络(Convolutional neural network，CNN)、紧密卷积网络(DenseConvolutional Network，DenseNet)或其他演算法。

以胶囊网络为例，在影像识别上和CNN不同之处在于，使用接近生物神经组织(biological neural organization)的概念。当视角(viewpoint)改变时，部分(part)或物件(object)具有线性影响，而像素则是非线性影响。胶囊网络是带有方向的向量，并可根据统计信息进行特征检测。例如，根据五官识别出一只“猫”。此外，胶囊网络还可以对特征进行理解。例如，若五官不在其特定的区域(例如，嘴在额头、或眼睛在耳朵上方)，则胶囊网络能通过检测出物体的不同方向(例如，顺时针旋转)，从而了解处于特定位置的猫五官才能被称作是“猫”。

在一实施例中，处理器57可将前述场景影像切割成数个待学习区块，并将这些场景影像的那些待学习区块作为学习数据，且将此学习数据作为训练品质评估模型的训练样本。例如，会议影像作为场景影像，则训练品质评估模型后即可将影像中的人脸作为重要信息。即，取得影像特征，并据以作为人脸感兴趣区域。而影像特征是指将待学习区块输入机器学习演算法的神经网络中，可针对待学习区块学习出局部影像的特征。例如，纹理和梯度信息。而在胶囊网络中可以向量记录纹理和梯度信息、以及相对位置等信息。此外，胶囊网络的作用可以确保重要信息的位置正确，进而轻易地分辨出重要信息。

在另一实施例中，处理器57可将例如是平均意见分数(Mean Opinion Score，MOS)或差分平均意见分数(Differential Mean Opinion Score，DMOS)影像数据库中的数据作为学习数据，对学习数据中的影像切割成数个待学习区块，并将这些待学习区块作为训练品质评估模型的训练样本。

在又一实施例中，处理器57可统计一位或更多位人员对那些待学习区块主观评断的观感评估分数。观感评估分数是基于人类观感实际的评分结果所得出。以国际标准化的协议电信联盟(ITU)测试为例，ITU测试分为几个段落，至少由15位观察人员组成，观察人员受要求以1到5的分数对待学习区块评分。每个人的主观影像质量评分标准可能不同，使得不同人通常给出的分数会不同。每位观察人员给出的分数取决于自身经验及喜好，甚至可能根据当天的心情及事物而变化。处理器57可将那些待学习区块对应的观感评估分数作为训练品质评估模型的训练样本。而通过对区块的观感评估分数输入至机器学习演算法的神经网络，可建立品质评估模型，并让品质评估模型可用于推论其他情境下的视频串流的影像品质。

再一实施例中，处理器57可依据那些待学习区块对应的影像特征、观感评估分数及/或统计分布(基于自然场景统计)决定数个目标函数中的一者，并作为训练品质评估模型的训练样本。具体而言，目标函数可以是粒子群最佳化(Particle Swarm Optimization，PSO)的适应性函数(fitness function)、模糊决策的成本函数计算或其他最佳化函数。这些目标函数具有上限及下限，即目标函数的最佳解在上下及下限之间的可行区域(feasible region)(或称容许范围)内变动。在编解码过程中，信息减少或遗失是无法避免的。因此，求取目标函数的解可在一个区间内，目标函数的上限及下限的目的是指影像品质提高或减损可在某个容忍范围内。求得最佳解(即，和原始影像对应区块相同的影像品质)是主要目标，其次可找寻其他相关的可行解(即，在容忍范围内的影像品质提高或减损)。

以影像特征、观感评估分数及统计分布三者皆作为目标函数的参数为例：

min_f＝min block(t，m，n)...(3)

max_f＝max block(t，m，n)...(4)

目标函数block(t,m,n)包括待评估区块的影像特征t、观感评估分数m及统计分布n。max_f代表上限，min_f代表下限，即求解目标可在上限max_f和下限min_f间变动。

须说明的是，方程式(3)、(4)仅是作为范例说明，其他实施例也可能是将影像特征与观感评估分数及统计分布中的任一者作为目标函数的参数。

处理器57可依据品质评估模型的输出结果决定影像的品质(步骤S750)。具体而言，经训练的品质评估模块可将待评估区块作为输入数据，并据以推论其对应的结果。在一实施例中，若场景影像及/或训练数据的影像特征、观感评估分数、统计分布及目标函数作为品质评估模块的学习数据，则品质评估模型的输出结果可包括特定的影像特征、观感评估分数、统计分布及目标函数。例如，品质评估模块对视频串流经重建后的影像画面中的待评估区块获取影像特征，并识别出对应此影像特征所属类别(例如，人脸、眼睛、或嘴)的区块，再依据此类别的区块取得对应的观感评估分数、统计分布及目标函数。

接着，处理器57可依据输出结果中的影像特征、观感评估分数、统计分布及目标函数，决定各待评估区块对应的目标函数的计算值(即，同时依据影像特征、观感评估分数及统计分布决定对应待评估区块的计算值)。处理器57可依据此计算值判断对应待评估区块的品质。即，计算值为影像品质的指标。

在一实施例中，处理器57可判断计算值是否介于对应的目标函数的上限及下限之间(即，容许范围)。若此计算值位于最佳解的上限及下限内，即代表使用者对此待评估区块的感观接受度在容许范围内(差值代表容忍度，并可经由经验而来或动态修正最佳解的上下限)，并可进一步通过显示器55播放重建的影像画面(即，视频串流经解码后的影像画面)。若计算值未位于上限及下限内或无解，则代表目标函数无法得出最佳解、使用者对此待评估区块的感观接受度不在容许范围内或画面失真，并可进一步通过通信收发器51发出对影像重新编码的要求。而若计算值等于最佳解，则代表使用者对此待评估区块的感观接受度相同，并可进一步通过显示器55播放重建的影像画面。

在另一实施例中，若场景影像及/或训练数据的影像特征、观感评估分数及目标函数作为品质评估模块的学习数据，则品质评估模型的输出结果可包括特定的影像特征、观感评估分数及目标函数(此实施例是依据影像特征及观感评估分数形成目标函数)。接着，处理器57可将输出结果中的影像特征及观感评估分数输入至输出结果中的目标函数，并据以决定各待评估区块对应的目标函数的计算值(即，依据影像特征及观感评估分数决定对应待评估区块的计算值)，并据以作为影像品质的指标。

又一实施例中，若场景影像及/或训练数据的影像特征、统计分布及目标函数作为品质评估模块的学习数据，则品质评估模型的输出结果可包括特定的影像特征、统计分布及目标函数(此实施例是依据影像特征及统计分布形成目标函数)。接着，处理器57可将输出结果中的影像特征及统计分布输入至输出结果中的目标函数，并据以决定各待评估区块对应的目标函数的计算值(即，依据影像特征及统计分布决定对应待评估区块的计算值)，并据以作为影像品质的指标。

由于影像画面中的像素分布并非均匀分布，因此影像画面中的单一待评估区块不一定可以反映出整张影像画面的所有像素，且各待评估区块得到使用者关注的程度也许不同。一般而言，重要信息(例如，会议室中的人比会议室背景更重要)或变化较大的信息(例如，切换场景或换人发言)是使用者所关注的部分。

为了考虑不同待评估区块对影像品质评估的影响，本发明实施例使用编码等级做为待评估区块的加权平均所用的权重。处理器57可决定各待评估区块的编码等级，且不同的编码等级对应到不同的权重。以表(2)的编码等级为例，编码等级b3、b2及b1分别对应到权重w3、w2及w1。相较于编码等级b1，编码等级b3会让使用者有更多注意力，因此权重w3的值大于权重w1的值。即，编码等级越高，权重的值越高。相反而言，编码等级越低，权重的值越低。处理器57可依据那些待评估区块的品质(例如是前述计算值)及其对应的权重决定整张影像画面的品质。影像画面的品质的计算公式如下：

Q为整张影像画面的品质，q_k为第k待评估区块的品质，w_k是第k待评估区块的权重，假设影像画面分割成L个待评估区块，且L为正整数。

以影像画面被分割成三个待评估区块为例，其编码等级b3、b2及b1对应到的权重分别为60％、30％及10％。整张影像画面的品质为(q₁＊0.6+q₂＊0.3+q₃＊0.1)/(0.6+0.3+0.1)。

须说明的是，若影像画面的品质的分数是以DMOS或MOS来计分，则DMOS的分数越高表示品质越差，或MOS的分数越高表示品质越高。

此外，若得出品质不佳的反馈，视频处理装置100可依据影像品质评估结果来改变编码机制。在一实施例中，处理器170更依据视频串流经解码后的影像品质(例如，前述整张影像画面的品质、或部分待评估区块的品质)改变空间差异门限值。例如，若影像品质不佳(例如，其计算值不位于目标函数的容许范围内)，则处理器170可降低空间差异门限值，使降低空间等级(即，值域较低)的次编码单元以取得更多编码信息(原先这些较低空间等级的次编码单元不执行编码，解码时将参考其他预测值，且降低空间差异门限值后若这些次编码单元符合较低空间等级也可执行编码)，并重新编码那些次编码单元。

在另一实施例中，处理器170可依据视频串流经解码后的影像品质改变单元大小的决定。若影像品质不佳，则处理器170可在编码流程中对单元大小的决定放宽条件。例如，处理器170可降低时间细度群对应的单元大小，使细节信息增加。

综上所述，本发明实施例视频处理装置及视频串流的处理方法，将影像画面中的空间及时间特征分为不同细粒度，使用异常检测模型作为编码单元结构切割次编码单元的决策依据，并判断各次编码单元属于那个空间等级的区间门限值，进而判断次编码单元是否需要进行编码，从而减少编码复杂度。此外，使用NSS统计特性可助于提供更精确的分割决策。另一方面，本发明实施例整合传输频宽、观感评估分数及自然场景统计分布三种信息作为影像品质的评估因素。基于编码等级动态调整位元率以满足使用者主观对实时串流的品质满意度，而不是广泛性的提升或降低位元率。此外，本发明实施例采用无参考(no-reference，NR)影像品质评估概念，不需参考影像的比对，也不需要对影像中的所有像素获取影像特征。由于参考NSS统计特性，因此本发明实施例机器学习演算法的神经网络获取待评估区块的影像特征，并使用编码等级对待评估区块的像素进行加权，从而对整个影像进行品质评估。影像品质评估还能进一步反馈到编码机制，让调整后的编码机制能符合人类视觉观感的需求。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，任何所属技术领域中技术人员，在不脱离本发明的构思和范围内，当可作些许的变动与润饰，故本发明的保护范围当视权利要求所界定者为准。

Claims

1.一种视频串流的处理方法，包括：

对一影像画面形成至少一编码单元，其中该影像画面是一影像序列中的一张画面，且每一该编码单元用于记录所属区块的编码信息；

依据该影像序列中的多个该编码单元中的多个次编码单元中的一第一次编码单元与一第二次编码单元之间的相关性编码所述多个次编码单元；以及

依据该影像序列的编码结果产生一视频串流。

2.如权利要求1所述的视频串流的处理方法，其中依据该影像序列中的所述多个编码单元中的所述多个次编码单元中的该第一次编码单元与该第二次编码单元之间的相关性编码所述多个次编码单元的步骤包括：

依据该第一次编码单元与该第二次编码单元之间的差异决定该第一次编码单元或该第二次编码单元的单元大小，其中该第二次编码单元是该影像序列中不同于该影像画面的另一张画面中的对应次编码单元。

3.如权利要求1所述的视频串流的处理方法，其中依据该影像序列中的所述多个编码单元中的所述多个次编码单元中的该第一次编码单元与该第二次编码单元之间的相关性编码所述多个次编码单元的步骤包括：

依据该第一次编码单元与该第二次编码单元之间的差异决定是否编码该第一次编码单元或该第二次编码单元，其中该第二次编码单元是与该第一次编码单元相同的该影像画面中的另一次编码单元；

反应于该差异小于一空间差异门限值，禁能该第一次编码单元或该第二次编码单元的编码；以及

反应于该差异未小于该空间差异门限值，执行该第一次编码单元或该第二次编码单元的编码。

4.如权利要求2所述的视频串流的处理方法，其中依据该第一次编码单元与该第二次编码单元之间的差异决定该第一次编码单元或该第二次编码单元的单元大小的步骤包括：

将该第二次编码单元输入至一异常检测模型，以得出一还原单元，其中该异常检测模型是将该第一次编码单元作为训练数据并基于一机器学习演算法所训练；

依据该第一次编码单元与该第二次编码单元的该还原单元之间的差异形成一时间差异序列；以及

判断该时间差异序列对应的单元大小。

5.如权利要求3所述的视频串流的处理方法，其中该第一次编码单元与该第二次编码单元之间的差异是该第一次编码单元与该第二次编码单元的像素之间的差的绝对值总合。

6.如权利要求3所述的视频串流的处理方法，其中依据该第一次编码单元与该第二次编码单元之间的差异决定是否编码该第一次编码单元或该第二次编码单元的步骤包括：

决定该影像画面相关于自然影像的统计分布；

依据该影像画面的统计分布分别决定该第一次编码单元及该第二次编码单元对应的统计分布；以及

依据该第一次编码单元及该第二次编码单元对应的统计分布决定是否编码该第一次编码单元或该第二次编码单元。

7.如权利要求3所述的视频串流的处理方法，其中禁能该第一次编码单元或该第二次编码单元的编码的步骤包括：

将该第一次编码单元或该第二次编码单元合并到一第三次编码单元，以形成一合并单元，其中该第三次编码单元与该第一次编码单元或该第二次编码单元的该差异小于该空间差异门限值；以及

执行对该合并单元的编码。

8.如权利要求3所述的视频串流的处理方法，其中依据该第一次编码单元与该第二次编码单元之间的差异决定是否编码该第一次编码单元或该第二次编码单元的步骤包括：

依据传送该视频串流的一传输频宽决定多个编码等级中的一者；以及

依据决定的该编码等级改变该空间差异门限值。

9.如权利要求3所述的视频串流的处理方法，还包括：

依据该视频串流经解码后的影像品质改变该空间差异门限值。

10.如权利要求2所述的视频串流的处理方法，还包括：

依据该视频串流经解码后的影像品质改变该单元大小。

11.一种视频处理装置，包括：

一通信收发器，用以传送或接收数据；以及

一处理器，耦接该通信收发器，并经配置用以：

依据该影像序列的编码结果产生一视频串流，其中该视频串流通过该通信收发器传送。

12.如权利要求11所述的视频处理装置，其中该处理器经配置用以：

13.如权利要求11所述的视频处理装置，其中该处理器经配置用以：

14.如权利要求12所述的视频处理装置，其中该处理器经配置用以：

判断该时间差异序列对应的单元大小。

15.如权利要求13所述的视频处理装置，其中该第一次编码单元与该第二次编码单元之间的差异是该第一次编码单元与该第二次编码单元的像素之间的差的绝对值总合。

16.如权利要求13所述的视频处理装置，其中该处理器经配置用以：

决定该影像画面相关于自然影像的统计分布；

17.如权利要求13所述的视频处理装置，其中该处理器经配置用以：

执行对该合并单元的编码。

18.如权利要求13所述的视频处理装置，其中该处理器经配置用以：

依据决定的该编码等级改变该空间差异门限值。

19.如权利要求13所述的视频处理装置，其中该处理器经配置用以：

通过该通信收发器接收该视频串流经解码后的影像品质；以及

依据该影像品质改变该空间差异门限值。

20.如权利要求12所述的视频处理装置，其中该处理器经配置用以：

依据该影像品质改变该单元大小。