CN101911703A

CN101911703A - 利用辅助信息的针对视频编码的纹理合成方法、设备、程序以及介质

Info

Publication number: CN101911703A
Application number: CN2009801020508A
Authority: CN
Inventors: 克里斯多佛·A·西盖; 苏野平; 吴秉泰
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-01-18
Filing date: 2009-01-16
Publication date: 2010-12-08
Anticipated expiration: 2029-01-16
Also published as: US8204325B2; US20090185747A1; JP2011515875A; WO2009091080A1; CN101911703B

Abstract

一种利用辅助信息的针对视频编码的纹理合成方法，该方法可以由解码器设备来实现。该方法可以包括以高保真度接收种子纹理。该方法还可以包括以低保真度接收合成区域的剩余部分。该方法还可以包括接收对要合成的区域的标记。该方法还可以包括基于高保真度种子纹理以及合成区域的低保真度部分来合成所标记的区域。解码器设备还可以包括存储在存储介质上的计算机程序。一种对利用辅助信息的针对视频编码的纹理合成进行辅助的方法也可以由编码器设备来实现。

Description

利用辅助信息的针对视频编码的纹理合成方法、设备、程序以及介质

技术领域

本公开总体上涉及视频处理。更具体地，本公开涉及利用辅助信息的针对视频编码的纹理合成的方法、设备、程序以及介质。

背景技术

本公开总体上涉及视频内的纹理，即，视觉纹理。如这里所使用的，术语“纹理”可以指代包括重复元素的数字图像或数字图像序列。这些重复的元素会产生三维纹理状表面幻像，即，对于眼睛呈现纹理状表面。

更具体地，本公开涉及针对视频编码的纹理合成的问题。纹理合成的基本目标是合成在感知上与原始图像序列相同(或类似)的图像序列。然而，允许合成的序列的像素值与原始序列中的像素值显著不同。这与传统编码方法不同，在传统编码方法中寻求尽可能接近原始像素值。

纹理合成的最佳动机是针对有些随机的图像序列。例如，水、草以及树的运动是纹理合成的良好候选。

纹理合成使用在许多领域，包括数字图像编辑、三维计算机图形、电影的后期制作等。纹理合成可以用于填充图像中的洞、创建较大非重复背景图像、扩展较小画面等等。

发明内容

公开了一种利用辅助信息的针对视频编码的纹理合成方法。该方法可以由解码器设备来实现。该方法可以包括：以高保真度接收种子纹理。该方法还可以包括以低保真度接收合成区域的剩余部分。该方法还可以包括接收对要合成的区域的标记。该方法还可以包括基于高保真度种子纹理以及合成区域的低保真度部分来合成所标记的区域。

合成所标记的区域可以包括识别种子纹理内的至少一个最佳匹配区域。可以获得初始估计。获得初始估计可以包括将来自于最佳匹配区域的像素值拷贝至当前合成区域。可以从至少一个最佳匹配区域中导出图像模型。可以从接收到的比特流中提取附加的图像模型。可以基于初始估计以及导出和提取的图像模型来合成当前合成区域。

可以识别多个最佳区域。在这种情况下，多个最佳匹配区域的加权组合可以用于合成所标记的区域。

所传送的图像模型可以包括量化参数、量化的等级值、以及预测模式中的至少一个。

可以通过迭代地投影至从接收到的比特流中提取的图像模型以及从种子纹理中提取的图像模型，来执行合成当前合成区域。

作为一个示例，从种子纹理中提取的图像模型可以是自相关的。用于迭代投影动作的投影算子可以是至所需相关模型的线性映射。

作为另一示例，从种子纹理中提取的图像模型在变换域中可以是稀疏的。用于迭代投影动作的投影算子可以是用于达到所需稀疏性的阈值化。

该方法还可以包括：执行补丁混合以及去块，以施行边界平滑。

所导出的图像模型以及所传送的不同类型的图像模型可以包括以下中的至少一个：基于空时相关的模型、基于像素亮度直方图的模型、基于变换系数直方图的模型、以及基于变换域中相关的模型。

合成所标记的区域可以包括识别种子纹理内至少一个最佳匹配区域。纹理相似性度量可以被定义为，指示至少一个最佳匹配区域与当前合成区域之间的差异。辅助信息度量可以被定义为，指示辅助信息与当前合成区域之间的差异。辅助信息度量可以通过在变换域中投影找到最接近点来确定。合成所标记的区域还可以包括联合地最小化纹理相似性度量与辅助信息度量的组合。

可以执行逐块处理。可以利用相邻因果块的合成结果的知识，来执行合成特定块的动作。备选地，可以利用所有相邻块的合成结果的知识，来执行合成特定块的动作。作为另一备选方案，合成所标记的区域的动作可以包括相对于所标记的区域来执行因果纹理合成，然后以非因果方式来处理所标记的区域。

该方法还可以包括通过执行以下中的至少一个来降低计算复杂性：无交叠至交叠网格搜索、使用空间和多分辨率关系来减小搜索空间、以及使用变换域系数来降低计算复杂性。

公开了一种解码器设备，该解码器设备被配置用于利用辅助信息的针对视频编码的纹理合成。解码器设备包括处理器和与该处理器进行电子通信的存储器。可以将指令存储在存储器中。指令可执行用于以高保真度接收种子纹理。指令还可执行用于以低保真度接收合成区域的剩余部分。指令还可执行用于接收对要合成的区域的标记。此外，指令可执行用于基于高保真度种子纹理以及合成区域的低保真度部分，来合成所标记的区域。

解码器设备还可以包括计算机程序，该计算机程序用于利用辅助信息的针对视频编码的纹理合成。该计算机程序存储在例如光盘或磁盘之类的存储介质上。

计算机程序可以执行用于以高保真度接收种子纹理的指令。计算机程序还可以执行用于以低保真度接收合成区域的剩余部分的指令。计算机程序还可以执行用于接收对要合成的区域的标记的指令。计算机程序还可以执行用于基于高保真度种子纹理以及合成区域的低保真度部分来合成所标记的区域的指令。

公开了一种对利用辅助信息的针对视频编码的纹理合成进行辅助的方法。该方法可以由编码器设备来实现。该方法可以包括识别要合成的输入视频区域。该方法还可以包括将合成区域的一部分标记为种子纹理。该方法还可以包括以高保真度将种子纹理传送至解码器设备。该方法还可以包括以低保真度将合成区域的剩余部分传送至解码器设备。

结合附图，考虑本发明的以下详细描述时，本发明的上述以及其他目标、特征和优点将变得显而易见。

附图说明

图1示出了配置为执行针对视频编码的纹理合成的系统的示例；

图2示出了配置为执行使用辅助信息的针对视频编码的纹理合成的系统的示例；

图3示出了根据本公开的可以由编码器设备实现的方法的示例；

图4示出了根据本公开的可以由解码器设备实现的方法的示例；

图5示出了图4方法中合成纹理数据的区域的步骤的一种可能实现方式；

图6示出了图4方法中合成纹理数据的区域的步骤的另一种可能实现方式；

图7示出了种子纹理内的最佳匹配区域的示例；

图8示出了用于确定辅助信息度量的方法的示例；

图9示出了根据本公开的用于确定要发送的引导信息的量的方法的示例；

图10示出了图9方法的图示；

图11示出了用于减小搜索空间的多分辨率方法的示例；

图12示出了基于空间关系限制搜索空间的示例；

图13示出了配置用于利用辅助信息的针对视频编码的纹理合成的解码器设备的示例；以及

图14示出了配置为辅助利用辅助信息的针对视频编码的纹理合成的编码器设备的示例。

具体实施方式

存在两种针对纹理合成的主要研究领域。第一研究领域包括参数方法。在这些方法中，通过多个参数对图像序列进行建模。例如，直方图提供一个模型。类似地，像素值的相关性提供另一模型。在给定足够数目的模型的情况下，能够通过找到满足参数化约束的像素亮度值的集合，来重新创建任何纹理的“外观和感觉”。能够利用投影算子(硬约束)或加权处罚规范来描述这些约束。相应地，这些相当于意味着，合成的亮度值“必须”满足参数化约束，或者亮度值“应当接近”参数化模型。

第二主要研究领域包括非参数方法。这里，从先验已知的范例纹理中导出合成的纹理。纹理合成处理通过检查该范例或种子纹理并且将种子纹理中的亮度值拷贝至新的纹理区域，来创建附加的纹理数据。这里，找到要拷贝的亮度值是区别因素。然而，常规方法是在种子纹理中搜索与要合成的区域的相邻像素值最匹配的图像区域。然后，拷贝邻近该最佳匹配的像素值。备选方法是找到多个匹配，或者利用针对邻域的不同定义。

在视频编码应用中采用纹理合成缓和了纹理合成问题。注意以下差异。首先，视频编码应用不允许至合成器的种子纹理或模型信息的无损传输。此外，大量种子纹理或模型信息的传输降低了纹理合成器的价值(视频编码环境具有对纹理进行显式编码的选项)。此外，合成操作的复杂性应当是易处理的。(例如，这种复杂性应当在其他视频解码处理的复杂性的量级内)同样，与用于图形应用的纹理合成不同，视频编码系统知道纹理中的原始亮度值。最后，纹理合成操作应当与其他编码手段(例如，帧间和帧内预测以及残差编码)相互操作。总体设计能够实现对单纯合成与传统视频编码的可调节组合。

在给定以上差异的情况下，本公开考虑利用当前现有技术视频编码系统的技术的纹理合成系统。(示例包括国际电信联盟(ITU)和运动图像专家组(MPEG)标准族。)根据本公开，比特流可以用于向纹理合成器传输辅助信息。该辅助信息的分量可以被结构化为，直接对应于图像序列的低质量版本。这样，纹理合成器的目的可以是改善低质量版本内纹理的呈现。

现在参照图1，图1示出了配置为执行针对视频编码的纹理合成的系统100的示例。

向编码器104提供输入视频102，编码器104对输入视频102进行编码。然后通过通信信道106向解码器108传送编码视频数据。解码器108对接收到的视频数据进行解码，从而获得解码视频数据110。

解码视频数据110包括至少一些纹理数据114。纹理数据的一部分是种子纹理114a，纹理数据的剩余部分是目标纹理114b。以高质量编码和传送种子纹理114a，从而以与解码视频数据110内的非纹理数据相同的方式对种子纹理114a进行解码。目标纹理114b是要在解码器侧合成的纹理数据110的一部分。

向纹理合成器116提供解码视频110。纹理合成器116合成目标纹理114b。从而，输出视频118内的纹理数据114包括解码区域120a(对应于种子纹理)和合成区域120b(对应于目标纹理)。

现在参照图2。图2示出了配置为使用辅助信息222执行针对视频编码的纹理合成的系统200的示例。

系统200包括编码器204和解码器208。编码器所位于的设备被称作编码器设备224。类似地，解码器所位于的设备被称作解码器设备226。

向编码器204和纹理分析器228均提供输入视频202。编码器204对输入视频202进行编码，并且将编码视频作为数据比特流230传送给向解码器208。

纹理分析器228识别输入视频202内的纹理数据。大多数纹理数据是不进行编码的；而是，只有小部分纹理数据(即，种子纹理)要进行编码和传送，剩余的纹理数据232由纹理合成器216进行合成。纹理分析器228检查输入视频202，以确定辅助信息222，辅助信息222被传送给纹理合成器216。辅助信息222辅助纹理数据232的合成。辅助信息222可以包括要合成的纹理数据的低质量版本。

解码器208对接收到的数据比特流230进行解码，并输出解码视频210。纹理合成器216产生合成的纹理数据232。将解码视频210和合成的纹理数据232加在一起以获得输出视频118。

现在参照图3。图3示出了根据本公开的可以由编码器设备实现的方法300的示例。

方法300可以关于包括纹理数据在内的输入视频来执行。方法300可以包括识别输入视频中要合成的一个或多个区域，即，识别包括纹理数据在内的输入视频区域。这些区域这里被称作合成区域。

可以将合成区域的一个或多个部分标记为304种子纹理。可以以高保真度向解码器传送306种子纹理。可以以低保真度向解码器传送合成区域的剩余部分。

现在参照图4。图4示出了根据本公开的可以由解码器设备实现的方法400的示例。

方法400可以包括以高保真度接收402种子纹理。方法400还可以包括以低保真度接收404合成区域的剩余部分。方法400还可以包括接收406对要合成的区域的标记。然后，可以基于接收到的高保真度种子纹理，并且还可以基于接收到的合成区域的低保真度部分，来合成408这些区域。

现在参照图5。图5示出了图4方法中合成纹理数据的区域的步骤的一种可能实现方式。

图5所示的方法500示出了可以关于要合成的特定数据区域(例如，块)来执行的步骤。该区域被称作当前合成区域。可以针对要合成的每个数据区域来重复图5所示的步骤。例如，可以逐块地执行纹理合成，并且可以针对每个块执行所示步骤。

方法500可以包括识别502种子纹理内与当前合成区域的低保真度版本(即，要合成的区域的低保真度版本)最佳匹配的区域。在种子纹理内识别的区域被称作最佳匹配区域。

作为一个特定实现，可以计算所提取的像素与种子数据内所有可能位置之间的平方误差。可以将具有最小误差的位置识别为最佳匹配。在第二特定实现中，计算平方误差。然而，首先识别具有小于阈值的平方误差的位置。然后，可以随机地从所识别的位置中选择最佳匹配。

可以将来自于最佳匹配区域的像素值拷贝504至当前合成区域。这为当前合成区域提供了像素值的初始估计。

可以从最佳匹配区域中导出506图像模型。在本公开中，考虑使用空时相关的特定情况作为模型。然而，其他模型也是合理的。例如，可以使用像素亮度直方图、变换系数直方图、以及变换域中的相关。

图像建模还能够基于来自于种子纹理的多个补丁。可以通过在搜索种子纹理时保持N个最佳候选来获得多个补丁，并且使用这些补丁使得可以探究补丁外观的变化(以相邻像素以条件)。在实际建模中，多个补丁可以简单地用作模型估计中的额外样本；或者备选地，多个补丁可能是统计建模的额外维度。在后一种情况下，可以将每个模型参数C_M(i)(从第i个补丁中提取的)视为所有可能图像模型的空间中的一个实例。随后，能够使用模型参数空间中那些实例的分布来提供更灵活的统计图像模型。稍后给出探究图像建模中多个补丁信息的一个具体示例，其使用补丁相关空间中的主分量分析。

方法500还可以包括从传送的比特流中提取508图像模型。例如，可以从传送的比特流中提取508量化参数、量化的等级值、以及可选地提取预测模式。可以使用现有技术视频编码系统的方法(例如，ITU和MPEG标准族)来传送所有信息。接收到的数据然后可以用于产生重构的图像帧，从而除了比特流中信息以外，还具有重构的像素值。

然后可以基于初始估计以及导出和提取的图像模型，来合成510当前合成区域。更具体地，可以通过找到像素值集合来合成所需图像区域，该像素值集合相对“接近”于合成补丁，而且还满足导出和提取的图像模型。在本讨论中，假定图像模型是二进制约束。即，合成结果要么满足图像模型，要么不满足图像模型。(不存在部分隶属关系。)这可以表达为：

\hat{p} = \arg \min_{p} {| | p - \overset{&OverBar;}{p} | |}^{2} s . t . Corr (p) = C_{M}, Q [T (p - b_{R}), q] = z - - - (1)

其中，

是合成结果，表示被选作种子纹理与局部邻域之间的匹配算法的结果的亮度值，Corr()是计算p的相关的函数，C_M是针对从种子纹理提取的相关的模型，Q[]是量化算子，T是变换矩阵，b_R是重构的图像帧，q是量化参数，以及z是零向量。

为了找到合成结果

本发明考虑迭代解：

{\hat{p}}_{k + 1} = P_{T} [P_{C} [{\hat{p}}_{k} + α ({\hat{p}}_{k} - \overset{&OverBar;}{p})]] - - - (2)

其中，P_T和P_C分别是施行在比特流中的辅助信息的投影算子以及从种子数据中导出的图像模型的投影算子，α是控制算法收敛性的参数，以及k是迭代标识符。该处理在以下条件时终止：

{| | {\hat{p}}_{k + 1} - {\hat{p}}_{k} | |}^{2} \leq T - - - (3)

其中，T是接近零的阈值。

变换系数的投影约束

辅助信息约束P_T使用比特流中的信息来限制合成纹理。这里本发明假定，编码器向解码器传送原始图像序列的低质量版本，并且解码器使用在合成操作期间使用该低质量版本。该低质量版本逐块地表示为：

b_R＝b_Pred+T^-1Q^-1[c，q] (4)

其中，b_R表示当前块的重构亮度值，b_Pred表示当前块的预测亮度值，T¹是逆变换运算，Q^-1是逆量化过程，以及c表示在比特流中传送的针对当前块的系数。项Q^-1不是严格的Q的逆，而是表示被称作逆量化的过程。

这样，目的是要限制针对纹理合成的解空间，以仅仅包含可以映射到相同b_R的信号。(换言之，该思想是，任何有效纹理在被提供给编码器时应当量化/重构至比特流中表达的相同的b_R)。该约束可以表示为：

P_T[x]＝x-T^-1x_C (5)

其中

x_{Ci} = \{\begin{matrix} \max (T {(x - b_{R})}_{i} - \frac{q}{2}, 0) & T {(x - b_{R})}_{i} > 0 \\ \max (T {(x - b_{R})}_{i} + \frac{q}{2}, 0) & T {(x - b_{R})}_{i} \leq 0 \end{matrix} - - - (6)

以及x_C是校正向量，x_C.i是x_C的第i个分量，以及T(x-b_R)是T(x-b_R)的第i个分量。应当注意，P_T[P_T[x]]等于P_T[x]。

相关模型的投影约束

信号模型约束P_C使用来自于种子纹理的信息，来限制合成结果。这里，本发明假定合成算法确定种子纹理中与正合成的当前块相对应的区域。对于本讨论的剩余部分，本发明假定该定位由三元组(x，y，t)确定，三元组(x，y，t)表示种子纹理上空间和时间位置。

为了应用约束，以找到种子中相邻像素之间的关系开始。这可以通过对以下方程进行求解来完成：

m_C＝(N^TN)^-1N^To (7)

其中，o是包含来自于种子纹理的像素值在内的向量，N是包含种子纹理的邻域在内的矩阵，以及m_C是用于给定邻域情况下的观察的最佳(w.r.t.l₂)线性预测。为了示意o和N的内容，考虑以下情况。假定在给定邻域大小为A×B×C的情况下，希望估计种子纹理中大小为X×Y×Z的块的线性预测。可以利用以下伪代码来构造矩阵：

z＝0

for(i＝x；i＜i+X；i++)

for(j＝y；j＜j+Y；j++)

for(k＝t；k＜t+Z；k++)

{

o(z)＝Seed(i，j，k)

1＝0；

for(a＝-A/2；a＜A/2；a++)

for(b＝-B/2；b＜B/2；b++)

for(c＝0；c＜C；c++)

{

if(a&&b&&c)

{

N(1，z)＝Seed(i+a，j+b，k-c)；

1++；

}

z++；

}

然后可以针对当前合成结果来重复相同过程。即，对于P_C[x]，可以计算x中位置的邻域。这表示为N_x，然后获得以下方程：

m_{x} = {(N_{x}^{T} N_{x})}^{- 1} N_{x}^{T} x - - - (8)

其中，m_x表示针对当前合成结果的最佳线性预测。然后利用以下过程更新x，使得其具有与m_C相同的线性预测：

x＝x+N_x(m_C-m_x) (9)

然而，对于大多数实际应用而言，邻域的构造不允许针对投影的直接解。这是由于以下事实：以上方程一次更新所有像素值，并且这些更新是基于更新之前的x的值。可能更好的求解是使用迭代方程：

x_k+1＝x_k+βN_x，k(m_c-m_x，k) (10)

其中，k表示迭代。

则约束的表达式为：

P_C[x]＝x_k+βN_x，k(m_C-m_x，k)s.t.m_C＝＝m_x，k+1 (11)

其中，β是控制收敛性的标量。有利地，在每个时间步骤k，仅更新x的一部分。

满足相关模型的备选解决方案是使用频域方法。这里，针对要合成的块计算自相关矩阵C。同样假定可以从可用于解码器的信息中导出的所需的自相关模型C_D。然后，对矩阵H求解，使得HC＝C_D。这里，矩阵H描述了将要合成的块映射至所需相关模型而所需的滤波器。

则得到滤波器f由所需的H描述。作为用于找到滤波器的一个方法，本发明在频域中表示H。然后，对频域值应用绝对值和平方根运算。最后，计算傅立叶逆变换以确定滤波器f的值。对于f可能存在多个解，这导致相同幅度响应。根据本公开可以使用用于选择f的值的其他方法。无论使用何种方法，通过f中的滤波器值对要合成的块进行滤波。

在算法的一些实现中，可以在滤波之后对要合成的块的自相关进行重新计算。当该块不满足所需的自相关时，重复上述过程。该过程继续，直到满足模型为止。

稀疏性约束

统计图像模型也可以基于稀疏性假定。不严格地讲，针对纹理图像的稀疏性假定意味着，只有少数“纹理图元”是活跃的。为此，本发明采用局部基础的线性正交变换，例如，块DCT和小波。变换域中的稀疏表示将提供以下约束：N个变换系数中大约M个变换系数具有较小幅度。索引集合I(i)指定N个系数中哪些较小。或者，本发明还可以将稀疏性约束扩展为直方图不变量约束，该直方图不变量约束结合了变换系数幅度的分布。

相应的投影算法可以看起来与以下有些类似。首先，可以通过在变换域中应用阈值化来从种子补丁获知直方图H^*。然后，可以使用公知的直方图均衡技术，将当前信号估计的直方图H(T(x_k))与H^*相匹配。该操作可以表示为H^*(T(x_k))。可以通过应用诸如移动DCT等过完备变换，来实现附加的平滑。假定T₁～T_p表示具有不同移动的DCT变换，可以使用简单平均或加权平均，来组合

当然，除了诸如补丁自相关等其他模型以外，稀疏性约束还能够用作投影过程中的附加模型。

边界考虑

恼人的边界伪像可能由基于逐块的纹理合成器产生。这样的不连续会出现在两种类型的块边界上，即，补丁边界和施行辅助信息约束时的变换块边界。

关于补丁边界，这里，补丁是用于种子纹理搜索的单元。由于在大多数情况下，在搜索种子纹理时对于相邻区域不存在完美匹配，因此会在修补的结果中出现不连续。

关于施行辅助信息约束时的变换块边界，由于在无交叠块上指定辅助信息，因此，针对每个块单独施行辅助信息约束会不可避免地引起块状伪像。

为了修正第一种类型的不连续，已经提出了用于混合交叠补丁的多种方法。在视频编码设计中，去块滤波器通过对尖锐边缘进行平滑来提高视觉质量和预测性能，其中尖锐边缘是在使用块编码技术时在块之间形成的。利用这种现有方法的一个问题是，不能保证最终结果满足辅助信息约束或满足本发明假定的图像模型。因此，期望构建边界平滑性约束，作为纹理合成器设计的完整部分，从而不需要后处理步骤来平滑不连续。

处理边界伪像的一种方法是在投影序列中添加边界平滑施行步骤：P_S[P_C[P_T[x]]]。这里，P_S[]步骤通过执行补丁混合以及去块，来处理两种类型的块边界。使用重复的投影，整体合成器旨在找到满足所涉及的所有约束(包括边界平滑性)的解。

现在提供对以上算法的附加的置换和增强的讨论。

针对限幅的投影约束

信号模型约束P_C使用来自于种子纹理的信息来限制合成结果。这里，本发明引入针对种子纹理的附加模型。即，施行纹理的动态范围。在一个示例中，本发明首先测量种子纹理中的最大和最小亮度值。然后，将合成结果限制到不超过该范围。这可以通过将合成结果中的任何亮度值映射至最小或最大值中更接近的那个值来施行。

作为第二示例，本发明不测量种子纹理中的最大和最小亮度值。而是确定合成结果的比特深度。对落在该范围之外的亮度值进行限幅，以使其处于允许的范围内。具体地，如果合成结果是8比特图像，则小于0或大于255的值是不允许的。在该示例中，为任何大于255的值分配值255。类似地，为任何小于0的值分配值0。

模型参数的提取

在先前讨论中，本发明假定将种子纹理中的唯一位置识别为最佳匹配。然后，从该区域中提取针对种子纹理的模型。这里，本发明对该构思进行广义化，考虑将种子纹理中的多个位置识别为良好匹配。此外，可以利用置信度度量来表示匹配的“良好性”。

在这种更一般的情况下，针对种子的相关模型扩展如下：

m_C＝(N^TW^TWN)^-1N^TW^TWo (12)

其中，W是对角矩阵，元素W(k，k)表示向量o中位置k处的置信度。

因果性

针对给定块的补丁

的选择需要与块的空间和时间邻域有关的信息。在该扩展中，识别补丁

并随后将该补丁细化，以产生然后，在构造后续块的邻域时使用补丁以找到针对那些块的

不幸地，当施行信号建模约束时，该因果处理导致折衷。具体地，模型可以针对因果像素和非因果像素来描述关系。(例如，相关约束可以要求像素值是平滑的，应当在当前块的因果和非因果边界处均施行该约束)。当上述为真实情况时，期望使用先前段落中描述的因果方法来初始地找到针对每个块的

的值。尽管遵照这些计算，但是，可以利用更全局的操作，来细化所有位置处的

值。在这种全局操作中，本发明同时对帧中的所有进行求解。这可以通过同时针对所有块使用方程(1)中的迭代来完成。即，使用所有块处的

值，计算每个块位置的

对信号模型的信号通知

可以不从种子纹理中显式地导出信号模型。而是，可以在比特流中传送信号模型。这种传送可以是显式的，原因在于可以直接从编码器向解码器传送所需的模型信息。备选地，信号通知可以是对解码器处导出的模型的细化。在第二种情况下，纹理合成操作仍检查种子纹理并提取模型信息。但是，通过在比特流中传送的信息来细化模型信息。

非因果处理

在大多数以上讨论中，纹理合成算法以因果方式对相邻因果块进行操作。这是由于需要用于从种子纹理中选择补丁的邻域信息。尽管作为算法的广义化，上述方法也可以在没有因果限制的情况下实现。即，可以对于图像帧/序列中的每个块，识别补丁。此外，也可以识别出信号模型和辅助信息。纹理合成操作同时合成图像帧/序列中的所有相邻块。注意，这可能需要迭代过程来解决图像块和/或帧之间的依赖性。

作为非因果处理的特定实现，可以实现因果纹理合成，以允许补丁的识别。然后，可以以非因果方式来处理图像帧(或序列)。

现在参照图6。图6示出了图4方法中合成纹理数据区域的步骤的另一种可能实现方式。

图6所示的方法600示出了可以关于要合成的具体数据区域而执行的步骤，该具体数据区域被称作当前合成区域。可以针对要合成的每个数据区域来重复图6所示的步骤。

方法600可以包括识别602种子纹理内与当前合成区域的低保真度版本(即，要合成的区域的低保真度版本)最佳匹配的区域。在种子纹理内识别的区域被称作最佳匹配区域。

可以在最佳匹配区域与当前合成区域之间定义604纹理相似性度量。然后可以使用迭代最优化来最小化606纹理相似性能量。

在图6的方法600中，可以将纹理相似性定义为合成图像的给定块与种子纹理中其最佳匹配块之间的距离(如图7所示，将在以下进行讨论)。然后可以通过对所有这些块失真值进行求和，来获得总纹理能量。可以以如方程13所示的交叠方式来从合成的纹理中提取这些块。

E_{syn} = \underset{p}{Σ} {| | {syn}_{p} - {seed}_{p} | |}^{2} - - - (13)

其中，下标p指示交叠网格像素p周围的N×N块，即邻域块syn_p之间具有交叠区域。例如，如果合成的纹理与种子纹理相同，则纹理能量为零。如果简单修补两个种子纹理，则包括补丁边界在内的一些块将产生较大失真。

最后，最优输出是具有如方程13中的最小纹理能量值的一个输出。然而，重要的是，找到最小化纹理能量的最优解。一种方法是使用基于多分辨率方法的类似EM的迭代最优化方法，其中，迭代地定义纹理的初始估计，以减小纹理能量。具体而言，M步骤通过从种子中找到最佳匹配图像块，来基于固定的合成图像，最小化纹理能量，并且随后的E步骤通过对方程14的系统方程进行求解，来基于一组固定种子块，最小化纹理能量。

\arg \min_{syn} \underset{p}{Σ} {| | {syn}_{p} - {seed}_{p} | |}^{2} - - - (14)

此外，可以使用多分辨率和多标度形式的纹理合成方法。可以合成粗略级别图像处的纹理，可以利用上采样来对在精细级别图像处的当前阶段的输出纹理进行细化。这样的多分辨率方法能够保留全局纹理结构，并防止最优化过程容易地落入局部最小值中。与多分辨率方法类似，还提供了多标度形式合成，其中，该方法从大块到小块地改变块大小。这样的方法有利地保持全局结构，同时合成精细细节。

现在参照图7。在图7中，示出了合成的纹理714c以及种子纹理714a。如上所述，合成纹理数据可以包括识别种子纹理714a内与当前合成区域720b的低保真度版本(即，要合成区域的低保真度版本)最佳匹配的区域720c。

基于粗标度版本图像的视频纹理合成

基于上述基于范例的方法，本发明将算法扩展至3D视频域。事实上，可以通过从3D立方体而不是2D图像块方面定义方程12中说明的纹理能量，来直接明了地进行扩展。此外，如上所述，当合成新纹理时应当考虑附加的信息。换言之，当搜索最佳匹配立方体时应当包括附加的引导信息。(这里术语“引导信息”和“辅助信息”可以相互交换使用)这可以用方程15来表示。其中，c_p是交叠网格像素p周围的立方体，‖syn_p-seed_p‖²是指示最佳匹配区域与当前合成区域之间的差异的纹理相似性度量，函数d指示辅助信息度量，辅助信息度量指示合成的图像与粗标度图像之间的差异，可以根据粗标度图像的类型来确定这种差异。

Syn = \arg \min_{syn} \underset{p}{Σ} [{| | {syn}_{p} - {seed}_{p} | |}^{2} + λ . d ({sym}_{p}, c_{p})] - - - (15)

当从以上方程14找到最优输出时，显而易见地，合成的纹理很大程度上依赖于λ值和引导信息的量。例如，如果设置λ＝0，则在没有任何引导信息的情况下，总体框架与合成的新纹理相同。另一方面，较大的λ值使得引导信息对总体纹理形状产生严重影响。

为了确定图像的粗标度版本，所提出的方法使用标准编码器/解码器，并使用重构的图像作为粗标度引导信息。作为不同观点，可以解释为基于先前解码的高质量视频(种子视频)对低质量视频(粗标度目标视频)进行重新合成。对用于粗标度数据提取的当前标准编码算法的选择在许多方面是有用的。首先，使得更容易将当前算法嵌入至当前标准中，而无需系统的任何较大改变，并且不需任何附加模块来产生引导信息。同样，可以通过简单改变量化参数(QP)值来容易地控制引导信息的质量。

由于通过当前编码算法的块变换和量化来获得粗标度图像，因此应当仔细确定辅助信息度量d。例如，简单的欧式距离可能不是有效的，特别在使用较大QP值时。本发明通过在变换域中投影来找到最接近的点，并且假定是如图8所示的投影点与当前点之间的距离。

区域自适应量的引导信息

在当前框架中，可以将低质量图像视为引导信息，以控制合成的输出纹理的大体形状。因此，引导信息的重要性应当是局部地不同的。换言之，在没有任何引导信息的情况下，能够很好地合成纹理的一些部分，这是由于这些纹理的邻域纹理也控制当前纹理形状，但是，一些区域却不能被很好地合成。在这种情况下，所提出的算法针对纹理的不同区域使用不同量的引导信息。

因此，问题在于如何确定引导信息的量，即，应当在编码器侧向不同区域分配多少信息，并且编码器与其附加辅助信息一起发送区域自适应引导信息，来识别哪个区域使用哪个QP值。由于应当在编码器侧确定引导信息的量，因此值得注意的是，种子和目标纹理均是已知的，从而本发明提出迭代算法来确定引导信息的量。

图9示出了用于确定引导信息的量的方法900。根据所示的方法900，以非常少的引导信息(最高QP)开始902。然后，针对每个立方体从种子纹理中找到904最佳匹配立方体(M步骤)。根据最佳匹配立方体的集合来计算906合成的纹理(E步骤)。然后逐立方体地计算908误差值，并且找到910最大误差。然后，可以为最大误差立方体提供912附加引导信息。可以重复步骤904至912，直到满足预定比特预算为止，或者直到没有进一步的明显改善为止。在图10中以图形方式示出了图9的方法900。

搜索算法的复杂性降低

为了降低计算复杂性，本发明尽可能多地利用当前框架的独特属性，这些独特属性是：(1)所有种子(参考)图像是固定的并可用于所有目标图像，(2)种子数据是图像(或视频)，从而在邻近立方体之间具有较强的空间和时间相关，(3)目标块的块变换通过基于块的编码/解码而可用，以及(4)当前框架基于多分辨率方法。为了最大化上述属性，利用以下来实现复杂性降低方法：(1)无交叠至交叠的网格搜索，(2)使用空间和多分辨率关系减小搜索空间，以及(3)使用变换域系数来减少计算。以下描述详细内容。

首先，由于当前算法在交叠网格空间中搜索最佳匹配立方体，这比仅搜索无交叠网格空间需要更多的计算量。思想在于，如果两个邻近立方体包括种子的相同部分，则内部立方体简单采用该相同的种子部分，而无需搜索。其次，本发明基本上使用多分辨率方法，即，首先在粗分辨率下搜索最佳匹配立方体，随后在精细分辨率下对该立方体进行细化。由于粗分辨率空间的大小远小于更精细的分辨率空间的大小，因此，可以节省显著的计算量。例如，当在粗分辨率级别下选择网格(i，j)时，如图11所示，在精细分辨率级别下探究该网格的9个邻域值，即，(2i-1，2j-1)至(2i+1，2j+1)。

作为空间关系，本发明还基于预先已找到的内容来限制搜索空间。例如，当搜索如图12所示的交叠网格(i，j)时，本发明使用其最佳匹配索引信息的邻域(已经找到的)集合，来限制种子空间。

最后，本发明在计算纹理距离时使用块变换域。因此，本发明在计算距离时仅考虑几个最大幅度系数，以降低复杂性。这类似于一般的主分量分析(PCA)方法，并且假定块变换允许提取图像中的几个主分量。这种通过维度降低的近似不会使输出质量劣化很多。

现在参照图13。图13示出了根据本公开的可以包括在解码器设备1326中的一些组件，解码器设备1326被配置用于利用辅助信息的针对视频编码的纹理合成。

解码器设备1326包括处理器1334。处理器1334可以是通用的单或多芯片微处理器(例如，ARM)、专用微处理器(例如，数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1334可以被称作中央处理单元(CPU)。尽管在图13的解码器设备1326中仅示出了单个微处理器1334，但是在备选配置中，能够使用处理器的组合(例如，ARM和DSP)。

解码器设备1326还包括存储器1336。存储器1336可以是能够存储电子信息的任何电子组件。存储器1336可以具体实现为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光存储介质、RAM中的闪速存储器件、与处理器包括在一起的板上存储器、EPROM存储器、EEPROM存储器、寄存器等，并包括上述的组合。

数据1338和指令1340可以存储在存储器1336中。指令1340由处理器1334可执行，以实现各种功能。执行指令1340可以包括使用在存储器1336中存储的数据1338。

存储器1336中的数据1338的一些示例包括：种子纹理1314a、合成区域的低保真度部分1342、对要合成的区域的标记1344、合成区域1320b等。与实现这里描述的技术有关的其他类型的数据1338也可以包括在存储器1336中。

存储器1336中的指令1340的一些示例包括：用于以高保真度接收种子纹理1314a的指令1346、用于以低保真度接收合成区域的剩余部分1342的指令1348、用于接收对要合成的区域的标记1344的指令1350、以及用于基于高保真度种子纹理1314a和合成区域的低保真度部分1342来合成标记的区域的指令1352。与实现这里描述的技术有关的其他指令1340也可以包括在存储器1336中。

解码器设备1326也可以包括发射机1354和接收机1356，以允许解码器设备1326与远程位置之间的信号发送和接收。发射机1354和接收机1356可以共同被称作收发机1358。天线1360可以电耦合至收发机1358。解码器设备1326还可以包括多个发射机、多个接收机、多个收发机和/或多个天线(未示出)。

解码器设备1326还可以包括用于与其他设备进行通信的一个或多个通信端口1326。与其他设备的通信可以直接和/或经由计算机网络而发生。通信端口1362的一些示例包括以太网端口、通用串行总线(USB)端口、并行端口、串行端口等。

解码器设备1326还可以包括一个或多个输入设备1364。输入设备1364的示例包括键盘、鼠标、遥控器、麦克风、按钮、操纵杆、轨迹球、触摸板、光笔等。

解码器设备1326还可以包括显示器1366。也可以提供显示控制器1368，用于将存储在存储器1336中的数据1338转换成在显示器1366上显示的文本、图形、和/或运动图像(如果适当)。

解码器设备1326的各种组件可以通过一个或多个总线耦合在一起，所述一个或多个总线可以包括电源总线、控制信号总线、状态信号总线、数据总线等。为了清楚起见，在图13中示出了各种总线作为总线系统1372。

现在参照图14。图14示出了根据本公开的可以包括在编码器设备1424中的特定组件，该编码器设备1424被配置为对利用辅助信息的针对视频编码的纹理合成进行辅助。

编码器设备1424包括与上述结合解码器设备1326描述的那些组件类似的组件。具体地，编码器设备1424包括处理器1434、存储器1436、存储在存储器1436中的数据1438和指令1440、发射机1454和接收机1456(可以共同被称作收发机1458)、天线1460、通信端口1462、输入设备1464、显示器1466、显示控制器1468、输出设备1470等。编码器设备1424的各个组件可以通过总线系统1472耦合在一起。

存储器1436中的数据1438的一些示例包括：输入视频1402、种子纹理1414a、合成区域的低保真度部分1442、对要合成的区域的标记1444等。与实现这里描述的技术有关的其他类型的数据1438也可以包括在存储器1436中。

存储器1436中的指令1440的一些示例包括：用于识别输入视频1402中要合成的区域的指令1474、用于将合成区域的一部分1442标记为种子纹理1414a的指令1476、用于以高保真度向解码器设备传输的种子纹理1414a的指令1478、以及用于以低保真度向解码器设备传输合成区域的剩余部分1442的指令1480。与实现这里描述的技术有关的其他指令1440也可以包括在存储器1436中。

在以上描述中，有时结合各种术语使用了参考数字。其中，术语与参考数字结合使用，这意味着指代在一幅或多幅图中所示的特定元素。其中，在没有参考数字的情况下适于术语，这意味着一般指代该术语，而不限制于任何具体的图。例如，对“解码器设备1326”的引用指代了图13中所示的特定电子设备。然而，没有参考数字的“解码器设备”的使用指代适合于使用该术语的上下文的任何解码器设备，并不限于图中所示的任何具体解码器设备。

如这里所使用的，术语“确定”包括多种类型的动作，从而“确定”可以包括：推算、计算、处理、导出、调查、查找(例如，在表、数据库或其他数据结构中的查找)、判定等。同样，“确定”可以包括：接收(例如，接收信息)、访问(例如，访问存储器中的数据)等。同样，“确定”可以包括：解决、选择、选定、建立等。

短语“基于”并不意味着“仅基于”，除非另外明确指定。换言之，短语“基于”描述“仅基于”和“至少基于”。

术语“处理器”应当广义解释为包括通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。在一些情况下，“处理器”可以指代专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑门阵列(FPGA)等。术语“处理器”可以指代处理器件的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核结合的一个或多个微处理器、或任何其他这样的配置。

术语“存储器”应当广义解释为包括能够存储电子信息的任何电子组件。术语存储器可以指代各种类型的处理器可读介质，例如，随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦可编程只读存储器(EPROM)、电可擦PROM(EEPROM)、闪速存储器、磁或光数据存储器、寄存器等。如果处理器可以从存储器读取信息和/或向存储器写信息，则存储器被称为与处理器进行电子通信。存储器可以与处理器集成并且仍可以被称为与处理器进行电子通信。

术语“指令”和“代码”应当广义解释为包括任何类型的计算机可读语句、例如，术语“指令”和“代码”可以指代一个或多个程序、例程、子例程、函数、过程等。“指令”和“代码”可以包括单个计算机可读语句或多个计算机可读语句。

这里所描述的功能可以以硬件、软件、固件或其任何组合来实现。如果以软件来实现，则功能可以作为一个或多个指令存储在计算机可读存储介质上。术语“计算机可读存储介质”指代可以由计算机访问的任何可用存储介质。作为示例，并不作为限制，计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储器件、或者可以用于承载或存储指令或数据结构形式的所需程序代码以及可以由计算机访问的任何其他介质。这里所使用的磁盘或盘包括压缩盘(CD)、激光盘、光盘、数字万能盘(DVD)、软盘以及Blu-ray

盘，其中磁盘通常以磁方式再现数据，而盘利用激光以光方式再现数据。

还可以通过传输介质来传输软件或指令。例如，如果使用同轴电缆、光缆、双绞线、数字订户线路(DSL)或无线技术(例如，红外、无线电以及微波)来从网站、服务器或其他远程源传输软件，则同轴电缆、光缆、双绞线、DSL或无线技术(例如，红外、无线电以及微波)包括在传输介质的定义中。

这里所公开的方法包括用于实现所描述方法的一个或多个步骤或动作。在不背离权利要求范围的前提下，方法步骤和/或动作可以彼此互换。换言之，除非步骤或动作的特定顺序是所描述的方法正确操作的需要，否则在不背离权利要求的范围的前提下，可以对特定步骤和/或动作的顺序和/或使用进行修改。

诸如执行、处理、进行、运行、确定、通知、发送、接收、存储、请求等功能和/或其他功能可以包括使用web服务执行功能。web服务可以包括软件系统，软件系统被设计为支持通过计算机网络(例如，互联网)的可相互操作的机器与机器的交互。web服务可以包括可以用于在应用程序或系统之间交换数据的各种协议和标准。例如，web服务可以包括消息收发规范、安全规范、可靠消息收发规范、事务处理规范、元数据规范、XML规范、管理规范、和/或商业过程规范。可以使用例如SOAP、WSDL、XML的常用规范和/或其他规范。

应理解，权利要求不限于以上示出的精确配置和组件。在不背离权利要求的范围的前提下，可以对系统、方法和设备的布置、操作和细节进行各种修改、改变和变化。

Claims

1.一种利用辅助信息的针对视频编码的纹理合成方法，所述方法由解码器设备来实现，所述方法包括：

以高保真度接收种子纹理；

以低保真度接收合成区域的剩余部分；

接收对要合成的区域的标记；以及

基于高保真度种子纹理以及合成区域的低保真度部分来合成所标记的区域。

2.根据权利要求1所述的方法，其中，合成所标记的区域包括：

识别种子纹理内的至少一个最佳匹配区域；

获得初始估计；

从所述至少一个最佳匹配区域中导出图像模型；

从接收到的比特流中提取附加的图像模型；以及

基于初始估计以及导出和提取的图像模型来合成当前合成区域。

3.根据权利要求2所述的方法，其中，获得初始估计包括：将来自于最佳匹配区域的像素值拷贝至当前合成区域。

4.根据权利要求2所述的方法，其中，识别多个最佳匹配区域，所述方法还包括：使用所述多个最佳匹配区域的加权组合来合成所标记的区域。

5.根据权利要求2所述的方法，其中，所传送的图像模型包括量化参数、量化的等级值、以及预测模式中的至少一个。

6.根据权利要求2所述的方法，其中，合成当前合成区域是通过迭代地投影到以下图像模型来执行的：

从接收到的比特流中提取的图像模型；以及

从种子纹理中提取的图像模型。

7.根据权利要求6所述的方法，其中，从种子纹理中提取的图像模型是自相关的，以及用于迭代投影动作的投影算子是至预期相关模型的线性映射。

8.根据权利要求6所述的方法，其中，从种子纹理中提取的图像模型在变换域中是稀疏的，以及用于迭代投影动作的投影算子是用于达到所需的稀疏性的阈值化。

9.根据权利要求2所述的方法，还包括：执行补丁混合以及去块，以施行边界平滑。

10.根据权利要求2所述的方法，其中，所导出的图像模型以及所传送的不同类型的图像模型包括以下中的至少一个：

基于空时相关的模型；

基于像素亮度直方图的模型；

基于变换系数直方图的模型；以及

基于变换域中相关的模型。

11.根据权利要求1所述的方法，其中，合成所标记的区域包括：

识别种子纹理内的至少一个最佳匹配区域；

定义纹理相似性度量，所述纹理相似性度量指示所述至少一个最佳匹配区域与当前合成区域之间的差异；

定义辅助信息度量，所述辅助信息度量指示辅助信息与当前合成区域之间的差异；以及

联合地最小化纹理相似性度量与辅助信息度量的组合。

12.根据权利要求11所述的方法，其中，通过在变换域中投影找到最接近点，来确定辅助信息度量。

13.根据权利要求11所述的方法，其中，执行逐块处理，以及利用针对(i)相邻因果块或(ii)所有相邻块的合成的结果的知识，来执行合成特定块的动作。

14.根据权利要求11所述的方法，其中，合成所标记的区域的动作包括：相对于所标记的区域，执行因果纹理合成，然后以非因果方式来处理所标记的区域。

15.根据权利要求1所述的方法，还包括：通过执行以下中的至少一个来降低计算复杂性：

无交叠网格搜索；

使用空间和多分辨率关系来减小搜索空间；以及

在计算距离时使用数目减少的变换系数。

16.一种解码器设备，被配置用于利用辅助信息的针对视频编码的纹理合成，包括：

处理器；

与所述处理器进行电子通信的存储器；

存储在存储器中的指令，所述指令可执行用于：

以高保真度接收种子纹理；

以低保真度接收合成区域的剩余部分；

接收对要合成的区域的标记；以及

基于高保真度种子纹理以及合成区域的低保真度部分，来合成所标记的区域。

17.根据权利要求16所述的解码器设备，其中，合成所标记的区域包括：

识别种子纹理内的至少一个最佳匹配区域；

获得初始估计；

从所述至少一个最佳匹配区域中导出图像模型；

从接收到的比特流中提取附加的图像模型；以及

18.根据权利要求17所述的解码器设备，其中，合成当前合成区域是通过迭代地投影到以下图像模型来执行的：

从接收到的比特流中提取的图像模型；以及

从种子纹理中提取的图像模型。

19.根据权利要求16所述的解码器设备，其中，合成所标记的区域包括：

识别种子纹理内的至少一个最佳匹配区域；

联合地最小化纹理相似性度量与辅助信息度量的组合

20.一种编码器设备，被配置辅助利用辅助信息的针对视频编码的纹理合成，包括：

处理器；

与所述处理器进行电子通信的存储器；

存储在存储器中的指令，所述指令可执行用于：

识别要合成的输入视频区域；

将合成区域的一部分标记为种子纹理；

以高保真度将种子纹理传送至解码器设备；以及

以低保真度将合成区域的剩余部分传送至解码器设备。

21.一种在计算机上执行的计算机程序，所述计算机执行以下步骤：

以高保真度接收种子纹理；

以低保真度接收合成区域的剩余部分；

接收对要合成的区域的标记；以及

22.一种其上存储有根据权利要求21所述的计算机程序的计算机可读存储介质。

23.一种对利用辅助信息的针对视频编码的纹理合成进行辅助的方法，所述方法由编码器设备来实现，所述方法包括：

识别要合成的输入视频区域；

将合成区域的一部分标记为种子纹理；

以高保真度将种子纹理传送至解码器设备；

以低保真度将合成区域的剩余部分传送至解码器设备。

24.根据权利要求23所述的方法，还包括：向解码器设备发送针对不同纹理区域的不同量的辅助信息。