CN113727141A

CN113727141A - 视频帧的插值装置以及方法

Info

Publication number: CN113727141A
Application number: CN202010431003.6A
Authority: CN
Inventors: 温思寒; 周静; 谭志明
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2021-11-30
Anticipated expiration: 2040-05-20
Also published as: JP2021184594A; CN113727141B; US20210368131A1; US11375152B2

Abstract

本申请实施例提供一种视频帧的插值装置以及方法。所述方法包括：计算第一帧和第二帧之间的双向光流；根据所述第一帧和所述第二帧进行核和权重估计；其中，使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；根据所述双向光流、所述权重系数和所述自适应局部卷积核，使用自适应变换层对所述第一帧和所述第二帧进行变换以生成变换帧；以及对所述第一帧和所述第二帧、所述变换帧进行帧合成，以生成所述第一帧和所述第二帧之间的插值帧。

Description

视频帧的插值装置以及方法

技术领域

本申请实施例涉及视频处理技术领域。

背景技术

视频帧的插值是计算机视觉中视频处理领域的主要问题之一，可以合成连续帧中的插值帧(也可称为中间帧)。视频帧的插值可以应用于许多应用，例如视频压缩，慢动作生成、帧频(frame rate)上转换(up-conversion)等。

在视频帧的插值中，可以在输入帧上找到用于估计每个像素值的参考位置，然后通过参考像素值得到输出的插值帧的像素值。基于深度学习的视频帧的插值可以包括核(kernel)估计方法，并自适应地为每个像素估计核，通过卷积操作来合成插值帧。此外还可以包括流估计方法，针对每个输出像素估计指向参考位置的流向量。

目前，随着深度卷积神经网络的发展，该领域的许多方法都取得了长足的进步。例如，目前已经有参考文献提出计算双向光流，并基于自适应变换层(adaptive warpinglayer)生成变换帧(也可称为扭曲帧，warped frame)，然后进行帧合成以获得插值帧。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

但是，发明人发现，由于较大的运动和遮挡等问题，光流的准确性仍然难以保证，要生成高质量的插值帧仍然很困难。

针对上述技术问题的至少之一，本申请实施例提供一种视频帧的插值装置以及方法，能够进一步提高峰值信噪比(PSNR，Peak Signal-to-Noise Ratio)，生成高质量的插值帧。

根据本申请实施例的一个方面，提供一种视频帧的插值装置，包括：

光流计算单元，其计算第一帧和第二帧之间的双向光流；

估计单元，其根据所述第一帧和所述第二帧进行核和权重估计；其中，使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；

变换单元，其根据所述双向光流、所述权重系数和所述自适应局部卷积核，使用自适应变换层对所述第一帧和所述第二帧进行变换以生成变换帧；

合成单元，其对所述第一帧和所述第二帧、所述变换帧进行帧合成，以生成所述第一帧和所述第二帧之间的插值帧。

根据本申请实施例的另一个方面，提供一种视频帧的插值方法，包括：

计算第一帧和第二帧之间的双向光流；

根据所述第一帧和所述第二帧进行核和权重估计；其中，使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；

根据所述双向光流、所述权重系数和所述自适应局部卷积核，使用自适应变换层对所述第一帧和所述第二帧进行变换以生成变换帧；以及

对所述第一帧和所述第二帧、所述变换帧进行帧合成，以生成所述第一帧和所述第二帧之间的插值帧。

本申请实施例的有益效果之一在于：根据第一帧和第二帧进行核和权重估计；其中，使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；由此，能够充分利用来自相邻像素的信息，能够进一步提高PSNR，从而生成高质量的插值帧。

参照后文的说明和附图，详细公开了本申请实施例的特定实施方式，指明了本申请实施例的原理可以被采用的方式。应该理解，本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本申请的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本申请实施例的进一步的理解，其构成了说明书的一部分，用于例示本申请的实施方式，并与文字描述一起来阐释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请实施例的视频帧的插值方法的一示意图；

图2是本申请实施例的核和权重估计的一示例图；

图3是本申请实施例的视频帧的插值方法的另一示意图；

图4是本申请实施例的视频帧的插值的一框架图；

图5是本申请实施例的帧合成的网络结构示意图；

图6是本申请实施例的视频帧的插值装置的一示意图；

图7是本申请实施例的电子设备的示意图。

具体实施方式

参照附图，通过下面的说明书，本申请实施例的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本申请的特定实施方式，其表明了其中可以采用本申请实施例的原则的部分实施方式，应了解的是，本申请不限于所描述的实施方式，相反，本申请实施例包括落入所附权利要求的范围内的全部修改、变型以及等同物。

在本申请实施例中，术语“第一”、“第二”等用于对不同元素从称谓上进行区分，但并不表示这些元素的空间排列或时间顺序等，这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本申请实施例中，单数形式“一”、“该”等包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“所述”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”，术语“基于”应理解为“至少部分基于……”，除非上下文另外明确指出。

第一方面的实施例

本申请实施例提供一种视频帧的插值方法，图1是本申请实施例的视频帧的插值方法的一示意图，如图1所示，该方法包括：

101，计算第一帧和第二帧之间的双向光流；

102，根据第一帧和第二帧进行核(kernel)和权重(weight)估计；其中，使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；

103，根据双向光流、权重系数和自适应局部卷积核，使用自适应变换层对第一帧和第二帧进行变换以生成变换帧；

104，对第一帧和第二帧、变换帧进行帧合成，以生成第一帧和第二帧之间的插值帧。

值得注意的是，以上附图1仅示意性地对本申请实施例进行了说明，但本申请不限于此。例如可以适当地调整各个操作之间的执行顺序，此外还可以增加其他的一些操作或者减少其中的某些操作。本领域的技术人员可以根据上述内容进行适当地变型，而不仅限于上述附图1的记载。

在本申请实施例中，可以将插值帧表示为帧t，将第一帧和第二帧分别表示为帧t-1和帧t+1。可以使用PWC-Net来估计两个输入帧(帧t-1和帧t+1)之间的双向光流F_t-1→t+1和F_t+1→t-1。PWC-Net利用了多尺度特征的金字塔模型，在标准基准测试中表现良好，同时在计算效率上也很高。但本申请不限于此，还可以采用其他方法计算双向光流，具体如何计算可以参考相关技术。

在本申请实施例中，可以基于U-Net架构，根据第一帧和第二帧进行核和权重估计。这里，核(kernel)例如是指将被分配给图像中的每个像素的自适应局部卷积核，权重(weight)例如代表像素到参考图像中的参考位置的距离。关于U-Net架构的具体内容可以参考相关技术。

在一些实施例中，对第一帧和第二帧进行特征提取并进行多次下采样以获得不同维度的特征；对所获得的最高维度的特征进行多次上采样以获得处理后的特征；对处理后的特征使用第一卷积层并使用修正线性单元(relu，rectified linear unit)函数以获得自适应局部卷积核；以及对处理后的特征使用第二卷积层并使用sigmoid函数以获得权重系数。关于卷积操作、卷积层、relu函数和sigmoid函数可以参考相关技术，具体内容不再赘述。

图2是本申请实施例的核和权重估计的一示例图。如图2所示，可以将第一帧和第二帧作为输入来进行特征提取并进行多次下采样，以获得不同维度的下采样特征(如图2中左边的201至206等所示)。例如，不同的维度包括：16×3×3、32×3×3/2、64×3×3/2、128×3×3/2、256×3×3/2、512×3×3/2、512×3×3等。

如图2所示，可以对所获得的最高维度的特征(例如由207所示的Conv 512×3×3,relu表征)进行多次上采样(如图2中右边的208至212等所示)，以获得处理后的特征(例如由212所示的Conv 16×3×3/2,relu表征)。

如图2所示，对处理后的特征(例如由212所示的Conv 16×3×3/2,relu表征)使用第一卷积层并使用relu函数(例如由213所示的Conv 16×3×3,relu表征)以获得自适应局部卷积核；以及对处理后的特征(例如由212所示的Conv 16×3×3/2,relu表征)使用第二卷积层并使用sigmoid函数(例如由214所示的Conv 2×3×3,sigmoid表征)以获得权重系数。

因此，可以使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；由此，能够充分利用来自相邻像素的信息，能够进一步提高PSNR，生成高质量的插值帧。

在一些实施例中，由多次下采样获得不同维度的下采样特征，由多次上采样获得不同维度的上采样特征。可以将第一维度的下采样特征与相同维度的上采样特征进行求和，并作为卷积层的输入以获得第二维度的上采样特征。

例如，如图2所示，可以将256×3×3/2的下采样特征(例如由205所示的Conv256×3×3/2,relu表征)与相同维度的上采样特征(例如由208所示的Conv 256×3×3/2,relu表征)进行求和，作为一个卷积层的输入以获得128×3×3/2的上采样特征(例如由209所示的Conv 128×3×3/2,relu表征)。

如图2所示，可以将128×3×3/2的下采样特征(例如由204所示的Conv 128×3×3/2,relu表征)与相同维度的上采样特征(例如由209所示的Conv 128×3×3/2,relu表征)进行求和，作为另一个卷积层的输入以获得64×3×3/2的上采样特征(例如由210所示的Conv 64×3×3/2,relu表征)。

如图2所示，可以将64×3×3/2的下采样特征(例如由203所示的Conv 64×3×3/2,relu表征)与相同维度的上采样特征(例如由210所示的Conv 64×3×3/2,relu表征)进行求和，作为另一个卷积层的输入以获得32×3×3/2的上采样特征(例如由211所示的Conv32×3×3/2,relu表征)。

如图2所示，可以将32×3×3/2的下采样特征(例如由202所示的Conv 32×3×3/2,relu表征)与相同维度的上采样特征(例如由211所示的Conv 32×3×3/2,relu表征)进行求和，作为又一个卷积层的输入以获得16×3×3/2的上采样特征(例如由212所示的Conv16×3×3/2,relu表征)。

由此，本申请实施例对相同维度的特征求和，而不是将下采样特征连结(concat)到上采样特征，这样能够保留来自上一层的信息，有利于提高图像的质量，并且能够进一步减少网络参数。

在一些实施例中，还可以根据计算出的双向光流、第一帧和第二帧进行所述核和权重估计。通过将双向光流也作为核和权重估计的输入，能够使得核和权重估计的结果更加准确。

图3是本申请实施例的视频帧的插值方法的另一示意图，如图3所示，该方法包括：

301，计算第一帧和第二帧之间的双向光流；

302，根据双向光流、第一帧和第二帧进行核和权重估计；其中使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；

在一些实施例中，可以将双向光流、第一帧和第二帧作为图2的输入。

如图3所示，该方法还包括：

303，根据权重系数对双向光流进行加权。

在一些实施例中，在进行核和权重估计后，可以根据权重系数对双向光流进行加权。例如，在传统的方法中，通过以下方式获得中间流：

Flow_t-1→t＝Flow_t-1→t+1×0.5

但是，对象的运动并不总是线性的，上述传统的方法不能进一步提高图像质量。

在本申请实施例中，使用一个卷积层后跟一个sigmoid函数来自动地生成权重系数，该权重系数被限制为0～1，这为参考图像和光流之间提供了重要的指标。例如，本申请实施例可以通过以下方式获得中间流：

Flow_t-1→t＝Flow_t-1→t+1×weight₀

其中，weight₀为该权重系数。由此，能够表征非线性的对象运动，从而能够进一步提高图像质量。

如图3所示，该方法还包括：

304，根据加权后的双向光流和自适应局部卷积核，使用自适应变换层对第一帧和第二帧进行变换以生成至少两个变换帧。

在一些实施例中，自适应局部卷积核将不同权重分配给当前像素周围的相邻多个像素(例如4×4个像素，但不限于此)，并且自适应变换层根据所述相邻多个像素生成当前像素的值。

由此，通过从核和权重估计中获得的不同权重，能够更好地表示光流和参考图像之间的距离，可以更有效地利用周围信息来获取变换帧，从而能够进一步提高图像的质量。

在一些实施例中，根据加权后的双向光流和自适应局部卷积核，可以使用自适应变换(warp)层对第一帧和第二帧进行变换。关于自适应变换层的具体内容，可以参考相关技术。

如图3所示，该方法还包括：

305，计算所述至少两个变换帧之间的差值和平均值；

306，对第一帧和第二帧、至少两个变换帧的差值和平均值进行帧合成，以生成第一帧和第二帧之间的插值帧。

在一些实施例中，自适应变换层可以对第一帧和第二帧进行变换以生成至少两个变换帧，例如表示为I_t1和I_t2。可以计算所述至少两个变换帧之间的差值，并且计算所述至少两个变换帧的平均值；以及将所述第一帧和所述第二帧、所述差值和所述平均值作为所述帧合成的输入。

由此，通过这些信息能够获得更多的细节，能够使得输出的图像帧更加清晰。实验结果表明，与使用单个变换帧相比，使用至少两个变换帧的差值和平均值能够提供更多信息，可以获得更好的图像质量。

图4是本申请实施例的视频帧的插值的一框架图，以基于帧t-1(如401所示)和帧t+1(如402所示)获得插值帧t(如413所示)为例进行说明。

如图4所示，可以计算帧t-1和帧t+1之间的双向光流，如403所示；然后，根据帧t-1和帧t+1、双向光流(如404所示)进行核(kernel)和权重(weight)估计，如405所示；其中使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数。

如图4所示，可以根据双向光流(如404所示)、权重系数(如406所示)和自适应局部卷积核(如407所示)，使用自适应变换层(如408所示)对帧t-1和帧t+1进行变换以生成至少两个变换帧(如409所示)。

如图4所示，可以计算所述至少两个变换帧之间的差值(如410所示)和平均值(如411所示)；根据帧t-1和帧t+1、所述差值和所述平均值进行帧合成，如412所示，以生成帧t-1和帧t+1之间的插值帧t(如413所示)。

值得注意的是，以上附图3和4仅示意性地对本申请实施例进行了说明，但本申请不限于此。例如可以适当地调整各个操作之间的执行顺序，此外还可以增加其他的一些操作或者减少其中的某些操作。本领域的技术人员可以根据上述内容进行适当地变型，而不仅限于上述附图3和4的记载。

在一些实施例中，在帧合成中可以使用残差(Residual)结构，以及在所述残差结构之后使用可变形卷积网络(DCN，Deformable Convolutional Network)。

图5是本申请实施例的帧合成的网络结构示意图，例如，如图5的左边所示，可以对输入进行卷积操作(如501的Conv 64×7×7,relu所示)，然后进行残差块(residualblock)操作，如502所示。在每个残差块之后，将可变形卷积网络v2(DCNv2)嵌入到帧合成网络中，如503所示。如504所示，还可以包括Conv 3×3×3操作。

如图5的右边所示，残差块可以具有残差网络的结构，例如如5021所示，包括Conv64×7×7操作，如5022所示，还包括relu操作。关于图5中的残差块和DCNv2的具体内容可以参考相关技术。

由此，通过在帧合成的网络结构中使用DCNv2，帧合成可以更好地选择周围的相关信息，能够对被遮挡的像素或者错误的插值像素进行补偿，从而能够进一步提高图像质量。

以上仅对与本申请相关的各步骤或过程进行了说明，但本申请不限于此。视频帧的插值方法还可以包括其他步骤或者过程，关于这些步骤或者过程的具体内容，可以参考现有技术。此外，以上仅以深度学习的一些网络结构为例对本申请实施例进行了示例性说明，但本申请不限于这些结构，还可以对这些结构进行适当的变型，这些变型的实施方式均应包含在本申请实施例的范围之内。

以上各个实施例仅对本申请实施例进行了示例性说明，但本申请不限于此，还可以在以上各个实施例的基础上进行适当的变型。例如，可以单独使用上述各个实施例，也可以将以上各个实施例中的一种或多种结合起来。

由上述实施例可知，根据第一帧和第二帧进行核和权重估计；其中使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；由此，能够充分利用来自相邻像素的信息，能够进一步提高PSNR，生成高质量的插值帧。

第二方面的实施例

本申请实施例提供一种视频帧的插值装置，与第一方面的实施例相同的内容不再赘述。

图6是本申请实施例的视频帧的插值装置的一示意图，如图6所示，视频帧的插值装置600包括：

光流计算单元601，其计算第一帧和第二帧之间的双向光流；

估计单元602，其根据所述第一帧和所述第二帧进行核和权重估计；其中，使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；

变换单元603，其根据所述双向光流、所述权重系数和所述自适应局部卷积核，使用自适应变换层对所述第一帧和所述第二帧进行变换以生成变换帧；

合成单元604，其对所述第一帧和所述第二帧、所述变换帧进行帧合成，以生成所述第一帧和所述第二帧之间的插值帧。

在一些实施例中，如图6所示，视频帧的插值装置600还包括：

加权单元605，其根据所述权重系数对所述双向光流进行加权。

在一些实施例中，所述自适应局部卷积核将不同权重分配给当前像素周围的相邻多个像素，并且所述自适应变换层根据所述相邻多个像素生成当前像素的值。

在一些实施例中，估计单元602用于：对所述第一帧和所述第二帧进行特征提取并进行多次下采样以获得不同维度的特征；对所获得的最高维度的特征进行多次上采样以获得处理后的特征；对所述处理后的特征使用第一卷积层并使用relu函数以获得所述自适应局部卷积核；以及对所述处理后的特征使用第二卷积层并使用sigmoid函数以获得所述权重系数。

在一些实施例中，由多次下采样获得不同维度的下采样特征，由多次上采样获得不同维度的上采样特征。估计单元602还用于：将第一维度的下采样特征与相同维度的上采样特征进行求和，并作为卷积层的输入以获得第二维度的上采样特征。

在一些实施例中，所述自适应变换层对所述第一帧和所述第二帧进行变换以生成至少两个变换帧。

在一些实施例中，如图6所示，视频帧的插值装置600还可以包括：

值计算单元606，其计算所述至少两个变换帧之间的差值，并且计算所述至少两个变换帧的平均值；

在一些实施例中，合成单元604还用于将所述第一帧和所述第二帧、所述差值和所述平均值作为所述帧合成的输入。

在一些实施例中，在所述帧合成中使用残差结构，以及在所述残差结构之后使用可变形卷积网络。

在一些实施例中，估计单元602还用于根据计算出的所述双向光流、所述第一帧和所述第二帧进行所述核和权重估计。

为了简单起见，图6中仅示例性示出了各个部件或模块之间的连接关系或信号走向，但是本领域技术人员应该清楚的是，可以采用总线连接等各种相关技术。上述各个部件或模块可以通过例如处理器、存储器等硬件设施来实现；本申请实施例并不对此进行限制。

第三方面的实施例

本申请实施例提供一种电子设备，包括有如第二方面的实施例所述的视频帧的插值装置，其内容被合并于此。该电子设备例如可以是计算机、服务器、工作站、膝上型计算机、智能手机，等等；但本申请实施例不限于此。

图7是本申请实施例的电子设备的示意图。如图7所示，电子设备700可以包括：处理器(例如中央处理器CPU)710和存储器720；存储器720耦合到中央处理器710。其中该存储器720可存储各种数据；此外还存储信息处理的程序721，并且在处理器710的控制下执行该程序721。

在一些实施例中，视频帧的插值装置600的功能被集成到处理器710中实现。其中，处理器710被配置为实现如第一方面的实施例所述的视频帧的插值方法。

在一些实施例中，视频帧的插值装置600与处理器710分开配置，例如可以将视频帧的插值装置600配置为与处理器710连接的芯片，通过处理器710的控制来实现视频帧的插值装置600的功能。

在一些实施例中，处理器710被配置为进行如下的控制：计算第一帧和第二帧之间的双向光流；根据所述第一帧和所述第二帧进行核和权重估计；其中，使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；根据所述双向光流、所述权重系数和所述自适应局部卷积核，使用自适应变换层对所述第一帧和所述第二帧进行变换以生成变换帧；对所述第一帧和所述第二帧、所述变换帧进行帧合成以生成所述第一帧和所述第二帧之间的插值帧。

在一些实施例中，处理器710被配置为进行如下的控制：根据所述权重系数对所述双向光流进行加权。

在一些实施例中，处理器710被配置为进行如下的控制：所述自适应局部卷积核将不同权重分配给当前像素周围的相邻多个像素，并且所述自适应变换层根据所述相邻多个像素生成所述当前像素的值。

在一些实施例中，处理器710被配置为进行如下的控制：对所述第一帧和所述第二帧进行特征提取并进行多次下采样以获得不同维度的特征；对所获得的最高维度的特征进行多次上采样以获得处理后的特征；对所述处理后的特征使用第一卷积层并使用relu函数以获得所述自适应局部卷积核；以及对所述处理后的特征使用第二卷积层并使用sigmoid函数以获得所述权重系数。

在一些实施例中，处理器710被配置为进行如下的控制：由所述多次下采样获得不同维度的下采样特征，由所述多次上采样获得不同维度的上采样特征；将第一维度的下采样特征与相同维度的上采样特征进行求和，并作为卷积层的输入以获得第二维度的上采样特征。

在一些实施例中，处理器710被配置为进行如下的控制：所述自适应变换层对所述第一帧和所述第二帧进行变换以生成至少两个变换帧。

在一些实施例中，处理器710被配置为进行如下的控制：计算所述至少两个变换帧之间的差值，并且计算所述至少两个变换帧的平均值；以及将所述第一帧和所述第二帧、所述差值和所述平均值作为所述帧合成的输入。

在一些实施例中，处理器710被配置为进行如下的控制：在所述帧合成中使用残差(Residual)结构，以及在所述残差结构之后使用可变形卷积网络(DCN，DeformableConvolutional Network)。

在一些实施例中，处理器710被配置为进行如下的控制：根据计算出的所述双向光流、所述第一帧和所述第二帧进行所述核和权重估计。

此外，如图7所示，电子设备700还可以包括：输入输出(I/O)设备730和显示器740等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，电子设备700也并不是必须要包括图7中所示的所有部件；此外，电子设备700还可以包括图7中没有示出的部件，可以参考相关技术。

本申请实施例还提供一种计算机可读程序，其中当在电子设备中执行所述程序时，所述程序使得计算机在所述电子设备中执行如第一方面的实施例所述的视频帧的插值方法。

本申请实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在电子设备中执行如第一方面的实施例所述的视频帧的插值方法。

本申请以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本申请涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本申请还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

结合本申请实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图中所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若设备(如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本申请进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本申请保护范围的限制。本领域技术人员可以根据本申请原理对本申请做出各种变型和修改，这些变型和修改也在本申请的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1、一种视频帧的插值方法，包括：

计算第一帧和第二帧之间的双向光流；

根据所述双向光流、所述权重系数和所述自适应局部卷积核，使用自适应变换层对所述第一帧和所述第二帧进行变换以生成变换帧；

附记2、根据附记1所述的方法，其中，所述方法还包括：

根据所述权重系数对所述双向光流进行加权。

附记3、根据附记1或2所述的方法，其中，所述自适应局部卷积核将不同权重分配给当前像素周围的相邻多个像素，并且所述自适应变换层根据所述相邻多个像素生成所述当前像素的值。

附记4、根据附记1至3任一项所述的方法，其中，在所述核和权重估计中，

对所述第一帧和所述第二帧进行特征提取并进行多次下采样以获得不同维度的特征；

对所获得的最高维度的特征进行多次上采样以获得处理后的特征；

对所述处理后的特征使用第一卷积层并使用relu函数以获得所述自适应局部卷积核；以及

对所述处理后的特征使用第二卷积层并使用sigmoid函数以获得所述权重系数。

附记5、根据附记4所述的方法，其中，在所述核和权重估计中，由所述多次下采样获得不同维度的下采样特征，由所述多次上采样获得不同维度的上采样特征。

附记6、根据附记5所述的方法，其中，所述方法还包括：

将第一维度的下采样特征与相同维度的上采样特征进行求和，并作为卷积层的输入以获得第二维度的上采样特征。

附记7、根据附记1至6任一项所述的方法，其中，所述自适应变换层对所述第一帧和所述第二帧进行变换以生成至少两个变换帧。

附记8、根据附记7所述的方法，其中，所述方法还包括：

计算所述至少两个变换帧之间的差值，并且计算所述至少两个变换帧的平均值。

附记9、根据附记8所述的方法，其中，所述方法还包括：

将所述第一帧和所述第二帧、所述差值和所述平均值作为所述帧合成的输入。

附记10、根据附记1至9任一项所述的方法，其中，在所述帧合成中使用残差(Residual)结构，以及在所述残差结构之后使用可变形卷积网络(DCN，DeformableConvolutional Network)。

附记11、根据附记1至10任一项所述的方法，其中，所述方法还包括：

根据计算出的所述双向光流、所述第一帧和所述第二帧进行所述核和权重估计。

附记12、一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器被配置为执行所述计算机程序而实现如附记1至11任一项所述的视频帧的插值方法。

Claims

1.一种视频帧的插值装置，其特征在于，所述装置包括：

光流计算单元，其计算第一帧和第二帧之间的双向光流；

变换单元，其根据所述双向光流、所述权重系数和所述自适应局部卷积核，使用自适应变换层对所述第一帧和所述第二帧进行变换以生成变换帧；以及

2.根据权利要求1所述的装置，其中，所述装置还包括：

加权单元，其根据所述权重系数对所述双向光流进行加权。

3.根据权利要求1所述的装置，其中，所述自适应局部卷积核将不同权重分配给当前像素周围的相邻多个像素，并且所述自适应变换层根据所述相邻多个像素生成所述当前像素的值。

4.根据权利要求1所述的装置，其中，所述估计单元用于：

5.根据权利要求4所述的装置，其中，由所述多次下采样获得不同维度的下采样特征，由所述多次上采样获得不同维度的上采样特征；

所述估计单元还用于：将第一维度的下采样特征与相同维度的上采样特征进行求和，并作为卷积层的输入以获得第二维度的上采样特征。

6.根据权利要求1所述的装置，其中，所述自适应变换层对所述第一帧和所述第二帧进行变换以生成至少两个变换帧；

所述装置还包括：

值计算单元，其计算所述至少两个变换帧之间的差值，并且计算所述至少两个变换帧的平均值。

7.根据权利要求6所述的装置，其中，所述合成单元还用于：将所述第一帧和所述第二帧、所述差值和所述平均值作为所述帧合成的输入。

8.根据权利要求1所述的装置，其中，在所述帧合成中使用残差结构，以及在所述残差结构之后使用可变形卷积网络。

9.根据权利要求1所述的装置，其中，所述估计单元还用于：根据计算出的所述双向光流、所述第一帧和所述第二帧进行所述核和权重估计。

10.一种视频帧的插值方法，其特征在于，所述方法包括：

计算第一帧和第二帧之间的双向光流；

根据所述第一帧和所述第二帧进行核和权重估计；其中使用一个卷积层生成自适应局部卷积核并且使用另一个卷积层生成权重系数；