CN110622502A

CN110622502A - 用于活动图像的超分辨率处理方法及其图像处理装置

Info

Publication number: CN110622502A
Application number: CN201880032304.2A
Authority: CN
Inventors: P.卡普尔; 吴志勋; 孙珖熏; 曹暎喆; 朴镕燮; 金铉中
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-05-17
Filing date: 2018-05-16
Publication date: 2019-12-27
Anticipated expiration: 2038-05-16
Also published as: KR20180126362A; CN110622502B; EP3566435A1; KR102511059B1; EP3566435B1; EP3566435A4

Abstract

提供一种活动图像的超分辨率处理方法。活动图像的超分辨率处理方法包括：将视频中包括的多个帧顺序地输入用于超分辨率处理的循环神经网络(RNN)或用于超分辨率处理的卷积神经网络(CNN)中的任一个中，将从RNN和CNN中的任一个顺序地输出的帧顺序地输入RNN和CNN中的另一个中，以及通过关于从CNN和RNN中的该另一个顺序地输出的帧执行去卷积来提升输出帧的分辨率。

Description

用于活动图像的超分辨率处理方法及其图像处理装置

技术领域

本公开涉及活动图像的超分辨率处理方法及其图像处理装置，并且更特别地，涉及能够将活动图像提升(upscale)到超分辨率的超分辨率处理方法及其图像处理装置。

背景技术

近年来，卷积神经网络(CNN)(其为一种类型的深度学习技术)被用于图像的超分辨率处理。超分辨率处理一般包括以下步骤：响应于在CNN中接收低分辨率的图像，获得对于图像的每个分块的特征数据，以及通过使用获取的特征数据和先前学习数据将接收的低分辨率图像提升为超分辨率图像。

因此，通过基于CNN的超分辨率处理方法，与简单地扩大低分辨率图像的大小的情况相比，用户可以获得平滑和锐利的超分辨率图像。用于超分辨率处理的CNN也一般称为超分辨率CNN(SRCNN)。

但是，如果在活动图像中使用相同的超分辨率处理，则可以关于活动图像中包括的多个帧中的每一个获得超分辨率帧；但是，彼此独立地关于多个帧中的每一个执行超分辨率处理，如此可能发生闪烁现象或在多个帧当中出现不连续伪影的现象。

因此，需要改进措施以解决对于其进行基于CNN的超分辨率处理的活动图像的闪烁现象或出现不连续伪影的现象。

发明内容

问题的解决方案

本公开的实施例将至少处理上述问题和/或缺点并且将至少提供下述的优点。

根据公开的一个方面，提供了一种超分辨率处理方法，其能够在没有闪烁现象的情况下获得对于其连续进行超分辨率处理的活动图像，还提供了用于超分辨率处理的图像处理装置。

根据一个实施例，提供了一种活动图像的超分辨率处理方法，所述方法包括：将所述活动图像中包括的多个帧顺序地输入用于超分辨率处理的循环神经网络(RNN)或用于超分辨率处理的卷积神经网络(CNN)；响应于多个帧是从所述RNN或所述CNN被顺序地输出，分别将所述多个帧顺序地输入所述CNN或所述RNN；以及通过关于从所述CNN或所述RNN输出的所述多个帧执行去卷积而提升从所述CNN或所述RNN输出的多个帧的分辨率。

根据另一实施例，提供了一种执行活动图像的超分辨率处理的图像处理装置，所述图像处理装置包括：输入器，所述输入器被配置为接收所述活动图像的输入；以及处理器，所述处理器被配置为：将所述活动图像中包括的多个帧顺序地输入用于超分辨率处理的循环神经网络(RNN)和用于超分辨率处理的卷积神经网络(CNN)，响应于多个帧是从所述RNN或所述CNN被顺序地输出，分别将所述多个帧顺序地输入所述CNN或所述RNN，以及通过对从所述CNN或所述RNN顺序地输出的所述多个帧执行去卷积而提升从所述CNN或所述RNN输出的多个帧的分辨率。

根据另一实施例，提供了一种记录介质，其存储用于执行活动图像的超分辨率处理方法的程序，所述方法包括：将所述活动图像中包括的多个帧顺序地输入用于超分辨率处理的RNN或用于超分辨率处理的CNN；响应于多个帧是从所述RNN或所述CNN被顺序地输出，分别将所述多个帧顺序地输入所述CNN或所述RNN；以及通过对从所述CNN或所述RNN顺序地输出的所述多个帧执行去卷积而提升多个帧的分辨率。

附图说明

图1是示意了根据实施例的通过CNN执行超分辨率处理的方法的图。

图2至5是示意了根据各种实施例的在其中组合CNN和RNN的超分辨率处理过程的图。

图6是示意了根据实施例的活动图像的超分辨率处理的方法的流程图。

图7是示意了模块化CNN和RNN的计算过程以调整超分辨率比率的方法的图。

图8是示意了根据实施例的根据活动图像的输出格式分离通道并执行超分辨率处理过程的方法的图。

图9是示意了根据实施例的图像处理装置的配置的框图。

图10是示意了加载先前帧的特征图并将加载的特征图反映在当前帧的特征图中的方法的图。

图11是示意了根据图10的实施例的用于解决存储空间和带宽问题发生的实施例的图。

具体实施方式

参考附图描述本公开的实施例。

本公开中使用的术语是基于各种实施例的功能选择的一般术语。这些术语根据意图、法律或技术解释以及新技术的涌现而可能变化。另外，一些术语可以由申请人随意选择。除非存在术语的特定定义，否则可以基于一般知识和相关技术领域中的技术人员的技术常识来解释术语。

相似的参考标号可以用于在本说明书前后指示执行基本相同功能的部件。为了说明和理解，参考相似的参考标号来描述不同实施例。也就是说，即便多个附图中的所有部件具有相似的参考标号，这也不意味着多个附图仅涉及一个实施例。

另外，包括数值表达的术语(例如，“第一”和“第二”)可以使用对应部件而不管重要性和顺序，并且被用于将一个部件与另一个部件区分开而不对部件进行限制。这些术语仅用于将一个部件与另一部件区分开的目的而不对部件进行限制。例如，第一部件可以被称为第二部件并且反之亦然而不背离本公开的范围。也就是说，如果需要，则可以互换地使用相应的序数。

除非上下文明确地另有指示，否则单数形式可以包括一个或多个事物。在本公开中，术语“包括”、“具有”和“有”可以用于指定特性、数量、操作、元件、部件或其组合，并且不排除存在其他一个或多个特性、数量、操作、元件、部件或其组合或添加其他一个或多个特性、数量、操作、元件、部件或其组合的可能性。

术语“模块”、“单元”和“部分”用于指示以硬件、软件或固件实现的执行至少一个功能和操作的部件，并且可以与其他术语(例如，“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。另外，除了需要在单独的硬件中实现多个“模块”、“单元”和“部分”中的每一个时，可以以专用集成电路(ASIC)的形式实现部件。

当描述第一部分连接到第二部分时，第一部分可以直接连接到第二部分，或经由另一机构连接。另外，当一部分包括另一部件时，不排除包括附加部件的可能性，也就是说，该部分还可以包括除了所述部件之外的其他部件。

包括在活动图像中的多个帧可以连续输入CNN 12。多个帧的颜色格式可以是三个通道格式，包括红绿蓝(RGB)和亮度蓝色色度红色色度(YcbCr)格式。除非另有指定，否则在下面将描述活动图像中包括的多个帧以RGB格式的三个通道的格式被实现的示例。

就这方面而言，如图1中所示，活动图像中包括的包括帧11的多个帧可以被顺序地输入到CNN 12，并且输入到CNN 12的帧11可以是图像分块(patch)，在该图像分块中活动图像的原始帧被划分为宽度(W)和长度(H)。为了便于解释，将假设输入到CNN 12的划分的图像分块被一致地称为帧。

同时，输入CNN 12的帧11可以具有与三个RGB通道对应的深度。就这方面而言，CNN12是对于其图像的超分辨率处理被学习的神经网络。CNN12可以通过将多个预学习的滤波器应用于每个帧11来生成特征图，并且重复将激活函数应用于生成的特征图的过程预定次数。就这方面而言，激活函数可以包括S型(sigmoid)函数、双曲正切函数和修正线性单元(ReLU)。

例如，如果分别将具有三个通道的64个滤波器应用于输入到CNN 12的帧11并且应用ReLU函数，则可以输出与输入帧11具有相同大小并且具有64个通道的特征图13。就这方面而言，被输出的特征图13可以包括通过64个通道的新像素信息，并且该新像素信息是用于超分辨率处理的信息。

当关于输出的特征图13执行与CNN 12中的卷积计算相反的去卷积计算14时，基于输出的特征图13中包括的新像素信息生成64个通道的超分辨率特征图15，其具有特征图15的整数倍数的大小。可以再次关于生成的超分辨率特征图15执行卷积计算16，以最终获得三个通道的超分辨率帧17。

如图1中所示，三个通道的超分辨率帧17可以具有为输入到CNN 12的帧11的分辨率的两倍的分辨率(2W x 2H)。

但是，彼此独立地针对活动图像的每个帧执行上述超分辨率处理，可能发生闪烁和不连续伪影。

为了解决闪烁和不连续伪影，提出了将连续帧同时输入CNN输入端子或双向循环卷积神经网络的方法。实现循环卷积网络以在处理先前帧时保留关于隐藏层的信息，并将其反映在下一帧中，从而增加图像或视频的视觉-时间相依性。

但是，同时输入先前连续帧的方法会以N^2(N为输入帧的数量)指数地增加输入帧的数量的计算，并且不连续仍然会周期性地发生。

另外，在循环卷积网络中，所有卷积层具有可集群地连接的形状，例如循环卷积和条件卷积，并且因此，需要比先前方法的处理能力多六倍的处理能力。

因此，提供了通过连续地将循环神经网络(RNN)连接到CNN而产生的算法。该算法是一种神经网络结构，其需要最小计算(即，处理)量并且更够在处理活动图像的连续帧时高效地反映视觉-时间相依性。

图2至6是示意了根据各种实施例的在其中组合CNN和RNN的超分辨率处理过程的图。

RNN是用于处理其中时间先后的相关重要的数据(例如，时间序列数据，包括谈话数据和活动图像语音数据)的深度学习技术。通常，RNN通过先前状态和输入值来预测当前状态。就这方面而言，先前状态在隐藏层中是循环的并且反映在当前状态中，并且因此，先前计算结果影响下一计算。

RNN可以以各种方式与CNN组合。例如，活动图像中包括的多个输入帧可以顺序地输入到RNN和CNN中的任一个。此后，从RNN和CNN顺序地输出的帧可以顺序地输入到RNN和CNN当中的另一个。换言之，活动图像中包括的多个帧可以顺序地输入到RNN或CNN，并且从RNN或CNN顺序地输出的多个帧可以顺序地分别输入CNN或RNN。

图2示意了在其中活动图像的多个帧顺序地输入RNN 21并且从RNN输出的帧顺序地输入CNN 22的结构。RNN 21具有在其中当前(t)帧(x_t)输入到RNN 21并且关于当前帧的隐藏状态的信息(h_t)循环到下一帧的隐藏层的结构。

由关于先前帧的隐藏状态的信息h_t-1更新关于当前帧的隐藏状态的信息h_t，并且当前帧的隐藏层的输出(y_t)接收h_t并且被更新。关于当前帧的隐藏状态的信息h_t可以被表达为下面示出的数学式(1)。

【数学式1】

h_t＝σ_h(W_h*x_t+U_h*h_t-1+b_h)

在数学式(1)中，W_h是用于卷积RNN 21的输入x_t的权重值(连线①的权重值)，U_h是用于卷积关于先前帧的隐藏状态的信息h_t-1的权重值(连线②的权重值)，并且b_h是连线①的偏置。σ_h指隐藏层的激活函数，并且非线性函数被用作激活函数。例如，σ_h可以是双曲正切，其是代表性非线性函数。

同时，RNN 21的输出y_t可以被表达为下面示出的数学式(2)。

【数学式2】

y_t＝σ_y(W_y*h_t+b_y)

在数学式(2)中，W_y是对于其用关于当前帧的隐藏状态的信息h_t来进行卷积的权重值(连线③的权重值)，并且b_y是连线③的偏置。σ_y是RNN 21的输出端子的激活函数。

因此，输入CNN 22的多个帧可以分别包括关于先前帧的隐藏状态的信息，并且因此可以对于CNN 22执行在其中反映多个帧的连续性的超分辨率处理。

顺序地输入CNN 22的多个帧是其分辨率未被转换的低分辨率帧。从CNN 22输出的多个特征图是包括关于与输入CNN 22的对应帧相比的相对超分辨率过程的帧的信息(即，能够被转换为超分辨率帧的信息)的特征图。就这方面而言，从CNN 22输出的多个特征图将被表达为y_t ^sr以与多个帧y_t进行区分。

对于CNN 22的输出特征图y_t ^sr，分别执行去卷积和卷积，并且生成被放大到超分辨率的多个帧x_t ^SR。顺序地组合多个帧x_t ^SR以使得最终输出被放大到超分辨率的活动图像。

同时，如图2中所示，还可以实现具有在其中RNN 21和CNN 22的顺序被改变的形状的神经网络结构。从CNN 22输出的当前帧的特征图x_t ^SR输入RNN 21，并且关于当前帧的隐藏状态的信息h_t循环到下一帧的隐藏层，并且可以顺序地输出具有关于先前帧的信息的多个特征图y_t ^sr。

图3示意了在其中活动图像的多个帧被顺序地输入第一RNN 31、从第一RNN 31输出的特征图被顺序地输入CNN 32并且从CNN 32输出的特征图被顺序地输入第二RNN 33的结构。

在第一RNN 31中，输入当前帧x_t，并且关于当前帧的隐藏状态的信息h_t循环到下一帧的隐藏层。由关于先前帧的隐藏状态的信息h_t-1更新关于当前隐藏状态的信息h_t，并且输出y_t作为第一RNN 31

另外，从第一RNN 31输出的y_t被输入CNN 32时，输出特征图y_t ^sr，其包括能够被转换成超分辨率帧的信息，并且将输出的y_t ^sr输入第二RNN 32。

如同第一RNN 32，第二RNN 33具有在其中关于当前帧的特征图y_t ^sr的隐藏状态的信息h’_t循环到下一帧的隐藏层的结构。图3示意了当关于当前帧的隐藏状态的信息h’_t通过连线⑤循环到下一帧的隐藏层的情况。

就这方面而言，如图3中所示，第二RNN 33可以将h’_t循环到第一RNN31的当前帧x_t的隐藏层(连线⑥)。

换言之，在第一RNN 31中，h_t由关于先前帧的隐藏状态的信息h’_t-1更新，其包括在CNN 32被输入之前关于具有相对低分辨率的先前帧的隐藏状态的信息h’_t-1和在CNN 32被输入之后能够被转换成超分辨率帧的信息。然后根据更新的h_t输出第一RNN 31的输出y_t。

因此，在第一RNN 31中，关于当前帧的隐藏状态的信息h_t可以被表达为下面示出的数学式(3)。

【数学式3】

h_t＝σ_h(W_h*x_t+U_h*h_t-1+V_h*h′_t-1+b_h)

在数学式(3)中，与关于第二RNN 33的先前帧的隐藏状态的信息h’_t-1卷积的权重值V_h称为连线⑥的权重值，其从第二RNN 33循环到第一RNN31。在上面的数学式(1)中限定了其余变量。

h_t包括关于具有相对低分辨率的先前帧的隐藏状态的信息h_t-1和包括可以被转换成具有超分辨率的帧的信息的关于先前帧的隐藏状态的信息h’_t-1。这样，可以进行在其中通过CNN 32改进关于先前帧的信息的超分辨率处理。

同时，从第二RNN循环的h’_t可以被表达为下面示出的数学式(4)。

【数学式4】

h′_t＝σ_h(W′_h*y_t+U′_h*h′_t-1+b′_h)

在数学式(4)中，W’_h指输入第二RNN 33的连线④的权重值。U’_h指从第二RNN循环到先前帧的隐藏层的连接的连线⑤的权重值。B’_h是输入第二RNN 33的连线④的偏置。

第二RNN 33的输出y’_t可以被表达为下面示出的数学式(5)。

【数学式5】

y′_t＝σ_y(W′y*h′_t+b′_y)

在数学式(5)中，W’_y和b’_y分别指经由其y’_t从第二RNN 33输出的连线⑦的权重值和经由其y’_t从第二RNN 33输出的连线⑦的偏置。

对于从第二RNN 33输出的y’_t，如图2中所示，分别执行去卷积和卷积。因此，生成放大到超分辨率的多个帧x_t ^SR。顺序地组合多个帧x_t ^SR以使得最终输出被放大到超分辨率的活动图像。

根据图3，CNN 32可以从位于CNN 32的前端的RNN 31接收关于具有低分辨率的先前帧的信息，并且可以从位于CNN 32的后端的RNN 33接收关于可以被转换为超分辨率帧的先前帧的信息。CNN 32可以在提取要被转换为超分辨率帧的当前帧的信息时反映所接收的信息。

图4示意了在其中活动图像的多个帧被顺序地输入RNN 41、从RNN 41输出的帧被顺序地输入CNN 42并且从CNN 42输出的特征图再次被顺序地循环到RNN 41的结构。

在RNN 41中，输入当前帧x_t，并且关于当前帧的隐藏状态的信息h_t-1循环到下一帧的隐藏层。由关于先前帧的隐藏状态的信息h_t-1更新关于当前帧的隐藏状态的信息h_t，并且从RNN 41输出y_t。

另外，当y_t被输入CNN 42时，输出包括能够被转换成超分辨率帧的信息的特征图y_t ^sr。就这方面而言，y_t ^sr循环到RNN 41。

图4示意了在其中先前帧的输出y_t-1 ^sr经由连线⑤循环到RNN 41的当前帧的隐藏层的情况。

就这方面而言，在RNN 41中，关于当前帧的隐藏状态的信息h_t可以被表达为下面示出的数学式(6)。

【数学式6】

在数学式(6)中，V_h指循环到RNN 41的连线⑤的权重值。在上面的数学式(3)中限定了其余变量。

同时，作为对图4中所示的结构的修改，为了增加计算(即处理)的效率，在其中h_t不在RNN 41中循环的结构也是可行的。也就是说，可以省略连线②，并且关于当前帧在RNN41中的隐藏状态的信息h_t可以被表达为下面示出的数学式(7)。

【数学式7】

在数学式(7)中，U_h指循环到RNN 41的连线⑤的权重值。在上面的数学式(6)中限定了其余变量。

对于CNN 42的输出特征图y_t ^sr，分别顺序地执行去卷积和卷积，并且因此，生成被放大到超分辨率的多个帧x_t ^SR。顺序地组合多个帧x_t ^SR以使得最终输出被放大到超分辨率的活动图像。

图5示意了根据实施例的在其中多个RRN被串连的结构。第一RNN 51和第二RNN 52被串连。第一RNN 51和第二RNN 52可以分别将关于当前帧的隐藏状态的信息h_t循环到下一帧的隐藏层。另外，关于当前帧在第二RNN中的隐藏状态的信息h’_t可以被额外地循环到第一RNN的下一帧的隐藏层。该结构可以被称为互连RNN。

关于第一RNN 51的当前帧的隐藏状态的信息h_t在数学式(3)中示出，并且第一RNN51的输出y_t在数学式(2)中示出。另外，关于第二RNN 51的当前帧的隐藏状态的信息h’_t和第二RNN 51的输出y’_t分别在数学式(4)和(5)中示出。

最终，第一RNN 51可以经由从第二RNN 52循环的连线获取关于先前帧的信息。关于先前帧的信息可以不仅是第一RNN 51所属的层中的信息而且还是在其他预处理层中的信息，从而进一步减少不连续伪影输出。预期该串连结构可以有效地用于图像识别和图像分类。

RNN可以被实现为长短期记忆(LSTM)，其是用于解决消失梯度的网络结构。

首先，在步骤S610，活动图像中包括的多个输入帧被顺序地输入到RNN和CNN中的任一个。在步骤S620，从多个输入帧被输入其中的RNN和CNN中的任一个顺序地输出的帧被顺序地输入RNN和CNN中的另一个中。换言之，活动图像中包括的多个帧顺序地输入到RNN或CNN，并且从RNN或CNN顺序地输出的多个帧顺序地分别输入CNN或RNN。

就这方面而言，在步骤S630，可以关于顺序地从其他RNN输出的帧执行去卷积，并且可以提升输出帧的分辨率。换言之，可以关于从CNN或RNN顺序地输出的多个帧执行去卷积，并且可以提升该多个帧的分辨率。

将描述以首先将活动图像中包括的多个帧顺序地输入RNN然后将从RNN输出的帧顺序地输入CNN的顺序的超分辨率处理方法。

从CNN顺序地输出的帧可以循环到RNN，并且在这种情况下，从CNN顺序地输出的帧可以包括关于比输入到RNN的对应帧分辨率高的帧的信息。

就这方面而言，CNN可以包括残余网络(ResNet)，其可以是具有在其中从RNN顺序地输入的帧被滤波以生成特征图的结构的网络。ResNet可以被串连并且包括残余块(resblock)，其将批量标准化应用特征图并且将激活函数应用于标准化特征图。

另外，从CNN顺序地输出的帧可以顺序地输入附加RNN，并且关于附加RNN的隐藏状态的信息可以循环到RNN(即，初始RNN而不是其他RNN)。

活动图像可以包括多个场景改变。另外，当执行场景改变时关于先前帧的信息不具有与当前帧的连续性，因此，无需将关于先前帧的信息反映在RNN中的当前帧中。如果将关于先前帧的信息反映在RNN中的当前帧中，则超分辨率处理的质量实际上可能会降低。

因此，在上述的至少一个RNN中，可以基于关于循环的先前帧的隐藏状态的信息来预期活动图像的场景改变，并且在预期场景改变时，可以将关于先前帧的隐藏状态的信息改变为零值。基于被改变为零值的关于先前帧的隐藏状态的信息，可以更新关于当前帧的隐藏状态的信息。

因此，零值可以被反映在关于当前帧的隐藏状态的信息中，并且因此，关于先前帧的隐藏状态的信息基本上不影响关于当前帧的隐藏状态的信息。

就这方面而言，预期活动图像中包括的多个帧当中的场景改变的过程可以包括：基于关于先前帧的隐藏状态的信息预期关于当前帧的隐藏状态的信息h_t|t-1，通过使用预期的h_t|t-1来计算错误率，以及基于计算的错误率是否超过预定阈值来预期活动图像的场景改变。

预期的h_t|t-1可以被表达为下面示出的数学式(8)。

【数学式8】

在数学式(8)中，W^_h、U^_h、V^_h和b^_n中的每一个均指被预定为预期关于当前帧的隐藏状态的信息h_t的附加权重值。

同时，关于当前帧的隐藏状态的信息h_t可以根据下面示出的数学式(9)来限定。

可以根据下面示出的数学式(9)来进行关于场景改变是否被执行的决定。

【数学式9】

如果阈值，则将h_t-1和h′_t-1设置为0并重计算h_t

这样，预期场景改变的方法可以包括：当基于h_t与h_t|t-1之间的差和帧大小(m)计算的值大于预定阈值时，确定在t和t-1之已经进行场景改变，将h_t-1和h’_t-1改变为零值，以及基于h_t-1值(其被改变为零值)和h’_t-1值(其被改变为零值)更新h_t。

如图7中所示，CNN和RNN的计算过程可以被模块化以调整超分辨率比率。换言之，包括在其中CNN和RNN相互组合的神经网络的模块可以被串连，并且每个模块的输出端子可以与执行去卷积计算和卷积计算的模块连接，并且活动图像可以放大到2x或4x。

参考图2至5描述每个模块的操作。就这方面而言，预定放大比率可以输入到每个模块的输出端子，并且活动图像可以根据预定放大比率而被放大整数倍数。

针对超分辨率处理输入的活动图像可以具有RGB通道、YCbCr通道或亮度蓝色亮度红色亮度(YUV)通道中的任一个的输出格式。YCbCr通道是在其中亮度样本和色度样本彼此区分并且对于每个像素被存储的格式，其中Y与亮度样本对应并且Cb和Cr与色度样本对应。YCbCr通道是减少RGB通道方案中的每个R、G和B当中重叠存在的空间数据从而提高传输和存储的效率的方案。

与识别图像的亮度或暗度相比，人眼在识别彩色图像的颜色方面相对不敏感。这样，在活动图像的情况下，大量的位(与分辨率对应)被分配给Y分量，而小量的位被分配给Cb和Cr分量。

因此，在执行具有YCbCr通道的输出格式的活动图像的超分辨率处理的情况下，如图8中所示，仅将Y分量输入在其中RNN和CNN彼此组合的神经网络结构，而Cb和Cr分别经过如同先前方法的附加处理并且被放大。这样，减少了计算(即处理)的量并且提供了计算速度。因此，显著增加了计算效率。

通过经过提升器(upscaler)80中的附加处理来提升Cb和Cr分量，并且提升的Cb分量和放大的Cr分量与提升的Y分量组合，最终，可以获得其所有颜色分量都被提升的活动图像。

图9是示意了根据实施例的图像处理装置的配置的框图。

参考图9，图像处理装置100包括图像输入器110和处理器120。

图像输入器110接收图像的输入。图像可以包括静态图像和活动图像。

处理器120是用于控制图像处理装置100的总体操作的部件。处理器120可以执行如上所述的超分辨率处理方法，并且可以被实现为嵌入式处理器，例如微控制器单元(MCU)。

处理器120可以将活动图像中包括的多个输入帧顺序地输入用于超分辨率处理的RNN和用于超分辨率处理的CNN中的任一个，并且将从RNN和CNN中的该任一个顺序地输出的帧顺序地输入RNN和CNN中的另一个中(即，如果从RNN输出则顺序地输入CNN，或者如果从CNN输出则顺序地输入RNN)。换言之，处理器120可以将活动图像中包括的多个帧顺序地输入用于超分辨率处理的RNN或用于超分辨率处理的CNN，并且响应于多个帧是从RNN或CNN顺序地输出，分别顺序地将多个帧输入CNN或RNN。

就这方面而言，处理器120可以执行从RNN和CNN中的另一个顺序地输出的帧的去卷积，并且提升输出帧的分辨率。换言之，处理器120可以对从CNN或RNN顺序地输出的多个帧执行去卷积，并且提升多个帧的分辨率。

将描述在其中处理器120将多个输入帧顺序地输入RNN并且从RNN输出的帧被顺序地输入CNN的实施例。

处理器120可以将从CNN顺序地输出的帧循环到RNN，并且从CNN输出的帧可以包括关于比输入到RNN的对应帧分辨率高的帧的信息。

此外，处理器120可以将从CNN顺序地输出的帧输入附加RNN，并且将关于附加RNN的隐藏状态的信息循环到初始RNN。就这方面而言，处理器120可以对于从其他RNN顺序地输出的帧执行去卷积。

此外，处理器120可以对从RNN顺序地输入通过CNN的帧进行滤波并生成特征图，对特征图执行批量标准化，将激活函数应用于标准化特征图，并执行超分辨率处理。

另外，处理器120可以通过使用关于从RNN循环的先前帧的隐藏状态的信息来预期活动图像的场景改变。当预期场景改变时，处理器120可以将关于先前帧的隐藏状态的信息改变为零值，并且基于关于被改变为零值的先前帧的隐藏状态的信息来更新关于当前帧的隐藏状态的信息。

此外，处理器120可以通过使用基于先前帧的隐藏状态而预期的关于当前帧的隐藏状态的信息来计算错误率，并且根据计算的错误率是否超过预定阈值来预期活动图像的场景改变。

当活动图像的输出格式是YCbCr通道或YUV通道时，处理器120可以仅将来自多个输入帧当中的与Y通道对应的帧顺序地输入到RNN和CNN中的一个中。

但是，根据实施例，可以在图8的提升器80中执行通过执行去卷积提升输出帧的分辨率的操作，提升器80是与处理器120分离的处理设备。

根据上述实施例，将RNN模块与CNN模块组合与将CNN模块与CNN模块组合相比需要相对少的计算量。这样，将RNN模块与CNN模块组合可以以小计算(即处理)量高效地处理连续帧。

如图10中所示，在当前t输入CNN的帧I_t和与在时间t-1的先前帧的特征图92-1相关的h_t-1被存储在图像处理装置100的存储装置130中。就这方面而言，对于先前帧的特征图92-1的h_t-1包括关于先前帧的特征图92-1的信息。

与上述一起，应用于对于先前帧的特征图92-1的h_t-1的卷积权重可以存储在存储装置130作为参数。存储在存储装置130中的对于先前帧的特征图的h_t-1可以分别包括与先前帧的第一至第n特征图102-1至102-n中的每一个对应的h_t-1。

可以由直接存储器存取(DMA)控制器131在没有120的介入的情况下控制存储装置130。DMA控制器131可以从存储装置130直接读取当前帧I_t、对于先前帧的第一特征图92-1的h_t-1和参数。DMA控制器131可以临时地将读取的当前帧I_t、读取的对于先前帧的第一特征图92-1的h_t-1和读取的参数存储在高速缓冲存储器132中。但是，也可以在处理器120中执行DMA控制器131的操作。

就这方面而言，处理器120可以执行时间滤波以将对于存储在高速缓冲存储器132中的先前帧的第一特征图92-1的h_t-1反映在对于当前帧的第一特征图102-1的h_t中，并且输出h_t’，对于h_t’来说对于当前帧的第一特征图102-1的h_t被更新。就这方面而言，h_t’可以是具有h_t和h_t-1的因数的特定函数的输出值。

更新的h_t’加到对于当前帧的第一特征图102-1的h_t并且成为表示当前帧的第二特征图102-2的h_t’。也可以针对对于先前帧的第二至第n特征图102-1至102-n以相同方式执行该时间滤波过程。

处理器120可以执行以这种方式输出的最后特征图102-N的去卷积，以生成超分辨率特征图103，并且再次执行超分辨率特征图103的卷积以最终获得三个通道的超分辨率帧104。

因此，累积的先前帧的运动可以被内部地补偿，并且因此，可以生成能够表达平滑运动的超分辨率活动图像。

但是，如上所述，在对于先前帧的特征图92-1的h_t-1存储在存储装置130中的情况下，需要大容量的存储空间，并且许多通道(64ch)的h_t-1被加载，因此可能不理想地产生大带宽。

如图11中所示，在91-1的输入帧I_t-1而不是对于先前帧的特征图的h_t-1被存储在存储装置130中。换言之，对于64通道的h_t-1不被存储，而是三个通道的在91-1的输入帧I_t-1被存储，因此，可以高效地使用存储空间。

同时，DMA控制器131读取存储在存储装置130中的在91-1的先前输入帧I_t-1，并且然后将其存储在高速缓冲存储器132中。处理器120执行滤波(下文成为“特征滤波”)以生成对于存储在高速缓冲存储器132中的三个通道的在91-1的输入帧I_t-1的特征图，类似于CNN，并且生成64通道的特征图91-2。生成的64通道的特征图91-2经受图10中所示的时间滤波。

图11示意了在时间t-2对在101-1的输入帧I_t-2执行特征滤波并且另外地在时间t-2生成通道的特征图101-2的示例。

就这方面而言，处理器120可以将在时间t-1对于特征图101-2的h_t-1反映在在时间t-2对于特征图91-2的h_t-2中，并且输出h_t-2’，对于h_t-2’来说在时间t-2对于特征图91-2的h_t-2被更新。这样，h_t-2’可以是具有h_t-2和h_t-1的因数的特定函数的输出值。

处理器120可以将更新的h_t-2’反映在当前帧的h_t中，并且输出h_t’，对于h_t’来说当前帧的h_t被更新。就这方面而言，h_t’可以是具有h_t和h_t-2’的因子的特定函数的输出值。

更新的h_t’加到当前帧的h_t并且成为当前帧的第二特征图102-2。换言之，如图10中所示，可以通过将输入帧I_t-1存储在存储装置130中并且对存储的输入帧I_t-1执行特征滤波和时间滤波来生成先前帧的h_t-1。因此，可以存储所有h_t-1同时补偿先前帧的运动，并且可以解决根据加载存储的h_t-1的与存储空间和带宽有关的问题。

活动图像的超分辨率处理的方法可以体现为程序并且然后存储在各种类型的记录介质上。例如，可以在非暂态记录介质中存储已经被各种处理器处理并且因此变得能够执行前述控制方法的计算机程序并使用该计算机程序。

作为示例，非暂态计算机可读介质可以存储程序以执行下述步骤：将活动图像中包括的多个输入帧输入用于超分辨率处理的循环神经网络(RNN)，将RNN的多个输出帧输入用于超分辨率处理的卷积神经网络，并通过去卷积CNN的多个输出帧来提升多个输出帧的分辨率。

非暂态计算机可读介质指半永久地存储数据的介质而不是存储数据非常短时间的介质，例如，寄存器、高速缓存或存储器，并且其可以由装置读取。

上述应用或程序可以存储在非暂态计算机可读介质(即，紧凑式盘(CD)、数字通用盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡和只读存储器(ROM))中。

尽管已经参考本公开的某些实施例特定地示出并且描述了本公开，但是本领域普通技术人员将理解，在不背离随附的权利要求及其等价物限定的本公开的精神和范围的情况下可以在其中进行形式和细节上的各种改变。

Claims

1.一种视频的超分辨率处理方法，所述方法包括：

将所述视频中包括的多个帧顺序地输入用于超分辨率处理的循环神经网络RNN或用于超分辨率处理的卷积神经网络CNN；

响应于多个帧是从所述RNN或所述CNN被顺序地输出，分别将所述多个帧顺序地输入所述CNN或所述RNN；以及

通过关于从所述CNN或所述RNN输出的所述多个帧执行去卷积而提升从所述CNN或所述RNN输出的多个帧的分辨率。

2.根据权利要求1所述的超分辨率处理方法，其中，将所述视频中包括的所述多个帧顺序地输入所述RNN或所述CNN还包括将所述多个帧顺序地输入所述RNN，并且

其中，将从所述RNN或所述CNN顺序地输出的所述多个帧顺序地输入所述CNN或所述RNN还包括将从所述RNN输出的多个帧顺序地输入所述CNN。

3.根据权利要求2所述的超分辨率处理方法，还包括：

将从所述CNN顺序地输出的多个帧循环到所述RNN，

其中，从所述CNN输出的多个帧包括与比输入到所述RNN的对应帧分辨率高的帧相关的信息。

4.根据权利要求2所述的超分辨率处理方法，还包括：

将从所述CNN顺序地输出的多个帧顺序地输入附加RNN；以及

将与所述附加RNN的隐藏状态相关的信息循环到所述RNN，

其中，所述提升包括对从所述附加RNN顺序地输出的多个帧执行去卷积。

5.根据权利要求2所述的超分辨率处理方法，其中，所述CNN通过滤波从所述RNN顺序地输出的多个帧来生成特征图，关于所述特征图执行批量标准化，并将激活函数应用于标准化特征图。

6.根据权利要求1所述的超分辨率处理方法，还包括：

通过使用关于从所述RNN循环的先前帧的隐藏状态的信息来预测所述视频的场景改变；

基于所述场景改变被预测，将关于所述先前帧的隐藏状态的信息改变为零值；以及

基于被改变为零值的关于所述先前帧的隐藏状态的信息来更新关于当前帧的隐藏状态的信息。

7.根据权利要求6所述的超分辨率处理方法，其中，预测所述场景改变还包括：通过使用基于关于所述先前帧的隐藏状态的信息而预测的关于当前帧的隐藏状态的信息来计算错误率，以及

根据计算的错误率是否超过预定阈值来预测所述视频的场景改变。

8.根据权利要求1所述的超分辨率处理方法，其中，将所述视频中包括的所述多个帧顺序地输入所述RNN或所述CNN还包括：基于所述视频的输出格式为YCbCr通道，仅将来自所述多个帧当中的与Y通道对应的帧顺序地输入所述RNN或所述CNN。

9.根据权利要求1所述的超分辨率处理方法，其中，所述RNN包括长短期记忆(LSTM)网络。

10.一种执行视频的超分辨率处理的图像处理装置，包括：

输入器，被配置为接收所述视频的输入；以及

处理器，被配置为：

将所述视频中包括的多个帧顺序地输入用于超分辨率处理的循环神经网络RNN和用于超分辨率处理的卷积神经网络CNN，

响应于多个帧是从所述RNN或所述CNN被顺序地输出，分别将所述多个帧顺序地输入所述CNN或所述RNN，以及

通过对从所述CNN或所述RNN顺序地输出的所述多个帧执行去卷积而提升从所述CNN或所述RNN输出的多个帧的分辨率。

11.根据权利要求10所述的图像处理装置，其中，所述处理器还被配置为：

将所述多个帧顺序地输入所述RNN，并且将从所述RNN输出的所述多个帧顺序地输入所述CNN。

12.根据权利要求11所述的图像处理装置，其中，所述处理器还被配置为将从所述CNN顺序地输出的多个帧循环到所述RNN，并且

其中，从所述CNN输出的多个帧包括关于比输入所述RNN的对应帧分辨率高的帧的信息。

13.根据权利要求11所述的图像处理装置，其中，所述处理器还被配置为：

将从所述CNN顺序地输出的多个帧顺序地输入附加RNN，

将关于所述附加RNN的隐藏状态的信息循环到所述RNN，以及

对从所述附加RNN顺序地输出的多个帧执行去卷积。

14.根据权利要求11所述的图像处理装置，其中，所述CNN通过滤波从所述RNN顺序地输入的帧来生成特征图，对所述特征图执行批量标准化，并将激活函数应用于标准化特征图。

15.根据权利要求11所述的图像处理装置，其中，所述处理器还被配置为：

通过使用关于从所述RNN循环的先前帧的隐藏状态的信息来预测所述视频的场景改变，

基于所述场景改变被预测，将关于所述先前帧的隐藏状态的信息改变为零值，以及