CN110390651A

CN110390651A - 一种运动模糊视频复原方法和装置以及设备

Info

Publication number: CN110390651A
Application number: CN201910665515.6A
Authority: CN
Inventors: 张勇; 马少勇; 赵东宁; 曾庆好; 梁长垠; 何钦煜
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-10-29

Abstract

本发明公开了一种运动模糊视频复原方法和装置以及设备。其中，所述方法包括：将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入，和采用三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，以及根据该对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对该运动模糊视频进行复原。通过上述方式，能够实现有效对运动模糊视频中的物体特征形变进行建模，能够有效提升运动模糊视频复原效果。

Description

一种运动模糊视频复原方法和装置以及设备

技术领域

本发明涉及视频技术领域，尤其涉及一种运动模糊视频复原方法和装置以及设备。

背景技术

现有的运动模糊视频复原方案，一般包括：

方案一，采用单帧方式复原运动模糊视频，该单帧方式仅以当前帧作为算法唯一输入及考量标准，该单帧方式本身并没有利用视频图像上下帧关联的特性；

方案二，采用多帧方式复原运动模糊视频，该多帧方式基于多帧图像和卷积神经网络的一类视频复原算法，由于标准卷积神经网络卷积核规整的特点，在视频模糊严重的情况下，这种标准的卷积方式并不能很好地对视频当中由于运动模糊而造成的物体特征形变进行建模。

但是，发明人发现现有技术中至少存在如下问题：

现有的运动模糊视频复原方案，无法实现有效对运动模糊视频中的物体特征形变进行建模，无法有效提升运动模糊视频复原效果。

发明内容

有鉴于此，本发明的目的在于提出一种运动模糊视频复原方法和装置以及设备，能够实现有效对运动模糊视频中的物体特征形变进行建模，能够有效提升运动模糊视频复原效果。

根据本发明的一个方面，提供一种运动模糊视频复原方法，包括：

将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入；

采用三维变形卷积网络方式，对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模；

根据所述对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对所述运动模糊视频进行复原。

其中，所述将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入，包括：

将运动模糊视频中第一时刻的第一帧模糊图像和所述第一帧模糊图像的前两帧模糊图像和后两帧模糊图像共同作为卷积神经网络的输入。

其中，所述采用三维变形卷积网络方式，对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，包括：

通过在三维卷积网络的规整卷积核的基础上学习一个偏移量，使得所述三维卷积网络的规整卷积核能够基于所述多帧模糊图像的当前位置附近进行任意的模糊图像采样，和采用所述经在规整卷积核的基础上学习一个偏移量后的三维变形卷积网络方式，对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模。

其中，所述采用的三维卷积网络，表示为：

其中，代表第i层卷积网络的第j张特征图上的像素点位置(x,y,z)，(P_i,Q_i,R_i)代表第i层卷积网络卷积核大小，σ(·)代表非线性激活函数，代表了连接至第i-1层卷积网络的第m层特征图的网络参数，b_ij代表网络偏置项。

其中，在所述根据所述对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对所述运动模糊视频进行复原之后，还包括：

对所述经复原后的运动模糊视频进行优化。

根据本发明的另一个方面，提供一种运动模糊视频复原装置，包括：

输入模块、建模模块和复原模块；

所述输入模块，用于将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入；

所述建模模块，用于采用三维变形卷积网络方式，对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模；

所述复原模块，用于根据所述对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对所述运动模糊视频进行复原。

其中，所述输入模块，具体用于：

其中，所述建模模块，具体用于：

其中，所述采用的三维卷积网络，表示为：

其中，所述运动模糊视频复原装置，还包括：

优化模块；

所述优化模块，用于对所述经复原后的运动模糊视频进行优化。

根据本发明的又一个方面，提供一种运动模糊视频复原设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的运动模糊视频复原方法。

根据本发明的再一个方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的运动模糊视频复原方法。

可以发现，以上方案，可以将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入，和可以采用三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，以及可以根据该对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对该运动模糊视频进行复原，能够实现有效对运动模糊视频中的物体特征形变进行建模，能够有效提升运动模糊视频复原效果。

进一步的，以上方案，可以将运动模糊视频中第一时刻的第一帧模糊图像和该第一帧模糊图像的前两帧模糊图像和后两帧模糊图像共同作为卷积神经网络的输入，这样的好处是能够辅助网络模型包括卷积神经网络复原运动模糊视频中的模糊图像，进而辅助复原运动模糊视频。

进一步的，以上方案，可以通过在三维卷积网络的规整卷积核的基础上学习一个偏移量，使得该三维卷积网络的规整卷积核能够基于该多帧模糊图像的当前位置附近进行任意的模糊图像采样，和采用该经在规整卷积核的基础上学习一个偏移量后的三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，这样的好处是能够实现使三维卷积网络的规整卷积核能够基于该多帧模糊图像的当前位置附近进行任意的模糊图像采样，能够提高对作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模的建模能力。

进一步的，以上方案，该采用的三维卷积网络，可以表示为：

其中，代表第i层卷积网络的第j张特征图上的像素点位置(x,y,z)，(P_i,Q_i,R_i)代表第i层卷积网络卷积核大小，σ(·)代表非线性激活函数，代表了连接至第i-1层卷积网络的第m层特征图的网络参数，b_ij代表网络偏置项，这样的好处是由于三维变形卷积的滑窗操作是在三维层面展开，比二维卷积多出了代表时间维度的层面，因此三维变形卷积网络能够同时抽取运动模糊视频中模糊图像的空间维度信息以及时间维度信息。

进一步的，以上方案，可以对该经复原后的运动模糊视频进行优化，这样的好处是能够进一步提高运动模糊视频的显示效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明运动模糊视频复原方法一实施例的流程示意图；

图2是本发明运动模糊视频复原方法另一实施例的流程示意图；

图3是本发明运动模糊视频复原装置一实施例的结构示意图；

图4是本发明运动模糊视频复原装置另一实施例的结构示意图；

图5是本发明运动模糊视频复原设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种运动模糊视频复原方法，能够实现有效对运动模糊视频中的物体特征形变进行建模，能够有效提升运动模糊视频复原效果。

请参见图1，图1是本发明运动模糊视频复原方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

S101：将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入。

其中，该将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入，可以包括：

将运动模糊视频中第一时刻的第一帧模糊图像和该第一帧模糊图像的前两帧模糊图像和后两帧模糊图像共同作为卷积神经网络的输入，这样的好处是能够辅助网络模型包括卷积神经网络复原运动模糊视频中的模糊图像，进而辅助复原运动模糊视频。

S102：采用三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模。

其中，该采用三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，可以包括：

通过在三维卷积网络的规整卷积核的基础上学习一个偏移量，使得该三维卷积网络的规整卷积核能够基于该多帧模糊图像的当前位置附近进行任意的模糊图像采样，和采用该经在规整卷积核的基础上学习一个偏移量后的三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，这样的好处是能够实现使三维卷积网络的规整卷积核能够基于该多帧模糊图像的当前位置附近进行任意的模糊图像采样，能够提高对作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模的建模能力。

其中，该采用的三维卷积网络，可以表示为：

在本实施例中，在多帧图像作为输入的基础上，由于二维卷积滑窗操作仅在二维层面展开，即X轴和Y轴。因此，即使输入为视频图像时，由于滑动窗口仅在二维层面上取值，二维卷积只能抽取空间维度信息。对于视频图像数据，三维变形卷积由于其滑窗操作是在三维层面展开，比二维卷积多出了代表时间维度的Depth(深度)轴，因此三维变形卷积网络能够同时抽取视频图像中的空间维度信息以及时间维度信息。

对二维图像进行卷积操作时，卷积核通常是规整的，然而图像中物体乃至抽象特征往往存在形变，固定结构的卷积核不利于模型处理图像特征的几何变形。因此，通过在规整卷积核的基础上去学习一个偏移量，使得规整卷积核能够基于当前位置附近进行任意采样，能够提高卷积核对于几何形变的建模能力。

例如，以标准3×3卷积核采样点如下：

R＝{(-1，-1)(-1,0)...(0,-1)(1,1)}；

标准卷积核下的卷积操作可表示为：

其中w代表卷积核参数。

在本实施例中，在本维卷积网络中，引入了偏置量Δp_n，其中{Δp_n|n＝1,...,N}，N＝|R|，则变形卷积操作可以表示为：

例如，采用双线性插值的表现形式：

p＝p₀+p_n+Δp_n；

其中，p代表任意位置，q代表特征图x上的所有空间位置，G(·，·)代表双线性卷积核，该卷积核可表示为：

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)；

g(a,b)＝max(0,1-|a-b|)。

S103：根据该对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对该运动模糊视频进行复原。

其中，在该根据该对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对该运动模糊视频进行复原之后，还可以包括：

对该经复原后的运动模糊视频进行优化，这样的好处是能够进一步提高运动模糊视频的显示效果。

在本实施例中，运动模糊视频中的模糊图像是由静态视频帧组成，由于人眼具有视觉暂留的原理，当模糊图像超过每秒24帧的时候，视频观看体验是平滑连续的。由于除了模糊图像帧内信息外，模糊图像帧之间既包含了时序信息，也包含了连续时间内视频场景变化信息。

可以发现，在本实施例中，可以将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入，和可以采用三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，以及可以根据该对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对该运动模糊视频进行复原，能够实现有效对运动模糊视频中的物体特征形变进行建模，能够有效提升运动模糊视频复原效果。

进一步的，在本实施例中，可以将运动模糊视频中第一时刻的第一帧模糊图像和该第一帧模糊图像的前两帧模糊图像和后两帧模糊图像共同作为卷积神经网络的输入，这样的好处是能够辅助网络模型包括卷积神经网络复原运动模糊视频中的模糊图像，进而辅助复原运动模糊视频。

进一步的，在本实施例中，可以通过在三维卷积网络的规整卷积核的基础上学习一个偏移量，使得该三维卷积网络的规整卷积核能够基于该多帧模糊图像的当前位置附近进行任意的模糊图像采样，和采用该经在规整卷积核的基础上学习一个偏移量后的三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，这样的好处是能够实现使三维卷积网络的规整卷积核能够基于该多帧模糊图像的当前位置附近进行任意的模糊图像采样，能够提高对作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模的建模能力。

进一步的，在本实施例中，该采用的三维变形卷积网络，可以表示为：

请参见图2，图2是本发明运动模糊视频复原方法另一实施例的流程示意图。本实施例中，该方法包括以下步骤：

S201：将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入。

可如上S101所述，在此不作赘述。

S202：采用三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模。

可如上S102所述，在此不作赘述。

S203：根据该对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对该运动模糊视频进行复原。

可如上S103所述，在此不作赘述。

S204：对该经复原后的运动模糊视频进行优化。

可以发现，在本实施例中，可以对该经复原后的运动模糊视频进行优化，这样的好处是能够进一步提高运动模糊视频的显示效果。

本发明还提供一种运动模糊视频复原装置，能够实现有效对运动模糊视频中的物体特征形变进行建模，能够有效提升运动模糊视频复原效果。

请参见图3，图3是本发明运动模糊视频复原装置一实施例的结构示意图。本实施例中，该运动模糊视频复原装置30包括输入模块31、建模模块32和复原模块33。

该输入模块31，用于将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入。

该建模模块32，用于采用三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模。

该复原模块33，用于根据该对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对该运动模糊视频进行复原。

可选地，该输入模块31，可以具体用于：

将运动模糊视频中第一时刻的第一帧模糊图像和该第一帧模糊图像的前两帧模糊图像和后两帧模糊图像共同作为卷积神经网络的输入。

可选地，该建模模块32，可以具体用于：

通过在三维变形卷积网络的规整卷积核的基础上学习一个偏移量，使得该三维变形卷积网络的规整卷积核能够基于该多帧模糊图像的当前位置附近进行任意的模糊图像采样，和采用该经在规整卷积核的基础上学习一个偏移量后的三维变形卷积网络方式，对该作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模。

可选地，该采用的三维卷积网络，可以表示为：

请参见图4，图4是本发明运动模糊视频复原装置另一实施例的结构示意图。区别于上一实施例，本实施例所述运动模糊视频复原装置40还包括优化模块41。

该优化模块41，用于对该经复原后的运动模糊视频进行优化。

该运动模糊视频复原装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明又提供一种运动模糊视频复原设备，如图5所示，包括：至少一个处理器51；以及，与至少一个处理器51通信连接的存储器52；其中，存储器52存储有可被至少一个处理器51执行的指令，指令被至少一个处理器51执行，以使至少一个处理器51能够执行上述的运动模糊视频复原方法。

其中，存储器52和处理器51采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器51。

处理器51负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种运动模糊视频复原方法，其特征在于，包括：

2.如权利要求1所述的运动模糊视频复原方法，其特征在于，所述将运动模糊视频中的多帧模糊图像共同作为卷积神经网络的输入，包括：

3.如权利要求1所述的运动模糊视频复原方法，其特征在于，所述采用三维变形卷积网络方式，对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行建模，包括：

4.如权利要求3所述的运动模糊视频复原方法，其特征在于，所述采用的三维卷积网络，表示为：

5.如权利要求1所述的运动模糊视频复原方法，其特征在于，在所述根据所述对所述作为卷积神经网络的输入的多帧模糊图像的物体特征形变进行的建模，对所述运动模糊视频进行复原之后，还包括：

对所述经复原后的运动模糊视频进行优化。

6.一种运动模糊视频复原装置，其特征在于，包括：

输入模块、建模模块和复原模块；

7.如权利要求6所述的运动模糊视频复原装置，其特征在于，所述输入模块，具体用于：

8.如权利要求6所述的运动模糊视频复原装置，其特征在于，所述建模模块，具体用于：

9.如权利要求8所述的运动模糊视频复原装置，其特征在于，所述采用的三维卷积网络，表示为：

10.如权利要求6所述的运动模糊视频复原装置，其特征在于，所述运动模糊视频复原装置，还包括：

优化模块；