CN111681177B

CN111681177B - 视频处理方法及装置、计算机可读存储介质、电子设备

Info

Publication number: CN111681177B
Application number: CN202010421728.7A
Authority: CN
Inventors: 刘恩雨; 李松南; 刘杉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2022-02-25
Anticipated expiration: 2040-05-18
Also published as: CN111681177A

Abstract

本公开提供了一种视频处理方法及装置、计算机可读存储介质、电子设备。该视频处理方法包括：获取待处理视频；对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像；通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数；利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像；根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频。本公开提供的方案可以提高视频处理的效率以及质量。本公开实施例的技术方案涉及人工智能和云技术。

Description

视频处理方法及装置、计算机可读存储介质、电子设备

技术领域

本公开涉及视频处理技术领域，具体而言，涉及一种视频处理方法及装置、计算机可读存储介质、电子设备。

背景技术

视频中图像的颜色越鲜艳，就越吸引人。同时，由于摄影时的照明不足、拍摄设备差、恶劣天气等各种因素的影响，视频中图像的颜色可能会褪色和失真，严重影响视频的质量。因此，对视频进行颜色增强是必要的。

相关技术中，对视频进行颜色增强，大部分的技术都是使用图像处理软件，如photoshop、lightrooμ等，通过传统方法，例如利用公式调整对比度、饱和度、亮度、色调、曝光、灰度、高光和阴影等，一方面，这些方法不能够学习视频中图像的语义信息，对于有色偏的图像不能够自动学习及调整。同时该类方法对于过暗和过曝区域无法很好地修复和处理。另一方面，上述颜色增强的强度需要用户手动设置，视频中不同图像需要调整的参数是不同的，如果用户对视频中所有图像使用相同的调整参数，可能导致糟糕的颜色增强效果。如果用户手动对视频中不同的图像分别进行调整，则可能导致同一视频中相邻帧之间的颜色连贯性中断，同时也需要耗费大量时间。

因此，需要一种新的视频处理方法及装置、计算机可读存储介质、电子设备。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开实施例提供一种视频处理方法及装置、计算机可读存储介质、电子设备，能够提高视频处理的效率以及质量。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提供一种视频处理方法，所述方法包括：获取待处理视频；对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像；通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数；利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像；根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频。

本公开实施例提供一种视频处理装置，所述装置包括：待处理视频获取单元，用于获取待处理视频；第一场景图像获取单元，用于对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像；第一增强参数获得单元，用于通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数；第一增强图像获得单元，用于利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像；增强视频获得单元，用于根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频。

在本公开的一些示例性实施例中，第一场景图像获取单元可以包括：连续视频片段获得单元，可以用于对所述待处理视频进行场景切割，获得所述第一场景的连续视频片段；视频片段分帧单元，可以用于对所述第一场景的连续视频片段进行分帧，提取所述第一首帧图像和所述第一连续帧图像。

在本公开的一些示例性实施例中，所述神经网络模型可以包括第一特征抽取结构、全局信息融合结构、第二特征抽取结构和参数压缩结构。其中，第一增强参数获得单元可以包括：第一下采样特征图获得单元，可以用于通过所述第一特征抽取结构对所述第一首帧图像进行处理，获得第一下采样特征图；多尺度特征图获得单元，可以用于通过所述全局信息融合结构对所述第一下采样特征图进行处理，获得多尺度特征图；第二下采样特征图获得单元，可以用于通过所述第二特征抽取结构对所述多尺度特征图进行处理，获得第二下采样特征图；第一输出特征图获得单元，可以用于通过所述参数压缩结构对所述第二下采样特征图进行处理，获得第一输出特征图；第一增强参数获取单元，可以用于对所述第一输出特征图进行尺度调整，获得所述第一增强参数。

在本公开的一些示例性实施例中，所述全局信息融合结构包括至少两个空洞卷积层，且每个空洞卷积层中的空洞卷积的空洞率互不相同。

在本公开的一些示例性实施例中，所述至少两个空洞卷积层包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第一空洞卷积层可以包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层可以包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层可以包括具有第三空洞率的第三空洞卷积，所述第一空洞率、所述第二空洞率和所述第三空洞率互不相同。

在本公开的一些示例性实施例中，所述全局信息融合结构包括至少两个空洞卷积结构，所述至少两个空洞卷积结构中的空洞卷积的空洞率呈现循环结构，且每个空洞卷积结构中的空洞卷积的空洞率互不相同。

在本公开的一些示例性实施例中，所述至少两个空洞卷积结构包括第一空洞卷积结构和第二空洞卷积结构，所述第一空洞卷积结构包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第二空洞卷积结构包括第四空洞卷积层、第五空洞卷积层和第六空洞卷积层，所述第一空洞卷积层包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层包括具有第三空洞率的第三空洞卷积，所述第四空洞卷积层包括具有所述第一空洞率的第四空洞卷积，所述第五空洞卷积层包括具有所述第二空洞率的第五空洞卷积，所述第六空洞卷积层包括具有所述第三空洞率的第六空洞卷积，其中，所述第一空洞卷积的第一空洞率、所述第二空洞卷积的第二空洞率、所述第三空洞卷积的第三空洞率与所述第四空洞卷积的第一空洞率、所述第五空洞卷积的第二空洞率、所述第六空洞卷积的第三空洞率呈现所述循环结构。

在本公开的一些示例性实施例中，所述神经网络模型可以包括第一分支和第二分支。其中，第一增强参数获得单元可以包括：第一输出特征子图获得单元，可以用于通过所述第一分支对所述第一首帧图像进行处理，获得第一输出特征子图；第二输出特征子图获得单元，可以用于通过所述第二分支对所述第一首帧图像进行处理，获得第二输出特征子图；第二输出特征图获得单元，可以用于根据所述第一输出特征子图和所述第二输出特征子图，获得第二输出特征图；特征图尺度调整单元，可以用于对所述第二输出特征图进行尺度调整，获得所述第一增强参数。

在本公开的一些示例性实施例中，第一增强图像获得单元可以包括：初始颜色通道值提取单元，可以用于提取所述第一首帧图像的像素点的初始颜色通道值；颜色增强向量获得单元，可以用于根据所述初始颜色通道值获得颜色增强向量；第一首帧增强图像获得单元，可以用于根据所述第一增强参数、所述颜色增强向量和所述初始颜色通道值，获得所述像素点的增强颜色通道值，以获得所述第一首帧增强图像。

在本公开的一些示例性实施例中，增强视频获得单元可以包括：第二场景图像获得单元，可以用于对所述待处理视频进行处理，获得第二场景的第二首帧图像及其第二连续帧图像；第二增强参数获得单元，可以用于通过所述神经网络模型对所述第二首帧图像进行处理，获得第二增强参数；第二增强图像获得单元，可以用于利用所述第二增强参数分别对所述第二首帧图像和所述第二连续帧图像进行处理，获得第二首帧增强图像和第二连续帧增强图像；颜色增强视频获取单元，可以用于顺序拼接所述第一首帧增强图像、所述第一连续帧增强图像、所述第二首帧增强图像和所述第二连续帧增强图像，获得所述待处理视频的增强视频。

本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中所述的视频处理方法。

本公开实施例提供了一种电子设备，包括：至少一个处理器；存储装置，配置为存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如上述实施例中所述的视频处理方法。

在本公开的一些实施例所提供的技术方案中，一方面，通过对待处理视频进行处理，获得第一场景的第一首帧图像及其后续的第一连续帧图像，然后通过神经网络模型对该第一场景的第一首帧图像进行处理，获得第一增强参数，即利用神经网络模型估计视频中图像的增强参数，能够结合图像的语义信息，自适应地调整图像增强的强度、色偏校正的方向，也能够很好地处理过暗和过曝区域；另一方面，可以利用该第一场景的第一首帧图像的第一增强参数分别应用于该第一场景的第一首帧图像和其第一连续帧图像，获得第一首帧增强图像和第一连续帧增强图像，既保持了帧间颜一致性，同时对于一段连贯的视频不需要对每一帧图像都经过神经网络模型计算，只需要利用神经网络模型对这一段连贯的视频的首帧图像进行处理即可，极大的节省了视频颜色增强的处理时间，在保证视频颜色增强效果的前提下，节省了计算资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的视频处理方法或视频处理装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一实施例的视频处理方法的流程图；

图4示意性示出了根据本公开的一实施例的视频处理方法的流程示意图；

图5示意性示出了根据本公开的一实施例的神经网络模型的示意图；

图6示意性示出了根据本公开的一实施例的神经网络模型的示意图；

图7示意性示出了未采用本公开实施例提供的方法进行处理的原视频帧；

图8示意性示出了采用本公开实施例提供的方法进行处理的增强后的视频帧；

图9示意性示出了根据本公开的一实施例的视频处理装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在至少一个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本说明书中，用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在至少一个要素/组成部分/等；用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”、“第二”和“第三”等仅作为标记使用，不是对其对象的数量限制。

下面结合附图对本公开示例实施方式进行详细说明。

图1示出了可以应用于本公开实施例的视频处理装置或视频处理方法的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

服务器105可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101、102、103可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备101、102、103以及服务器105可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

服务器105可例如接收终端设备101(也可以是终端设备102、103)发送的待处理视频；对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像；通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数；利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像；根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频。服务器105可以将增强视频返回至终端设备101，以在终端设备101的屏幕上显示。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，服务器105可以是一个实体的服务器，还可以为多个服务器组成，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图2，其示出了适于用来实现本申请实施例的终端设备的计算机系统200的结构示意图。图2示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统200操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备可实现功能包括：获取待处理视频；对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像；通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数；利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像；根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频。

需要理解的是，在本公开附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及云技术和人工智能的计算机视觉、机器学习等技术，具体通过如下实施例进行说明:

基于深度学习的方法，利用卷积神经网络来学习图像颜色增强模型能够更加智能地对图像进行颜色增强，而不需要手动调节参数，但是，相关技术中，将深度学习处理颜色增强的方法，从图像迁移到视频处理时，至少存在以下两个技术问题，一是深度学习模型是对单帧图像进行处理，因此在处理视频时，视频的相邻帧会出现颜色不连贯、色彩跳变的问题；二是深度学习网络较大，若利用深度学习网络对视频的每帧图像分别进行颜色增强处理，会非常耗时，会耗费大量的计算资源。

基于上述相关技术中存在的技术问题，本公开实施例提出了一种视频处理方法，以用于至少部分解决上述问题。本公开实施例提供的方法可以由任意的电子设备来执行，可应用于服务器端、终端设备上的视频处理模块，例如上述图1中的服务器105，或者终端设备101、102和103中的任意一者或者多者，或者服务器105与终端设备之间进行交互，本公开对此不做限定。

图3示意性示出了根据本公开的一实施例的视频处理方法的流程图。如图3所示，本公开实施例提供的方法可以包括以下步骤。

在步骤S310中，获取待处理视频。

本公开实施例中，待处理视频可以是任意的当前需要进行颜色增强处理的视频，其可以是游戏视频、自拍视频、舞蹈视频、教育视频等中的任意一个，本公开对待处理视频的应用场景不做限定。

在步骤S320中，对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像。

在示例性实施例中，对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像，可以包括：对所述待处理视频进行场景切割，获得所述第一场景的连续视频片段；对所述第一场景的连续视频片段进行分帧，提取所述第一首帧图像和所述第一连续帧图像。

本公开实施例中，可以检测待处理视频中是否存在场景切变，对待处理视频进行切割，切割成至少一个场景，例如n个场景，n为大于或等于1的正整数，当n＝1时，表明该待处理视频不存在场景切变，当n大于1时，表明该待处理视频存在场景切变。其中，针对场景切变的位置，对待处理视频进行切割，切割后的每个短视频(这里的“短”是相比于原待处理视频的长度而言的)是对应场景的连续视频片段，每个短视频中的各帧图像就是连续的，并将每个短视频中的第一帧称之为该对应场景的首帧图像，每个短视频中除首帧图像之后的各个帧可以称之为该对应场景的连续帧图像，每个场景的连续帧图像可以包括至少一帧图像。

例如，假设待处理视频为一段录像，镜头没有暂停，画面是连续的，则为该待处理视频中的各个帧是连续帧。如果该待处理视频是电影或者电视剧等，从一个镜头切到另一个镜头，例如，当从片头曲切到正片，画面不是连续的，则发生了场景切变。针对场景切变的位置，对待处理视频进行切割，切割后的每个短视频就是连续的。

可以理解的是，本公开实施例中提及的首帧图像并不限定是切割后的各个场景的第一帧图像，还可能对切割后的各个短视频进行其它处理，例如从切割后的各个短视频中截取部分图像，则这里的首帧图像可以是指进行其它处理后的短视频的第一帧图像。甚至，本公开实施例中，各个场景的首帧图像还可以是各个场景中的任意一帧图像，只要是利用本公开实施例提供的神经网络模型进行处理以输出其对应的增强参数的图像，即可称之为本公开实施例的该对应场景的首帧图像，而利用该首帧图像的增强参数进行颜色增强的其它帧可以称之为该对应场景的连续帧图像。在下面的举例说明中，均以首帧图像为各个场景的第一帧图像为例进行举例说明。

本公开实施例中，第一场景可以是上述n个场景中的任意一个场景，第一首帧图像可以是n个场景中的任意一个场景的首帧图像，第一连续帧图像可以是n个场景中的任意一个场景中除其首帧图像以外的任意一帧或者多帧图像。在下面的举例说明中，以第一场景为n个场景中的第一个场景为例进行举例说明，但本公开并不限定于此。

在步骤S330中，通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数。

在示例性实施例中，所述神经网络模型可以包括第一特征抽取结构、全局信息融合结构、第二特征抽取结构和参数压缩结构。其中，通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数，可以包括：通过所述第一特征抽取结构对所述第一首帧图像进行处理，获得第一下采样特征图；通过所述全局信息融合结构对所述第一下采样特征图进行处理，获得多尺度特征图；通过所述第二特征抽取结构对所述多尺度特征图进行处理，获得第二下采样特征图；通过所述参数压缩结构对所述第二下采样特征图进行处理，获得第一输出特征图；对所述第一输出特征图进行尺度调整，获得所述第一增强参数。

在示例性实施例中，所述全局信息融合结构可以包括至少两个空洞卷积层，且每个空洞卷积层中的空洞卷积的空洞率互不相同。

在示例性实施例中，所述至少两个空洞卷积层可以包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第一空洞卷积层可以包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层可以包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层可以包括具有第三空洞率的第三空洞卷积，所述第一空洞率、所述第二空洞率和所述第三空洞率互不相同。

本公开实施例的神经网络模型可以只包括一个分支，且这个分支可以包括至少两个空洞卷积层，在下面的举例说明中，以这个分支包括三层空洞卷积层为例进行举例说明，但本公开并不限定于此，每层空洞卷积层都可以包括一个不同空洞率的空洞卷积。在下面的举例说明中，以第一空洞率、第二空洞率和第三空洞率分别为1，2和3为例进行举例说明，但本公开并不限定于此，只要这三个空洞率没有大于1的公约数即可，例如还可以设置为1，2和5等等。

在示例性实施例中，所述全局信息融合结构可以包括至少两个空洞卷积结构，所述至少两个空洞卷积结构中的空洞卷积的空洞率呈现循环结构，且每个空洞卷积结构中的空洞卷积的空洞率互不相同。

在示例性实施例中，所述至少两个空洞卷积结构可以包括第一空洞卷积结构和第二空洞卷积结构，所述第一空洞卷积结构可以包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第二空洞卷积结构可以包括第四空洞卷积层、第五空洞卷积层和第六空洞卷积层，所述第一空洞卷积层可以包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层可以包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层可以包括具有第三空洞率的第三空洞卷积，所述第四空洞卷积层可以包括具有所述第一空洞率的第四空洞卷积，所述第五空洞卷积层可以包括具有所述第二空洞率的第五空洞卷积，所述第六空洞卷积层可以包括具有所述第三空洞率的第六空洞卷积。其中，所述第一空洞卷积的第一空洞率、所述第二空洞卷积的第二空洞率、所述第三空洞卷积的第三空洞率与所述第四空洞卷积的第一空洞率、所述第五空洞卷积的第二空洞率、所述第六空洞卷积的第三空洞率呈现所述循环结构。

本公开实施例中，神经网络模型中的空洞卷积可以多于两层，且若增加至多于二层空洞卷积的话，可以设计成锯齿状结构，例如，若为四层空洞卷积，则这四层空洞卷积的空洞率可以分别为[1,2,1,2]或者[1,5,1,5]等循环结构。再例如，若为六层空洞卷积，则这六层空洞卷积的空洞率可以分别呈现为[1,2,3,1,2,3]或者[1,2,5,1,2,5]等循环结构；或者，这六层空洞卷积的空洞率可以分别呈现为[1,2,1,2,1,2]或者[1,5,1,5,1,5]等循环结构。再例如，若为八层空洞卷积，则这八层空洞卷积的空洞率可以分别呈现为[1,2,3,5,1,2,3,5]等循环结构；或者，这八层空洞卷积的空洞率可以分别呈现为[1,2,1,2,1,2,1,2]或者[1,5,1,5,1,5,1,5]等循环结构。

在示例性实施例中，所述神经网络模型可以包括第一分支和第二分支。其中，通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数，可以包括：通过所述第一分支对所述第一首帧图像进行处理，获得第一输出特征子图；通过所述第二分支对所述第一首帧图像进行处理，获得第二输出特征子图；根据所述第一输出特征子图和所述第二输出特征子图，获得第二输出特征图；对所述第二输出特征图进行尺度调整，获得所述第一增强参数。

本公开实施例提供的神经网络模型可以具有多个分支，例如m个分支，m为大于或等于2的正整数。每个分支可以具有相同的网络结构，例如每个分支分别包括上述第一特征抽取结构、全局信息融合结构、第二特征抽取结构和参数压缩结构。分支的个数可根据实际情况进行调节，当分支数m越大，则颜色增强的效果越好；m越小，则计算量越小越省时且节约计算资源。

本公开实施例提供的神经网络模型的结构例如可以参照下图5和6实施例。

在步骤S340中，利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像。

在示例性实施例中，利用所述第一增强参数对所述第一首帧图像进行处理，获得第一首帧增强图像，可以包括：提取所述第一首帧图像的像素点的初始颜色通道值；根据所述初始颜色通道值获得颜色增强向量；根据所述第一增强参数、所述颜色增强向量和所述初始颜色通道值，获得所述像素点的增强颜色通道值，以获得所述第一首帧增强图像。

本公开实施例中，以三通道的RGB(red，green，blue)颜色通道为例进行举例说明，但本公开并不限定于此。利用本公开实施例提出的一种新的神经网络模型，估计待处理视频的各个场景的首帧图像的增强参数，并将该增强参数应用于该场景的所有的连续帧图像，例如，可以将第一场景的第一首帧图像的增强参数(这里的增强参数是一个全局参数)分别与第一首帧图像、各个第一连续帧图像的各个像素点的RGB三通道组成的像素矩阵相乘，获得第一首帧增强图像和各个第一连续帧增强图像，即在视频处理时，将每个连续视频片段的增强参数应用于对应连续视频片段后面的每一帧。

在步骤S350中，根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频。

在示例性实施例中，根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频，可以包括：对所述待处理视频进行处理，获得第二场景的第二首帧图像及其第二连续帧图像；通过所述神经网络模型对所述第二首帧图像进行处理，获得第二增强参数；利用所述第二增强参数分别对所述第二首帧图像和所述第二连续帧图像进行处理，获得第二首帧增强图像和第二连续帧增强图像；顺序拼接所述第一首帧增强图像、所述第一连续帧增强图像、所述第二首帧增强图像和所述第二连续帧增强图像，获得所述待处理视频的增强视频。

本公开实施方式提供的视频处理方法，一方面，通过对待处理视频进行处理，获得第一场景的第一首帧图像及其后续的第一连续帧图像，然后通过神经网络模型对该第一场景的第一首帧图像进行处理，获得第一增强参数，即利用神经网络模型估计视频中图像的增强参数，能够结合图像的语义信息，自适应地调整图像增强的强度、色偏校正的方向，也能够很好地处理过暗和过曝区域；另一方面，可以利用该第一场景的第一首帧图像的第一增强参数分别应用于该第一场景的第一首帧图像和其第一连续帧图像，获得第一首帧增强图像和第一连续帧增强图像，既保持了帧间颜一致性，同时对于一段连贯的视频不需要对每一帧图像都经过神经网络模型计算，只需要利用神经网络模型对这一段连贯的视频的首帧图像进行处理即可，极大的节省了视频颜色增强的处理时间，在保证视频颜色增强效果的前提下，节省了计算资源。

图4示意性示出了根据本公开的一实施例的视频处理方法的流程示意图。图4实施例中，以原待处理视频为一个长视频，其中包括多个场景为例进行举例说明。图4实施例提供的方法可以包括以下步骤。

步骤1、对待处理视频进行场景切割，并分别提取各个场景的首帧图像。

图4实施例中，对一段长视频进行切割，切割主要依据的是镜头或画面场景是否出现切换。例如可利用帧差法等方式进行判断。这样得到一段一段的连续视频片段。接着，对切割得到的各个连续视频片段进行分帧，提取其第一帧作为首帧图像用来估计各个场景的增强参数。或者，若待处理视频为一段短视频，没有镜头或画面场景的切换，则取其第一帧用来估计增强参数。

例如，场景切割后获得场景1至场景n的连续视频片段，进行首帧提取后，获得场景1的首帧图像1，场景2的首帧图像2，…，场景n的首帧图像n。

步骤2、分别将各个场景的首帧图像输入到神经网络模型中得到各个场景的增强参数(以下用O表示)。

例如，将首帧图像1输入至神经网络模型，模型输出场景1的增强参数1(第一增强参数)；将首帧图像2输入至神经网络模型，模型输出场景2的增强参数2(第二增强参数)；…；将首帧图像n输入至神经网络模型，模型输出场景n的增强参数n。

本公开实施例中，分别将各个场景的首帧图像输入到神经网络模型。对于神经网络模型分训练和测试两个阶段。在训练阶段可以通过训练集，学习从输入图像集到目标增强参数集的映射规律。对于训练集，可以选择公开的图像集，如MIT-Adobe-5K等广泛适应的训练集；也可以自行制作，如搜集图像，再利用人工或算法对其进行颜色增强，得到匹配的目标增强参数集；或搜集高清色彩鲜艳的图像，再利用人工或算法将图像的色彩做退化处理，如降低对比度、亮度、饱和度等。

同时，因为神经网络模型估计的增强参数是全局参数，因此可以先对输入至神经网络模型的图像I进行统一的下采样操作，来减少计算量。本公开实施例中通过下采样，将输入至神经网络模型的图像I的大小设置为w×h，其中w为图像I的宽度，h为图像I的高度，在下面的举例说明中，假设w＝h＝256，即图像I的大小为256×256，但本公开并不限定于此，其他值同样可选，也可以将图像原尺寸输入至神经网络模型。因此，在下面的神经网络模型示意图中，在训练阶段的输入图像的宽w和高h均为256。

步骤3、利用各个场景的增强参数O重建颜色增强后的视频帧。

本公开实施例中，提取各个场景的每帧图像(例如第一场景的第一首帧图像和第一连续帧图像)的每个像素点p_i的RGB值(初始颜色通道值)。计算一个10×1的向量(颜色增强向量)，定义为[R,G,B,R²,G²,B²,R×G,G×B,B×R,1],输出的对应像素点的RGB值p_o可以利用以下公式(1)计算：

p_o＝O×[R,G,B,R2,G2,B2,R*G,G*B,B*R,1]+p_i (1)

利用上述公式(1)处理各个场景的每帧图像的所有像素点后，即可获得对应帧图像的增强图像。即颜色增强向量与之前得到的增强参数矩阵O相乘得到新的增强的像素点的RGB值。增强参数矩阵O维度为3*10，颜色增强向量维度为10*1，相乘后维度为3*1，再与原始的每帧图像的像素点的RGB值相加，原始的每帧图像像素点的RGB值p_i的维度同样为3*1，得到输出的增强后的像素点的RGB值p_o，维度为3*1,也即R、G、B的值。

步骤4、根据各个场景的增强后的视频帧，重建增强视频，即修复后长视频。

本公开实施例中，将各个场景的首帧图像的全局的增强参数应用于对应场景的首帧图像及其各个连续帧图像，对对应场景的首帧图像及其各个连续帧图像进行颜色增强。

具体的，将场景1的全局的增强参数O存储到内存空间，作为常量进行引用并传递到场景1的每张连续帧图像，当场景1的首帧图像1根据公式(1)计算并增强之后，再将场景1的首帧图像1的下一帧的所有像素输入到公式(1)当中。以此类推，处理场景1的各个第一连续帧图像。当处理到场景2的首帧图像2时，重新回到步骤2，将首帧图像2输入至神经网络模型，模型输出首帧图像2的增强参数O，将首帧图像2的增强参数O存储起来，以被后续使用，当场景2的首帧图像2根据公式(1)计算并增强之后，再将场景2的首帧图像2的下一帧的所有像素输入到公式(1)当中。类似的，直至完成长视频的场景n的颜色增强处理。然后，将场景1至n增强后的视频帧图像按顺序合并即获得修复后长视频。

图5示意性示出了根据本公开的一实施例的神经网络模型的示意图。

图5实施例中，神经网络模型假设只有一个分支。在该神经网络模型中，先经过3层下采样层(第一特征抽取结构)，每个下采样层可以包括卷积层和Relu(Rectified LinearUnit，线性整流函数)层。第一特征抽取结构用于将输入的图像I的宽w和高h缩小，每经过一层下采样层，图像I的宽和高缩小一半，而图像的通道数相应增加。

例如，假设输入图像I的尺寸为3×w×h，第一特征抽取结构的第一个下采样层输出的特征图的尺寸为

第二个下采样层输出的特征图的尺寸为

第三个下采样层输出的第一下采样特征图的尺寸为

再经过三层空洞卷积层(图5实施例中以全局信息融合结构包括三层空洞卷积层为例进行举例说明，但本公开并不限定于此)，每个空洞卷积层由空洞卷积和Relu层组成。三层空洞卷积的空洞率假设分别为1，2，3。经过三层空洞卷积层后，图像的宽和高维持不变(仍然为

)，通道数进一步加深，例如，第一空洞卷积层输出的特征图的通道数为64，第二空洞卷积层输出的特征图的通道数为80，第三空洞卷积层输出的多尺度特征图的通道数为96。图5实施例中，三层不同空洞率的空洞卷积层的组合，能够融合图像的全局信息，从多尺度提取图像的特征。

之后再经过两层下采样层(第二特征抽取结构)，图像的宽和高进一步缩小。例如，第二特征抽取结构的第一个下采样层输出的特征图的尺寸为

第二个下采样层输出的第二下采样特征图的尺寸为

再经过一层卷积层后，图像的宽和高不变(仍然为

)，通道数加深达到最大192。再经过池化层和卷积层后，图像的宽和高变为1，通道数不变，仍然为192。

最后通过两层全连接层和softmax层将通道数进一步减少，最终减到30，输出的特征为30×1×1。

再将30×1×1的特征调整尺度变为3×10的特征，其为该输入的图像I对应的增强参数，标记为O。

图6示意性示出了根据本公开的一实施例的神经网络模型的示意图。

图6实施例与上述图5实施例的不同之处在于，包括多个分支。这里以m＝5为例进行举例说明，但本公开并不限定于此。

假设输入的图像I的尺寸是原图像下采样后3通道的256×256。每个分支的组成结构相同，因此，以五个分支中的任意一个分支为例进行举例说明。第一特征抽取结构的第一个下采样层包括卷积核大小为5×5的卷积层和Relu层，第二个下采样层和第三个下采样层使用卷积核大小为3×3的卷积层，且步长均为2。第二个下采样层和第三个下采样层的每个卷积层后面接着批归一化(Batch Normalization，BN)层和Relu层。

接着，利用第一特征抽取结构下采样后的48×32×32尺寸的特征图，通过全局信息融合结构进行上下文聚合，扩展至96×32×32尺寸的特征图。图6实施例中，全局信息融合结构中包括三个空洞卷积层，三个空洞卷积层被添加在一些卷积核大小为3×3的卷积层中间，假设空洞率分别为1，2和3。这个三种空洞率的特殊组合可以定义为混合空洞卷积(hybrid dilated convolution，HDC)框架。它能放大网络的感受野和聚合全局信息，减少通常的空洞卷积操作的网格问题。

之后，对全局信息融合结构输出的特征图进行特征提取，并进一步通过第二特征抽取结构将特征图的尺寸从96×32×32变换至192×8×8，第二特征抽取结构的两个下采样层的卷积核大小均为3×3，步长分别为2和1。

最后是参数压缩，在这个阶段，参数的维度被压缩。一个核大小为8的平均池化层用于将尺寸为192×8×8的特征图减少至192×1×1的向量，后面连接一个卷积核大小为1×1的卷积层和另一个Relu层。最后这个向量通过一个全连接层和一个softmax层被减少成30×1×1。

对五个分支进行类似的处理，因此，从五个分支获得5个30×1×1向量。将每一维的值重新计算，该值为5个30*1*1向量中相应维度的值的平均值，得到平均后的30*1*1的特征。

再将平均后的30*1*1的特征调整尺度变为3*10的特征，其为增强参数，定义为O。

图7示意性示出了未采用本公开实施例提供的方法进行处理的原视频帧。图8示意性示出了采用本公开实施例提供的方法进行处理的增强后的视频帧。

本公开实施例提供的视频处理方法，通过神经网络模型来估计中间的增强参数，而不是利用神经网络模型来直接估计增强图像，使得方案易于实现。同时，通过提供一个带有多尺度空洞卷积层、多分支的神经网络模型来估计全局的增强参数，空洞卷积的添加增强了聚合全局信息的能力，扩大了感受野并获得了更多细节，从而使得利用全局的增强参数来进行视频中图像的颜色增强，以获得的增强视频，能够保持和修复更多细节。将本公开实施例提供的方案应用于视频，可以有效避免闪烁(flicker)并保持相邻帧的色彩一致性。

图9示意性示出了根据本公开的一实施例的视频处理装置的框图。如图9所示，本公开实施例提供的视频处理装置900可以包括待处理视频获取单元910、第一场景图像获取单元920、第一增强参数获得单元930、第一增强图像获得单元940以及增强视频获得单元950。

本公开实施例中，待处理视频获取单元910可以用于获取待处理视频。第一场景图像获取单元920可以用于对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像。第一增强参数获得单元930可以用于通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数。第一增强图像获得单元940可以用于利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像。增强视频获得单元950可以用于根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频。

在示例性实施例中，第一场景图像获取单元920可以包括：连续视频片段获得单元，可以用于对所述待处理视频进行场景切割，获得所述第一场景的连续视频片段；视频片段分帧单元，可以用于对所述第一场景的连续视频片段进行分帧，提取所述第一首帧图像和所述第一连续帧图像。

在示例性实施例中，所述神经网络模型可以包括第一特征抽取结构、全局信息融合结构、第二特征抽取结构和参数压缩结构。其中，第一增强参数获得单元930可以包括：第一下采样特征图获得单元，可以用于通过所述第一特征抽取结构对所述第一首帧图像进行处理，获得第一下采样特征图；多尺度特征图获得单元，可以用于通过所述全局信息融合结构对所述第一下采样特征图进行处理，获得多尺度特征图；第二下采样特征图获得单元，可以用于通过所述第二特征抽取结构对所述多尺度特征图进行处理，获得第二下采样特征图；第一输出特征图获得单元，可以用于通过所述参数压缩结构对所述第二下采样特征图进行处理，获得第一输出特征图；第一增强参数获取单元，可以用于对所述第一输出特征图进行尺度调整，获得所述第一增强参数。

在示例性实施例中，所述全局信息融合结构可以包括至少两个空洞卷积层，且每个空洞卷积层中的空洞卷积的空洞率可以互不相同。

在示例性实施例中，所述全局信息融合结构可以包括至少两个空洞卷积结构，所述至少两个空洞卷积结构中的空洞卷积的空洞率可以呈现循环结构，且每个空洞卷积结构中的空洞卷积的空洞率可以互不相同。

在示例性实施例中，所述至少两个空洞卷积结构包括第一空洞卷积结构和第二空洞卷积结构，所述第一空洞卷积结构包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第二空洞卷积结构可以包括第四空洞卷积层、第五空洞卷积层和第六空洞卷积层，所述第一空洞卷积层包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层包括具有第三空洞率的第三空洞卷积，所述第四空洞卷积层可以包括具有所述第一空洞率的第四空洞卷积，所述第五空洞卷积层可以包括具有所述第二空洞率的第五空洞卷积，所述第六空洞卷积层可以包括具有所述第三空洞率的第六空洞卷积，其中，所述第一空洞卷积的第一空洞率、所述第二空洞卷积的第二空洞率、所述第三空洞卷积的第三空洞率与所述第四空洞卷积的第一空洞率、所述第五空洞卷积的第二空洞率、所述第六空洞卷积的第三空洞率呈现所述循环结构。

在示例性实施例中，所述神经网络模型可以包括第一分支和第二分支。其中，第一增强参数获得单元930可以包括：第一输出特征子图获得单元，可以用于通过所述第一分支对所述第一首帧图像进行处理，获得第一输出特征子图；第二输出特征子图获得单元，可以用于通过所述第二分支对所述第一首帧图像进行处理，获得第二输出特征子图；第二输出特征图获得单元，可以用于根据所述第一输出特征子图和所述第二输出特征子图，获得第二输出特征图；特征图尺度调整单元，可以用于对所述第二输出特征图进行尺度调整，获得所述第一增强参数。

在示例性实施例中，第一增强图像获得单元940可以包括：初始颜色通道值提取单元，可以用于提取所述第一首帧图像的像素点的初始颜色通道值；颜色增强向量获得单元，可以用于根据所述初始颜色通道值获得颜色增强向量；第一首帧增强图像获得单元，可以用于根据所述第一增强参数、所述颜色增强向量和所述初始颜色通道值，获得所述像素点的增强颜色通道值，以获得所述第一首帧增强图像。

在示例性实施例中，增强视频获得单元950可以包括：第二场景图像获得单元，可以用于对所述待处理视频进行处理，获得第二场景的第二首帧图像及其第二连续帧图像；第二增强参数获得单元，可以用于通过所述神经网络模型对所述第二首帧图像进行处理，获得第二增强参数；第二增强图像获得单元，可以用于利用所述第二增强参数分别对所述第二首帧图像和所述第二连续帧图像进行处理，获得第二首帧增强图像和第二连续帧增强图像；颜色增强视频获取单元，可以用于顺序拼接所述第一首帧增强图像、所述第一连续帧增强图像、所述第二首帧增强图像和所述第二连续帧增强图像，获得所述待处理视频的增强视频。

本公开实施例的视频处理装置的其它内容可以参照上述实施例。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频；

对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像；

通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数；

利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像；

根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频；

所述神经网络模型包括第一特征抽取结构、全局信息融合结构、第二特征抽取结构和参数压缩结构；其中，通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数，包括：

通过所述第一特征抽取结构对所述第一首帧图像进行处理，获得第一下采样特征图；

通过所述全局信息融合结构对所述第一下采样特征图进行处理，获得多尺度特征图，所述全局信息融合结构包括至少两个空洞卷积层，各个空洞卷积层依次串行对所述第一下采样特征图进行处理；

通过所述第二特征抽取结构对所述多尺度特征图进行处理，获得第二下采样特征图；

通过所述参数压缩结构对所述第二下采样特征图进行处理，获得第一输出特征图；

对所述第一输出特征图进行尺度调整，获得所述第一增强参数。

2.根据权利要求1所述的视频处理方法，其特征在于，每个空洞卷积层中的空洞卷积的空洞率互不相同。

3.根据权利要求2所述的视频处理方法，其特征在于，所述至少两个空洞卷积层包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第一空洞卷积层包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层包括具有第三空洞率的第三空洞卷积，所述第一空洞率、所述第二空洞率和所述第三空洞率互不相同。

4.根据权利要求1所述的视频处理方法，其特征在于，所述全局信息融合结构包括至少两个空洞卷积结构，所述至少两个空洞卷积结构中的空洞卷积的空洞率呈现循环结构，且每个空洞卷积结构中的空洞卷积的空洞率互不相同。

5.根据权利要求4所述的视频处理方法，其特征在于，所述至少两个空洞卷积结构包括第一空洞卷积结构和第二空洞卷积结构，所述第一空洞卷积结构包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第二空洞卷积结构包括第四空洞卷积层、第五空洞卷积层和第六空洞卷积层，所述第一空洞卷积层包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层包括具有第三空洞率的第三空洞卷积，所述第四空洞卷积层包括具有所述第一空洞率的第四空洞卷积，所述第五空洞卷积层包括具有所述第二空洞率的第五空洞卷积，所述第六空洞卷积层包括具有所述第三空洞率的第六空洞卷积，其中，所述第一空洞卷积的第一空洞率、所述第二空洞卷积的第二空洞率、所述第三空洞卷积的第三空洞率与所述第四空洞卷积的第一空洞率、所述第五空洞卷积的第二空洞率、所述第六空洞卷积的第三空洞率呈现所述循环结构。

6.根据权利要求1所述的视频处理方法，其特征在于，所述神经网络模型包括第一分支和第二分支；其中，通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数，包括：

通过所述第一分支对所述第一首帧图像进行处理，获得第一输出特征子图；

通过所述第二分支对所述第一首帧图像进行处理，获得第二输出特征子图；

根据所述第一输出特征子图和所述第二输出特征子图，获得第二输出特征图；

对所述第二输出特征图进行尺度调整，获得所述第一增强参数。

7.根据权利要求1所述的视频处理方法，其特征在于，利用所述第一增强参数对所述第一首帧图像进行处理，获得第一首帧增强图像，包括：

提取所述第一首帧图像的像素点的初始颜色通道值；

根据所述初始颜色通道值获得颜色增强向量；

根据所述第一增强参数、所述颜色增强向量和所述初始颜色通道值，获得所述像素点的增强颜色通道值，以获得所述第一首帧增强图像。

8.根据权利要求1所述的视频处理方法，其特征在于，根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频，包括：

对所述待处理视频进行处理，获得第二场景的第二首帧图像及其第二连续帧图像；

通过所述神经网络模型对所述第二首帧图像进行处理，获得第二增强参数；

利用所述第二增强参数分别对所述第二首帧图像和所述第二连续帧图像进行处理，获得第二首帧增强图像和第二连续帧增强图像；

顺序拼接所述第一首帧增强图像、所述第一连续帧增强图像、所述第二首帧增强图像和所述第二连续帧增强图像，获得所述待处理视频的增强视频。

9.根据权利要求1所述的视频处理方法，其特征在于，对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像，包括：

对所述待处理视频进行场景切割，获得所述第一场景的连续视频片段；

对所述第一场景的连续视频片段进行分帧，提取所述第一首帧图像和所述第一连续帧图像。

10.一种视频处理装置，其特征在于，包括：

待处理视频获取单元，用于获取待处理视频；

第一场景图像获取单元，用于对所述待处理视频进行处理，获得第一场景的第一首帧图像及其第一连续帧图像；

第一增强参数获得单元，用于通过神经网络模型对所述第一首帧图像进行处理，获得第一增强参数；

第一增强图像获得单元，用于利用所述第一增强参数分别对所述第一首帧图像和所述第一连续帧图像进行处理，获得第一首帧增强图像和第一连续帧增强图像；

增强视频获得单元，用于根据所述第一首帧增强图像和所述第一连续帧增强图像，获得所述待处理视频的增强视频；

所述神经网络模型包括第一特征抽取结构、全局信息融合结构、第二特征抽取结构和参数压缩结构；其中，所述第一增强参数获得单元包括：

第一下采样特征图获得单元，用于通过所述第一特征抽取结构对所述第一首帧图像进行处理，获得第一下采样特征图；

多尺度特征图获得单元，用于通过所述全局信息融合结构对所述第一下采样特征图进行处理，获得多尺度特征图，所述全局信息融合结构包括至少两个空洞卷积层，各个空洞卷积层依次串行对所述第一下采样特征图进行处理；

第二下采样特征图获得单元，用于通过所述第二特征抽取结构对所述多尺度特征图进行处理，获得第二下采样特征图；

第一输出特征图获得单元，用于通过所述参数压缩结构对所述第二下采样特征图进行处理，获得第一输出特征图；

第一增强参数获取单元，用于对所述第一输出特征图进行尺度调整，获得所述第一增强参数。

11.根据权利要求10所述的视频处理装置，其特征在于，每个空洞卷积层中的空洞卷积的空洞率互不相同。

12.根据权利要求11所述的视频处理装置，其特征在于，所述至少两个空洞卷积层包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第一空洞卷积层包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层包括具有第三空洞率的第三空洞卷积，所述第一空洞率、所述第二空洞率和所述第三空洞率互不相同。

13.根据权利要求10所述的视频处理装置，其特征在于，所述全局信息融合结构包括至少两个空洞卷积结构，所述至少两个空洞卷积结构中的空洞卷积的空洞率呈现循环结构，且每个空洞卷积结构中的空洞卷积的空洞率互不相同。

14.根据权利要求13所述的视频处理装置，其特征在于，所述至少两个空洞卷积结构包括第一空洞卷积结构和第二空洞卷积结构，所述第一空洞卷积结构包括第一空洞卷积层、第二空洞卷积层和第三空洞卷积层，所述第二空洞卷积结构包括第四空洞卷积层、第五空洞卷积层和第六空洞卷积层，所述第一空洞卷积层包括具有第一空洞率的第一空洞卷积，所述第二空洞卷积层包括具有第二空洞率的第二空洞卷积，所述第三空洞卷积层包括具有第三空洞率的第三空洞卷积，所述第四空洞卷积层包括具有所述第一空洞率的第四空洞卷积，所述第五空洞卷积层包括具有所述第二空洞率的第五空洞卷积，所述第六空洞卷积层包括具有所述第三空洞率的第六空洞卷积，其中，所述第一空洞卷积的第一空洞率、所述第二空洞卷积的第二空洞率、所述第三空洞卷积的第三空洞率与所述第四空洞卷积的第一空洞率、所述第五空洞卷积的第二空洞率、所述第六空洞卷积的第三空洞率呈现所述循环结构。

15.根据权利要求10所述的视频处理装置，其特征在于，所述神经网络模型包括第一分支和第二分支；其中，所述第一增强参数获得单元包括：

第一输出特征子图获得单元，用于通过所述第一分支对所述第一首帧图像进行处理，获得第一输出特征子图；

第二输出特征子图获得单元，用于通过所述第二分支对所述第一首帧图像进行处理，获得第二输出特征子图；

第二输出特征图获得单元，用于根据所述第一输出特征子图和所述第二输出特征子图，获得第二输出特征图；

特征图尺度调整单元，用于对所述第二输出特征图进行尺度调整，获得所述第一增强参数。

16.根据权利要求10所述的视频处理装置，其特征在于，所述第一增强图像获得单元包括：

初始颜色通道值提取单元，用于提取所述第一首帧图像的像素点的初始颜色通道值；

颜色增强向量获得单元，用于根据所述初始颜色通道值获得颜色增强向量；

第一首帧增强图像获得单元，用于根据所述第一增强参数、所述颜色增强向量和所述初始颜色通道值，获得所述像素点的增强颜色通道值，以获得所述第一首帧增强图像。

17.根据权利要求10所述的视频处理装置，其特征在于，所述增强视频获得单元包括：

第二场景图像获得单元，用于对所述待处理视频进行处理，获得第二场景的第二首帧图像及其第二连续帧图像；

第二增强参数获得单元，用于通过所述神经网络模型对所述第二首帧图像进行处理，获得第二增强参数；

第二增强图像获得单元，用于利用所述第二增强参数分别对所述第二首帧图像和所述第二连续帧图像进行处理，获得第二首帧增强图像和第二连续帧增强图像；

颜色增强视频获取单元，用于顺序拼接所述第一首帧增强图像、所述第一连续帧增强图像、所述第二首帧增强图像和所述第二连续帧增强图像，获得所述待处理视频的增强视频。

18.根据权利要求10所述的视频处理装置，其特征在于，所述第一场景图像获取单元包括：

连续视频片段获得单元，用于对所述待处理视频进行场景切割，获得所述第一场景的连续视频片段；

视频片段分帧单元，用于对所述第一场景的连续视频片段进行分帧，提取所述第一首帧图像和所述第一连续帧图像。

19.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至9任一项所述的方法。

20.一种电子设备，其特征在于，包括：

至少一个处理器；

存储装置，配置为存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如权利要求1至9中任一项所述的方法。