CN114025198B

CN114025198B - 基于注意力机制的视频卡通化方法、装置、设备及介质

Info

Publication number: CN114025198B
Application number: CN202111313810.9A
Authority: CN
Inventors: 张文雷
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2023-06-27
Anticipated expiration: 2041-11-08
Also published as: CN114025198A

Abstract

本申请涉及人工智能技术领域，揭露一种基于注意力机制的视频卡通化方法、装置、设备及介质，其中方法包括获取待处理视频，并将待处理视频输入到编码器中；基于卷积块和反转残差卷积块对待处理视频进行特征提取，得到高层级特征信息；对高层级特征信息进行降维处理，得到低维度特征信息，并获取低维度特征信息对应的通道权重；将高层级特征信息与通道权重进行向量乘积处理，得到注意力特征编码信息；通过解码器对注意力特征编码信息进行解码处理，得到待处理视频对应的目标视频卡通化结果。本申请不同卷积块对待处理视频对进行级特征提取，减少了特征信息在卷积过程中的损失，有利于提高视频转换成卡通图像的效率。

Description

基于注意力机制的视频卡通化方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于注意力机制的视频卡通化方法、装置、设备及介质。

背景技术

随着短视频用户的不断增加，视频行业迎来前所未有的发展。不同风格的视频大受欢迎，其中卡通滤镜能够将现实视频转换为卡通视频，为用户带来不一样的新体验。

现有视频卡通化处理方式通常是利用生成式对抗网络完成，将真实图像作为输入，生成器网络负责提取图像特征并输出卡通化结果，判别器网络则负责鉴定卡通化结果是否为真实卡通图像。该方案需要将大量的真实图像和卡通图像作为训练数据集，进行对应数据预处理之后，设计相对简单的生成器网络，利用生成器学习真实图像的细节特征，并通过判别器网络和卡通图像进行辨别和监督。然而现有方案需要对大量真实图像和卡通图像进行处理，导致模型计算量过大，导致视频进行卡通化转换的效率较低。现亟需一种能够提高视频卡通化的转换效率。

发明内容

本申请实施例的目的在于提出一种基于注意力机制的视频卡通化方法、装置、设备及介质，以提高视频转换为卡通图像的效率。

为了解决上述技术问题，本申请实施例提供一种基于注意力机制的视频卡通化方法，包括：

获取待处理视频，并将所述待处理视频输入到编码器中，所述编码器包括卷积块和反转残差卷积块；

通过所述卷积块对所述待处理视频进行卷积化处理，以提取所述待处理视频中的低层级特征信息；

通过所述反转残差卷积块对所述低层级特征信息进行深度可分离卷积处理，得到高层级特征信息；

对所述高层级特征信息进行降维处理，得到低维度特征信息，并获取所述低维度特征信息对应的通道权重；

将所述高层级特征信息与所述通道权重进行向量乘积处理，得到注意力特征编码信息；

通过解码器中的反转残差卷积块和卷积块依次对所述注意力特征编码信息进行解码处理，得到所述待处理视频对应的目标视频卡通化结果。

为了解决上述技术问题，本申请实施例提供一种基于注意力机制的视频卡通化装置，包括：

待处理视频获取模块，用于获取待处理视频，并将所述待处理视频输入到编码器中，所述编码器包括卷积块和反转残差卷积块；

低层级特征提取模块，用于通过所述卷积块对所述待处理视频进行卷积化处理，以提取所述待处理视频中的低层级特征信息；

高层级特征提取模块，用于通过所述反转残差卷积块对所述低层级特征信息进行深度可分离卷积处理，得到高层级特征信息；

通道权重获取模块，用于对所述高层级特征信息进行降维处理，得到低维度特征信息，并获取所述低维度特征信息对应的通道权重；

特征编码信息生成模块，用于将所述高层级特征信息与所述通道权重进行向量乘积处理，得到注意力特征编码信息；

卡通化结果生成模块，用于通过解码器中的反转残差卷积块和卷积块依次对所述注意力特征编码信息进行解码处理，得到所述待处理视频对应的目标视频卡通化结果。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算机设备，包括，一个或多个处理器；存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述任意一项所述的基于注意力机制的视频卡通化方法。

为解决上述技术问题，本发明采用的一个技术方案是：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于注意力机制的视频卡通化方法。

本发明实施例提供了一种基于注意力机制的视频卡通化方法、装置、设备及介质。本发明实施例获取待处理视频，并将待处理视频输入到编码器中；通过卷积块对待处理视频进行卷积化处理，以提取待处理视频中的低层级特征信息；通过反转残差卷积块对低层级特征信息进行深度可分离卷积处理，得到高层级特征信息；对高层级特征信息进行降维处理，得到低维度特征信息，并获取低维度特征信息对应的通道权重；将高层级特征信息与通道权重进行向量乘积处理，得到注意力特征编码信息；通过解码器中的反转残差卷积块和卷积块依次对注意力特征编码信息进行解码处理，得到待处理视频对应的目标视频卡通化结果。本申请实施例通过卷积块和反转残差卷积块分别对待处理视频进行低层级特征和高层级特征提取，减少了特征信息在卷积过程中的损失，同时通过对特征信息进行降维处理和获取通道权重，以获取注意力特征编码信息，减少了数据冗余，有利于提高视频转换成卡通图像的效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1根据本申请实施例提供的基于注意力机制的视频卡通化方法的一实现流程图；

图2是本申请实施例提供的基于注意力机制的视频卡通化方法中子流程的一实现流程图；

图3是本申请实施例提供的基于注意力机制的视频卡通化方法中子流程的又一实现流程图；

图4是本申请实施例提供的基于注意力机制的视频卡通化方法中子流程的又一实现流程图；

图5是本申请实施例提供的基于注意力机制的视频卡通化方法中子流程的又一实现流程图；

图6是本申请实施例提供的基于注意力机制的视频卡通化方法中子流程的又一实现流程图；

图7是本申请实施例提供的基于注意力机制的视频卡通化方法中子流程的又一实现流程图；

图8是本申请实施例提供的基于注意力机制的视频卡通化装置示意图；

图9是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请实施例所提供的基于注意力机制的视频卡通化方法一般由服务器执行，相应地，基于注意力机制的视频卡通化装置一般配置于服务器中。

请参阅图1，图1示出了基于注意力机制的视频卡通化方法的一种具体实施方式。

需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限，该方法包括如下步骤：

S1.获取待处理视频，并将待处理视频输入到编码器中。

在本实施例中，为了更清楚的理解技术方案，下面对本申请所涉及的终端进行详细介绍。

一是服务器，服务器能够将用户端上传的待处理视频或者存储于数据库中的待处理视频，进行卡通化处理，使得将待处理视频转换为卡通图像的形式，得到目标视频卡通化结果；服务器还能够将目标视频卡通化结果返回用户端。

二是用户端，用户端可以向服务器上传待处理视频，也可以接收服务器所目标视频卡通化结果，用户端还可以查看、转发该目标视频卡通化结果。

具体的，编码器包括两块前后相连的卷积块ConvBlock和三块前后相连的反转残差卷积块InvertResBlock。服务器在获取到待处理视频后，将待处理视频输入到编码器中，通过编码器对待处理视频进行特征编码。

S2.通过卷积块对待处理视频进行卷积化处理，以提取待处理视频中的低层级特征信息。

具体的，卷积化处理包括对待处理视频进行卷积处理、标准化处理和激活处理。由于卷积块是两块前后相连的卷积块，每一块卷积块都对待处理视频进行卷积化处理，以提高提取低层级特征信息的准确度，避免低层级特征信息的提取遗漏。其中，低层级特征信息是指待处理视频中的轮廓、边缘、颜色、纹理和形状等特征信息。

请参阅图2，图2示出了步骤S2的一种具体实施方式，详叙如下：

S21.通过卷积块对待处理视频进行卷积处理，得到卷积结果。

S22.通过预设的标准化方式，对卷积结果进行标准化处理，得到标准化卷积结果。

S23.根据线性整流函数对标准化卷积结果进行激活处理，得到低层级特征信息。

具体的，将待处理视频以视频帧的形式输入到编码器中，通过对视频帧进行卷积处理，提取低层级特征对应的视频帧，以得到卷积结果，再通过预设的标准化方式，对卷积结果进行标准化处理，得到标准化卷积结果；然后根据线性整流函数对标准化卷积结果进行激活处理，得到低层级特征信息。

需要说明的是，预设的标准化方式是指z-score标准化方式。其中，z-score是数据处理的一种常用方法，通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较；提高了数据可比性，削弱了数据解释性。线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activationfunction)，通常指代以斜坡函数及其变种为代表的非线性函数。

本实施例中，通过卷积块对待处理视频进行卷积处理、标准化处理以及激活处理，以提取待处理视频中的低层级特征信息，便于后续继续提取高层级特征信息，从而将视频进行卡通化处理，提高卡通化处理效率。

S3.通过反转残差卷积块对低层级特征信息进行深度可分离卷积处理，得到高层级特征信息。

具体的，深度可分离卷积depthwise separable convolution，其由逐通道卷积depthwise(DW)和逐点卷积pointwise(PW)两部分结合起来；深度可分离卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。逐点卷积的卷积核的尺寸为1×1×M，M为上一层的通道数，其卷积运算会将上一步的map在深度方向上进行加权组合，生成新的特征图Feature map，有几个卷积核就有几个输出特征图Feature map。在本申请中,反转残差卷积块中的深度可分离卷积有效降低模型计算量，同时利用残差连接将每一反转残差卷积块的输入特征与输出相加保留更多的细节信息，减少特征在网络层间传递过程中的损失。

其中，高层级特征信息指的是视频中所能看的东西，比如对一张人脸提取低层特征信息是可以提取到连的轮廓、鼻子、眼睛等，而高层级特征信息则是显示为一张人脸。

请参阅图3，图3示出了步骤S3的一种具体实施方式，详叙如下：

S31.通过第一块反转残差卷积块对低层级特性信息进行特征提取，得到一次特征提取结果。

S32.通过第二块反转残差卷积块对初始结果进行特征提取，得到二次特征提取结果，并将二次特征提取结果与低层级特征进行相加处理，得到二次处理结果。

S33.通过第三块反转残差卷积块对二次处理结果进行特征提取，得到三次特征提取结果，并将三次特征提取结果作为高层级特征信息。

具体的，由于三块反转残差卷积块通过残差连接的，在网络层进行特征的传递过程中可能存在损失。为了减少特征的损失，在每一块反转残差卷积块进行特征提取后，将特征提取后的结果与低层级特征进行相加，作为后一块反转残差卷积块的输入，并通过后一块反转残差卷积块对其相加后的结果进行特征提取，直至三块反转残差卷积块均完成特征提取，再输出高层级特征信息。其中，特征提取包括对输入的特征信息进行深度卷积处理、标准化处理、激活处理以及卷积处理。

本实施例中，通过三块反转残差卷积块依次对输入的特征信息进行特征提取，减少了特征在网络层间传递过程中的损失，并精准提取了待处理视频中的高层级特征信息，有利于提高视频转化为卡通图像的准确度。

请参阅图4，图4示出了步骤S31的一种具体实施方式，详叙如下：

S311.通过第一块反转残差卷积块对低层级特性信息进行深度可分离卷积处理，得到深层卷积结果。

S312.通过预设的标准化方式，对深层卷积结果进行标准化处理，以及根据线性整流函数对标准化后的深层卷积结果进行激活处理，得到一次卷积结果。

S313.通过对一次卷积结果进行卷积处理和标准化处理，得到一次特征提取结果。

具体的，每一块反转残差卷积都经过对输入的特征信息经过深度可分离卷积处理、标准化处理、卷积处理以及激活处理。进一步的，每一块反转残差卷积在进行深度可分离卷积处理之前，可以插入一个卷积块，该卷积块向经过上述步骤S21-S23对低层级特征信息和其他特征信息进行特征提取，再将提取后的后续的深度可分离卷积处理等步骤，以实现对待处理视频的进一步特征提取，提高提取特征信息精度。其中，其他特征信息是指待处理视频对应视频帧经过提取低层级特征信息之后的特征信息。

需要说明的是，本发明实施例中的激活函数均为线性整流函数，预设的标准化处理方式均为z-score标准化方式。

本实施中，通过第一块反转残差卷积块对低层级特性信息进行深度可分离卷积处理，得到深层卷积结果，然后通过预设的标准化方式，对深层卷积结果进行标准化处理，以及根据线性整流函数对标准化后的深层卷积结果进行激活处理，得到一次卷积结果，再通过对一次卷积结果进行卷积处理和标准化处理，得到一次特征提取结果,实现对低层级特征信息进行特征提取，便于提高后续提取高层级特征信息的准确度。

S4.对高层级特征信息进行降维处理，得到低维度特征信息，并获取低维度特征信息对应的通道权重。

本发明实施例中，在编码器之后引入了注意力机制模块，该模块进一步引导模型对待处理视频的特征信息进行选取和转换。为了减少数据的计算量，采用对高层级特征信息进行池化处理，降低高层级特征信息的特征维度，得到低维特征信息。再基于注意力机制，获取低维特征信息不同区域通道的重要程度，以获取对应的通道权重。其中，通道对应高层级特征信息中一个特征图Feature map。

请参阅图5，图5示出了步骤S4的一种具体实施方式，详叙如下：

S41.根据通道注意力机制，分别获取平均池化结果和最大池化结果对应通道相关性。

S42.基于注意力机制，获取全连接层对平均池化结果和最大池化结果对应通道权重，得到平均池化结果对应通道权重以及最大池化结果对应通道权重。

具体的，平均池化(mean-pooling)即对局部接受域中的所有值求均值。最大池化(max-pooling)即取局部接受域中值最大的点。通过平均池化和最大池化两种方式，分别对高层级特征信息进行池化处理，以降低高层级特征信息的特征维度，得到平均池化结果和最大池化结果。然后基于注意力机制，获取全连接层对平均池化结果和最大池化结果对应通道权重，得到平均池化结果对应通道权重以及最大池化结果对应通道权重。

本实施例中，通过平均池化和最大池化的方式，分别对高层级特征信息进行池化处理，得到平均池化结果和最大池化结果，并基于注意力机制，获取全连接层对平均池化结果和最大池化结果对应通道权重，得到平均池化结果对应通道权重以及最大池化结果对应通道权重，实现通过引入注意力机制，为不同区域信息赋予不同权重，避免后续卡通图像细节信息损失严重、颜色不均匀问题，有利于后续卡通图像的美观和清晰。

请参阅图6，图6示出了步骤S42的一种具体实施方式，详叙如下：

S421.根据通道注意力机制，分别获取平均池化结果和最大池化结果对应通道相关性。

S422.基于通道相关性，并通过网络学习的方式，获取平均池化结果和最大池化结果对应通道的权重系数，得到平均池化结果对应通道权重以及最大池化结果对应通道权重。

具体的，注意力机制包括空间注意力机制、通道注意力机制以及自注意力机制。而本发明实施例采用通道注意力机制。通道注意力机制旨在显示的建模出不同通道(特征图)之间的相关性，通过网络学习的方式来自动获取到每个特征通道的重要程度，最后再为每个通道赋予不同的权重系数，从而来强化重要的特征抑制非重要的特征。

其中，通道注意力机制包括SE-Net、SK-Net以及ECA-Net；SE-Net通过特征重标定的方式来自适应地调整通道之间的特征响应。SE-Net是从多尺度特征表征的角度考虑，通过引入多个卷积核分支来学习出不同尺度下的特征图注意力，让网络能够更加侧重于重要的尺度特征。ECA-Net是利用1维的稀疏卷积操作来优化SE模块中涉及到的全连接层操作来大幅降低参数量并保持相当的性能。本申请实施例，为了压缩参数量和提高计算效率，选择SE-Net通道注意力机制，利用两个多层感知机来学习平均池化结果和最大池化结果对应通道的相关性，即当前的每一个特征图都与其它特征图进行交互，是一种密集型的连接，再并通过网络学习的方式，获取平均池化结果和最大池化结果对应通道的权重系数，得到平均池化结果对应通道权重以及最大池化结果对应通道权重。

本实施例中，根据通道注意力机制，分别获取平均池化结果和最大池化结果对应通道相关性，再基于通道相关性，并通过网络学习的方式，获取平均池化结果和最大池化结果对应通道的权重系数，得到平均池化结果对应通道权重以及最大池化结果对应通道权重，实现对不同区域新赋予不同的权重，减少模型计算量，提高视频转换卡通图像的效率。

S5.将高层级特征信息与通道权重进行向量乘积处理，得到注意力特征编码信息。

具体的，上述步骤平均池化结果对应通道权重以及最大池化结果对应通道权重，将高级特征信息与对应的通道权重进行向量乘积处理，得到两种池化结果对应的注意力特征编码信息，并将两种池化结果对应的注意力特征编码信息输入到后续的解码器中，以实现视频转换为卡通图像的目的。

S6.通过解码器中的反转残差卷积块和卷积块依次对注意力特征编码信息进行解码处理，得到待处理视频对应的目标视频卡通化结果。

具体的，解码器是与编码器对称的结构，包括三块残差连接的反转残差卷积和两块连接的卷积块构成。编码器和注意力机制模块负责对待处理视频进行特征提取和特征编码，而解码器则是对已生成编码信息的特征信息依次进行解码，从而得到对应的卡通图像。

请参阅图7，图7示出了步骤S6的一种具体实施方式，详叙如下：

S61.通过解码器中的三块反转残差卷积块依次对注意力特征编码信息进行高层级特征解码，得到高层级特征解码结果。

S62.通过解码器中的两块卷积块依次对注意力特征编码信息进行低层级特征解码，得到低层级特征解码结果，并将低层级特征解码结果和高层级特征解码结果作为目标视频卡通化结果。

具体的，解码器中的三块反转残差卷积依次对注意力特征编码信息进行高层级特征解码，获取到注意力特征编码信息中的高层级特征解码结果；再通过解码器中的两块卷积块依次对注意力特征编码信息进行低层级特征解码，得到低层级特征解码结果。将低层级特征解码结果和高层级特征解码结果作为目标视频卡通化结果，从而实现将待处理视频转换成卡通图像，实现视频卡通化处理。

本实施中，获取待处理视频，并将待处理视频输入到编码器中；通过卷积块对待处理视频进行卷积化处理，以提取待处理视频中的低层级特征信息；通过反转残差卷积块对低层级特征信息进行深度可分离卷积处理，得到高层级特征信息；对高层级特征信息进行降维处理，得到低维度特征信息，并获取低维度特征信息对应的通道权重；将高层级特征信息与通道权重进行向量乘积处理，得到注意力特征编码信息；通过解码器中的反转残差卷积块和卷积块依次对注意力特征编码信息进行解码处理，得到待处理视频对应的目标视频卡通化结果。本申请实施例通过卷积块和反转残差卷积块分别对待处理视频对进行低层级特征和高层级特征提取，减少了特征信息在卷积过程中的损失，同时通过对特征信息进行降维处理和获取通道权重，以获取注意力特征编码信息，减少了数据冗余，有利于提高视频转换成卡通图像的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

请参考图8，作为对上述图1所示方法的实现，本申请提供了一种基于注意力机制的视频卡通化装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的基于注意力机制的视频卡通化装置包括：待处理视频获取模块71、低层级特征提取模块72、高层级特征提取模块73、通道权重获取模块74、特征编码信息生成模块75及卡通化结果生成模块76，其中：

待处理视频获取模块71，用于获取待处理视频，并将待处理视频输入到编码器中，编码器包括卷积块和反转残差卷积块；

低层级特征提取模块72，用于通过卷积块对待处理视频进行卷积化处理，以提取待处理视频中的低层级特征信息；

高层级特征提取模块73，用于通过反转残差卷积块对低层级特征信息进行深度可分离卷积处理，得到高层级特征信息；

通道权重获取模块74，用于对高层级特征信息进行降维处理，得到低维度特征信息，并获取低维度特征信息对应的通道权重；

特征编码信息生成模块75，用于将高层级特征信息与通道权重进行向量乘积处理，得到注意力特征编码信息；

卡通化结果生成模块76，用于通过解码器中的反转残差卷积块和卷积块依次对注意力特征编码信息进行解码处理，得到待处理视频对应的目标视频卡通化结果。

进一步的，低层级特征提取模块72包括：

卷积结果单元，用于通过卷积块对待处理视频进行卷积处理，得到卷积结果；

标注化处理单元，用于通过预设的标准化方式，对卷积结果进行标准化处理，得到标准化卷积结果；

激活处理单元，用于根据线性整流函数对标准化卷积结果进行激活处理，得到低层级特征信息。

进一步的，高层级特征提取模块73包括：

一次处理单元，用于通过第一块反转残差卷积块对低层级特性信息进行特征提取，得到一次特征提取结果；

初始结果单元，用于将一次特征提取结果与低层级特征信息进行相加处理，得到初始结果；

二次处理单元，用于通过第二块反转残差卷积块对初始结果进行特征提取，得到二次特征提取结果，并将二次特征提取结果与低层级特征进行相加处理，得到二次处理结果；

三次处理单元，用于通过第三块反转残差卷积块对二次处理结果进行特征提取，得到三次特征提取结果，并将三次特征提取结果作为高层级特征信息。

进一步的，一次处理单元包括：

深层卷积结果生成子单元，用于通过第一块反转残差卷积块对低层级特性信息进行深度可分离卷积处理，得到深层卷积结果；

一次卷积结果生成子单元，用于通过预设的标准化方式，对深层卷积结果进行标准化处理，以及根据线性整流函数对标准化后的深层卷积结果进行激活处理，得到一次卷积结果；

异常特征提取子单元，用于通过对一次卷积结果进行卷积处理和标准化处理，得到一次特征提取结果。

进一步的，通道权重获取模块74包括：

池化处理单元，用于通过平均池化和最大池化的方式，分别对高层级特征信息进行池化处理，得到平均池化结果和最大池化结果；

注意力机制单元，用于基于注意力机制，获取全连接层对平均池化结果和最大池化结果对应通道权重，得到平均池化结果对应通道权重以及最大池化结果对应通道权重。

进一步的，注意力机制单元包括：

通道相关性获取子单元，用于根据通道注意力机制，分别获取平均池化结果和最大池化结果对应通道相关性；

权重系数获取子单元，用于基于注意力机制，获取全连接层对平均池化结果和最大池化结果对应通道权重，得到平均池化结果对应通道权重以及最大池化结果对应通道权重。

进一步的，卡通化结果生成模块76包括：

高层级特征解码单元，用于通过解码器中的三块反转残差卷积块依次对注意力特征编码信息进行高层级特征解码，得到高层级特征解码结果；

低层级特征解码单元，用于通过解码器中的两块卷积块依次对注意力特征编码信息进行低层级特征解码，得到低层级特征解码结果，并将低层级特征解码结果和高层级特征解码结果作为目标视频卡通化结果。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是，图中仅示出了具有三种组件存储器81、处理器82、网络接口83的计算机设备8，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器81至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器81可以是计算机设备8的内部存储单元，例如该计算机设备8的硬盘或内存。在另一些实施例中，存储器81也可以是计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器81还可以既包括计算机设备8的内部存储单元也包括其外部存储设备。本实施例中，存储器81通常用于存储安装于计算机设备8的操作系统和各类应用软件，例如基于注意力机制的视频卡通化方法的程序代码等。此外，存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备8的总体操作。本实施例中，处理器82用于运行存储器81中存储的程序代码或者处理数据，例如运行上述基于注意力机制的视频卡通化方法的程序代码，以实现基于注意力机制的视频卡通化方法的各种实施例。

网络接口83可包括无线网络接口或有线网络接口，该网络接口83通常用于在计算机设备8与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序可被至少一个处理器执行，以使至少一个处理器执行如上述的一种基于注意力机制的视频卡通化方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于注意力机制的视频卡通化方法，其特征在于，包括：

通过所述卷积块对所述待处理视频进行卷积化处理，以提取所述待处理视频中的低层级特征信息，其中，低层级特征信息是指待处理视频中的轮廓、边缘、颜色、纹理和形状；

通过解码器中的反转残差卷积块和卷积块依次对所述注意力特征编码信息进行解码处理，得到所述待处理视频对应的目标视频卡通化结果;

其中，所述反转残差卷积块包括三块前后相连的反转残差卷积块，以及所述通过所述反转残差卷积块对所述低层级特征信息进行深度可分离卷积处理，得到高层级特征信息包括：

通过第一块所述反转残差卷积块对所述低层级特征信息进行特征提取，得到一次特征提取结果；

将所述一次特征提取结果与所述低层级特征信息进行相加处理，得到初始结果；

通过第二块所述反转残差卷积块对所述初始结果进行特征提取，得到二次特征提取结果，并将所述二次特征提取结果与所述低层级特征进行相加处理，得到二次处理结果；

通过第三块所述反转残差卷积块对所述二次处理结果进行特征提取，得到三次特征提取结果，并将所述三次特征提取结果作为所述高层级特征信息;

所述通过第一块所述反转残差卷积块对所述低层级特征信息进行特征提取，得到一次特征提取结果包括：

通过第一块所述反转残差卷积块对所述低层级特征信息进行深度可分离卷积处理，得到深层卷积结果；

通过预设的标准化方式，对深层卷积结果进行标准化处理，以及根据线性整流函数对标准化后的深层卷积结果进行激活处理，得到一次卷积结果；

通过对一次卷积结果进行卷积处理和标准化处理，得到所述一次特征提取结果，其中，每一块所述反转残差卷积都经过对输入的特征信息经过深度可分离卷积处理、标准化处理、卷积处理以及激活处理；

其中，所述通过解码器中的反转残差卷积块和卷积块依次对所述注意力特征编码信息进行解码处理，得到所述待处理视频对应的目标视频卡通化结果包括：

通过所述解码器中的三块反转残差卷积块依次对所述注意力特征编码信息进行高层级特征解码，得到高层级特征解码结果；

通过所述解码器中的两块所述卷积块依次对所述注意力特征编码信息进行低层级特征解码，得到低层级特征解码结果，并将所述低层级特征解码结果和所述高层级特征解码结果作为所述目标视频卡通化结果。

2.根据权利要求1所述的基于注意力机制的视频卡通化方法，其特征在于，所述卷积块包括两块前后相连的卷积块，以及所述通过所述卷积块对所述待处理视频进行卷积化处理，以提取所述待处理视频中的低层级特征信息包括：

通过所述卷积块对所述待处理视频进行卷积处理，得到卷积结果；

通过预设的标准化方式，对卷积结果进行标准化处理，得到标准化卷积结果；

根据线性整流函数对所述标准化卷积结果进行激活处理，得到所述低层级特征信息。

3.根据权利要求1所述的基于注意力机制的视频卡通化方法，其特征在于，所述对所述高层级特征信息进行降维处理，得到低维度特征信息，并获取所述低维度特征信息对应的通道权重包括：

通过平均池化和最大池化的方式，分别对所述高层级特征信息进行池化处理，得到平均池化结果和最大池化结果；

基于注意力机制，获取全连接层对所述平均池化结果和所述最大池化结果对应通道权重，得到所述平均池化结果对应通道权重以及所述最大池化结果对应通道权重。

4.根据权利要求3所述的基于注意力机制的视频卡通化方法，其特征在于，所述基于注意力机制，获取全连接层对所述平均池化结果和所述最大池化结果对应通道权重，得到所述平均池化结果对应通道权重以及所述最大池化结果对应通道权重包括：

根据通道注意力机制，分别获取所述平均池化结果和所述最大池化结果对应通道相关性；

基于所述通道相关性，并通过网络学习的方式，获取所述所述平均池化结果和所述最大池化结果对应通道的权重系数，得到所述所述平均池化结果对应通道权重以及所述最大池化结果对应通道权重。

5.一种基于注意力机制的视频卡通化装置，其特征在于，包括：

低层级特征提取模块，用于通过所述卷积块对所述待处理视频进行卷积化处理，以提取所述待处理视频中的低层级特征信息，其中，低层级特征信息是指待处理视频中的轮廓、边缘、颜色、纹理和形状；

卡通化结果生成模块，用于通过解码器中的反转残差卷积块和卷积块依次对所述注意力特征编码信息进行解码处理，得到所述待处理视频对应的目标视频卡通化结果；

其中，所述反转残差卷积块包括三块前后相连的反转残差卷积块，以及所述高层级特征提取模块包括：

一次处理单元，用于通过第一块所述反转残差卷积块对所述低层级特征信息进行特征提取，得到一次特征提取结果；

初始结果单元，用于将所述一次特征提取结果与所述低层级特征信息进行相加处理，得到初始结果；

二次处理单元，用于通过第二块所述反转残差卷积块对所述初始结果进行特征提取，得到二次特征提取结果，并将所述二次特征提取结果与所述低层级特征进行相加处理，得到二次处理结果；

三次处理单元，用于通过第三块所述反转残差卷积块对所述二次处理结果进行特征提取，得到三次特征提取结果，并将所述三次特征提取结果作为所述高层级特征信息;

所述一次处理单元包括：

深层卷积结果生成子单元，用于通过第一块所述反转残差卷积块对所述低层级特征信息进行深度可分离卷积处理，得到深层卷积结果；

异常特征提取子单元，用于通过对一次卷积结果进行卷积处理和标准化处理，得到所述一次特征提取结果，其中，每一块所述反转残差卷积都经过对输入的特征信息经过深度可分离卷积处理、标准化处理、卷积处理以及激活处理；

其中，所述卡通化结果生成模块包括：

高层级特征解码单元，用于通过所述解码器中的三块反转残差卷积块依次对所述注意力特征编码信息进行高层级特征解码，得到高层级特征解码结果；

低层级特征解码单元，用于通过所述解码器中的两块所述卷积块依次对所述注意力特征编码信息进行低层级特征解码，得到低层级特征解码结果，并将所述低层级特征解码结果和所述高层级特征解码结果作为所述目标视频卡通化结果。

6.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于注意力机制的视频卡通化方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于注意力机制的视频卡通化方法。