CN115147284A

CN115147284A - 视频处理方法、装置、计算机设备和存储介质

Info

Publication number: CN115147284A
Application number: CN202210929241.9A
Authority: CN
Inventors: 徐雪; 杨洁琼; 阮明慧; 江文乐
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-10-04

Abstract

本申请涉及一种视频处理方法、装置、计算机设备和存储介质，涉及人工智能技术领域。所述方法包括：获取待处理视频中视频帧的特征参数；将特征参数输入预先训练的空间模型，得到视频帧的空间特征；将空间特征输入预先训练的时间模型，通过时间模型对空间特征和视频帧的时间特征进行融合，得到视频帧的第一融合特征；时间特征通过时间模型得到；将第一融合特征输入预先训练的编解码模型，通过编解码模型对第一融合特征和视频帧的尺度特征进行融合，得到视频帧的第二融合特征；尺度特征通过编解码模型得到；根据第二融合特征，得到与待处理视频对应的超分辨率视频。采用本方法能够有效提升手机视频质量。

Description

视频处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视频处理方法、装置、计算机设备和存储介质。

背景技术

随着智能终端技术的发展，手机视频成为人们沟通和娱乐的重要手段，受硬件条件和通信过程中数据压缩的限制，视频画面的细节部分容易有缺失，导致分辨率下降，因此，出现了视频超分辨率技术，该技术可以有效提升视频分辨率，增加视频细节，提高视频质量。

现有技术中，通常采用Vision Transformer(基于Transformer架构的视觉模型)进行视频超分辨率处理，然而，由于采用较多的网络层级，和大量使用注意机制，VisionTransformer虽然能够建立完善的全局依赖关系，但是在局部处理方面性能较差，难以对视频分辨率进行很好地提升。

因此，目前的手机视频处理技术存在视频分辨率提升受限的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提升分辨率的视频处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种视频处理方法。所述方法包括：

获取待处理视频中视频帧的特征参数；

将所述特征参数输入预先训练的空间模型，得到所述视频帧的空间特征；

将所述空间特征输入预先训练的时间模型，通过所述时间模型对所述空间特征和所述视频帧的时间特征进行融合，得到所述视频帧的第一融合特征；所述时间特征通过所述时间模型得到；

将所述第一融合特征输入预先训练的编解码模型，通过所述编解码模型对所述第一融合特征和所述视频帧的尺度特征进行融合，得到所述视频帧的第二融合特征；所述尺度特征通过所述编解码模型得到；

根据所述第二融合特征，得到与所述待处理视频对应的超分辨率视频。

在其中一个实施例中，所述特征参数包括图像特征和标记；所述获取待处理视频中视频帧的特征参数，包括：

获取原始待处理视频；

对所述原始待处理视频进行数据清洗，得到清洗后视频；

对所述清洗后视频进行分组，得到所述待处理视频；

对所述待处理视频中的各所述视频帧进行特征映射处理，得到各所述视频帧的图像特征，以及，对所述待处理视频中的各所述视频帧进行嵌入处理，得到各所述视频帧的标记。

在其中一个实施例中，所述待处理视频包含至少一组视频帧，每组所述视频帧中的各所述视频帧分别对应于一个空间模型；所述将所述特征参数输入预先训练的空间模型，得到所述视频帧的空间特征，包括：

将每组所述视频帧中的各所述视频帧的特征参数，分别输入至所述视频帧对应的空间模型，得到各所述视频帧的空间特征。

在其中一个实施例中，所述编解码模型包含两个下采样子模型、一个尺度不变子模型和两个上采样子模型；所述将所述第一融合特征输入预先训练的编解码模型，通过所述编解码模型对所述第一融合特征和所述视频帧的尺度特征进行融合，得到所述视频帧的第二融合特征，包括：

将所述第一融合特征依次输入至所述两个下采样子模型、一个尺度不变子模型和两个上采样子模型，得到所述视频帧的第二融合特征。

在其中一个实施例中，所述根据所述第二融合特征，得到与所述待处理视频对应的超分辨率视频，包括：

将所述视频帧的第二融合特征与所述视频帧的图像特征进行融合，得到所述视频帧的第三融合特征；

对所述第三融合特征进行反卷积层重建处理，得到重建后视频帧；

将所述重建后视频帧与所述待处理视频的视频帧进行叠加，得到所述超分辨率视频。

在其中一个实施例中，所述将所述重建后视频帧与所述待处理视频的视频帧进行叠加，得到所述超分辨率视频，包括：

将所述重建后视频帧与所述待处理视频的视频帧进行叠加，得到叠加后视频帧；

将至少一个所述叠加后视频帧相连接，得到叠加后视频；

根据预设的视频显示参数，对所述叠加后视频进行参数调整，得到所述超分辨率视频。

在其中一个实施例中，在获取待处理视频中视频帧的特征参数之前，还包括：

获取模型训练数据和所述模型训练数据对应的数据标识；

将所述模型训练数据输入至待训练的超分辨率模型，得到所述模型训练数据的识别结果；

根据所述模型训练数据的识别结果和所述数据标识之间的差异，对所述待训练的超分辨率模型进行训练，得到预先训练的超分辨率模型；所述预先训练的超分辨率模型包括所述预先训练的空间模型、所述预先训练的时间模型和所述预先训练的编解码模型。

第二方面，本申请还提供了一种视频处理装置。所述装置包括：

参数获取模块，用于获取待处理视频中视频帧的特征参数；

第一处理模块，用于将所述特征参数输入预先训练的空间模型，得到所述视频帧的空间特征；

第二处理模块，用于将所述空间特征输入预先训练的时间模型，通过所述时间模型对所述空间特征和所述视频帧的时间特征进行融合，得到所述视频帧的第一融合特征；所述时间特征通过所述时间模型得到；

第三处理模块，用于将所述第一融合特征输入预先训练的编解码模型，通过所述编解码模型对所述第一融合特征和所述视频帧的尺度特征进行融合，得到所述视频帧的第二融合特征；所述尺度特征通过所述编解码模型得到；

超分辨率模块，用于根据所述第二融合特征，得到与所述待处理视频对应的超分辨率视频。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理视频中视频帧的特征参数；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理视频中视频帧的特征参数；

根据所述视频帧的第二融合特征，得到与所述待处理视频对应的超分辨率视频。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待处理视频中视频帧的特征参数；

上述视频处理方法、装置、计算机设备、存储介质和计算机程序产品，通过先获取待处理视频中视频帧的特征参数，然后将特征参数输入预先训练的空间模型，得到视频帧的空间特征，将空间特征输入预先训练的时间模型，通过时间模型对空间特征和视频帧的时间特征进行融合，得到视频帧的第一融合特征，将第一融合特征输入预先训练的编解码模型，通过编解码模型对第一融合特征和视频帧的尺度特征进行融合，得到视频帧的第二融合特征，最后根据第二融合特征，得到与待处理视频对应的超分辨率视频；可以通过将空间特征、时间特征和尺度特征相融合，充分利用视频信息来进行视频的超分辨率处理，有效提升手机视频质量。

而且，通过使用兼具全局注意力机制和高效局部处理能力的Mobile-Former结构来实现空间模型、时间模型和编解码模型，可以降低运算量，实现轻量级的特征提取，保证了超分辨率视频处理在手机中的实现。

附图说明

图1为一个实施例中视频处理方法的流程示意图；

图2为一个实施例中基于Mobile-Former块的手机视频质量提升系统的结构框图；

图3为一个实施例中数据预处理模块的处理流程示意图；

图4为一个实施例中超分辨率模块的处理流程示意图；

图5为一个实施例中结果处理模块的处理流程示意图；

图6为一个实施例中超分辨率模型生成步骤的流程示意图；

图7为一个实施例中超分辨率网络的结构框图；

图8为一个实施例中基于Mobile-Former块的手机视频质量提升方法的流程示意图；

图9为一个实施例中视频处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的视频处理方法，可以应用于终端或服务器。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图1所示，提供了一种视频处理方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S110，获取待处理视频中视频帧的特征参数。

其中，特征参数可以为视频帧的图像特征和token(标记)。

具体实现中，可以对待处理视频中的每个视频帧进行特征映射，得到各视频帧的图像特征，还可以对待处理视频中的每个视频帧进行embedding(嵌入)处理，得到各视频帧的token。

其中，特征映射可以是建立帧图像与特征矩阵之间映射关系的方法。

其中，embedding可以是对token和帧图像进行嵌入的方法。

实际应用中，可以通过数据预处理模块对手机视频原始数据进行清洗，得到清洗后的视频，数据预处理模块还可以对清洗后的视频进行分组，并以组为单位，将视频帧输入超分辨率模块，超分辨率模块可以针对每组中的各视频帧，分别进行特征映射和embedding，得到各视频帧的图像特征和token。

步骤S120，将特征参数输入预先训练的空间模型，得到视频帧的空间特征。

其中，空间模型可以是空间Mobile-Former块。其中，Mobile-Former块可以是基于MobileNet(轻量级深层神经网络)和transformer(注意力机制网络)的特征提取模块。

具体实现中，可以预先训练并行结构的空间模型，将视频帧的图像特征和token输入训练好的并行结构的空间模型，得到并行结构中的每个空间模型输出的视频帧的空间特征。

实际应用中，可以在超分辨率模块中设计与每组中视频帧的个数相匹配的空间Mobile-Former块，在得到每组中各视频帧的图像特征和token后，可以将各视频帧的图像特征和token分别输入至对应的空间Mobile-Former块，得到每个空间Mobile-Former块输出的空间特征和token。

步骤S130，将空间特征输入预先训练的时间模型，通过时间模型对空间特征和视频帧的时间特征进行融合，得到视频帧的第一融合特征；时间特征通过时间模型得到。

其中，时间模块可以是时间Mobile-Former块。

其中，第一融合特征可以是对空间特征和时间特征的融合。

具体实现中，可以预先训练时间模型，对各空间模型输出的空间特征进行连接，得到连接后的空间特征，将连接后的空间特征输入训练好的时间模型进行时间特征提取，得到视频帧的时间特征，时间模型还可以将提取到的时间特征与连接后的空间特征相融合，得到第一融合特征。

实际应用中，可以在超分辨率模块中设计时间Mobile-Former块，使用时间Mobile-Former块对空间Mobile-Former块输出的空间特征进行连接，构建各视频帧的时间特征，模拟时间步长，对不同帧进行融合处理，获取不同时间下提取的token，将全局时间交互信息和局部的时间特征融合处理，优化全部视频帧数据，提升融合空间和时间的特征质量。

步骤S140，将第一融合特征输入预先训练的编解码模型，通过编解码模型对第一融合特征和视频帧的尺度特征进行融合，得到视频帧的第二融合特征；尺度特征通过编解码模型得到。

其中，编解码模型可以由2个下采样的Mobile-Former块、1个不变化尺度的Mobile-Former块和2个上采样的Mobile-Former块组成。

具体实现中，可以预先训练编解码模型，将第一融合特征输入训练好的编解码模型进行尺度特征提取，得到视频帧的尺度特征，编解码模型还可以将提取到的尺度特征与第一融合特征相融合，得到第二融合特征。

实际应用中，可以在超分辨率模块中设计encoder-decoder(编码器-解码器)块，encoder-decoder块包括2个下采样的Mobile-Former块、1个不变化尺度的Mobile-Former块和2个上采样的Mobile-Former块，将时间Mobile-Former块输出的特征和token经过2个下采样的Mobile-Former块、1个不变化尺度的Mobile-Former块和2个上采样的Mobile-Former块进行特征细化，以获取不用尺寸的视频帧特征，便于在重建时获取更多的尺度相关的信息，从而重建出拥有丰富细节的高分辨率视频帧。

步骤S150，根据第二融合特征，得到与待处理视频对应的超分辨率视频。

具体实现中，可以将视频帧的图像特征与第二融合特征相融合，得到第三融合特征，对第三融合特征进行三维反卷积重建，得到重建的视频帧。还可以将待处理视频中的视频帧与重建的视频帧进行叠加，得到超分辨率视频帧，连接多个超分辨率视频帧，得到待处理视频对应的超分辨率视频。

上述视频处理方法，通过先获取待处理视频中视频帧的特征参数，然后将特征参数输入预先训练的空间模型，得到视频帧的空间特征，将空间特征输入预先训练的时间模型，通过时间模型对空间特征和视频帧的时间特征进行融合，得到视频帧的第一融合特征，将第一融合特征输入预先训练的编解码模型，通过编解码模型对第一融合特征和视频帧的尺度特征进行融合，得到视频帧的第二融合特征，最后根据第二融合特征，得到与待处理视频对应的超分辨率视频；可以通过将空间特征、时间特征和尺度特征相融合，充分利用视频信息来进行视频的超分辨率处理，有效提升手机视频质量。

在一个实施例中，特征参数包括图像特征和标记；上述步骤S110，可以具体包括：获取原始待处理视频；对原始待处理视频进行数据清洗，得到清洗后视频；对清洗后视频进行分组，得到待处理视频；对待处理视频中的各视频帧进行特征映射处理，得到各视频帧的图像特征，以及，对待处理视频中的各视频帧进行嵌入处理，得到各视频帧的标记。

具体实现中，可以获取手机视频原始数据，对手机视频原始数据进行数据清洗，去除异常频率、脉冲毛刺、底噪噪音等干扰元素，得到清洗后视频，对清洗后视频中的视频帧进行分组，得到包含一组或者多组视频帧的待处理视频，对待处理视频中的各视频帧进行特征映射和embedding，分别得到各视频帧的图像特征和token。

例如，数据预处理模块可以将清洗后视频中的每7个视频帧分为一组，得到待处理视频，其中，当最后一组不足7个视频帧时可以向前补齐，按照视频帧的先后顺序，以组为单位，将每组中的7个视频帧输入超分辨率模块，超分辨率模块可以对每个视频帧进行特征映射和embedding，得到图像特征和token。

本实施例中，通过获取原始待处理视频，对原始待处理视频进行数据清洗，得到清洗后视频，对清洗后视频进行分组，得到待处理视频，对待处理视频中的各视频帧进行特征映射处理，得到各视频帧的图像特征，以及，对待处理视频中的各视频帧进行嵌入处理，得到各视频帧的标记，可以通过数据清洗去除手机视频原始数据中的干扰元素，提高视频处理的可靠性，通过分组并行处理多个视频帧，提高视频处理的效率。

在一个实施例中，待处理视频包含至少一组视频帧，每组视频帧中的各视频帧分别对应于一个空间模型；上述步骤S120，可以具体包括：将每组视频帧中的各视频帧的特征参数，分别输入至视频帧对应的空间模型，得到各视频帧的空间特征。

具体实现中，可以设计与每组视频帧中视频帧个数相匹配的多个并行的空间模型，在得到每组视频帧中各视频帧的图像特征和token后，可以将各视频帧的图像特征和token分别输入相应的空间模型，得到空间模型输出的空间特征和token。

例如，可以在超分辨率模块并行设计7个空间Mobile-Former块，将每组中7个视频帧的图像特征和token输入至7个空间Mobile-Former块，使用空间Mobile-Former块并行为7个视频帧同一时间下提取的token之间的全局交互进行建模，以及对单张图片数据特征进行局部处理，优化单帧数据特征，提升空间特征质量。

本实施例中，通过将每组视频帧中的各视频帧的特征参数，分别输入至视频帧对应的空间模型，得到各视频帧的空间特征，可以并行获取多个视频帧的空间特征，提高视频处理的效率，有利于系统实时性。

在一个实施例中，编解码模型包含两个下采样子模型、一个尺度不变子模型和两个上采样子模型；上述步骤S140，可以具体包括：将第一融合特征依次输入至两个下采样子模型、一个尺度不变子模型和两个上采样子模型，得到视频帧的第二融合特征。

其中，下采样子模型可以为下采样的Mobile-Former块。尺度不变子模型可以为不变化尺度的Mobile-Former块。上采样子模型可以为上采样的Mobile-Former块。

具体实现中，可以将时间Mobile-Former块输出的第一融合特征依次输入2个下采样的Mobile-Former块、1个不变化尺度的Mobile-Former块和2个上采样的Mobile-Former块，获取视频帧的尺度特征，并将第一融合特征和尺度特征相融合，得到视频帧的第二融合特征。

本实施例中，通过将第一融合特征依次输入至两个下采样子模型、一个尺度不变子模型和两个上采样子模型，得到视频帧的第二融合特征，可以融合单独视频帧的空间信息、连续视频帧的空间信息以及不同尺度下视频帧的尺寸信息，充分利用视频数据，有利于提升视频的质量。

在一个实施例中，上述步骤S150，可以具体包括：将视频帧的第二融合特征与视频帧的图像特征进行融合，得到视频帧的第三融合特征；对第三融合特征进行反卷积层重建处理，得到重建后视频帧；将重建后视频帧与待处理视频的视频帧进行叠加，得到超分辨率视频。

具体实现中，可以将视频帧的图像特征与第二融合特征相融合，得到第三融合特征，对第三融合特征进行三维反卷积重建，得到重建后视频帧。还可以对待处理视频中的视频帧进行上采样，得到上采样的低分辨率视频帧，将上采样的低分辨率视频帧与重建后视频帧进行叠加，得到超分辨率视频帧，连接多个超分辨率视频帧，可以得到待处理视频对应的超分辨率视频。

本实施例中，通过将视频帧的第二融合特征与视频帧的图像特征进行融合，得到视频帧的第三融合特征，对第三融合特征进行反卷积层重建处理，得到重建后视频帧，将重建后视频帧与待处理视频的视频帧进行叠加，得到超分辨率视频，可以在原始低分辨率视频中叠加空间信息、时间信息和尺度信息，重建出拥有丰富细节的高分辨率视频，提升视频质量。

在一个实施例中，上述将重建后视频帧与待处理视频的视频帧进行叠加，得到超分辨率视频的步骤，可以具体包括：将重建后视频帧与待处理视频的视频帧进行叠加，得到叠加后视频帧；将至少一个叠加后视频帧相连接，得到叠加后视频；根据预设的视频显示参数，对叠加后视频进行参数调整，得到超分辨率视频。

其中，视频显示参数可以包括视频显示尺寸和视频显示格式。

具体实现中，可以将三维反卷积重建得到的重建后视频帧与待处理视频的视频帧进行叠加，得到叠加后视频帧，获取连续的多个叠加后视频帧，按照待处理视频中的视频帧顺序，对多个叠加后视频帧进行连接，可以得到叠加后视频，根据预设的视频显示尺寸和视频显示格式，对叠加后视频进行调整，可以得到超分辨率视频。

本实施例中，通过将重建后视频帧与待处理视频的视频帧进行叠加，得到叠加后视频帧，将至少一个叠加后视频帧相连接，得到叠加后视频，根据预设的视频显示参数，对叠加后视频进行参数调整，得到超分辨率视频，可以输出符合屏幕显示要求的超分辨率视频，满足视频显示需求。

在一个实施例中，在上述步骤S110之前，具体还可以包括：获取模型训练数据和模型训练数据对应的数据标识；将模型训练数据输入至待训练的超分辨率模型，得到模型训练数据的识别结果；根据模型训练数据的识别结果和数据标识之间的差异，对待训练的超分辨率模型进行训练，得到预先训练的超分辨率模型；预先训练的超分辨率模型包括预先训练的空间模型、预先训练的时间模型和预先训练的编解码模型。

其中，超分辨率模型可以由7个并行空间Mobile-Former块、1个时间Mobile-Former块、2个下采样Mobile-Former块、1个不变化尺度的Mobile-Former块和2个上采样Mobile-Former块组成。

具体实现中，可以使用vimeo90K数据集作为训练数据集，该数据集中包含模型训练数据，获取模型训练数据对应的数据标识，将模型训练数据输入至待训练的超分辨率模型，得到待训练的超分辨率模型对于模型训练数据的识别结果，将模型训练数据的识别结果与数据标识相比较，根据二者之间的差异对待训练的超分辨率模型的参数进行调整，重复上述过程，经过多次调整后，可以得到预先训练的超分辨率模型。

本实施例中，通过获取模型训练数据和模型训练数据对应的数据标识，将模型训练数据输入至待训练的超分辨率模型，得到模型训练数据的识别结果，根据模型训练数据的识别结果和数据标识之间的差异，对待训练的超分辨率模型进行训练，得到预先训练的超分辨率模型，可以获取到训练号的超分辨率模型，便于通过超分辨率模型来提升视频质量，增加视频处理的效率。

为了便于本领域技术人员深入理解本申请实施例，以下将结合一个具体示例进行说明。

目前的超分辨率技术通常使用卷积神经网络对视频序列进行处理，一般通过从支持帧或者光流估计对重构帧进行处理，由于视频的帧数一般较大，一帧帧处理导致并行效率差，且浪费一定的资源。还可以采用vision transformer进行视频超分辨率，visiontransformer往往会采用较多的网络层级，大量使用注意机制，从而建立完善的全局依赖关系，但是在局部处理上性能较差，堆叠的transformer深度较多，对每个视频帧进行处理的计算量也较大，难以应用到手机、平板等移动设备上。近期提出的Mobile-Former网络结合MobileNet和transformer的优点，可以在保持轻量级的同时构建全局依赖关系，进行高效的图片分类，但是该网络只能处理单个图片，且没有考虑到重建，只具备编码器功能，无法进行超分辨率。

图2提供了一个基于Mobile-Former块的手机视频质量提升系统的结构框图。根据图2，手机视频质量提升系统201可以包括数据预处理模块202、超分辨率模块203和结果处理模块204。

其中，数据预处理模块202负责收集视频原始数据，进行预处理从而获得可供超分辨率模块203使用的数据特征，主要包括：获取视频、数据清洗、提取视频帧。数据预处理模块202每次将7个待处理的视频帧视为一组，输入超分辨率模块203。由于分组处理视频帧，在资源允许的条件下，可以并行处理不同组的视频帧数据，提高整体处理效率。

其中，超分辨率模块203使用由Mobile-Former块组成的深度学习模型对音视频数据的联合特征进行建模，提取特征，并重建出高分辨率的视频数据。首先对输入的7张视频帧并行使用Mobile-Former块进行特征提取，构建每个视频帧内部空间特征，该部分的Former结构对每帧图像同一时间下提取的token之间的全局交互进行建模，Mobile对单独图像帧进行局部处理，并且通过Mobile和Former的交互将全局和局部信息进行有机融合，最终获得7帧图片的特征映射；其次对7帧图处理后的特征进行concatenate(连接)，构建7个视频帧内部时间特征，模拟时间步长，对不同帧进行融合处理，获取不同时间下提取的token，使用Mobile-Former块进行特征提取，将全局时间交互信息和局部的时间特征融合处理。然后，将经过空间和时间特征提取处理的特征映射和token通过对称5个的Mobile-Former块进行特征细化，其中包括两个下采样和两个上采样的Mobile-Former块，用于获取不同尺寸的视频信息。最后，经过一次融合全局信息的反卷积重建模块，结合上采样的7帧初始低分辨率帧，重建出最终的超分辨率视频。

其中，结果处理模块204将超分辨率输出的数据进行处理，按照数据预处理模块202提取的视频帧顺序，将超分后的视频帧组装起来，由于视频超分辨率之后视频帧会变大，组装完成后，按需调整视频大小，适应播放视频的屏幕需求，输出完整的视频数据。

图3提供了一个数据预处理模块的处理流程示意图。根据图3，图2中的数据预处理模块202，负责获取手机视频原始数据、抽取图像帧，具体处理步骤包括：

步骤S301，获取视频原始数据。

步骤S302，针对视频原始数据，进行去除异常频率、脉冲毛刺、底噪噪音等干扰元素的数据清洗。

步骤S303，将清洗后的视频分割，将所有的视频帧分组处理，7个为一组，最后一组不足7个向前补齐，按照顺序以组为单位，将视频帧数据输入超分辨率模块2，进行超分辨率。

图4提供了一个超分辨率模块的处理流程示意图。根据图4，图2中的超分辨率模块203，调用由Mobile-Former块组成的深度学习模型提升连续视频帧的超分辨率，从而提升视频质量，输出清晰的高质量视频数据，具体处理步骤包括：

步骤S401，获取预处理过的数据，对每个视频帧进行特征映射和embedding(嵌入)以获取图像特征和token。

步骤S402，使用深度学习模型中的空间Mobile-Former块并行为7帧视频帧同一时间下提取的token之间的全局交互进行建模，对单张图片数据特征进行局部处理，优化单帧数据特征，提升空间特征质量。

步骤S403，使用深度学习模型中的时间Mobile-Former块将7张视频帧已经优化的空间特征，进行concatenate，构建7个视频帧内部时间特征，模拟时间步长，对不同帧进行融合处理，获取不同时间下提取的token，将全局时间交互信息和局部的时间特征融合处理，优化全部视频帧数据，提升融合空间和时间的特征质量。

步骤S404，使用深度学习模型中的encoder-decoder(编码器-解码器)块，将S403步骤的Mobile-Former块输出的特征和token经过2个下采样的Mobile-Former块，1个不变化scale的Mobile-Former块和2个上采样的Mobile-Former块进行特征细化，整体构成encoder-decoder结构，用于获取不同尺寸的视频帧特征，便于在重建时获取更多的scale相关的信息，从而重建出拥有丰富细节的高分辨率视频帧。

步骤S405，使用深度学习模型中的重建模块处理数据特征，生成高质量的语音和视频输出。重建模块，首先将S401步骤提取的7个视频帧的特征和S404步骤的Mobile-Former块输出的特征相融合，其次将融合特征通过反卷积层重建，最后将重建的视频帧与通过上采样的初始低分辨率视频帧进行分别叠加，提升整体结构准确性。

其中，Mobile-Former块为MobileNet和transformer的并行设计，具有双向桥接结构，能够结合MobileNet局部处理和transformer全局交互的优势，是高效且轻量级的特征提取模块。

其中，解码/编码器为深度学习常见的模型框架，模型可以采用CNN、RNN、LSTM等，编码器将输入序列转化为一个固定维度的向量，解码器将激活状态生成目标译文。

图5提供了一个结果处理模块的处理流程示意图。根据图5，图2中的结果处理模块204，负责将超分辨率模块203输出的重建视频帧按照顺序和组装起来，并输出合适的视频数据，具体处理步骤包括：

步骤S501，按照数据预处理模块提取的视频帧顺序，将超分后的视频帧组装起来，形成视频数据。

步骤S502，按照屏幕要求和输出要求调整视频尺寸和格式。

步骤S503，输出完整的超分辨率视频数据。

图6提供了一个超分辨率模型生成步骤的流程示意图，图7提供了一个超分辨率网络的结构框图。根据图6和图7，超分辨率模型生成的具体步骤如下：

步骤S601，将业界广泛使用的vimeo90K数据集作为训练数据集，该数据集已经划分了训练集和测试集。

步骤S602，使用训练数据对基于Mobile-Former块的深度学习模型进行训练，直到模型准确率达到阈值。

步骤S603，输出训练好的质量提升模型。

图8提供了一个基于Mobile-Former块的手机视频质量提升方法的流程示意图。根据图8，基于Mobile-Former块的手机视频质量提升方法，具体步骤如下：

步骤S801，数据预处理模块收集视频原始数据，进行数据清洗，并将视频分割成不同的视频帧组，输入超分辨率模块。

步骤S802，超分辨率模块对每组输入的7个视频帧进行质量提升，获取高质量的视频帧数据。

步骤S803，结果处理模块按照播放要求调整视频格式和尺寸，输出视频数据。

上述基于Mobile-Former块的手机视频质量提升系统和方法，使用了具有全局注意力机制和高效局部处理能力的Mobile-Former结构，能够结合transfomer和MobileNet二者的优点，同时该模块的尺寸和计算量都较小，比较适合用于手机视频的处理提升。

而且，在处理视频超分辨率任务时，并行处理了多个视频帧的空间特征，并且同时重建出了多个视频帧，提升了网络的并行性，有利于系统的实时性。

进一步地，由于融合了单独视频帧的空间信息，连续视频帧的空间信息以及不同尺度下视频帧的尺寸信息，充分利用了视频数据，有利于提升视频的质量。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频处理方法的视频处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频处理装置实施例中的具体限定可以参见上文中对于视频处理方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种视频处理装置，包括：参数获取模块910、第一处理模块920、第二处理模块930、第三处理模块940和超分辨率模块950，其中：

参数获取模块910，用于获取待处理视频中视频帧的特征参数；

第一处理模块920，用于将所述特征参数输入预先训练的空间模型，得到所述视频帧的空间特征；

第二处理模块930，用于将所述空间特征输入预先训练的时间模型，通过所述时间模型对所述空间特征和所述视频帧的时间特征进行融合，得到所述视频帧的第一融合特征；所述时间特征通过所述时间模型得到；

第三处理模块940，用于将所述第一融合特征输入预先训练的编解码模型，通过所述编解码模型对所述第一融合特征和所述视频帧的尺度特征进行融合，得到所述视频帧的第二融合特征；所述尺度特征通过所述编解码模型得到；

超分辨率模块950，用于根据所述第二融合特征，得到与所述待处理视频对应的超分辨率视频。

在一个实施例中，上述参数获取模块910，还用于获取原始待处理视频；对所述原始待处理视频进行数据清洗，得到清洗后视频；对所述清洗后视频进行分组，得到所述待处理视频；对所述待处理视频中的各所述视频帧进行特征映射处理，得到各所述视频帧的图像特征，以及，对所述待处理视频中的各所述视频帧进行嵌入处理，得到各所述视频帧的标记。

在一个实施例中，上述第一处理模块920，还用于将每组所述视频帧中的各所述视频帧的特征参数，分别输入至所述视频帧对应的空间模型，得到各所述视频帧的空间特征。

在一个实施例中，上述第三处理模块940，还用于将所述第一融合特征依次输入至所述两个下采样子模型、一个尺度不变子模型和两个上采样子模型，得到所述视频帧的第二融合特征。

在一个实施例中，上述超分辨率模块950，还包括：

特征融合模块，用于将所述视频帧的第二融合特征与所述视频帧的图像特征进行融合，得到所述视频帧的第三融合特征；

视频重建模块，用于对所述第三融合特征进行反卷积层重建处理，得到重建后视频帧；

视频叠加模块，用于将所述重建后视频帧与所述待处理视频的视频帧进行叠加，得到所述超分辨率视频。

在一个实施例中，上述视频叠加模块，还用于将所述重建后视频帧与所述待处理视频的视频帧进行叠加，得到叠加后视频帧；将至少一个所述叠加后视频帧相连接，得到叠加后视频；根据预设的视频显示参数，对所述叠加后视频进行参数调整，得到所述超分辨率视频。

在一个实施例中，上述视频处理装置，还包括：

样本获取模块，用于获取模型训练数据和所述模型训练数据对应的数据标识；

样本识别模块，用于将所述模型训练数据输入至待训练的超分辨率模型，得到所述模型训练数据的识别结果；

模型训练模块，用于根据所述模型训练数据的识别结果和所述数据标识之间的差异，对所述待训练的超分辨率模型进行训练，得到预先训练的超分辨率模型；所述预先训练的超分辨率模型包括所述预先训练的空间模型、所述预先训练的时间模型和所述预先训练的编解码模型。

上述视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取待处理视频中视频帧的特征参数；

2.根据权利要求1所述的方法，其特征在于，所述特征参数包括图像特征和标记；所述获取待处理视频中视频帧的特征参数，包括：

获取原始待处理视频；

对所述原始待处理视频进行数据清洗，得到清洗后视频；

对所述清洗后视频进行分组，得到所述待处理视频；

3.根据权利要求2所述的方法，其特征在于，所述待处理视频包含至少一组视频帧，每组所述视频帧中的各所述视频帧分别对应于一个空间模型；所述将所述特征参数输入预先训练的空间模型，得到所述视频帧的空间特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述编解码模型包含两个下采样子模型、一个尺度不变子模型和两个上采样子模型；所述将所述第一融合特征输入预先训练的编解码模型，通过所述编解码模型对所述第一融合特征和所述视频帧的尺度特征进行融合，得到所述视频帧的第二融合特征，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述第二融合特征，得到与所述待处理视频对应的超分辨率视频，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述重建后视频帧与所述待处理视频的视频帧进行叠加，得到所述超分辨率视频，包括：

将至少一个所述叠加后视频帧相连接，得到叠加后视频；

7.根据权利要求1所述的方法，其特征在于，在获取待处理视频中视频帧的特征参数之前，还包括：

获取模型训练数据和所述模型训练数据对应的数据标识；

8.一种视频处理装置，其特征在于，所述装置包括：

参数获取模块，用于获取待处理视频中视频帧的特征参数；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。