CN113837136B

CN113837136B - 视频插帧方法及装置、电子设备和存储介质

Info

Publication number: CN113837136B
Application number: CN202111154081.7A
Authority: CN
Inventors: 于志洋; 张宇; 邹冬青; 任思捷
Original assignee: Shenzhen TetrasAI Technology Co Ltd
Current assignee: Shenzhen TetrasAI Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-12-23
Anticipated expiration: 2041-09-29
Also published as: WO2023050723A1; CN113837136A

Abstract

本公开涉及一种视频插帧方法及装置、电子设备和存储介质，所述方法包括：获取待处理视频对应的初始待插帧，以及初始待插帧对应的第一事件信息，第一事件信息用于表征初始待插帧中物体的运动轨迹；分别对初始待插帧以及第一事件信息进行特征提取，得到初始待插帧对应的初始帧特征图以及第一事件信息对应的事件特征图；根据初始帧特征图与事件特征图，生成目标待插帧；将目标待插帧插入至待处理视频中，得到处理后视频。本公开实施例可实现提高处理后视频的画面质量。

Description

视频插帧方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频插帧方法及装置、电子设备和存储介质。

背景技术

相关技术中，可以例如通过光流估计算法等视频插帧技术，对原始视频进行插帧，来提高原始视频的帧率。但通过现有视频插帧技术所生成的待插帧的图像质量不高，从而降低了插帧后视频的画面质量，例如使插帧后视频的画面产生抖动、扭曲等。

发明内容

本公开提出了一种视频插帧技术方案。

根据本公开的一方面，提供了一种视频插帧方法，包括：获取待处理视频对应的初始待插帧，以及所述初始待插帧对应的第一事件信息，所述第一事件信息用于表征所述初始待插帧中物体的运动轨迹；分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图；根据所述初始帧特征图与所述事件特征图，生成目标待插帧；将所述目标待插帧插入至所述待处理视频中，得到处理后视频。通过该方式，能够提高处理后视频的画面质量，有利于降低处理后视频中画面的抖动与扭曲等。

在一种可能的实现方式中，所述根据所述初始帧特征图与所述事件特征图，生成目标待插帧，包括：根据所述初始帧特征图与所述事件特征图，生成预估待插帧；根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，所述第二事件信息用于表征所述原始视频帧中物体的运动轨迹。通过该方式，能够提取原始视频帧中物体的细节信息，将物体的细节信息融合至预估待插帧中，从而增强预估待插帧的图像质量，也即使目标待插帧具有更高的图像质量。

在一种可能的实现方式中，所述初始帧特征图包括S个尺度，所述事件特征图包括S个尺度，S为正整数，其中，所述根据所述初始帧特征图与所述事件特征图，生成预估待插帧，包括：根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图；根据第(s-1)尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图；根据所述第(s-1)尺度的融合特征图、所述第s尺度的可融合初始帧特征图以及所述第s尺度的可融合事件特征图，得到第s尺度的融合特征图；对第(S-1)尺度的融合特征图进行解码处理，得到所述预估待插帧；其中，s∈[1,S)。通过该方式，能够有效实现初始帧特征图与事件特征图之间的多尺度自适应特征融合，从而有效得到预估待插帧。

在一种可能的实现方式中，所述根据第(s-1)尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图，包括：对所述第(s-1)尺度的融合特征图进行上采样，得到上采样特征图，所述上采样特征图与所述第s尺度的初始帧特征图以及所述第s尺度的事件特征图的尺寸相同；根据所述上采样特征图与所述第s尺度的初始帧特征图之间的第一空间转换关系，得到所述第s尺度的可融合初始帧特征图；根据所述上采样特征图与所述第s尺度的事件特征图之间的第二空间转换关系，得到所述第s尺度的可融合事件特征图；其中，所述第s尺度的可融合初始帧特征图、所述第s尺度的可融合事件特征图与所述上采样特征图处于同一特征空间中。通过该方式，能够有效得到可以进行特征融合的、第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图。

在一种可能的实现方式中，所述第一空间转换关系是根据所述第s尺度的初始帧特征图在空间转换时的第一像素尺寸缩放信息与第一偏置信息，以及所述上采样特征图的特征信息确定的；所述第二空间转换关系是根据所述第s尺度的事件特征图在空间转换时的第二像素尺寸缩放信息与第二偏置信息，以及所述上采样特征图的特征信息确定的；其中，像素尺寸缩放信息表示空间转换中每个像素点的尺寸缩放比例，偏置信息表示空间转换中每个像素点的位置偏移量。通过该方式，能够有效利用第一空间转换关系与第二空间转换关系，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐。

在一种可能的实现方式中，所述根据所述第s-1尺度的融合特征图、所述第s尺度的可融合初始帧特征图以及所述第s尺度的可融合事件特征图，得到第s尺度的融合特征图，包括：对上采样特征图进行卷积处理以及非线性处理，得到所述上采样特征图对应的掩码图，其中，所述上采样特征图是对所述第(s-1)尺度的融合特征图进行上采样得到的；根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到所述第s尺度的融合特征图。

在一种可能的实现方式中，所述根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到所述第s尺度的融合特征图，包括：根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图；对所述第s尺度的初始融合特征图进行卷积处理以及非线性处理，得到所述第s尺度的融合特征图。通过该方式，能够有效在上采样特征图对应的掩码图的指导下，自适应地将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合。

在一种可能的实现方式中，所述根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图，包括：计算所述掩码图与所述第s尺度的可融合事件特征图之间的哈达玛积；根据所述掩码图对应的反向掩码图，计算所述反向掩码图与所述第s尺度的可融合初始帧特征图之间的乘积；将所述哈达玛积与所述乘积相加，得到所述第s尺度的初始融合特征图。通过该方式，能够有效增加融合特征图的非线性或者说为增加融合特征图的复杂度，便于实现多尺度的特征融合。

在一种可能的实现方式中，所述根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图，包括：将所述第0尺度的初始帧特征图与所述第0尺度的事件特征图进行通道拼接，得到拼接特征图；对所述拼接特征图进行滤波处理，得到所述第0尺度的融合特征图。通过该方式，能够有效得到第0尺度的融合特征图。

在一种可能的实现方式中，所述根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，包括：将所述预估待插帧与所述第一事件信息进行组合，得到预估帧事件组合信息；将所述原始视频帧与所述第二事件信息进行组合，得到原始帧事件组合信息；分别对所述预估帧事件组合信息与所述原始帧事件组合信息进行特征提取，得到所述预估帧事件组合信息对应的预估帧事件特征图以及所述原始帧事件组合信息对应的原始帧事件特征图；根据所述预估帧事件特征图，对所述原始帧事件特征图进行调整，得到整合特征图；根据所述整合特征图、所述预估帧事件特征图以及融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，所述融合特征图是对所述初始帧特征图与所述事件特征图进行多尺度融合得到的。通过该方式，能够将整合特征图、预估帧事件特征图与融合特征图进行融合，并提取目标融合特征图中表征图像细节的残差信息，进而将预估待插帧与残差信息进行叠加所得到的目标待插帧的图像质量更高。

在一种可能的实现方式中，所述预估帧事件特征图包括S^*个尺度，所述原始帧事件特征图包括S^*个尺度，1≤S^*≤S，S^*为正整数，s^*∈[(S-S^*)，S)，第(S-S^*)尺度的预估帧事件特征图的尺寸为I×I，I为正整数，其中，所述根据所述预估帧事件特征图，对所述原始帧事件特征图进行调整，得到整合特征图，包括：针对第(S-S^*)尺度的预估帧事件特征图中的任一个第一像素点，从第(S-S^*)尺度的原始帧事件特征图中确定出与所述第一像素点匹配的第一匹配像素点；根据所述第一匹配像素点的像素位置以及指定偏移量，确定与所述像素位置对应的亚像素位置，所述指定偏移量为小数；根据I×I个所述亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图。通过该方式，相当于利用注意力机制找到与每个第一像素点对应的亚像素位置，并基于亚像素位置得到整合特征图，也即整合特征图是结合注意力机制的特征图，从而使得整合特征图中包含了关注度更高的特征信息。

在一种可能的实现方式中，所述针对第(S-S^*)尺度的预估帧事件特征图中的任一个第一像素点，从第(S-S^*)尺度的原始帧事件特征图中确定出与所述第一像素点匹配的第一匹配像素点，包括：针对任一个第一像素点，计算所述第一像素点分别与所述第(S-S^*)尺度的原始帧事件特征图中、在指定窗口内的各个像素点之间的特征相似度，所述指定窗口是根据所述第一像素点的像素位置确定的；将所述指定窗口内的各个像素点中的、最大特征相似度所对应的像素点，确定为所述第一匹配像素点。通过该方式，可以高效地确定出与各第一像素点匹配的第一匹配像素点。

在一种可能的实现方式中，所述根据所述第一匹配像素点的像素位置以及指定偏移量，确定与所述像素位置对应的亚像素位置，包括：根据所述像素位置、预设的偏移参数以及预设的曲面参数，确定目标函数，根据所述偏移参数对应的预设取值区间，对所述目标函数进行最小化求解，得到所述曲面参数的参数值，其中所述偏移参数为所述目标函数中的自变量；根据所述曲面参数的参数值，确定所述指定偏移量；将所述像素位置与所述指定偏移量相加，得到所述亚像素位置。通过该方式，能够准确有效地确定出亚像素位置，便于之后基于亚像素位置得到整合特征图。

在一种可能的实现方式中，所述目标函数是根据曲面函数与距离函数之间的差异构建的，所述距离函数是根据所述像素位置与所述偏移参数构建的，所述曲面函数是根所述曲面参数与所述偏移参数构建的。通过该方式，能够利用目标函数，有效确定出亚像素位置。

在一种可能的实现方式中，所述曲面参数包括第一参数与第二参数，所述第一参数为2×2的矩阵，所述第二参数为2×1的向量，所述第一参数的参数值包括所述矩阵中对角线上的两个第一元素值，所述第二参数的参数值包括所述向量中的两个第二元素值，其中，所述根据所述曲面参数的参数值，确定所述指定偏移量，包括：根据所述两个第一元素值与所述两个第二元素值，确定纵轴偏移量与横轴偏移量，所述指定偏移量包括所述纵轴偏移量与横轴偏移量。通过该方式，可以有效得到横轴偏移量与纵轴偏移量。

在一种可能的实现方式中，所述第s^*尺度的原始帧事件特征图的尺寸是所述第(S-S^*)尺度的预估帧事件特征图的n倍，其中，所述根据I×I个所述亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图，包括：以每一个所述亚像素位置为中心，从所述第s^*尺度的原始帧事件特征图上裁切出I×I个、n×n尺寸的特征图块；根据I×I个所述亚像素位置，对所述I×I个、n×n尺寸的特征图块进行尺寸拼接，得到所述第s^*尺度的整合特征图，所述第s^*尺度的整合特征图与所述第s^*尺度的原始帧事件特征图的尺寸相同。通过该方式，可以使第s^*尺度的整合特征图中包含了关注度更高的特征信息。

在一种可能的实现方式中，所述原始视频帧包括至少两帧，第s^*尺度的整合特征图包括至少两个，其中，所述根据所述整合特征图、所述预估帧事件特征图以及融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，包括：根据第s^*尺度的预估帧事件特征图以及至少两个第s^*尺度的整合特征图，确定第s^*尺度的目标整合特征图；根据S^*个尺度的目标整合特征图、所述预估帧事件特征图以及所述融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧。通过该方式，能够将与预估帧事件特征图相似度更高的目标整合特征图、预估帧事件特征图与融合特征图三者进行融合，并提取目标融合特征图中表征图像细节的残差信息，进而将预估待插帧与残差信息进行叠加所得到的目标待插帧的图像质量更高。

在一种可能的实现方式中，根据第s^*尺度的预估帧事件特征图以及至少两个第s^*尺度的整合特征图，确定第s^*尺度的目标整合特征图，包括：针对所述第s^*尺度的预估帧事件特征图中的任一个第二像素点，从所述至少两个第s^*尺度的整合特征图中，确定出与所述第二像素点匹配的目标匹配像素点；根据各个与所述第二像素点匹配的目标匹配像素点处的特征信息，生成所述第s^*尺度的目标整合特征图。通过该方式，能够在第s^*尺度的整合特征图包括至少两个的情况下，确定出与各个第二像素点匹配的目标匹配像素点，从而得到与第s^*尺度的预估帧事件特征图最匹配的第s^*尺度的目标整合特征图。

在一种可能的实现方式中，所述针对所述第s^*尺度的预估帧事件特征图中的任一个第二像素点，从所述至少两个第s^*尺度的整合特征图中，确定出与所述第二像素点匹配的目标匹配像素点，包括：针对任一个第s^*尺度的整合特征图，根据所述第二像素点与所述第s^*尺度的整合特征图中各个像素点之间的特征相似度，从所述第s^*尺度的整合特征图中确定出与所述第二像素点匹配的第二匹配像素点；根据至少两个所述第二匹配像素点各自对应的特征相似度，将至少两个所述第二匹配像素点中特征相似度最大的第二匹配像素点，确定为与所述第二像素点匹配的目标匹配像素点。通过该方式，能够在第s^*尺度的整合特征图包括至少两个的情况下，确定出与各个第二像素点匹配的目标匹配像素点，从而得到与第s^*尺度的预估帧事件特征图最匹配的第s^*尺度的目标整合特征图。

在一种可能的实现方式中，所述根据S^*个尺度的目标整合特征图、所述预估帧事件特征图以及所述融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，包括：根据第(S-S^*)尺度的目标整合特征图、第(S-S^*)尺度的预估帧事件特征图以及第(S-S^*)尺度的融合特征图，得到第(S-S^*)尺度的目标融合特征图；对第(s^*-1)尺度的目标融合特征图、第s^*尺度的目标整合特征图以及第s^*尺度的融合特征图进行特征融合，得到第s^*尺度的目标融合特征图；提取第s^*尺度的目标融合特征图中的残差特征，得到第s^*尺度的残差特征图；对第S尺度的残差特征图进行解码处理，得到解码后的残差信息；将所述残差信息叠加至所述预估待插帧中，得到所述目标待插帧。通过该方式，能够提取目标融合特征图中表征图像细节的残差信息，进而将预估待插帧与残差信息进行叠加所得到的目标待插帧的图像质量更高。

在一种可能的实现方式中，所述根据第(S-S^*)尺度的目标整合特征图、第(S-S^*)尺度的预估帧事件特征图以及第(S-S^*)尺度的融合特征图，得到第(S-S^*)尺度的目标融合特征图，包括：提取所述第(S-S^*)尺度的预估帧事件特征图的残差特征，得到第(S-S^*)尺度的残差特征图；将所述第(S-S^*)尺度的残差特征图、所述第(S-S^*)尺度的目标整合特征图以及所述第S-S^*尺度的融合特征图进行通道拼接，得到目标拼接特征图；对所述目标拼接特征图进行滤波处理，得到所述第(S-S^*)尺度的目标融合特征图。通过该方式，可以有效得到第S-S^*尺度的目标融合特征图。

在一种可能的实现方式中，所述获取待处理视频对应的初始待插帧，以及所述初始待插帧对应的第一事件信息，包括：根据指定的插帧时刻，以及所述待处理视频中与所述插帧时刻相邻的原始视频帧，生成所述初始待插帧，所述待处理视频是事件相机采集的；根据所述事件相机在所述插帧时刻对应的时间区间内所采集的事件信号，确定所述第一事件信息，所述事件信号用于表征所述事件相机所拍摄物体上亮度发生变化的采集点、在所述时间区间内的亮度变化程度。通过该方式，可以有效得到初始待插帧以及初始待插帧对应的第一事件信息。

在一种可能的实现方式中，所述根据所述事件相机在所述插帧时刻对应的时间区间内所采集的事件信号，确定所述第一事件信息，包括：将所述时间区间内所采集的事件信号划分为M组事件信号，M为正整数；针对第m组事件信号，按照预设的信号过滤区间，从所述第m组事件信号中筛除处于所述信号过滤区间外的事件信号，得到第m组目标事件信号，m∈[1，M]；根据所述第m组目标事件信号中、各个目标事件信号的极性以及信号位置，将同一信号位置处的目标事件信号进行累加，得到第m个子事件信息，所述信号位置用于表征与所述目标事件信号对应的采集点、在所述事件相机的成像平面中的坐标位置；其中，所述第一事件信息包括M个子事件信息。通过该方式，能够将插帧时刻对应的时间区间内采集的事件信号，有效转换成多通道的第一事件信息，从而便于之后提取第一事件信息的事件特征图。

在一种可能的实现方式中，所述视频插帧方法是通过图像处理网络实现的，所述图像处理网络包括互补信息融合网络与亚像素运动注意力网络，所述互补信息融合网络包括双分支特征提取子网络与多尺度自适应融合子网络；其中，所述分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图，包括：通过所述双分支特征提取子网络，分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图。通过该方式，通过该方式，可以有效生成初始帧特征图与事件特征图。

在一种可能的实现方式中，所述根据所述初始帧特征图与所述事件特征图，生成预估待插帧，包括：通过所述多尺度自适应融合子网络，根据所述初始帧特征图与所述事件特征图，生成预估待插帧；和/或，所述根据与所述初始待插帧相邻的原始视频帧以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，包括：通过所述亚像素运动注意力网络，根据与所述初始待插帧相邻的原始视频帧以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧。通过该方式，可快速准确地生成预估待插帧以及图像质量更高的目标待插帧。

在一种可能的实现方式中，所述方法还包括：根据样本视频，训练初始图像处理网络，得到所述图像处理网络，所述样本视频包括样本中间帧以及与所述样本中间帧相邻的样本视频帧；其中，所述根据样本视频，训练初始图像处理网络，得到所述图像处理网络，包括：根据样本中间帧对应的中间时刻以及所述样本视频帧，生成初始中间帧；将所述样本视频帧以及所述初始中间帧输入至所述初始图像处理网络中，得到所述初始图像处理网络输出的预测中间帧；根据所述预测中间帧与所述样本中间帧之间的损失，更新所述初始图像处理网络的网络参数至所述损失满足预设条件，得到所述图像处理网络。通过该方式，能够使训练后的图像处理网络，准确高效地生成目标待插帧。

在一种可能的实现方式中，所述初始图像处理网络包括初始互补信息融合网络与初始亚像素运动注意力网络，所述预测中间帧包括：所述初始互补信息融合网络输出的第一预测中间帧，以及所述初始亚像素运动注意力网络输出的第二预测中间帧；其中，所述根据所述预测中间帧与所述样本中间帧之间的损失，更新所述初始图像处理网络的网络参数至所述损失满足预设条件，得到所述图像处理网络，包括：根据所述第一预测中间帧与所述样本中间帧之间的第一损失，更新所述初始互补信息融合网络的网络参数至所述第一损失收敛，得到所述互补信息融合网络；将所述互补信息融合网络输出的样本预测中间帧，输入至所述初始亚像素运动注意力网络，得到所述第二预测中间帧；根据所述第二预测待插帧与所述样本中间帧之间的第二损失，更新所述初始亚像素运动注意力网络的网络参数至所述第二损失收敛，得到所述亚像素运动注意力网络。通过该方式，能够分阶段训练图像处理网络，提高图像处理网络的训练效率。

根据本公开的一方面，提供了一种视频插帧装置，包括：获取模块，用于获取待处理视频对应的初始待插帧，以及所述初始待插帧对应的第一事件信息，所述第一事件信息用于表征所述初始待插帧中物体的运动轨迹；特征提取模块，用于分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图；生成模块，用于根据所述初始帧特征图与所述事件特征图，生成目标待插帧；插帧模块，用于将所述目标待插帧插入至所述待处理视频中，得到处理后视频。

在一种可能的实现方式中，所述生成模块，包括：预估帧生成子模块，用于根据所述初始帧特征图与所述事件特征图，生成预估待插帧；预估帧优化子模块，用于根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，所述第二事件信息用于表征所述原始视频帧中物体的运动轨迹。

在一种可能的实现方式中，所述初始帧特征图包括S个尺度，所述事件特征图包括S个尺度，S为正整数，其中，所述根据所述初始帧特征图与所述事件特征图，生成预估待插帧，包括：根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图；根据第(s-1)尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图；根据所述第(s-1)尺度的融合特征图、所述第s尺度的可融合初始帧特征图以及所述第s尺度的可融合事件特征图，得到第s尺度的融合特征图；对第(S-1)尺度的融合特征图进行解码处理，得到所述预估待插帧；其中，s∈[1,S)。

在一种可能的实现方式中，所述根据第(s-1)尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图，包括：对所述第(s-1)尺度的融合特征图进行上采样，得到上采样特征图，所述上采样特征图与所述第s尺度的初始帧特征图以及所述第s尺度的事件特征图的尺寸相同；根据所述上采样特征图与所述第s尺度的初始帧特征图之间的第一空间转换关系，得到所述第s尺度的可融合初始帧特征图；根据所述上采样特征图与所述第s尺度的事件特征图之间的第二空间转换关系，得到所述第s尺度的可融合事件特征图；其中，所述第s尺度的可融合初始帧特征图、所述第s尺度的可融合事件特征图与所述上采样特征图处于同一特征空间中。

在一种可能的实现方式中，所述第一空间转换关系是根据所述第s尺度的初始帧特征图在空间转换时的第一像素尺寸缩放信息与第一偏置信息，以及所述上采样特征图的特征信息确定的；所述第二空间转换关系是根据所述第s尺度的事件特征图在空间转换时的第二像素尺寸缩放信息与第二偏置信息，以及所述上采样特征图的特征信息确定的；其中，像素尺寸缩放信息表示空间转换中每个像素点的尺寸缩放比例，偏置信息表示空间转换中每个像素点的位置偏移量。

在一种可能的实现方式中，所述根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到所述第s尺度的融合特征图，包括：根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图；对所述第s尺度的初始融合特征图进行卷积处理以及非线性处理，得到所述第s尺度的融合特征图。

在一种可能的实现方式中，所述根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图，包括：计算所述掩码图与所述第s尺度的可融合事件特征图之间的哈达玛积；根据所述掩码图对应的反向掩码图，计算所述反向掩码图与所述第s尺度的可融合初始帧特征图之间的乘积；将所述哈达玛积与所述乘积相加，得到所述第s尺度的初始融合特征图。

在一种可能的实现方式中，所述根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图，包括：将所述第0尺度的初始帧特征图与所述第0尺度的事件特征图进行通道拼接，得到拼接特征图；对所述拼接特征图进行滤波处理，得到所述第0尺度的融合特征图。

在一种可能的实现方式中，所述根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，包括：将所述预估待插帧与所述第一事件信息进行组合，得到预估帧事件组合信息；将所述原始视频帧与所述第二事件信息进行组合，得到原始帧事件组合信息；分别对所述预估帧事件组合信息与所述原始帧事件组合信息进行特征提取，得到所述预估帧事件组合信息对应的预估帧事件特征图以及所述原始帧事件组合信息对应的原始帧事件特征图；根据所述预估帧事件特征图，对所述原始帧事件特征图进行调整，得到整合特征图；根据所述整合特征图、所述预估帧事件特征图以及融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，所述融合特征图是对所述初始帧特征图与所述事件特征图进行多尺度融合得到的。

在一种可能的实现方式中，所述预估帧事件特征图包括S^*个尺度，所述原始帧事件特征图包括S^*个尺度，1≤S^*≤S，S^*为正整数，s^*∈[(S-S^*)，S)，第(S-S^*)尺度的预估帧事件特征图的尺寸为I×I，I为正整数，其中，所述根据所述预估帧事件特征图，对所述原始帧事件特征图进行调整，得到整合特征图，包括：针对第(S-S^*)尺度的预估帧事件特征图中的任一个第一像素点，从第(S-S^*)尺度的原始帧事件特征图中确定出与所述第一像素点匹配的第一匹配像素点；根据所述第一匹配像素点的像素位置以及指定偏移量，确定与所述像素位置对应的亚像素位置，所述指定偏移量为小数；根据I×I个所述亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图。

在一种可能的实现方式中，所述针对第(S-S^*)尺度的预估帧事件特征图中的任一个第一像素点，从第(S-S^*)尺度的原始帧事件特征图中确定出与所述第一像素点匹配的第一匹配像素点，包括：针对任一个第一像素点，计算所述第一像素点分别与所述第(S-S^*)尺度的原始帧事件特征图中、在指定窗口内的各个像素点之间的特征相似度，所述指定窗口是根据所述第一像素点的像素位置确定的；将所述指定窗口内的各个像素点中的、最大特征相似度所对应的像素点，确定为所述第一匹配像素点。

在一种可能的实现方式中，所述根据所述第一匹配像素点的像素位置以及指定偏移量，确定与所述像素位置对应的亚像素位置，包括：根据所述像素位置、预设的偏移参数以及预设的曲面参数，确定目标函数，根据所述偏移参数对应的预设取值区间，对所述目标函数进行最小化求解，得到所述曲面参数的参数值，其中所述偏移参数为所述目标函数中的自变量；根据所述曲面参数的参数值，确定所述指定偏移量；将所述像素位置与所述指定偏移量相加，得到所述亚像素位置。

在一种可能的实现方式中，所述目标函数是根据曲面函数与距离函数之间的差异构建的，所述距离函数是根据所述像素位置与所述偏移参数构建的，所述曲面函数是根所述曲面参数与所述偏移参数构建的。

在一种可能的实现方式中，所述曲面参数包括第一参数与第二参数，所述第一参数为2×2的矩阵，所述第二参数为2×1的向量，所述第一参数的参数值包括所述矩阵中对角线上的两个第一元素值，所述第二参数的参数值包括所述向量中的两个第二元素值，其中，所述根据所述曲面参数的参数值，确定所述指定偏移量，包括：根据所述两个第一元素值与所述两个第二元素值，确定纵轴偏移量与横轴偏移量，所述指定偏移量包括所述纵轴偏移量与横轴偏移量。

在一种可能的实现方式中，所述第s^*尺度的原始帧事件特征图的尺寸是所述第(S-S^*)尺度的预估帧事件特征图的n倍，其中，所述根据I×I个所述亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图，包括：以每一个所述亚像素位置为中心，从所述第s^*尺度的原始帧事件特征图上裁切出I×I个、n×n尺寸的特征图块；根据I×I个所述亚像素位置，对所述I×I个、n×n尺寸的特征图块进行尺寸拼接，得到所述第s^*尺度的整合特征图，所述第s^*尺度的整合特征图与所述第s^*尺度的原始帧事件特征图的尺寸相同。

在一种可能的实现方式中，所述原始视频帧包括至少两帧，第s^*尺度的整合特征图包括至少两个，其中，所述根据所述整合特征图、所述预估帧事件特征图以及融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，包括：根据第s^*尺度的预估帧事件特征图以及至少两个第s^*尺度的整合特征图，确定第s^*尺度的目标整合特征图；根据S^*个尺度的目标整合特征图、所述预估帧事件特征图以及所述融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧。

在一种可能的实现方式中，根据第s^*尺度的预估帧事件特征图以及至少两个第s^*尺度的整合特征图，确定第s^*尺度的目标整合特征图，包括：针对所述第s^*尺度的预估帧事件特征图中的任一个第二像素点，从所述至少两个第s^*尺度的整合特征图中，确定出与所述第二像素点匹配的目标匹配像素点；根据各个与所述第二像素点匹配的目标匹配像素点处的特征信息，生成所述第s^*尺度的目标整合特征图。

在一种可能的实现方式中，所述针对所述第s^*尺度的预估帧事件特征图中的任一个第二像素点，从所述至少两个第s^*尺度的整合特征图中，确定出与所述第二像素点匹配的目标匹配像素点，包括：针对任一个第s^*尺度的整合特征图，根据所述第二像素点与所述第s^*尺度的整合特征图中各个像素点之间的特征相似度，从所述第s^*尺度的整合特征图中确定出与所述第二像素点匹配的第二匹配像素点；根据至少两个所述第二匹配像素点各自对应的特征相似度，将至少两个所述第二匹配像素点中特征相似度最大的第二匹配像素点，确定为与所述第二像素点匹配的目标匹配像素点。

在一种可能的实现方式中，所述根据S^*个尺度的目标整合特征图、所述预估帧事件特征图以及所述融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，包括：根据第(S-S^*)尺度的目标整合特征图、第(S-S^*)尺度的预估帧事件特征图以及第(S-S^*)尺度的融合特征图，得到第(S-S^*)尺度的目标融合特征图；对第(s^*-1)尺度的目标融合特征图、第s^*尺度的目标整合特征图以及第s^*尺度的融合特征图进行特征融合，得到第s^*尺度的目标融合特征图；提取第s^*尺度的目标融合特征图中的残差特征，得到第s^*尺度的残差特征图；对第S尺度的残差特征图进行解码处理，得到解码后的残差信息；将所述残差信息叠加至所述预估待插帧中，得到所述目标待插帧。

在一种可能的实现方式中，所述根据第(S-S^*)尺度的目标整合特征图、第(S-S^*)尺度的预估帧事件特征图以及第(S-S^*)尺度的融合特征图，得到第(S-S^*)尺度的目标融合特征图，包括：提取所述第(S-S^*)尺度的预估帧事件特征图的残差特征，得到第(S-S^*)尺度的残差特征图；将所述第(S-S^*)尺度的残差特征图、所述第(S-S^*)尺度的目标整合特征图以及所述第S-S^*尺度的融合特征图进行通道拼接，得到目标拼接特征图；对所述目标拼接特征图进行滤波处理，得到所述第(S-S^*)尺度的目标融合特征图。

在一种可能的实现方式中，所述获取模块，包括：初始生成子模块，用于根据指定的插帧时刻，以及所述待处理视频中与所述插帧时刻相邻的原始视频帧，生成所述初始待插帧，所述待处理视频是事件相机采集的；事件信息生成子模块，用于根据所述事件相机在所述插帧时刻对应的时间区间内所采集的事件信号，确定所述第一事件信息，所述事件信号用于表征所述事件相机所拍摄物体上亮度发生变化的采集点、在所述时间区间内的亮度变化程度。

在一种可能的实现方式中，所述根据所述事件相机在所述插帧时刻对应的时间区间内所采集的事件信号，确定所述第一事件信息，包括：将所述时间区间内所采集的事件信号划分为M组事件信号，M为正整数；针对第m组事件信号，按照预设的信号过滤区间，从所述第m组事件信号中筛除处于所述信号过滤区间外的事件信号，得到第m组目标事件信号，m∈[1，M]；根据所述第m组目标事件信号中、各个目标事件信号的极性以及信号位置，将同一信号位置处的目标事件信号进行累加，得到第m个子事件信息，所述信号位置用于表征与所述目标事件信号对应的采集点、在所述事件相机的成像平面中的坐标位置；其中，所述第一事件信息包括M个子事件信息。

在一种可能的实现方式中，所述视频插帧装置是通过图像处理网络实现的，所述图像处理网络包括互补信息融合网络与亚像素运动注意力网络，所述互补信息融合网络包括双分支特征提取子网络与多尺度自适应融合子网络；其中，所述分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图，包括：通过所述双分支特征提取子网络，分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图。

在一种可能的实现方式中，所述根据所述初始帧特征图与所述事件特征图，生成预估待插帧，包括：通过所述多尺度自适应融合子网络，根据所述初始帧特征图与所述事件特征图，生成预估待插帧；和/或，所述根据与所述初始待插帧相邻的原始视频帧以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，包括：通过所述亚像素运动注意力网络，根据与所述初始待插帧相邻的原始视频帧以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧。

在一种可能的实现方式中，所述装置还包括：网络训练模块，用于根据样本视频，训练初始图像处理网络，得到所述图像处理网络，所述样本视频包括样本中间帧以及与所述样本中间帧相邻的样本视频帧；其中，所述根据样本视频，训练初始图像处理网络，得到所述图像处理网络，包括：根据样本中间帧对应的中间时刻以及所述样本视频帧，生成初始中间帧；将所述样本视频帧以及所述初始中间帧输入至所述初始图像处理网络中，得到所述初始图像处理网络输出的预测中间帧；根据所述预测中间帧与所述样本中间帧之间的损失，更新所述初始图像处理网络的网络参数至所述损失满足预设条件，得到所述图像处理网络。

在一种可能的实现方式中，所述初始图像处理网络包括初始互补信息融合网络与初始亚像素运动注意力网络，所述预测中间帧包括：所述初始互补信息融合网络输出的第一预测中间帧，以及所述初始亚像素运动注意力网络输出的第二预测中间帧；其中，所述根据所述预测中间帧与所述样本中间帧之间的损失，更新所述初始图像处理网络的网络参数至所述损失满足预设条件，得到所述图像处理网络，包括：根据所述第一预测中间帧与所述样本中间帧之间的第一损失，更新所述初始互补信息融合网络的网络参数至所述第一损失收敛，得到所述互补信息融合网络；将所述互补信息融合网络输出的样本预测中间帧，输入至所述初始亚像素运动注意力网络，得到所述第二预测中间帧；根据所述第二预测待插帧与所述样本中间帧之间的第二损失，更新所述初始亚像素运动注意力网络的网络参数至所述第二损失收敛，得到所述亚像素运动注意力网络。

根据本公开的一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

在本公开实施例中，能够实现利用表征初始待插帧中物体的运动轨迹的第一事件信息，对待处理视频的初始待插帧进行优化，使生成的目标待插帧的图像质量高于初始待插帧，从而提高处理后视频的画面质量，有利于降低处理后视频中画面的抖动与扭曲等。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出根据本公开实施例的视频插帧方法的流程图。

图2示出根据本公开实施例的融合特征图生成流程的示意图。

图3示出根据本公开实施例的原始帧事件特征图的示意图。

图4示出根据本公开实施的一种图像处理网络的示意图。

图5示出根据本公开实施例的视频插帧装置的框图。

图6示出根据本公开实施例的一种电子设备的框图。

图7示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开实施例的视频插帧方法的流程图，所述视频插帧方法可以由终端设备或服务器等电子设备执行，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现，或者，可通过服务器执行所述方法。如图1所示，所述视频插帧方法包括：

在步骤S11中，获取待处理视频对应的初始待插帧，以及初始待插帧对应的第一事件信息，第一事件信息用于表征初始待插帧中物体的运动轨迹。

其中，待处理视频可理解为待插入视频帧的低帧率视频。在一种可能的实现方式中，可以是通过本领域已知的光流估计算法，例如PWCNet算法、FlowNet算法等，计算待处理视频中任意两帧原始视频帧到插帧时刻的光流，并根据光流将原始视频帧通过前向渲染(也即前向映射)等方式，渲染得到初始待插帧。应理解的是，待处理视频帧中任意两帧原始视频帧中可以插入至少一帧初始待插帧，对于初始待插帧的数量以及生成方式，本公开实施例不作限制。

其中，第一事件信息可以是根据事件相机采集的事件信号确定的。事件相机的基本原理可以简单理解为：当某个采集点的亮度变化累计达到一定亮度阈值后，输出一个事件信号，其中，该亮度阈值是事件相机的固有参数，事件信号可以表征事件相机所拍摄物体上亮度发生变化的采集点的亮度变化程度。

应理解的是，当事件相机所拍摄场景中的物体运动或光照改变造成亮度变化时，事件相机会产生一系列微秒级的事件信号，这些事件信号可以事件流的方式输出，基于此，根据事件相机采集的事件流，可以得到任意秒级时刻下表征物体的运动轨迹的事件信息。

在一种可能的实现方式中，例如可以是将初始待插帧对应的插帧时刻处的事件信号进行累加，得到初始待插帧对应的第一事件信息，那么第一事件信息也即可以表征插帧时刻处物体的运动轨迹，第一事件信息可以采用“图”的形式记录上述插帧时刻处事件信号的累加值，通过该方式，可以之后便于提取第一事件信息中的事件特征图。

考虑到，为了便于得到初始待插帧对应的第一事件信息，待处理视频也可以是由事件相机采集的，也即，事件相机可以同时采集事件信号与视频信号，事件信号以事件流的形式输出，视频信号以视频流的形式输出。当然待处理视频也可以是其它类型相机(如单目相机)采集的，其它类型相机与事件相机可以同步对同一场景进行信号采集，对此本公开实施例不作限制。

在步骤S12中，分别对初始待插帧以及第一事件信息进行特征提取，得到初始待插帧对应的初始帧特征图以及第一事件信息对应的事件特征图。

在一种可能的实现方式中，可以采用本领域已知的特征提取网络，例如，可以采用Unet网络、AlexNet网络等，分别对初始待插帧进行特征提取，得到初始待插帧对应的初始帧特征图，以及对第一事件信号进行特征提取，得到第一事件信息对应的事件特征图。应理解的是，对于采用何种特征提取网络，本公开实施例不作限制。

在步骤S13中，根据初始帧特征图与事件特征图，生成目标待插帧。

可理解的是，通过步骤S12提取的初始帧特征图与事件特征图可以是多尺度的特征图，在一种可能的实现方式中，根据初始帧特征图与事件特征图，生成目标待插帧，可以包括：通过本领域已知的多尺度特征融合网络(例如特征金字塔网络)，对初始帧特征图与事件特征图进行多尺度特征融合，得到融合后特征图；进而通过解码网络对融合后特征图进行解码处理，得到目标待插帧。

其中，可理解的是，解码网络与上述特征提取网络的网络结构对应，上述特征提取网络也可以称为编码网络。通过该方式生成的目标待插帧，能够将事件特征图中表征物体运动轨迹的特征信息融合至初始帧特征图中，能够使生成的目标待插帧中物体显示的更清晰和更稳定，也即提高目标待插帧的图像质量。

在步骤S14中，将目标待插帧插入至待处理视频中，得到处理后视频。

在一种可能的实现方式中，将目标待插帧插入至待处理视频中，得到处理后视频，可以包括：根据初始待插帧对应的插帧时刻，将目标待插帧插入至待处理视频中，得到处理后视频，其中，处理后视频的帧率高于待处理视频，也即处理后视频可理解为高帧率视频。应理解的是，可以采用本领域已知计算机视觉技术，实现将目标待插帧插入至待处理视频中，对此本公开实施例不作限制。

考虑到，通过上述本公开实施例中对初始待插帧以及第一事件信息进行特征提取以及多尺度特征融合的方式，可能使生成的目标待插帧中丢失原始视频帧中物体的部分细节信息，在一种可能的实现方式中，在步骤S13中，根据初始帧特征图与事件特征图，生成目标待插帧，包括：

步骤S131：根据初始帧特征图与事件特征图，生成预估待插帧；

如上所述，初始帧特征图与事件特征图可以是多尺度的，在一种可能的实现方式中，可以参照上述本公开实施例步骤S13中的相关记载，通过多尺度特征融合网络，对初始帧特征图与事件特征图进行多尺度特征融合，得到融合后特征图；进而通过解码网络对融合后特征图进行解码处理，得到预估待插帧。

步骤S132：根据待处理视频中、与初始待插帧的插帧时刻相邻的原始视频帧，以及原始视频帧对应的第二事件信息，对预估待插帧进行优化，得到目标待插帧，第二事件信息用于表征原始视频帧中物体的运动轨迹。

其中，待处理视频中与初始待插帧的插帧时刻相邻的原始视频帧，可以理解为，待处理视频中与插帧时刻在时序上相邻的原始视频帧。在一种可能的实现方式中，可以参照上述本公开实施例中第一事件信息的确定方式，得到原始视频帧对应的第二事件信息，也即，可以是将原始视频帧对应的采集时刻处的事件信号进行累加，得到原始视频帧对应的第二事件信息，那么第二事件信息也即可以表征原始视频帧对应的采集时刻处物体的运动轨迹。

在一种可能的实现方式中，根据上述原始视频帧以及第二事件信息，对预估待插帧进行优化，得到目标待插帧，例如可以包括：基于注意力机制，利用残差网络对原始视频帧与第二事件信息的组合信息进行残差特征提取，得到残差细节图，将残差细节图与预估待插帧的进行图像融合，得到目标待插帧。

在本公开实施例中，能够提取原始视频帧中物体的细节信息，将物体的细节信息融合至预估待插帧中，从而增强预估待插帧的图像质量，也即使目标待插帧具有更高的图像质量。

如上所述，初始帧特征图与事件特征图可以是多尺度的，在一种可能的实现方式中，初始帧特征图包括S个尺度，事件特征图包括S个尺度，S为正整数，s∈[1,S)，其中，在步骤S131中，根据初始帧特征图与事件特征图，生成预估待插帧，包括：

步骤S1311：根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图。

其中，第0尺度的初始帧特征图与第0尺度的事件特征图，可以理解为，分别是初始帧特征图与事件特征图中最低尺度或者说最小尺寸、最小分辨率的特征图。

在一种可能的实现方式中，根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图，可以包括：将第0尺度的初始帧特征图与第0尺度的事件特征图进行通道拼接，得到拼接特征图；对拼接特征图进行滤波处理，得到第0尺度的融合特征图。通过该方式，可以便捷地得到第0尺度的融合特征图。

其中，通道拼接，可以理解为，在特征图的通道维度上进行拼接，例如，128通道、16×16尺寸的两个特征图，通过通道拼接可以得到256通道、16×16尺寸的特征图。

在一种可能的实现方式中，可以通过卷积核为1×1尺寸的卷积层，对拼接特征图进行滤波处理，得到第0尺度的融合特征图，其中，卷积层中卷积核的数量与第0尺度的初始帧特征图的通道数相同。

应理解的是，第0尺度的融合特征图的尺寸以及通道数，与第0尺度的事件特征图以及第0尺度的初始帧特征图相同，举例来说，假设拼接特征图为256通道、16×16尺寸的特征图，通过卷积核为128个1×1尺寸的卷积层，对该拼接特征图进行滤波处理，可以得到128通道、16×16尺寸的第0尺度的融合特征图。

步骤S1312：根据第(s-1)尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图。

考虑到，初始帧特征图与事件特征图可以理解为对物体的不同视角表达，或者说，初始帧特征图与事件特征图的特征空间不同，为便于将初始帧特征图与事件特征图进行特征融合，可以将初始帧特征图与事件特征图转换至同一特征空间中，也即将初始帧特征图与事件特征图进行空间对齐。

其中，根据第s-1尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，可以理解为，将初始帧特征图与事件特征图转换至融合特征图对应的特征空间中，这样得到的第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图可以在同一特征空间中进行特征融合。

在一种可能的实现方式中，可以利用本领域已知的自适应实例归一化(AdaptiveInstance Normalization)思想，将不同视角表达的特征图在同一空间对齐，也即，实现根据第s-1尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐。

步骤S1313：根据第(s-1)尺度的融合特征图、第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图，得到第s尺度的融合特征图。

在一种可能的实现方式中，根据第s-1尺度的融合特征图、第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图，可以包括：对第s-1尺度的融合特征图进行上采样，得到上采样特征图，其中，上采样特征图与第s尺度的初始帧特征图以及第s尺度的事件特征图的尺寸相同；将上采样特征图与第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图三者之间特征融合，得到第s尺度的融合特征图。

其中，可采用本领域已知的特征融合方式，实现上述三个特征图之间的特征融合，例如，可采用将三个特征图相加(add)、通道数不变的方式，或三个特征图在通道维度合并(concat)、通道数增加的方式，对此本公开实施例不作限制。

应理解的是，上述步骤S1312至步骤S1313可以理解为递归式的特征融合过程，其中，除第0尺度的融合特征图以外的、各个尺度的融合特征图的递归融合过程，可以表示为公式(1)，

X^s＝g(X^s-1；f^s,e^s) (1)

其中，X^s-1表示第s-1尺度的融合特征图，f^s表示第s尺度的初始帧特征图，e^s表示第s尺度的事件特征图，g(X^s-1；f^s,e^s)表示上述步骤S1312至步骤S1313中空间对齐以及特征融合过程。

步骤S1314：对第(S-1)尺度的融合特征图进行解码处理，得到预估待插帧。

如上文所述，可以通过解码网络对融合后特征图进行解码处理，得到预估待插帧，其中，解码网络与上述特征提取网络的网络结构对应，上述特征提取网络也可以称为编码网络。应理解的是，第S-1尺度的融合特征图，可以理解为最后一次特征融合后得到融合特征图，也即为上述融合后特征图，基于此，可以通过解码网络对第S-1尺度的特征图进行解码处理，得到预估待插帧。

在一种可能的实现方式中，可以按照上述步骤S1311至步骤S1314的实现方式，直接根据初始帧特征图与事件特征图，生成目标待插帧，也即，可以直接将预估待插帧作为目标待插帧。应理解的是，预估待插帧的图像质量已高于初始待插帧，在预估待插帧的图像质量已满足用户的画质需求时，可以直接将预估待插帧作为目标待插帧，插入至待处理视频帧中，通过该方式，可以快速得到画面清晰稳定的待处理后视频。

在本公卡实施例中，能够有效实现初始帧特征图与事件特征图之间的多尺度自适应特征融合，从而有效得到预估待插帧。

如上所述，可以利用本领域已知的自适应实例归一化思想，将不同视角表达的特征图在同一空间对齐，基于此，在一种可能的实现方式中，在步骤S1312中，根据第(s-1)尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图，包括：

对第(s-1)尺度的融合特征图进行上采样，得到上采样特征图，上采样特征图与第s尺度的初始帧特征图以及第s尺度的事件特征图的尺寸相同；

根据上采样特征图与第s尺度的初始帧特征图之间的第一空间转换关系，得到第s尺度的可融合初始帧特征图，其中，第一空间转换关系是根据第s尺度的初始帧特征图在空间转换时的第一像素尺寸缩放信息与第一偏置信息，以及上采样特征图的特征信息确定的；

根据上采样特征图与第s尺度的事件特征图之间的第二空间转换关系，得到第s尺度的可融合事件特征图，其中，第二空间转换关系是根据第s尺度的事件特征图在空间转换时的第二像素尺寸缩放信息与第二偏置信息，以及上采样特征图的特征信息确定的；

其中，第s尺度的可融合初始帧特征图、第s尺度的可融合事件特征图与上采样特征图处于同一特征空间中，像素尺寸缩放信息表示空间转换中每个像素点的尺寸缩放比例，偏置信息表示空间转换中每个像素点的位置偏移量。

在一种可能的实现方式中，第一空间转换关系可以表示为公式(2-1)，第二空间装换关系可以表示为公式(2-2)

其中，

表示对第s-1尺度的融合特征图进行上采样得到的上采样特征图，其中μ(·)和

分别表示随机变量

在空间维度上的均值和方差值，算子⊙表示哈达玛积，c^f表示第一像素尺寸缩放信息，b^f表示第一偏置信息，y^f表示第s尺度的可融合初始帧特征图，c^e表示第二像素尺寸缩放信息，b^e表示第二偏置信息，y^e表示第s尺度的可融合事件特征图。

在一种可能的实现方式中，像素尺寸可以理解为像素级的尺寸，或者说，每个像素点在特征图中占据的尺寸，其中，尺寸缩放比例包括尺寸放大比例，或尺寸缩小比例。应理解的是，在进行空间转换时，每个像素点的像素尺寸可能增大(或者说增强)，也可能缩小(或者说减弱)，每个像素点的位置可能发生偏移，基于此，可以根据像素尺寸缩放比例以及位置偏移量，将不同特征空间中的特征图进行空间对齐，也即将不同特征空间中的特征图转换至同一特征空间中。

在一种可能的实现方式中，对于f^s和e^s两个变量，可以分别用两组独立的卷积层去学习空间转换时各自对应的c^f，b^f以及c^e，b^e，通过这种空间转换，公式(2-1)与(2-2)相当于是通过事件相机采集的两种信号(视频信号与事件信号)归纳的信息来重写

在本公开实施例中，能够有效利用第一空间转换关系与第二空间转换关系，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到可以进行特征融合的、第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图。

可知晓的是，事件信号对于运动物体的边界有良好的感知能力，因为这种运动常常会造成物体上采集点的亮度变化，而且基于纯视频信号的光流运动估计算法，在这种对于运动物体的运动估计值往往是不可靠的，但是对于纹理简单的静止区域，事件相机的感知能力会减弱，其捕捉到的事件信息的可靠程度可能不如从视频信号提取的视频信息，也即事件信息与视频信息是互补的信息。

基于此，为实现自适应融合上述两种互补的信息，也即自适应融合第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图。在一种可能的实现方式中，在步骤S1313中，根据第s-1尺度的融合特征图、第s尺度的可融合初始帧特征图以及第s尺度的可融合事件特征图，得到第s尺度的融合特征图，包括：

步骤S13131：对上采样特征图进行卷积处理以及非线性处理，得到上采样特征图对应的掩码图，其中，上采样特征图是对第(s-1)尺度的融合特征图进行上采样得到的；

在一种可能的实现方式中，可以通过卷积层和激活函数(如sigmoid)层对上采样特征图进行卷积处理以及非线性处理，得到上采样特征图对应的掩码图。其中，掩码图可以表征上采样特征图中每个像素点是否为运动物体上的像素点。应理解的是，对于上述卷积层中的卷积核尺寸与数量、以及激活函数层采用的激活函数类型，本公开实施例不作限制。

在一种可能的实现方式中，掩码图可以通过二值掩码(也即0和1)的形式记录，也即例如可以用“0”表征是运动物体上的像素点，用“1”表征不是运动物体上的像素点，对此本公开实施例不作限制。

步骤S13132：根据掩码图，将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合，得到第s尺度的融合特征图。

在一种可能的实现方式中，可以通过公式(3)实现根据掩码图，将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合，得到第s尺度的融合特征图，

y＝y^e⊙m+y^f(1-m) (3)

其中，m代表掩码图，1-m代表反向掩码图，y^e代表第s尺度的可融合事件特征图，y^f代表第s尺度的可融合初始帧特征图，y可以代表第s尺度的融合特征图X^s。如上所述，掩码图m可以是基于二值掩码的形式记录的，反向掩码图可以表示为1-m。

图2示出根据本公开实施例的融合特征图生成流程的示意图，为便于理解本公开实施例步骤S13131至步骤S13132生成融合特征图的实现方式，结合图2示出的生成流程进行说明，如图2所示，对第s-1尺度的融合特征图X^s-1进行上采样以及实例归一化(instancenormalization)得到上采样特征图

上采样特征图

输入至卷积核为1×1尺寸的卷积层(1×1Conv)和激活函数(如sigmoid)层，得到掩码图(m)与反向掩码图(1-m)，对初始帧特征图f^s和事件特征图e^s，可以分别用两组独立的卷积层去学习空间转换时各自对应的c^f，b^f以及c^e，b^e，利用上述公式(2-1)、公式(2-2)以及公式(3)，得到第s尺度的融合特征图X^s。

在本公开实施例中，能够有效在上采样特征图对应的掩码图的指导下，自适应地将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合。

考虑到，仅通过上述公式(3)生成各个尺度的融合特征图的过程，实际上是线性的仿射变换过程，为增加融合特征图的非线性或者说为增加融合特征图的复杂度，在一种可能的实现方式中，在步骤S13132中，根据掩码图，将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合，得到第s尺度的融合特征图，包括：

根据掩码图，将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图；对第s尺度的初始融合特征图进行卷积处理以及非线性处理，得到第s尺度的融合特征图。

其中，可以参照公式(3)示出的实现方式，实现根据掩码图，将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图，也即上述公式(3)中的y也可以代表第s尺度的初始融合特征图。

基于上述公式(3)，在一种可能的实现方式中，根据掩码图，将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图，可以包括：计算掩码图与第s尺度的可融合事件特征图之间的哈达玛积；根据掩码图对应的反向掩码图，计算反向掩码图与第s尺度的可融合初始帧特征图之间的乘积；将哈达玛积与乘积相加，得到第s尺度的初始融合特征图。通过该方式，能够根据在掩码图于反向掩码图的指导下，自适应地将第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图进行特征融合。

在一种可能的实现方式中，例如可以通过卷积核为3x3尺寸的卷积层和激活函数(如LeakyRelu)层，对第s尺度的初始融合特征图进行卷积处理以及非线性处理，得到第s尺度的融合特征图。应理解的是，对于上述卷积层中的卷积核尺寸与数量、以及激活函数层采用的激活函数类型，本公开实施例不作限制。

在本公开实施例中，能够有效增加融合特征图的非线性或者说为增加融合特征图的复杂度，便于实现多尺度的特征融合。

如上所述，可以利用原始视频帧中物体的图像细节结合原始视频帧中物体的运动轨迹，将物体的细节信息融合至预估待插帧中，从而增强预估待插帧的图像质量。在一种可能的实现方式中，在步骤S132中，根据待处理视频中、与初始待插帧的插帧时刻相邻的原始视频帧，以及原始视频帧对应的第二事件信息，对预估待插帧进行优化，得到目标待插帧，包括：

步骤S1321：将预估待插帧与第一事件信息进行组合，得到预估帧事件组合信息。

如上所述，第一事件信息可以表征初始待插帧对应的插帧时刻处物体的运动轨迹，预估待插帧是根据初始待插帧的初始帧特征图与第一时间信息的事件特征图生成，第一事件信息可以采用“图”的形式记录初始待插帧对应的插帧时刻处事件信号的累加值。应理解的是，预估帧事件组合信息中包括预估待插帧与第一事件信息。

步骤S1322：将原始视频帧与第二事件信息进行组合，得到原始帧事件组合信息。

如上所述，第二事件信息可以表征原始视频帧对应的采集时刻处物体的运动轨迹，第二事件信息可以采用“图”的形式记录原始视频帧对应的采集时刻处事件信号的累加值。应理解的是，原始帧事件组合信息中包括预估待插帧与第二事件信息。

步骤S1323：分别对预估帧事件组合信息与原始帧事件组合信息进行特征提取，得到预估帧事件组合信息对应的预估帧事件特征图以及原始帧事件组合信息对应的原始帧事件特征图。

在一种可能的实现方式中，例如可以采用参数共享的多层卷积层，分别对预估帧事件组合信息与原始帧事件组合信息进行特征提取，得到预估帧事件组合信息对应的预估帧事件特征图以及原始帧事件组合信息对应的原始帧事件特征图。

举例来说，可以将预估帧事件组合信息，输入至3层卷积层中，输出预估帧事件特征图；将原始帧事件组合信息，输入至该3层卷积层中，输出原始帧事件特征图。其中，考虑到原始视频帧可以是至少一帧，原始帧事件组合信息可以是至少一个，那么原始帧事件特征图可以是至少一个。应理解的是，可以采用本领域已知的特征提取方式，提取上述预估帧事件特征图以及原始帧事件特征图，对此本公开实施例不作限制。

步骤S1324：根据预估帧事件特征图，对原始帧事件特征图进行调整，得到整合特征图。

在一种可能的实现方式中，可以利用注意力机制，从原始帧事件特征图中找到与预估帧事件特征图中的每个像素点相匹配的匹配像素点，或者说，从原始帧事件特征图中找到与预估帧事件特征图中的每个像素点相似度最大的匹配像素点；进而以原始帧事件特征图中每个匹配像素点的像素位置为中心，从原始帧事件特征图上裁切出多个指定尺寸的特征图块，根据每个匹配像素点的像素位置，对多个指定尺寸的特征图块进行尺寸拼接，得到整合特征图。

其中，尺寸拼接，可以理解为，在特征图的长宽维度上进行拼接，使整合特征图的尺寸与原始帧事件特征图的尺寸相同。例如，4个2×2尺寸的特征图块进行尺寸拼接，可以得到一个4×4尺寸的整合特征图。

步骤S1325：根据整合特征图、预估帧事件特征图以及融合特征图，对预估待插帧进行优化，得到目标待插帧，融合特征图是对初始帧特征图与事件特征图进行多尺度融合得到的。

其中，融合特征图可以是通过上述本公开实施例中步骤S1311至步骤S1313对初始帧特征图与事件特征图进行多尺度融合得到的，对于融合特征图的确定过程，在此不做赘述。以及，如上所述，融合特征图可以是多尺度的，整合特征图也可以是多尺度的。

如上所述，可以采用多层卷积层，分别对预估帧事件组合信息与原始帧事件组合信息进行特征提取，那么预估帧事件特征图与原始帧事件特征图可以是多尺度的特征图，基于此，整合特征图可以是多尺度的。

在一种可能的实现方式中，根据整合特征图、预估帧事件特征图以及融合特征图，对预估待插帧进行优化，得到目标待插帧，可以包括：对整合特征图、预估帧事件特征图以及融合特征图进行多尺度融合，得到目标融合特征图；通过残差网络提取目标融合特征图中的残差特征，并通过指定解码网络对残差特征进行解码处理，得到残差特征对应的残差信息；将残差信息叠加至预估待插帧中，得到目标待插帧。

其中，可以参照上述本公开实施例中步骤S1311至步骤S1313的方式，实现对整合特征图、预估帧事件特征图以及融合特征图进行多尺度融合，得到目标融合特征图，在此不做赘述。

其中，指定解码网络的网络结构可以与上述提取原始帧事件特征图以及预估帧事件特征图所用的多层卷积层对应，也即上述多层卷积层可理解为编码网络。在一种可能的实现方式中，残差信息也可以采用“图”的形式，将参数信息叠加至预估待插帧中，可以理解为，将残差信息与预估待插帧进行图像融合。

在本公开实施例中，能够将整合特征图、预估帧事件特征图与融合特征图进行融合，并提取目标融合特征图中表征图像细节的残差信息，进而将预估待插帧与残差信息进行叠加所得到的目标待插帧的图像质量更高。

如上所述，可以采用多层卷积层，分别对预估帧事件组合信息与原始帧事件组合信息进行特征提取，那么预估帧事件特征图与原始帧事件特征图可以是多尺度的特征图。

在一种可能的实现方式中，预估帧事件特征图包括S^*个尺度，原始帧事件特征图包括S^*个尺度，1≤S^*≤S，S^*为正整数，s^*∈[S-S^*，S)，第(S-S^*)尺度的预估帧事件特征图的尺寸为I×I，I为正整数，其中，在步骤S1324中，根据预估帧事件特征图，对原始帧事件特征图进行调整，得到整合特征图，包括：

步骤S13241：针对第(S-S^*)尺度的预估帧事件特征图中的任一个第一像素点，从第(S-S^*)尺度的原始帧事件特征图中确定出与第一像素点匹配的第一匹配像素点。

其中，与第一像素点匹配的第一匹配像素点，可以理解为，与第一像素点相似度最大的第一匹配特征图像。在一种可能的实现方式中，针对第S-S^*尺度的预估帧事件特征图中的任一个第一像素点，从第S-S^*尺度的原始帧事件特征图中确定出与第一像素点匹配的第一匹配像素点，包括：

针对任一个第一像素点，计算第一像素点分别与第S-S^*尺度的原始帧事件特征图中、在指定窗口内的各个像素点之间的特征相似度，指定窗口是根据第一像素点的像素位置确定的；将指定窗口内的各个像素点中的、最大特征相似度所对应的像素点，确定为第一匹配像素点。通过该方式，可以高效地确定出与各第一像素点匹配的第一匹配像素点。

在一种可能的实现方式中，指定窗口例如可以是每个第一像素点的像素位置为中心、周围的(2m+1)²大小的局部窗口，m可以根据实际需求设置，例如可以是设置为3，对此本公开实施例不作限制。通过该方式，能够缩小在原始帧事件特征图中检索第一匹配像素点的范围，减少运算量，进行提高确定第一匹配像素点的效率。

在一种可能的实现方式中，例如可以采用欧式距离(又称欧几里得距离)、余弦距离等方式计算像素点之间的特征相似度；将指定窗口内的各个像素点中的、最大特征相似度所对应的像素点，确定为第一匹配像素点，可以理解为，第一匹配像素点是指定窗口内的各个像素点中、欧式距离或余弦距离最小的像素点。

在一种可能的实现方式中，公式(4)示出基于根据本公开实施例的一种采用欧式距离，确定特征相似度的实现方式。

其中，i代表第S-S^*尺度的预估帧事件特征图中的任一个第一像素点的像素位置，p代表指定窗口内给定的整数偏移量，p∈[-m，m]²，i+p代表原始帧事件特征图中指定窗口内各个像素点的像素位置，

代表预估帧事件特征图上第一像素点对应的特征值，k₀(i+p)代表原始帧事件特征图中指定窗口内的各个像素点的特征值，||·||₂表示2-范数，D(i，p)代表第一像素点分别与指定窗口内的各个像素点之间的欧氏距离。

应理解的是，对于预估帧事件特征图中上的每个第一像素点，通过公式(4)均可以得到每个第一像素点与指定窗口内各个像素点之间的欧式距离，其中，距离越小，代表特征相似度越高。基于此，在原始帧事件特征图的指定窗口内可以找到距离最小的像素位置，也即最匹配的像素点的像素位置j，即j＝i+p^*，其中p^*＝argmin_pD(i，p)，p^*可理解为使D(i，p)最小的p；或者说，行向量元素{D(i，p)|p∈[-m，m]²}可以被组织成(2m+1)²个“查询”向量和“键”向量之间的距离，其中j＝i+p^*是最小距离所在的像素位置，k₀(j)可以理解为与第一像素点

相匹配的第一匹配像素点。

步骤S13242：根据第一匹配像素点的像素位置以及指定偏移量，确定与像素位置对应的亚像素位置，指定偏移量为小数。

在一种可能的实现方式中，可以以第一匹配像素点的像素位置j为中心，构建一个局部距离场，该局部距离场可以被一个参数化的二阶多项式进行连续拟合，而这个二阶多项式的全局极小值是有闭合解的，通过将二阶多项式的连续拟合融入到神经网络训练过程中，可以调整局部距离场的形状，也即调整二阶多项式的参数，从而得到估计的指定偏移量。考虑到行文简洁，本公开实施例将在下文详细阐述该指定偏移量的确定方式。

其中，根据第一匹配像素点的像素位置以及指定偏移量，确定与像素位置对应的亚像素位置，可以包括：将像素位置与指定偏移量相加，得到亚像素位置，其中，由于指定偏移量为小数，从而可以得到精度更高的、非整数位置上的亚像素位置。

步骤S13243：根据I×I个亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图。

如上所述，第S-S^*尺度的预估帧事件特征图的尺寸为I×I，也即，第S-S^*尺度的预估帧事件特征图上有I×1个第一像素点，针对每个第一像素点均可以按照上述步骤S13241至步骤S13242得到亚像素位置，也即可以得到I×I个亚像素位置。

可理解的是，第s^*尺度的原始帧事件特征图的尺寸是第S-S^*尺度的预估帧事件特征图的n倍，I×I个亚像素位置是基于第S-S^*尺度的预估帧事件特征图，也即，是基于最小尺度的预估帧事件特征图确定的，若要根据I×I个亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，可以是根据I×I个亚像素位置，对第s^*尺度的原始帧事件特征图进行裁切，得到I×I个、n×n尺寸的特征图块，并对I×I个、n×n尺寸的特征图块进行尺寸拼接，得到第s^*尺度的整合特征图。

在一种可能的实现方式中，在步骤S13243中，根据I×I个亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图，包括：

以每一个亚像素位置为中心，从第s^*尺度的原始帧事件特征图上裁切出I×I个、n×n尺寸的特征图块；根据I×I个亚像素位置，对I×I个、n×n尺寸的特征图块进行尺寸拼接，得到第s^*尺度的整合特征图，第s^*尺度的整合特征图与第s^*尺度的原始帧事件特征图的尺寸相同。通过该方式，可以使第s^*尺度的整合特征图中包含了关注度更高的特征信息。

考虑到，各个特征图块上的各个位置均为非整数的坐标位置，在一种可能的实现方式中，可以通过线性插值(例如双线性插值)的方式，得到各个特征图块上各个位置处的特征值。

举例来说，图3示出根据本公开实施例的原始帧事件特征图的示意图，如图3所示，j代表一个亚像素位置，假设n为2，也即，针对亚像素位置j裁切出2×2尺寸的特征图块H_j，例如针对特征图块H_j上亚像素位置h1的特征值，可以对该亚像素位置h1周围的两个像素位置“a6、a7”上的特征值(或四个像素位置“a1、a2、a6、a7”上的特征值)进行双线性插值，得到该亚像素位置h1处对应的特征值，其中，对于其它h2、h3与h4处的特征值，均可以对各自周围的像素位置上的特征值进行双线性插值得到各自对应的特征值。

应理解的是，针对每个特征图块，均可以利用各特征图块上每个位置处周围的至少两个像素位置上的特征值，对至少两个像素位置上的特征值进行双线性插值得到各特征图块上每个位置处的特征值。

其中，根据I×I个亚像素位置，对I×I个、n×n尺寸的特征图块进行尺寸拼接，可以理解为，根据I×1个亚像素位置在尺寸维度(也即长宽维度)上拼接I×I个、n×n尺寸的特征图块，使第s^*尺度的整合特征图的尺寸与第s^*尺度的原始帧事件特征图相同。

在本公开实施例中，相当于利用注意力机制找到与每个第一像素点对应的亚像素位置，并基于亚像素位置得到整合特征图，也即整合特征图是结合注意力机制的特征图，从而使得整合特征图中包含了关注度更高的特征信息。

如上所述，可以以第一匹配像素点的像素位置j为中心，构建一个局部距离场，该局部距离场可以被一个参数化的二阶多项式进行连续拟合，而这个二阶多项式的全局极小值是有闭合解的，通过将二阶多项式的连续拟合融入到神经网络训练过程中，可以调整局部距离场的形状，也即调整二阶多项式的参数，从而得到估计的指定偏移量。

在一种可能的实现方式中，在步骤S13242中，根据述第一匹配像素点的像素位置以及指定偏移量，确定与像素位置对应的亚像素位置，包括：

根据像素位置、预设的偏移参数以及预设的曲面参数，确定目标函数；其中，目标函数是根据曲面函数与距离函数之间的差异构建的，距离函数是根据像素位置与偏移参数构建的，曲面函数是根据曲面参数与偏移参数构建的。

根据偏移参数对应的预设取值区间，对目标函数进行最小化求解，得到曲面参数的参数值，其中偏移参数为目标函数中的自变量；根据曲面参数的参数值，确定指定偏移量；将像素位置与指定偏移量相加，得到亚像素位置。通过该方式，可以准确有效地确定出亚像素位置。

在一种可能的实现方式中，距离函数d(u)可以表示为公式(5)，也即上述局部距离场，曲面函数

可以表示为公式(6)，也即上述二阶多项式，目标函数可以表示为公式(7)。

d(u)＝D(i，p^*+u)，u∈[-n，n]² (5)

其中，D()代表欧式距离可参照上述公式(4)，u代表偏移参数，[-n，n]²代表预设取值区间，n的值可以根据实际需求设置，例如可以设置为1，对此本公开实施例不作限制。在一种可能的实现方式中，预设取值区间可以是以亚像素位置j为中心采样一个大小为(2n+1)²的局部窗口，也即得到该预设取值区间[-n，n]²，或者说，作为自变量的偏移参数从该(2n+1)²的局部窗口内取值来求解目标函数。

其中，A、b和c代表曲面参数。在一种可能的实现方式中，A可以是一个2×2的正定矩阵，b是一个2×1的向量，而c是一个偏置常数，u^T代表u的转置，b^T代表b的转置。应理解的是，由于通常用横坐标与纵坐标表征图像上像素点的位置，偏移参数可以是2×1的向量，也即偏移参数可以包括横轴上的偏移参数与纵轴上的偏移参数。

应理解的是，上述公式(5)与(6)中的各个约束条件，可以是使得公式(6)为一个具有全局极小值点的二次曲面函数。为了估计未知曲面参数A，b和c的参数值，可以采用加权最小二乘法，根据(2n+1)²个已知的自变量u和其对应的距离函数值d(u)，通过最小化目标函数(7)的方式，求解得到曲面参数的参数值。

其中，w(u)代表高斯分布函数

其中，σ为常数参数，exp代表以自然常数e为底的指数函数，

代表曲面函数与距离函数之间的差异，||||²代表范数的平方。上述公式(7)可理解为找曲面函数

与距离函数d(u)之间的差异最小的情况下的A，b，c。应理解的是，w(u)也可以采用其它权重分布函数代替，例如可以采用欧氏距离、余弦距离等，对此本公开实施例不作限制。

其中，w(u)可以理解为一个常数矩阵，可理解的是，在目标函数的求解过程中，对于每一个自变量u都是可导的，二阶多项式(也即二次曲面)拟合过程可以作为一个可导的层，嵌入到神经网络训练中。

在一种可能的实现方式中，为使估计出来的A是正定矩阵，可以设置A中非对角线的元素全为0，只优化对角线上的元素，以及，若对角线上的元素出现负数，可以用函数max(0，·)将负数的元素改为0，通过该方式，可以减少运算量并快速得到矩阵A中的元素值。其中，考虑到忽略非对角线元素会使得估计出来的二次曲面是各向同性的，但由于可以将这个拟合过程嵌入到神经网络训练过程中，公式(5)所示的局部距离场(即距离函数)是可以通过反向传播来修正的，从而有效弥补局部距离场表达的局限性。

在一种可能的实现方式中，曲面参数包括第一参数(如上述A)与第二参数(如上述b)，第一参数为2×2的矩阵，第二参数为2×1的向量第一参数的参数值包括矩阵中对角线上的两个第一元素值，第二参数的参数值包括向量中的两个第二元素值，也即，曲面参数的参数值包括两个第一元素值一级两个第二元素值。其中，根据曲面参数的参数值，确定指定偏移量，包括：根据两个第一元素值与两个第二元素值，确定纵轴偏移量与横轴偏移量，指定偏移量包括纵轴偏移量与横轴偏移量。通过该方式，可以有效得到横轴偏移量与纵轴偏移量。

如上所述，通常用横坐标与纵坐标表征图像上的位置，在一种可能的实现方式中，可以通过公式(8)实现根据两个第一元素值与两个第二元素值，确定纵轴偏移量与横轴偏移量。

其中，u^*代表指定偏移量，A^(0，0)和A^(1，1)分别代表矩阵中对角线上的两个第一元素值，A^(0，0)可以代表矩阵对角线上的左上元素值，A^(1，1)可以代表矩阵对角线的右下元素值，b⁽⁰⁾和b⁽¹⁾可以代表向量中的两个第二元素值，b⁽⁰⁾可以依次分表代表向量中第一个元素值，b⁽¹⁾可以代表向量中第二个元素值，∈为一个极小的常数来保证除法数值稳定，也即使分母不为0，

代表横轴偏移量，

代表纵轴偏移量，亚像素位置可以表示为j^*＝j+u^*＝i+p^*+u^*。

在本公开实施例中，能够准确有效地确定出亚像素位置，便于之后基于亚像素位置得到整合特征图。

可知晓的是，初始待插帧通常是基于与该初始待插帧时序相邻的前后两帧原始视频帧确定的，也即，原始视频帧可以包括至少两帧，通过上述本公开实施例步骤S13241至步骤S13243得到的第s^*尺度的整合特征图包括至少两个，在一种可能的实现方式中，在步骤S1325中，根据整合特征图、预估帧事件特征图以及融合特征图，对预估待插帧进行优化，得到目标待插帧，包括：

步骤S13251：根据第s^*尺度的预估帧事件特征图以及至少两个第s^*尺度的整合特征图，确定第s^*尺度的目标整合特征图。

其中，可以参照上述本公开实施例步骤S13241至步骤S13243得到各个第s^*尺度的整合特征图，在此不做赘述。

在一种可能的实现方式中，可以计算第s^*尺度的预估帧事件特征图分别与各个第s^*尺度的整合特征图之间的相似度，并将相似度最大的第s^*尺度的整合特征图，确定为第s^*尺度的目标整合特征图。其中，例如可以采用两个特征图之间的欧式距离或余弦距离，表征该两个特征图之间的相似度。

在一种可能的实现方式中，将相似度最大的第s^*尺度的整合特征图作为第s^*尺度的目标整合特征图，也即，从至少两个第s^*尺度的整合特征图中，选取与第s^*尺度的预估帧事件特征图最相似的整合特征图，作为第s^*尺度的目标整合特征图。通过该方式，可以快速确定出各个尺度的预估帧事件特征图更接近的目标整合特征图。

步骤S13252：根据S^*个尺度的目标整合特征图、预估帧事件特征图以及融合特征图，对预估待插帧进行优化，得到目标待插帧。

如上所述，预估帧事件特征图可以是多尺度的，融合特征图可以是通过上述本公开实施例中步骤S1311至步骤S1313对初始帧特征图与事件特征图进行多尺度融合得到的，也即融合特征图可以是多尺度的。应理解的是，同一尺度的目标整合特征图、预估帧事件特征图以及融合特征图三者之间的尺寸相同。

在一种可能的实现方式中，根据S^*个尺度的目标整合特征图、预估帧事件特征图以及融合特征图，对预估待插帧进行优化，得到目标待插帧，包括：

步骤S132521：根据第(S-S^*)尺度的目标整合特征图、第(S-S^*)尺度的预估帧事件特征图以及第(S-S^*)尺度的融合特征图，得到第(S-S^*)尺度的目标融合特征图。

在一种可能的实现方式中，根据第(S-S^*)尺度的目标整合特征图、第(S-S^*)尺度的预估帧事件特征图以及第(S-S^*)尺度的融合特征图，得到第(S-S^*)尺度的目标融合特征图，包括：

提取第(S-S^*)尺度的预估帧事件特征图的残差特征，得到第(S-S^*)尺度的残差特征图；将第(S-S^*)尺度的残差特征图、第(S-S^*)尺度的目标整合特征图以及第(S-S^*)尺度的融合特征图进行通道拼接，得到目标拼接特征图；对目标拼接特征图进行滤波处理，得到第S-S^*尺度的目标融合特征图。通过该方式，可以有效得到第S-S^*尺度的目标融合特征图。

其中，可以通过残差网络，提取第S-S^*尺度的预估帧事件特征图的残差特征，得到第S-S^*尺度的残差特征图，对于残差网络的网络本公开实施例不作限制。可参照上述本公开实施例中得到拼接特征图的方式，实现将第S-S^*尺度的残差特征图、第S-S^*尺度的目标整合特征图以及第S-S^*尺度的融合特征图进行通道拼接，得到目标拼接特征图，在此不做赘述。

在一种可能的实现方式中，例如可以通过卷积核为1×1尺寸的卷积层，对目标拼接特征图进行滤波处理，得到第S-S^*尺度的融合特征图，其中，卷积层中卷积核的数量与第S-S^*尺度的目标整合特征图的通道数相同。应理解的是，第S-S^*尺度的目标融合特征图，也即为最小尺度的目标融合特征图，第S-S^*尺度的目标融合特征图的尺寸以及通道数，与第S-S^*尺度的目标整合特征图相同。

步骤S132522：对第(s^*-1)尺度的目标融合特征图、第s^*尺度的目标整合特征图以及第s^*尺度的目标整合特征图进行特征融合，得到第s^*尺度的目标融合特征图。

其中，可以参照上述本公卡实施例步骤S1313中生成第s尺度的融合特征图的实现方式，实现对第s^*-1尺度的目标融合特征图、第s^*尺度的目标整合特征图以及第s^*尺度的融合特征图进行特征融合，得到第s^*尺度的目标融合特征图。

也即，可以对第s^*-1尺度的目标融合特征图进行上采样，得到目标上采样特征图；对目标上采样特征图进行卷积处理以及非线性处理，得到上采样特征图对应的目标掩码图；根据目标掩码图，将第s^*尺度的目标整合特征图以及第s^*尺度的融合特征图进行特征融合，得到第s^*尺度的目标融合特征图。

步骤S132523：提取第s^*尺度的目标融合特征图中的残差特征，得到第s^*尺度的残差特征图。

在一种可能的实现方式中，可以通过残差网络提取第s^*尺度的目标融合特征图中的残差特征，得到第s^*尺度的残差特征图。应理解的是，对于残差网络的网络结构，本公卡实施例不作限制。

步骤S132524：对第S尺度的残差特征图进行解码处理，得到解码后的残差信息。

在一种可能的实现方式中，可以通过指定解码网络对第S尺度的残差特征进行解码处理，得到解码后的残差信息。应理解的是，指定解码网络的网络结构可以与上述提取原始帧事件特征图以及预估帧事件特征图所用的多层卷积层对应，也即上述多层卷积层可理解为编码网络。对于残差网络与指定解码网络的网络结构，本公开实施例不作限制。

通过该方式，能够提取目标融合特征图中表征图像细节的残差信息，进而将预估待插帧与残差信息进行叠加所得到的目标待插帧的图像质量更高。

步骤S132525：将残差信息叠加至预估待插帧中，得到目标待插帧。

如上所述，残差信息是从残差特征图中提取得到，残差信息也可以是采用“图”的形式，基于此，将残差信息叠加至预估待插帧中，可以理解为，将残差信息与预估待插帧进行图像融合。其中，可以采用本领域已知的图像融合技术，例如对同一位置处的像素值进行加权平均、或对像素值进行叠加等方式，对此本公开实施例不作限制。

在本公开实施例中，能够将与预估帧事件特征图相似度更高的目标整合特征图、预估帧事件特征图与融合特征图三者进行融合，并提取目标融合特征图中表征图像细节的残差信息，进而将预估待插帧与残差信息进行叠加所得到的目标待插帧的图像质量更高。

考虑到，任意待插帧中的每一个像素点，通常都能在该待插帧前后两个相邻的原始视频帧中找到最匹配的像素点，换句话说，任意待插帧中部分像素点可能是与在先相邻的原始视频帧中在同一位置处的像素点最匹配，而部分像素点可能是与在后相邻的原始视频帧中在同一位置处的像素点最匹配。

在一种可能的实现方式中，在步骤S13251中，根据第s^*尺度的预估帧事件特征图，分别与至少两个第s^*尺度的整合特征图之间的特征相似度，确定第s^*尺度的目标整合特征图，包括：

针对第s^*尺度的预估帧事件特征图中的任一个第二像素点，从至少两个第s^*尺度的整合特征图中，确定出与第二像素点匹配的目标匹配像素点；根据各个与第二像素点匹配的目标匹配像素点处的特征信息，生成第s^*尺度的目标整合特征图。通过该方式，能够在第s^*尺度的整合特征图包括至少两个的情况下，确定出与各个第二像素点匹配的目标匹配像素点，从而得到与第s^*尺度的预估帧事件特征图最匹配的第s^*尺度的目标整合特征图。

在一种可能的实现方式中，特征信息包括各个目标匹配像素点处的特征值，根据各个与第二像素点匹配的目标匹配像素点处的特征信息，生成第s^*尺度的目标整合特征图，可以包括：根据第s^*尺度的预估帧事件特征图中的每个第二像素点的像素位置，对各个目标匹配像素点处的特征值按像素位置进行排列，生成第s^*尺度的目标整合特征图；或者说，根据每个第二像素点的像素位置，对与第s^*尺度的整合特征图的尺寸相同的空白特征图，添加各个目标匹配像素点处的特征值，生成第s^*尺度的目标整合特征图。

在一种可能的实现方式中，针对第s^*尺度的预估帧事件特征图中的任一个第二像素点，从至少两个第s^*尺度的整合特征图中，确定出与第二像素点匹配的目标匹配像素点，包括：

针对任一个第s^*尺度的整合特征图，根据第二像素点与第s^*尺度的整合特征图中各个像素点之间的特征相似度，从第s^*尺度的整合特征图中确定出与第二像素点匹配的第二匹配像素点；

根据至少两个第二匹配像素点各自对应的特征相似度，将至少两个第二匹配像素点中特征相似度最大的第二匹配像素点，确定为与所述第二像素点匹配的目标匹配像素点。

在一种可能的实现方式中，可以参照上述本公开实施例步骤S13241的实现方式，实现根据第二像素点与第s^*尺度的整合特征图中各个像素点之间的特征相似度，从第s^*尺度的整合特征图中确定出与第二像素点匹配的第二匹配像素点，在此不做赘述。

考虑到，为了提高确定第二匹配像素点的效率，在一种可能的实现方式中，根据第二像素点与第s^*尺度的整合特征图中各个像素点之间的特征相似度，从第s^*尺度的整合特征图中确定出与第二像素点匹配的第二匹配像素点，可以包括：根据第二像素点与第s^*尺度的整合特征图中、在指定窗口内的各个像素点之间的特征相似度，从第s^*尺度的整合特征图中确定出与第二像素点匹配的第二匹配像素点。如上所述，例如可以采用欧式距离、余弦距离等方式计算像素点之间的特征相似度，对此本公开实施例不作限制。

其中，上述指定窗口例如可以是每个第二像素点的像素位置为中心、周围的(2m+1)²大小的局部窗口，m可以根据实际需求设置，例如可以是设置为3，对此本公开实施例不作限制。通过该方式，能够缩小在原始帧事件特征图中检索目标匹配像素点的范围，减少运算量，进行提高确定目标匹配像素点的效率。

其中，根据至少两个第二匹配像素点各自对应的特征相似度，将至少两个第二匹配像素点中特征相似度最大的第二匹配像素点，确定为与第二像素点匹配的目标匹配像素点，可以理解为，针对某个第二像素点，先从每个第s^*尺度的整合特征图中，确定出与该像素点匹配的第二匹配像素点；进而根据每个第二匹配像素点对应的特征相似度，从各个第二匹配像素点中确定出特征相似度最大(也即欧式距离或余弦距离最小)的第二匹配像素点，作为与该第二像素点匹配的目标匹配像素点。

基于上述确定目标匹配特征点的实现方式，以两个第s^*尺度的整合特征图为例，公式(9)示出根据本公开实施例一种确定第s^*尺度的目标整合特征图的方式。

其中，

i^*代表第s^*尺度的预估帧事件特征图中的任一个第二像素点的像素位置，

代表一个第s^*尺度的整合特征图上第二匹配像素点的像素位置，

代表另一个第s^*尺度的整合特征图上第二匹配像素点的像素位置，

代表第二像素点处的特征值，

代表一个第s^*尺度的整合特征图上第二匹配像素点处的像素值，

代表另一个第s^*尺度的整合特征图上第二匹配像素点处的像素值；

代表第s^*尺度的目标整合特征图上像素位置i^*处的特征值，

代表一个第s^*尺度的整合特征图上像素位置

处的特征值，

代表另一个第s^*尺度的整合特征图上像素位置

处的特征值，

代表任一个第二像素点与一个第s^*尺度的整合特征图上第二匹配像素点之间的欧式距离，

代表任一个第二像素点与另一个第s^*尺度的整合特征图上第二匹配像素点之间的欧式距离。

上述公式(9)可理解为根据两个第s^*尺度的融合特征图分别与第s^*尺度的预估帧事件特征图之间的欧式距离，在两个第s^*尺度的融合特征图上择优选取一个欧式距离最小的特征值，作为第s^*尺度的目标整合特征图上的特征值。

在本公开实施例中，能够在第s^*尺度的整合特征图包括至少两个的情况下，确定出与各个第二像素点匹配的目标匹配像素点，从而得到与第s^*尺度的预估帧事件特征图最匹配的第s^*尺度的目标整合特征图。

如上所述，第一事件信息可以是根据事件相机采集的事件信号确定的，事件信号可以表征事件相机所拍摄物体上亮度发生变化的采集点、在一定时间区间内的亮度变化程度。在一种可能的实现方式中，在步骤S11中，获取待处理视频对应的初始待插帧，以及初始待插帧对应的第一事件信息，包括：

步骤S111：根据指定的插帧时刻，以及原始视频帧中与插帧时刻相邻的原始视频帧，生成初始待插帧，待处理视频是事件相机采集的；

步骤S112：根据事件相机在插帧时刻对应的时间区间内所采集的事件信号，确定第一事件信息，事件信号用于表征事件相机所拍摄物体上亮度发生变化的采集点、在时间区间内的亮度变化程度。

应理解的是，任意两帧原始视频帧中间可以插入至少一个待插帧，用户可以指定两帧原始视频帧中间至少一个插帧时刻，以便于通过上述本领域已知的光流估计算法，计算任意两帧原始视频帧到各个插帧时刻的光流，并根据光流将原始视频帧通过前向渲染(也即前向映射)等方式，渲染得到初始待插帧。对于初始待插帧的数量以及生成方式，本公开实施例不作限制。

其中，插帧时刻对应的时间区间，可以理解为插帧时刻所在的时间窗口，在一种可能的实现方式中，任意插帧时刻t对应的时间区间可以为(t-τ,t-τ)，其中，τ例如可以是与插帧时刻相邻的两帧原始视频帧之间时长的一半，或1/3等，具体可依据待插入视频帧的帧率确定，对此本公开实施例不作限制。

举例来说，假设插帧时刻为t，t可以是一个归一化的分数时刻，可以将插帧时刻所在时间窗口(t-τ,t-τ)内采集的事件信号进行累加，得到第一事件信息。如上所述，第一事件信息可以采用“图”的形式记录上述时间区间内采集的事件信号的累加值，通过该方式，可以之后便于提取第一事件信息中的事件特征图。

在本公开实施例中，可以有效得到初始待插帧以及初始待插帧对应的第一事件信息。

为了便于对第一事件信息进行特征提取，可以将初始待插帧的插帧时刻处采集的事件信号转换为以多通道的张量，也即得到第一事件信息，在一种可能的实现方式中，在步骤S112中，根据事件相机在插帧时刻对应的时间区间内所采集的事件信号，确定第一事件信息，包括：

步骤S1121：将时间区间内所采集的事件信号划分为M组事件信号，M为正整数。

如上所述，当事件相机所拍摄场景中的物体运动或光照改变造成亮度变化时，事件相机会产生一系列微秒级的事件信号，这些事件信号可以事件流的方式输出。基于此，可理解的是，插帧时刻对应的时间区间内所采集的事件信号包括多个。

其中，M的值可以根据实际需求、特征提取网络的网络结构等设置，例如可以设置为20，对此本公开实施例不作限制。

步骤S1122：针对第m组事件信号，按照预设的信号过滤区间，从第m组事件信号中筛除处于信号过滤区间外的事件信号，得到第m组目标事件信号，m∈[1,M]。

在一种可能的实现方式中，信号过滤区间可以是预先设置的用于过滤异常事件信号的信号区间，例如，信号过滤区间可以设置为[-10,10]，其中，信号过滤区间可以根据历史经验、事件相机的固有参数等设置，对此本公开实施例不作限制。

其中，异常事件信号可以理解为不正常情况(例如环境光的亮度突然增大等)下采集的事件信号，通常情况下，异常事件信号的值会过大或过小，包含异常事件信号的事件信息可能无法准确表征物体的运动轨迹。

那么对于每组事件信号，从第m组事件信号中筛除处于信号过滤区间外的事件信号，可以理解为，过滤掉第m组事件信号中的异常事件信信号，通过该方式，可以使第m组事件信号中包含有效正常的事件信号，从而使基于M组目标事件信号生成的第一事件信息能准确表征物体的运动轨迹。

步骤S1123：根据第m组目标事件信号中、各个目标事件信号的极性以及信号位置，将同一信号位置处的目标事件信号进行累加，得到第m个子事件信息，信号位置用于表征与目标事件信号对应的采集点、在事件相机的成像平面中的坐标位置，其中，第一事件信息包括M个子事件信息。

可知晓的是，事件相机采集的事件信号是带有极性的，也即事件信号中有负数有正数。如上所述，事件相机可以同时采集事件信号与视频信号，事件信号表征的是事件相机所拍摄物体上亮度发生变化的采集点、在时间区间内的亮度变化程度，每个亮度发生变化的采集点在事件相机的成像平面中会映射有对应的坐标位置。

其中，根据第m组目标事件信号中、各个目标事件信号的极性以及信号位置，将同一信号位置处的目标事件信号进行累加，得到第m个子事件信息，可以理解为，处于同一组内的目标事件信号会按照各自的极性以及信号位置进行聚合累加，得到第m个子事件信息。

如上所述，第一事件信息可以采用“图”的形式记录上述时间区间内采集的事件信号的累加值，那么第m个子事件信息可以理解为第一事件信息的第m个通道，第一事件信息可以是M个通道的图，或者说M个通道的张量。

在本公开实施例中，能够将插帧时刻对应的时间区间内采集的事件信号，有效转换成多通道的第一事件信息，从而便于之后提取第一事件信息的事件特征图。

在一种可能的实现方式中，上述本公开实施例中的视频插帧方法是通过图像处理网络实现的，图4示出根据本公开实施的一种图像处理网络的示意图，如图4所示，所述图像处理网络包括互补信息融合网络与亚像素运动注意力网络，互补信息融合网络包括双分支特征提取子网络(即图4中两个Unet)与多尺度自适应融合子网络(即图4中AAFB)。

如图4所示，在一种可能的实现方式中，在步骤S12中，分别对初始待插帧以及第一事件信息进行特征提取，得到初始待插帧对应的初始帧特征图以及第一事件信息对应的事件特征图，包括：通过双分支特征提取子网络，分别对初始待插帧(I_0→1与I_0→2)以及第一事件信息(E₁)进行特征提取，得到初始待插帧对应的初始帧特征图f^s以及第一事件信息对应的事件特征图e^s。通过该方式，可以有效生成初始帧特征图与事件特征图。

在一种可能的实现方式中，如图4所示，双分支特征提取网络的每个分支可以采用UNet网络，每个UNet网络可以包括5组卷积层，第一组卷积层保留了输入数据的分辨率，而其它卷积层在长和宽维度上，分别将输入特征图下采样为原来的1/2，5组卷积层将特征通道数扩展为32,64,128,256,256个。应理解的是，以上双分支特征提取网络的网络结构是本公开实施提供的一种实现方式，实际上，本领域技术人员可以根据需求设计双分支特征提取网络的网络结构，对于双分支特征提取网络的网络结构本公开实施例不作限制。

如图4所示，初始帧特征图f^s为5个尺度的特征图，f^s可以代表第s尺度的初始帧特征图，事件特征图e^s为5个尺度的特征图，e^s表示第s尺度的事件特征图，也即s∈{0,1,2,3,4}。其中，f⁰代表第0尺度的初始帧特征图，e⁰代表第0尺度的事件特征图，X⁰代表第0尺度的融合特征图，其它f¹～f⁴、e¹～e⁴、X¹～X⁴以此类推，不做赘述。

在一种可能的实现方式中，在步骤S131中，根据初始帧特征图与事件特征图，生成预估待插帧，包括：通过多尺度自适应融合子网络，实现根据初始帧特征图f^s与事件特征图f^s，生成预估待插帧

通过该方式，可快速准确地生成预估待插帧。

在一种可能的实现方式中，在步骤S132中，根据与初始待插帧相邻的原始视频帧以及原始视频帧对应的第二事件信息，对预估待插帧进行优化，得到目标待插帧，包括：通过亚像素运动注意力网络，实现根据与初始待插帧相邻的原始视频帧以及原始视频帧对应的第二事件信息，对预估待插帧进行优化，得到目标待插帧。通过该方式，可准确优化预估待插帧，得到图像质量更高的目标待插帧。

如图4中亚像素运动注意力网络，I₀与I₂代表与初始待插帧的插帧时刻相邻的原始视频帧，E₀与E₂代表与原始视频帧(I₀与I₂)分别对应的第二事件信息，<I₀,E₀>与<I₂,E₂>代表两个原始帧事件组合信息，

代表预估帧事件组合信息。

如图4所示，亚像素运动注意力网络可以包括特征提取子网络，在步骤S1323中，通过特征提取子网络分别对预估帧事件组合信息与原始帧事件组合信息进行特征提取，得到预估帧事件组合信息对应的预估帧事件特征图

以及原始帧事件组合信息对应的原始帧事件特征图(

与

)。其中，特征提取模块可以包括参数共享的三层卷积层，

与

可以分别是3个尺度的特征图，s*∈{2,3,4}。

如图4所示，亚像素运动注意力网络可以包括亚像素注意力子网络与亚像素整合子网络，在一种可能的实现方式中，在步骤S1324中，可以通过亚像素注意力子网络，实现根据预估帧事件特征图，对原始帧事件特征图进行调整，得到整合特征图(

与

)。

在一种可能的实现方式中，在步骤S13251中，通过亚像素整合子网络，实现根据第s^*尺度的预估帧事件特征图，分别与至少两个第s^*尺度的整合特征图之间的特征相似度，确定第s^*尺度的目标整合特征图

其中，

代表第2尺度的目标整合特征图，

第3尺度的目标整合特征图，

第4尺度的目标整合特征图。应理解的是，第s^*尺度的目标整合特征图与第s^*尺度的融合特征图三者之间的尺寸相同。

如图4所示，亚像素运动注意力网络可以包括多尺度自适应融合子网络AAFB、残差网络以及解码网络(未在图4中示出)，在一种可能的实现方式中，在步骤S132521中，可以通过残差网络提取第S-S^*尺度的预估帧事件特征图的残差特征，得到第S-S^*尺度的残差特征图(如图4中R²，代表2尺度的残差特征图)，进而将第S-S^*尺度的残差特征图(如R²)、第S-S^*尺度的目标整合特征图(如

)以及第S-S^*尺度的融合特征图(如X²)进行通道拼接以及滤波处理，得到第S-S^*尺度的目标融合特征图。

在一种可能的实现方式中，在步骤S132522中，通过多尺度自适应融合子网络AAFB，对第s^*-1尺度的目标融合特征图、第s^*尺度的目标整合特征图以及第s^*尺度的融合特征图进行特征融合，得到第s^*尺度的目标融合特征图。

在一种可能的实现方式中，在步骤S132523中，通过残差网络，提取第s^*尺度的目标融合特征图中的残差特征，得到第s^*尺度的残差特征图

应理解的是，R3代表第3尺度的残差特征图，其中R⁴代表第4尺度的残差特征图。

在一种可能的实现方式中，在步骤S132524中，通过解码网络对第S尺度的残差特征图(如R⁴)进行解码处理，得到解码后的残差信息R^s。其中，将残差信息R^s叠加至预估待插帧

中，得到目标待插帧

可以表示为：

需要说明的是，图4示出的图像处理网络是本公开实施例提供的一种实现方式，实际上，本领域技术人员可以根据实际需求设计用于实现本公开实施例的视频插帧方式的图像处理网络，对此本公开实施例不作限制。

在本公开实施例中，能够通过图像处理网络，准确高效地生成目标待插帧。

应理解的是，在部署使用图像处理网络前，通常需要对图像处理网络进行训练，在一种可能的实现方式中，所述方法还包括：

根据样本视频，训练初始图像处理网络，得到图像处理网络，样本视频包括样本中间帧以及与样本中间帧相邻的样本视频帧。

应理解的是，初始图像处理网络的网络结构与图像处理网络相同，网络参数可能不同，样本中间帧可以是样本视频中两帧样本视频帧之间的中间视频帧，也即样本中间帧也是样本视频中原始的视频帧。

其中，根据样本视频，训练初始图像处理网络，得到图像处理网络，包括：

根据样本中间帧对应的中间时刻以及样本视频帧，生成初始中间帧；

将样本视频帧以及初始中间帧输入至初始图像处理网络中，得到初始图像处理网络输出的预测中间帧；

根据预测中间帧与样本中间帧之间的损失，更新初始图像处理网络的网络参数至损失满足预设条件，得到图像处理网络。

其中，可以参照上述本公开实施例步骤S111的方式，实现根据样本中间帧对应的中间时刻以及样本视频帧，生成初始中间帧，也即通过上述本领域已知的光流估计算法，计算样本视频帧到中间时刻的光流，并根据光流将样本视频帧通过前向渲染(也即前向映射)等方式，渲染得到初始中间帧。

应理解的是，将样本视频帧以及初始中间帧输入至初始图像处理网络中，得到初始图像处理网络输出的预测中间帧，可以参照上述本公开实施例通过图像处理网络生成目标待插帧的实现过程，在此不做赘述。

在一种可能的实现方式中，可以采用本领域已知的损失函数，例如，沙博尼耶损失函数(Charbonnier Loss)等，计算预测中间帧与样本中间帧之间的损失，对此本公开实施例不作限制。

在一种可能的实现方式中，预设条件例如可以包括：损失收敛、损失置0、迭代次数达到指定次数等，对此本公开实施例不作限制。

在本公开实施例中，能够使训练后的图像处理网络，准确高效地生成目标待插帧。

如上所述，图像处理网络包括互补信息融合网络与亚像素运动注意力网络，为提高图像处理网络的训练效率，可以先训练互补信息融合网络，在互补信息融合网络的损失收敛后，固定互补信息融合网络的网络参数，再接着训练亚像素运动注意力网络。

在一种可能的实现方式中，初始图像处理网络包括初始互补信息融合网络与初始亚像素运动注意力网络，预测中间帧包括：初始互补信息融合网络输出的第一预测中间帧，以及初始亚像素运动注意力网络输出的第二预测中间帧；

其中，根据预测中间帧与所述样本中间帧之间的损失，更新初始图像处理网络的网络参数至损失满足预设条件，得到图像处理网络，包括：

根据第一预测中间帧与样本中间帧之间的第一损失，更新初始互补信息融合网络的网络参数至第一损失收敛，得到互补信息融合网络；

将互补信息融合网络输出的样本预测中间帧，输入至初始亚像素运动注意力网络，得到第二预测中间帧；

根据第二预测待插帧与样本中间帧之间的第二损失，更新初始亚像素运动注意力网络的网络参数至第二损失收敛，得到亚像素运动注意力网络。

上述对初始图像处理网络的训练过程，可以理解为包含两个阶段的网络训练。其中，第一阶段的网络训练，先训练初始互补信息融合网络，在初始互补信息融合网络的第一损失收敛后，固定初始互补信息融合网络的网络参数，得到互补信息融合网络。

第二阶段的网络训练，利用训练后的互补信息融合网络输出的样本预测中间帧，作为初始亚像素运动注意力网络的输入数据，得到初始亚像素运动注意力网络输出的第二预测中间帧，在利用第二预测待插帧与样本中间帧之间的第二损失，更新初始亚像素运动注意力网络的网络参数至第二损失收敛，得到训练后的亚像素运动注意力网络。

在本公开实施例中，能够分阶段训练图像处理网络，提高图像处理网络的训练效率。

需要说明的是，本公开实施例中特征图的“尺度”，可以理解为，神经网络的不同层级下提取的特征图，或者说，用尺度区分不同层级网络所提取的特征图，特征图的“尺寸”可理解为不同尺度的特征图的长宽高，或者说不同尺度的特征图的分辨率。应理解的是，不同尺度的特征图的尺寸可以不同，同一尺度下的特征图的尺寸可以相同。

本公开实施例提供一种视频插帧方法，该视频插帧方法包括：互补信息融合阶段以及亚像素注意力的画质增强阶段。

在互补信息融合阶段中，给定连续的两个稀疏采样的原始视频帧

和

和同一场景下同步采样得到的事件信号。本公开实施例的目的是两帧原始视频帧在t∈(0,1)的任意插帧时刻处合成并插入某一中间帧

其中t是一个归一化的分数时刻。对于t时刻的视频帧

在局部范围的时间窗口内可以获得相关的事件信息

在互补信息融合阶段，首先利用计算得到的光流，将

和

中的像素移动到和插帧时刻处视频帧对齐的位置，此过程将会输出2个粗糙的初始待插帧，该初始待插帧在光流估计不准确的地方可以观察到明显的误差。互补信息融合阶段则可以利用从插帧时刻处的事件信息

中挖掘互补的运动轨迹信息来修正这些误差。

其中，本公卡实施例使用了两个Unet(可以采用任意现有的多尺度特征提取网络)分别提取事件信息和视频信号的特征，然后通过自适应外观互补融合网络(如图4中的AAFB)，将提取的两个特征进行融合，最终输出优化的预估待插帧

其中，为了进一步探索运动上下文信息，从而进一步优化预估待插帧的画质，本公开实施例使用了注意力机制，来进行第二阶段对预估待插帧的优化。其中，可以将预估待插帧与对应事件信息的组合信息

作为查询信息，其相邻的原始视频与对应事件信息的组合信息

作为键值，通过亚像素精度的注意力机制来更精确的将查询信息和键值信息匹配，通过这种匹配关系，与每一个查询信息相关的键值信息可以被更精确地检索出来，并使用亚像素精度的图像块位移方法来聚合相关的内容，最终输出一个多尺度的上下文特征(即上述整合特征图)；进而将该上下文特征与互补信息融合阶段产生的多尺度特征利用AAFB进行进一步融合，并通过若干残差网络处理输出进一步优化的目标待插帧。

其中，针对外观互补信息融合阶段。可以利用本领域已知的光流估计算法来分别计算

与

分别到插帧时刻的光流，并根据光流将

和

通过前向渲染的方法渲染得到初始待插帧

和

作为双分支特征提取网络的一个输出。考虑到，由于事件信号是时间稠密的，为了能将事件信号合理地输入到双分支特征提取网络中，本公开实施例将

信号等间距聚合成20通道的事件信息作为双分支特征提取网络的另一个输入。如图4所示，双分支特征提取网络可以是一个双分支的Unet，为了有效地聚合两种信息的特征，本公开实施例提出了一种多尺度自适应聚合网络(如图4中的AAFB)，可以有效地讲视频信号的特征和事件信号的特征在多尺度层级进行聚合。

本公开实施例提出的多尺度自适应聚合网络是一个由粗到细的逐尺度渐进聚合过程，如果将第s个尺度聚合之后的特征记为X^s，则各个尺度的融合特征可以递归地通过公式(1)表示。

为了有效率地根据当前尺度的视频信号的特征图f^s和事件信号的特征图e^s来调制X^s，可以将f^s和e^s看做是对同一潜在重建信息的不同视角表达。本公开实施例借鉴了相关技术中的重新一化思想，使得不同视角表达的特征可以在同一空间对齐，同时能够保持细粒度的空间细节。对于f^s和e^s两个随机变量，可以分别用两组独立的卷积层去学习空间可变的尺度和偏置c^f，b^f或c^e，b^e,然后将各个随机变量用上述公式(2-1)和(2-2)转换成可融合的特征图y^e与y^f。

通常来讲，事件信号对于运动物体的边界有良好的感知能力，因为这种运动常常会造成图像的快速的亮度变化，而且基于纯视频信号的光流方法，在这种区域的估计值往往是不可靠的。但是对于纹理简单的区域，事件相机就捕捉到的事件信息的可靠程度不如基于视频信号提取的信息。可以将第s-1尺度的融合特征图对应的上采样特征图

通过一个卷积层和sigmoid层来提取一个融合软掩码m，并利用该掩码m自适应地融合这两种互补的信息，该过程可参照上述公式(3)。

公式(2-1)、(2-1)和(3)组成一个递归的融合流程，由于该融合流程都是仿射变换，为了增加每个多尺度自适应融合网络的非线性，可以在每个网络的输出端，插入了一个3x3卷积操作和LeakyRelu激活函数，以上提到的所有操作共同组合成了AAFB网络。

对于亚像素运动注意力阶段，本公开实施例采用了轻量级的注意力机制来捕获上下文信息，以进一步优化待插帧的画质效果。如图4所示，亚像素运动注意力阶段的输入主要是视频信号和事件信信息的组合信息

然后将组合信息输入到3层参数共享的卷积网络，从而输出3个尺度的特征{v^s|s∈{0,1,2}}，其中，尺度个数可以多余或少于3，对此本公开实施例不作限制。

对于相关的信号组合

或

输出的各个尺度的

或

叫做“值”，而k₀或k₂叫做“键”。而由

计算产生的

叫做“查询”。在注意力机制中，这些“键”、“值”和“查询”，构成了重要的组成元素，并常用于内存检索。

为了在“值”中检索信息，可以初始帧特征图

中的每一个像素，对两个原始帧特征图进行检索。其中，由于这个检索过程是在输入图1/8分辨率的原始帧特征图上进行的，特征图上有限的位移投射回原尺寸图就是一个很大的位移，因此可以将这个相关性的检索范围限制在每个查询像素位置周围的(2m+1)²大小的局部窗口范围内。在

上给定一个像素位置i和一个偏移量p∈[-m,m]²，将各个特征首先经过范数正则化，并用通过上述公式(4)示出的欧几里得距离来定义特征之间的相似度大小。

传统的注意力机制，常常通过软注意力机制来聚合信息，他们会首先对这个相关性矩阵进行softmax归一化，然后通过加权求和的方式对“值”中的所有位置信息进行聚合。对于图像合成任务来说，这可能会模糊即时特征，并造成最终合成的质量的退化。本公开实施例采用硬注意力机制，由于硬注意力机制会记录最匹配(也即相似度最大)的位置，也即与“查询”中的某一个特征向量欧几里得距离最小的“键”的位置。

考虑到，由于偏移量p是在1/8分辨率的特征图上进行计算的，就算是最优的偏置，在高分辨率特征图上任然会有对齐误差。在一种可能的实现方式中，可以在低分辨率特征图上计算亚像素精度的注意力偏移，当将这种注意力机制等比例放大并应用到高分辨率的特征图上时，这种方法可以在一定程度上缓解精度损失。对于

上的某一个特征像素i，硬注意力机制在上原始帧特征图上计算出了最匹配的位置j，即j＝i+p^*其中p^*＝argmin_pD(i，p)。更准确地讲，行向量元素{D(i，p)|p∈[-m，m]²}可以被组织成(2m+1)²个“查询”向量和“键”向量之间的距离，其中p^*是最小距离所在的位置。

为了能够获得亚像素精度，以p^*为中心的局部距离场可以被一个参数化的二阶多项式进行连续拟合，而这个多项式的全局极小值是有闭合解的。通过将最小二乘拟合融入到神经网络训练过程中，可以纠正局部距离场的形状，并得到亚像素精度的估计。

具体说来，本公开实施例以p^*为中心采样一个大小为(2n+1)²的局部窗口，其中n例如可以设置n＝1，并将这个局部距离场记做d。则这个局部距离场可以定义为上述公式(5)；为了使这个局部距离场在定义区间[-n，n]²上有意义，可以该区域上定义了一个局部二次曲面如上述公式(6)，公式(6)为一个具有全局极小值点的真实二次曲面；为了估计公式(6)中的未知参数A，b和c，可以使用加权最小二乘法，根据(2n+1)²个已知的自变量u和其函数值d(u)，来最小化小化公式(7)示出的目标函数。

可理解的是，w(u)可以是常数矩阵，那么该最小化求解目标函数的过程，对于每一个输入变量都是可导的，因此这个求解过程可以作为一个可导的层，很容易嵌入到图像处理网络训练中。考虑到，为了保证估计出来的A是正定的，本公开实施例假设A中非对角线的元素全为0，只优化对角线上的元素，并在对角线上的元素出现负数的情况下，将负数的元素修改为0。应理解的是，尽管忽略非对角线元素会使得估计出来的二次曲面是各向同性的，但是通过将这个求解过程嵌入到图像处理网络训练过程中，公式(5)所示的局部距离场是可以通过反向传播来修正的，并有效弥补其表达的局限性。并可以通过上述公式(6)的亚像精度的匹配位置，也即亚像素位置。

通过上述步骤，对于

上的每一个像素i，可以在原始帧事件特征图上找到一个与之相匹配的亚像素位置i^*，并根据该亚像素位置j^*将“值”原始帧事件特征图进行移动。其中，第s^*尺度的原始帧事件特征图在长宽维度上是最小尺度的预设帧事件特征图大小的n倍。其中，可以在第s^*尺度的原始帧事件特征图上以i^*为中心通过双线性差值的方法裁切一个n×n大小的图像块。然后对多个图像块进行尺寸拼接，得到与第s^*尺度的原始帧事件特征图相同尺寸且信息重组之后的整合特征图。

在上述过程中，可以同时在两个原始帧事件特征图上采用这种亚像素拟合和图像块移动的策略，产生了重整之后的两个整合特征图，之后可以参照公式(9)，实现根据特征间的距离，在两个整合特征图上择优保留一个距离最小的特征，生成目标整合特征图。

通过上述过程，可以得到多尺度的目标整合特征图，进而可以将互补信息融合阶段输出的融合特征图以及目标整合特征图，通过上述多尺度自适应融合网络进行进一步的整合。整合之后的最高分辨率的特征图会最终通过一个解码器并输出预估待插帧

的优化残差R1，目标待插帧

可以表示为

在一种可能的实现方式中，对于某一个时刻t，可以将局部时间窗口(t-τ，t+τ)等间距地划分为20个组，其中τ表示的是连续两针之间的间隔时间的一半。落在同一个组内的事件信号会按照自己的极性按照像素位置聚合，并将最大最小值范围裁剪到[-10，10]，最终会构成一个20通道的张量

也即得到第一事件信息。

在一种可能的实现方式中，对于采用的双分支特征提网络，可以采用双分支的Unet网络，每个分支的Unet网络有4个尺度，每个尺度的编码器分别通过一组卷积网络将特征通道数扩展为32，64，128，256，256个，其中，第一组卷积网络保留了输入的分辨率，而其他的卷积网络在长和宽维度上，分别将特征图下采样为原来的1/2，解码器采用了对称的结构设计并和相应的编码器特征进行跳跃连接。在多尺度特征融合之后，最高分辨率的特征层再通过两个32通道的卷积层来产生最终的输出结果。

根据本公开实施例的视频插帧方法，首先是互补信息融合阶段，根据初始待插帧的插帧时刻，利用与该插帧时刻相关的事件信号，和该插帧时刻最近邻的左右两个原始视频帧进行特征提取和互补融合，从而合成一个初步的预估待插帧。之后是基于亚像素运动注意力的画质增强阶段，将合成的预估待插帧，通过再次使用与其相关的事件信号，以及最近邻左右两个原始视频帧及其相关事件信号，进行第二阶段的优化，从而得到一个人工痕迹更少，画质更优的目标待插帧。通过在相邻两个原始视频帧之间设定不同的插帧时刻，反复运行上述视频插帧方法，可以实现在两个原始视频帧之间进行若干数量的视频插帧过程。通过本公开实施例的视频插帧方法，能够利用事件相机采集的事件信号和低帧率的视频信号来合成目标待插帧，以进行视频插帧，得到高帧率的视频信号。

其中，在上述互补信息融合阶段，本公开实施例首先将插帧时刻左右两个原始帧通过光流估计算法进行像素移动，得到初始待插帧，并作为视频信号特征提取网络的输入，再提取与初始待插帧相关的事件信号作为事件信号特征提取网络的输入。并采用了两个参数相互独立的多尺度特征提取网络分别对视频信号和事件信号进行特征提取，得到两个多尺度的特征图，再利用一个多尺度自适应信息融合网络对两个多尺度的特征图进行融合，将最终的合成特征图通过一个解码器，输出一个初步合成的3通道彩色预估待插帧。

其中，在上述亚像素注意力的画质增强阶段，本公开实施例将互补信息融合阶段合成的预估待插帧、插帧时刻的左右两个原始视频帧分别与各自相关的事件信号叠加，作为共同特征提取网络的输入，用同一个特征提取网络分别对这三组信号进行特征提取，输出多尺度特征。

其中，在上述亚像素注意力的画质增强阶段，本公开实施例在最低尺度的特征图上使用注意力机制，将预估待插帧对应的特征图作为查询，其他两个原始视频帧对应的特征图作为键值，通过硬注意力机制提取出与预估待插帧帧每一个空间位置的特征最相关的特征位置，再利用该特征周围的局部距离场，拟合一个二次曲面，通过二次曲面的极大值，求出亚像素精度的最相似位置，最终通过双线性插值的方法，将两个键对应的信息进行重新整合，并将这种整合策略进行等比例放大，对其他尺度特征进行相似的组合，并通过保留最大相似度的方式，将两个整合的信息最终融合成一个多尺度信息。

本公开实施例，将整合得到的多尺度信息、预估待插帧对应的低尺度信息以及互补信息融合阶段提取的信息，再次通过多尺度自适应融合的方式进行特征融合与解码，最终得到残差信息。通过将预估待插帧与残差信息叠加，得到画质更优的目标待插帧。

相关技术中，现有的大部分高质量的插帧算法都依赖于在高帧率的样本视频上进行训练，部分方法还需要依赖仿真方法合成事件信号，训练数据获取难度大，且仿真数据训练的模型泛化性差。根据本公开的实施例，能够直接基于低帧率的样本视频上进行网络训练，不依赖高帧率的样本视频和仿真方法。

相关技术中，需要利用光流估计算法设定运动轨迹模型，当实际运动轨迹不满足预设轨迹时会带来性能下降。根据本公开的实施例，通过事件信息表征的运动轨迹信息，直接矫正初始待插帧的画质，并提供了一种更精确的注意力机制，通过更精确地检索并利用运动相关的上下文信息来提升预估待插帧的画质，具有更好的泛化性。

本公开实施例提出了一种将视频信号和事件信号互补融合的方法，通过利用运动敏感且时间上稠密的事件信号，弥补了在估计待插帧的物体运动时缺省的运动轨迹信息，并利用非运动区域记录完整的视频信号，弥补了事件信号对于非运动区域的信息。

本公开实施例提出了一种亚像素精度运动注意力机制，可以在低分辨率特征图上提取对物体运动敏感的亚像素精度注意力，从而可以在分辨率特征图上直接获取高分辨率的注意力信息，从而构造了更精确的注意力机制，通过更精确地检索并利用运动相关的上下文信息来提升画质。

根据本公开的实施例，利用无监督的图像处理网络的训练方式，更符合事件相机实际使用场景，降低了对训练数据的要求，并提高了网络训练的泛化性。

根据本公开实施例中的视频插帧方法，可以利用事件相机拍摄得到的低帧率的视频信号，以及对应场景的事件信号，合成该场景的高帧率的视频信号；还可以完成慢动作回放、提高视频码率(流畅性)，稳定图像(电子稳像，视频防抖)等图像处理任务。

根据本公开实施例中的视频插帧方法，可以应用于任何利用事件相机构造的、需要视频插帧功能的产品中，例如视频播放软件，或视频安防软件的慢动作回放等。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了视频插帧装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种视频插帧方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图5示出根据本公开实施例的视频插帧装置的框图，如图5所示，所述装置包括：

获取模块101，用于获取待处理视频对应的初始待插帧，以及所述初始待插帧对应的第一事件信息，所述第一事件信息用于表征所述初始待插帧中物体的运动轨迹；

特征提取模块102，用于分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图；

生成模块103，用于根据所述初始帧特征图与所述事件特征图，生成目标待插帧；

插帧模块104，用于将所述目标待插帧插入至所述待处理视频中，得到处理后视频。

在一种可能的实现方式中，所述第s^*尺度的原始帧事件特征图的尺寸是所述第(S-S^*)尺度的预估帧事件特征图的n倍，其中，所述根据I×1个所述亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图，包括：以每一个所述亚像素位置为中心，从所述第s^*尺度的原始帧事件特征图上裁切出I×I个、n×n尺寸的特征图块；根据I×I个所述亚像素位置，对所述I×I个、n×n尺寸的特征图块进行尺寸拼接，得到所述第s^*尺度的整合特征图，所述第s^*尺度的整合特征图与所述第s^*尺度的原始帧事件特征图的尺寸相同。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

电子设备可以被提供为终端、服务器或其它形态的设备。

图6示出根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图6，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如互补金属氧化物半导体(CMOS)或电荷耦合装置(CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如无线网络(WiFi)，第二代移动通信技术(2G)或第三代移动通信技术(3G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。

图7示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图7，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如微软服务器操作系统(Windows Server^TM)，苹果公司推出的基于图形用户界面操作系统(Mac OSX^TM)，多用户多进程的计算机操作系统(Unix^TM),自由和开放原代码的类Unix操作系统(Linux^TM)，开放原代码的类Unix操作系统(FreeBSD^TM)或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种视频插帧方法，其特征在于，包括：

获取待处理视频对应的初始待插帧，以及所述初始待插帧对应的第一事件信息，所述第一事件信息用于表征所述初始待插帧中物体的运动轨迹，其中，所述初始待插帧是根据所述待处理视频中任意两帧原始视频帧到插帧时刻的光流所生成的待插帧；

分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图；

根据所述初始帧特征图与所述事件特征图，生成目标待插帧；

将所述目标待插帧插入至所述待处理视频中，得到处理后视频；

其中，所述根据所述初始帧特征图与所述事件特征图，生成目标待插帧，包括：

根据所述初始帧特征图与所述事件特征图，生成预估待插帧；

根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，所述第二事件信息用于表征所述原始视频帧中物体的运动轨迹；

其中，所述初始帧特征图包括S个尺度，所述事件特征图包括S个尺度，S为正整数，所述根据所述初始帧特征图与所述事件特征图，生成预估待插帧，包括：

根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图；

根据第s-1尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图；

根据所述第s-1尺度的融合特征图、所述第s尺度的可融合初始帧特征图以及所述第s尺度的可融合事件特征图，得到第s尺度的融合特征图；

对第S-1尺度的融合特征图进行解码处理，得到所述预估待插帧；

其中，s∈[1,S)。

2.根据权利要求1所述的方法，其特征在于，所述根据第s-1尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图，包括：

对所述第s-1尺度的融合特征图进行上采样，得到上采样特征图，所述上采样特征图与所述第s尺度的初始帧特征图以及所述第s尺度的事件特征图的尺寸相同；

根据所述上采样特征图与所述第s尺度的初始帧特征图之间的第一空间转换关系，得到所述第s尺度的可融合初始帧特征图；

根据所述上采样特征图与所述第s尺度的事件特征图之间的第二空间转换关系，得到所述第s尺度的可融合事件特征图；

其中，所述第s尺度的可融合初始帧特征图、所述第s尺度的可融合事件特征图与所述上采样特征图处于同一特征空间中。

3.根据权利要求2所述的方法，其特征在于，所述第一空间转换关系是根据所述第s尺度的初始帧特征图在空间转换时的第一像素尺寸缩放信息与第一偏置信息，以及所述上采样特征图的特征信息确定的；

所述第二空间转换关系是根据所述第s尺度的事件特征图在空间转换时的第二像素尺寸缩放信息与第二偏置信息，以及所述上采样特征图的特征信息确定的；

其中，像素尺寸缩放信息表示空间转换中每个像素点的尺寸缩放比例，偏置信息表示空间转换中每个像素点的位置偏移量。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第s-1尺度的融合特征图、所述第s尺度的可融合初始帧特征图以及所述第s尺度的可融合事件特征图，得到第s尺度的融合特征图，包括：

对上采样特征图进行卷积处理以及非线性处理，得到所述上采样特征图对应的掩码图，其中，所述上采样特征图是对所述第s-1尺度的融合特征图进行上采样得到的；

根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到所述第s尺度的融合特征图。

5.根据权利要求4所述的方法，其特征在于，所述根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到所述第s尺度的融合特征图，包括：

根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图；

对所述第s尺度的初始融合特征图进行卷积处理以及非线性处理，得到所述第s尺度的融合特征图。

6.根据权利要求5所述的方法，其特征在于，所述根据所述掩码图，将所述第s尺度的可融合初始帧特征图与所述第s尺度的可融合事件特征图进行特征融合，得到第s尺度的初始融合特征图，包括：

计算所述掩码图与所述第s尺度的可融合事件特征图之间的哈达玛积；

根据所述掩码图对应的反向掩码图，计算所述反向掩码图与所述第s尺度的可融合初始帧特征图之间的乘积；

将所述哈达玛积与所述乘积相加，得到所述第s尺度的初始融合特征图。

7.根据权利要求1所述的方法，其特征在于，所述根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图，包括：

将所述第0尺度的初始帧特征图与所述第0尺度的事件特征图进行通道拼接，得到拼接特征图；

对所述拼接特征图进行滤波处理，得到所述第0尺度的融合特征图。

8.根据权利要求1所述的方法，其特征在于，所述根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，包括：

将所述预估待插帧与所述第一事件信息进行组合，得到预估帧事件组合信息；

将所述原始视频帧与所述第二事件信息进行组合，得到原始帧事件组合信息；

分别对所述预估帧事件组合信息与所述原始帧事件组合信息进行特征提取，得到所述预估帧事件组合信息对应的预估帧事件特征图以及所述原始帧事件组合信息对应的原始帧事件特征图；

根据所述预估帧事件特征图，对所述原始帧事件特征图进行调整，得到整合特征图；

根据所述整合特征图、所述预估帧事件特征图以及融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，所述融合特征图是对所述初始帧特征图与所述事件特征图进行多尺度融合得到的。

9.根据权利要求8所述的方法，其特征在于，所述预估帧事件特征图包括S^*个尺度，所述原始帧事件特征图包括S^*个尺度，所述初始待插帧对应的初始帧特征图的包括S个尺度，1≤S^*≤S，S^*为正整数，S为正整数，s^*∈[(S-S^*),S)，第S-S^*尺度的预估帧事件特征图的尺寸为I×I，I为正整数，

其中，所述根据所述预估帧事件特征图，对所述原始帧事件特征图进行调整，得到整合特征图，包括：

针对第S-S^*尺度的预估帧事件特征图中的任一个第一像素点，从第S-S^*尺度的原始帧事件特征图中确定出与所述第一像素点匹配的第一匹配像素点；

根据所述第一匹配像素点的像素位置以及指定偏移量，确定与所述像素位置对应的亚像素位置，所述指定偏移量为小数；

根据I×I个所述亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图。

10.根据权利要求9所述的方法，其特征在于，所述针对第S-S^*尺度的预估帧事件特征图中的任一个第一像素点，从第S-S^*尺度的原始帧事件特征图中确定出与所述第一像素点匹配的第一匹配像素点，包括：

针对任一个第一像素点，计算所述第一像素点分别与所述第S-S^*尺度的原始帧事件特征图中、在指定窗口内的各个像素点之间的特征相似度，所述指定窗口是根据所述第一像素点的像素位置确定的；

将所述指定窗口内的各个像素点中的、最大特征相似度所对应的像素点，确定为所述第一匹配像素点。

11.根据权利要求9或10所述的方法，其特征在于，所述根据所述第一匹配像素点的像素位置以及指定偏移量，确定与所述像素位置对应的亚像素位置，包括：

根据所述像素位置、预设的偏移参数以及预设的曲面参数，确定目标函数，

根据所述偏移参数对应的预设取值区间，对所述目标函数进行最小化求解，得到所述曲面参数的参数值，其中所述偏移参数为所述目标函数中的自变量；

根据所述曲面参数的参数值，确定所述指定偏移量；

将所述像素位置与所述指定偏移量相加，得到所述亚像素位置。

12.根据权利要求11所述的方法，其特征在于，所述目标函数是根据曲面函数与距离函数之间的差异构建的，所述距离函数是根据所述像素位置与所述偏移参数构建的，所述曲面函数是根所述曲面参数与所述偏移参数构建的。

13.根据权利要求11所述的方法，其特征在于，所述曲面参数包括第一参数与第二参数，所述第一参数为2×2的矩阵，所述第二参数为2×1的向量，所述第一参数的参数值包括所述矩阵中对角线上的两个第一元素值，所述第二参数的参数值包括所述向量中的两个第二元素值，

其中，所述根据所述曲面参数的参数值，确定所述指定偏移量，包括：

根据所述两个第一元素值与所述两个第二元素值，确定纵轴偏移量与横轴偏移量，所述指定偏移量包括所述纵轴偏移量与横轴偏移量。

14.根据权利要求9所述的方法，其特征在于，所述第s^*尺度的原始帧事件特征图的尺寸是所述第S-S^*尺度的预估帧事件特征图的n倍，其中，所述根据I×I个所述亚像素位置，对第s^*尺度的原始帧事件特征图进行调整，得到第s^*尺度的整合特征图，包括：

以每一个所述亚像素位置为中心，从所述第s^*尺度的原始帧事件特征图上裁切出I×I个、n×n尺寸的特征图块；

根据I×I个所述亚像素位置，对所述I×I个、n×n尺寸的特征图块进行尺寸拼接，得到所述第s^*尺度的整合特征图，所述第s^*尺度的整合特征图与所述第s^*尺度的原始帧事件特征图的尺寸相同。

15.根据权利要求8或9所述的方法，其特征在于，所述原始视频帧包括至少两帧，第s^*尺度的整合特征图包括至少两个，所述预估帧事件特征图包括S^*个尺度，所述初始待插帧对应的初始帧特征图的包括S个尺度，1≤S^*≤S，S^*为正整数，S为正整数，s^*∈[(S-S^*),S)，

其中，所述根据所述整合特征图、所述预估帧事件特征图以及融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，包括：

根据第s^*尺度的预估帧事件特征图以及至少两个第s^*尺度的整合特征图，确定第s^*尺度的目标整合特征图；

根据S^*个尺度的目标整合特征图、所述预估帧事件特征图以及所述融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧。

16.根据权利要求15所述的方法，其特征在于，根据第s^*尺度的预估帧事件特征图以及至少两个第s^*尺度的整合特征图，确定第s^*尺度的目标整合特征图，包括：

针对所述第s^*尺度的预估帧事件特征图中的任一个第二像素点，从所述至少两个第s^*尺度的整合特征图中，确定出与所述第二像素点匹配的目标匹配像素点；

根据各个与所述第二像素点匹配的目标匹配像素点处的特征信息，生成所述第s^*尺度的目标整合特征图。

17.根据权利要求16所述的方法，其特征在于，所述针对所述第s^*尺度的预估帧事件特征图中的任一个第二像素点，从所述至少两个第s^*尺度的整合特征图中，确定出与所述第二像素点匹配的目标匹配像素点，包括：

针对任一个第s^*尺度的整合特征图，根据所述第二像素点与所述第s^*尺度的整合特征图中各个像素点之间的特征相似度，从所述第s^*尺度的整合特征图中确定出与所述第二像素点匹配的第二匹配像素点；

根据至少两个所述第二匹配像素点各自对应的特征相似度，将至少两个所述第二匹配像素点中特征相似度最大的第二匹配像素点，确定为与所述第二像素点匹配的目标匹配像素点。

18.根据权利要求15所述的方法，其特征在于，所述根据S^*个尺度的目标整合特征图、所述预估帧事件特征图以及所述融合特征图，对所述预估待插帧进行优化，得到所述目标待插帧，包括：

根据第S-S^*尺度的目标整合特征图、第S-S^*尺度的预估帧事件特征图以及第S-S^*尺度的融合特征图，得到第S-S^*尺度的目标融合特征图；

对第s^*-1尺度的目标融合特征图、第s^*尺度的目标整合特征图以及第s^*尺度的融合特征图进行特征融合，得到第s^*尺度的目标融合特征图；

提取第s^*尺度的目标融合特征图中的残差特征，得到第s^*尺度的残差特征图；

对第S尺度的残差特征图进行解码处理，得到解码后的残差信息；

将所述残差信息叠加至所述预估待插帧中，得到所述目标待插帧。

19.根据权利要求18所述的方法，其特征在于，所述根据第S-S^*尺度的目标整合特征图、第S-S^*尺度的预估帧事件特征图以及第S-S^*尺度的融合特征图，得到第S-S^*尺度的目标融合特征图，包括：

提取所述第S-S^*尺度的预估帧事件特征图的残差特征，得到第S-S^*尺度的残差特征图；

将所述第S-S^*尺度的残差特征图、所述第S-S^*尺度的目标整合特征图以及所述第S-S^*尺度的融合特征图进行通道拼接，得到目标拼接特征图；

对所述目标拼接特征图进行滤波处理，得到第S-S^*尺度的目标融合特征图。

20.根据权利要求1-3任一项所述的方法，其特征在于，所述获取待处理视频对应的初始待插帧，以及所述初始待插帧对应的第一事件信息，包括：

根据指定的插帧时刻，以及所述待处理视频中与所述插帧时刻相邻的原始视频帧，生成所述初始待插帧，所述待处理视频是事件相机采集的；

根据所述事件相机在所述插帧时刻对应的时间区间内所采集的事件信号，确定所述第一事件信息，所述事件信号用于表征所述事件相机所拍摄物体上亮度发生变化的采集点、在所述时间区间内的亮度变化程度。

21.根据权利要求20所述的方法，其特征在于，所述根据所述事件相机在所述插帧时刻对应的时间区间内所采集的事件信号，确定所述第一事件信息，包括：

将所述时间区间内所采集的事件信号划分为M组事件信号，M为正整数；

针对第m组事件信号，按照预设的信号过滤区间，从所述第m组事件信号中筛除处于所述信号过滤区间外的事件信号，得到第m组目标事件信号，m∈[1,M]；

根据所述第m组目标事件信号中、各个目标事件信号的极性以及信号位置，将同一信号位置处的目标事件信号进行累加，得到第m个子事件信息，所述信号位置用于表征与所述目标事件信号对应的采集点、在所述事件相机的成像平面中的坐标位置；

其中，所述第一事件信息包括M个子事件信息。

22.根据权利要求1所述的方法，其特征在于，所述视频插帧方法是通过图像处理网络实现的，所述图像处理网络包括互补信息融合网络与亚像素运动注意力网络，所述互补信息融合网络包括双分支特征提取子网络与多尺度自适应融合子网络；

其中，所述分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图，包括：

通过所述双分支特征提取子网络，分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图。

23.根据权利要求22所述的方法，其特征在于，所述根据所述初始帧特征图与所述事件特征图，生成预估待插帧，包括：

通过所述多尺度自适应融合子网络，根据所述初始帧特征图与所述事件特征图，生成预估待插帧；和/或，

所述根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，包括：

通过所述亚像素运动注意力网络，根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧。

24.根据权利要求22或23所述的方法，其特征在于，所述方法还包括：

根据样本视频，训练初始图像处理网络，得到所述图像处理网络，所述样本视频包括样本中间帧以及与所述样本中间帧相邻的样本视频帧；

其中，所述根据样本视频，训练初始图像处理网络，得到所述图像处理网络，包括：

根据样本中间帧对应的中间时刻以及所述样本视频帧，生成初始中间帧；

将所述样本视频帧以及所述初始中间帧输入至所述初始图像处理网络中，得到所述初始图像处理网络输出的预测中间帧；

根据所述预测中间帧与所述样本中间帧之间的损失，更新所述初始图像处理网络的网络参数至所述损失满足预设条件，得到所述图像处理网络。

25.根据权利要求24所述的方法，其特征在于，所述初始图像处理网络包括初始互补信息融合网络与初始亚像素运动注意力网络，所述预测中间帧包括：所述初始互补信息融合网络输出的第一预测中间帧，以及所述初始亚像素运动注意力网络输出的第二预测中间帧；

其中，所述根据所述预测中间帧与所述样本中间帧之间的损失，更新所述初始图像处理网络的网络参数至所述损失满足预设条件，得到所述图像处理网络，包括：

根据所述第一预测中间帧与所述样本中间帧之间的第一损失，更新所述初始互补信息融合网络的网络参数至所述第一损失收敛，得到所述互补信息融合网络；

将所述互补信息融合网络输出的样本预测中间帧，输入至所述初始亚像素运动注意力网络，得到第二预测中间帧；

根据所述第二预测中间帧与所述样本中间帧之间的第二损失，更新所述初始亚像素运动注意力网络的网络参数至所述第二损失收敛，得到所述亚像素运动注意力网络。

26.一种视频插帧装置，其特征在于，包括：

获取模块，用于获取待处理视频对应的初始待插帧，以及所述初始待插帧对应的第一事件信息，所述第一事件信息用于表征所述初始待插帧中物体的运动轨迹，其中，所述初始待插帧是根据所述待处理视频中任意两帧原始视频帧到插帧时刻的光流所生成的待插帧；

特征提取模块，用于分别对所述初始待插帧以及所述第一事件信息进行特征提取，得到所述初始待插帧对应的初始帧特征图以及所述第一事件信息对应的事件特征图；

生成模块，用于根据所述初始帧特征图与所述事件特征图，生成目标待插帧；

插帧模块，用于将所述目标待插帧插入至所述待处理视频中，得到处理后视频；

其中，所述生成模块，包括：预估帧生成子模块，用于根据所述初始帧特征图与所述事件特征图，生成预估待插帧；预估帧优化子模块，用于根据所述待处理视频中、与所述初始待插帧的插帧时刻相邻的原始视频帧，以及所述原始视频帧对应的第二事件信息，对所述预估待插帧进行优化，得到所述目标待插帧，所述第二事件信息用于表征所述原始视频帧中物体的运动轨迹；

其中，所述初始帧特征图包括S个尺度，所述事件特征图包括S个尺度，S为正整数，所述根据所述初始帧特征图与所述事件特征图，生成预估待插帧，包括：根据第0尺度的初始帧特征图与第0尺度的事件特征图，得到第0尺度的融合特征图；根据第(s-1)尺度的融合特征图，将第s尺度的初始帧特征图与第s尺度的事件特征图进行空间对齐，得到第s尺度的可融合初始帧特征图与第s尺度的可融合事件特征图；根据所述第(s-1)尺度的融合特征图、所述第s尺度的可融合初始帧特征图以及所述第s尺度的可融合事件特征图，得到第s尺度的融合特征图；对第(S-1)尺度的融合特征图进行解码处理，得到所述预估待插帧；其中，s∈[1,S)。

27.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至25中任意一项所述的方法。

28.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至25中任意一项所述的方法。