CN111327926A

CN111327926A - 视频插帧方法、装置、电子设备及存储介质

Info

Publication number: CN111327926A
Application number: CN202010089252.1A
Authority: CN
Inventors: 赵翔; 李甫; 何栋梁; 孟骧龙; 丁二锐; 章宏武; 文石磊; 孙昊; 朱曼瑜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-23
Anticipated expiration: 2040-02-12
Also published as: CN111327926B

Abstract

本申请公开了视频插帧方法、装置、电子设备及存储介质，涉及视频处理技术，其中方法可包括：针对待处理的第一图像和第二图像，利用训练得到的第一网络模型获取第一图像到中间帧图像的第一运动估计图、第二图像到中间帧图像的第二运动估计图以及遮挡估计图；其中，第一图像和第二图像为视频中的相邻两帧图像，第一图像为前一帧图像，第二图像为后一帧图像；根据第一运动估计图、第二运动估计图以及遮挡估计图确定出插入到第一图像和第二图像之间的中间帧图像。应用本申请所述方案，可提高获取到的中间帧图像的准确性等。

Description

视频插帧方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用技术，特别涉及视频处理技术中的视频插帧方法、装置、电子设备及存储介质。

背景技术

视频插帧是指在相邻的视频帧图像中插入一帧或多帧图像，以使得视频播放更加顺滑、提升观看体验等，常用的场景包括将24帧率的视频变为48帧率视频播放以及对视频精彩镜头进行慢放等。

目前通常采用基于运动估计的视频插帧方法，如首先进行图像间的运动估计，然后基于运动估计信息进行运动补偿从而生成中间帧图像等，但这种方式得到的结果的准确性通常不高。

发明内容

有鉴于此，本申请提供了视频插帧方法、装置、电子设备及存储介质。

一种视频插帧方法，包括：

针对待处理的第一图像和第二图像，利用训练得到的第一网络模型获取所述第一图像到中间帧图像的第一运动估计图、所述第二图像到中间帧图像的第二运动估计图以及遮挡估计图；其中，所述第一图像和所述第二图像为视频中的相邻两帧图像，所述第一图像为前一帧图像，所述第二图像为后一帧图像；

根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出插入到所述第一图像和所述第二图像之间的所述中间帧图像。

根据本申请一优选实施例，该方法进一步包括：

设置M个不同的尺度，M为大于一的正整数，按照从小到大的顺序依次为尺度S_M～尺度S₁，S₁＝1，每一尺度分别为后一尺度的1/2，对于任一尺度Si，1≤i≤M，表示将所述第一图像和所述第二图像的长和宽的尺寸分别调整为原始尺寸的1/2^i-1；

将不同尺度的第一图像和第二图像分别输入所述第一网络模型，结合不同尺度下所述第一网络模型中的各中间特征图获取所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图。

根据本申请一优选实施例，所述将不同尺度的第一图像和第二图像分别输入所述第一网络模型，结合不同尺度下所述第一网络模型中的各中间特征图获取所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图包括：

将所述第一图像和所述第二图像下采样到所述尺度S_M后输入所述第一网络模型；

按照从小到大的顺序，将所述尺度S_M的后一尺度作为待处理尺度，并执行以下预定处理：

将所述第一图像和所述第二图像下采样到所述待处理尺度后输入所述第一网络模型；将所述待处理尺度的前一尺度下所述第一网络模型中的各中间特征图分别进行2倍的上采样，将上采样后的各中间特征图分别与所述待处理尺度下所述第一网络模型中的各同等尺寸的中间特征图进行融合；

若不存在所述待处理尺度的后一尺度，则获取所述待处理尺度下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，将所述待处理尺度的后一尺度作为待处理尺度，重复执行所述预定处理。

根据本申请一优选实施例，所述将所述第一图像和所述第二图像下采样到所述尺度SM后输入所述第一网络模型之后，进一步包括：获取所述尺度SM下所述第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若所述评估概率小于预定阈值，则获取所述尺度SM下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，继续之后的处理；

所述将所述待处理尺度的后一尺度作为待处理尺度之前，进一步包括：获取所述待处理尺度下所述第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若所述评估概率小于所述阈值，则获取所述待处理尺度下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，继续之后的处理。

根据本申请一优选实施例，所述将上采样后的各中间特征图分别与所述待处理尺度下所述第一网络模型中的各同等尺寸的中间特征图进行融合包括：

针对所述待处理尺度下所述第一网络模型中的每一中间特征图，分别进行以下处理：针对所述中间特征图中的每一像素点，分别将所述像素点的取值与上采样后与所述中间特征图同等尺度的中间特征图中的对应像素点的取值相加，将相加之和除以2，将得到的商赋值给所述像素点，其中，所述对应像素点为位置相同的像素点。

根据本申请一优选实施例，获取所述尺寸最小的中间特征图对应的评估概率包括：将所述尺寸最小的中间特征图输入训练得到的第二网络模型，得到输出的所述评估概率。

根据本申请一优选实施例，所述根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出所述中间帧图像之前，进一步包括：

若确定所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图的尺寸小于所述原始尺寸，则将所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图上采样到所述原始尺寸。

根据本申请一优选实施例，所述根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出所述中间帧图像包括：

根据所述第一运动估计图以及所述第一图像确定出第一临时图像；

根据所述第二运动估计图以及所述第二图像确定出第二临时图像，所述第一临时图像及所述第二临时图像的尺寸均等于所述原始尺寸；

针对所述第一临时图像中的每一像素点，分别进行以下处理：将所述像素点的取值与所述遮挡估计图中的对应像素点的取值相乘，将所述第二临时图像中的对应像素点的取值与1减去所述遮挡估计图中的对应像素点的取值后得到的差相乘，将两个乘积相加，将相加之和作为所述中间帧图像中的对应像素点的取值，其中，所述遮挡估计图中的像素点的取值位于0～1之间，所述对应像素点为位置相同的像素点。

根据本申请一优选实施例，该方法进一步包括：在进行所述第一网络模型的训练时，将从高帧率视频中获取的连续三帧图像作为一组训练样本，将所述三帧图像中的第一帧图像以及最后一帧图像作为输入，将所述三帧图像中的中间帧图像作为输出监督信号。

一种视频插帧装置，包括：第一图像处理单元以及第二图像处理单元；

所述第一图像处理单元，用于针对待处理的第一图像和第二图像，利用训练得到的第一网络模型获取所述第一图像到中间帧图像的第一运动估计图、所述第二图像到中间帧图像的第二运动估计图以及遮挡估计图；其中，所述第一图像和所述第二图像为视频中的相邻两帧图像，所述第一图像为前一帧图像，所述第二图像为后一帧图像；

所述第二图像处理单元，用于根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出插入到所述第一图像和所述第二图像之间的所述中间帧图像。

根据本申请一优选实施例，所述第一图像处理单元进一步用于，获取设置的M个不同尺度，M为大于一的正整数，按照从小到大的顺序依次为尺度SM～尺度S1，S1＝1，每一尺度分别为后一尺度的1/2，对于任一尺度Si，1≤i≤M，表示将所述第一图像和所述第二图像的长和宽的尺寸分别调整为原始尺寸的1/2^i-1；将不同尺度的第一图像和第二图像分别输入所述第一网络模型，结合不同尺度下所述第一网络模型中的各中间特征图获取所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图。

根据本申请一优选实施例，所述第一图像处理单元将所述第一图像和所述第二图像下采样到所述尺度S_M后输入所述第一网络模型，按照从小到大的顺序，将所述尺度S_M的后一尺度作为待处理尺度，并执行以下预定处理：将所述第一图像和所述第二图像下采样到所述待处理尺度后输入所述第一网络模型；将所述待处理尺度的前一尺度下所述第一网络模型中的各中间特征图分别进行2倍的上采样，将上采样后的各中间特征图分别与所述待处理尺度下所述第一网络模型中的各同等尺寸的中间特征图进行融合；若不存在所述待处理尺度的后一尺度，则获取所述待处理尺度下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，将所述待处理尺度的后一尺度作为待处理尺度，重复执行所述预定处理。

根据本申请一优选实施例，所述第一图像处理单元进一步用于，在将所述第一图像和所述第二图像下采样到所述尺度SM后输入所述第一网络模型之后，获取所述尺度SM下所述第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若所述评估概率小于预定阈值，则获取所述尺度SM下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，继续之后的处理；

所述第一图像处理单元进一步用于，在将所述待处理尺度的后一尺度作为待处理尺度之前，获取所述待处理尺度下所述第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若所述评估概率小于所述阈值，则获取所述待处理尺度下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，继续之后的处理。

根据本申请一优选实施例，所述第一图像处理单元针对所述待处理尺度下所述第一网络模型中的每一中间特征图，分别进行以下处理：针对所述中间特征图中的每一像素点，分别将所述像素点的取值与上采样后与所述中间特征图同等尺度的中间特征图中的对应像素点的取值相加，将相加之和除以2，将得到的商赋值给所述像素点，其中，所述对应像素点为位置相同的像素点。

根据本申请一优选实施例，所述第一图像处理单元将所述尺寸最小的中间特征图输入训练得到的第二网络模型，得到输出的所述评估概率。

根据本申请一优选实施例，所述第二图像处理单元进一步用于，在根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出所述中间帧图像之前，若确定所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图的尺寸小于所述原始尺寸，则将所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图上采样到所述原始尺寸。

根据本申请一优选实施例，所述第二图像处理单元根据所述第一运动估计图以及所述第一图像确定出第一临时图像，根据所述第二运动估计图以及所述第二图像确定出第二临时图像，所述第一临时图像及所述第二临时图像的尺寸均等于所述原始尺寸，针对所述第一临时图像中的每一像素点，分别进行以下处理：将所述像素点的取值与所述遮挡估计图中的对应像素点的取值相乘，将所述第二临时图像中的对应像素点的取值与1减去所述遮挡估计图中的对应像素点的取值后得到的差相乘，将两个乘积相加，将相加之和作为所述中间帧图像中的对应像素点的取值，其中，所述遮挡估计图中的像素点的取值位于0～1之间，所述对应像素点为位置相同的像素点。

根据本申请一优选实施例，所述装置中进一步包括：预处理单元，用于在进行所述第一网络模型的训练时，将从高帧率视频中获取的连续三帧图像作为一组训练样本，将所述三帧图像中的第一帧图像以及最后一帧图像作为输入，将所述三帧图像中的中间帧图像作为输出监督信号。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如以上所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：在进行视频插帧时，除了获取运动估计信息之外，还会进一步获取遮挡估计信息，从而结合运动估计信息以及遮挡估计信息来生成所需的中间帧图像，进而提高了获取到的中间帧图像的准确性等；另外，可通过将输入图像调整为多个不同尺度，并分别输入第一网络模型进行处理等，可充分利用多尺度的运动信息，并可通过对不同尺度下的第一网络模型中的中间特征图进行融合，充分利用各次的计算特征，从而使得最终得到的运动估计信息及遮挡估计信息更为准确等；再有，可采用自适应的处理方式，根据实际需要灵活确定需要进行到哪一尺度的处理，而不是一定进行全尺度处理，从而加快了处理速度，进而实现了准确快速的视频插帧等；上述可选方式所具有的其它效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请所述视频插帧方法实施例的流程图；

图2为本申请所述第一网络模型的结构示意图；

图3为本申请所述视频插帧装置实施例300的组成结构示意图；

图4为根据本申请实施例所述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请所述视频插帧方法实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，针对待处理的第一图像和第二图像，利用训练得到的第一网络模型获取第一图像到中间帧图像的第一运动(Motion)估计图、第二图像到中间帧图像的第二运动估计图以及遮挡(Mask)估计图；其中，第一图像和第二图像为视频中的相邻两帧图像，第一图像为前一帧图像，第二图像为后一帧图像。

在102中，根据第一运动估计图、第二运动估计图以及遮挡估计图确定出插入到第一图像和第二图像之间的中间帧图像。

当需要向视频中的相邻两帧图像中插入中间帧图像时，可利用第一网络模型获取第一图像到中间帧图像的第一运动估计图、第二图像到中间帧图像的第二运动估计图以及遮挡估计图，即分别获取运动估计信息以及遮挡估计信息。

图2为本申请所述第一网络模型的结构示意图。如图2所示，网络输入为第一图像和第二图像，第一图像和第二图像的尺寸相同，如均为256*256，即长和宽均为256个像素，输出可为与第一图像和第二图像尺寸相同的三张图，即第一运动估计图、第二运动估计图以及遮挡估计图，第一网络模型内部处理时，可得到多个中间特征图，尺寸是以1/2的方式逐渐变小再以2倍的方式逐渐增大至原始尺寸(图2中为256*256)，即先进行下采样再进行上采样，从而能够更好地获取一些抽象信息，如全局信息等。

可根据第一运动估计图以及第一图像确定出第一临时图像，并可根据第二运动估计图以及第二图像确定出第二临时图像，第一临时图像及第二临时图像的尺寸均等于原始尺寸，即可根据第一图像到中间帧图像的运动估计信息及第一图像确定出一个临时图像，并可根据根据第二图像到中间帧图像的运动估计信息及第二图像确定出另一个临时图像，具体实现为现有技术。按照通常的处理方式，后续会将两个临时图像中的对应像素点的取值相加求均值，作为中间帧图像中的对应像素点的取值，从而得到中间帧图像。

但实际上，运动存在遮挡问题，因此本实施例中进一步引入了遮挡估计图，其中的各像素点的取值可位于0～1之间，可将遮挡估计图中的各像素点的取值作为加权值。具体地，针对第一临时图像中的每一像素点，可分别进行以下处理：将该像素点的取值与遮挡估计图中的对应像素点的取值相乘，将第二临时图像中的对应像素点的取值与1减去遮挡估计图中的对应像素点的取值后得到的差相乘，将两个乘积相加，将相加之和作为中间帧图像中的对应像素点的取值，其中，对应像素点为位置相同的像素点。

比如，对于第一临时图像中(10，15)这一位置的像素点，其取值为A，遮挡估计图中的该位置的像素点的取值为0.3，第二临时图像中的该位置的像素点的取值为B，那么可计算0.3*A+(1-0.3)*B，将计算结果作为中间帧图像中的该位置的像素点的取值。

基于遮挡估计图中的像素点的取值，使得在确定中间帧图像中的各像素点的取值时，不再是简单地将两个临时图像中的对应像素点的取值相加求均值，而是考虑不同临时图像中的遮挡影响，从而为两个临时图像中的对应像素点赋予相应的权值。也就是说，遮挡估计图也可理解为权值分布图，用于定义各像素点的权值。

基于上述介绍可以看出，本实施例所述方案中，除了获取运动估计信息之外，还会获取遮挡估计信息，从而可结合运动估计信息以及遮挡估计信息生成所需的中间帧图像，进而提高了获取到的中间帧图像的准确性等。

另外，本实施例中还可采用多尺度的处理方式，即可设置M个不同的尺度，M为大于一的正整数，按照从小到大的顺序依次为尺度SM～尺度S1，S₁＝1，每一尺度分别为后一尺度的1/2，对于任一尺度Si，1≤i≤M，表示将第一图像和第二图像的长和宽的尺寸分别调整为原始尺寸的1/2^i-1，可以看出，当i＝1时，调整后的尺寸即为原始尺寸。相应地，可将不同尺度的第一图像和第二图像分别输入第一网络模型，结合不同尺度下第一网络模型中的各中间特征图来获取第一运动估计图、第二运动估计图以及遮挡估计图。

优选地，可首先将第一图像和第二图像下采样到尺度S_M后输入第一网络模型；之后可按照从小到大的顺序，将尺度S_M的后一尺度作为待处理尺度，并执行以下预定处理：将第一图像和第二图像下采样到待处理尺度后输入第一网络模型；将待处理尺度的前一尺度下第一网络模型中的各中间特征图分别进行2倍的上采样，将上采样后的各中间特征图分别与待处理尺度下第一网络模型中的各同等尺寸的中间特征图进行融合；若不存在待处理尺度的后一尺度，则获取待处理尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，否则，将待处理尺度的后一尺度作为待处理尺度，重复执行所述预定处理。

比如，M的取值为4，4个不同尺度按照从小到大的顺序依次为：1/8、1/4、1/2和1，那么可首先将第一图像和第二图像下采样到1/8尺度(长和宽的尺寸分别调整为原始尺寸的1/8)后输入第一网络模型，并可将第一图像和第二图像下采样到1/4尺度后输入第一网络模型，进而可将1/8尺度下第一网络模型中的各中间特征图分别进行2倍的上采样后与1/4尺度下第一网络模型中的各同等尺寸的中间特征图进行融合，之后可将第一图像和第二图像下采样到1/2尺度后输入第一网络模型，并可将1/4尺度下第一网络模型中的各中间特征图(融合后的)分别进行2倍的上采样后与1/2尺度下第一网络模型中的各同等尺寸的中间特征图进行融合，之后可将第一图像和第二图像(即1尺度)输入第一网络模型，并可将1/2尺度下第一网络模型中的各中间特征图(融合后的)分别进行2倍的上采样后与1尺度下第一网络模型中的各同等尺寸的中间特征图进行融合，之后可获取1尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图。

以图2中所示的第一个128*128尺寸的中间特征图为例，假设针对1/2尺度和1尺度进行融合，由于1/2尺度下第一网络模型中输入的是128*128尺寸的第一图像和第二图像，那么1/2尺度下第一网络模型中与1尺度下第一网络模型中的128*128尺寸的中间特征图相对应的中间特征图即为64*64尺寸的中间特征图，为进行融合，需要首先将64*64尺寸的中间特征图进行2倍的上采样，之后再与1尺度下第一网络模型中的128*128尺寸的中间特征图进行融合。

基于上述介绍可以看出，采用本实施例所述方案，可将输入图像调整为多个不同尺度，并分别输入第一网络模型进行处理等，从而可充分利用多尺度的运动信息，并可通过对不同尺度下的第一网络模型中的中间特征图进行融合，充分利用各次的计算特征，从而使得最终得到的运动估计信息及遮挡估计信息更为准确等。

另外，在实际应用中发现，视频中的运动信息的分布是不均衡的，存在大量的运动信息较少的帧以及少量的运动剧烈的帧，对于运动信息较少的帧，在较小尺度时进行运动估计即可，从而可加快处理速度，只有在运动剧烈时才需要进行全尺度运动估计。

相应地，上述处理中，在将第一图像和第二图像下采样到尺度SM后输入第一网络模型之后，还可获取尺度SM下第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若该评估概率小于预定阈值，则可获取尺度SM下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，否则，可继续之后的处理。类似地，将待处理尺度的后一尺度作为待处理尺度重复执行所述预定处理之前，还可获取待处理尺度下第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若该评估概率小于所述阈值，则可获取待处理尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，否则，可继续之后的处理。

即可采用自适应的处理方式，根据实际需要灵活确定需要进行到哪一尺度的处理，而不是一定进行全尺度处理，从而加快了处理速度，进而实现了准确快速的视频插帧等。

以图2所示情况为例，其中的32*32尺寸的中间特征图为尺寸最小的中间特征图。

综合上述介绍，假设M的取值为4，4个不同尺度按照从小到大的顺序依次为：1/8、1/4、1/2和1，那么按照自适应处理方式获取第一运动估计图、第二运动估计图以及遮挡估计图的过程可如下所示。

A)将第一图像和第二图像下采样到1/8尺度后输入第一网络模型。

B)获取1/8尺度下第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率Prob。

优选地，可将尺寸最小的中间特征图输入训练得到的第二网络模型，得到输出的评估概率Prob。

评估概率Prob表示是否需要进行下一尺度的处理的概率。

C)将评估概率Prob与阈值thres进行比较，若Prob<thres，则获取1/8尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，并结束处理，否则，可执行D)。

thres的具体取值可根据实际需要而定。

D)将第一图像和第二图像下采样到1/4尺度后输入第一网络模型。

E)将1/8尺度下第一网络模型中的各中间特征图分别进行2倍的上采样后与1/4尺度下第一网络模型中的各同等尺寸的中间特征图进行融合。

比如，可针对1/4尺度下第一网络模型中的每一中间特征图，分别进行以下处理：针对该中间特征图中的每一像素点，分别将该像素点的取值与上采样后与该中间特征图同等尺度的中间特征图中的对应像素点的取值相加，将相加之和除以2，将得到的商赋值给该像素点，其中，对应像素点为位置相同的像素点。

F)获取1/4尺度下第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率Prob。

G)将评估概率Prob与阈值thres进行比较，若Prob<thres，则获取1/4尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，并结束处理，否则，可执行H)。

H)将第一图像和第二图像下采样到1/2尺度后输入第一网络模型。

I)将1/4尺度下第一网络模型中的各中间特征图分别进行2倍的上采样后与1/2尺度下第一网络模型中的各同等尺寸的中间特征图进行融合。

比如，可针对1/2尺度下第一网络模型中的每一中间特征图，分别进行以下处理：针对该中间特征图中的每一像素点，分别将该像素点的取值与上采样后与该中间特征图同等尺度的中间特征图中的对应像素点的取值相加，将相加之和除以2，将得到的商赋值给该像素点，其中，对应像素点为位置相同的像素点。

J)获取1/2尺度下第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率Prob。

K)将评估概率Prob与阈值thres进行比较，若Prob<thres，则获取1/2尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，并结束处理，否则，可执行L)。

L)将第一图像和第二图像(即1尺度)输入第一网络模型。

M)将1/2尺度下第一网络模型中的各中间特征图分别进行2倍的上采样后与1尺度下第一网络模型中的各同等尺寸的中间特征图进行融合。

比如，可针对1尺度下第一网络模型中的每一中间特征图，分别进行以下处理：针对该中间特征图中的每一像素点，分别将该像素点的取值与上采样后与该中间特征图同等尺度的中间特征图中的对应像素点的取值相加，将相加之和除以2，将得到的商赋值给该像素点，其中，对应像素点为位置相同的像素点。

N)获取1尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，并结束处理。

第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图的尺寸都是与输入的第一图像和第二图像的尺寸相同的，那么就可能出现得到的第一运动估计图、第二运动估计图以及遮挡估计图的尺寸小于原始尺寸的情况，这种情况下，可进一步将得到的第一运动估计图、第二运动估计图以及遮挡估计图上采样到原始尺寸。

之后，可根据第一运动估计图、第二运动估计图以及遮挡估计图确定出所需的中间帧图像，如可包括：根据第一运动估计图以及第一图像确定出第一临时图像；根据第二运动估计图以及第二图像确定出第二临时图像，第一临时图像及第二临时图像的尺寸均等于原始尺寸；针对第一临时图像中的每一像素点，分别进行以下处理：将该像素点的取值与遮挡估计图中的对应像素点的取值相乘，将第二临时图像中的对应像素点的取值与1减去遮挡估计图中的对应像素点的取值后得到的差相乘，将两个乘积相加，将相加之和作为中间帧图像中的对应像素点的取值，其中，遮挡估计图中的像素点的取值位于0～1之间，对应像素点为位置相同的像素点。

另外，第一网络模型可为预先训练得到的。在进行第一网络模型的训练时，可将从高帧率视频中获取的连续三帧图像作为一组训练样本，将三帧图像中的第一帧图像以及最后一帧图像作为输入，将三帧图像中的中间帧图像作为输出监督信号。可利用获取到的多组训练样本来训练第一网络模型。

训练时所用损失(Loss)可如下：将根据第一网络模型得到的中间帧图像与输出监督信号进行像素级比对，根据比对结果计算出L1 loss；将不同尺度下的评估概率Prob与设定的ratio(取值可为0～1之间)进行比对，计算L2 loss，ratio表示期望模型有ratio的概率不进行下一尺度的处理。如何计算L1 loss和L2 loss为现有技术。可将第一网络模型和第二网络模型联合训练，根据得到的L1 loss和L2 loss对第一网络模型和第二网络模型进行更新。

需要说明的是，对于前述的方法实施例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图3为本申请所述视频插帧装置实施例300的组成结构示意图。如图3所示，包括：第一图像处理单元301以及第二图像处理单元302。

第一图像处理单元301，用于针对待处理的第一图像和第二图像，利用训练得到的第一网络模型获取第一图像到中间帧图像的第一运动估计图、第二图像到中间帧图像的第二运动估计图以及遮挡估计图；其中，第一图像和第二图像为视频中的相邻两帧图像，第一图像为前一帧图像，第二图像为后一帧图像。

第二图像处理单元302，用于根据第一运动估计图、第二运动估计图以及遮挡估计图确定出插入到第一图像和第二图像之间的中间帧图像。

第一图像处理单元301还可获取设置的M个不同尺度，M为大于一的正整数，按照从小到大的顺序依次为尺度S_M～尺度S₁，S₁＝1，每一尺度分别为后一尺度的1/2，对于任一尺度Si，1≤i≤M，表示将第一图像和第二图像的长和宽的尺寸分别调整为原始尺寸的1/2^i-1；将不同尺度的第一图像和第二图像分别输入第一网络模型，结合不同尺度下第一网络模型中的各中间特征图获取第一运动估计图、第二运动估计图以及遮挡估计图。

具体地，第一图像处理单元301可将第一图像和第二图像下采样到尺度S_M后输入第一网络模型，按照从小到大的顺序，将尺度S_M的后一尺度作为待处理尺度，并执行以下预定处理：将第一图像和第二图像下采样到待处理尺度后输入第一网络模型；将待处理尺度的前一尺度下第一网络模型中的各中间特征图分别进行2倍的上采样，将上采样后的各中间特征图分别与待处理尺度下第一网络模型中的各同等尺寸的中间特征图进行融合；若不存在待处理尺度的后一尺度，则获取待处理尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，否则，将待处理尺度的后一尺度作为待处理尺度，重复执行预定处理。

第一图像处理单元301在将第一图像和第二图像下采样到尺度SM后输入第一网络模型之后，还可获取尺度SM下第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若该评估概率小于预定阈值，则可获取尺度SM下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，否则，可继续之后的处理。另外，在将待处理尺度的后一尺度作为待处理尺度之前，还可获取待处理尺度下第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若该评估概率小于阈值，则可获取待处理尺度下第一网络模型输出的第一运动估计图、第二运动估计图以及遮挡估计图，否则，可继续之后的处理。

其中，在进行融合时，第一图像处理单元301可针对待处理尺度下第一网络模型中的每一中间特征图，分别进行以下处理：针对该中间特征图中的每一像素点，分别将该像素点的取值与上采样后与该中间特征图同等尺度的中间特征图中的对应像素点的取值相加，将相加之和除以2，将得到的商赋值给该像素点，其中，对应像素点为位置相同的像素点。

另外，第一图像处理单元301可将尺寸最小的中间特征图输入训练得到的第二网络模型，从而得到输出的评估概率。

第二图像处理单元302在根据第一运动估计图、第二运动估计图以及遮挡估计图确定出中间帧图像之前，若确定第一运动估计图、第二运动估计图以及遮挡估计图的尺寸小于原始尺寸，还可将第一运动估计图、第二运动估计图以及遮挡估计图上采样到原始尺寸。

之后，第二图像处理单元302可根据第一运动估计图以及第一图像确定出第一临时图像，根据第二运动估计图以及第二图像确定出第二临时图像，第一临时图像及第二临时图像的尺寸均等于原始尺寸，并针对第一临时图像中的每一像素点，分别进行以下处理：将该像素点的取值与遮挡估计图中的对应像素点的取值相乘，将第二临时图像中的对应像素点的取值与1减去遮挡估计图中的对应像素点的取值后得到的差相乘，将两个乘积相加，将相加之和作为中间帧图像中的对应像素点的取值，其中，遮挡估计图中的像素点的取值位于0～1之间，对应像素点为位置相同的像素点。

如图3所示，所述装置中还可进一步包括：预处理单元303，用于训练得到第一网络模型和第二网络模型，其中在进行第一网络模型的训练时，可将从高帧率视频中获取的连续三帧图像作为一组训练样本，将三帧图像中的第一帧图像以及最后一帧图像作为输入，将三帧图像中的中间帧图像作为输出监督信号。

图3所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本申请装置实施例所述方案，在进行视频插帧时，除了获取运动估计信息之外，还会进一步获取遮挡估计信息，从而结合运动估计信息以及遮挡估计信息来生成所需的中间帧图像，进而提高了获取到的中间帧图像的准确性等；另外，可通过将输入图像调整为多个不同尺度，并分别输入第一网络模型进行处理等，可充分利用多尺度的运动信息，并可通过对不同尺度下的第一网络模型中的中间特征图进行融合，充分利用各次的计算特征，从而使得最终得到的运动估计信息及遮挡估计信息更为准确等；再有，可采用自适应的处理方式，根据实际需要灵活确定需要进行到哪一尺度的处理，而不是一定进行全尺度处理，从而加快了处理速度，进而实现了准确快速的视频插帧等。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器Y01、存储器Y02，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器Y01为例。

存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器Y02作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器Y02可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器Y02可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器Y02可选包括相对于处理器Y01远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置Y03可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管或者液晶显示器监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网、广域网、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频插帧方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：

设置M个不同的尺度，M为大于一的正整数，按照从小到大的顺序依次为尺度S_M～尺度S₁，S₁＝1，每一尺度分别为后一尺度的1/2，对于任一尺度S_i，1≤i≤M，表示将所述第一图像和所述第二图像的长和宽的尺寸分别调整为原始尺寸的1/2^i-1；

3.根据权利要求2所述的方法，其特征在于，

所述将不同尺度的第一图像和第二图像分别输入所述第一网络模型，结合不同尺度下所述第一网络模型中的各中间特征图获取所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图包括：

4.根据权利要求3所述的方法，其特征在于，

所述将所述第一图像和所述第二图像下采样到所述尺度SM后输入所述第一网络模型之后，进一步包括：获取所述尺度SM下所述第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若所述评估概率小于预定阈值，则获取所述尺度SM下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，继续之后的处理；

5.根据权利要求3所述的方法，其特征在于，

所述将上采样后的各中间特征图分别与所述待处理尺度下所述第一网络模型中的各同等尺寸的中间特征图进行融合包括：

6.根据权利要求4所述的方法，其特征在于，

获取所述尺寸最小的中间特征图对应的评估概率包括：将所述尺寸最小的中间特征图输入训练得到的第二网络模型，得到输出的所述评估概率。

7.根据权利要求4所述的方法，其特征在于，

所述根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出所述中间帧图像之前，进一步包括：

8.根据权利要求7所述的方法，其特征在于，

所述根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出所述中间帧图像包括：

9.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：在进行所述第一网络模型的训练时，将从高帧率视频中获取的连续三帧图像作为一组训练样本，将所述三帧图像中的第一帧图像以及最后一帧图像作为输入，将所述三帧图像中的中间帧图像作为输出监督信号。

10.一种视频插帧装置，其特征在于，包括：第一图像处理单元以及第二图像处理单元；

11.根据权利要求10所述的装置，其特征在于，

所述第一图像处理单元进一步用于，获取设置的M个不同尺度，M为大于一的正整数，按照从小到大的顺序依次为尺度S_M～尺度S₁，S₁＝1，每一尺度分别为后一尺度的1/2，对于任一尺度S_i，1≤i≤M，表示将所述第一图像和所述第二图像的长和宽的尺寸分别调整为原始尺寸的1/2^i-1；将不同尺度的第一图像和第二图像分别输入所述第一网络模型，结合不同尺度下所述第一网络模型中的各中间特征图获取所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图。

12.根据权利要求11所述的装置，其特征在于，

所述第一图像处理单元将所述第一图像和所述第二图像下采样到所述尺度S_M后输入所述第一网络模型，按照从小到大的顺序，将所述尺度S_M的后一尺度作为待处理尺度，并执行以下预定处理：将所述第一图像和所述第二图像下采样到所述待处理尺度后输入所述第一网络模型；将所述待处理尺度的前一尺度下所述第一网络模型中的各中间特征图分别进行2倍的上采样，将上采样后的各中间特征图分别与所述待处理尺度下所述第一网络模型中的各同等尺寸的中间特征图进行融合；若不存在所述待处理尺度的后一尺度，则获取所述待处理尺度下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，将所述待处理尺度的后一尺度作为待处理尺度，重复执行所述预定处理。

13.根据权利要求12所述的装置，其特征在于，

所述第一图像处理单元进一步用于，在将所述第一图像和所述第二图像下采样到所述尺度SM后输入所述第一网络模型之后，获取所述尺度SM下所述第一网络模型中的各中间特征图中的尺寸最小的中间特征图对应的评估概率，若所述评估概率小于预定阈值，则获取所述尺度SM下所述第一网络模型输出的所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图，否则，继续之后的处理；

14.根据权利要求12所述的装置，其特征在于，

所述第一图像处理单元针对所述待处理尺度下所述第一网络模型中的每一中间特征图，分别进行以下处理：针对所述中间特征图中的每一像素点，分别将所述像素点的取值与上采样后与所述中间特征图同等尺度的中间特征图中的对应像素点的取值相加，将相加之和除以2，将得到的商赋值给所述像素点，其中，所述对应像素点为位置相同的像素点。

15.根据权利要求13所述的装置，其特征在于，

所述第一图像处理单元将所述尺寸最小的中间特征图输入训练得到的第二网络模型，得到输出的所述评估概率。

16.根据权利要求13所述的装置，其特征在于，

所述第二图像处理单元进一步用于，在根据所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图确定出所述中间帧图像之前，若确定所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图的尺寸小于所述原始尺寸，则将所述第一运动估计图、所述第二运动估计图以及所述遮挡估计图上采样到所述原始尺寸。

17.根据权利要求16所述的装置，其特征在于，

所述第二图像处理单元根据所述第一运动估计图以及所述第一图像确定出第一临时图像，根据所述第二运动估计图以及所述第二图像确定出第二临时图像，所述第一临时图像及所述第二临时图像的尺寸均等于所述原始尺寸，针对所述第一临时图像中的每一像素点，分别进行以下处理：将所述像素点的取值与所述遮挡估计图中的对应像素点的取值相乘，将所述第二临时图像中的对应像素点的取值与1减去所述遮挡估计图中的对应像素点的取值后得到的差相乘，将两个乘积相加，将相加之和作为所述中间帧图像中的对应像素点的取值，其中，所述遮挡估计图中的像素点的取值位于0～1之间，所述对应像素点为位置相同的像素点。

18.根据权利要求10所述的装置，其特征在于，

所述装置中进一步包括：预处理单元，用于在进行所述第一网络模型的训练时，将从高帧率视频中获取的连续三帧图像作为一组训练样本，将所述三帧图像中的第一帧图像以及最后一帧图像作为输入，将所述三帧图像中的中间帧图像作为输出监督信号。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。