CN110177278A

CN110177278A - 一种帧间预测方法、视频编码方法及装置

Info

Publication number: CN110177278A
Application number: CN201910442247.1A
Authority: CN
Inventors: 梁喆; 朱雨
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-27
Anticipated expiration: 2039-05-24
Also published as: CN110177278B

Abstract

本发明的方面涉及视频压缩编码技术领域，提供一种帧间预测方法、视频编码方法及装置。帧间预测方法，其中，包括：获取视频帧步骤，获取连续的视频帧，视频帧包括当前视频帧和相邻视频帧；获取关键点步骤，获取当前视频帧和相邻视频帧中的关键点和关键点的关键点信息；配对步骤，基于关键点类别属性，获得当前视频帧与相邻视频帧中的配对关键点；像素块提取步骤，根据配对关键点的关键点信息，获得配对关键点对应的配对像素块；获取位移矢量步骤，根据配对关键点的关键点坐标，得到配对像素块的位移矢量。通过使用该方法，利用神经网络获取关键点进行像素块的运动状态估计，提高了编码的准确性和编码视频的质量。

Description

一种帧间预测方法、视频编码方法及装置

技术领域

本发明一般地涉及视频压缩编码技术领域，特别是涉及一种帧间预测方法、视频编码方法及装置。

背景技术

在不断的实践中，人们发现人眼对许多视频和音频中所包含的一部分信息不是很敏感，如果将这些信息,也就是视觉冗余去掉，可以减少视频的压缩编码。帧间预测是利用时间域的相关性，使用邻近已编码的像素预测当前图像的像素，以达到有效去除视频时域冗余的目的。

在帧间预测编码中，由于活动图像邻近帧中的景物存在着一定的相关性，将当前帧图像分成块，通过全搜索或者二维对数搜索、三维对数搜索等搜索方式于临近帧图像进行搜索、匹配。在实际应用中，搜索模型复杂，编码质量高，但由于耗时长，无法满足实时编码的需求；搜索模型简单，耗时短，但是编码质量不高。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种帧间预测方法、视频编码方法及装置。

第一方面，本发明实施例提供一种帧间预测方法，其中，包括：获取视频帧步骤，获取连续的视频帧，视频帧包括当前视频帧和相邻视频帧；获取关键点步骤，通过神经网络模型对当前视频帧和相邻视频帧进行检测，获取当前视频帧和相邻视频帧中的关键点和关键点的关键点信息，其中关键点信息包括：关键点坐标、关键点类别属性；配对步骤，基于关键点类别属性，获得当前视频帧与相邻视频帧中的配对关键点，配对关键点为当前视频帧与相邻视频帧中具有相同关键点类别属性的关键点；像素块提取步骤，根据配对关键点的关键点信息，在当前视频帧和相邻视频帧中获得配对关键点对应的配对像素块；获取位移矢量步骤，根据配对关键点的关键点坐标，得到配对关键点的位移矢量，将配对关键点的位移矢量作为配对像素块的位移矢量。

在一实施例中，像素块提取步骤包括：根据配对关键点的关键点坐标，以配对关键点为中心，获得配对关键点对应的配对像素块，配对像素块的尺寸为一预设尺寸。

在一实施例中，像素块提取步骤包括：根据关键点类别属性，预设有与关键点类别属性对应的像素块尺寸，基于配对关键点的关键点坐标以及对应的像素块尺寸，获得配对关键点对应的配对像素块。

在一实施例中，相邻视频帧为与当前视频帧紧邻的上一视频帧或下一视频帧。

在一实施例中，神经网络模型包括人脸、猫脸、狗脸、车辆以及骨架检测网络中的至少一个。

第二方面，本发明实施例提供一种视频编码方法，其中，包括帧内预测步骤、帧间预测步骤、变换步骤、量化步骤、环路滤波步骤和熵编码步骤；其中，帧间预测步骤采用帧间预测方法。

第三方面，本发明实施例提供一种帧间预测装置，其中，包括：获取视频帧模块，用于获取连续的视频帧，视频帧包括当前视频帧和相邻视频帧；获取关键点模块，用于通过神经网络模型对当前视频帧和相邻视频帧进行检测，获取当前视频帧和相邻视频帧中的关键点和关键点的关键点信息，其中关键点信息包括：关键点坐标、关键点类别属性；配对模块，用于基于关键点类别属性，获得当前视频帧与相邻视频帧中的配对关键点，配对关键点为当前视频帧与相邻视频帧中具有相同关键点类别属性的关键点；像素块提取模块，用于根据配对关键点的关键点信息，在当前视频帧和相邻视频帧中获得配对关键点对应的配对像素块；获取位移矢量模块，用于根据配对关键点的关键点坐标，得到配对关键点的位移矢量，将配对关键点的位移矢量作为配对像素块的位移矢量。

第四方面，本发明实施例提供一种视频编码系统，其中，包括帧内预测装置、帧间预测装置、变换装置、量化装置、环路滤波装置和熵编码装置；其中，帧间预测装置采用帧间预测方法进行帧间预测。

第五方面，本发明实施例提供一种电子设备，其中，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行帧间预测方法。

第六方面，本发明实施例提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行帧间预测方法。

本发明提供的一种帧间预测方法、视频编码方法及装置，利用神经网络检测当前视频帧和相邻视频帧的关键点进行提取配对关键点的像素块，从而获得像素块的运动矢量，完成运动状态估计，能够节省时间，提高编码的准确性和视频编码的质量。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了本发明实施例提供的一种帧间预测方法示意图；

图2示出了本发明实施例提供的一种视频编码方法示意图；

图3示出了本发明实施例提供的一种帧间预测装置示意图；

图4示出了本发明实施例提供的一种视频编码系统示意图；

图5示出了本发明实施例提供的一种电子设备示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

图1为帧间预测方法10的一个实施例的流程示意图。如图1所示，该实施例方法包括：获取视频帧步骤110、获取关键点步骤120、配对步骤130、像素块提取步骤140、获取位移矢量步骤150。下面对图1中的各个步骤进行详细说明。

获取视频帧步骤110，获取连续的视频帧，视频帧包括当前视频帧和相邻视频帧。

在一例中，视频帧可通过图像采集设备进行获取实时连续的视频帧，例如，手机摄像头、电脑摄像头，也可以通过本地数据库或者云端中进行调取一段视频，获取连续的视频帧，从而获得当前视频帧和当前视频帧相邻的相邻视频帧。在另一例中，视频帧可以通过本地数据库或者云端中存储的视频中获取视频帧，从而获得当前视频帧和相邻视频帧。根据获取连续的视频帧进行帧间预测。

获取关键点步骤120，通过神经网络模型对当前视频帧和相邻视频帧进行检测，获取当前视频帧和相邻视频帧中的关键点和关键点的关键点信息，其中关键点信息包括：关键点坐标、关键点类别属性。

在本实施例中，通过神经网络对获取的当前视频帧和相邻视频帧进行检测，检测每一帧画面上的关键点，并将关键点和关键点相关的关键点信息进行获取，包括：关键点坐标、关键类别属性。例如：经过神经网络的检测，检测到视频帧画面上的左瞳孔关键点，在获取这左瞳孔关键点的同时，将左瞳孔关键点的坐标、左瞳孔关键点属于人眼的左眼的类别的关键点信息也进行一并获取。同时获取关键点信息有助于快速找到相邻两帧视频帧的对应关键点，能够快速获得位移矢量。在一例中，获取的关键点包括：物体的轮廓关键点和中心关键点；在另一例中，预设关键点的数量，利用神经网络模型检测出能代表当前类别属性的部分关键点，获取部分关键点作为需要配对的关键点。

配对步骤130，基于关键点类别属性，获得当前视频帧与相邻视频帧中的配对关键点，配对关键点为当前视频帧与相邻视频帧中具有相同关键点类别属性的关键点。

在本实施例中，从当前视频帧与相邻视频帧中获得关键点及其关键点信息，根据关键点类别属性进行配对，能够快速的找到两视频帧对应的属性相同的关键点，从而得到配对关键点。例如：从当前视频帧获得左手肘关键点和右膝盖关键点，分别属于左手肘和右膝盖；从相邻视频帧获得左手肘关键点，属于左手肘；根据关键点类别属性为左手肘的关键点进行配对，则将当前视频帧中的左手肘关键点与相邻视频帧中的左手肘关键点进行配对，从而获得类别属性为左手肘的配对关键点。通过获取配对关键点，能够快速并准确地获得关键点在两帧视频帧中变化的位置，通过关键点坐标，即可获得关键点的位移矢量变化。

像素块提取步骤140，根据配对关键点的关键点信息，在当前视频帧和相邻视频帧中获得配对关键点对应的配对像素块。

在本实施例中，根据在当前视频帧和相邻视频帧已经配对的关键点，提取关键点在当前视频帧和相邻视频帧对应的像素块，例如，在当前视频帧中，左车前轮中心点与相邻视频帧中的左车前轮中心点是配对关键点，则提取左车前轮中心点在当前视频帧和相邻视频帧对应的像素块。根据已经配对的关键点获取对应的像素块，有助于提高编码的准确性，从而提高编码视频的质量。

获取位移矢量步骤150，根据配对关键点的关键点坐标，得到配对关键点的位移矢量，将配对关键点的位移矢量作为配对像素块的位移矢量。

在本实施例中，根据已配对的关键点在当前视频帧和相邻视频帧的关键点坐标，获取位移矢量，所得到的位移矢量即为获取的配对像素块在相邻的两帧视频帧中的位移变化。通过用关键点坐标针对性的获取像素块的位移矢量，能够快速获得配对像素块的运动方向和运动幅度，从而可以完成运动状态估计。

在一实施例中，像素块提取步骤140包括：根据配对关键点的关键点坐标，以配对关键点为中心，获得配对关键点对应的配对像素块，配对像素块的尺寸为一预设尺寸。预设尺寸可以默认设置或通过用户提前设置，该预设尺寸作为帧间预测中提取像素块的尺寸，例如获取像素块的尺寸大小为4*4，则针对配对关键点对应的关键点，提取的对应的像素块都是以该关键点为中心的4*4大小的像素块。像素块尺寸统一，有助于快速编码，节省时间。

在一实施例中，像素块提取步骤140包括：根据关键点类别属性，预设有与关键点类别属性对应的像素块尺寸，基于配对关键点的关键点坐标以及对应的像素块尺寸，获得配对关键点对应的配对像素块。根据关键点类别属性，预设提取像素块的尺寸，基于关键点类别属性可知该关键点所表示的图像，并且也可知该关键点在其所代表的图像中的位置，因此可以根据不同类型的关键点，预设不同的像素块尺寸。例如，预设类别属性为左眼，则提取像素块的尺寸为30*12，在当前视频帧和相邻视频帧中，得到的左眼配对关键点坐标进行提取像素块时，根据左眼配对关键点的坐标以及像素块尺寸30*12得到左眼图像的像素块。通过上述实施例的方式，能够通过关键点高效的提取相邻视频帧中相匹配的像素块，并且根据关键点类别能够提取相对大尺寸的像素块，使得帧间预测效率更高、更加准确，进而也提高了编码的效率。

在一实施例中，相邻视频帧为与当前视频帧紧邻的上一视频帧或下一视频帧，用于双向帧间预测或者前向帧间预测。

在一实施例中，神经网络包括人脸、猫脸、狗脸、车辆识别网络以及骨架检测网络中的至少一个。使用一种或多种神经网络对视频帧进行检测，能够有助于快速检测出视频帧中运动的物体。使用多种神经网络，有助于全面检测视频帧中物体，提高视频编码的准确性。

在一实施例中，当通过神经网络模型未检测到当前视频帧和相邻视频帧中关键点时，则将视频帧中未检测到关键点的区域划分成一个或多个不重叠的像素块，通过搜索方式，选取相邻视频帧中的其中一个像素块与当前视频帧中的像素块进行匹配，从而进行运动状态估计，完成帧间预测。

图2为视频编码方法20的一个实施例的流程示意图。如图2所示，该实施例方法包括：帧内预测步骤210、帧间预测步骤220、变换步骤230、量化步骤240、环路滤波步骤250和熵编码步骤260。其中，帧间预测步骤220采用帧间预测方法10。有助于节省时间，提高编码速率，提升编码的准确性，从而提高编码质量。

图3为帧间预测装置30的一个实施例的结构示意图。如图3所示，该帧间预测装置包括：获取视频帧模块310，用于获取连续的视频帧，所述视频帧包括当前视频帧和相邻视频帧；获取关键点模块320，用于通过神经网络模型对所述当前视频帧和所述相邻视频帧进行检测，获取所述当前视频帧和所述相邻视频帧中的关键点和所述关键点的关键点信息，其中所述关键点信息包括：关键点坐标、关键点类别属性；配对模块330，用于基于所述关键点类别属性，获得所述当前视频帧与所述相邻视频帧中的配对关键点，所述配对关键点为所述当前视频帧与所述相邻视频帧中具有相同所述关键点类别属性的所述关键点；像素块提取模块340，用于根据所述配对关键点的所述关键点信息，在所述当前视频帧和所述相邻视频帧中获得所述配对关键点对应的配对像素块；获取位移矢量模块350，用于根据所述配对关键点的所述关键点坐标，得到所述配对关键点的位移矢量，将所述配对关键点的位移矢量作为所述配对像素块的位移矢量。

装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。

图4为视频编码系统40的一个实施例的结构示意图。如图4所示，该帧间预测装置包括：帧内预测装置410、帧间预测装置420、变换装置430、量化装置440、环路滤波装置和熵编码装置450。其中，帧间预测装置420采用帧间预测方法10进行帧间预测。

如图5所示，本发明的一个实施方式提供了一种电子设备50。其中，该电子设备50包括存储器510、处理器520、输入/输出(Input/Output，I/O)接口530。其中，存储器510，用于存储指令。处理器520，用于调用存储器510存储的指令执行本发明实施例的用于帧间预测方法。其中，处理器520分别与存储器510、I/O接口530连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器510可用于存储程序和数据，包括本发明实施例中涉及的用于帧间预测的程序，处理器520通过运行存储在存储器510的程序从而执行电子设备50的各种功能应用以及数据处理。

本发明实施例中处理器520可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器520可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器510可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本发明实施例中，I/O接口530可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备50的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本发明实施例中I/O接口530可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本发明的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims

1.一种帧间预测方法，其中，包括：

获取视频帧步骤，获取连续的视频帧，所述视频帧包括当前视频帧和相邻视频帧；

获取关键点步骤，通过神经网络模型对所述当前视频帧和所述相邻视频帧进行检测，获取所述当前视频帧和所述相邻视频帧中的关键点和所述关键点的关键点信息，其中所述关键点信息包括：关键点坐标、关键点类别属性；

配对步骤，基于所述关键点类别属性，获得所述当前视频帧与所述相邻视频帧中的配对关键点，所述配对关键点为所述当前视频帧与所述相邻视频帧中具有相同所述关键点类别属性的所述关键点；

像素块提取步骤，根据所述配对关键点的所述关键点信息，在所述当前视频帧和所述相邻视频帧中获得所述配对关键点对应的配对像素块；

获取位移矢量步骤，根据所述配对关键点的所述关键点坐标，得到所述配对关键点的位移矢量，将所述配对关键点的位移矢量作为所述配对像素块的位移矢量。

2.根据权利要求1所述的方法，其中，所述像素块提取步骤包括：根据所述配对关键点的所述关键点坐标，以所述配对关键点为中心，获得所述配对关键点对应的所述配对像素块，所述配对像素块的尺寸为一预设尺寸。

3.根据权利要求1所述的方法，其中，所述像素块提取步骤包括：根据所述关键点类别属性，预设有与所述关键点类别属性对应的像素块尺寸，基于所述配对关键点的所述关键点坐标以及对应的所述像素块尺寸，获得所述配对关键点对应的所述配对像素块。

4.根据权利要求1-3中任一项的所述的方法，其中，所述相邻视频帧为与所述当前视频帧紧邻的上一视频帧或下一视频帧。

5.根据权利要求1-3任一项所述的方法，其中，所述神经网络模型包括人脸、猫脸、狗脸、车辆以及骨架检测网络中的至少一个。

6.一种视频编码方法，其中，包括帧内预测步骤、帧间预测步骤、变换步骤、量化步骤、环路滤波步骤和熵编码步骤；

其中，所述帧间预测步骤采用如权利要求1-5任一项所述的帧间预测方法。

7.一种帧间预测装置，其中，包括：

获取视频帧模块，用于获取连续的视频帧，所述视频帧包括当前视频帧和相邻视频帧；

获取关键点模块，用于通过神经网络模型对所述当前视频帧和所述相邻视频帧进行检测，获取所述当前视频帧和所述相邻视频帧中的关键点和所述关键点的关键点信息，其中所述关键点信息包括：关键点坐标、关键点类别属性；

配对模块，用于基于所述关键点类别属性，获得所述当前视频帧与所述相邻视频帧中的配对关键点，所述配对关键点为所述当前视频帧与所述相邻视频帧中具有相同所述关键点类别属性的所述关键点；

像素块提取模块，用于根据所述配对关键点的所述关键点信息，在所述当前视频帧和所述相邻视频帧中获得所述配对关键点对应的配对像素块；

获取位移矢量模块，用于根据所述配对关键点的所述关键点坐标，得到所述配对关键点的位移矢量，将所述配对关键点的位移矢量作为所述配对像素块的位移矢量。

8.一种视频编码系统，其中，包括帧内预测装置、帧间预测装置、变换装置、量化装置、环路滤波装置和熵编码装置；

其中，所述帧间预测装置采用如权利要求1-5所述的帧间预测方法进行帧间预测。

9.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-5中任一项所述的帧间预测方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-5中任一项所述的帧间预测方法。