CN110430416B

CN110430416B - 自由视点图像生成方法和装置

Info

Publication number: CN110430416B
Application number: CN201910647469.7A
Authority: CN
Inventors: 刘烨斌; 郑泽荣; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2020-12-08
Anticipated expiration: 2039-07-17
Also published as: CN110430416A

Abstract

本发明提出一种自由视点图像生成方法和装置，其中，方法包括：在多个视点采集包含目标用户运动场景的多帧第一图像帧；识别多帧第一图像帧中每帧第一图像帧的第一人体姿态参数；获取新增视点的第二人体姿态参数；控制预设人体模型拟合第二人体姿态参数，获取在新增视点下预设人体模型的运动图像帧；将运动图像帧输入至预先训练的图像转换模型，获取与新增视点对应的包含目标用户运动场景的第二图像帧。本发明通过获取多个视点下的图像帧，并根据多个视点下的图像帧，得到新增视点下的运动图像帧，然后通过图像转换模型，计算出新增视点对应的包含目标用户运动场景的图像帧，降低了采集图像帧的计算量和复杂性。

Description

自由视点图像生成方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种自由视点图像生成方法和装置。

背景技术

自由视点视频生成是计算机图形学和计算机视觉领域的重点问题。高质量的自由视点视频在虚拟现实、增强现实、游戏、影音娱乐等领域有着广泛的应用前景和重要的应用价值。

现有技术中，获取高质量的自由视点视频往往需要复杂的多相机阵列系统来拍摄实现，并依赖于复杂算法进行后续处理，系统复杂，计算量较大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种自由视点图像生成方法，以实现通过少数的相机，就可以获取新增视点对应的包含目标用户运动场景的图像帧。

本发明的第二个目的在于提出一种自由视点图像生成装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种自由视点图像生成方法，包括：在多个视点采集包含目标用户运动场景的多帧第一图像帧；识别所述多帧第一图像帧中每帧第一图像帧的第一人体姿态参数；根据所述第一人体姿态参数，获取新增视点的第二人体姿态参数；控制预设人体模型拟合所述第二人体姿态参数，获取在所述新增视点下所述预设人体模型的运动图像帧；将所述运动图像帧输入至预先训练的图像转换模型，获取与所述新增视点对应的包含所述目标用户运动场景的第二图像帧。

本发明实施例的自由视点图像生成方法，通过少数的相机获取多个视点下的图像帧，并根据多个视点下的图像帧，得到新增视点下预设人体模型的运动图像帧，然后通过图像转换模型，计算出新增视点对应的包含目标用户运动场景的图像帧，降低了通过多相机阵列采集图像帧的复杂性。

在本发明的一个实施例中，在将所述运动图像帧输入至预先训练的图像转换模型之前，还包括：获取包含训练用户运动场景在多个视点下对应的多帧第一训练图像帧；识别所述多帧第一训练图像帧中每帧第一训练图像帧的训练人体姿态参数；控制预设人体模型拟合所述训练人体姿态参数，获取与所述多个视点对应的训练运动图像帧；将所述训练运动图像帧输入至预先设置的图像转换模型，获取与所述多个视点对应的多个第二训练图像帧；计算在所述多个视点下与每个视点对应的第一训练图像帧和所述第二训练图像帧的图像损失值；当所述图像损失值大于预设阈值时调整所述图像转换模型的模型参数，直至所述多个视点下每个视点的图像损失值都小于所述预设阈值则完成对所述图像转换模型的训练。

在本发明的一个实施例中，所述计算在所述多个视点下与每个视点对应的第一训练图像帧和所述第二训练图像帧的图像损失值，包括：提取所述第一训练图像帧的图像特征获取第一图像特征图；提取所述第二训练图像帧的图像特征获取第二图像特征图；获取所述第一图像特征图和所述第二图像特征图中每个对应像素的特征差，根据所述特征差获取对应的范数；根据预设损失函数对所述范数计算获取所述图像损失值。

在本发明的一个实施例中，所述图像转换模型包括11层三维卷积层，其中，所述11层三维卷积层中的第一层卷积层包括8个大小为4x4、步长为2的卷积，第二层卷积层16个个大小为4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4、步长为2的卷积核，且所述第一层卷积层到第五层卷积层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元，第六层卷积层包括128个大小为4x4、步长为2的解卷积核，第七层卷积层包括64个大小为4x4、步长为2的解卷积核，第八层卷积层包括32个大小为4x4、步长为2的解卷积核，第九层卷积层包括16个大小为4x4、步长为2的解卷积核，第十层卷积层包括8个大小为4x4、步长为2的解卷积核，其中，所述第六层卷积层到第十层卷积层的每一层后均连接有一个修正线性单元，且与第一层到第五层中包含相同卷积核尺寸的对应卷积层相互连接，第十一层卷积层包括1个大小4x4、步长为1的卷积核，所述第十一层卷积层后连接一个sigmoid单元。

在本发明的一个实施例中，所述采集包含目标用户运动场景在多个视点下对应的多帧第一图像帧，包括：在所述目标用户运动场景周围均匀设置四个相机，其中，所述四个相机的视角差为90度；控制所述四个相机拍摄所述目标用户运动场景获取所述多帧第一图像帧。

在本发明的一个实施例中，所述识别所述多帧第一图像帧中每帧第一图像帧的第一人体姿态参数，包括：提取所述每帧第一图像帧的人体关键点坐标；根据所述人体关键点坐标获取所述第一人体姿态参数。

为达上述目的，本发明第二方面实施例提出了一种自由视点图像生成装置，包括：采集模块，用于在多个视点采集包含目标用户运动场景的多帧第一图像帧；识别模块，用于识别所述多帧第一图像帧中每帧第一图像帧的第一人体姿态参数；第一获取模块，用于根据所述第一人体姿态参数，获取新增视点的第二人体姿态参数；第二获取模块，用于控制预设人体模型拟合所述第二人体姿态参数，获取在所述新增视点下所述预设人体模型的运动图像帧；第三获取模块，用于将所述运动图像帧输入至预先训练的图像转换模型，获取与所述新增视点对应的包含所述目标用户运动场景的第二图像帧。

本发明实施例自由视点图像生成装置，通过少数的相机获取多个视点下的图像帧，并根据多个视点下的图像帧，得到新增视点下预设人体模型的运动图像帧，然后通过图像转换模型，计算出新增视点对应的包含目标用户运动场景的图像帧，降低了多相机阵列采集图像帧的复杂性。

在本发明的一个实施例中，所述识别模块，包括：提取单元，用于提取所述每帧第一图像帧的人体关键点坐标；获取单元，用于根据所述人体关键点坐标获取所述第一人体姿态参数。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例第一方面所述的自由视点图像生成方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例第一方面所述的自由视点图像生成方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种自由视点图像生成方法的流程图；

图2为本发明实施例所提供的一种自由视点图像生成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的自由视点图像生成方法和装置，首先将参照附图描述根据本发明实施例提出的自由视点图像生成方法。

图1为本发明实施例所提供的一种自由视点图像生成方法的流程图。

如图1所示，本发明实施例的自由视点图像生成方法，包括以下步骤：

步骤101，在多个视点采集包含目标用户运动场景的多帧第一图像帧。

作为一种可能的示例，在目标用户运动场景周围均匀设置四个相机，其中，四个相机的视角差为90度，目的是能够拍到大部分包含目标用户的运动场景，控制四个相机拍摄目标用户运动场景获取多帧第一图像帧。其中，目标用户运动场景包括多视点下的单人体运动。

步骤102，识别多帧第一图像帧中每帧第一图像帧的第一人体姿态参数。

作为一种可能的示例，提取每帧第一图像帧的人体关键点坐标，根据人体关键点坐标获取第一人体姿态参数。首先，利用现有的开源算法AlphaPose检测每一帧图像上的人体关键点；然后利用现有的开源算法MuVS估计每一帧的人体姿态参数。其中，人体关键点可以是头部、手臂、腿部等有明显动作的部位，姿态参数可以是伸展的幅度、手臂旋转的角度等。

步骤103，根据第一人体姿态参数，获取新增视点的第二人体姿态参数。

具体的，可根据利用现有的开源算法MuVS估计每帧第一图像帧的第一人体姿态参数，获取新增视点的第二人体姿态参数，其中，新增视点是没有拍摄采集到的视点，本发明中基于已有视点对应的第一图像帧，估计出新增视点的第二图像帧，而不依赖于负责的相机阵列的直接拍摄等，大大降低了成本和计算量。

步骤104，控制预设人体模型拟合第二人体姿态参数，获取在新增视点下预设人体模型的运动图像帧。

具体的，将获取新增视点的第二人体姿态参数与预设人体模型拟合，采用OpenGL的方式渲染，将每一帧的人体模板渲染到对应视角下，获取在新增视点下预设人体模型的运动图像帧。其中，运动图像帧包含预设人体模型的各种动作。

步骤105，将运动图像帧输入至预先训练的图像转换模型，获取与新增视点对应的包含目标用户运动场景的第二图像帧。

具体的，对于所需要生成的新增视点，首先渲染该视点的预设人体模型运动序列，得到只包含预设人体模型而不包含目标用户运动场景的运动图像帧，将运动图像帧输入图像转换模型，得到该视点下的输出图像序列，从而获取与新增视点对应的包含目标用户运动场景的第二图像帧。

其中，在本发明的一个实施例中，图像转换模型包括11层三维卷积层：第一层卷积层包括8个大小为4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4、步长为2的卷积核，第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元。第六层为128个大小为4x4、步长为2的解卷积核，第七层为64个大小为4x4、步长为2的解卷积核，第八层为32个大小为4x4、步长为2的解卷积核，第九层为16个大小为4x4、步长为2的解卷积核，第十层为8个大小为4x4、步长为2的解卷积核，第六层到第十层的每一层后均连接有一个修正线性单元，且与第一层到第五层中对应尺度的卷积层相互连接。第十一层为1个大小4x4、步长为1的卷积核，其后连接有一个sigmoid单元。

需要说明的是，在将运动图像帧输入至预先训练的图像转换模型之前，还包括：获取包含训练用户运动场景在多个视点下对应的多帧第一训练图像帧；识别多帧第一训练图像帧中每帧第一训练图像帧的训练人体姿态参数；控制预设人体模型拟合训练人体姿态参数，获取与多个视点对应的训练运动图像帧；将训练运动图像帧输入至预先设置的图像转换模型，获取与多个视点对应的多个第二训练图像帧；计算在多个视点下与每个视点对应的第一训练图像帧和第二训练图像帧的图像损失值；当图像损失值大于预设阈值时调整图像转换模型的模型参数，直至多个视点下每个视点的图像损失值都小于预设阈值则完成对图像转换模型的训练。

进一步地，计算在多个视点下与每个视点对应的第一训练图像帧和第二训练图像帧的图像损失值，包括：提取第一训练图像帧的图像特征获取第一图像特征图；提取第二训练图像帧的图像特征获取第二图像特征图；获取第一图像特征图和第二图像特征图中每个对应像素的特征差，根据特征差获取对应的范数；根据预设损失函数对范数计算获取图像损失值。

可以理解，作为一种可能实现的方式，可以采用预训练的VGG19对网络输出和真实图像进行特征提取，并将两者的特征图做差取L1范数。在预设损失函数的条件下，完成网络的联合训练；其中，训练网络所使用的预设损失函数，其定义为如下公式(1)所示：

L＝L₁+L_per 公式(1)

其中，L₁为逐像素L1范数，L_per为感知损失函数。

其次，下面对自由视点图像生成的装置进行详细描述。

图2为本发明实施例提供的一种自由视点图像生成装置的结构示意图。

如图2所示，该自由视点图像生成装置包括：采集模块100、识别模块200、第一获取模块300、第二获取模块400和第三获取模块500。

其中，采集模块100在多个视点采集包含目标用户运动场景的多帧第一图像帧。其次，识别模块200识别多帧第一图像帧中每帧第一图像帧的第一人体姿态参数。接着，第一获取模块300根据第一人体姿态参数，获取新增视点的第二人体姿态参数。然后，第二获取模块400控制预设人体模型拟合第二人体姿态参数，获取在新增视点下预设人体模型的运动图像帧。最后，第三获取模块500将运动图像帧输入至预先训练的图像转换模型，获取与新增视点对应的包含目标用户运动场景的第二图像帧。

进一步地，在本发明的一个实施例中，识别模块200，包括：提取单元和获取单元。其中，提取单元用于提取每帧第一图像帧的人体关键点坐标，获取单元用于根据人体关键点坐标获取第一人体姿态参数。

需要说明的是，前述对自由视点图像生成方法实施例的解释说明也适用于该实施例的自由视点图像生成装置，此处不再赘述。

本发明实施例的自由视点图像生成装置，通过少数的相机获取多个视点下的图像帧，并根据多个视点下的图像帧，得到新增视点下预设人体模型的运动图像帧，然后通过图像转换模型，计算出新增视点对应的包含目标用户运动场景的图像帧，降低了通过多相机阵列采集图像帧的复杂性。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如上述实施例所描述的自由视点图像生成方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，计算机程序被处理器执行时，实现如上述实施例所描述的自由视点图像生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种自由视点图像生成方法，其特征在于，包括以下步骤：

在多个视点采集包含目标用户运动场景的多帧第一图像帧；

识别所述多帧第一图像帧中每帧第一图像帧的第一人体姿态参数；

根据所述第一人体姿态参数，获取新增视点的第二人体姿态参数；

控制预设人体模型拟合所述第二人体姿态参数，获取在所述新增视点下所述预设人体模型的运动图像帧；

将所述运动图像帧输入至预先训练的图像转换模型，获取与所述新增视点对应的包含所述目标用户运动场景的第二图像帧；

在将所述运动图像帧输入至预先训练的图像转换模型之前，还包括：

获取包含训练用户运动场景在多个视点下对应的多帧第一训练图像帧；

识别所述多帧第一训练图像帧中每帧第一训练图像帧的训练人体姿态参数；

控制预设人体模型拟合所述训练人体姿态参数，获取与所述多个视点对应的训练运动图像帧；

将所述训练运动图像帧输入至预先设置的图像转换模型，获取与所述多个视点对应的多个第二训练图像帧；

计算在所述多个视点下与每个视点对应的第一训练图像帧和所述第二训练图像帧的图像损失值；

当所述图像损失值大于预设阈值时调整所述图像转换模型的模型参数，直至所述多个视点下每个视点的图像损失值都小于所述预设阈值则完成对所述图像转换模型的训练。

2.如权利要求1所述的方法，其特征在于，所述计算在所述多个视点下与每个视点对应的第一训练图像帧和所述第二训练图像帧的图像损失值，包括：

提取所述第一训练图像帧的图像特征获取第一图像特征图；

提取所述第二训练图像帧的图像特征获取第二图像特征图；

获取所述第一图像特征图和所述第二图像特征图中每个对应像素的特征差，根据所述特征差获取对应的范数；

根据预设损失函数对所述范数计算获取所述图像损失值。

3.如权利要求1所述的方法，其特征在于，所述图像转换模型包括11层三维卷积层，其中，所述11层三维卷积层中的第一层卷积层包括8个大小为4x4、步长为2的卷积，

第二层卷积层包括16个大小为4x4、步长为2的卷积核，

第三层卷积层包括32个大小为4x4、步长为2的卷积核，

第四层卷积层包括64个大小为4x4、步长为2的卷积核，

第五层卷积层包括128个大小为4x4、步长为2的卷积核，且所述第一层卷积层到第五层卷积层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元，

第六层卷积层包括128个大小为4x4、步长为2的解卷积核，

第七层卷积层包括64个大小为4x4、步长为2的解卷积核，

第八层卷积层包括32个大小为4x4、步长为2的解卷积核，

第九层卷积层包括16个大小为4x4、步长为2的解卷积核，

第十层卷积层包括8个大小为4x4、步长为2的解卷积核，其中，所述第六层卷积层到第十层卷积层的每一层后均连接有一个修正线性单元，且与第一层到第五层中包含相同卷积核尺寸的对应卷积层相互连接，

第十一层卷积层包括1个大小4x4、步长为1的卷积核，所述第十一层卷积层后连接一个sigmoid单元。

4.如权利要求1所述的方法，其特征在于，所述采集包含目标用户运动场景在多个视点下对应的多帧第一图像帧，包括：

在所述目标用户运动场景周围均匀设置四个相机，其中，所述四个相机的视角差为90度；

控制所述四个相机拍摄所述目标用户运动场景获取所述多帧第一图像帧。

5.如权利要求1所述的方法，其特征在于，所述识别所述多帧第一图像帧中每帧第一图像帧的第一人体姿态参数，包括：

提取所述每帧第一图像帧的人体关键点坐标；

根据所述人体关键点坐标获取所述第一人体姿态参数。

6.一种自由视点图像生成装置，其特征在于，所述装置，包括：

采集模块，用于在多个视点采集包含目标用户运动场景的多帧第一图像帧；

识别模块，用于识别所述多帧第一图像帧中每帧第一图像帧的第一人体姿态参数；

第一获取模块，用于根据所述第一人体姿态参数，获取新增视点的第二人体姿态参数；

第二获取模块，用于控制预设人体模型拟合所述第二人体姿态参数，获取在所述新增视点下所述预设人体模型的运动图像帧；

第三获取模块，用于将所述运动图像帧输入至预先训练的图像转换模型，获取与所述新增视点对应的包含所述目标用户运动场景的第二图像帧；

7.如权利要求6所述的装置，所述识别模块，包括：

提取单元，用于提取所述每帧第一图像帧的人体关键点坐标；

获取单元，用于根据所述人体关键点坐标获取所述第一人体姿态参数。

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5任一所述的自由视点图像生成方法。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一所述的自由视点图像生成方法。