CN110853130B

CN110853130B - 三维图像的生成方法、电子设备及存储介质

Info

Publication number: CN110853130B
Application number: CN201910911935.8A
Authority: CN
Inventors: 闫威; 徐嵩
Original assignee: MIGU Video Technology Co Ltd
Current assignee: MIGU Video Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2024-03-22
Anticipated expiration: 2039-09-25
Also published as: CN110853130A

Abstract

本发明实施例涉及图像领域，公开了一种三维图像的生成方法、电子设备及存储介质。本申请的部分实施例中，三维图像的生成方法包括：将原始图像输入图像生成模型，得到N个变换图像；图像生成模型包括N个深度卷积生成对抗网络DCGAN子模型；其中，DCGAN子模型用于基于原始图像生成预设角度的变换图像；其中，至少两个DCGAN子模型生成的变化图像的预设角度不同，N为大于1的整数；根据N个变换图像，生成三维图像。该实现中，降低了设备成本。

Description

三维图像的生成方法、电子设备及存储介质

技术领域

本发明实施例涉及图像领域，特别涉及一种三维图像的生成方法、电子设备及存储介质。

背景技术

当前的三维视频生成技术主要依赖于多角度的摄像头，通过不同角度的摄像头对同一时间点同一场景的拍摄，将采集到的多个角度的视频关键帧合成，经过计算，生成三维模型。以此类推，将多个关键帧连接起来，生成三维视频，从而实现可以对一段三维视频进行多角度，多播放速率的观看。

然而，发明人发现现有技术中至少存在如下问题：现有三维图像的生成方式的成本较高。

发明内容

本发明实施方式的目的在于提供一种三维图像的生成方法、电子设备及存储介质，使得能够基于一个摄像头拍摄的图像生成三维图像，降低了生成三维图像的相关设备的成本。

为解决上述技术问题，本发明的实施方式提供了一种三维图像的生成方法，包括以下步骤：将原始图像输入图像生成模型，得到N个变换图像；图像生成模型包括N个深度卷积生成对抗网络DCGAN子模型；其中，DCGAN子模型用于基于原始图像生成预设角度的变换图像；其中，至少两个DCGAN子模型生成的变化图像的预设角度不同，N为大于1的整数；根据N个变换图像，生成三维图像。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施方式提及的三维图像的生成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式提及的三维图像的生成方法。

本发明实施方式相对于现有技术而言，基于物体的一个角度的原始图像即可获得多个角度的变化图像，进而生成物体的三维图像，无需通过多个摄像头拍摄物体各角度的图像，降低了拍摄设备的成本。并且，电子设备无需控制摄像头转动拍摄物体多个角度的图像，简化了操作流程。

另外，根据N个变换图像，生成三维图像，具体包括：根据N个变换图像，进行局部三维重建，得到局部三维模型；根据各局部三维模型，合成原始图像的三维模型；根据原始图像的三维模型和原始图像的视角信息，生成三维图像。提高了三维模型的准确度。

另外，在根据N个变换图像，进行局部三维重建，得到局部三维模型之前，三维图像的生成方法还包括：判断原始图像中的物体是否为预设物体；若确定是，在预建的三维模型库中查找物体的三维模型；根据物体的三维模型和原始图像的视角信息，生成三维图像；其中，三维模型库中存储有各预设物体的三维模型；若确定不是，执行根据N个变换图像，进行局部三维重建，得到局部三维模型的步骤。提高了计算速度。

另外，图像生成模型还包括特征提取子模型，特征提取子模型用于提取原始图像的特征，DCGAN子模型具体用于基于提取的原始图像的特征，生成预设角度的变换图像。简化了网络结构，提高了操作速度。

另外，原始图像为视频帧的局部图像；判断原始图像中的物体是否为预设物体，具体包括：使用图像识别模型，对原始图像进行识别，判断物体是否为预设物体；若确定不是，获取原始图像的语音特征信息，语音特征信息根据视频帧的语音识别结果确定；根据语音特征信息，判断物体是否为预设物体。提高了最终的判断结果的准确性。

另外，根据原始图像的三维模型和原始图像的视角信息，生成三维图像，具体包括：获取视频帧的各物体的颜色信息；根据各物体的颜色信息，对各物体的三维模型进行渲染；根据各物体的视角信息，以及各物体的渲染后的三维模型，生成三维图像。

另外，在根据N个变换图像，生成三维图像之后，三维图像的生成方法还包括：确定三维图像中的感兴趣区域和非感兴趣区域；对非感兴趣区域进行虚化处理。

另外，在根据N个变换图像，生成三维图像之后，三维图像的生成方法还包括：根据每个视频帧生成的三维图像，生成三维视频。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明的第一实施方式的三维模型的生成方法的流程图；

图2是根据本发明的第一实施方式的图像生成模型的结构示意图；

图3是根据本发明的第二实施方式的三维模型的生成方法的流程图；

图4是根据本发明的第二实施方式的三维图像的生成方法涉及的各模型的关系示意图；

图5是根据本发明的第二实施方式的人物识别及三维生成模型的结构示意图；

图6是根据本发明的第三实施方式的三维模型的生成装置的结构示意图；

图7是根据本发明的第三实施方式的电子设备的生成装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种三维图像的生成方法，应用于电子设备，例如服务器或各种终端。本实施方式提及的三维图像的生成方法可以应用于各种涉及三维图像的生成的应用场景，例如，基于单摄像头拍摄的体育赛事视频生成三维视频的场景。如图1所示，三维图像的生成方法包括以下步骤：

步骤101：将原始图像输入图像生成模型，得到N个变换图像。

具体地说，图像生成模型包括N个深度卷积生成对抗网络(Deep ConvolutionGenerative Adversarial Networks，DCGAN)子模型；其中，DCGAN子模型用于基于原始图像生成预设角度的变换图像；其中，至少两个DCGAN子模型生成的变化图像的预设角度不同，N为大于1的整数。

在一个实施例中，各DCGAN子模型生成变化图像的过程包括：提取原始图像的特征；基于提取的特征生成预设角度的变化图像。

在另一个实施例中，图像生成模型还包括特征提取子模型，特征提取子模型用于提取原始图像的特征，DCGAN子模型具体用于基于提取的原始图像的特征，生成预设角度的变换图像。具体地说，本实施方式中，对图像生成模型进行了改进，多个DCGAN子模型共用特征提取层，即特征提取子模型。特征提取子模型提取原始图像的特征，提取的特征被输入各个DCGAN子模型，由各DCGAN子模型根据提取的特征生成变换图像。DCGAN子模型中包括深度判别子网络和深度生成子网络。DCGAN子模型在深度生成子网络生成的图像骗过深度判别子网络后，输出该变化图像。

在一个实施例中，原始图像为视频帧的局部图像。例如，视频帧中的人物图像，如单摄像头拍摄环境下录制的体育赛事视频中某一部分被遮挡或移除后的残缺人物图像。

例如，如图2所示，图像生成模型包括特征提取子模型和14个DCGAN子模型，14个DCGAN子模型共用的特征提取子模型(特征提取层)，各DCGAN子模型分别用于生成水平0度、30度、60度、90度、120度、150度、180度、210度、240度、270度、300度、330度、俯视、仰视的变化图像，从而得到多角度的人物图像。图像生成模型的输入为人物图像，进行生成对抗训练，最终输出为14张不同角度的图像组。其中，各DCGAN子模型具有以下特点：深度生成子网络和深度判别子网络均取消卷积中的池化层和全连接层；使用批量归一化(batchnormalization)算法进行归一化处理；深度生成子网络中使用转置卷积进行采样，取消全连接层，激活函数使用ReLU函数，最后一层使用tanh函数；深度判别子网络使用stride卷积；激活函数使用LeakyReLU函数。

需要说明的是，本领域技术人员可以理解，实际应用中，也可以设置更多或更少数量的DCGAN子模型，各DCGAN子模型生成的变化图像对应的角度结合应用场景和项目需求确定。

值得一提的是，各DCGAN子模型共用特征提取层，简化了图像生成模型的结果，避免重复执行相同操作，减少了操作步骤，提高了电子设备计算速度。

步骤102：根据N个变换图像，生成三维图像。

具体地说，通过图像生成模型得到物体的多个角度的变化图像后，可以进行三维建模，得到物体的三维图像。

在一个实施例中，在将原始图像输入图像生成模型，得到N个变换图像之前，电子设备获取场景的视频帧，确定视频帧中的感兴趣区域和视频帧中的非感兴趣区域，从视频帧中的感兴趣区域提取动态物体的图像，作为原始图像，通过执行步骤101和步骤102，得到动态物体的三维图像。电子设备中预先存储有场景中的静态物体的三维模型，对于非感兴趣区域和感兴趣区域内的静态物体，使用预先建立的各静态物体的三维模型，得到静态物体的三维图像。根据各动态物体和各静态物体在视频帧中的位置，将各动态物体的三维图像和各静态物体的三维图像进行拼接合成视频帧的三维图像。

需要说明的是，以上仅为举例说明，并不对本发明的技术方案构成限定。

与现有技术相比，本实施方式中提供的三维图像的生成方法，基于物体的一个角度的原始图像即可获得多个角度的变化图像，进而生成物体的三维图像，无需通过多个摄像头拍摄物体各角度的图像，降低了拍摄设备的成本。并且，电子设备无需控制摄像头转动拍摄物体多个角度的图像，简化了操作流程。

本发明的第二实施方式涉及一种三维图像的生成方法，本实施方式举例说明了第一实施方式的步骤102的一种实现方式。

具体的说，如图3所示，在本实施方式中，包含步骤201至步骤207，其中，步骤201和第一实施方式中的步骤101大致相同，此处不再赘述。下面主要介绍不同之处：

步骤201：将原始图像输入图像生成模型，得到N个变换图像。

步骤202：判断原始图像中的物体是否为预设物体。

具体地说，电子设备将原始图像或某一变换图像输入人物识别模型，若人物识别模型的识别结果指示原始图像中的物体为预设物体，执行步骤203，否则，执行步骤205。

在一个实施例中，人物识别模型为图像识别模型。电子设备将原始图像，或者，某一变换图像输入图像识别模型，图像识别模型对物体进行识别。

假设，该三维图像的生成方法应用于单摄像头拍摄下的体育赛事的三维视频的制作过程中，原始图像中的物体为人物，预设物体为明星运动员。电子设备将人物图像输入图像识别模型，图像识别模型用于识别输入图像，输出该输入图像中人物的第一特征向量。例如，第一特征向量包括以下信息：运动员ID、运动员名字、运动员号码和运动员当前动作。若输入图像中的人物为明星运动员，则运动员ID为该明星运动员对应的ID，运动员名字为该明星运动员的名字；若输入图像中的人物不是明星运动员，则运动员ID为0，运动员名字为空。其中，若在输入图像的人物衣服上中识别到号码，则运动员号码为识别到的号码，若在输入图像中未识别到号码，则为运动员号码为空。若能够识别输入图像中的人物的动作，则运动员当前动作为识别到的动作，若无法识别人物的动作，则为空。电子设备判断图像识别模型输出的原始图像的第一特征向量中的运动员ID是否为0，若ID为0，则该人物不是明星运动员，若ID不为0，则该人物为明星运动员。

在另一实施例中，原始图像为视频帧的局部图像，人物识别模型包括图像识别模型和语音识别模型。电子设备使用图像识别模型，对原始图像进行识别，判断物体是否为预设物体；若确定不是，获取原始图像的语音特征信息，语音特征信息根据视频帧的语音识别结果确定；根据语音特征信息，判断物体是否为预设物体。

以该三维图像的生成方法在单摄像头拍摄下的体育赛事的三维视频的制作过程中的应用为例。假设，语音特征信息为第二特征向量。由于比赛人数有限，可预先获取赛事文本信息，赛事文本信息中包括参加本次赛事的运动员名字和运动员号码，作为后续的明星运动员辅助识别的校验信息。在比赛的某些特定时间段，其视频帧的画面图像中的运动员信息可能不完整，或难于识别，使用语音识别模型对该时间段视频的解说音频进行识别，获取该时间段的语音特征信息(第二特征向量)，用于辅助确认运动员是否为明星运动员。具体地说，电子设备对原始图像中的人物进行识别，判别是否为明星运动员，其判断过程可以参考方法1的相关描述，此处不再赘述。若图像识别模型的识别结果指示人物为明星运动员，将第一特征向量中的运动员名字和预先获取的参加本次赛事的运动员名字进行匹配，若在参加本赛事的运动员名字中匹配到第一特征向量中的运动员名字，则执行步骤203。若图像识别模型的识别结果指示人物不是明星运动员，或者，未在参加本赛事的运动员名字中匹配到第一特征向量中的运动员名字，则通过语音识别模型识别该原始图像对应的视频帧所对应的时间段(拍摄该视频帧的前2秒至后5秒)的音频，得到第二特征向量，作为该原始图像的语音特征信息。第二特征向量中包括音频中提及的运动员名字、运动员号码和运动员当前动作中的任意一个或任意组合。假设，第二特征向量中包括运动员名字或运动员号码。电子设备判断第二特征向量中的运动员名字或运动员号码是否为明星运动员的名字或号码，若确定第二特征向量中的运动员名字或运动员号码是明星运动员的名字或号码，将第一特征向量中的运动员名字、运动员号码和运动员当前动作中的任意一个，与第二特征向量进行匹配，如果匹配成功，则认为该人物为明星运动员；如果都没有匹配成功，则认为该人物不是明星运动员。若第二特征向量中的运动员名字或运动员号码不是明星运动员的名字或号码，则认为该人物不是明星运动员。

需要说明的是，本领域技术人员可以理解，实际应用中，电子设备可以在执行步骤202之前对整个视频进行语音识别，也可以在需要结合语音识别结果进行判断时，再对特定时间段的音频进行识别，本实施方式不作限制。

值得一提的是，通过视频中的语音辅助识别原始图像中的物体，提高了判断结果的准确性。

在一个实施例中，图像识别模型为残差网络(Residual Network，ResNET)模型。模型训练过程中，将多幅训练图像，以及各训练图像的标注信息输入残差网络模型。其中，多幅训练图像中存在明星运动员的人物图像，训练图像的标注信息包括该训练图像中的运动员ID、运动员名字、运动员号码和运动员当前动作。基于训练图像和训练图像的标注信息，训练得到能够识别各明星运动员的图像识别模型。

需要说明的是，本领域技术人员可以理解，实际应用中，可以将原始图像输入图像识别模型，也可以将预设角度为水平0度或其他角度的变换图像输入图像识别模型，此处不作限制。

需要说明的是，本领域技术人员可以理解，预设物体可以是人物，也可以是其他物体，例如，在体育赛事中，预设物体还可以是赛场中的各静态物体，例如：球场及划线、球门或球框等、广告区、观众区、旗帜和比分牌等，本实施方式不限制预设物体的类型。

步骤203：在预建的三维模型库中查找物体的三维模型。

具体地说，其中，三维模型库中存储有各预设物体的三维模型。若原始图像中的物体为预设物体，则可以在三维模型库中直接获取该物体的三维模型，无需进行三维重建，提高了生成三维图像的速度。

在一个实施例中，若预设物体是静态物体，三维模型库中存储有该静态物体的一个三维模型，若预设物体是动态物体，如明星运动员，三维模型库中可以存储有明星运动员的各种动作的三维模型。在查找物体的三维模型时，电子设备基于图像识别模型输出的第一特征向量，查找与运动员当前动作对应的运动员的三维模型。

以该三维图像的生成方法在单摄像头拍摄下的体育赛事的三维视频的制作过程中的应用为例。由于明星运动员数量有限且图片资料较容易获取，可以预先采集足够多的明星运动员的头部、五官、姿势动作等相关图片，单独建立明星运动员的高精度的三维模型，得到三维模型库。

需要说明的是，本领域技术人员可以理解，实际应用中，在确定原始图像的物体为预设物体时，如明星运动员，也可以执行以下步骤以获得该物体的三维模型：基于第一特征向量中的运动员名字和运动员当前动作，在互联网上查找动作与当前动作相同的该运动员的图像，基于查找到的图像和变化图像，构建该物体的三维模型，本实施方式仅为举例说明，不限制电子设备针对预设物体所采用的三维模型的获取过程。

值得一提的是，预先创建部分常用物体的三维模型，可以加快三维图像的生成速度，提高了效率。

步骤204：根据物体的三维模型和原始图像的视角信息，生成三维图像。之后结束流程。

具体地说，电子设备在得到原始图像对应的视频帧中各物体的三维模型后，获取各物体的颜色信息；根据各物体的颜色信息，对各物体的三维模型进行渲染；根据各物体的视角信息，以及各物体的渲染后的三维模型，生成该视频帧对应的三维图像。

步骤205：根据N个变换图像，进行局部三维重建，得到局部三维模型。

具体地说，电子设备针对变化图像中的物体的各个部位，分别进行三维重建，得到各个部位的局部三维模型。

以人物三维重建为例，依据人物图像组构造和训练通用人物的三维模型，为确保更高的识别精度和三维模型的准确度，分成三个局部模型进行分别训练后再合成。三个局部模型分别为：头部模型、五官模型和肢体模型。

值得一提的是，针对物体的各个部位分别创建三维模型，提高了最终得到的物体的三维模型的准确度。

步骤206：根据各局部三维模型，合成原始图像的三维模型。

具体地说，电子设备可以变化图像中各个部位之间的位置关系，对各个部位对应的局部三维模型局部进行组合，得到原始图像中的物体的三维模型。

步骤207：根据原始图像的三维模型和原始图像的视角信息，生成三维图像。

在一个实施例中，根据原始图像的三维模型和原始图像的视角信息，生成三维图像的过程包括：获取视频帧的各物体的颜色信息；根据各物体的颜色信息，对各物体的三维模型进行渲染；根据各物体的视角信息，以及各物体的渲染后的三维模型，生成三维图像。

在一个实施例中，原始图像为视频帧中的局部图像，在得到原始图像的三维图像后，采用Multiband图像拼接算法，对同一视频帧的各原始图像的三维图像进行补偿、拼接和融合处理，输出完整的基于特定视角坐标下的该视频帧的三维图像。

需要说明的是，本领域技术人员可以理解，实际应用中，可以使用语音识别模型的识别结果进行辅助识别，也可以不使用语音识别模型的识别结果进行辅助识别，即在步骤201之后，不执行步骤202至步骤204，直接执行步骤205至步骤207，本实施方式仅为举例说明，步骤202至步骤204不是必须要执行的步骤。

以该三维图像的生成方法在单摄像头拍摄下的体育赛事的三维视频的制作过程中的应用为例，视频视角信息的获取过程为：电子设备依据原始图像中的静态可识别的参照物来推算角度坐标。参照物可以选择球门框、场地划线(如边线、端线、中场区、禁区、球门区、圆圈)、球场草坪的明暗条纹、广告牌、比分牌、灯柱等物体中的一个或多个。对设定的参照物进行识别，完成边缘或轮廓线条的提取，根据提取出的直线与整体画面底线的相对夹角、矩形和圆形的变形程度，以及提取出的直线与整体画面底线的相对夹角，推算出具体视角坐标。如果原始图像为近距离特写，没有上述参照物可提取，则以距离之前最近一次的已提取出角度坐标的画面作为参考。

在一个实施例中，电子设备在根据N个变换图像，生成三维图像之后，三维图像的生成方法还包括：确定三维图像中的感兴趣区域和非感兴趣区域；对非感兴趣区域进行虚化处理。具体地说，因为观看者的注意力主要是集中在赛场上的运动员身上，尤其是明星运动员身上。可以将赛场和比分牌所在区域作为感兴趣区域，观众区等区域作为非感兴趣区域，对非感兴趣区域采用虚化处理，以突出运动员等观看者感兴趣的物体。

在一个实施例中，原始图像为视频帧的局部图像，电子设备在生成该视频帧的三维图像，或，对视频帧的非感兴趣区域进行虚化处理后，根据每个视频帧生成的三维图像，生成三维视频。

本实施方式提及的三维图像的生成方法可以应用于各种需要生成三维图像的场景。以下以该三维图像的生成方法在单摄像头拍摄下的体育赛事的三维视频的制作过程中的应用为例，举例说明本实施方式提及的三维图像的生成方法的一种实现方式。

该场景下，以DCGAN模型为基础，并加以改进，对输入的低质量运动员图像加以修复并输出运动员的多角度图像组；然后根据图像中的人物识别输出三维模型，在识别过程中，辅以视频解说语音等比赛相关信息，提高识别结果的准确性。对于明星运动员，结合预先训练好的明星运动员的三维模型，输出更高质量的明星运动员的三维模型。结合典型体育场馆的静态模型如场地含划线、观众区、广告区等三维模型，生成完整的赛场三维模型。根据多视角坐标和之前识别出的每个运动员和物体的颜色等信息，完成视频帧图像的拼接和融合，依此循环处理，最终生成完整的多角度的三维视频。三维图像的生成方法涉及的各模型的关系示意图如图4所示，各模型的构造方法及使用方法说明如下：

1.基于深度卷积生成对抗网络(DCGAN)模型的图像生成模型，用于人物图像修复和生成。

图像生成模型对深度卷积生成对抗网络模型(DCGAN)进行了改进。图像生成模型中包括共用的特征提取子模型(未改进的DCGAN模型中的特征提取层)，以及预设角度分别为水平0度、30度、60度、90度、120度、150度、180度、210度、240度、270度、300度、330度、俯视角和仰视角的DCGAN子模型，用于生成多角度的人物图像。图像生成模型的主要训练流程如下：图像生成模型的输入为人物某一部分被遮挡或移除后的残缺图像，进行生成对抗训练，最终输出为14张不同预设角度的变化图像，得到多角度图片组。每个DCGAN子模型的原理相同，包括深度生成子网络和深度判别子网络。深度生成子网络和深度判别子网络均取消卷积中的池化层和全连接层；使用批量归一化(batch normalization)算法进行归一化处理；深度生成子网络中使用转置卷积进行采样，取消全连接层，激活函数使用ReLU函数，最后一层使用tanh函数；深度判别子网络使用stride卷积；激活函数使用LeakyReLU函数。

2.人物识别及三维生成模型

人物识别及三维生成模型的结构示意图如图5所示，包含一个人物识别模型、通用三维模型和明星三维模型。其中，人物识别模型包括基于ResNET网络的图像识别模型、语音识别模型和判别模型。

基于ResNET网络的图像识别模型的输入为原始图像(或者某一变换图像)。对原始图像(或者某一变换图像)进行识别训练，对人物进行分类，输出第一特征向量<运动员ID，运动员名字，运动员号码，运动员当前动作>。

语音识别模型的输入为辅助识别信息，辅助识别信息包括解说音频和赛事文本信息。语音识别模型对该视频帧所在时间段的解说音频进行识别，获取该时间段的语音特征信息(第二特征向量)，用于辅助确认运动员是否为明星运动员。电子设备可以采用当前成熟的语音识别模型，输入视频帧相应时段的音频，如提取该视频帧的前2秒到后5秒之间的音频，经识别后分类输出第二特征向量，如<运动员名称，运动员号码，运动员当前动作>。电子设备结合之前预先获取的赛事信息，提供后续对明星运动员的辅助识别和校验。

判别模型结合图像识别模型的识别结果和语音识别模型的识别结果，判断运动员是否为明星运动员，其核心判断流程为：根据第一特征向量中的运动员ID，判断运动员是否为明星运动员。如果识别结果指示运动员为明星运动员，使用预先获取的赛事文本信息对运动员名称进行搜索匹配，如果命中，调用明星三维模型。结束流程。如果识别结果指示该运动员不是明星运动员，或者识别结果指示运动员为明星运动员，但是在赛事文本信息中的运动员名字中搜索该运动员名字未命中，判断第二特征向量中的运动员名字或运动员号码是否为明星运动员的名字或号码，若确定第二特征向量中的运动员名字或运动员号码是明星运动员的名字或号码，将第一特征向量中的运动员名字、运动员号码和运动员当前动作中的任意一个，与第二特征向量进行匹配，如果匹配成功，则认为该人物为明星运动员，调用明星三维模型。如果都没有匹配成功，则认为该人物不是明星运动员，调用通用三维模型。若第二特征向量中的运动员名字或运动员号码不是明星运动员的名字或号码，则认为该人物不是明星运动员，调用通用三维模型。

通用三维模型依据多角度图片构造和训练运动员的三维模型。为确保更高的识别精度和三维模型的准确度，通用三维模型可以分成三个局部模型进行分别训练后再合成。三个局部模型分别为：头部模型、五官模型、肢体模型，肢体模型针对各个动作进行训练，如射门、奔跑、过人、扣篮等。

明星三维模型用于依据运动员ID，在三维模型库中查找该明星运动员的三维模型，输出该明星运动员的三维模型。由于明星运动员数量有限且图片资料较容易获取，可以预先采集足够多的头部、五官、姿势动作等相关图片进行训练，针对在人物识别时输出的明星运动员ID，为每个明星运动员建立单独的高精度的三维模型库。

在进行通用运动员或明星运动员识别时，同时还可以提取人物的球衣颜色和球衣号码，为后续的模型渲染阶段提供输入。对于被识别出的明星运动员，如果画面上无法获取球衣号码，可使用预先获取的比赛信息设定明星运动员的场上号码，供渲染时使用。对于非明星运动员，如未识别出球衣号码，考虑到观众对其关注度不高，采用虚化处理。

3.静态场景的物体识别模型及物体三维模型

静态场景包括以下几类：球场及划线、球门或球框等、广告区、观众区、旗帜、比分牌等，分别对上述静态物体建立物体识别模型和物体三维模型，模型训练方法同通用三维模型。这些物体的特点是它们展现的形式是固定的，因此识别和生成三维模型较简单，通过采集正面图片和少量侧面照片，进行不同角度坐标变换来生成三维模型。

另外，它们受重视程度偏低，比如观众区，或广告区，生成的三维模型可以虚化处理，因为观众的注意力主要是集中在运动员和球身上，因此首要确保运动员在三维空间下可高清展示。

4.渲染拼接合成模型

渲染拼接合成模型利用前述图像识别过程中对运动员和静态场景的识别，提取出颜色等相关信息，对各模型进行渲染合成三维图像。具体如下：

1)、对于人物模型，将提取出的球衣颜色，和球队号码，渲染到人物模型上，根据视角坐标，输出渲染后的图像；

2)、对于静态物体模型，将提取出的颜色，渲染到物体模型上，根据视角坐标，输出渲染后的图像；

3)、采用Multiband图像拼接算法对局部图像进行补偿、拼接和融合处理，输出完整的基于特定视角坐标下的三维图像。

电子设备基于上述网络结构，生成三维图像的过程如下：

步骤2001：获取比赛信息。比赛信息包括运动员名称、运动员号码等信息。

步骤2002：针对体育比赛的视频的某一帧，识别出运动员区域和非运动员区域。

步骤2003：对于运动员区域中的运动员图像，输入图像生成模型，进行基于改进的DCGAN网络的图像修复和生成，输出该运动员的多个变化图像，得到多角度图片组。

步骤2004：基于原始图像或某一变化图像进行基于ResNet网络的人物识别，结合预先获取的比赛信息和该视频帧所在时间段内的语音语义信息，判断该运动员是否为明星运动员。如不是，基于多角度图片组进行三维建模，输出该运动员的三维模型；如果是，则从三维模型库中查找并输出该运动员的三维模型。

步骤2005：对于非运动员区域内的物体，识别并输出该物体的三维模型。

步骤2006：针对运动员和非运动员物体，依据视角信息、运动员的球衣号码、运动员的球衣颜色和各物体的颜色等信息，完成图像的渲染和拼接，生成视频帧的三维图像。

步骤2007：针对视频中的每一视频帧做上述处理，生成完整三维视频。

与现有技术相比，本实施方式中提供的三维图像的生成方法，基于物体的一个角度的原始图像即可获得多个角度的变化图像，进而生成物体的三维图像，无需通过多个摄像头拍摄物体各角度的图像，降低了拍摄设备的成本。并且，电子设备无需控制摄像头转动拍摄物体多个角度的图像，简化了操作流程。除此之外，对于预设物体和非预设物体，采用不同方式获取三维模型，更具有针对性，最终得到的三维图像中用户感兴趣的物体的图像准确性更高。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第三实施方式涉及一种三维图像的生成装置，如图6所示，包括：变换模块301和生成模块302。变换模块301用于将原始图像输入图像生成模型，得到N个变换图像；图像生成模型包括N个深度卷积生成对抗网络DCGAN子模型；其中，DCGAN子模型用于基于原始图像生成预设角度的变换图像；其中，至少两个DCGAN子模型生成的变化图像的预设角度不同，N为大于1的整数。生成模块302用于根据N个变换图像，生成三维图像。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明的第四实施方式涉及一种电子设备，如图7所示，包括：至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述实施方式提及的三维图像的生成方法。

该电子设备包括：一个或多个处理器401以及存储器402，图7中以一个处理器401为例。处理器401、存储器402可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述三维图像的生成方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器402中，当被一个或者多个处理器401执行时，执行上述任意方法实施方式中的三维图像的生成方法。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

本发明的第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种三维图像的生成方法，其特征在于，包括：

将原始图像输入图像生成模型，得到N个变换图像；所述图像生成模型包括特征提取子模型和N个深度卷积生成对抗网络DCGAN子模型；其中，所述特征提取子模型用于提取原始图像的特征并将提取的所述原始图像的特征输入到各DCGAN子模型，所述N个DCGAN子模型共用所述特征提取子模型，且各DCGAN子模型基于提取的所述原始图像的特征生成预设角度的变换图像；其中，至少两个DCGAN子模型生成的变化图像的预设角度不同，N为大于1的整数；

根据所述N个变换图像，生成三维图像，具体包括：根据所述N个变换图像，进行局部三维重建，得到局部三维模型；根据各所述局部三维模型，合成所述原始图像的三维模型；根据所述原始图像的三维模型和所述原始图像的视角信息，生成所述三维图像。

2.根据权利要求1所述的三维图像的生成方法，其特征在于，在所述根据所述N个变换图像，进行局部三维重建，得到局部三维模型之前，所述三维图像的生成方法还包括：

判断所述原始图像中的物体是否为预设物体；

若确定是，在预建的三维模型库中查找所述物体的三维模型；根据所述物体的三维模型和所述原始图像的视角信息，生成所述三维图像；其中，三维模型库中存储有各预设物体的三维模型；

若确定不是，执行所述根据所述N个变换图像，进行局部三维重建，得到局部三维模型的步骤。

3.根据权利要求1至2中任一项所述的三维图像的生成方法，其特征在于，所述图像生成模型还包括特征提取子模型，所述特征提取子模型用于提取所述原始图像的特征，所述DCGAN子模型具体用于基于提取的所述原始图像的特征，生成预设角度的变换图像。

4.根据权利要求2所述的三维图像的生成方法，其特征在于，所述原始图像为视频帧的局部图像；

所述判断所述原始图像中的物体是否为预设物体，具体包括：

使用图像识别模型，对所述原始图像进行识别，判断所述物体是否为预设物体；

若确定不是，获取所述原始图像的语音特征信息，所述语音特征信息根据所述视频帧的语音识别结果确定；根据所述语音特征信息，判断所述物体是否为预设物体。

5.根据权利要求3所述的三维图像的生成方法，其特征在于，所述根据所述原始图像的三维模型和所述原始图像的视角信息，生成所述三维图像，具体包括：

获取所述原始图像对应的视频帧中的各物体的颜色信息；

根据所述各物体的颜色信息，对各物体的三维模型进行渲染；

根据各物体的视角信息，以及各物体的渲染后的三维模型，生成所述三维图像。

6.根据权利要求1所述的三维图像的生成方法，其特征在于，在所述根据所述N个变换图像，生成三维图像之后，所述三维图像的生成方法还包括：

确定所述三维图像中的感兴趣区域和非感兴趣区域；

对所述非感兴趣区域进行虚化处理。

7.根据权利要求3所述的三维图像的生成方法，其特征在于，在所述根据所述N个变换图像，生成三维图像之后，所述三维图像的生成方法还包括：

根据每个视频帧生成的三维图像，生成三维视频。

8.一种电子设备，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的三维图像的生成方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的三维图像的生成方法。