CN117115358A

CN117115358A - 数字人自动建模方法及装置

Info

Publication number: CN117115358A
Application number: CN202311316867.3A
Authority: CN
Inventors: 陈若含; 张旭
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2023-11-24

Abstract

本申请提供了一种数字人自动建模方法及装置，其中，该方法包括：获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和对用户选择的视频进行分割而得到的视频帧数据；对预处理后的所述图像数据进行目标检测，识别所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息；基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。本申请解决了现有技术中数字人建模效率较低的技术问题。

Description

数字人自动建模方法及装置

技术领域

本申请涉及三维建模技术领域，具体而言，涉及一种数字人自动建模方法及装置。

背景技术

在现有技术中，数字人建模通常是一项手动过程，需要专业的三维建模师来手工创建数字人物的三维模型。这个过程异常复杂且耗时，要求建模师具备高度的技术知识和创造力。为了解决上述问题，现有技术又提供了一些自动化数字人建模工具和软件，但它们的自动化程度受到一定限制，通常需要人工干预和调整，尤其是在需要高度逼真建模的情况下。因此，这些因素导致了数字人建模的效率相对较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数字人自动建模方法，以至少解决现有技术中数字人建模效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种数字人自动建模方法，包括：获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和对用户选择的视频进行分割而得到的视频帧数据；对预处理后的所述图像数据进行目标检测，识别所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息；基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。

根据本发明实施例的另一方面，还提供了一种数字人自动建模装置，包括：获取模块，被配置为获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和用户选择的视频；提取模块，被配置为对预处理后的所述图像数据进行目标检测，识别所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息；构建模块，被配置为基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。

在本发明实施例中，获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和对用户选择的视频进行分割而得到的视频帧数据；对预处理后的所述图像数据进行目标检测，识别所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息；基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。通过上述方案，解决了现有技术中数字人建模效率较低的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种数字人自动建模方法的流程图；

图2是根据本申请实施例的另一种数字人自动建模方法的流程图；

图3是根据本申请实施例的一种对获取的图像数据进行预处理的方法的流程图；

图4是根据本申请实施例的一种从图像数据中识别目标对象的方法的流程图；

图5是根据本申请实施例的一种构建与所述目标对象对应的数字人的三维模型的方法的流程图；

图6是根据本申请实施例的一种数字人自动建模装置的结构示意图；

图7示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种数字人自动建模方法，如图1所示，该方法包括以下步骤：

步骤S102，获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和对用户选择的视频进行分割而得到的视频帧数据。

首先，获取图像数据。图像数据可以是用户选择的照片，这些照片可以是来自不同时间和场合的，可以是用户自己的照片、亲友的照片或者其他来源的照片。这些照片可以捕捉到目标对象在不同情境下的外观和表情，从而丰富了数字人物的细节和特征。另外，用户扫描的图片也是一个重要的数据来源，这些图片可以是使用3D扫描仪或普通扫描仪扫描的，能够提供高分辨率和高精度的图像，有助于数字人建模的精确性和逼真度。而对用户选择的视频进行分割而得到的视频帧数据，则提供了时间序列的信息，能够捕捉到目标对象的运动和姿态变化，使得数字人物可以呈现出动态的特征。本实施例通过获取多种类型的图像数据，增加了建模的灵活性和适用性。这样，用户可以从多个来源获取图像数据，从而更容易地创建数字人物的三维模型。

接着，对图像数据进行预处理。例如，通过对拍摄所述图像数据的设备进行标定，来确定所述设备的内部参数，其中，所述内部参数包括焦距、主点坐标和镜头畸变参数；基于所述内部参数，通过使用非线性优化算法分析标定目标上的图像点和物理点之间的对应关系，来估计所述设备的畸变参数，其中，所述畸变参数包括径向畸变参数和切向畸变参数；使用所述径向畸变参数和所述切向畸变参数来校正所述图像数据。例如，使用所述径向畸变参数对所述图像数据中的像素进行坐标变换，以对所述图像数据中的桶形图像或枕形图像进行形状校正；使用所述切向畸变参数来对所述图像数据中的垂直方向和水平方向的直线进行倾斜校正。

本实施例通过设备的标定，能够确定设备的内部参数，如焦距、主点坐标和镜头畸变参数。这些参数的准确度对于数字人建模至关重要。焦距和主点坐标可以帮助理解图像的几何关系，而镜头畸变参数的估计允许纠正图像中的畸变，例如桶形图像或枕形图像，从而确保建模的准确性。这样数字人模型将更准确地反映现实世界中的对象。此外，通过非线性优化算法分析标定目标上的图像点和物理点之间的对应关系，能够估计出设备的畸变参数，包括径向畸变参数和切向畸变参数。这些参数的估算使能够更精确地理解图像中的畸变，这些畸变可能会影响数字人建模的准确性。径向畸变参数可用于纠正图像中的径向畸变，而切向畸变参数可用于修正图像中的水平和垂直方向的畸变。这样，可以更好地还原图像中的对象形状，使数字人物模型更加真实。综上，通过设备标定和畸变参数估计，预处理步骤不仅提高了数字人建模的准确性，还能够更好地纠正图像中的畸变，确保所生成的数字人物模型更加真实和准确。这些有益效果为后续的目标检测、关键点提取和纹理信息提取等步骤奠定了坚实的基础，提高了整个数字人自动建模方法的成功率和质量。

步骤S104，对预处理后的所述图像数据进行目标检测，识别所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息。

首先，识别目标对象。识别预处理后的所述图像数据中的多个候选边线，并识别所述图像数据中的包含所述目标对象的边界框；从所述多个候选边线中筛选出符合预设条件的目标边线，并基于所述目标边线来修正所述边界框，得到所述目标对象，其中，所述预设条件为能够连通形成多边形且所述多边形与所述边界框的相似度大于预设相似阈值。

通过上述步骤，能够精确地定位目标对象在图像中的位置，通过识别多个候选边线并生成目标边界框，系统可以确保后续处理仅针对目标对象所在的区域进行，从而减少了计算开销和潜在的错误。这有助于提高数字人建模的准确性，确保所选取的目标对象是正确的。此外，本实施例排除了不符合要求的区域，减少了错误的识别和选取。这样，最终生成的目标对象更有可能是准确的，从而提高了数字人建模的质量。

接着，从所述目标对象中提取关键点和纹理信息。使用关键点检测算法来定位所述目标对象上的关键点，计算所述关键点的坐标的移动平均值，并基于所述移动平均值来消除所述关键点中的瞬时噪声；使用卷积操作从所述目标对象的区域内提取所述纹理信息，其中，所述纹理信息包括颜色直方图、纹理特征和局部二值模式。

本实施例通过关键点检测算法的应用，能够准确地捕捉这些关键点的位置，从而确保了后续建模的准确性和真实性。此外，在图像处理中，噪声可能导致关键点位置的不稳定性，这会影响到建模的质量。通过计算移动平均值，系统可以平滑关键点的轨迹，使其更加稳定，减少了不必要的波动，从而提高了数字人建模的稳定性。最后，通过卷积操作从目标对象的区域提取纹理信息，包括颜色直方图、纹理特征和局部二值模式，系统能够捕捉目标对象的外观特征。这些纹理信息对于数字人建模的真实性和细节保留至关重要。它们使得生成的数字人在外观上更加逼真。

步骤S106，基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。

首先，构建三维模型。基于所述关键点的二维坐标，来估算所述关键点的三维坐标，并基于所述三维坐标来对所述数字人进行三维重建，得到所述数字人的三维模型。本实施例通过基于二维关键点的坐标来估算关键点的三维坐标，能够实现数字人的三维重建，这有助于捕捉目标对象的真实三维形状和姿势，从而确保了数字人模型的准确性和逼真性。

接着，将所述纹理信息映射到所述三维模型上，以生成所述数字人。例如，通过为所述三维模型的每个顶点创建纹理坐标映射，将所述每个顶点映射到与所述纹理信息对应的纹理图像上的相应位置；基于所述相应位置，获取所述每个顶点的颜色信息，并基于所述颜色信息，来渲染所述数字人。本实施例通过为每个三维模型顶点创建纹理坐标映射，可以将纹理图像上的颜色信息与模型的表面相匹配，从而赋予数字人以逼真的外观。这包括皮肤颜色、服装纹理等，使生成的数字人与原始图像更加相似。这一整合纹理信息和三维模型的过程不仅提高了数字人的外观真实感，还为数字人建模带来了高质量的结果。生成的数字人模型在虚拟环境中表现出色，具有吸引力和逼真性。最重要的是，本实施例根据提取的关键点和纹理信息能够自动生成数字人模型，从而提高了建模的效率和一致性。这对于快速生成大量数字人模型的场景尤为有益。

实施例2

本申请实施例提供了另一种数字人自动建模方法，如图2所示，该方法包括以下步骤：

步骤S202，获取图像数据。

用户可以从多个来源选择照片，这些来源包括他们自己的照片、亲友的照片或者其他公开来源的照片。这些照片可能包括肖像照、全身照、特定场景下的照片等，从而提供了多样性的数据以捕捉目标对象在不同情境下的外观和表情。用户选择的照片可以是平面的，也可以是立体的。

用户还可以使用各种扫描设备，包括3D扫描仪或普通扫描仪，来扫描物体或人物的图片。这些扫描设备能够提供高分辨率和高精度的图像数据，因此对于数字人建模的精确性和逼真度非常有帮助。通过扫描，可以获取到目标对象的详细形状和表面细节信息。

用户还可以选择视频，此时通过视频分割技术提取视频帧数据。这些视频帧捕捉了目标对象在不同时间点的状态，包括运动、姿势等。这种时间序列的信息对于捕捉目标对象的动态特征非常有用，因此数字人建模可以呈现出更加生动的特点。

步骤S204，对获取的图像数据进行预处理。

如图3所示，对获取的图像数据进行预处理的方法包括以下步骤：

步骤S2042，设备标定。

首先，需要对拍摄图像数据的设备进行标定，以确定设备的内部参数。这些内部参数包括焦距(focal length)、主点坐标(principal point coordinates)和镜头畸变参数(lens distortion parameters)。设备标定的过程通常包括使用已知几何形状的标定目标，如标定板(calibration grid)或标定控制点(calibration control points)。

步骤S2044，内部参数估计。

基于设备标定的结果，可以确定设备的内部参数。其中，焦距表示相机镜头的光学性质，主点坐标表示成像平面上的中心点，而镜头畸变参数用于描述镜头引起的畸变效应。

利用非线性优化算法，可以分析标定目标上的图像点与物理点之间的对应关系，从而估计畸变参数。例如，可以采用最小化重投影误差，即通过调整畸变参数来使估计的图像点与真实图像点之间的距离最小化。

畸变参数包括径向畸变参数(radial distortion parameters)和切向畸变参数(tangential distortion parameters)。径向畸变参数描述了图像中心周围的畸变效应，而切向畸变参数描述了图像中水平和垂直方向上的畸变效应。

步骤S2046，图像校正。

一旦内部参数和畸变参数估计出来，就可以使用它们来校正图像数据，以减少畸变效应，从而有助于提高数字人建模的准确性和稳定性。

对于桶形畸变或枕形畸变等形状畸变，可以使用径向畸变参数对图像中的像素进行坐标变换，以进行形状校正。这将图像中的弯曲线条变得更加直线。对于垂直方向和水平方向上的直线倾斜畸变，可以使用切向畸变参数来进行倾斜校正，使图像中的直线变得垂直或水平。

本实施例通过设备标定、内部参数估计和图像校正等步骤，可以对图像数据进行预处理，消除由于设备镜头引起的畸变效应，从而提高数字人建模的准确性和稳定性。这些预处理步骤确保了后续的目标检测、关键点提取和纹理信息提取等步骤在更准确的图像基础上进行，有助于生成更逼真和真实的数字人模型。

在其他的实施例中，还可以采用实施例4中的预处理方法，此处不再赘述。

步骤S206，对图像数据进行目标检测，识别所述图像数据中的目标对象。

如图4所示，从图像数据中识别目标对象的方法包括以下步骤：

步骤S2062，识别所述图像数据中的多个候选边线。

通常可以调用线段检测模型来提取图像数据的特征信息，并基于这些特征信息识别图像中的线段。这些特征信息可以包括图像数据中各个像素点的灰度值、位置信息、像素值等。线段检测方法可以采用不同的技术，其中包括基于霍夫变换的传统方法和基于神经网络的方法。

基于神经网络的线段检测模型的网络结构可以包括四个主要模块：主干模块、连接点预测模块、线段采样模块和线段校正模块。主干模块负责特征提取，它将输入的图像作为输入，并为后续的模块提供共享的卷积特征图。这些特征图包含了图像的高级表示，有助于后续模块更好地理解图像内容。连接点预测模块的任务是输出候选连接点，这些连接点是可以包含线段的图像位置。连接点预测模块使用主干模块提取的特征信息来预测连接点的位置。线段采样模块接收连接点预测模块输出的连接点信息，并从中预测出候选线段。线段采样模块的任务是将连接点组合成候选线段。线段校正模块负责对候选线段进行分类，以确定哪些候选线段实际上是图像中的直线线段。这个模块包括池化层，用于提取每个候选线段的线段特征。通过结合主干模块提取的卷积特征图，线段校正模块可以确定哪些候选线段是有效的，并输出直线线段的信息，例如端点坐标。本实施例通过神经网络的模块化结构，有效地识别图像中的线段，这有助于提高线段检测的准确性和效率。

步骤S2064，识别所述图像数据中的包含目标对象的边界框。

准备数据集，其中包括目标对象的图像以及每个图像中目标对象的准确边界框标注。这些标注通常以矩形框的形式提供，包括左上角和右下角的坐标信息。接下来，选择适合任务的目标检测模型。目标检测领域有许多模型可供选择，如YOLO、Faster R-CNN和SSD等。随后，进行模型训练。使用标注数据对选定的目标检测模型进行训练。在训练过程中，模型将学会如何从图像中定位目标对象并生成相应的边界框。一旦模型训练完成，就可以将其应用于图像数据。将图像数据输入模型，让模型执行推断操作。模型会分析图像，并输出检测到的目标对象的边界框，以及与每个边界框相关的其他信息，例如置信度分数。在一些情况下，对模型输出的边界框进行后处理可以提高准确性。后处理操作可能包括去除重叠的边界框，筛选置信度低的边界框，或者使用非极大值抑制(NMS)来合并相似的边界框。本实施例后中的处理操作提高了检测结果的准确性和可用性，确保只有最相关的边界框被保留。

步骤S2066，从所述多个候选边线中筛选出符合预设条件的目标边线，并基于所述目标边线来修正所述边界框，得到目标对象，其中，所述预设条件为能够连通形成多边形且所述多边形与所述边界框的相似度大于预设相似阈值。

首先，筛选出目标边线。具体地，检测所述多个候选边线之间的连通性，筛选出能够连通形成多边形的边线；计算所述多边形与所述边界框的相似度，在所述相似度大于所述预设相似阈值的情况下，将所述多边形的边线作为所述目标边线。这样，有助于减少误检并提高植入位置的准确性，特别是在复杂场景中。

在一些实施例中，可以采用以下方法计算相似度：基于所述多边形和所述边界框的轮廓函数，计算所述重叠面积；基于所述多边形和所述边界框的中心点之间的距离和所述重叠面积，计算所述叠加度；计算所述多边形和所述边界框之间的面积差，并对所述面积差进行归一化处理，得到所述相对尺寸值；基于所述多边形和所述边界框的深度值以及所述多边形和所述边界框的中心点之间的距离，计算所述空间关系值。在计算出所述多边形和所述边界框的重叠面积、叠加度、相对尺寸值和空间关系值后，基于所述重叠面积、叠加度、相对尺寸值和空间关系值，来计算所述多边形与所述边界框的相似度。

例如，可以采用下述公式计算相似度：相似度＝w1*IoU+w2*(1-相对尺寸值)+w3*空间关系值，其中，IoU表示叠加度(Intersection over Union)，它测量重叠面积与多边形和边界框轮廓函数并集的比例。相对尺寸值是多边形和边界框的面积差的归一化值，1减去相对尺寸值用于测量尺寸的相似性。空间关系值是多边形和边界框的深度值以及它们的中心点之间的距离等信息。其中，w1、w2、w3是预先设置的权重。

在一些实施例中，可以采用以下方法计算叠加度：通过计算多边形的边界点与边界框的边界点的相交，找到多边形内部的交点。将这些交点连接起来，形成一个新的多边形，这个新多边形代表了多边形与边界框的交集。接下来，通过采用多边形面积计算算法计算交集多边形的面积。然后，分别计算多边形和边界框的面积，最后计算并集面积，即多边形的面积加上边界框的面积减去交集多边形的面积。这样得到交集面积和并集面积，可以用来计算IoU，即交集面积除以并集面积。这种IoU计算方法更准确地考虑了多边形和边界框之间的复杂交互，特别适用于需要处理复杂形状匹配和重叠度量的场景。

在一些实施例中，相对尺寸值计算公式可以为：相对尺寸值＝(|多边形的面积-边界框的面积|/max(多边形的面积,边界框的面积))²。本实施例将相对尺寸值的计算结果平方，增加了相对尺寸值的权重，使其对相似度的贡献更显著。

在一些实施例中，空间关系值计算公式可以为：空间关系值＝(1-距离/最大距离)*(1-叠加度)*(1-深度值)，其中，距离表示多边形与边界框的中心点之间的距离，最大距离表示多边形和边界框之间的最远的空间分离。最大距离通常是多边形的某个点到边界框的最远距离，或者边界框的某个点到多边形的最远距离。本实施例引入了深度值，以更全面地考虑多边形和边界框之间的空间关系。这样，可以根据深度信息来度量多边形与边界框的相对位置，进一步提高了空间关系值的准确性。此外，本实施例更全面地考虑多边形与边界框之间的多个方面，包括距离、叠加度和深度，从而更准确地衡量它们之间的空间关系。

然后，基于所述目标边线来修正所述边界框。例如，识别所述目标边线的几何特征，所述几何特征包括所述目标边线的长度、角度和曲率；基于所述几何特征，分析所述目标边线与所述边界框之间的相对位置；基于所述相对位置，调整所述边界框的位置和形状，以修正所述边界框。本实施例通过识别目标边线的长度、角度和曲率等几何特征，系统能够更全面地了解目标的形状和位置信息。这有助于准确捕捉目标对象的外观特征，尤其在复杂场景或不规则形状的情况下表现出色。其次，基于这些几何特征的分析，能够深入研究目标边线与现有边界框之间的相对位置关系。最后，本实施例根据相对位置的分析结果，可以智能地调整边界框的位置和形状，从而更好地囊括目标对象，减少了边界框可能存在的偏差和误差。这一精细的边界框调整过程使得目标检测更加准确。

具体地，在所述相对位置指示所述目标边线与所述边界框相交的情况下，检测所述目标边线与所述边界框的相交角度，在所述相交角度大于预设角度阈值的情况下，缩小所述边界框，以避免所述目标边线与所述边界框相交。在所述相交角度小于预设角度阈值的情况下，通过计算边界框的中心点和目标边线的交点，重新设置边界框的位置。这种处理方式有助于减少边界框的冗余部分，确保它们更好地贴合目标对象的形状，从而提高了边界框的精确性。此外，在所述相对位置指示所述目标边线与所述边界框未相交的情况下，检测所述目标边线与所述边界框的间隙距离，在所述间隙距离小于预设间隙阈值的情况下，向所述目标边线的方向平移所述边界框的边线，使所述边界框更接近目标边线。在所述间隙距离大于预设间隙阈值的情况下，增大边界框的宽度和高度可以确保它更好地覆盖目标对象，同时减小了间隙距离。这样，有助于减小目标边线与边界框之间的空隙，确保边界框更好地包围目标对象，提高了边界框的适应性。

步骤S208，从所述目标对象中提取关键点。

使用计算机视觉算法，如SIFT(尺度不变特征变换)或ORB(Oriented FAST andRotated BRIEF，快速定向和旋转)等，来检测目标对象上的关键点。这些关键点通常是具有独特特征的点，例如角点、边缘、纹理交叉点等。检测算法可以根据特征点的局部亮度、梯度、纹理等属性来确定它们的位置。

为了增加关键点的稳定性，可以计算每个关键点的坐标的移动平均值。对于每个关键点，将其位置在多帧或多个时间点上进行平均，以消除由于摄像机或目标对象的微小运动而引起的瞬时噪声。移动平均值可以通过对多个坐标值取平均来计算。

通过计算移动平均值，可以减少关键点坐标的波动，这有助于消除瞬时噪声，使关键点的位置更加稳定。这样，关键点将更准确地表示目标对象的特征。

步骤S210，从所述目标对象中提取纹理信息。

使用卷积操作从目标对象的区域内提取纹理信息。在目标对象的图像区域上应用卷积核，以捕捉不同尺度和方向上的纹理特征。从目标对象的区域内提取颜色直方图。颜色直方图表示图像中各种颜色的分布情况，可以用于描述目标对象的颜色特征。通常，将图像划分为不同的颜色通道(如红、绿、蓝)，并计算每个通道的颜色直方图。通过卷积操作检测图像中的纹理特征，例如纹理方向、频率等。这些特征可以用于描述目标对象表面的纹理细节，如皮肤、服装纹理等。此外，本申请实施例采用局部二值模式(LBP)来捕捉图像中局部纹理的统计信息，用于描述目标对象表面的细节和纹理模式。

本实施例通过关键点检测算法和卷积操作，可以从目标对象中提取关键点和纹理信息。这些信息对于数字人建模的真实性和细节保留至关重要，能够帮助构建准确且逼真的数字人三维模型。

步骤S212，构建与所述目标对象对应的数字人的三维模型。

如图5所示，构建与所述目标对象对应的数字人的三维模型的方法包括以下步骤：

步骤S2122，构建三维模型。

1)关键点的三维坐标估算。

首先，将从图像中提取的关键点的二维坐标映射到三维空间中。利用相机标定参数和图像中的关键点二维坐标，将二维坐标转换为归一化设备坐标系(Normalized DeviceCoordinates，NDC)。将NDC坐标映射到相机坐标系(Camera Coordinates)，考虑相机的内部参数，如焦距和主点坐标。使用多个图像的相机坐标系下的关键点坐标以及已知的外部参数(相机之间的相对位置和方向)，利用三角测量法或捆绑式调整(Bundle Adjustment)等方法，估算关键点的三维坐标。

接着，进行三维重建。一旦获得了关键点的三维坐标，可以使用这些坐标来构建数字人的三维模型。使用关键点的三维坐标来创建人体的基本骨架结构，这些结构可以是骨骼、关节等。根据骨架结构，添加肌肉、皮肤和其他身体组织的几何形状，以重建数字人的整体外观。进一步细化模型，添加细节，如面部表情、头发等。

步骤S2124，纹理信息映射。

首先，为三维模型的每个顶点创建纹理坐标映射。这可以通过将每个顶点映射到与纹理图像上的相应位置来实现。这些纹理坐标通常使用UV坐标系统，其中U表示横向(水平)坐标，V表示纵向(垂直)坐标。

接着，获取每个顶点的颜色信息。根据纹理坐标，从纹理图像中获取每个顶点的颜色信息。这包括皮肤颜色、服装纹理等。颜色信息可以根据UV坐标在纹理图像上进行插值，以获取每个顶点的颜色值。

然后，渲染数字人。将获取的颜色信息应用于三维模型的表面，以渲染数字人。这可以使用图形渲染引擎或渲染软件来完成。在渲染过程中，考虑光照、阴影和纹理映射等因素，以增强数字人的逼真感。

最后，进行纹理细化和增强。对纹理进行细化和增强，例如添加细节纹理、皮肤贴图、法线贴图等，以提高数字人的外观真实感。

通过上述过程，可以将纹理信息映射到三维模型上，从而生成逼真的数字人。这个过程不仅提高了数字人的外观真实感，还确保了数字人模型的准确性和高质量的建模结果。此外，该方案允许根据提取的关键点和纹理信息自动生成数字人模型，提高了建模的效率和一致性。

实施例3

本申请实施例提供了一种数字人自动建模装置，如图6所示，包括：获取模块62、提取模块64和构建模块66。

获取模块62被配置为获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和用户选择的视频；提取模块64被配置为对预处理后的所述图像数据进行目标检测，识别所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息；构建模块66被配置为基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。

需要说明的是：上述实施例提供的数字人自动建模装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数字人自动建模装置与数字人自动建模方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例4

本申请实施例提供了一种图像预处理方法，该方法包括以下步骤：

1)通过特征检测算法来检测图像数据中的与目标对象对应的多个特征点，并计算每个特征点与水平方向的夹角，其中，所述水平方向为所述图像数据的横向方向。

首先，选择适合的特征检测算法。例如，尺度不变特征变换(SIFT)、速度稳健特征(SURF)、以及ORB等。接下来，进行图像数据的准备工作。这些数据通常是与目标对象相关的，可以是用户自行选择的照片、经过用户扫描的图像，或者是从用户选择的视频中提取的视频帧数据。

接下来，利用特征检测算法，自动检测并精确定位与目标对象相关的特征点。这些特征点可以包括图像中的角点、纹理关键点、边缘点等，它们都在图像中具有独特性和稳定性。通过特征检测，能够在图像中准确地标记出这些关键点。

最后，对于每个被检测到的特征点，获取它们在图像中的坐标信息。这些坐标以像素坐标系的形式表示，反映了每个特征点在图像中的具体位置。利用这些坐标信息可以在后续的步骤中用于计算特征点与水平方向的夹角，从而为图像校正提供关键数据。

本实施例通过特征检测算法，能够高度准确地定位与目标对象相关的特征点。这些特征点通常是图像中最显著和信息量丰富的点，如角点、纹理关键点等。准确的定位使得后续的校正和分析更加可靠，确保处理的是关键数据，从而提高了图像处理的质量。另外，通过获取每个特征点在像素坐标系中的位置信息，为后续的图像校正提供了关键数据。这些坐标信息允许计算特征点与水平方向的夹角，为图像校正提供了基础，确保能够在水平方向上对图像进行准确的调整和校正。

2)计算所有夹角的标准差，并基于所述标准差确定所述图像数据是否处于场景水平状态。

首先，通过特征检测算法获得图像中与目标对象相关的多个特征点，并计算这些特征点与水平方向的夹角，其中水平方向是图像数据的横向方向。这些夹角值反映了特征点相对于图像的水平位置。

接下来，将所有特征点的夹角值组成一个数据集，并使用标准差来度量这个数据集的分散程度。标准差的计算涉及了每个夹角值与平均夹角值之间的差的平方，并将这些平方差的平均值开方得到标准差值。标准差用于衡量数据的离散度。在这个情况下，它衡量了特征点夹角的分布是否集中在水平方向附近。

随后，将计算得到的标准差与预设的阈值进行比较。这个阈值反映了允许的水平偏差程度。如果计算得到的标准差小于预设阈值，那么可以确定图像数据处于场景水平状态。同时，在标准差小于阈值的情况下，还可以根据特征点夹角判断目标对象的状态，例如是否处于垂直状态。

最终，根据标准差的比较结果和可能的目标对象状态判断，确定了图像数据是否满足场景水平状态的要求。这一结果对于后续的图像校正和处理步骤非常重要，以确保图像达到所期望的效果和质量水平。

本实施例通过标准差的计算提供了关于图像特征点分布的量化信息。当标准差小于预设阈值时，可以确定图像处于水平状态，表示图像中的目标对象通常处于期望的位置和角度。此外，通过对目标对象状态的判断，可以进一步了解图像中的内容是否满足要求。例如，如果目标对象被判断为垂直状态，需要采取额外的校正步骤，以确保图像中的对象垂直排列，符合构图规则。本实施例通过确保图像处于水平状态，可以更有效地进行旋转校正、裁剪校正等操作，以达到所期望的效果。

3)在所述图像数据未处于所述场景水平状态的情况下，基于所述标准差确定所述图像数据的调整角度，并基于所述调整角度来调整所述图像数据的倾斜角度，以对所述图像数据进行旋转校正。

在对所述图像数据进行旋转校正之后，所述方法还可以包括：对所述图像数据进行目标检测，确定所述图像数据上各个目标的位置信息；基于所述各个目标的位置信息和预设的构图规则，确定所述图像数据需要裁剪的裁剪区域；基于所确定的裁剪区域对所述图像数据进行裁剪操作，得到裁剪后的所述图像数据。

本实施例通过目标检测和位置信息确定了图像中各个目标的具体位置，这样，有助于进一步的分析和理解图像内容。其次，基于预设的构图规则，确定了需要进行裁剪的裁剪区域，使得图像能够更好地符合审美和构图的要求。最后，通过裁剪操作，得到了经过精细调整的裁剪后图像数据，使其更适合用于各种应用领域。这一系列步骤提高了图像的整体效果和质量，确保了图像内容的准确呈现和更好的视觉吸引力。

在基于所确定的裁剪区域对所述图像数据进行裁剪操作之后，所述方法还包括：通过对拍摄所述图像数据的设备进行标定，来确定所述设备的内部参数，其中，所述内部参数包括焦距、主点坐标和镜头畸变参数；基于所述内部参数，通过使用非线性优化算法分析标定目标上的图像点和物理点之间的对应关系，来估计所述设备的畸变参数，其中，所述畸变参数包括径向畸变参数和切向畸变参数；使用所述径向畸变参数和所述切向畸变参数来校正所述图像数据。例如，使用所述径向畸变参数对所述图像数据中的像素进行坐标变换，以对所述图像数据中的桶形图像或枕形图像进行形状校正；使用所述切向畸变参数来对所述图像数据中的垂直方向和水平方向的直线进行倾斜校正。

实施例5

图7示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图7示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数字人自动建模方法，其特征在于，包括：

获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和对用户选择的视频进行分割而得到的视频帧数据；

对预处理后的所述图像数据进行目标检测，识别预处理后的所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息；

基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。

2.根据权利要求1所述的方法，其特征在于，对所述图像数据进行预处理，包括：

通过对拍摄所述图像数据的设备进行标定，来确定所述设备的内部参数，其中，所述内部参数包括焦距、主点坐标和镜头畸变参数；

基于所述内部参数，通过使用非线性优化算法分析标定目标上的图像点和物理点之间的对应关系，来估计所述设备的畸变参数，其中，所述畸变参数包括径向畸变参数和切向畸变参数；

使用所述径向畸变参数和所述切向畸变参数来校正所述图像数据。

3.根据权利要求2所述的方法，其特征在于，使用所述径向畸变参数和所述切向畸变参数来校正所述图像数据，包括：

使用所述径向畸变参数对所述图像数据中的像素进行坐标变换，以对所述图像数据中的桶形图像或枕形图像进行形状校正；

使用所述切向畸变参数对所述图像数据中的垂直方向和水平方向的直线进行倾斜校正。

4.根据权利要求1所述的方法，其特征在于，对预处理后的所述图像数据进行目标检测，识别预处理后的所述图像数据中的目标对象，包括：

识别预处理后的所述图像数据中的多个候选边线，并识别预处理后的所述图像数据中的包含所述目标对象的边界框；

从所述多个候选边线中筛选出符合预设条件的目标边线，并基于所述目标边线来修正所述边界框，得到所述目标对象，其中，所述预设条件为能够连通形成多边形且所述多边形与所述边界框的相似度大于预设相似阈值。

5.根据权利要求1所述的方法，其特征在于，从所述目标对象中提取关键点和纹理信息，包括：

使用关键点检测算法来定位所述目标对象上的关键点，计算所述关键点的坐标的移动平均值，并基于所述移动平均值来消除所述关键点中的瞬时噪声；

使用卷积操作从所述目标对象的区域内提取所述纹理信息，其中，所述纹理信息包括颜色直方图、纹理特征和局部二值模式。

6.根据权利要求5所述的方法，其特征在于，基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型，包括：

基于所述关键点的二维坐标，来估算所述关键点的三维坐标，并基于所述三维坐标来对所述数字人进行三维重建，得到所述数字人的三维模型；

将所述纹理信息映射到所述三维模型上，以生成所述数字人。

7.根据权利要求6所述的方法，其特征在于，将所述纹理信息映射到所述三维模型上，以生成所述数字人，包括：

通过为所述三维模型的每个顶点创建纹理坐标映射，将所述每个顶点映射到与所述纹理信息对应的纹理图像上的相应位置；

基于所述相应位置，获取所述每个顶点的颜色信息，并基于所述颜色信息，来渲染所述数字人。

8.一种数字人自动建模装置，其特征在于，包括：

获取模块，被配置为获取图像数据，并对所述图像数据进行预处理，其中，所述图像数据包括用户选择的照片、用户扫描的图片、和用户选择的视频；

提取模块，被配置为对预处理后的所述图像数据进行目标检测，识别所述图像数据中的目标对象，并从所述目标对象中提取关键点和纹理信息；

构建模块，被配置为基于所述关键点和所述纹理信息，来构建与所述目标对象对应的数字人的三维模型。

9.一种电子设备，其特征在于，包括：

存储器，被配置为存储计算机程序；

处理器，被配置为在所述程序运行时，使得计算机执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至7中任一项所述的方法。