CN113434918B

CN113434918B - 一种基于文本的三维体素模型生成方法

Info

Publication number: CN113434918B
Application number: CN202110717686.6A
Authority: CN
Inventors: 余月; 杨越; 李博闻
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2022-12-02
Anticipated expiration: 2041-06-28
Also published as: CN113434918A

Abstract

本发明公开的一种基于文本的三维体素模型生成方法，属于从文本到三维体素模型的跨模态生成领域。本发明通过文本编码器将自然语言处理为计算机能够理解的文本向量；通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力；通过重建模型标签的判别器，指导生成器训练生成更为精致的模型；通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将三维体素模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成模型更精致；通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力，提升三维体素模型生成结果的精致度和分辨率。本发明具有适用性广、生成效果好的优点。

Description

一种基于文本的三维体素模型生成方法

技术领域

本发明涉及一种基于文本生成彩色三维体素模型的方法，属于从文本到三维体素模型的跨模态生成领域。

背景技术

近年来，随着计算机技术的高速发展，计算机图形学及虚拟现实等技术在生产生活中越发普及，三维模型的应用场景大幅增加，人们对于彩色三维模型的制作需求也随之大幅提升，其在生产生活中具有十分大量的应用场景，如3D游戏，家具设计，设计型教育资源可视化等。然而现阶段的三维模型制作工作高度依赖于CAD等模型构建工具及制造者的建模能力，这种能力在社会中并不普及，人们也没有能力对其进行批量生产，这导致了生产三维模型这一工作十分低效。如何利用现有的三维模型数据集，训练出可以自动化建模的三维模型构建工具已经成为了一个重要的研究方向。

目前的基于文本的三维模型获取方法通常为关键词检索法，但这种检索的方式的缺点也十分明显。其准确度过分的依赖于标签的准确度以及标注方法的准确度上，且数据标注过程中产生的错误会在后续的数据标注中被放大。其次，此方法需要大量的模型数据来支持，并且无法自由的根据需求操作模型且生成结果只能是已存在的模型，在需要有创造性的工作中此方法将表现极差。

《Text2Shape》是第一篇提出基于文本的三维模型生成解决方案的论文。该文首次在基于文本的三位彩色体素模型生成任务上提出了一种解决方案。此论文首先以联合嵌入的方法对文本描述和彩色三维模型进行训练来获得一种文本编码方案。其作者将此Wasserstein-GAN相结合，实现了从文本中生成彩色的三维模型的目的。此论文是第一个给出将自然语言文本与在颜色、纹理和形状细节上表现出丰富变化的真实三维对象相连接的方法的研究。

然而此研究目前还处于起步阶段，有着大量的问题需要被解决，其中有两个比较明显。所述两个问题分别为如何生成更加优质的模型以及如何保证模型优质的同时生成更高分辨率下的模型。

发明内容

针对生成的三维体素模型生成不够精致且分辨率较低的问题，本发明公开的一种基于文本的三维体素模型生成方法要解决的技术问题是：通过文本编码器将自然语言处理为计算机能够理解的文本向量；通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力；通过重建模型标签的判别器，指导生成器训练生成更为精致的模型；通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将所述三维体素模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成模型更精致；通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力，提升三维体素模型生成结果的精致度和分辨率。本发明具有适用性广、生成效果好的优点。本发明将从文本生成的三维体素模型用于跨模态生成领域中，解决相关工程技术问题。

所述相关工程技术问题包括多媒体教育资源构建、三维体素模型编辑和计算机教学辅助。

本发明的目的是通过下述技术方案实现的。

本发明公开的一种基于文本的三维体素模型生成方法，通过文本编码器将自然语言处理为计算机能够理解的文本向量；通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力；通过重建模型标签的判别器，指导生成器训练生成更为精致的三维体素模型；通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将所述三维体素模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成模型更精致；通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力，提升三维体素模型生成结果的精致度和分辨率。本发明具有适用性广、生成效果好的优点。本发明将从文本生成的三维体素模型用于跨模态生成领域中，解决相关工程技术问题。

本发明公开的一种基于文本的三维体素模型生成方法，包括如下步骤：

步骤一：将文本描述输入到语义编码器中得到文本和三维体素模型的联合语义特征，语义编码器由语义编码器架构中预训练得到的文本编码器实现。

通过引入三元组损失拉近相似文本的特征向量之间的距离，加大不相似文本的特征向量之间的距离，实现从文本中提取文本三维体素模型联合语义特征的训练。评价相似的准则是是否描述同一张三维体素模型，三元组损失的引入迫使文本编码器忽略文本表达形式的差异，从文本中提取出理想的文本三维体素模型联合特征。此编码器架构主要包含三个相同的文本编码器和一个三维体素模型编码器。通过使用{t1,t2,t3}作为文本编码器的输入，其中{t1,t2}是相同三维体素模型对应的不同文本，{t2,t3}是描述不同三维体素模型的两个文本。损失函数被定义为：

J＝d(e1,e2)+max(α-d(e2，e3),0)

其中d(.)是通过计算两个特征的L2距离得到的，ei是文本ti的特征向量，超参数α被用来限制不相似文本向量之间的最小距离。通过最小化该损失函数，优化整个文本编码器架构。

当存在此三元组损失并不能充分利用一个批次中的其他数据的问题，在训练过程中，通过引入另一个三元组损失解决此问题。通过将模型调整为两个相同的文本编码器和一个三维体素模型编码器。给定一个真实三维体素模型集S和相对应的文本对集合T，其中

包含两个描述相同三维体素模型的不同文本。文本编码器采用T＝{T1,T2,...,TM}作为输入，每一个文本都有一个正样本对Tk。对于每个正样本对

来说,训练批次中其余文本对

中的任意文本与正样本对中的任意文本都互成负样本对。批次中每个文本都有一个正样本，有多个负样本。因此，为每个正样本对计算损失时，不仅需要拉近两个正样本之间的距离，同时需要考虑正样本对中的每一个样本产生的负样本对，通过最小距离阈值α将所述负样本对之间的距离推远。为每个正样本对(t_i,t_j)定义如下损失函数：

J_i,j＝log(∑(i,m)∈N exp(α-d_i,m)+∑(j,n)∈N exp(α-d_j,n))+max(δ,d_i,j)

其中N代表批次中的除该文本对以外的其余文本集合,超参数α代表不相似文本向量之间距离的最小阈值，d_i,j＝||si–sj||2与d(.)含义相同。

在训练过程中，三维体素模型编码器会提取公共但无意义的三维体素模型特征，导致所有文本特征都映射到同一三维体素模型特征上。虽然所述满足配对的文本特征和三维体素模型特征相似的条件，但并不能证明文本编码器已得到一个理想的联合嵌入。通过引入一个环状损失函数，通过在当前得到的文本特征映射到配对的三维体素模型特征时，确保三维体素模型特征能够映射回文本特征。通过计算实际环形分布和理想分布之间的交叉熵来实现环形损失，实际环形分布被定义如下：

其中φ(.)表示文本编码器，ω(.)表示三维体素模型编码器，文本特征和三维体素模型特征有相同的维度。⊙代表向量之间的点击操作,Sts表示文本特征和三维体素模型特征之间的相似度,Sts转置得到Sst。环状损失函数被定义为：

Lc＝H(S^tst,T)

其中H(.)表示两个分布之间的交叉熵函数。此文本编码器的目的是保证提取出文本三维体素模型共享的语义特征，因此描述相同三维体素模型的两个文本对应的特征是相似的。理想情况下，从一个文本特征出发，映射到匹配的三维体素模型特征，再映射回文本特征，映射回相同类的文本特征的概率是相同的。

通过同时构建文本编码器和三维体素模型编码器，通过约束同一三维体素模型的不同描述经文本编码器后相似，以及文本编码结果向模型编码结果映射后再反向映射回来与原编码相似的方法，对文本编码器进行约束，获得能够建立文本与三维体素模型关系映射的文本编码器。

步骤二：通过条件生成对抗网络框架使生成器获得生成匹配文本描述三维体素模型的能力。

通过使用条件生成对抗网络，实现生成结果与文本匹配的目的。在生成器上，通过将输入的文本向量与噪声向量相结合，将结合后的向量作为生成器的输入，达到为生成对抗网络的生成器添加约束的目的。在判别器上，通过将三维体素模型与条件向量作为双输入传递给判别器的方法，使判别器能够为生成结果与模型的匹配程度做出评估。

在训练过程中，判别器需要处理两类错误，分别为生成的三维体素模型不够精致和生成的三维体素模型与文本向量不匹配。在训练过程中，通过将数据分为三组，协调训练的方式，达到分离上文所述两种错误源的目的，进而显著提升训练速度与训练效果。所述三组数据分别为生成数据组、匹配的真实数据组和不匹配的真实数据组。生成数据组包含由生成器生成的三维体素模型与输入的文本，此组数据使用下标fake表示；匹配的真实数据组包含数据集中的三维体素模型数据及与此数据相匹配的文本，此组数据使用下标match表示；不匹配的真实数据组包含数据集中的三维体素模型数据及与此数据不相匹配的文本此组数据使用下标mismatch表示。网络使用如下公式作为训练的损失函数。

在此公式中f()为判别器网络，S为输入的三维体素模型，T为输入的文本，其中最后一项为偏置，

为随机混合的真假数据，此部分用于保证生成对抗网络的Lipschiz连续的条件。在训练中生成器尽可能的使此公式结果变小，判别器尽可能的使此公式的结果变大，通过达成对抗提升生成器的生成效果，使生成器获得生成匹配文本描述三维体素模型的能力。

步骤三：通过重建模型标签的判别器，指导生成器训练生成更为精致的三维体素模型。

类别标签带有三维体素模型的大量信息，使用类别标签训练可以帮助网络理解文本信息，并且通过重建分类标签能够监督网络提升三维体素模型的生成效果。

通过为判别器增加辅助分类器，达到为判别器增加标签重建功能的目的。改进后的判别器网络以三维体素模型和文本向量为输入，此判别器实现两个功能，包括对模型真伪的判别及对模型类别标签的重建，此模型以判别结果与重建的类别标签为输出。此判别器首先通过一段卷积神经网络提取特征，在此之后分别将此段特征传递给类标签重建网络和模型真伪判别网络中去。类标签重建网络以模型特征为输入生成模型类别标签，模型真伪判别网络以模型特征及文本向量为输入生成对模型真伪及模型与文本匹配程度的判别结果。

在生成对抗网络的训练过程中，同时进行对分类器的训练。通过同时将生成器的生城结果与数据集中的数据作为输入来训练分类器，能够使分类器的训练速度与生成对抗网络同步，达到更好的引导的效果。将分类器对生成的三维体素模型的分类结果与真实标签进行匹配计算梯度传递给生成器可辅助生成器的训练。所述过程的损失函数如下式所示。

Lc＝E[logP(C＝c|X_real)]+E[logP(C＝c|X_fake)]

公式中C代表生成的标签即为重建的标签，X代表真实的标签，生成器和判别器共同努力达到使此公式值更小的目的。

通过计算生成的标签C与真实的标签X的差异引导生成器训练，即通过判别器重建标签引导生成器训练，达到生成更为精致的三维体素模型的目的。

步骤四：通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将所述三维模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致。

在生成高分辨率三维体素模型的任务中，数据量随模型分辨率提高而提高，拟合难度也随之提升。通过构建级联的生成对抗网络，同时生成多个不同分辨率下的结果，再使用多个不同分辨率下的判别器结合真实数据对生成结果进行评判，通过将所述评估结果进行综合并作为损失函数计算梯度，实现在生成器网络的不同部分对其添加约束的功能，实现同时对生成器的中间及结尾添加约束的目的。其过程表示为如下公式。

此公式中f_i表示第i个判别器，此公式综合所有分辨率下判别器对其对应的三维体素模型生成结果的评估，使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致。

步骤五：通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力，提升三维体素模型生成结果的精致度和分辨率。

在高分辨率模型的判别器中，分辨率提高的同时三维体素模型的纹理细节增多，采用原判别器会导致部分局部细节被忽略，网络无法达到最好的效果，原有的方法只能对整体进行评估。通过引入拒不判别器的方案，在原判别器网络的基础上添设新的局部判别器，该判别器只针对于判断模型的局部细节并将其反馈给生成器用于其对生成模型细节任务的训练。由于同时只处理模型的一小部分，此网络在能够应对高分辨率模型带来的高数据量问题与高分辨率模型被高度压缩所导致的模型特征不能充分的描述模型的问题。其过程表示为如下公式。

此公式中，

代表模型的局部，此处通过将模型各个部分判别结果的平均值作为损失训练，此系统获得了处理局部细节特征的能力。在实际训练中，判别器尽可能使此公式值更大而生成器尽可能使此公式值缩小。

改进后的高分辨率判别器神经网络以三维体素模型和文本向量为输入，此判别器实现三个功能，包括对模型整体真伪的判别，对模型局部真伪的判别及对模型类别标签的重建，此模型以对模型整体及局部的判别结果与重建的类别标签为输出。此判别器首先通过一段卷积神经网络提取特征，在此之后分别将此段特征传递给类标签重建网络和模型真伪判别网络中去。类标签重建网络以模型特征为输入生城模型类别标签，模型真伪判别网络以模型特征及文本向量为输入生成对三维体素模型真伪及三维体素模型与文本匹配程度的判别结果。通过在高分辨率模型判别器中加入局部判别器使得生成对抗网络具备处理三维体素模型细节的能力，使生成的高分辨率三维体素模型在局部细节上更逼真，提升三维体素模型生成结果的精致度和分辨率。

还包括步骤六：将从文本生成的三维体素模型用于跨模态生成领域中，解决相关工程技术问题。

有益效果：

1、本发明公开的一种基于文本的三维体素模型生成方法，通过文本编码器将自然语言处理为计算机能够理解的文本向量，通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力。

2、本发明公开的一种基于文本的三维体素模型生成方法，通过在判别器中加设分类器，给予判别器重建模型标签的能力，通过将重建后的标签与真实标签进行比对的方法，提出一种新的损失函数，通过在生成器和判别器中分别加此损失，实现使生成更加优质更符合模型在自然界中的真实样貌的三维体素模型的能力。

3、本发明公开的一种基于文本的三维体素模型生成方法，通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将所述三维模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致。

4、本发明公开的一种基于文本的三维体素模型生成方法，通过在高分辨率判别器中加设分支实现局部判别，进而实现使生成的三维体素模型更精细且能生成高分辨率三维体素模型的能力。

附图说明

图1本发明的一种基于文本的三维体素模型生成方法步骤一到步骤二流程示意图；

图2本发明的一种基于文本的三维体素模型生成方法到步骤二成果展示图；

图3本发明的一种基于文本的三维体素模型生成方法步骤一到步骤三流程示意图

图4本发明的一种基于文本的三维体素模型生成方法到步骤三成果展示图；

图5本发明的一种基于文本的三维体素模型生成方法的流程示意图

图6本发明的一种基于文本的三维体素模型生成方法的成果展示图；

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实例对发明内容做进一步说明。

如图5所示，本实施例公开的一种基于文本的三维体素模型生成方法，具体实现步骤如下：

为构建文本编码器，本发明同时构建文本编码器和三维体素模型编码器，通过约束同一三维体素模型的不同描述经文本编码器后相似，以及文本编码结果向模型编码结果映射后再反向映射回来与原编码相似的方法，对文本编码器进行约束，获得一个能够建立文本与三维体素模型关系映射的文本编码器。

J＝d(e1,e2)+max(α-d(e2，e3),0)

来说,训练批次中其余文本对

中的任意文本与正样本对中的任意文本都互成负样本对。批次中每个文本都有一个正样本，有多个负样本。因此，为每个正样本对计算损失时，不仅需要拉近两个正样本之间的距离，同时需要考虑正样本对中的每一个样本产生的负样本对，通过最小距离阈值α将这些负样本对之间的距离推远。为每个正样本对(t_i,t_j)定义如下损失函数：

J_i,j＝log(∑(i,m)∈N exp(α-d_i,m)+∑(j,n)∈N exp(α-d_j,n))+max(δ，d_i,j)

Lc＝H(S^tst,T)

通过同时构建文本编码器和三维体素模型编码器，通过约束同一三维体素模型的不同描述经文本编码器后相似，以及文本编码结果向模型编码结果映射后再反向映射回来与原编码相似的方法，对文本编码器进行约束，获得一个可以建立文本与三维体素模型关系映射的文本编码器。

如图1所示，步骤二：通过条件生成对抗网络框架使生成器获得生成匹配文本描述三维体素模型的能力。

图2为到步骤二生成效果图。

如图3所示，步骤三：通过重建模型标签的判别器，指导生成器训练生成更为精致的三维体素模型。

Lc＝E[logP(C＝c|X_real)]+E[logP(C＝c|X_fake)]

图4为到此步骤时的效果图。

此公式中，

改进后的高分辨率判别器神经网络以三维体素模型和文本向量为输入，此判别器实现三个功能，包括对模型整体真伪的判别，对模型局部真伪的判别及对模型类别标签的重建，此模型以对模型整体及局部的判别结果与重建的类别标签为输出。此判别器首先通过一段卷积神经网络提取特征，在此之后分别将此段特征传递给类标签重建网络和模型真伪判别网络中去。类标签重建网络以模型特征为输入生城模型类别标签，模型真伪判别网络以模型特征及文本向量为输入生成对三维体素模型真伪及三维体素模型与文本匹配程度的判别结果。通过在高分辨率模型判别器中加入局部判别器使得生成对抗网络具备处理三维体素模型细节的能力，使生成的高分辨率三维体素模型在局部细节上更逼真，提升三维体素模型生成结果的精致度和分辨率，生成效果图如图6所示。

步骤六：将从文本生成的三维体素模型用于跨模态生成领域中，解决相关工程技术问题。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本的三维体素模型生成方法，其特征在于：包括如下步骤，

步骤一：将文本描述输入到语义编码器中得到文本和三维体素模型的联合语义特征，语义编码器由语义编码器架构中预训练得到的文本编码器实现；

步骤二：通过条件生成对抗网络框架使生成器获得生成匹配文本来描述三维体素模型的能力；

步骤三：通过重建模型标签的判别器，指导生成器训练生成更为精致的三维体素模型；

步骤四：通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将所述三维体素模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致；

步骤四实现方法为，

在生成高分辨率三维体素模型的任务中，数据量随模型分辨率提高而提高，拟合难度也随之提升；通过构建级联的生成对抗网络，同时生成多个不同分辨率下的结果，再使用多个不同分辨率下的判别器结合真实数据对生成结果进行评判，通过将所述评判结果进行综合并作为损失函数计算梯度，实现在生成器网络的不同部分对其添加约束的功能，实现同时对生成器的中间及结尾添加约束的目的；其过程表示为如下公式；

此公式中f_i表示第i个判别器，此公式综合所有分辨率下判别器对其对应的三维体素模型生成结果的评估，使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致；

步骤五：通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力，提升三维体素模型生成结果的精致度和分辨率；

步骤五实现方法为，

在高分辨率模型的判别器中，分辨率提高的同时三维体素模型的纹理细节增多，采用原判别器会导致部分局部细节被忽略，网络无法达到最好的效果，原有的方法只能对整体进行评估；通过引入局部判别器的方案，在原判别器网络的基础上添设新的局部判别器，该判别器只针对于判断模型的局部细节并将其反馈给生成器用于其对生成模型细节任务的训练；由于同时只处理模型的一小部分，此网络在能够应对高分辨率模型带来的高数据量问题与高分辨率模型被高度压缩所导致的模型特征不能充分地描述模型的问题；其过程表示为如下公式；

此公式中，

代表模型的局部，此处通过将模型各个部分判别结果的平均值作为损失训练，此系统获得处理局部细节特征的能力；在实际训练中，判别器尽可能使此公式值更大而生成器尽可能使此公式值缩小；

改进后的高分辨率判别器神经网络以三维体素模型和文本向量为输入，此判别器实现三个功能，包括对模型整体真伪的判别，对模型局部真伪的判别及对模型类别标签的重建，以对模型整体及局部的判别结果与重建的类别标签为输出；此判别器首先通过一段卷积神经网络提取特征，在此之后分别将提取的特征传递给类标签重建网络和模型真伪判别网络中去；类标签重建网络以模型特征为输入生成模型类别标签，模型真伪判别网络以模型特征及文本向量为输入生成对三维体素模型真伪及三维体素模型与文本匹配程度的判别结果；通过在高分辨率模型判别器中加入局部判别器使得生成对抗网络具备处理三维体素模型细节的能力，使生成的高分辨率三维体素模型在局部细节上更逼真，提升三维体素模型生成结果的精致度和分辨率。

2.如权利要求1所述的一种基于文本的三维体素模型生成方法，其特征在于：还包括步骤六，将从文本生成的三维体素模型用于跨模态生成领域中，解决相关工程技术问题；

3.如权利要求1或2所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤一实现方法为，

通过引入三元组损失拉近相似文本的特征向量之间的距离，加大不相似文本的特征向量之间的距离，实现从文本中提取文本三维体素模型联合语义特征的训练；评价相似的准则是是否描述同一张三维体素模型，三元组损失的引入迫使文本编码器忽略文本表达形式的差异，从文本中提取出理想的文本三维体素模型联合特征；此编码器架构主要包含三个相同的文本编码器和一个三维体素模型编码器；通过使用{t1,t2,t3}作为文本编码器的输入，其中{t1,t2}是相同三维体素模型对应的不同文本，{t2,t3}是描述不同三维体素模型的两个文本；损失函数被定义为：

J＝d(e1，e2)+max(α-d(e2，e3)，0)

其中d(.)是通过计算两个特征的L2距离得到的，ei是文本ti的特征向量，超参数α被用来限制不相似文本向量之间的最小距离；通过最小化该损失函数，优化整个文本编码器架构；

当存在此三元组损失并不能充分利用一个批次中的其他数据的问题，在训练过程中，通过引入另一个三元组损失解决此问题；通过将模型调整为两个相同的文本编码器和一个三维体素模型编码器；给定一个真实三维体素模型集S和相对应的文本对集合T，其中

包含两个描述相同三维体素模型的不同文本；文本编码器采用T＝{T1,T2,...,TM}作为输入，每一个文本都有一个正样本对Tk；对于每个正样本对

来说,训练批次中其余文本对

中的任意文本与正样本对中的任意文本都互成负样本对；批次中每个文本都有一个正样本，有多个负样本；因此，为每个正样本对计算损失时，不仅需要拉近两个正样本之间的距离，同时需要考虑正样本对中的每一个样本产生的负样本对，通过最小距离阈值α将所述负样本对之间的距离推远；为每个正样本对(t_i,t_j)定义如下损失函数：

J_i，j＝log(∑(i，m)∈N exp(α-d_i，m)+∑(j，n)∈N exp(α-d_j，n))+max(δ，d_i，j)

其中N代表批次中的除该文本对以外的其余文本集合,超参数α代表不相似文本向量之间距离的最小阈值，d_i，j＝||si-sj||2与d(.)含义相同；

在训练过程中，三维体素模型编码器会提取公共但无意义的三维体素模型特征，导致所有文本特征都映射到同一三维体素模型特征上；虽然满足配对的文本特征和三维体素模型特征相似的条件，但并不能证明文本编码器已得到一个理想的联合嵌入；通过引入一个环状损失函数，通过在当前得到的文本特征映射到配对的三维体素模型特征时，确保三维体素模型特征能够映射回文本特征；通过计算实际环形分布和理想分布之间的交叉熵来实现环形损失，实际环形分布被定义如下：

其中φ(.)表示文本编码器，ω(.)表示三维体素模型编码器，文本特征和三维体素模型特征有相同的维度；⊙代表向量之间的点积操作,Sts表示文本特征和三维体素模型特征之间的相似度,Sts转置得到Sst；环状损失函数被定义为：

Lc＝H(S^tst，T)

其中H(.)表示两个分布之间的交叉熵函数；此文本编码器的目的是保证提取出文本三维体素模型共享的语义特征，因此描述相同三维体素模型的两个文本对应的特征是相似的；理想情况下，从一个文本特征出发，映射到匹配的三维体素模型特征，再映射回文本特征，映射回相同类的文本特征的概率是相同的；

4.如权利要求3所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤二实现方法为，

通过使用条件生成对抗网络，实现生成结果与文本匹配的目的；在生成器上，通过将输入的文本向量与噪声向量相结合，将结合后的向量作为生成器的输入，达到为生成对抗网络的生成器添加约束的目的；在判别器上，通过将三维体素模型与条件向量作为双输入传递给判别器的方法，使判别器能够为生成结果与模型的匹配程度做出评估；

在训练过程中，判别器需要处理两类错误，分别为生成的三维体素模型不够精致和生成的三维体素模型与文本向量不匹配；在训练过程中，通过将数据分为三组，协调训练的方式，达到分离上文所述两类错误的目的，进而显著提升训练速度与训练效果；所述三组数据分别为生成数据组、匹配的真实数据组和不匹配的真实数据组；生成数据组包含由生成器生成的三维体素模型与输入的文本，此组数据使用下标fake表示；匹配的真实数据组包含数据集中的三维体素模型数据及与此数据相匹配的文本，此组数据使用下标match表示；不匹配的真实数据组包含数据集中的三维体素模型数据及与此数据不相匹配的文本，此组数据使用下标mismatch表示；网络使用如下公式作为训练的损失函数；

为随机混合的真假数据，此部分用于保证生成对抗网络的Lipschiz连续的条件；在训练中生成器尽可能的使此公式结果变小，判别器尽可能的使此公式的结果变大，通过达成对抗提升生成器的生成效果，使生成器获得生成匹配文本来描述三维体素模型的能力。

5.如权利要求4所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤三实现方法为，

类别标签带有三维体素模型的大量信息，使用类别标签训练可以帮助网络理解文本信息，并且通过重建分类标签能够监督网络提升三维体素模型的生成效果；

通过为判别器增加辅助分类器，达到为判别器增加标签重建功能的目的；改进后的判别器网络以三维体素模型和文本向量为输入，此判别器实现两个功能，包括对模型真伪的判别及对模型类别标签的重建，模型以判别结果与重建的类别标签为输出；此判别器首先通过一段卷积神经网络提取特征，在此之后分别将提取的特征传递给类标签重建网络和模型真伪判别网络中去；类标签重建网络以模型特征为输入生成模型类别标签，模型真伪判别网络以模型特征及文本向量为输入生成对模型真伪及模型与文本匹配程度的判别结果；

在生成对抗网络的训练过程中，同时进行对分类器的训练；通过同时将生成器的生成结果与数据集中的数据作为输入来训练分类器，能够使分类器的训练速度与生成对抗网络同步，达到更好的引导的效果；将分类器对生成的三维体素模型的分类结果与真实标签进行匹配计算梯度传递给生成器能够辅助生成器的训练；所述过程的损失函数如下式所示；

Lc＝E[logP(C＝c|X_real)]+E[logP(C＝c|X_fake)]

公式中C代表生成的标签即为重建的标签，X代表真实的标签，生成器和判别器共同努力达到使此公式值更小的目的；