CN110390401B

CN110390401B - 使用嵌入空间之间的变分映射生成跨域数据

Info

Publication number: CN110390401B
Application number: CN201910300582.8A
Authority: CN
Inventors: S·乔杜里; S·达斯古普塔; A·穆纳沃; 立花隆辉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-04-16
Filing date: 2019-04-15
Publication date: 2023-09-22
Anticipated expiration: 2039-04-15
Also published as: CN110390401A; US20190318040A1; US10885111B2

Abstract

本申请的各实施例涉及使用嵌入空间之间的变分映射生成跨域数据。提供了一种用于学习数据的不同模态之间的映射信息的计算机实现的方法、计算机程序产品和系统。该方法包括由处理器将数据的高维模态映射到低维流形以因此通过第一网络的至少一部分获取相应的低维嵌入。该方法还包括由处理器将相应的低维嵌入中的每个低维嵌入投射到公共潜在空间以因此通过第二网络的至少一部分获取公共潜在空间中的单独的潜在空间分布中的相应的潜在空间分布。该方法还包括由处理器通过使用变分下界将公共潜在空间中的单独的潜在空间分布之间的距离最小化来优化网络中的每个网络的参数。该方法还包括由处理器输出这些参数作为映射信息。

Description

使用嵌入空间之间的变分映射生成跨域数据

技术领域

本发明总体上涉及信息处理，并且特别地涉及使用嵌入空间之间的变分映射生成跨域数据。

背景技术

跨域数据生成通常涉及将数据从源域S映射到目标域T，从而使得接受任一域中的输入的给定函数f的输出保持不变。然而，这两个域通常具有数据分布的不同性质，从而使得在当前方式中跨不同模态而被采用的映射难以实现。因此，需要一种用于跨域数据生成的改进的方式。

发明内容

根据本发明的一个方面，提供了一种用于学习数据的不同模态之间的映射信息的计算机实现的方法。该方法包括由处理器将数据的高维模态映射到低维流形中个以因此通过第一网络的至少一部分获取相应的低维嵌入。该方法还包括由处理器将相应的低维嵌入中的每个低维嵌入投射到公共潜在空间以因此通过第二网络的至少一部分获取公共潜在空间中的单独的潜在空间分布中的相应的潜在空间分布。该方法还包括由处理器通过使用变分下界将公共潜在空间中的单独的潜在空间分布之间的距离最小化来优化网络中的每个网络的参数。该方法还包括由处理器输出这些参数作为映射信息。

根据本发明的另一方面，提供了一种用于学习数据的不同模态之间的映射信息的计算机程序产品。该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质具有利用其而被体现的程序指令。程序指令由计算机可执行以使得计算机执行方法。该方法包括由计算机的处理器将数据的高维模态映射到低维流形中以因此通过第一网络的至少一部分获取相应的低维嵌入。该方法还包括由处理器将相应的低维嵌入中的每个低维嵌入投射到公共潜在空间以因此通过第二网络的至少一部分获取公共潜在空间中的单独的潜在空间分布中的相应的潜在空间分布。该方法还包括由处理器通过使用变分下界将公共潜在空间中的单独的潜在空间分布之间的距离最小化来优化网络中的每个网络的参数。该方法还包括由处理器输出这些参数作为映射信息。

根据本发明的又一方面，提供了一种用于学习数据的不同模态之间的映射信息的系统。该系统包括处理器。处理器被配置为将数据的高维模态映射到低维流形中以因此通过第一网络的至少一部分获取相应的低维嵌入。处理器还被配置为将相应的低维嵌入中的每个低维嵌入投射到公共潜在空间中以因此通过第二网络的至少一部分获取公共潜在空间中的单独的潜在空间分布中的相应的潜在空间分布。处理器还被配置为通过使用变分下界公共潜在空间中的单独的潜在空间分布之间的距离最小化来优化网络中的每个网络的参数。处理器还被配置为输出这些参数作为映射信息。

从以下对将结合附图来阅读的其说明性实施例的详细描述中，这些和其他特征和优点将变得很清楚。

附图说明

以下描述将参考以下附图提供优选实施例的细节，在附图中：

图1是示出根据本发明的实施例的、本发明原理可以被应用到的示例性处理系统的框图；

图2是示出根据本发明的实施例的、用于使用嵌入空间之间的变分映射生成跨域数据的示例性系统的框图；

图3是根据本发明的实施例的理想图形模型的流程图；

图4是示出根据本发明的实施例的、示例性的所提出的近似图形模型的流程图；

图5是示出根据本发明的实施例的、用于训练用于使用嵌入空间之间的变分映射生成跨域数据的系统的示例性方法的流程图；

图6是示出根据本发明的实施例的、用于使用嵌入空间之间的变分映射生成跨域数据的示例性方法的流程图；

图7示出了根据本发明的实施例的示例性映射模型架构；

图8是示出根据本发明的实施例的、具有一个或多个云计算节点的说明性云计算环境的框图，由云消费者使用的本地计算设备与该云计算节点进行通信；以及

图9是示出根据本发明的实施例的、由云计算环境提供的一组功能抽象层的框图。

具体实施方式

本发明涉及使用嵌入空间之间的变分映射生成跨域数据。

在一个实施例中，本发明寻找数据的多个模态之间的联合概率，以便实现数据的不同模态之间的生成。

例如，考虑数据的两种模态X和Y。给定数据的多个实例{x_i}和{y_i}，目标是如下找到联合分布p(X，Y)：

θ^*＝arg min_θ[-∑_ilog(p_θ(xⁱ，yⁱ))]。

生成模型可以被用于条件推断以生成从一种数据模态到另一数据模态的对应映射。例如，如果学习作为文本或音频的场景描述以及来自多个示例的场景的对应图像的联合分布，则使用所提出的方法，可以学习生成成对的新颖图像和字幕对。通过调节一种数据模态，可以生成另一模态数据。因此，本发明可以解决包括但不限于例如场景图像到字幕以及场景描述到图像生成的问题。

在一个实施例中，本发明提供了一种通过将数据的多个模态的分布投射到公共潜在空间分布并且通过变分下界来优化网络参数来学习数据的多个模态的分布之间的映射的方法。

在一个实施例中，本发明将公共潜在空间分布划分为单独的潜在空间，并且形成将各个潜在空间之间的距离最小化的新的变分下界。

在一个实施例中，本发明优化变分下界，其可以包括用于以下的项目：(i)将两个潜在空间之间的距离最小化，从而使得它们表示相同的语义含义，(ii)强制潜在分布与由用户设计现有分布相同以实现贝叶斯推断，以及(iii)将重构误差最小化，从而使得输入数据实例和输出数据实例相等。当然，取决于实现，也可以包括其他项目，如本领域普通技术人员在给出本文中提供的本发明的教导的情况下容易理解的，同时保持本发明的精神。

图1是示出根据本发明的实施例的、本发明原理可以被应用到的示例性处理系统100的框图。处理系统100包括经由系统总线102被可操作地耦合到其他组件的至少一个处理器(CPU)104。高速缓存106、只读存储器(ROM)108、随机存取存储器(RAM)110、输入/输出(I/O)适配器120、声音适配器130、网络适配器140、用户接口适配器150和显示适配器160被可操作地耦合到系统总线102。至少一个图形处理单元(GPU)194被可操作地耦合到系统总线102。

第一存储设备122和第二存储设备124通过I/O适配器120被可操作地耦合到系统总线102。存储设备122和124可以是任何磁盘存储设备(例如，磁盘或光盘存储设备)、固态磁设备等。存储设备122和124可以是相同类型的存储设备或不同类型的存储设备。

扬声器132通过声音适配器130被可操作地耦合到系统总线102。收发器142通过网络适配器140被可操作地耦合到系统总线102。显示设备162通过显示适配器160被可操作地耦合到系统总线102。

第一用户输入设备152、第二用户输入设备154和第三用户输入设备156通过用户接口适配器150被可操作地耦合到系统总线102。用户输入设备152、154和156可以是键盘、鼠标、小键盘、图像捕获设备、运动感测设备、麦克风、包含至少两个前述设备的功能的设备等中的任何一种。当然，也可以使用其他类型的输入设备，同时保持本发明的精神。用户输入设备152、154和156可以是相同类型的用户输入设备或不同类型的用户输入设备。用户输入设备152、154和156被用于向系统100输入信息和从系统100输出信息。

当然，如本领域技术人员容易想到的，处理系统100还可以包括其他元件(未示出)，并且也可以省略某些元件。例如，各种其他输入设备和/或输出设备可以被包括在处理系统100中，这取决于其特定实现，如本领域普通技术人员容易理解的。例如，可以使用各种类型的无线和/或有线输入和/或输出设备。此外，如本领域普通技术人员容易理解的，还可以使用各种配置的附加处理器、控制器、存储器等。鉴于本文中提供的本发明的教导，本领域普通技术人员容易想到处理系统100的这些和其他变型。

此外，应当理解，下面参考图2而被描述的系统200是用于实现本发明的各个实施例的系统。处理系统100的一部分或全部可以在系统200的一个或多个元件中北实现。

此外，应当理解，处理系统100可以执行本文中描述的方法的至少一部分，包括例如图5的方法500的至少一部分和/或图6的方法600的至少一部分。类似地，系统200的部分或全部可以被用于执行图5的方法500的至少一部分和/或图6的方法600的至少一部分。

图2是示出根据本发明的实施例的、用于使用嵌入空间之间的变分映射生成跨域数据的示例性系统200的框图。

作为输入，系统200接收模态1数据(X)201和模态2数据(Y)202。作为输出，系统200提供重构的模态1数据(X)291和重构的模态2数据(Y)292。

系统200包括模态1编码器210、嵌入空间1 211、模态2编码器220、嵌入空间2 221、变分映射器230、模态1解码器240和模态2解码器250。

变分映射器230包括随机映射编码器1 231、潜在空间1 232、随机映射解码器1233、随机映射编码器2 234、潜在空间2 235、随机映射解码器2 236和公共潜在空间237。

模态1编码器210和模态2编码器220是预训练的数据编码器。首先，将原始输入数据编码为具有语义意义的嵌入空间。例如，变分自动编码器或生成对抗网络可以被用于将图像映射到这样的嵌入空间。在一个实施例中，可以认为模态1编码器210和模态2编码器220形成流形。例如，在一个实施例中，可以认为模态1编码器210和模态2编码器220形成被配置为接收高维数据并且从其生成低维嵌入的低维流形。虽然前面的示例涉及从原始数据到嵌入的尺寸(从高到低)减小，但是在其他实施例中，不执行这样的减少。上述术语“流形”表示向量空间，其具有数据仅存在于整个向量空间的一些特殊子空间中的属性，表示高维表面。

随机映射编码器1 231和随机映射编码器2 234接收嵌入(即，分别为嵌入空间1211和嵌入空间2 221)作为输入，并且产生作为随机变量的向量的公共潜在空间237。理想地，为了从多种数据模态生成公共潜在空间237，从所有数据模态接收同时输入。对编码过程解耦以使得能够从每个数据模态独立地生成潜在表示。因此，实际下界近似为近似下界，以使得能够进行上述编码器去耦。在一个实施例中，随机映射编码器1 231和随机映射编码器2 234可以使用神经网络(例如，随机神经网络)而被实现。在一个实施例中，随机映射编码器1 231和随机映射编码器2 234可以使用例如用于图像的生成对抗网络(GAN)而被实现。在一个实施例中，随机映射编码器1 231和随机映射编码器2 234可以使用例如用于图像的变分自动编码器(VAE)而被实现。当然，如本领域普通技术人员在给出本文中提供的本发明的教导的情况下容易理解的，可以使用其他类型的元件(用于单词的word2vec模型等)来实现编码器231和234，同时保持本发明的精神。

随机映射解码器1 233和随机映射解码器2 236将公共潜在空间237映射回嵌入空间(即，分别为嵌入空间1 211和嵌入空间2 221)。通过优化嵌入空间(即，分别为嵌入空间1211和嵌入空间2 221)的重构损失来训练随机映射解码器1 233和随机映射解码器2 236。在一个实施例中，随机映射解码器1 233和随机映射解码器2 236可以使用神经网络(例如，随机神经网络)而被实现。此外，类似于编码器231和234，解码器233和236也可以使用GAN和/或VAE和/或word2vec模型等而被实现。

模态1解码器240和模态2解码器250是预训练的数据解码器。重构的嵌入(分别为重构的模态1数据(X)291和重构的模态2数据(Y)292)被重构回作为系统的主输出的原始数据分布。

因此，系统200执行多模态数据到公共潜在分布的随机映射。本发明将共同的潜在分布解耦为单独的分布以学习多模态分布作为使得条件推断能够从另一数据模态生成一种数据模态的贝叶斯推断。

在图2中所示的实施例中，系统200的至少一个元件是基于处理器的。此外，虽然一个或多个元件可以被示出为单独的元件，但是在其他实施例中，这些元件可以被组合为一个元件。反过来也是适用的，其中一个或多个元件可以是另一元件的一部分，在其他实施例中，一个或多个元件可以被实现为独立元件。此外，图2的一个或多个元件可以按照云配置(包括例如分布式配置)而被实现。另外，图2中的一个或多个元件可以由各种设备实现，这些设备包括但不限于数字信号处理(DSP)电路、可编程处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)等。鉴于本文中提供的本发明的教导，本领域普通技术人员容易确定系统200的元件的这些和其他变型，同时保持本发明的精神。

图3是示出根据本发明的实施例的理想图形模型300的流程图。图4是示出根据本发明的实施例的、示例性的所提出的近似图形模型400的流程图。

由随机映射编码器1 231和随机映射编码器2 234实现的编码器q_φ(l|x_z，y_z)需要两种数据模态来用于预测共享(公共)潜在空间237。

为了能够生成跨域数据模态，将潜在空间分布解耦为单独的潜在分布q_φ(l_z，x_z)和q_φ(l_y|y_z)，并且优化近似下界L_v。

关于理想图形模型300，以下适用：

关于所提出的近似图形模型400，以下适用。所提出的下界如下：

因此，在一个实施例中，目标是将上述下界最大化以学习两种模态的联合生成模型。

图5是示出根据本发明的实施例的、用于训练用于使用嵌入空间之间的变分映射生成跨域数据的系统的示例性方法500的流程图。

在框505，从两个数据模态采样数据。

在框510，对数据(X，Y)编码以使得x_z＝f_enc(X)；y_z＝g_enc(Y)。

在框515，计算要添加的噪声的足够统计。

在框520，将噪声添加到潜在空间。

在框525，如下重构嵌入：x_z＝p_θ(x_z|l_x)；y_z＝p_θ(y_z|l_y)。

在框530，计算所提出的下界L_v，并且计算梯度

在框535，如下更新权重：

在框540，确定是否t＜t_lim。如果是，则前进到框545。否则，前进到框550。

在框545，增加时间步长t以使得t＝t+1。

在框550，存储当前权重。所存储的当前权重表示由模型应用以映射公共潜在空间中的嵌入以及用于从公共潜在空间重构嵌入的线性或非线性变换参数。例如，在多层感知器中，它们代表每个层的权重。

图6是示出根据本发明的实施例的、用于使用嵌入空间之间的变分映射生成跨域数据的示例性方法600的流程图。

在框605，从单个数据模态采样数据Xⁱ。

在框610，如下对数据编码：

在框615，如下投射到公共潜在空间：

在框620，重构其他模态的嵌入，如下：

在框625，解码嵌入，如下：

在框630，基于特定实现来提供输出。例如，输出具有来自另一模态的数据的与一个特定数据模态相对应的解码嵌入。继续前面的示例，两个所涉及的数据模态可以分别涉及例如图像和文本，从而使得文本用作图像的标题。在另一实施例中，为了与例如软件应用、数据库、格式等中的任何一个兼容，可以将一种模态的数据转换为另一种模态的数据。在其他实施例中，可以执行场景图像到字幕生成和/或场景描述到图像生成等中的任何一种。此外，由于所提出的方法学习将一般分布从一个域映射到另一域，所以它还可以用于映射不同条件下的场景的类似图像，例如，相同位置的白天到夜间图像、夏天到冬天图像等。因此，可以在不同的天气条件、不同的照明条件、不同的背景条件、不同的前景条件、不同的遮挡条件等下在相同或相似场景的图像之间执行映射。其他应用包括从绘画风格针对自然图像添加艺术品质，将一个人的手写图像转换为另一人的手写图像，将给定语言中的单词转换为另一语言的相应单词，以及本领域普通技术人员在给出本文中提供的本发明的教导的情况下容易理解的其他域转移应用。

应当理解，在一个实施例中，框615和620可以使用来自训练的所存储的权重(即，来自方法500的框550)。

图7示出了根据本发明的实施例的示例性映射模型架构700。在映射模型架构700中，图像嵌入保持固定，并且针对音频或文本嵌入执行到共享潜在空间的变分推断。对于共享潜在空间，假定为高斯分布。分布的方差在外部改变，而模型从音频或文本的嵌入产生潜在分布的均值。在推断期间，通过将从文本获取的潜在表示替换为图像的对应的潜在代码并且随后使用解码器重构图像来执行从音频或文本到图像的跨模态生成。使用PSNR值评估跨模态重构准确性。

架构700包括模态1数据X⁽ⁱ⁾ 701、预训练图像编码器r_x 702、编码数据703、标准化器l_x＝(x_z-μ)/σ 710、共享潜在空间l_x 711、非标准化器/>712、重构图像嵌入/>721、预训练图像解码器g_x 722和重构的模态1数据/>723。

架构700还包括模态2数据Y⁽ⁱ⁾ 731、预训练的音频或文本编码器r_y 732、编码数据733、模型映射嵌入到高斯潜在分布的均值/>740、高斯潜在分布的均值/>751、添加的高斯噪声/>752、共享潜在空间l_y 753、解码器返回到模态2嵌入f′_y ^β 760、重构的音频或文本嵌入/>771、预训练的音频或文本解码器g_y 772和重构的模态2数据/>773。

架构700还包括映射损失D(l_x||q_α(l_y|y_z)) 780。

架构700另外包括重构损失790。

现在将给出关于根据本发明的实施例的本发明的特定实验示例的描述。

在该示例中，通过水平地连接经修改的国家标准和技术研究所(MNIST)数字图像来创建双位数字(总共100个类别)。

在训练图像自动编码器期间，随机移除一组16个两位数类别，并且(使用)剩余的84个图像类别(总共100个类别)执行训练。

对于单词嵌入，每个数字的嵌入被连接。

在学习图像与单词嵌入之间的映射的同时，隐藏了这16个图像类别之间的映射，并且仅在84个图像类别上学习映射——单词组合。

在测试期间，给出这十六个两位数字的单词嵌入并且生成相应的图像。

作为基线方法，与确定性映射情况比较，其中使用条件分布映射直接学习从音频或文本嵌入到图像空间的映射。

考虑以下映射模型架构，其中图像嵌入保持固定，并且对音频或文本嵌入执行到潜在空间的变分推断。

现在将描述根据本发明的实施例的可以根据本发明来使用的各种示例性测量。

对于文本到图像生成：将与测试集中的最接近的图像相比较的所生成的图像的PSNR用作文本到图像生成的图像质量评估测量，如下：

对于图像到文本生成：通过对未见测试集的分类准确性来执行从图像正确分类数字预测的准确性，如下：

表1示出了定性比较，其进而表明根据本发明的变分映射对于双向生成更有效。

表1

标准偏差	准确性(％)	PSNR
			0.0(基线)	10.19	16.43
0.01(本发明)	24.32	16.44
			0.5(本发明)	71.45	16.42
1.0(本发明)	76.56	16.4
			2.0(本发明)	58.17	16.35
5.0(本发明)	04.32	16.40

现在将描述根据本发明的各种实施例的本发明相对于现有技术的各种优点。

一个优点是，本发明考虑从嵌入空间到公共潜在空间的映射作为随机神经网络，其与确定性神经网络相比提供益处。

另一优点是，虽然现有技术需要用于推断潜在空间的两种模态，其限制了从一种模态到另一模态的数据的条件生成，但是所提出的潜在空间的去耦允许从单独的单个数据模态生成跨模态数据。

另一优点是，虽然现有技术方法限于文本到图像字幕或文本到图像生成，但是所提出的方法可以一起解决这两个问题。实际上，使用所提出的框架，甚至可以将多个模态映射到一起。

在给出本文中提供的本发明的教导，本领域普通技术人员容易想到本发明的这些和其他优点，同时保持本发明的精神。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图8，描绘了说明性的云计算环境850。如图所示，云计算环境850包括由云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点810，本地计算设备诸如例如个人数字助理(PDA)或移动电话854A、台式计算机854B、笔记本计算机854C和/或汽车计算机系统854N。节点810可以彼此通信。它们可以在一个或多个网络中物理或虚拟地分组(图中未示出)，诸如如上所述的私有云、共同体云、公共云或混合云或者其组合。这允许云计算环境850提供基础架构即服务、平台即服务和/或软件即服务，而云的消费者无需在本地计算设备上保持资源。应当理解，图8中所示的类型的计算设备854A-N仅仅是示意性的，并且云计算节点810和云计算环境850可以通过任何类型的网络和/或网络可寻址连接来与任何类型的计算设备通信(例如，使用web浏览器)。

现在参考图9，示出了由云计算环境850(图8)提供的一组功能抽象层。首先应当理解，图9所示的组件、层以及功能都仅仅是示意性的，并且本发明的实施例不限于此。如图所示，提供下列层和相应功能：

硬件和软件层960包括硬件和软件组件。硬件组件的示例包括：主机961；基于RISC(精简指令集计算机)架构的服务器962；服务器963；刀片服务器964；存储设备965；以及网络和网络组件966。在一些实施例中，软件组件包括网络应用服务器软件967和数据库软件968。

虚拟化层970提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器971；虚拟存储器972；虚拟网络973，包括虚拟专用网络；虚拟应用和操作系统974；以及虚拟客户端975。

在一个示例中，管理层980可以提供下面描述的功能。资源供应981提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价982提供在资源在云计算环境中被利用时成本跟踪，并且提供用于消费这些资源的计费或发票。在一个示例中，这些资源可以包括应用软件许可。安全性为云消费者和任务提供身份验证并且提供对数据和其他资源的保护。用户门户983为消费者和系统管理员提供对云计算环境的访问。服务级别管理984提供云计算资源分配和管理，从而使得能够满足所需要的服务级别。服务水平协议(SLA)规划和实现985提供根据SLA而预期其未来需求的云计算资源的预先布置和采购。

工作负载层990提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航991；软件开发和生命周期管理992；虚拟教室教育传输993；数据分析处理994；交易处理995；并且使用嵌入空间996之间的变分映射生成跨域数据。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言(包括诸如SMALLTALK、C++等面向对象的编程语言、以及诸如“C”编程语言或类似编程语言等传统过程编程语言)的任意组合编写的任一源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包来执行，部分地在用户的计算机上并且部分地在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以进行到外部计算机的连接(例如，通过互联网使用互联网服务提供商)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路来执行计算机可读程序指令，以执行本发明的各方面。

这里参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就这一点而言，流程图或框图中的每个框可以表示包括用于实现规定的逻辑功能的一个或多个可执行指令的指令的模块、段或部分。在一些替代实现中，框中提到的功能可以不按照附图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者框有时可以以相反的顺序执行。还要注意，框图和/或流程图中的每个框以及框图和/或流程图中的框的组合可以由执行规定的功能或动作或者执行专用硬件和计算机指令的组合的基于专用硬件的系统而被实现。

说明书中对本发明的“一个实施例”或“实施例”的引用以及其他变型表示在本发明的至少一个实施例中包括结合该实施例描述的特定特征、结构、特性等。因此，在整个说明书中出现在各个地方的短语“在一个实施例中”或“在实施例中”以及任何其他变型的出现不一定都指代同一实施例。

应档理解，例如，在“A/B”、“A和/或B”和“A和B中的至少一个”的情况下，使用以下任何“/”、“和/或”和“至少一个”旨在包括仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或选择两个选项(A和B)。作为另一示例，在“A、B和/或C”和“A、B和C中的至少一个”的情况下，这种措辞旨在包括仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或仅选择第三列出的选项(C)，或仅选择第一和第二列出的选项(A和B)，或选择仅限第一和第三列出的选项(A和C)，或仅选择第二和第三个列出的选项(B和C)，或选择所有三个选项(A和B和C)。如本领域和相关领域的普通技术人员很清楚的，对于所列出的很多项目，这可以扩展。

已经描述了系统和方法的优选实施例(其旨在是说明性的而非限制性的)，应当注意，本领域技术人员根据上述教导可以进行修改和变化。因此，应当理解，可以对所公开的特定实施例进行改变，这些改变在由所附权利要求概述的本发明的范围内。已经如此描述了本发明的各方面，具有专利法所要求的细节和特殊性，在所附权利要求中阐述了由专利证书所要求和期望保护的内容。

Claims

1.一种用于学习数据的不同模态之间的映射信息的计算机实现的方法，所述数据的不同模态包括图像数据模态和音频数据或文本数据模态，所述方法包括：

由处理器将数据的高维模态映射到低维流形以因此通过第一网络的至少一部分获取相应的低维嵌入；

由所述处理器将所述相应的低维嵌入中的每个低维嵌入投射到公共潜在空间以因此通过第二网络的至少一部分获取所述公共潜在空间中的单独的潜在空间分布中的相应的潜在空间分布；

由所述处理器通过使用变分下界将所述公共潜在空间中的所述单独的潜在空间分布之间的距离最小化来优化所述网络中的每个网络的参数；以及

由所述处理器输出所述参数作为所述映射信息。

2.根据权利要求1所述的计算机实现的方法，其中所述优化的步骤被执行以将针对数据的所述不同模态中的每个模态的重构版本的相应重构误差最小化。

3.根据权利要求1所述的计算机实现的方法，其中所述变分下界包括一组项目，所述一组项目用于通过将所述公共潜在空间中的所述单独的潜在空间分布之间的距离最小化来使所述单独的潜在空间分布具有相同语义含义。

4.根据权利要求1所述的计算机实现的方法，其中所述变分下界包括一组项目，所述一组项目用于迫使所述单独的潜在空间分布与由用户设计的在先潜在分布相同以实现所述不同模态之间的贝叶斯推理。

5.根据权利要求1所述的计算机实现的方法，其中所述变分下界包括一组项目，所述一组项目用于将重构误差最小化以使输入数据实例和输出数据实例均衡，所述输入数据实例包括数据的所述高维模态，所述输出数据实例包括数据的所述高维模态的重构版本。

6.根据权利要求1所述的计算机实现的方法，其中单独的生成模型针对所述第一网络和所述第二网络而被使用。

7.根据权利要求1所述的计算机实现的方法，其中所述变分下界包括一组项目，所述一组项目包括嵌入重构损失、在先潜在分布发散和所述单独的潜在空间分布之间的距离测量。

8.根据权利要求1所述的计算机实现的方法，其中所述第二网络包括一组随机神经网络。

9.根据权利要求1所述的计算机实现的方法，其中所述映射的步骤使用变分映射将所述高维模态编码到所述低维嵌入中。

10.根据权利要求1所述的计算机实现的方法，其中数据的所述不同模态包括数据的第一模态和数据的第二模态，并且其中所述方法还包括基于所述第一模态或所述第二模态中的另一模态的数据和所述映射信息来生成所述第一模态或所述第二模态中的一个模态的跨域数据。

11.根据权利要求10所述的计算机实现的方法，还包括响应于数据库与所述第一模态或所述第二模态中的所述另一模态的所述数据不兼容而利用所述跨域数据填充所述数据库。

12.根据权利要求10所述的计算机实现的方法，还包括利用由所述第一模态或所述第二模态中的所述另一模态表示的文本来对由所述第一模态或所述第二模态中的一个模态表示的图像加标题。

13.根据权利要求1所述的计算机实现的方法，还包括基于所述映射信息来执行跨模态数据生成。

14.根据权利要求1所述的计算机实现的方法，其中所述公共潜在空间被配置用于数据的所述不同模态之间解耦的编码。

15.一种用于学习数据的不同模态之间的映射信息的非暂态计算机可读存储介质，所述非暂态计算机可读存储介质具有利用其而被体现的程序指令，所述程序指令由计算机可执行以使得所述计算机执行根据权利要求1至14中的任一项所述的方法的方法步骤。

16.一种用于学习数据的不同模态之间的映射信息的系统，包括：

处理器，所述处理器被配置为执行根据权利要求1至14中的任一项所述的方法的方法步骤。

17.一种包括被各自配置为执行根据权利要求1至14中的任一项所述的方法的每个步骤的模块的装置。