CN116685989A

CN116685989A - 学习用于半监督学习的未配对多模态特征匹配

Info

Publication number: CN116685989A
Application number: CN202180080588.4A
Authority: CN
Inventors: S·乔杜里; 木村大毅; 仓田岳人; 立花隆辉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-12-02
Filing date: 2021-11-02
Publication date: 2023-09-01
Also published as: GB2616157B; WO2022116762A1; AU2021391031A1; KR20230098596A; AU2021391031B2; GB2616157A; AU2021391031A9; JP2023551640A; US20220172080A1; GB202308018D0; DE112021005633T5

Abstract

提供了一种用于学习多模态特征匹配的计算机实现的方法。该方法包括训练图像编码器以获得编码图像。该方法还包括通过使用加标签图像来在编码图像上训练公共分类器。该方法还包括在将公共分类器保持在固定配置中的同时，通过使用学习的文本嵌入和该学习的文本嵌入的对应标签来训练文本编码器。进一步训练文本编码器以将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。

Description

学习用于半监督学习的未配对多模态特征匹配

背景技术

本发明一般地涉及机器学习，并且更具体地涉及学习用于半监督学习的未配对多模态特征匹配。

从一种数据模态生成另一种数据模态是许多机器学习应用中的重要功能。

通常，应用涉及两个或多个数据模态，其中对于每个模态，存在很少的加标签样本和许多未加标签样本。目标是使用加标签样本来学习模态之间的公共映射。

在“Text to Image Generative Model using Constrained Embedding SpaceMapping”,IEEE International Workshop On Machine Learning For SignalProcessing,2017,by Subhajit Chaudhury et al.和“Conditional generation ofmulti-modal data using constrained embedding space mapping”,InternationalConference on Machine Learning(ICML)workshop on Implicit Generative Models,2017,by Subhajit Chaudhury et al.中，使用确定性映射方案，其中它们首先计算以迫使在训练期间潜在空间相等。由于潜在空间是确定性的，所以确定性映射方案不能对多模态分布中的不同变化进行建模。此外，确定性映射方案易于过度拟合，因为确定性映射不提供对嵌入和公共潜在空间之间的最大解耦的测量。另外，他们使用配对的训练数据。

在“Multimodal deep learning,”in Proceedings of the 28th InternationalConference on Machine Learning(ICML-11),2011,pp.689–696,by Jiquan Ngiam etal.中，提出了一种深度学习框架，其使用受限的Boltzmann机器和深度信念网络来学习音频和视频模态的有效特征。然而，它们需要两种模态来推断潜在空间，这限制了从一个模态到另一个模态的数据的条件生成。

在“Generating images from captions with attention,”Computing ResearchRepository(CoRR),Vol.abs/1511.02793,2015,by Elman Mansimov et al.中，示出了使用基于注意力的模型来从文本字幕生成图像导致更高质量的样本。然而，它们不能产生双向多模态数据分布。

在“Generative adversarial text to image synthesis,”in Proceedings ofthe 33rd International Conference on Machine Learning,Vol.48.2016,ICML’16,pp.1060–1069,JMLR.org,by Scott Reed et al.中，提出了深度卷积生成对抗网络，其组合自然语言和图像嵌入以便产生合成生成的图像。然而，它们仅能够从图像生成文本，而不能以相反的方式生成。

在“Joint Multimodal Learning with Deep Generative Models”,International Conference on Learning Representations(ICLR)2017workshop,April24–26,2017,Toulon,France by Masahiro Suzuki et al.中，提出了联合分布学习，其通过共享数据模态以创建公共潜在空间，在数据模态上直接使用变化推断。然而，它们的方法不能直接用于条件独立推断。此外，它们的方法需要更多的网络参数，使用更多的数据用于训练，并且必须依赖于用于训练自然图像的对抗模型。

发明内容

根据本发明的各方面，提供了一种用于学习多模态特征匹配的计算机实现的方法。该方法包括训练图像编码器以获得编码图像。该方法还包括通过使用加标签图像来在编码图像上训练公共分类器。该方法还包括在将公共分类器保持在固定配置中的同时，通过使用所学习的文本嵌入和所学习的文本嵌入的对应标签来训练文本编码器。文本编码器被进一步训练为将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。预测的文本嵌入的距离与编码图像上的拟合高斯分布的匹配迫使未加标签图像具有针对每个类别的软聚类分数，从而利用少量的加标签图像，这导致使用大量数据的改进的多模态匹配性能。

在实施例中，文本编码器被训练为同时优化公共分类器的交叉熵以及图像域中的拟合高斯分布与预测文本嵌入之间的KL散度。以这种方式，图像和文本嵌入两者中的潜在表示的分布可以与使能跨模态生成和分类的按类别的方式中的相同分布匹配。

在实施例中，在没有配对数据的情况下训练公共分类器。以这种方式，在图像样本上训练的分类器可用于使用固定分类器来区分文本嵌入样本。这使得能够在不使用在许多实际使用情况中找到应用的成对图像和文本样本的情况下，隐式地将文本嵌入分布在潜在空间中。

在实施例中，使用交叉熵损失来训练公共分类器。这样，公共分类器可以学习区分相似分类任务的公共文本和图像潜在空间表示，以按类别的方式自动地将两个模态的嵌入对齐在相同的分布中。

根据本发明的其他方面，提供了一种用于学习多模态特征匹配的计算机程序产品。计算机程序产品包括具有体现于其中的程序指令的非瞬态计算机可读存储介质。程序指令可由计算机执行以使计算机执行一种方法。该方法包括训练图像编码器以获得编码图像。该方法还包括通过使用加标签图像来对编码图像训练公共分类器。该方法还包括通过使用所学习的文本嵌入和所学习的文本嵌入的对应标签来训练文本编码器，同时将公共分类器保持在固定配置中。文本编码器被进一步训练以将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。

根据本发明的其他方面，提供了一种用于学习多模态特征匹配的计算机处理系统。计算机处理系统包括用于存储程序代码的存储器设备。计算机处理系统还包括处理器设备，其操作地耦合到存储器设备，用于运行程序代码以训练图像编码器来获得编码图像。处理器设备还运行程序代码以通过使用加标签图像来在编码图像上训练公共分类器。处理器装置还运行程序代码以在将共同分类器保持在固定配置中的同时，通过使用学习的文本嵌入和用于学习的文本嵌入的对应标签来训练文本编码器。文本编码器被进一步训练为将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。

从以下结合附图阅读的对本发明的说明性实施例的详细描述中，这些和其它特征和优点将变得显而易见。

附图说明

以下描述将参考以下附图提供优选实施例的细节，其中：

图1是示出根据本发明的实施例的示例性计算设备的框图；

图2是示出根据本发明的实施例的用于学习用于改进的半监督学习的未配对多模态特征匹配的示例性方法的流程图；

图3是示出根据本发明的实施例的用于学习用于改进的半监督学习的未配对多模态特征匹配的另一示例性方法的流程图；

图4是示出根据本发明的实施例的涉及具有三元组损失的图像生成器的示例性场景的框图；

图5是图示了根据本发明实施例的图3的方法的框的一部分的框图；

图6是图示了根据本发明实施例的图3的方法的框的另一部分的框图；

图7是图示了根据本发明实施例的图3的方法的框的又一部分的框图；

图8是示出根据本发明的一个实施例的具有公共分类器的总体文本编码器的示例性学习的高级框图。

图9是示出根据本发明的实施例的具有一个或多个云计算节点的说明性云计算环境的框图，云消费者使用的本地计算设备与所述云计算节点通信；以及

图10是示出根据本发明的实施例的由云计算环境提供的一组功能抽象层的框图。

具体实施方式

本发明的实施例涉及学习用于半监督学习的未配对多模态特征匹配。

因此，多模式特征匹配的当前方法遭受如上所述的大量缺陷。

有利地，本发明的实施例通过首先使用未配对的图像和文本样本克服了上述缺陷。本发明仅使用在两种模态中的每个类别的少量加标签样本，并且通过使用公共分类器和基于KL散度的分布学习来学习多模态特征学习。因此，即使根据未配对的样本，本发明提出使用较少的训练数据来学习两种模态之间的鲁棒共享嵌入，使得能够进行如生成和加字幕的跨模态任务。

图1是示出根据本发明的实施例的示例性计算设备100的框图。计算设备100被配置为学习用于半监督学习的未配对多模态特征匹配。

计算设备100可以被体现为能够执行本文描述的功能的任何类型的计算或计算机设备，包括但不限于计算机、服务器、基于机架的服务器、刀片服务器、工作站、台式计算机、膝上型计算机、笔记本计算机、平板计算机、移动计算设备、可穿戴计算设备、网络装置、web装置、分布式计算系统、基于处理器的系统和/或消费电子设备。附加地或替代地，计算设备100可以被实现为一个或多个计算机滑轨、存储器滑轨或其他机架、滑轨、计算机架或物理上分离的计算设备的其他部件。如图1所示，计算设备100说明性地包括处理器110、输入/输出子系统120、存储器130、数据存储设备140和通信子系统150、和/或服务器或类似计算设备中常见的其他组件和设备。当然，在其他实施例中，计算设备100可以包括其他或附加组件，诸如通常在服务器计算机中找到的那些组件(例如，各种输入/输出设备)。另外，在一些实施例中，一个或多个说明性组件可以被并入另一组件中，或者以其他方式形成另一组件的一部分。例如，在一些实施例中，存储器130或其部分可以被并入处理器110中。

处理器110可以被实现为能够执行这里描述的功能的任何类型的处理器。处理器110可以被实现为单个处理器、多个处理器、中央处理单元(CPU)、图形处理单元(GPU)、单核或多核处理器、数字信号处理器、微控制器或其他处理器或处理/控制电路。

存储器130可以被实现为能够执行这里描述的功能的任何类型的易失性或非易失性存储器或数据存储装置。在操作中，存储器130可以存储在计算设备100的操作期间使用的各种数据和软件，诸如操作系统、应用、程序、库和驱动程序。存储器130经由I/O子系统120通信地耦合到处理器110，该子系统可以体现为电路和/或组件以促进与处理器110、存储器130和计算设备100的其他组件的输入/输出操作。例如，I/O子系统120可以被实现为或以其他方式包括存储器控制器集线器、输入/输出控制集线器、平台控制器集线器、集成控制电路、固件设备、通信链路(例如，点对点链路、总线链路、导线、电缆、光导、印刷电路板迹线等)和/或其他组件和子系统以促进输入/输出操作。在一些实施例中，I/O子系统120可以形成片上系统(SOC)的一部分，并且与处理器110、存储器130和计算设备100的其它组件一起被并入单个集成电路芯片上。

数据存储设备140可以被体现为被配置用于数据的短期或长期存储的任何类型的一个或多个设备，例如存储器设备和电路、存储卡、硬盘驱动器、固态驱动器或其他数据存储设备。数据存储设备140可以存储用于学习用于半监督学习的未配对多模态特征匹配的程序代码。计算设备100的通信子系统150可以被体现为能够实现计算设备100和其他远程设备之间通过网络的通信的任何网络接口控制器或其他通信电路、设备或其集合。通信子系统150可以被配置成使用任何一种或多种通信技术(例如，有线或无线通信)和相关联的协议(例如，以太网、、Wi-/>、WiMAX等)来实现这样的通信。

如图所示，计算设备100还可以包括一个或多个外围设备160。外围设备160可以包括任何数量的附加输入/输出设备、接口设备和/或其他外围设备。例如，在一些实施例中，外围设备160可以包括显示器、触摸屏、图形电路、键盘、鼠标、扬声器系统、麦克风、网络接口和/或其他输入/输出设备、接口设备和/或外围设备。

当然，计算设备100还可以包括本领域技术人员容易想到的其他元件(未示出)，以及省略某些元件。例如，如本领域普通技术人员容易理解的，取决于计算设备100的特定实现，各种其他输入设备和/或输出设备可以被包括在其中。例如，可以使用各种类型的无线和/或有线输入和/或输出设备。此外，还可以利用各种配置中的附加处理器、控制器、存储器等。此外，在另一实施例中，可以使用云配置(例如，参见图9-10)。在给定了这里提供的本发明的教导的情况下，本领域的普通技术人员容易想到处理系统100的这些和其它变型。

如本文所使用的，术语“硬件处理器子系统”或“硬件处理器”可以指协作以执行一个或多个特定任务的处理器、存储器(包括RAM、(一个或多个)高速缓存等)、软件(包括存储器管理软件)或其组合。在有用的实施例中，硬件处理器子系统可以包括一个或多个数据处理元件(例如，逻辑电路、处理电路、指令执行设备等)。一个或多个数据处理元件可以包括在中央处理单元、图形处理单元和/或单独的基于处理器或计算元件的控制器(例如，逻辑门等)中。硬件处理器子系统可以包括一个或多个板上存储器(例如，高速缓存、专用存储器阵列、只读存储器等)。在一些实施例中，硬件处理器子系统可以包括一个或多个存储器，其可以在板内或板外，或者可以专用于由硬件处理器子系统使用(例如，ROM、RAM、基本输入/输出系统(BIOS)等)。

在一些实施例中，硬件处理器子系统可以包括并执行一个或多个软件元件。一个或多个软件元素可以包括操作系统和/或一个或多个应用和/或特定代码以实现指定结果。

在其它实施例中，硬件处理器子系统可以包括专用的、专门的电路，其执行一个或多个电子处理功能以实现指定的结果。这种电路可以包括一个或多个专用集成电路(ASIC)、FPGA和/或PLA。

根据本发明的实施例，还预期硬件处理器子系统的这些和其它变化。

下面的图2和3以不同的细节水平描述了本发明的方法。特别地，图2的方法200一般地描述了本发明的实施例，而图3是本发明的实施例的进一步详细描述。方法200可被认为是本发明的一般实施例，而方法300可被认为是本发明的更具体的实施例。

图2是示出根据本发明的实施例的用于学习用于改进的半监督学习的未配对多模态特征匹配的示例性方法200的流程图。

在框205，训练图像编码器以获得编码图像。

在框210，通过使用加标签图像来在编码图像上训练公共分类器。在一个实施例中，可以在没有配对数据的情况下训练公共分类器，即，在图像样本上训练的分类器可以被用作文本样本上的鉴别器，具有固定的分类器权重，以隐式地对准具有相似分布的两个模态的潜在表示。在一个实施例中，使用交叉熵损失来训练公共分类器。

在框215，在将公共分类器保持在固定配置中的同时，通过使用所学习的文本嵌入和所学习的文本嵌入的对应标签来训练文本编码器。文本编码器被进一步训练为将由文本编码器编码的预测文本嵌入的距离与编码图像上的拟合高斯分布相匹配。在一个实施例中，随机形容词可被添加到用于文本分布变化的对应标签中的每一个。

在框220处，输出经训练的经编码图像、经训练的公共分类器和经训练的文本编码器。

图3是示出根据本发明的实施例的用于学习用于改进的半监督学习的未配对多模态特征匹配的另一示例性方法300的流程图。

在框305，接收输入图像。

在框310，学习具有潜在图像空间上的三元组损失的图像生成器。三元组损失使用加标签图像：。由自动编码器或GAN实现的图像生成器使用加标签图像/>。

在块315，将多变量高斯拟合到加标签的嵌入。

在框320，接收输入文本。

在框325，通过应用于输入文本的预训练文本嵌入模型来提取预先训练的文本嵌入。即，使用预先训练的文本嵌入模型将输入文本变换成代表性数值向量。

在框330，由文本编码器将预先训练的文本嵌入映射到公共空间。术语“公共空间”是指图像和文本样本共存的空间。

在框335，使用加标签样本和/>学习公共分类器。在实施例中，块335(即，公共分类器的学习)可以涉及loss₀。

在块340，使用样本和/>最小化拟合的高斯和映射的字嵌入之间的Kullback Liebler(KL)散度。在一个实施例中，框340(即，最小化KL散度)可涉及损失loss₁。.

在框345，在公共嵌入空间上执行半监督学习。半监督学习的总损失计算如下：

loss_tot＝loss₀+αloss₁

学习通过以下步骤执行：块310(图像生成器+三元组损失)-＞块335(公共分类器)-＞块330(文本编码器)。

在框350，接收输入图像以用于利用输出文本描述加字幕，或者接收输入文本串以用于检索相应输出图像。

在框355，响应于输出字幕或输出图像来控制硬件对象(例如，诸如汽车等的车辆)。例如，响应于为图像导出的、指示即将发生的碰撞的标签，控制可以是车辆的转向、制动或加速的控制。

在一个实施例中，该方法由文本字幕系统执行，该文本字幕系统利用输出文本描述给输入图像加字幕。本发明可以应用的其它示例性应用包括但不限于根据小数据的图像加字幕或图像生成，其可以应用于用于图像检索的商业系统、推荐系统等。

图4是示出根据本发明的实施例的涉及具有三元组损失的图像生成器的示例性场景400的框图。

三元组损失将相似的图像集合在一起，并推开不同的图像。注意，在两个5和8的左边具有基本上相等的间距，而在右边，相比8，5紧密地间隔在一起。

图5是图示了根据本发明实施例的图3的方法300的框335的一部分的框图。

这是对应于在输入图像通过编码器510和解码器(公共分类器)520之后的图像编码器训练步骤，其中解码器520实现将类似的类别“推”在一起并且将不同的类别“推开”的三元组损失。

一旦图像编码器f_im(.)510被训练，分类器d_im(.)520然后就在编码图像输出上被训练以获得图像编码空间515上的分类。分类器模型d_im(x；θ)可以通过以下交叉熵损失来训练：

Loss＝L_bce(d_im(f(x)；θ)，y)

图6是图示了根据本发明实施例的图3的方法300的框335的另一部分的框图。

这是文本编码器训练步骤，其中使用分类各种类型的类别的分类器将在转换为文本嵌入之后的输入文本映射到聚类。

注意，解码器(公共分类器)520是固定的，类似于GAN架构。仅文本编码器610用交叉熵(CE)损失来训练，而解码器520不被训练(是固定的)。

如果x_w是输入字，g_w(.)是嵌入函数(类似word2vec或Glove)，d_w(.)是冻结分类器(解码器)520，则通过以下CE损失来训练编码器模型f_w(g_w(x)；θ)：

Loss＝L_bce(d_w(f_w(g_w(x)；θ))，y)

图7是图示根据本发明实施例的图3的方法300的框335的又一部分的框图。

文本编码器510被训练成用图像分类器(固定权重)520正确地分类所学习的文本嵌入，并且还使用以下各项将预测的文本嵌入的距离与拟合的高斯分布730相匹配：

前述内容涉及三个项集合。第一项集合()对应于最小高斯分布。第二项集合()对应于固定分类器的交叉熵损失。第三项集合()对应于拟合多变量高斯损失。同时优化了两个损失(对于第二和第三项集合)。

图8是示出根据本发明实施例的具有公共分类器的总体文本编码器的示例性学习800的高级框图。

在图8中，图像编码器510在小的加标签样本上使用三元组损失来学习用于作为公共潜在空间805的一部分的图像样本的潜在表示(或嵌入)。接下来，在图像嵌入上训练公共分类器520以针对每个类别对样本进行分类。随后，在按类别的多变量高斯分布730中拟合每个类别的图像嵌入。最后，使用交叉损失在公共分类器的冻结权重版本上训练变分文本编码器610，并且另外使用KL散度损失训练变分文本编码器，以拟合按类别的多变量高斯分布。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所陈述的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网接入：能力在网络上可用，并且通过促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和PDA)使用的标准机制来访问。

资源池化：供应商的计算资源被池化以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者，可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云系统通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明性。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，但具有对操作系统、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于建筑物内或建筑物外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公有云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、共同体或公共)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

现在参考图9，描绘了说明性云计算环境950。如图所示，云计算环境950包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点910，所述本地计算设备例如个人数字助理(PDA)或蜂窝电话954A、台式计算机954B、膝上型计算机954C和/或汽车计算机系统954N。节点910可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境950提供云消费者不需要为其维护本地计算设备上的资源的基础设施、平台和/或软件即服务。应当理解，图9中所示的计算设备954A-N的类型仅旨在说明，并且计算节点910和云计算环境950可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图10，示出了由云计算环境950(图9)提供的一组功能抽象层。应当预先理解，图10中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：

硬件和软件层1060包括硬件和软件组件。硬件组件的示例包括：主机1061；基于RISC(精简指令集计算机)架构的服务器1062；服务器1063；刀片服务器1064；存储装置1065；以及网络和联网组件1066。在一些实施例中，软件组件包括网络应用服务器软件1067和数据库软件1068。

虚拟化层1070提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器1071；虚拟存储器1072；虚拟网络1073，包括虚拟专用网络；虚拟应用和操作系统1074；以及虚拟客户端1075。

在一个示例中，管理层1080可以提供以下描述的功能。资源供应1081提供对被用来在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价1082提供了在云计算环境中利用资源时的成本跟踪，以及用于消耗这些资源的记帐或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户1083为消费者和系统管理员提供对云计算环境的访问。服务级别管理1084提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)规划和履行1085提供对云计算资源的预安排和采购，其中根据SLA预期未来需求。

工作负载层1090提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航1091；软件开发和生命周期管理1092；虚拟教室教育传送1093；数据分析处理1094；交易处理1095；以及学习用于半监督学习的未配对多模态特征匹配1096。

本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，例如SMALLTALK、C++等，以及常规的过程编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

说明书中对本发明的“一个实施例”或“实施例”及其它变型的引用意味着结合该实施例描述的特定特征、结构、特性等被包括在本发明的至少一个实施例中。因此，在整个说明书中的各个地方出现的短语“在一个实施例中”或“在实施例中”以及任何其它变型的出现不一定都指相同的实施例。

应当理解，例如在“A/B”、“A和/或B”以及“A和B中的至少一个”的情况下，使用以下“/”、“和/或”以及“中的至少一个”中的任何一个旨在涵盖仅对第一列出的选项(A)的选择、或仅对第二列出的选项(B)的选择、或对两个选项(A和B)的选择。作为进一步的例子，在“A、B和/或C”和“A、B和C中的至少一个”的情况下，这样的措词旨在包括仅选择第一个列出的选项(A)，或者仅选择第二个列出的选项(B)，或者仅选择第三个列出的选项(C)，或者仅选择第一个和第二个列出的选项(A和B)，或者仅选择第一个和第三个列出的选项(A和C)，或者仅选择第二个和第三个列出的选项(B和C)，或者选择所有三个选项(A和B和C)。这可以扩展到所列的许多项目，这对于本领域和相关领域的普通技术人员来说是显而易见的。

已经描述了系统和方法的优选实施例(其旨在说明而非限制)，注意到本领域技术人员根据上述教导可以进行修改和变化。因此，应当理解，可以在所公开的特定实施例中进行改变，这些改变在由所附权利要求概括的本发明的范围内。因此，已经用专利法所要求的细节和特性描述了本发明的各方面，在所附权利要求中阐述了所要求保护的和期望由专利证书保护的内容。

Claims

1.一种用于学习多模态特征匹配的计算机实现的方法，包括：

训练图像编码器以获得编码图像；

通过使用加标签图像对编码图像训练公共分类器；以及

通过使用学习的文本嵌入和用于所述学习的文本嵌入的对应标签，在将所述公共分类器保持在固定配置的同时训练文本编码器，其中所述文本编码器被进一步训练为将由所述文本编码器编码的预测的文本嵌入的距离与所述编码图像上的拟合的高斯分布相匹配。

2.根据权利要求1所述的计算机实现的方法，还包括通过利用所述图像编码器使用所述加标签图像并且利用所述文本编码器使用加标签文本来训练所述公共分类器。

3.根据权利要求1所述的计算机实现的方法，其中所述文本编码器被训练为同时优化利用所述公共分类器的交叉熵以及在所述拟合的高斯分布与所述预测的文本嵌入之间的KL散度。

4.根据权利要求1所述的计算机实现的方法，其中，所述公共分类器是在没有配对数据的情况下训练的。

5.根据权利要求1所述的计算机实现的方法，其中，所述公共分类器是使用交叉熵损失训练的。

6.根据权利要求1所述的计算机实现的方法，其中，总损失被计算为与所述公共分类器相对应的损失和将超参数乘以与所述图像编码器相对应的损失的结果之和。

7.如权利要求1所述的计算机实现的方法，还包括利用所述对应标签最小化所述拟合的高斯分布与所述学习的文本嵌入之间的Kullback-Liebler散度。

8.根据权利要求7所述的计算机实现的方法，还包括在公共嵌入空间上执行半监督学习。

9.根据权利要求1所述的计算机实现的方法，其中，所述文本编码器将预先训练的文本嵌入与所述图像嵌入一起映射到公共潜在表示，以实现跨模态任务。

10.根据权利要求1所述的计算机实现的方法，还包括通过应用于训练文本的预先训练的文本嵌入模型来提取所述文本嵌入。

11.根据权利要求1所述的计算机实现的方法，其中所述方法由文本字幕系统执行，所述文本字幕系统利用输出文本描述给输入图像加字幕。

12.根据权利要求11所述的计算机实现的方法，还包括响应于所述输出文本描述中的至少一个指示即将发生的碰撞，控制汽车以避免碰撞。

13.根据权利要求1所述的计算机实现的方法，其中，所述三元组损失将所述编码图像中的相似编码图像推在一起，并且将所述编码图像中的不相似编码图像分开。

14.根据权利要求1所述的计算机实现的方法，其中训练所述文本编码器还包括使用所述公共分类器将所述学习的文本嵌入映射到样本聚类，以将所述学习的文本嵌入分类到多个类别中的相应类别中。

15.如权利要求1所述的计算机实现的方法，其中所述文本编码器被训练成使得利用所述固定配置中的分类器的交叉熵损失和多变量高斯损失被同时优化。

16.根据权利要求1所述的计算机实现的方法，还包括将随机形容词添加到用于文本分布变化的所述对应标签中的每个。

17.一种用于学习多模态特征匹配的计算机程序产品，所述计算机程序产品包括非瞬态计算机可读存储介质，所述非瞬态计算机可读存储介质具有随其体现的程序指令，所述程序指令能够由计算机执行以使所述计算机执行一种方法，所述方法包括：

训练图像编码器以获得编码图像；

通过使用加标签图像对编码图像训练公共分类器；以及

通过使用学习的文本嵌入和用于所述学习的文本嵌入的对应标签，在将所述公共分类器保持在固定配置的同时训练文本编码器，其中所述文本编码器被进一步训练以将由所述文本编码器编码的预测的文本嵌入的距离与所述编码图像上的拟合的高斯分布相匹配。

18.根据权利要求17所述的计算机程序产品，其中所述方法还包括通过利用所述图像编码器使用所述加标签图像并且利用所述文本编码器使用加标签文本来训练所述公共分类器。

19.根据权利要求17所述的计算机程序产品，其中所述文本编码器被训练为同时优化利用所述共同分类器的交叉熵以及在所述拟合的高斯分布与所述预测的文本嵌入之间的KL散度。

20.根据权利要求17所述的计算机程序产品，其中，所述公共分类器是在没有配对数据的情况下训练的。

21.根据权利要求17所述的计算机程序产品，其中，所述公共分类器是使用交叉熵损失训练的。

22.根据权利要求17所述的计算机程序产品，其中，总损失被计算为与所述公共分类器相对应的损失和将超参数乘以与所述图像编码器相对应的损失的结果之和。

23.如权利要求17所述的计算机程序产品，其中所述方法还包括利用所述对应标签最小化所述拟合的高斯分布与所述学习的文本嵌入之间的Kullback-Liebler散度。

24.如权利要求17所述的计算机程序产品，其中，所述方法由文本字幕系统执行，所述文本字幕系统利用输出文本描述给输入图像加字幕。

25.一种用于学习多模态特征匹配的计算机处理系统，所述方法包括：

用于存储程序代码的存储器设备；以及

处理器设备，操作性地耦合到所述存储器设备，用于运行所述程序代码以训练图像编码器来获得编码图像；

通过使用加标签图像来对编码图像训练公共分类器；以及

通过使用所述学习的文本嵌入和用于所述学习的文本嵌入的对应标签，在将所述公共分类器保持在固定配置的同时训练文本编码器，其中，所述文本编码器被进一步训练为将由所述文本编码器编码的预测的文本嵌入的距离与所述编码图像上的拟合的高斯分布相匹配。