CN110516096A

CN110516096A - 合成感知数字图像搜索

Info

Publication number: CN110516096A
Application number: CN201910143100.2A
Authority: CN
Inventors: 沈晓辉; 林哲; K·K·萨恩卡瓦利; 赵恒双; B·L·普里斯
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2018-05-22
Filing date: 2019-02-26
Publication date: 2019-11-29
Also published as: US11263259B2; US20190361994A1; AU2019201787A1; GB2574087A; GB2574087B; US10747811B2; US20200349189A1; AU2019201787B2; DE102019001663A1; GB201903414D0

Abstract

本公开的实施例涉及合成感知数字图像搜索。描述了利用机器学习的合成感知数字图像搜索技术和系统。在一个示例中，合成感知图像搜索系统采用双流卷积神经网络(CNN)，以从捕获前景对象的前景数字图像和捕获背景场景的背景数字图像联合学习特征嵌入。为了训练卷积神经网络的模型，使用训练数字图像的三元组。每个三元组可以包括从相同数字图像获取的正前景数字图像和正背景数字图像。三元组还包含负前景或背景数字图像，其与也作为三元组中的部分被包括的正前景或背景数字图像不同。

Description

合成感知数字图像搜索

技术领域

本发明的各实施例涉及合成感知数字图像搜索。

背景技术

数字图像合成是由计算设备的图像处理系统实现的基本任务，作为数字图像编辑和图形设计的一部分。数字图像合成涉及组合来自不同源的前景对象和背景场景，以生成新的合成数字图像。然而，由于由这些常规技术支持的用户交互的低效率，用于执行数字图像合成的常规技术计算效率低，并且令用户感到沮丧。这些低效率和用户沮丧感由大量不同的数字图像而被加剧，这些数字图像可以充当这些对象和场景的源，其可能以数百万计。

例如，可以使用广泛的特性来定义前景对象与背景场景的兼容性，特性的重要性可以基于在数字图像中包括的内容而不同。在一个这种示例中，当在道路的背景场景上插入汽车的前景对象时，视点可以具有更大的重要性。另一方面，在合成具有雪山的滑雪者时，语义一致性(semantic consistency)可以具有更大的重要性。然而，常规技术关注于单个特性或者依赖于特征的手动提取来定义匹配标准。因此，这些常规技术不能适应于不同的特性以及在定义针对如上所述的不同对象类别的匹配时这些特性的不同相对重要性。此外，这些常规技术在面对“大数据”时可能会失效，因为涉及解决可用作合成源的数百万数字图像，其中一个示例是经由网络可访问的库存数字图像系统。

发明内容

描述了利用机器学习的合成感知数字图像搜索技术和系统。在一个示例中，合成感知图像搜索系统采用双流卷积神经网络(CNN)，以从捕获前景对象的前景数字图像和捕获背景场景的背景数字图像联合学习特征嵌入。

为了训练卷积神经网络的机器学习模型，使用训练数字图像的三元组(triplet)。每个三元组包括例如通过使用分割掩模注释(segmentation mask annotation)从相同数字图像获取的正前景数字图像和正背景数字图像。三元组还包含负前景或背景数字图像，其与也作为三元组的部分被包括的正前景或背景数字图像不同。例如，为了支持前景对象的搜索，在训练模型时使用正和负前景数字图像以及正背景数字图像。另一方面，为了支持对背景场景的搜索，在训练模型时使用正和负背景数字图像以及正前景数字图像。然后，训练数字图像的三元组由相应的背景和前景卷积神经网络(CNN)联合使用损失函数(例如三元组损失)进行处理，以学习共同嵌入空间。然后，一旦学习了该共同嵌入空间，系统可以使用该共同嵌入空间来定义前景和背景数字图像彼此的兼容性。

本发明内容以简化的形式介绍了一些概念，这些概念将在下面的具体实施方式中进一步描述。因此，本发明内容不旨在标识所要求保护的主题内容的必要特征，也不旨在用于辅助确定所要求保护的主题内容的范围。

附图说明

参考附图描述了详细描述。附图中表示的实体可以指示一个或多个实体，因此可以在讨论中将单个或多个形式的实体互换地引用。

图1是可操作以采用本文中所描述的合成感知数字图像搜索技术的示例实施方式中的环境的图示。

图2描绘了示例实施方式中的系统，其更详细地示出了图1的合成感知图像搜索系统的双流系统架构。

图3描绘了示例实施方式中的系统，其结合类别信息更详细地示出了图2的合成感知图像搜索系统的双流系统架构。

图4是描绘了示例实施方式中的程序的流程图，其中基于使用机器学习从前景图像学习的前景特征和从多个候选数字图像学习的背景特征来生成搜索结果。

图5是描绘了示例实施方式中的程序的流程图，其中基于使用机器学习从背景数字图像学习的背景特征和从多个候选数字图像学习的前景特征来生成搜索结果。

图6描绘了示例实施方式中的系统，其更详细地示出了对图1的合成感知图像搜索系统118的双流系统架构的训练。

图7描绘了示例实施方式中的系统，其结合类别数据更详细地示出了图1的合成感知图像搜索系统的双流系统架构。

图8描绘了训练数字图像的一个示例，其被生成以用于训练合成感知图像搜索系统。

图9描绘了示例实施方式，其中由图1的合成感知图像搜索系统118生成附加的正训练数字图像。

图10描绘了示例实施方式，其中由图1的合成感知图像搜索系统生成附加的负训练数字图像。

图11描绘了示例实施方式中的程序，其中训练数字图像被生成以用于数字图像合成。

图12图示了包括示例设备的各种部件的示例系统，该示例设备可以被实现为如参考图1-图11所描述和/或利用的任何类型的计算设备，以实现本文中描述的技术的实施例。

具体实施方式

概观

用于合成数字图像的常规技术通常依赖于手动提取的特征和定义的匹配标准，或者依赖于当前景对象与背景场景兼容时定义的单个特性。因此，常规技术无法解决可以用于定义该兼容性的各种各样的特性，其重要性可能针对不同类别的数字图像(即，由图像捕获的内容)而改变。

因此，描述了利用机器学习的合成感知数字图像搜索技术和系统。因此，代替手动设计匹配标准或手工工程特征，可以使用机器学习(例如，通过使用相应的卷积神经网络)通过针对背景场景和前景对象的合成感知图像搜索系统来自动且准确地学习特征表示。例如，合成感知图像搜索系统可以采用双流卷积神经网络(CNN)来从捕获前景对象的前景数字图像和捕获背景场景的背景数字图像联合学习特征嵌入。

为了训练卷积神经网络的模型，从具有分割掩模注释的数据集中使用训练数字图像的三元组，以学习共同嵌入空间。例如，每个三元组可以包括(例如通过使用分割掩模注释)从相同数字图像获得的正前景数字图像和正背景数字图像。三元组还包含负前景或背景数字图像，其与也作为三元组的一部分所包括的正前景或背景数字图像不同。例如，为了支持对前景对象的搜索，在训练模型时使用正和负前景数字图像以及正背景数字图像。另一方面，为了支持对背景场景的搜索，在训练模型时使用正和负背景数字图像以及正前景数字图像。相似性(正兼容性)或不相似性(即，负兼容性)可以基于可用于定义数字图像彼此的兼容性的特性，诸如语义、视点、样式、颜色等。

然后，由相应的背景和前景卷积神经网络(CNN)联合使用损失函数(例如，三元组损失)来处理训练数字图像的三元组，以学习共同嵌入空间，即，训练卷积神经网络的机器学习模型。然后，一旦被学习，该共同嵌入空间可以由系统使用，以定义前景和背景数字图像彼此的兼容性。例如，这可以通过基于针对由该双流系统的相应的卷积神经网络学习的背景特征和前景特征的特征向量的余弦相似性来计算得分来执行。类别数据还可以被嵌入为背景和前景特征的一部分，以例如通过使用利用word2vec从类别数据的文本中学习的类别特征来进一步引导兼容性。

以这种方式，来自背景和前景的特征的生成可以被用于解决可用于定义兼容性的宽范围的特性，从而克服常规技术的限制。此外，这些技术可以被用于解决可用作合成源的数百万个可用数字图像。例如，背景特征可以离线进行计算，然后与前景特征(前景特征也是实时生成的)实时地使用，以执行合成感知搜索，这使用常规的手动定义技术是不可能实现的。

技术还可以通过合成感知图像搜索系统来采用，以扩展可用于训练背景和前景卷积神经网络的多个训练数字图像。例如，系统可以采用训练数据生成模块来生成要用于训练的正或负背景或前景数字图像的附加示例。在一个示例中，这通过利用与从另一数字图像获得的类似的正前景数字图像替换与正背景数字图像相关联的正前景数字图像来执行。在另一示例中，这通过利用与从另一数字图像获得的类似的正背景数字图像替换与正前景数字图像相关联的正背景数字图像来执行。还可以采用类似的技术来增加多个负训练数字图像，例如通过用不同的前景或背景数字图像替换正前景或背景数字图像。以这种方式，即使通过使用具有有限数目的注释(例如掩蔽)示例的训练数据集，也可以改进作为机器学习的一部分的训练精度。对这些和其他示例的进一步讨论被包括在以下章节中，并且在对应的附图中示出。

在以下讨论中，描述了可以采用本文中所描述的技术的示例环境。还描述了可以在示例环境以及其他环境中执行的示例程序。因此，示例程序的执行不限于示例环境，并且示例环境不限于示例程序的执行。

示例环境

图1是示例实施方式中的数字媒体环境100的图示，其可操作以采用本文中描述的合成感知数字图像搜索技术。所图示的环境100包括服务提供商系统102和客户端设备104，其可以以各种方式进行配置。实现服务提供商系统102和客户端设备104的计算设备可以以各种方式进行配置。

例如，计算设备可以被配置为台式计算机、膝上型计算机、移动设备(例如，假设诸如平板计算机或移动电话的手持配置，如图所示)等。因此，计算设备的范围可以从具有大量存储器和处理器资源的完整资源设备(例如个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如移动设备)。另外，计算设备可以代表多个不同设备，诸如用于实现服务提供商系统102的多个服务器。

客户端设备104被图示为包括图像处理系统108。图像处理系统108至少部分地以客户端设备104的硬件实现，以处理和转换数字图像110，数字图像110被图示为维持在客户端设备104的存储设备112中。这种处理包括：数字图像110的创建、数字图像110的修改以及在用户界面114中对数字图像110的绘制，用于例如由显示设备116输出。尽管如在计算设备102本地实现所图示的，图像处理系统104的功能还可以通过经由网络114可用的功能作为整体或部分来实现，诸如作为网络服务的一部分或“在云中”。

由图像处理系统110包含的、以处理数字图像的功能的一个示例包括数字图像合成。数字图像合成涉及组合来自不同源的前景对象和背景场景，以生成新的合成数字图像。例如用户可能希望将前景对象添加到背景场景，或者改变前景对象的背景场景。

为了在图示的示例中这样做，图像处理系统108经由网络106访问服务提供商系统102的合成感知图像搜索系统118。还预期了其中合成感知图像搜索系统118在用于执行合成的客户端设备104上本地实现的其他示例。该访问用于执行在存储设备122中维护的数字图像120的搜索，该数字图像120与客户端设备104的数字图像110兼容。

如前所述，可以使用各种特性来定义前景和背景图像彼此的兼容性，特性的重要性可以基于图像所属的类别而改变。例如当在道路的背景场景上插入汽车的前景对象时，视点可以具有更大的重要性，而当合成具有雪山的滑雪者时，语义一致性可以具有更大的重要性。因此，合成感知图像搜索系统118包括背景特征机器学习系统124和前景特征机器学习系统126，它们分别被配置为生成背景和前景特征。背景和前景特征可用于确定前景图像与背景图像的兼容性。在一个实施方式中，这还可以通过使用类别特征机器学习系统128来辅助，该类别特征机器学习系统128可用于从与前景和背景图像一起提供的类别数据中学习类别特征。例如类别数据可以定义类别，类别定义“什么”被包括在前景和背景数字图像中，从而有助于搜索，如下面进一步描述的。在一个示例中，这是针对经常出现并且在图像合成中广泛使用的八个类别来执行的：“人”、“汽车”、“船”、“狗”、“植物”、“瓶子”、“椅子”和“绘画'。

以这种方式，背景数字图像130可以被用作生成图像特征数据132的基础，图像特征数据132包括用于确定与前景的数字图像120的兼容性的背景特征134。同样地，前景数字图像136可以被用于生成具有前景特征140的图像特征数据138，前景特征140被用于确定与背景的数字图像的兼容性。

通过使用背景和前景特征机器学习系统124、126，学习的特征表示可以编码专门用于图像合成的丰富信息，并且可以适应于各种图像内容。另外，合成感知图像搜索系统118可以在单个框架中解决多个前景和/或背景类别，从而提高采用这些技术的计算设备的计算效率和操作。以这种方式，合成感知图像搜索系统118可以解决各种类别，即使没有由系统专门训练，这使用常规的手动或单一类别技术是不可能实现的。

通常，可以在该章节中所描述的示例程序的情境中采用关于以上和以下示例所描述的功能、特征和概念。此外，关于本文中的不同附图和示例所描述的功能、特征和概念可以彼此互换，并且不限于在特定附图或程序的情境中的实施方式。此外，与本文中的不同代表性程序和对应的附图相关联的框可以一起应用和/或以不同方式组合。因此，关于本文中的不同示例环境、设备、部件、附图和程序所描述的个体功能、特征和概念可以以任意合适的组合来使用，并且不限于由在本说明书中列举的示例所表示的特定组合。

合成感知数字图像搜索系统架构

图2描绘了示例实施方式中的系统200，其更详细地示出了图1的合成感知图像搜索系统118的双流系统架构。图3描绘了示例实施方式中的系统300，其结合类别信息更详细地示出了图1的合成感知图像搜索系统118的双流系统架构。图4描绘了示例实施方式中的程序400，其中基于使用机器学习从前景图像学习的前景特征和从多个候选数字图像学习的背景特征来生成搜索结果。描绘了示例实施方式中的程序500，其中基于使用机器学习从背景数字图像学习的背景特征和从多个候选数字图像学习的前景特征来生成搜索结果。

以下讨论描述了可以利用所描述的系统和设备实现的技术。程序的各方面可以以硬件、固件、软件或其组合来实现。程序被示为一组框，其指定由一个或多个设备执行的操作，并且不必限于用于执行各个框的操作而示出的顺序。在以下讨论的部分中，将互换地参考图1-图4。

如图2所示，情境感知图像搜索系统118被形成为双流特征嵌入网络，其被配置为确定背景图像202与前景地面图像204的兼容性。第一流由背景特征机器学习系统124表示，并且第二流由前景特征机器学习系统126表示。背景和前景机器学习系统124、126采用相应的卷积神经网络206、208来分别学习背景特征210和前景特征212。

卷积神经网络206、208针对节点层(即，神经元)而形成，并且包括输入层、输出层和一个或多个隐藏层。隐藏层可以包括卷积层、池化层、全连接层和/或归一化层。卷积神经网络206、208被训练以学习共同嵌入空间，然后该共同嵌入空间被使用来确定背景图像202与前景图像204的兼容性，例如使用余弦相似性。对模型训练的进一步讨论被包括在以下讨论中的合成感知训练数据生成和机器学习章节中。

在图示的示例中，背景特征机器学习系统124将背景图像202作为输入。要接收前景对象的数字图像202的一部分由系统填充。为此，背景特征机器学习系统124计算背景图像的颜色的颜色平均值，并且使用该颜色平均值来填充具有要与背景合成的前景对象的高度和宽度的矩形。以这种方式，填充部分定义了用于接收前景对象的背景场景中的尺寸、宽高比和位置。

前景特征机器学习系统126接受前景数字图像204作为输入，以生成前景特征212。该示例中的前景数字图像204包括具有纯背景(例如白色背景)的前景对象。这些前景数字图像的示例可以从库存图像系统(例如Stock)获得，其是丰富的并且是有创意的专业人员优选的，同时难以使用例如关键字搜索的常规技术进行搜索。

背景和前景特征210、212被提供给得分计算模块214，以计算得分216，得分216指示背景和前景数字图像的兼容性。得分216基于在由卷积神经网络208、208(例如使用余弦相似性)学习的共同嵌入空间中背景和前景特征210、212彼此“有多接近”。然后，搜索模块218使用这些得分来对存储设备122中的候选数字图像120进行排序，以生成搜索结果220，搜索结果220指示数字图像彼此的兼容性。这可以被执行以定位用于相应的背景数字图像202的前景数字图像204，或者定位用于前景数字图像204的背景数字图像202。

图3描绘了示例系统300，其中图2的情境感知图像搜索系统118被适配于解决类别数据302。在该示例中，情境感知图像搜索系统118被配置为解决单一框架中的多个图像类别，这是使用常规技术不可能实现的。以这种方式，即使没有由系统专门训练，情境感知图像搜索系统118也可以在确定用于各种类别的前景和背景数字图像的兼容性时解决特性的重要性的差异。

为了在图示的示例中这样做，类别数据302由类别特征机器学习系统304接收，该类别特征机器学习系统304经由神经网络306处理以生成类别特征308。例如，神经网络306可以采用word2vec技术，其是用于生成作为词嵌入(word embedding)的类别特征的一组相关的机器学习模型。这些机器学习模型可以被实现为双层神经网络，其被训练以重建词的语言情境。

神经网络306使用文本语料库来进行训练，以学习通常为几百维的向量空间，其中语料库中的每个唯一词被分配向量空间中的对应向量。因此，词向量位于向量空间中，使得在语料库中共享共同情境的词在空间中彼此非常接近地定位。以这种方式，可以采用各种范围的类别数据302来描述背景和前景数字图像202、204的特性。这甚至可以被使用以通过确定向量空间中未经训练的词与用作训练一部分的词的接近程度来解决未被情境感知图像搜索系统118专门训练的类别数据302。

为了通过情境感知图像搜索系统118结合类别特征，类别特征308被编码为背景特征210和前景特征212的一部分。为此，多模式紧凑双线性池化(MCB)模块310在图示示例中被使用以获取两个向量(例如，背景特征210和类别特征308；或前景特征212和类别特征308)的外积以形成组合，尽管还预期了其他技术。然后采用特征转换模块314、316来采用内积和紧凑双线性池化以及光(light)计算CNN，以通过采用三元组损失函数的得分计算模块214的使用来生成得分。

在一个实施方式示例中，采用ResNet50深度神经网络来学习特征(例如，直到“pool5”层)作为初始权重，之后执行全局平均池化以获得尺寸“1x 1x 2048”的特征图。尽管背景特征机器学习系统124和前景特征机器学习系统126的背景流和前景流通过来自ResNet50的相同权重初始化，但是在学习这些流之后可以编码不同的信息。例如背景特征机器学习系统124可以被配置为关注于背景场景的情境，而前景特征机器学习系统126关注于面向对象的特征。

为了学习类别特征308作为特定于类别的特征映射，类别特征机器学习系统304采用如上所述的word2vec模型来提取300维向量作为类别特征308。在几个卷积层之后，然后类别特征308在每个单独的MCB模块310、312中与背景和前景特征210、212融合。轻量特征转换模块314、316包括一个卷积层、一个元素有符号的平方根层和实例归一化操作，轻量特征转换模块314、316进一步被附加到系统。这用于分别生成针对背景和前景的单位特征向量，其对来自背景数字图像202和前景数字图像204的图像内容和类别数据302进行编码。

这可以用于支持各种使用场景。在第一示例中，有创意的专业人员可以与具有背景数字图像130的背景场景的客户端设备104的图像处理系统108交互，并且希望从要与背景场景合成的前景数字图像中定位前景对象。

因此，背景数字图像202被提供给合成感知图像搜索系统118。然后采用背景特征机器学习系统124来使用机器学习从数字图像(例如背景数字图像202)中提取背景特征210(框402)，例如通过卷积神经网络206。这可以在接收到背景数字图像202时在几秒内实时“在线”执行。

合成感知图像搜索系统118还采用前景特征机器学习系统126，以使用机器学习从多个候选数字图像120中提取前景特征212(框404)。在该实例中，前景特征机器学习系统126可以“离线”执行该提取，以从前景对象的候选数字图像的储存库中提取前景特征212。然后可以将前景特征212存储在存储设备中，以基于该示例中的背景特征210来支持实时搜索，这使用常规技术是不可能实现的。

在图3的示例系统300中，合成感知图像搜索系统118还被配置为包括类别特征机器学习系统304，以从包括文本的类别数据302生成类别特征(框406)。例如，类别数据302可以提供将用作确定兼容性的基础的背景和前景数字图像的特性的语义情境。例如，类别特征308可以通过相应的MCB 310、312模块而被嵌入作为背景特征210和前景特征212的一部分，并且利用相应的特征转换模块314、316进行处理。

然后，得分计算模块214被实现为至少部分地基于从数字图像中提取的背景特征和从多个候选数字图像中提取的前景特征，通过特征嵌入来计算得分(框408)，然后其被用于基于所计算的得分来输出搜索结果220(框410)。得分216指示在共同嵌入空间中背景和前景特征彼此的相对接近程度。这样，得分216可用于定义背景图像与将充当前景图像的每个候选数字图像的兼容性的相对量。然后这些得分可以被用来对候选数字图像进行排名，以作为搜索结果220的一部分进行输出。此外，因此，在线和离线特征生成的使用可以支持对搜索结果220的实时接收和生成，这使用常规技术是不可能实现的。这些技术还可用于定位针对前景对象的背景场景，如以下示例中进一步描述的。

图5描绘了示例实施方式中的程序500，其中基于使用机器学习从背景数字图像学习的背景特征和从多个候选数字图像学习的前景特征来生成搜索结果。在该示例中，有创意的专业人员可以与具有前景数字图像136的前景对象的客户端设备104的图像处理系统108一起工作，并且希望定位要与前景对象合成的背景数字图像的兼容背景场景。因此，前景数字图像204被提供给合成感知图像搜索系统118。

然后，例如通过卷积神经网络208，采用前景特征机器学习系统126来使用机器学习从数字图像(例如前景数字图像204)中提取前景特征212(框502)。这可以在接收到前景数字图像204时实时“在线”执行。

合成感知图像搜索系统118还采用背景特征机器学习系统124，以使用机器学习从多个候选数字图像120中提取背景特征210(框504)。在该实例中，背景特征机器学习系统124可以“离线”执行该提取，以从背景场景的候选数字图像120的储存库中提取背景特征210。然后可以将背景特征210存储在存储设备中，以基于该示例中的前景特征212来支持实时搜索，这使用常规技术是不可能实现的。

在图3的示例系统300中，合成感知图像搜索系统118还被配置为包括类别特征机器学习系统304，以从包括文本的类别数据302生成类别特征(框506)。例如，类别数据302可以提供将用作确定兼容性的基础的背景和前景数字图像的特性的语义情境。例如，类别特征308可以通过相应的MCB 310、312模块而被嵌入作为背景特征210和前景特征212的一部分，并且利用相应的特征转换模块314、316进行处理。

然后，得分计算模块214还被实现为至少部分地基于从数字图像中提取的背景特征和从多个候选数字图像中提取的前景特征，通过特征嵌入来计算得分(框508)，然后，其被用于基于计算出的得分来输出搜索结果220(框510)。得分216指示在共同嵌入空间中背景和前景特征彼此的相对接近度，因此得分216可用于定义前景图像与将用作背景图像的每个候选数字图像的兼容性的相对量。然后这些得分可以被用来对候选数字图像进行排名，以作为搜索结果的一部分进行输出。此外，因此，在线和离线特征生成的用户可以如上所述实时支持搜索结果220的接收和生成，这使用常规技术是不可能实现的。

因此，描述了合成感知数字图像搜索技术和系统，其克服了常规技术的挑战。因此，代替手动设计匹配标准或手工工程特征，可以使用机器学习，例如通过使用相应的卷积神经网络的，通过针对背景场景和前景对象的合成感知图像搜索系统118来自动且准确地学习特征表示。合成感知图像搜索系统118的训练在以下章节中进行描述，并且在对应的附图中示出。

合成感知训练数据生成和机器学习

图6描绘了示例实施方式中的系统600，其更详细地示出了对图1的合成感知图像搜索系统118的双流系统架构的训练。图7描绘了示例实施方式中的系统700，其结合类别数据更详细地示出了图1的合成感知图像搜索系统118的双流系统架构。图8描绘了训练数字图像的示例800，其被生成以用于训练合成感知图像搜索系统118。图9描绘了示例实施方式900，其中由图1的合成感知图像搜索系统118生成附加的正训练数字图像。图10描绘了示例实施方式1000，其中由图1的合成感知图像搜索系统118生成附加的负训练数字图像。图11描绘了示例实施方式中的程序1100，其中训练数字图像被生成以用于数字图像合成。

以下讨论描述了可以利用所描述的系统和设备实现的技术。程序的各方面可以以用硬件、固件、软件或其组合来实现。程序被示为一组框，其指定由一个或多个设备执行的操作，并且不必限于用于执行相应框的操作而示出的顺序。在以下讨论的部分中，将互换地参考图6-图11。

训练数字图像的三元组被用于训练背景特征机器学习系统124和前景特征机器学习系统126。在图6的所图示的示例600中，这使用正背景数字图像602、正前景数字图像604和负前景数字图像606来执行。如前所述，这用于生成相应的背景和前景特征608、610，并且由此损失函数612被用来生成三元组损失614以训练背景和前景特征机器学习系统124、126。

类别数据702还可以用作该训练的一部分，如图7的系统700中所示。在该示例中，类别数据702由类别特征机器学习系统304的神经网络306处理为训练数据，以生成类别特征708，例如使用word2vec的文本的向量表示。类别特征708使用MCB 310、312模块而被嵌入作为背景和前景特征608、610的一部分，并且使用如前所述的特征转换模块314、316进行处理。损失函数612再次用于计算三元组损失，以训练背景和前景特征机器学习系统124、126。

可以通过增加用作训练的一部分的训练数字图像的数目来增加训练用于图像合成的背景和前景特征机器学习系统124、126的准确度。然而，训练数字图像集合不能从常规系统获得以支持合成感知图像搜索。使用常规技术收集这样的训练集是资源密集型的，因为手动标记许多对背景和前景数字图像是耗时的，并且还需要图像合成和数字图像编辑的专业知识来确定两者是否兼容。

因此，在该示例中，合成感知图像搜索系统118被配置为自动生成训练数字图像而无需用户干预。为此，从包含对象实例分割掩模的公共可用数据集获得数字图像，其示例包括MS-COCO、PASCAL VOC2012和ADE20K。利用这些掩模注释，训练数据生成模块802将每个数字图像分解为背景场景和前景对象。图8中图示了这样的一个示例，其中原始数字图像804被用于生成正背景数字图像806和正前景数字图像808。因为正背景和前景数字图像806、808是从相同的原始数字图像804中生成的，这些图像对于合成是兼容的，并且通常比任意其他可能的候选对更合适。

因此，为了形成训练数字图像的三元组，将正背景数字图像806视为锚(anchor)，将正前景数字图像808视为正样本。从任意其他图像中随机采样前景对象作为负样本，其被图示为负前景数字图像810。类别数据还可以用作该训练的一部分。在一个示例中，这是针对经常出现并且在图像合成中广泛使用的八个类别执行的：“人”、“汽车”、“船”、“狗”、“植物”、“瓶子”、“椅子”和“绘画'。

实际上，前景对象通常不包括在背景数字图像中，该背景数字图像将用作在前景数字图像中定位前景对象的基础。为了模拟训练中的这种情况，填充从原始数字图像804中获取前景对象的部分812，以从背景场景中去除前景对象。在一个示例中，使用颜色来填充部分812，该颜色被计算为从其中提取前景数字图像的背景数字图像的颜色的颜色平均值。

通过将填充部分812包括在正背景数字图像806中，学习的背景特征608可以响应于要插入的前景对象的位置、尺寸和/或宽高比，作为确定前景和背景数字图像的兼容性的一部分。例如，当在草坪上插入人时，高矩形意味着用户可能想要站立的人，而宽矩形可以指示坐着的人。由于用户准确性可能存在限制，因此不严格加强此约束。

为了解决这些限制，训练数据生成模块802可以实现数据增强处理，该处理将配对的前景和背景数字图像之间的尺寸和比例约束放松到限定的程度。对于背景增强，将随机填补添加到边界框，其中最大可能的填补空间被设置为边界框的宽度和高度的一半。填补区域也填充有平均颜色值。类似地，对于前景增强，添加随机填补以例如用白色填充来填充填补区域。对于三元组中的负前景数字图像，它是通过类似增强技术从另一图像中随机选择的。尽管可以选择实际上与背景兼容的一些前景对象，但是来自相同图像的前景仍然具有更大程度的兼容性，因此正示例和负示例之间的区别仍然成立。

尽管训练数据生成模块802可以快速且高效地生成来自相同图像的成对的正前景和背景，但是对于“m”个数目可用的数字图像，正样本的数目显著小于负样本的数目(例如“m”相对于“m(m-1)”)。训练样本数目的严重不平衡，加上负对采样中的噪声，其中一些兼容的前景被误处理为负样本，因此提出了挑战。为了解决这个问题，三元组扩展策略可以被训练数据生成模块802采用来生成附加的正样本，并且还可以被执行以生成附加的负样本。

例如，图9描绘了如上所述从原始数字图像804生成正前景数字图像808和正背景数字图像806。然后，训练数据生成模块802采用匹配标准来找到类似的前景和/或背景数字图像902、904。匹配标准的示例包括语义情境和形状信息。对于形状信息，在基于掩模中心对准之后，在两个前景掩模的并集(IoU)得分上计算交点。在该示例中，具有较高IoU得分的前景被认为具有更大的相似性。

对于语义情境信息，使用原始背景数字图像填充前景数字图像，并且通过经过训练用于图像分类的神经网络(例如使用ResNet50)使用机器学习来提取语义特征。然后通过比较在共同嵌入空间中提取的特征的欧几里德距离来检索类似的前景数字图像902。与依赖于具有例如白色像素的“纯”背景的特征提取的其他技术相比，该技术产生的结果具有更高的一致性。

实际上，具有刚性形状的前景对象对用于查看对象的视点的灵敏度增加。因此，形状信息在寻找类似的前景数字图像方面具有更高的有效性。另外，具有更多样化外观的前景对象可以根据不同场景而变化，因此语义情境信息在查找类似前景数字图像方面具有增加的有效性。因此，在上面的示例中，形状信息用于定位用于“瓶子”、“汽车”、“椅子”和“绘画”的正前景图像，并且语义情境信息用于定位用于“船”、“狗”、“人”和“植物”的类似前景图像。

因此，给定来自相同原始数字图像804的正前景数字图像808及其对应的正背景数字图像806，由训练数据生成模块802从数字图像120定位顶部“N”个相似前景数字图像902。这些类似的前景数字图像902被视为正背景数字图像806的兼容前景，例如作为训练数字图像的新三元组。以这种方式，可以增加正训练对的数目，并且还减少负对采样中的噪声。这还可以用于用类似的背景数字图像904代替正背景数字图像806，当与正前景数字图像808组合时，其还用于增加训练数字图像的三元组的数目。

图10描绘了示例实施方式1000，其中由图1的合成感知图像搜索系统118生成附加的负训练数字图像。该示例中的训练数据生成模块802生成将用作训练数字图像的三元组的一部分的附加负样本。为此，训练数据生成模块802基于如上所述的标准来定位不相似的前景或背景数字图像1002、1004。这些标准可以包括通过比较在共同嵌入空间中提取的特征的欧几里德距离(即，距离)来使用形状信息或特征提取。

将不参考图10，其中从单个数字图像提取正前景数字图像808和背景数字图像(框1102)。例如，原始数字图像804可以包括标记数字图像的个体像素的掩模数据。然后，该标记可以用于将前景对象提取为与背景数字图像的背景场景分离的前景数字图像。

然后，通过填充从中提取前景数字图像808的背景数字图像中的区域812来生成正背景图像806(框1104)。例如，可以使用计算为正背景数字图像806中位于区域812“外部”的像素的颜色值的颜色平均值的颜色来填充区域812。区域812因此提供可用于引导搜索前景数字图像的尺寸、形状和位置。

还获得负前景数字图像(框1106)。为此，训练数据生成模块802从数字图像120储存库中随机地采样前景对象来作为负样本，其被图示为负前景数字图像810。

还可以从包括文本的类别数据生成类别特征(框1108)。类别特征用于通过使用诸如word2vec的神经网络学习文本的向量表示来引导搜索。在一个示例中，这是针对经常出现并且在图像合成中广泛使用的八个类别执行的：“人”、“汽车”、“船”、“狗”、“植物”、“瓶子”、“椅子”和“绘画'。以这种方式，类别数据可以用于“引导”搜索。

基于正前景数字图像808、正背景数字图像806和负前景数字图像810，联合使用损失函数来训练背景特征机器学习系统124和前景特征机器学习系统126(框1110)。这还可以包括使用作为从图像提取的背景和前景特征的一部分而被嵌入的类别特征的训练。

因此，训练背景和前景特征机器学习系统124、126的卷积神经网络206、208的机器学习模型，采用训练数据，其被配置为数字图像的三元组。三元组被构造成包括被搜索的图像类型的正样本和负样本(例如前景或背景)以及未被搜索的备选图像类型的正示例。例如，对于前景搜索，三元组包括：作为锚的背景图像、作为正样本的兼容前景、以及作为负样本的不兼容前景。另一方面，对于背景搜索，三元组包括：作为锚的前景图像、作为正样本的兼容背景、以及作为负样本的不兼容背景。

采用三元组损失来训练神经网络并且加强特征相似性(例如在背景锚和正前景之间的特征相似性)，以更接近锚和负样本之间的特征相似性。因为特征向量在欧几里德归一化之后具有匹配的单位长度，所以可以将彼此的相似度计算为平方欧几里德距离。为了鼓励区分正样本和负样本对的能力，针对类“i”引入了正余量(margin)“α_i”。为方便起见，特征提取、多模紧凑双线性池化和归一化可以被分组为如下的操作表示

其中和分别是背景和前景流中类别“i”的操作。值“B_i”和表示背景数字图像及其相关的正(即，兼容)和负前景对象。在训练中，以下损失函数被最小化：

该设计比跨多个类别共享的功能表现出更高的有效性，其无法编码足够的特定于类别的信息。这些技术还表现出比独立地学习专用于每个类别的单独特征表示更高的计算效率。如上所述的离线和在线特征提取技术还可以支持数百万个数字图像的实时操作(例如以秒的方式)，从而支持实现这些技术的计算设备在用户交互方面的丰富性和操作效率的提高。

示例系统和设备

图12在1200处总体上图示了示例系统，其包括示例计算设备1202，计算设备1202表示可以实现本文描述的各种技术的一个或多个计算系统和/或设备。这通过包括合成感知图像搜索系统118来说明。计算设备1202可以是例如服务提供商的服务器、与客户端相关联的设备(例如客户端设备)、片上系统、和/或任何其他合适的计算设备或计算系统。

如图示的示例计算设备1202包括处理系统1204、一个或多个计算机可读介质1206、以及彼此通信地耦合的一个或多个I/O接口1208。虽然未示出，但是计算设备1202还可以包括系统总线或其他数据和命令传输系统，其将各种部件彼此耦合。系统总线可以包括不同总线结构(诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何总线架构的处理器或本地总线)中的任何一个或组合。还预期了各种其他示例，诸如控制和数据线。

处理系统1204表示使用硬件执行一个或多个操作的功能。因此，处理系统1204被图示为包括硬件元件1210，硬件元件1210可以被配置为处理器、功能块等。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其他逻辑器件。硬件元件1210不受形成它们的材料或其中采用的处理机构的限制。例如处理器可以包括(多个)半导体和/或晶体管(例如电子集成电路(IC))。在这种情境中，处理器可执行指令可以是电子可执行指令。

计算机可读存储介质1206被图示为包括存储器/存储装置1212。存储器/存储装置1212表示与一个或多个计算机可读介质相关联的存储器/存储装置容量。存储器/存储部件1212可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪速存储器、光盘、磁盘等)。存储器/存储部件1212可以包括固定介质(例如RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如闪速存储器、可移动硬盘驱动、光碟等)。计算机可读介质1206可以以各种其他方式配置，如下面进一步描述的。

(多个)输入/输出接口1208表示允许用户向计算设备1202输入命令和信息，并且还允许使用各种输入/输出设备将信息呈现给用户和/或其他部件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容或其他传感器)、相机(例如，其可以采用可见波长或诸如红外频率的不可见波长来将运动识别为不涉及触摸的手势)等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备1202可以以如下面进一步描述的各种方式进行配置，以支持用户交互。

本文可以在软件、硬件元件或程序模块的一般情境中描述各种技术。通常，这种模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、部件、数据结构等。本文使用的术语“模块”、“功能”和“部件”通常表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种商业计算平台上实现。

所描述的模块和技术的实施方式可以存储在某种形式的计算机可读介质上或跨某种形式的计算机可读介质进行传输。计算机可读介质可以包括可以由计算设备1202访问的各种介质。通过示例而非限制的方式，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以指代能够持久和/或非暂时存储信息的介质和/或设备，而不仅仅是信号传输、载波或信号本身。因此，计算机可读存储介质指的是非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性的硬件、可移动和不可移动介质和/或以适于存储诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据的信息的方法或技术实现的存储设备。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、磁带盒、磁带、磁盘存储装置或其他磁存储设备、或适于存储期望的信息并且可以由计算机访问的其他存储设备、有形介质或制品。

“计算机可读信号介质”可以指代信号承载介质，其被配置为诸如经由网络将指令传输到计算设备1202的硬件。信号介质通常可以包含计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据，诸如载波、数据信号或其他传输机制。信号介质还包括任何信息传递介质。术语“已调制数据信号”表示以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。通过示例而非限制的方式，通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外和其他无线介质的无线介质。

如先前所描述，硬件元件1210和计算机可读媒体1206表示以硬件形式实现的模块、可编程设备逻辑和/或固定设备逻辑，其可以在一些实施例中被采用以实现本文描述的技术的至少一些方面，诸如用于执行一个或多个指令。硬件可以包括集成电路或片上系统的部件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅或其他硬件的其他实施方式。在该情境中，硬件可以作为执行由硬件实施的指令和/或逻辑定义的程序任务的处理设备以及用于存储用于执行的指令的硬件(例如先前描述的计算机可读存储介质)来操作。

还可以采用前述的组合来实现本文描述的各种技术。因此，软件、硬件或可执行模块可以被实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1210实现的一个或多个指令和/或逻辑。计算设备1202可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，可以由计算设备1202作为软件执行的模块的实施方式可以至少部分地以硬件实现，例如通过使用计算机可读存储介质和/或处理系统1204的硬件元件1210。指令/或功能可以由一个或多个制品(例如一个或多个计算设备1202和/或处理系统1204)执行/操作，以实现本文描述的技术、模块和示例。

本文描述的技术可以由计算设备1202的各种配置支持，并且不限于本文描述的技术的特定示例。该功能还可以全部或部分地通过使用分布式系统来实现，诸如通过如下所述的平台1216在“云”1214上实现。

云1214包括和/或表示用于资源1218的平台1216。平台1216抽象云1214的硬件(例如，服务器)和软件资源的底层功能。资源1218可以包括在远离计算设备1202的服务器上执行计算机处理时可以使用的应用和/或数据。资源1218还可以包括在因特网上和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台1216可以抽象资源和功能以将计算设备1202与其他计算设备连接。平台1216还可以用于抽象资源的缩放，以提供相应的规模级别，以满足经由平台1216实现的对资源1218的需求。因此，在互连设备实施例中，本文描述的功能的实施方式可以分布在整个系统1200中。例如，功能可以部分地在计算设备1202上以及经由抽象云1214的功能的平台1216来实现。

结论

尽管已经用特定于结构特征和/或方法动作的语言描述了本发明，但是应该理解，在所附权利要求中限定的本发明不必限于所描述的具体特征或动作。相反，具体特征和动作被公开作为实现所要求保护的发明的示例形式。

Claims

1.一种在数字媒体合成感知数字图像搜索环境中的系统，包括：

背景特征机器学习系统，至少部分地以至少一个计算设备的硬件实现，以使用机器学习从数字图像中提取背景特征；

前景特征机器学习系统，至少部分地以所述至少一个计算设备的硬件实现，以使用机器学习从多个候选数字图像中提取前景特征；

得分计算模块，至少部分地以所述至少一个计算设备的硬件实现，以基于来自所述数字图像的提取的所述背景特征和来自所述多个候选数字图像的提取的所述前景特征，通过特征嵌入来计算得分；以及

搜索模块，至少部分地以所述至少一个计算设备的硬件实现，以基于计算出的所述得分来输出搜索结果。

2.根据权利要求1所述的系统，其中所述背景特征机器学习系统由卷积神经网络实现，并且所述前景特征机器学习系统由另一卷积神经网络实现。

3.根据权利要求1所述的系统，还包括：类别特征机器学习系统，所述类别特征机器学习系统至少部分地以所述至少一个计算设备的硬件实现，以从包括文本的类别数据生成类别特征，所述文本描述所述数字图像。

4.根据权利要求3所述的系统，其中所述类别特征是使用机器学习形成的所述文本的向量表示。

5.根据权利要求3所述的系统，其中所述类别特征被嵌入到所述背景特征和所述前景特征中，并且由所述得分计算模块使用以计算所述得分。

6.根据权利要求5所述的系统，其中所述嵌入是使用相应的多模紧凑双线性池化(MCB)模块来执行的。

7.一种在数字媒体环境中由计算设备实现的方法，所述方法包括：

由所述计算设备从单个数字图像中提取正前景数字图像和背景数字图像；

由所述计算设备通过填充所述背景数字图像中的区域，来生成正背景数字图像，所述前景数字图像是从所述背景数字图像中提取的；

由所述计算设备获得负前景数字图像；以及

由所述计算设备，基于所述正前景数字图像、所述正背景数字图像和所述负前景数字图像，联合使用损失函数来训练背景特征机器学习系统和前景特征机器学习系统。

8.根据权利要求7所述的方法，还包括：从类别数据生成类别特征，所述类别特征作为使用机器学习形成的文本的向量表示，所述类别数据包括所述文本，并且其中所述训练至少部分地基于所述类别特征。

9.根据权利要求7所述的方法，其中所述填充包括形成矩形，所述矩形具有与在所述数字图像中设置的所述前景数字图像相对应的尺寸、纵横比或位置。

10.根据权利要求7所述的方法，还包括计算所述背景数字图像的颜色的颜色平均值，所述前景数字图像是从所述背景数字图像中提取的，并且其中所述填充使用颜色平均值来填充所述区域。

11.根据权利要求7所述的方法，其中所述损失函数是三元组损失函数。

12.根据权利要求7所述的方法，还包括基于所述正前景数字图像来检索附加的正前景数字图像。

13.根据权利要求12所述的方法，其中所述检索至少部分地基于所述正前景数字图像的语义情境或形状。

14.根据权利要求12所述的方法，其中所述训练是基于所述附加的正前景数字图像以及所述正背景数字图像，联合使用所述损失函数来执行的。

15.根据权利要求7所述的方法，还包括基于所述正背景数字图像来检索附加的正背景数字图像。

16.根据权利要求15所述的方法，其中所述检索至少部分地基于所述正背景数字图像的语义情境或形状。

17.根据权利要求15所述的方法，其中所述训练是基于所述附加的正背景数字图像以及所述正前景数字图像，联合使用所述损失函数来执行的。

18.一种在数字媒体合成感知数字图像搜索环境中的系统，包括：

前景特征机器学习系统，至少部分地以至少一个计算设备的硬件实现，以使用机器学习从数字图像中提取前景特征；

背景特征机器学习系统，至少部分地以所述至少一个计算设备的硬件实现，以使用机器学习从多个候选数字图像中提取背景特征；

得分计算模块，至少部分地以所述至少一个计算设备的硬件实现，以基于来自所述数字图像的提取的所述前景特征和来自所述多个候选数字图像的提取的所述背景特征，通过特征嵌入来计算得分；以及

19.根据权利要求18所述的系统，还包括类别特征机器学习系统，所述类别特征机器学习系统至少部分地以所述至少一个计算设备的硬件实现，以从包括文本的类别数据来生成类别特征，并且将所述类别特征作为所述背景特征和所述前景特征的一部分嵌入，所述文本描述所述数字图像。

20.根据权利要求19所述的系统，其中所述类别特征是使用机器学习形成的所述文本的向量表示。