CN112015940A

CN112015940A - 文本到视觉机器学习嵌入技术

Info

Publication number: CN112015940A
Application number: CN202010182685.1A
Authority: CN
Inventors: 林哲; S·莫蒂安; P·阿加沃尔; B·法伊塔
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2019-05-30
Filing date: 2020-03-16
Publication date: 2020-12-01
Also published as: US20200380298A1; DE102020001790A1; US20210365727A1; AU2020202021B2; US11144784B2; US11775578B2; AU2020202021A1

Abstract

本公开的实施例涉及文本到视觉机器学习嵌入技术。描述了按照各种方式来克服常规技术中的挑战的文本到视觉机器学习嵌入技术。这些技术包括：使用基于查询的训练数据，这可以扩展可用于训练模型的训练数据的可用性和类型。还描述了负数字图像样本的生成，所述生成可以在使用机器学习来训练模型时提高准确性。还描述了一种损失函数，所述损失函数也例如，分离地通过在正样本嵌入或者负样本嵌入与文本嵌入之间的损失来支持提高的准确性和计算效率。

Description

文本到视觉机器学习嵌入技术

技术领域

本公开的实施例涉及数字图像领域，并且更具体地涉及数字图像机器学习嵌入技术。

背景技术

为了返回准确的搜索结果，数字图像搜索系统面临许多技术挑战，特别是在涉及基于文本的搜索的实例中。例如，常规的数字图像搜索系统依赖于与数字图像相关联的图像标签，这些图像标签可以被手动指定或者自动推断，例如，使用基于机器学习的图像标签技术。因此，为了执行搜索，被包括在文本查询中的文本与关联于数字图像的标签相匹配。然而，这些常规的系统和技术容易出错，特别是当文本查询包括大量文本时，并且通常是由于缺少支持灵活的语言描述变化的能力。

在一个常规示例中，包括文本“在海滩边抱着狗坐在椅子上的人”的文本查询被接收。基于标签的常规数字图像搜索系统通常返回具有也被包括在文本查询中的标签中的任何一个标签的搜索结果。因此，这些常规系统的用户通常面临只包括人、狗(狗可以包括犬或者食物)、椅子或者海滩的搜索结果。该搜索结果还与这些标签的子组合混合，例如，有狗的人、吃热狗的人、在海滩上的椅子等。进一步地，一些常规系统(例如，基于库存图像的搜索系统)甚至可能由于文本查询的长度而无法返回结果。因此，常规数字图像搜索系统可能需要用户手动浏览(navigate)搜索结果中的数百个数字图像以找到感兴趣的数字图像，可能迫使用户发起具有不同文本组合的大量搜索，等等。这由于浏览的效率低下以及数字图像搜索系统对用于传送、执行和重复这些搜索的网络和计算资源的使用的效率低下而导致用户感到沮丧。

发明内容

描述了按照各种方式来克服常规技术中的挑战的文本到视觉机器学习嵌入技术。在一个示例中，通过使用训练数据生成模块生成训练数据来执行这一点，该训练数据提高了使用机器学习而被训练的模型的准确性。例如，可以基于被用于发起搜索数字图像和从搜索结果中选择数字图像的文本查询来生成基于查询的训练数据。按照这种方式，可以针对大量数字图像和文本确定文本查询与数字图像的关联。还可以通过使用基于标题的训练数据来扩展对基于查询的训练数据的使用作为多任务学习的一部分，这通过限制在基于查询的训练数据中的噪声来提高训练准确性，并且支持使用长文本序列。

训练数据生成模块还被配置为生成在使用机器学习来训练模型时提高准确性的负数字图像样本。通过生成以下负数字图像样本来执行这一点：该负数字图像样本具有与正数字图像样本相似的语义含义和/或视觉含义，但是不具有与正数字图像样本完全相同的组成部分。

在一个示例中，通过从数字图像的子集中选择负数字图像样本来执行这一点，这些数字图像不止具有一个文本项，文本项不包括停用词，还被包括在与正数字图像样本相关联的文本中。在另一示例中，通过从数字图像的子集中选择负数字图像样本来执行这一点，这些数字图像不具有每个文本项，文本项不包括停用词，还被包括在与正数字图像样本相关联的文本中。然后，该训练数据可以被用于生成支持单个统一的文本和数字图像嵌入空间的模型，该模型被配置为将文本和数字图像视为同一实体，并且因此，克服了仅基于文本的常规技术的限制。

还描述了一种利用损失函数来训练模型的机器学习训练模块。与常规的损失函数相比较，该损失函数通过以下方式来支持提高的准确性和计算效率：与在从负数字图像样本生成的负图像嵌入和以下文本嵌入之间计算出的损失分开地处理在从正数字图像样本生成的正图像嵌入与该文本嵌入之间计算出的损失：基于与正数字图像样本相关联的文本而计算出该文本嵌入。这允许在正图像嵌入与文本嵌入之间的距离随着时间的推移而减少(在训练期间)，而在负图像嵌入与文本嵌入之间的距离增加，从而与常规的训练技术相比较，提高了模型准确性。

本发明内容按照简化形式介绍了对构思的选择，下面在具体实施方式中进一步描述了这些构思。同样，本发明内容不旨在标识所要求保护的主题的本质特征，也不旨在被用于帮助确定所要求保护的主题的范围。

附图说明

参照附图描述了具体实施方式。在图中表示的实体可以指示一个或者多个实体，并且因此，在讨论中，可以互换地引用实体的单数形式或者复数形式。

图1是示例实现中可操作以采用本文描述的文本到视觉机器学习嵌入技术的数字媒体环境的图示。

图2描绘了在示例实现中的系统，其中服务提供方系统基于文本查询和与文本查询相关联的数字图像来生成基于查询的训练数据集。

图3是描绘了在示例实现中的过程的流程图，其中训练数据集被用于使用机器学习来训练模型，训练数据集基于数字图像而被生成，并且文本查询被用于对数字图像进行定位作为搜索的一部分。

图4描绘了在示例实现中的系统，其中生成训练数据集，该训练数据集包括基于正数字图像样本和相关联的文本而被选择的负数字图像样本。

图5是描绘了在示例实现中的过程的流程图，其中基于对与负数字图像样本相关联的文本和与正数字图像样本相关联的文本的比较来生成负数字图像样本。

图6描绘了在示例实现中的系统，该系统示出了机器学习训练模块基于以下训练数据集使用多任务训练来对模型进行多任务训练：基于查询的训练数据集和基于标题的训练数据集。

图7描绘了更详细地示出了机器学习训练模块的在生成嵌入和使用损失函数时的操作的系统。

图8描绘了更详细地示出了图7所示文本嵌入模块的以下操作的系统：从与正数字图像样本相关联的文本生成文本嵌入。

图9描绘了在如本文描述的、常规的三元组损失与正感知三元组排序损失之间的图形比较。

图10描绘了在示例实现中的过程，其中基于损失函数来训练模型，该损失函数与在文本嵌入和负图像嵌入之间的损失分开地解决在文本嵌入和正图像嵌入之间的损失。

图11图示了包括示例设备的各种组件的示例系统，该示例设备可以被实现为如参照图1至图10描述的和/或利用的任何类型的计算设备以实现本文所描述的技术的实施例。

具体实施方式

概况

为了返回准确的搜索结果，数字图像搜索系统面临许多技术挑战和计算挑战，特别是在涉及基于文本的搜索的实例中。为了使用常规的数字图像搜索系统来执行搜索，使被包括在文本查询中的文本与关联于数字图像的标签相匹配。然而，这些常规的系统和技术容易出错，特别是当文本查询包括大量文本时。这通常是由于常规系统缺少支持有关语言描述的变化(例如，作为食物项的“热狗”和作为喘气的狗的“感到热的狗”)的灵活性的能力以及缺少解决如何按顺序布置文本的能力。

因此，常规的图像搜索系统可能需要用户浏览搜索结果中的数百个数字图像以找到感兴趣的数字图像，可能迫使用户发起具有不同文本组合的大量搜索，等等。这由于浏览的效率低下以及对用于传送和执行这些搜索的网络和计算资源的使用的效率低下而导致用户感到沮丧。在使被用于标识图像的标签的文本的基础含义相匹配时被用于表达文本查询的文本的可靠性进一步加剧了这种挑战，在一些实例中(例如，在描述由数字图像中的场景引起的情绪时),可能难以实现这种可靠性。

因此，描述了克服常规系统和技术中的挑战的文本到视觉(即，语义的/视觉的)机器学习嵌入技术。这包括用于生成训练数据的技术以及可用于支持将数字图像和文本映射到单个统一的嵌入空间中以及支持克服常规挑战的损失函数的训练技术。

训练数据生成模块使用多个数字图像和相关联的文本来生成训练数据集。在该实例中，相关联的文本包括被用于对相应数字图像进行定位(例如，作为搜索引擎、库存图像系统等进行图像搜索的一部分)的文本查询。按照这种方式，训练数据生成模块可以按照有效的方式来采集用户选择作为与被用于对那些数字图像进行定位的文本相对应的大量数字图像。这克服了常规技术中的挑战，在常规技术中，准确的训练数据的可用性受到限制(例如，有限数目的样本)并且是昂贵的，因为通常涉及进行手动贴标签，进行手动贴标签可能由于对标签的不一致的应用而导致不准确性。

训练数据生成模块还可以被配置为生成基于标题的训练数据集，例如，以支持多任务训练以及基于查询的训练数据集。基于标题的训练数据集包括数字图像和与数字图像相关联的标题(例如，图像标题栏)。基于标题的训练数据集被用于解决较长的句子和从基于查询的训练数据集中移除用户查询噪声(例如，针对不与文本查询相对应的“已点击图像”)。通过利用基于查询的训练数据集使用基于标题训练数据集而实现的多任务训练提高模型训练的准确性和计算效率作为如在下面的讨论中进一步描述的机器学习的一部分。

训练数据生成模块还可以采用用于生成负数字图像样本的技术。在如由机器学习训练模块实现的机器学习中，正数字图像样本被用作与文本“正确”对应关系的实例，而负数字图像样本被用于提高例如，按照以下方式而被选择的模型的辨别力(discrimination)：负数字图像样本不与正数字图像样本属于同一类别。通过生成以下负数字图像样本来执行这一点：该负数字图像样本具有与正数字图像样本相似的语义含义和/或视觉含义，但是不具有与正数字图像样本完全相同的组成部分。

在一个示例中，由训练数据生成模块通过从数字图像的子集中选择负数字图像样本来执行这一点，这些数字图像不止具有一个文本项，文本项不包括停用词，还被包括在与正数字图像样本相关联的文本中。在另一示例中，通过从数字图像的子集中选择负数字图像样本来执行这一点，这些数字图像不具有每个文本项，文本项不包括停用词，还被包括在与正数字图像样本相关联的文本中。

作为使用机器学习来训练模型的一部分，机器学习训练模块还可以实现进一步提高模型的准确性和计算效率的损失函数。继续上面的示例，机器学习训练模块使用正数字图像样本、负数字图像样本以及与正数字图像样本相关联的文本来训练模型。机器学习训练模块使用机器学习来从文本生成文本嵌入，例如，通过递归神经网络。还从正数字图像样本生成正图像嵌入和从负数字图像样本生成负图像嵌入，例如，通过卷积神经网络编码器。

在该示例中，损失函数被配置为与在文本嵌入和负图像嵌入之间的损失分开地对在文本嵌入和正图像嵌入之间的损失进行评估。这使得正图像嵌入相对于文本嵌入具有提高的相似性(并且因此，聚类在一起)，并且负图像嵌入相对于文本嵌入具有提高的相异性。这提高了模型辨别这些样本的能力，即，提高了模型准确性。按照这种方式，与不支持分离地解决这些损失的这种能力的常规损失函数相比较，提高了模型的准确性。

在下面的讨论中，首先描述了可以采用本文所描述的技术的示例环境。还描述了可以在示例环境以及其他环境中执行的示例过程。因此，示例过程的执行不限于示例环境，并且示例环境不限于示例过程的执行。

示例环境

图1是示例实现中可操作以采用本文所描述的文本到视觉机器学习嵌入技术的数字媒体环境100的图示。所图示的环境100包括经由网络106被通信地耦合的服务提供方系统102和客户端设备104。可以使用计算设备的各种不同配置来实现服务提供方系统102和客户端设备104。

例如，计算设备可以被配置为台式计算机、膝上型计算机、移动设备(例如，假设手持式配置，诸如，如针对客户端设备104说明的平板电脑或者移动电话)等。因此，计算设备的范围可以从具有大量存储器和处理器资源的完整资源设备(例如，个人计算机、游戏控制台)到具有有限的存储器和/或处理资源的低配资源设备(例如，移动设备)。附加地，计算设备可以表示多个不同的设备，诸如，由企业利用来如针对服务提供方系统102示出的并且如关于图11进一步描述的那样“在云上”执行操作的多个服务器。

如图示的客户端设备104包括通信模块108(例如，浏览器或者启用网络的应用)，该通信模块108可使用计算机可读存储介质和处理系统执行以经由网络106来访问服务提供方系统102的功能性。该功能性可以采取各种形式，诸如，用于使用搜索模块114来搜索被图示为被存储在存储设备112中的数字图像110。可以由本文所描述的功能性支持的特征的其他示例包括机器翻译、文本检索、语音识别、文本摘要等。进一步地，虽然将该功能性说明为由服务提供方系统102实现，但是功能性可以由客户端设备104在本地全部或者部分地实现。

例如，通信模块108可以经由用户界面118来接收文本查询116—“跑鞋”。经由网络106来传送文本查询116，并且通过搜索模块114来处理文本查询116。搜索模块114采用使用机器学习而被训练的模型120来实现单个统一的文本和数字图像嵌入空间122以执行搜索。该单个统一的文本和数字图像嵌入空间122在常规的仅基于文本的嵌入技术被用于解决文本与数字图像之间的关系(例如，以获得有关在本文中表达了“什么”的视觉直觉)时克服该技术的限制。

如先前描述，常规的搜索技术容易出错，特别是当文本查询包括大量文本时。这通常是由于缺少支持有关语言描述的变化以及语言描述针对不同对象的变化的灵活性的能力。在图示的示例中，例如，常规系统可以使文本查询“跑鞋”与具有文本的任何中心点(pivot)(即，不是停用词并且被用作执行搜索的基础的文本术语)的标签的数字图像相匹配，这些数字图像的示例包括：奔跑的狗的数字图像124(1)、鞋子的数字图像124(3)和沿着实际搜索目标跑步的人的数字图像124(4)，例如，跑鞋的数字图像124(3)。停用词是被过滤为与搜索无关的常用词，例如，“和”、“该”、“一”、“一个”等作为通用词。

然而，在本文所描述的技术中，为模型120生成单个统一的文本和数字图像嵌入空间122作为机器学习的一部分，该机器学习与常规技术相比较以提高的准确性和计算效率来克服这些挑战。例如，使用模型120来搜索“金碗”将限制并且甚至消除如在常规技术中通常遇到的包括金鱼、金锭等数字图像的若干实例。

为此，本文所描述的数字媒体环境100实现各种功能性，这些各种功能性可以如在下面的讨论的相应章节中进一步描述的那样一起或者按照子组合被执行。在图示的示例中，服务提供方系统102采用训练数据生成模块126来生成训练数据集128，该训练数据集128被用于由机器学习训练模块130使用损失函数132来训练模型120。训练数据集128可以基于可以与数字图像相关联的各种不同类型的文本。

在随后的讨论之后的基于查询的训练数据集章节中，训练数据集128由训练数据生成模块126使用多个数字图像和相关联的文本而被生成。在该实例中，相关联的文本包括被用于对相应数字图像进行定位的文本查询。例如，训练数据生成模块126可以接收包括文本查询(例如，跑鞋)和被包括在用户选择的数字图像搜索结果中的数字图像的数据，例如数字图像124(3)。按照这种方式，训练数据生成模块126可以按照有效的方式来采集用户选择作为与那些数字图像相对应的许多数字图像和文本。这克服了常规技术中的挑战，在常规技术中，准确的训练数据的可用性受到限制(例如，有限数目的样本)并且是昂贵的，因为通常涉及进行手动贴标签，进行手动贴标签可能由于对标签的不一致的应用而导致不准确性。

训练数据生成模块126还可以被配置为生成基于标题的训练数据集，作为如也在基于查询的训练数据集章节中描述了的训练数据集128的一部分，例如，作为多任务训练的一部分。基于标题的训练数据集包括数字图像和与数字图像相关联的标题(例如，图像标题栏)。例如，可以结合基于查询的训练数据集使用基于标题的训练数据集来训练模型120，以解决较长的句子、文本序列和从基于查询的训练数据集中移除用户查询噪声，例如，针对不与文本查询相对应的“已点击图像”。使用基于标题的训练数据集以及基于查询的训练数据集如在对应的章节中进一步描述的那样提高了模型120的准确性和计算效率。

作为生成训练数据集128的一部分，训练数据生成模块126还可以采用用于生成负数字图像样本的技术。在如由机器学习训练模块130实现的机器学习中，正数字图像样本被用作与文本“正确”对应关系的实例，而负数字图像样本被用于提高例如，按照以下方式而被选择的模型120的辨别力：负数字图像样本不与正数字图像样本属于同一类别。

如在负数字图像样本生成章节中进一步描述的，训练数据生成模块126可以按照提高模型120的准确性的方式来自动地并且在没有用户干预的情况下生成负数字图像样本。为此，训练数据生成模块126从具有相关联的文本(例如，如上所述文本查询或者标题)的多个数字图像中选择正数字图像样本。

在一个实例中，训练数据生成模块126从多个数字图像生成子集，该子集包括多个数字图像中不具有与正数字图像样本的关联文本相关联的任何项的数字图像。例如，假定正数字图像样本具有“在摩托车上的人”的关联文本。然后，对数字图像进行过滤以形成具有不与“人”或者“摩托车”相关联的数字图像的子集。然后，子集被用来选择负数字图像样本。例如，训练数据生成模块126可以自动地并且在没有用户干预的情况下选择子集中“最接近”(通过比较相应的嵌入)正数字图像样本的数字图像，例如，相距最小的平方距离。例如，可以对上面所描述的基于查询的训练数据执行这一点。按照这种方式，负数字图像样本可以提高模型120辨别数字图像和文本关联的“好”示例和“坏”示例的能力。

在另一示例中，训练数据生成模块126可以自动地并且在没有用户干预的情况下生成甚至“更硬的”负数字图像样本。为此，在该示例中，训练数据生成模块126还从以下多个数字图像生成子集：该多个数字图像不包括多个数字图像中具有每个项的数字图像，项不包括停用词(即，“中心点”)，在与正数字图像样本相关联的文本中。然后，训练数据生成模块126从该子集中选择负数字图像样本。例如，再次假定正数字图像样本具有“在摩托车上的人”的关联文本。然后，从多个数字图像过滤掉具有“人”或者“摩托车”的数字图像，剩余的数字图像形成子集。然后，使用子集来选择负数字图像样本。例如，可以对如上所述通常包括大量文本的基于标题的训练数据执行这一点。结果，模型120还能够分辨数字图像和文本关联的“好”示例和“坏”示例作为训练的一部分。

如在下面的讨论中的损失函数章节中描述的，机器学习训练模块130还可以实现损失函数132作为训练和使用模型120的一部分，该损失函数132进一步提高了模型120的准确性和计算效率。继续上面的示例，机器学习训练模块130使用正数字图像样本、负数字图像样本以及与正数字图像样本相关联的文本来训练模型120。机器学习训练模块130使用机器学习来从文本生成文本嵌入，例如，通过递归神经网络。还从正数字图像样本生成正图像嵌入和从负数字图像样本生成负图像嵌入，例如，通过卷积神经网络编码器。

在该示例中，损失函数132被配置为与在文本嵌入和负图像嵌入之间的损失分离地对在文本嵌入和正图像嵌入之间的损失进行评估。这使得在训练期间，正图像嵌入相对于文本嵌入具有提高的相似性(并且因此，聚类在一起)，并且负图像嵌入相对于文本嵌入具有提高的相异性，例如，以使集群“变紧”。这提高了模型120辨别这些样本的能力，即，提高了模型120准确性。按照这种方式，与不支持如在下面的讨论中的对应章节中进一步描述的那样分离地解决这些损失的这种能力的常规损失函数相比较，提高了模型的准确性。

通常，可以在本章节中所描述的示例过程的上下文中采用关于上面的和下面的示例所描述的功能性、特征和概念。进一步地，关于本文档中的不同附图和示例所描述的功能性、特征和概念可以彼此互换，并且不限于在特定附图或者过程的上下文中的实现。此外，可以按照不同的方式来一起应用和/或组合与本文中的不同代表性过程和对应附图相关联的块。因此，可以按照任何合适的组合来使用关于本文中的不同示例环境、设备、组件、附图和过程所描述的单独的功能性、特征和概念，而不限于本说明书中由列举的示例表示的特定组合。

基于查询的训练数据集

图2描绘了在示例实现中的系统200，其中服务提供方系统102基于文本查询和与文本查询相关联的数字图像生成基于查询的训练数据集202。图3描绘了在示例实现中的过程300，其中训练数据集被用于使用机器学习来训练模型。训练数据集基于数字图像和被用于对数字图像进行定位作为搜索的一部分的文本查询而被生成。

下面的讨论描述了可以利用先前描述的系统和设备来实现的技术。可以在硬件、固件、软件或者其组合中实现过程的各个方面。该过程被示出为指定由一个或者多个设备执行的操作的一组框，并且不必限于所示的用于执行相应框的操作的顺序。在下面的讨论的各个部分中，将可互换地参照图1至图3。

训练数据的准确性是在使用机器学习来训练模型120以准确地执行功能时的驱动因素之一。另一驱动因素是：获得足够数量的、准确的训练数据。然而，实际上，这可能很困难。例如，被用于对数字图像进行贴标签的常规技术通常依赖于用户手动指示哪些对象被包括在数字图像中、对象的特性、由对象引起的情绪等。然而，这可能因人而异，并且当试图反对足够数量的数字图像和相关联的文本执行机器学习时，这还是昂贵的。

因此，图2所示系统200被配置为基于数字图像搜索来生成基于查询的训练数据集202。在图示的示例中，服务提供方系统102包括搜索模块114，该搜索模块114被配置为支持从存储设备112中搜索数字图像110，例如，在服务提供方系统102本地或者远离服务提供方系统102。例如，服务提供方系统102可以支持存储设备112，该存储设备112包括数字图像110作为“库存”，可以免费获得“库存”的访问权限、付费购买(例如，订阅或者“品目分类”)“库存”等。在另一实例中，服务提供方系统102实现搜索引擎系统的搜索模块114部分，该搜索模块114部分对由第三方系统维持的数字图像进行定位。还预期了其他实现示例。

在图示的示例中，经由客户端设备104的用户界面118输入如先前关于图1所描述的文本查询116—“跑鞋”。作为响应，客户端设备104从服务提供方系统102接收包括如在用户界面118中显示的数字图像124(1)至124(4)的搜索结果。然后，经由用户界面118接收用户输入，该用户输入被图示为通过客户端设备104的、选择数字图像124(3)的触摸屏功能性而被检测到的轻拍姿势。训练数据生成模块126使用该用户输入来确定数字图像124(3)与文本查询116的文本的关联。因此，训练数据生成模块126可以使用该对应关系来基于数据206和数据208生成基于查询的训练数据集202，该数据206描述文本查询116，该数据208描述在搜索结果中选择的数字图像124(3)。按照这种方式，训练数据生成模块126可以获得与大量不同文本相关联的大量数字图像，并且同样，克服了常规的训练数据的限制。

例如，训练数据生成模块126可以如在图3中图示的那样从大量客户端设备104接收被用于发起多次数字图像搜索的多个文本查询(框302)。训练数据生成模块126还接收用户从由多次数字图像搜索生成的搜索结果中选择(例如，经由姿势、光标控制设备、口语)的多个数字图像(框304)。因此，训练数据生成模块126接收多个数字图像和分别与多个数字图像相关联的文本查询。按照这种方式，数字图像和文本可以覆盖较宽范围的以下数字图像和文本关联：使用常规的手动贴标签方法以及甚至是可以支持有限的文本实例的常规自动化技术很难获得这些数字图像和文本关联，即使不是不可能。

训练数据生成模块126基于多个文本查询和多个数字图像来生成训练数据集128(框306)。例如，可以将多个数字图像视为相关联的文本查询的正数字图像样本。训练数据生成模块126还可以生成负数字图像样本以用作训练的一部分，可以在下面的讨论中的负数字图像样本生成章节中找到对这一点的进一步讨论。在图示的示例中，这产生基于查询的训练数据集202。

如在图1中图示的，训练数据集128被从训练数据生成模块126传递至机器学习训练模块130。该机器学习训练模块130被配置为通过使用训练数据集来基于损失函数132而使用机器学习训练模型120(框308)。一旦训练了模型120，搜索模块114然后就可以使用模型120来生成后续搜索结果(框310)，例如，响应于后续搜索查询。

训练数据生成模块126还可以被采用来使用数字图像和相关联的文本的其他源生成训练数据集128。例如，基于查询的训练数据集202可以包括由选择了无法准确地反映文本查询中的文本的数字图像而引起的“噪声”。这可能是由用户对不是准确地对应于文本查询的数字图像的搜索结果感兴趣而引起的。例如，用户可以输入文本查询“跑鞋”，但是接收是用户感兴趣的品种的、奔跑的狗的数字图像124(1)作为搜索结果的一部分。因此，对数字图像124(1)的用户选择不能准确地反映文本查询与数字图像的关联，而是指示用户对图像的兴趣。因此，描述文本查询116与数字图像124(1)之间的关联的数据可能引入“噪声”。在其他实例中，对于包含大量文本的文本查询，搜索模块114可能不返回结果，例如，如在一些库存数字图像系统中可能发生。

因此，训练数据生成模块126还可以获得与可以被用于补充训练数据集128的文本相关联的数字图像。一个这种示例包括具有由训练数据生成模块126用于生成基于标题的训练数据集422的相关联的标题(例如，标题栏)的数字图像。实际上，与数字图像相关联的标题可以包括被用于描述数字图像中的对象、对象特性、位置、引起的情绪等的大量文本。通过将基于标题的训练数据集422与基于查询的训练数据集202包括在一起，训练数据集128可以解决在基于查询的训练数据集202中引入的噪声，支持使用“长句子”，解决文本序列，并且因此，能够以提高的准确性和效率来理解文本查询，例如，能够支持“女孩猫”和“抱着猫的女孩”作为文本查询。在下一章节中包括对训练数据集128的生成的进一步讨论。

负数字图像样本生成

图4描绘了在示例实现中的系统400，其中生成包括基于正数字图像样本和相关联的文本而被选择的负数字图像样本的训练数据集。图5描绘了在示例实现中的过程500，其中基于对与负数字图像样本相关联的文本和与正数字图像样本相关联的文本的比较生成负数字图像样本。

下面的讨论描述了可以利用先前描述的系统和设备来实现的技术。可以在硬件、固件、软件或者其组合中实现过程的各个方面。该过程被示出为指定由一个或者多个设备执行的操作的一组框，并且不必限于所示的用于执行相应框的操作的顺序。在下面的讨论的各个部分中，将可互换地参照图1、图4和图5。

当通过机器学习训练模块130来训练模型120时，正数字图像样本和负数字图像样本被用作三元组损失的一部分以调整在模型120的神经网络中的神经元的权重。执行这一点以确保：对于由模型120实现的嵌入空间，具有相同或者相似文本的示例(即，数字图像)在嵌入空间(即，单个统一的文本和数字图像嵌入空间122)中紧密地聚类在一起，而具有不同文本的示例在嵌入空间中未靠近在一起，并且使得形成更紧密的集群。

在本章节中，描述了用于生成在通过机器学习训练模块130来训练模型120时提高准确性和计算效率的负数字图像样本的技术。由训练数据生成模块126通过以下操作来自动地并且在没有用户干预的情况下实现这一点：生成具有与正数字图像样本的语义含义和/或视觉含义相似，但是不完全相同的语义含义和/或视觉含义的负数字图像样本，并且因此，提高了模型120辨别这些样本的能力。

开始，训练数据生成模块126接收多个数字图像和相关联的文本402(框502)。该多个数字图像和相关联的文本402可以包括数字图像和文本查询404、数字图像和标题406以及可以被用于生成训练数据集128的数字图像和文本关联的其他示例。

然后，训练数据生成模块126基于数字图像和相关联的文本402自动地并且在没有用户干预的情况下生成训练数据集128(框504)。首先，正数字图像生成模块408从多个数字图像中选择正数字图像样本410(框506)。可以通过使用队列等从数字图像和相关联的文本402中选择任何数字图像来执行这一点。

然后，负样本生成模块412基于正数字图像样本410从数字图像和相关联的文本402生成负数字图像样本414。负样本生成模块412可以按照各种方式来执行这一点，以下这些各种方式的示例包括：对多个数字图像402进行过滤。

在过滤的一个示例中，多个数字图像的子集由负样本生成模块412生成。通过从多个数字图像402中移除具有至少一个文本项的数字图像来执行这一点，该至少一个文本项不包括停用词，还被包括在与正数字图像样本相关联的文本中(框510)，剩余的数字图像形成子集。例如，如果与正数字图像样本相关联的文本是“在一辆摩托车上的人”，则移除停用词“在…上的”和“一辆”产生文本项“人”和“摩托车”，即，“中心点”。因此，数字图像402中与包括“人”或者“摩托车”的文本相关联的每个数字图像被移除以形成子集，即，从多个数字图像402中过滤掉其他图像。

然后，负样本生成模块412从子集中选择负数字图像样本414(框514)。例如，负样本生成模块412可以使用相应的文本嵌入基于与正数字图像样本410的最小平方距离来选择“N”个负样本，这些相应的文本嵌入使用卷积神经网络而被生成。这是“硬的”负图像选择的示例，在实现中，其被用于从数字图像和文本查询404生成基于查询的训练数据集202，该基于查询的训练数据集202被用作如下面进一步描述的多任务训练的一部分。

在另一示例中，负样本生成模块412生成多个数字图像的子集，该子集不包括具有每个文本项的数字图像，文本项不包括停用词，还被包括在与正数字图像样本410相关联的文本中(框512)。换言之，从多个数字图像中对确实具有每个文本项的数字图像进行过滤，剩余数字图像形成子集。又从子集中选择负数字图像样本414(框514)。继续先前的示例，如果与正数字图像样本相关联的文本是“在一辆摩托车上的人”，则移除停用词在“在…上的”和“一辆”产生文本项“人”和“摩托车”，即，“中心点”。然后从数字图像和相关联的文本402生成子集，剩余的数字图像和相关联的文本402不与包括“人”和“摩托车”的文本相关联。这被认为是生成了甚至“更硬的”负样本，并且在实现中，被用于数字图像和标题406以生成基于标题的训练数据集422作为多任务训练的一部分。例如，这可以被用于解决技术挑战，因为针对标题通常观察到的文本量大于针对文本查询通常观察到的文本量，并且因此，针对具有提高的鲁棒性的标题，这生成负数字图像样本414。

在该示例中，负样本生成模块412又从子集中选择负数字图像样本414(框514)。例如，负样本生成模块412可以使用相应的图像嵌入基于与正数字图像样本410的最小平方距离来选择“N”个负样本，这些相应的图像嵌入使用卷积神经网络(CNN)而被生成。

三元组形成模块416生成如包括正数字图像样本410、多个文本中与正数字图像样本410相关联的文本420以及负数字图像样本414的三元组(框516)。例如，文本提取模块418可以从数字图像和对应于正数字图像样本410的相关联的文本402提取文本420。按照这种方式，训练数据生成模块126从数字图像和相关联的文本402生成训练数据集128，该训练数据集128可以包括基于查询的训练数据集202和基于标题的训练数据集422，基于查询的训练数据集202和基于标题的训练数据集422可用于如在下一章节中进一步描述的那样使用损失函数132来训练模型120作为机器学习的一部分(框518)。

损失函数

图6描绘了在示例实现中的系统600，该系统示出了机器学习训练模块130基于以下训练数据集使用多任务训练来对模型120进行多任务训练：基于查询的训练数据集202和基于标题的训练数据集422。图7描绘了系统700，该系统700更详细地示出了机器学习训练模块130的在生成嵌入和使用损失函数132时的操作。图8描绘了更详细地示出了图7所示文本嵌入模块的以下操作的系统800：从与正数字图像样本相关联的文本生成文本嵌入。图9描绘了在如本文描述的、常规的三元组损失与正感知三元组排序损失之间的比较。图10描绘了在示例实现中的过程1000，其中基于损失函数来训练模型，该损失函数与在文本嵌入和负图像嵌入之间的损失分开地解决在文本嵌入和正图像嵌入之间的损失。

下面的讨论描述了可以利用先前描述的系统和设备来实现的技术。可以在硬件、固件、软件或者其组合中实现过程中的每个过程的各个方面。这些过程被示出为指定由一个或者多个设备执行的操作的一组框，并且不必限于所示的用于执行相应框的操作的顺序。在下面的讨论的各个部分中，将可互换地参照图1和图6至图10。

如先前描述的，可以在通过机器学习训练模块130来训练模型120时采取多任务训练方法。在图6中通过使用包括基于查询的训练数据集202和基于标题的训练数据集422的训练数据集128来执行这一点。这些数据集中的每个数据集包括如在前一章节中描述的、正数字图像样本的相应三元组602、604、与相应的正数字图像样本相关联的文本以及负数字图像样本。按照这种方式，机器学习训练模块130被配置为从基于查询的训练数据集202捕获有关文本查询与相应的数字图像的关联的用户意图，并且还使用基于标题的训练数据集422来创建长文本序列(例如，句子)的嵌入。因此，一旦训练了模型120，模型120就能够以提高的效率和准确性来解决文本和文本序列，例如，能够解决“女孩猫”和“抱着猫的女孩”的差异。

作为其一部分，机器学习训练模块130生成单个统一的文本和数字图像嵌入空间122，数字图像和相关联的文本被一起投影到该统一的文本和数字图像嵌入空间122。例如，机器学习训练模块130可以利用预训练的架构，对较大的数字图像语料库训练这些预训练的体系结构以对标签进行预测，这些标签的示例包括VGG-19、ResNet-152、ResNet-50等。例如，被定位在这些架构中的最后一个激活层之前的层(即，SoftMax层)可以由机器学习训练模块130利用作为公共的基于图像的嵌入空间。为此，将三元组损失的修改过的版本用作损失函数132以训练模型120。

图7描绘了系统700，该系统700更详细地示出了机器学习训练模块130的在生成嵌入和使用损失函数132以训练模型120时的操作。继续先前的示例，机器学习训练模块130被配置为执行多任务训练，在该多任务训练中，分离地从基于查询的训练数据集202和基于标题的训练数据集422采取样本。例如，样本可以形成三元组，该三元组包括正数字图像样本、与正数字图像样本相关联的文本以及基于正数字图像样本而被生成的负数字图像样本。

因此，如上所述，服务提供方系统102可以分别接收多个数字图像和与多个数字图像相关联的多个文本(框1002)，例如，文本查询、标题等。然后，利用训练数据生成模块126来基于多个数字图像和多个文本生成训练数据集128。训练数据集128包括正数字图像样本、多个文本中与正数字图像样本相关联的文本以及负数字图像样本(框1004)。然后，训练数据生成模块126输出训练数据集128，并且机器学习训练模块130作为输入接收训练数据集128。

机器学习训练模块130使用训练数据集128来基于损失函数132而使用机器学习训练模型120(框1006)。机器学习训练模块130通过使用文本编码器702和数字图像编码器704形成文本和数字图像的嵌入(例如，向量)以分别生成文本嵌入706以及正图像嵌入708和负图像嵌入710来开始训练模型120(框1008)。在图示的示例中的文本编码器702使用递归神经网络(RNN)语言编码器712基于文本来生成文本嵌入706(例如，长度为2048的向量)。RNN是神经网络的类型，其中节点之间的连接针对沿着时间序列的有向图，并且可以使用内部状态来处理输入的序列。按照这种方式，文本嵌入706可以捕获文本的顺序(例如，在文本查询或者文本输入内)，在基于标签的方法中，这是不可能的。

图8描绘了更详细地示出了文本编码器702的操作的示例的系统800。文本编码器702包括预训练的单词嵌入模块802，该预训练的单词嵌入模块802具有字典，该字典在特定语言内包含针对文本的嵌入，针对文本的嵌入的示例被称为“Fasttext”。由预训练的单词嵌入模块802生成的单词嵌入提供有关文本到模型的语义信息。

然后，预训练的单词嵌入模块802的输出被提供至堆叠的长短期存储器(LSTM)单元804的类集以彼此捕获文本的顺序信息。堆叠的LSTM单元804中的最后一个单元的输出被输出至全连接层806以转换向量大小(例如，从300到2048)，这引起文本嵌入706。机器学习训练模块130可以利用这一点来生成针对基于查询的训练数据集202中的文本查询、基于标题的训练数据集422中的标题等的文本嵌入。

在图7中的图示示例中的数字图像编码器704被配置为使用卷积神经网络(CNN)图像编码器714来生成正图像嵌入708和负图像嵌入710(例如，向量)。CNN图像编码器714包括一系列预训练的卷积层，该一系列预训练的卷积层具有用于提取并且学习数字图像的特征以便在图像嵌入空间中生成嵌入的过滤器和池化层。结果，文本嵌入706和正图像嵌入708、负图像嵌入810可直接用作由模型120实现的单个统一的文本和数字图像嵌入空间122的一部分。

一旦生成了文本嵌入706以及正图像嵌入708、负图像嵌入710，就利用损失函数132来训练模型120。机器学习训练模块130的损失函数132被配置为与在文本嵌入和负图像嵌入之间的损失分开地确定在文本嵌入和正图像嵌入之间的损失(框1010)。

例如，如在图7中图示的损失函数132包括L2 716损失(例如，平方距离)，该L2 716损失被用于与在文本嵌入706和负图像嵌入710之间确定的L2 718(例如，平方距离)损失分离地确定在文本嵌入706与正图像嵌入708之间的损失。在当前的讨论中，这被称为“正感知三元组排序损失”，可以如下表达“正感知三元组排序损失”：

正感知三元组排序损失＝s_p+max(0,裕度–s_n)

其中在正图像嵌入708与文本嵌入706之间的平方距离为“s_p”，并且在负图像嵌入710与文本嵌入706之间的平方距离为“s_n”。

常规的三元组损失函数被配置为通过增加“s_p”和“s_n”两者的值来使“s_p–s_n”最小化。因此，在常规的三元组损失函数中，当两个值增加时，差异自动增加。然而，在被图示为本文所描述的损失函数132的正感知三元组排序损失中，分离地解决损失。因此，正感知三元组排序损失被配置为与使“s_n”(即，在文本嵌入706与负文本嵌入706之间的损失)最大化分开地使“s_p”(即，在文本嵌入706与正图像嵌入708之间的损失)最小化。这使正图像嵌入708提高了与文本嵌入706的相似度，例如，位于同一集群中，并且同时通过使“s_n”最大化(即，提高与负图像嵌入的相异性)来使集群变紧。

在采用多个负样本的实例中，机器学习训练模块130选择未被拒绝(例如，过滤)的、具有最小平方距离的前“N”个样本，而不是顶部样本。然后，可以将损失函数132表达为：

正感知三元组排序损失＝s_p+∑i(max(0,裕度–S_ni))。

在实现中，在定义的时间点(诸如，每十个周期)使采样的数目增加定义的数目。

图9描绘了图形示例900，该图形示例900对比了使用如上所述常规的三元组损失函数902和正感知三元组损失函数904而计算出的损失。如图所示，对于常规的三元组损失函数902，负损失906与正损失908之间的差异彼此追踪。这是因为常规的三元组损失函数被配置为通过增加“s_p”和“s_n”的值来使“s_p–s_n”最小化。因此，在常规的三元组损失函数中，当两个损失值增加时，差异追踪这些增加。

然而，当使正损失最小化和使负损失最大化时，在针对正感知三元组损失函数904的负损失906和正损失908之间的差异随着时间的推移而增加。换言之，在训练期间，正图像嵌入708与文本嵌入706之间的距离随着时间的推移而减少，而负图像嵌入710与文本嵌入706之间的距离增加。在多任务训练的实例中，后感知三元组损失函数可以为针对基于查询的训练数据集202和基于标题的训练数据集422而采用的损失实现不同的裕度。然后，将L2损失716、718平均为图7中的损失720，并且通过网络对其进行向后传播(722)，例如，以将文本编码器702训练为利用数字图像编码器704的图像嵌入空间。模型120一旦被训练就可以被用于支持各种功能性，诸如，以生成搜索结果(框1012)、数字图像检索、机器转变、文本检索、语音识别、文本摘要等，使得在这些技术中支持视觉直觉以解决在文本中在视觉上表达“内容”。

因此，如上所述，文本到视觉机器学习嵌入技术被配置为按照各种方式来克服常规技术中的挑战。这些技术包括：使用基于查询的训练数据，这可以扩展可用于训练模型的训练数据的可用性和类型。还可以通过使用基于标题的训练数据来扩展对基于查询的训练数据的使用作为多任务学习的一部分，这通过限制在基于查询的训练数据中的噪声来提高训练准确性，并且支持使用长文本序列。

还描述了负数字图像样本的生成，其在通过以下方式使用机器学习来训练模型时提高准确性：具有与正数字图像样本相似的语义含义和/或视觉含义，但是不具有与正数字图像样本完全相同的组成部分。然后，该训练数据可以被用于生成支持单个统一的文本和数字图像嵌入空间的模型，该模型被配置为将文本和数字图像视为同一实体，并且因此，克服了仅基于文本的常规技术的限制。

还描述了也通过以下方式来支持提高的准确性和计算效率的损失函数：与从负数字图像样本生成的负图像嵌入和以下文本嵌入分开地处理在从正数字图像样本生成的正图像嵌入与该文本嵌入之间计算出的损失：基于与正数字图像样本相关联的文本而计算出该文本嵌入。这允许正图像嵌入与文本嵌入之间的距离随着时间的推移而减少，而负图像嵌入与文本嵌入之间的距离增加，从而提高模型准确性。

示例系统和设备

图11在1100处一般地图示了包括示例计算设备1102的示例系统，该示例计算设备1002表示可以实现本文所描述的各种技术的一个或者多个计算系统和/或设备。通过包括训练数据生成模块126和机器学习训练模块130以及模型120来说明这一点。计算设备1102可以是：例如，服务提供方的服务器、与客户端相关联的设备(例如，客户端设备)、片上系统和/或任何其他合适的计算设备或者计算系统。进一步地，计算设备1102可以实现平台1116和资源。

如图所示示例计算设备1102包括处理系统1104、一个或者多个计算机可读介质1106以及彼此通信地耦合的一个或者多个I/O接口1108。虽然未示出，但是计算设备1102可以进一步包括系统总线或者将各种组件彼此耦合的其他数据和命令传输系统。系统总线可以包括不同总线结构中的任何一种总线结构或者其组合，诸如，存储器总线或者存储器控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何总线架构的处理器或者本地总线。还预期了各种其他示例，诸如，控制线和数据线。

处理系统1104表示用于使用硬件来执行一个或者多个操作的功能性。因此，处理系统1104被图示为包括硬件元件1110，该硬件元件1110可以被配置为处理器、功能块等。这可以包括硬件中作为专用集成电路的实现或者使用一个或者多个半导体而形成的其他逻辑器件。硬件元件1110不受形成它们的材料或者被部署在其中的处理机构的限制。例如，处理器可以由(多个)半导体和/或晶体管(例如，电子集成电路(IC))组成。在这种上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质1106被图示为包括存储器/存储装置1112。该存储器/存储装置1112表示与一个或者多个计算机可读介质相关联的存储器/存储容量。存储器/存储组件1112可以包括易失性介质(诸如，随机存取存储器(RAM))和/或非易失性介质(诸如，只读存储器(ROM)、闪速存储器、光盘、磁盘等)。存储器/存储组件1112可以包括固定介质(例如，RAM、ROM、固定硬盘驱动器等)以及可移除介质(例如，闪速存储器、可移除硬盘驱动器、光盘等)。可以按照如下面进一步描述的各种其他方式来配置计算机可读介质1106。

(多个)输入/输出接口1008表示用于允许用户向计算设备1202录入命令和信息并且还允许使用各种输入/输出设备来向用户和/或其他组件或者设备呈现信息的功能性。输入设备的示例包括：键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能性(例如，被配置为检测物理触摸的电容传感器或者其他传感器)、相机(例如，该相机可以采用可见波长或者不可见波长(诸如，红外频率)来将移动识别为不涉及触摸的姿势)等。输出设备的示例包括：显示设备(例如，监视器或者投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此，可以按照如下面进一步描述的各种方式来将计算设备1102配置为支持用户交互。

本文可以在软件、硬件元件或者程序模块的一般上下文中描述各种技术。通常，这种模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、对象、元件、组件、数据结构等。如本文所使用的术语“模块”、“功能性”和“组件”通常表示软件、固件、硬件或者其组合。本文所描述的技术的特征是与平台无关的，这意味着可以在具有各种处理器的各种商业计算平台上实现这些技术。

所描述的模块和技术的实现可以被存储在某种形式的计算机可读介质上，或者可以在某种形式的计算机可读介质上传输所描述的模块和技术的实现。计算机可读介质可以包括可以由计算设备1102访问的各种介质。通过示例的方式而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与仅仅信号传输、载波或者信号本身形成对比，“计算机可读存储介质”可以是指能够永久地和/或非瞬态地存储信息的介质和/或设备。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括硬件(诸如，易失性和非易失性、可移除和不可移除介质)和/或按照适合于存储信息(诸如，计算机可读指令、数据结构、程序模块、逻辑元件/电路或者其他数据)的方法或者技术而实现的存储设备。计算机可读存储介质的示例可以包括但不限于：RAM、ROM、EEPROM、闪速存储器或者其他存储器技术、CD-ROM、数字通用多功能盘(DVD)或者其他光学存储装置、硬盘、磁带盒、磁带、磁盘存储装置或者其他磁存储设备或者适合于期望所需信息并且可以通过计算机访问的其他存储设备、有形介质或者制品。

“计算机可读信号介质”可以是指被配置为向计算设备1102的硬件传输指令(诸如，经由网络)的信号承载介质。信号介质通常可以实施计算机可读指令、数据结构、程序模块或者已调制的数据信号中的其他数据，诸如，载波、数据信号或者其他运输机制。信号介质还包括任何信息递送介质。术语“已调制的数据信号”是指具有其按照对信号中的信息进行编码的方式被设置或者改变的特性中的一个或者多个特性的信号。通过示例的方式而非限制，通信介质包括有线介质(诸如，有线网络或者直接有线连接)和无线介质(诸如，声学无线介质、RF、红外无线介质和其他无线介质)。

如先前描述的，硬件元件1110和计算机可读介质1106表示以在一些实施例中，可以采用来实现本文所描述的技术的至少一些方面的硬件形式实现(诸如，以执行一个或者多个指令)的模块、可编程设备逻辑和/或固定设备逻辑。硬件可以包括集成电路或者片上系统的组件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及在硅或者其他硬件中的其他实现。在该上下文中，硬件可以操作为执行由通过硬件实施的指令和/或逻辑定义的程序任务的处理设备以及被利用来存储指令以便执行的硬件，例如，先前所描述的计算机可读存储介质。

也可以采用前述内容的组合来实现本文描述的各种技术。因此，软件、硬件或者可执行模块可以被实现为实施在某种形式的计算机可读存储介质上和/或通过一个或者多个硬件元件1110实施的一个或者多个指令和/或逻辑。计算设备1102可以被配置为实现与软件模块和/或硬件模块相对应的特定指令和/或功能。因此，可以至少部分地在硬件中实现作为由计算设备1102作为软件可执行的模块的实现，例如，通过使用处理系统1104的计算机可读存储介质和/或硬件元件1110。指令和/或功能可以由一个或者多个制品(例如，一个或者多个计算设备1102和/或处理系统1104)执行/操作以实现本文描述的技术、模块和示例。

本文所描述的技术可以由计算设备1102的各种配置支持，而不限于本文所描述的技术的特定示例。还可以通过使用分布式系统来全部或者部分地实现该功能性，诸如，经由如下面描述的平台1116在“云”1114上。

云1114包括和/或表示用于资源1118的平台1116。该平台1116使云1114的硬件资源(例如，服务器)和软件资源的底层功能性抽象化。资源1118可以包括当在远离计算设备1102的服务器上执行计算机处理时可以被利用的应用和/或数据。资源1118还可以包括通过互联网和/或通过订户网络(诸如，蜂窝或者Wi-Fi网络)而提供的服务。

平台1116可以使资源和功能抽象化以将计算设备1102与其他计算设备连接。平台1116还可以用于使资源的缩放抽象化以针对满足对经由平台1116而实现的资源1118的需求提供对应的缩放级别。因此，在互连设备实施例中，可以在整个系统1100上分布本文描述的功能性的实现。例如，可以部分地在计算设备1102上以及经由使云1114的功能性抽象化的平台1116来实现功能性。

结论

虽然已经用特定于结构特征和/或方法动作的语言对本发明进行了描述，但是应当明白，在所附权利要求书中定义的本发明不必限于所描述的特定特征或者动作。相反，特定特征和动作被公开作为实现所要求保护的发明的示例形式。

Claims

1.一种在数字媒体机器学习模型训练环境中由计算设备实现的方法，所述方法包括：

由所述计算设备接收多个文本查询，所述多个文本查询被用于发起多次数字图像搜索；

由所述计算设备接收多个数字图像，所述多个数字图像是用户从由所述多次数字图像搜索生成的搜索结果中选择的；

由所述计算设备基于所述多个文本查询和所述多个数字图像生成训练数据集；

由所述计算设备使用所述训练数据集来基于损失函数而使用机器学习训练模型；以及

由所述计算设备使用所述模型来生成后续搜索结果。

2.根据权利要求1所述的方法，其中对所述模型的所述训练基于所述多个文本查询和所述多个数字图像而产生单个统一的文本和数字图像嵌入空间。

3.根据权利要求1所述的方法，其中所述训练数据集的所述生成包括：

从所述多个数字图像中选择正数字图像样本；以及

基于所述正数字图像样本来从所述多个数字图像生成负数字图像样本。

4.根据权利要求3所述的方法，其中所述负数字图像样本的所述生成包括：

通过不包括来自所述多个数字图像中的、具有相应的所述文本查询的至少一个文本项的数字图像来生成所述多个数字图像的子集，所述至少一个文本项不包括停用词，所述至少一个文本项还被包括在与所述正数字图像样本相关联的相应的所述文本查询中；以及

从所述子集中选择所述负数字图像样本。

5.根据权利要求1所述的方法，其中所述训练数据集的所述生成包括：生成基于标题的训练数据集，所述基于标题的训练数据集具有与对应的多个数字图像相关联的标题。

6.根据权利要求5所述的方法，其中所述基于标题的训练数据集的所述生成包括：

从所述对应的多个数字图像中选择正数字图像样本；以及

基于所述正数字图像样本，从所述对应的多个数字图像生成负数字图像样本。

7.根据权利要求6所述的方法，其中所述负数字图像样本的所述生成包括：

通过不包括来自所述对应的多个数字图像中的、具有每个文本项的数字图像来生成所述对应的多个数字图像的子集，所述文本项不包括停用词，所述文本项被包括在与所述正数字图像样本相关联的所述标题中；以及

从所述子集中选择所述负数字图像样本。

8.根据权利要求1所述的方法，其中所述训练包括：从正数字图像样本生成正图像嵌入，从与所述正数字图像样本相关联的所述文本查询生成文本嵌入，以及从负数字图像样本生成负图像嵌入。

9.根据权利要求8所述的方法，其中所述损失函数是三元组损失函数，所述三元组损失函数与所述文本嵌入和所述负图像嵌入之间的损失分离地解决所述文本嵌入和所述正图像嵌入之间的损失。

10.一种在数字媒体机器学习模型训练环境中的系统，包括：

训练数据生成模块，所述训练数据生成模块至少部分地被实现在硬件中以生成训练数据集，所述训练数据生成模块包括：

正样本生成模块，所述正样本生成模块被配置为从多个数字图像中选择正数字图像样本；以及

负样本生成模块，所述负样本生成模块被配置为：

生成所述多个数字图像的子集，所述子集不包括来自所述多个数字图像中的、具有至少一个文本项的数字图像，所述至少一个文本项不包括停用词，所述至少一个文本项还被包括在与所述正数字图像样本相关联的文本中；以及

从所述子集中选择负数字图像样本；

机器学习训练模块，所述机器学习训练模块至少部分地被实现在硬件中以基于所述训练数据集来使用损失函数训练模型作为机器学习的一部分。

11.根据权利要求10所述的系统，其中所述文本描述文本查询，所述文本查询被用于对所述多个数字图像中的对应数字图像进行定位作为搜索的一部分。

12.根据权利要求10所述的系统，其中所述文本描述与相应的所述数字图像相关联的标题。

13.根据权利要求10所述的系统，其中机器学习训练模块被配置为：从正数字图像样本生成正图像嵌入，从与所述正数字图像样本相关联的所述文本生成文本嵌入，以及从负数字图像样本生成负图像嵌入。

14.根据权利要求13所述的系统，其中所述损失函数是三元组损失函数，所述三元组损失函数与所述文本嵌入和所述负图像嵌入之间的损失分离地处理所述文本嵌入和所述正图像嵌入之间的损失。

15.一种在数字媒体机器学习模型训练环境中由计算设备实现的方法，所述方法包括：

由所述计算设备分别接收多个数字图像和与所述多个数字图像相关联的多个文本；

由所述计算设备基于所述多个数字图像和所述多个文本来生成训练数据集，所述训练数据集包括正数字图像样本、所述多个文本中与所述正数字图像样本相关联的文本以及负数字图像样本；

由所述计算设备使用所述训练数据集来基于损失函数而使用机器学习训练模型，所述训练包括：

从所述文本生成文本嵌入，从所述正数字图像样本生成正图像嵌入，以及从所述负数字图像样本生成负图像嵌入；以及

使用所述损失函数来与所述文本嵌入和所述负图像嵌入之间的损失分离地确定所述文本嵌入和所述正图像嵌入之间的损失。

16.根据权利要求15所述的方法，其中所述训练基于所述多个文本和所述多个数字图像来训练所述模型以实现单个统一的文本和数字图像嵌入空间。

17.根据权利要求15所述的方法，其中在所述训练期间，所述文本嵌入与所述正图像嵌入之间的所述损失的距离减少，并且所述文本嵌入与所述负图像嵌入之间的所述损失的距离增加。

18.根据权利要求15所述的方法，其中所述训练数据集包括：

基于查询的训练数据集，所述基于查询的训练数据集包括多个文本查询和多个数字图像，所述多个文本查询被用于发起多次数字图像搜索，所述多个数字图像是用户从由所述多次数字图像搜索生成的搜索结果中选择的；以及

基于标题的训练数据集，所述基于标题的训练数据集包括对应的多个数字图像和与所述对应的多个数字图像相关联的标题。

19.根据权利要求18所述的方法，其中与所述损失函数针对所述基于标题的训练数据集的损失分离地，所述损失函数针对所述基于查询的训练数据集的损失被计算。

20.根据权利要求19所述的方法，其中通过将针对所述基于查询的训练数据集的所述损失与针对所述基于标题的训练数据集的所述损失进行平均，针对所述训练数据集的损失被计算。