CN113836382A

CN113836382A - 多维数字内容搜索

Info

Publication number: CN113836382A
Application number: CN202110377933.2A
Authority: CN
Inventors: A·库玛; 林哲; R·卡拉罗特; 谢金融; 张健明; B·A·法埃塔; A·C·菲利波科瓦斯科
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2020-06-24
Filing date: 2021-04-08
Publication date: 2021-12-24
Also published as: US20210406302A1; DE102021002071A1; US11853348B2

Abstract

本申请的各实施例涉及多维数字内容搜索。描述了多维数字内容搜索技术，该多维数字内容搜索技术支持计算设备以与常规技术相比增加的粒度和灵活性来执行搜索的能力。在一个示例中，由计算设备实现限定多维(例如，二维)连续空间的控件。多维连续空间中的位置通过被应用于与轴相关联的标准的不同权重而可用于不同搜索标准。因此，与这一控件的用户交互可以被用于限定位置和对应坐标，位置和坐标可以充当对搜索标准的权重，以便通过使用单个用户输入来执行对数字内容的搜索。

Description

多维数字内容搜索

技术领域

本申请的各实施例涉及多维数字内容搜索。

背景技术

搜索是计算设备用来从数以千计甚至数千万个数字内容实例定位特定数字内容项的主要技术之一。例如，计算设备可以使用搜索来从数百万个库存数字图像定位数字图像，歌曲库中定位数字音乐项，从在线流媒体服务中可用的数千部电影定位数字电影，等等。结果，可以实现数字搜索以便以人类实际上不执行的方式解决涉及多个数字内容项的情况。

然而，由计算设备实现的搜索面临众多挑战，其中之一涉及确定用户在搜索查询中的意图并且定位与该意图相匹配的数字内容的能力。例如，常规搜索技术通常依赖于将在搜索查询中接收到的文本与关联于数字内容的文本进行匹配的能力。尽管该技术可以很好地定位具有特定对象的数字内容(例如，用于搜索查询“狗”)，但是当遇到使用文本不易表达的概念(诸如情感、搜索标准的相对数量等)时，该技术可能会失败。因此，常规搜索技术通常是不准确的，并且由于面对这些概念时反复尝试定位感兴趣的特定数字内容项而导致计算和网络资源的低效使用。

发明内容

描述了多维数字内容搜索技术，该多维数字内容搜索技术支持计算设备以比常规技术更高的粒度和灵活性来执行搜索的能力。在一个示例中，由计算设备实现限定多维(例如，二维)连续空间的控件。多维连续空间中的位置可以用于指定被应用于与轴相关联的搜索标准的权重。因此，与该控件的用户交互可以用于限定位置和对应坐标，这些位置和坐标可以充当搜索标准的权重，以便通过使用单个用户输入来执行数字内容的搜索。

本“发明内容”以简化的形式介绍了一些概念，这些概念将在下面的“具体实施方式”中进一步描述。这样，本“发明内容”既不旨在标识所要求保护的主题的基本特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

参考附图描述详细描述。附图中表示的实体可以指示一个或多个实体，并且因此可以在讨论中将单数或复数形式的实体可互换地引用。

图1是可操作以采用数字内容搜索技术的示例实现中的数字媒体搜索环境的图示；

图2描绘了被配置为支持多维连续空间以使用情感进行搜索的图1的控件的示例；

图3描绘了示例实现中的系统，该系统更详细地示出了在执行多维数字内容搜索时图1的搜索I/O模块和数字内容搜索系统的操作；

图4描绘了涉及情感的多维数字内容搜索的示例；

图5描绘了涉及情感的多维数字内容搜索的另一示例；

图6是描绘示例实现中的过程的流程图，其中利用包括多维连续空间的表示的控件作为数字内容搜索的一部分；

图7将图3的机器学习模型更详细地描绘为包括图像模型和基于标签的模型的集成(ensemble)模型；

图8描绘了关于愉悦的X轴和兴奋的Y轴而被限定的情感标签坐标的示例；

图9描绘了与数字图像相关联的标签的示例；

图10描绘了与数字图像相关联的标签的另一示例；以及

图11示出了包括示例设备的各种组件的示例系统，该示例设备可以被实现为参考图1至图10而被描述和/或利用以实现本文中描述的技术的实施例的任何类型的计算设备。

具体实施方式

概述

由计算设备实现的搜索可以用于实时地从数百万个示例定位特定数字内容项。因此，由计算设备实现的搜索支持用户与该数字内容进行交互的能力，这原本是不可能实现的，即，人类无法单独执行。然而，由计算设备实现的常规搜索技术在遇到难以表达(例如，在文本上)的概念时经常失败。

例如，计算设备可以使用文本搜索查询“狗”来定位与标签“狗”相关联的数字图像的众多示例。类似地，对单个情感的搜索以及对对象的识别(诸如“快乐的狗”)可以返回带有“狗”和“快乐”两个标签的数字图像。然而，常规技术不支持为搜索标准指定权重的能力，也不支持一起被应用于多个搜索标准的权重。例如，包括“快乐的热情的狗”或“悲伤的镇定的女孩”在内的搜索查询通常由于无法同时解决多种情感并且导致使用网络和计算资源的效率低下，因此使用常规搜索技术通常会失败。

因此，描述了多维数字内容搜索技术，该多维数字内容搜索技术支持计算设备以比常规技术更高的粒度和灵活性来执行搜索的能力。在一个示例中，由计算设备实现限定涉及至少两个搜索标准的连续空间的控件。控件的第一轴和第二轴例如可以分别对应于兴奋情感和愉悦情感的正量和负量。

以这种方式，控件限定多维(例如，二维)连续空间。多维连续空间中的位置可以用于指定被应用于与轴相关联的搜索标准的权重。继续上面的情感示例，因此可以相对于“兴奋”和“愉悦”情感通过该多维连续空间内的坐标来限定情感，诸如快乐、欣喜、激动、紧张、愤怒、失意、沮丧、无聊、疲倦、镇定、放松和满足(即，满意)。因此，与该控件的用户交互可以用于限定位置和对应坐标，这些位置和坐标可以充当搜索标准的权重，以便通过使用单个用户输入来执行数字内容的搜索。

再次继续上面的情感示例，可以经由控件接收用户输入，该用户输入指定使用正量和负量的兴奋和愉悦而被限定的多维连续空间内的位置。用户输入例如可以使用控件连同文本输入“狗”来指定与情感“放松”对应的位置。位置(例如，位置的坐标)和文本输入形成搜索查询，然后，该搜索查询用于定位包括相似对象(例如，通过使用标签)并且也与多维连续空间内的相似坐标相关联的数字内容(例如，数字图像)。

例如，与“放松”对应的位置指定中等正量的愉悦和中等负量的兴奋。以这种方式，该位置用于指定由兴奋和愉悦限定的多维连续空间内的权重，以限定原本难以(如果不是不可能)使用常规技术来限定的情感。此外，这克服了基于确定搜索数字内容时用户输入的意图与由与数字内容相关联的标签表达的意图之间的一致性的常规的基于标签的方法的挑战。

尽管在该示例中描述了数字图像和情感，但是该控件可用于限定各种其他搜索标准作为多维连续空间的一部分，例如数字内容特性，诸如创建设置(例如，曝光、对比度)、音频特性(例如，音色、范围)等。此外，可以利用这些搜索技术来搜索各种类型的数字内容，诸如数字图像、数字电影、数字音频、网页、数字媒体等等。这些和其他示例的进一步讨论被包括在以下各部分中并且使用对应附图进行示出。

在下面的讨论中，首先描述可以采用本文中描述的搜索技术的示例环境。还描述了可以在示例环境以及其他环境中执行的示例过程。因此，示例过程的执行不限于示例环境，并且示例环境不限于示例过程的执行。

示例环境

图1是可操作以采用本文中描述的数字内容搜索技术的示例实现中的数字媒体搜索环境100的图示。所示出的环境100包括经由例如因特网等网络106通信地耦合到服务提供方系统104的计算设备102。实现计算设备102和服务提供方系统104的计算设备可以按照各种方式而被配置。

例如，计算设备可以被配置为台式计算机、膝上型计算机、移动设备(例如，假定诸如平板计算机或移动电话等手持式配置，如图所示)等。因此，计算设备的范围可以从具有大量存储器和处理器资源的全资源设备(例如，个人计算机、游戏机)到具有有限存储器和/或处理资源的低资源设备(例如，移动设备)。另外，计算设备可以表示多个不同的设备，诸如由企业用来“通过云”执行为服务提供方系统104所图示的并且关于图11进一步描述的操作的多个服务器。尽管在该示例中将搜索技术示出和描述为在网络106上发生，但是这些技术也可以由计算设备102单独在本地实现。

计算设备102被示出为包括通信模块108，通信模块108被配置为经由网络106与服务提供方系统104通信。通信模块108可以被配置为浏览器、启用网络的应用、插件模块等。通信模块108包括搜索输入/输出(I/O)模块110，该I/O模块110被配置为生成用于搜索数字内容的搜索查询112并且在用户界面116中输出由该搜索产生的搜索结果114。

所示的示例中的用户界面116包括文本输入部分118，通过该文本输入部分118，可以接收用于指定文本作为搜索查询112的一部分(例如，“狗”)的用户输入。用户界面116还包括控件120，控件120包括多维连续空间的表示，在该示例中，该多维连续空间相对于与控件120的第一轴相关联的第一标准122和与控件124的第二轴相关联的第二标准124而被限定，例如彼此垂直。第一标准122和第二标准124都可以使用正、中性和负量来限定，如下文中进一步描述的。该空间是连续的，因为它在空间内的对应位置一起限定针对搜索标准中的每个搜索标准的相应量。因此，单个用户输入126可以用于一起相对于第一轴和第二轴来限定位置以及限定这些轴的对应权重。

包括文本和位置的搜索查询112被示出为经由网络106从计算设备102传送到服务提供方系统104的数字内容搜索系统128。数字内容搜索系统128被配置为基于搜索查询112搜索数字内容130，并且从中生成搜索结果114以传送回计算设备102。尽管数字内容130被示出为由服务提供方系统104的存储设备132本地存储，但是数字内容130可以例如由第三方系统在其他地方维护。

数字内容搜索系统128包括多维搜索模块134，该多维搜索模块134表示通过利用由控件120表示的多维连续空间来支持数字内容130的搜索的功能。例如，每个数字内容项可以与该多维数字空间内的位置(例如，坐标)相关联。因此，多维搜索模块134可以并入由搜索查询112相对于该空间而被指定的位置与针对相应数字内容130项而被指定的位置之间的关系。以这种方式，数字内容搜索系统128可以支持作为搜索数字内容130的一部分的增加的粒度和灵活性，尤其是针对难以用文字表达的概念(诸如情感)。

图2描绘了被配置为支持多维连续空间以使用情感进行搜索的图1的控件120的示例。控件120支持用于连续指定至少两个搜索标准的强度的用户输入，在这种情况中，这是愉悦(P)和兴奋(E)的情感信号。这通过将“P”和“E”参数映射到多维连续空间(在该示例中为二维(2D)平面)上的“X”和“Y”轴而被实现。为了指定“P”和“E”的组合，接收用于指定相对于2D平面的这一表示的位置的用户输入，例如，经由所示出的光标控制设备的手势(例如，标签、拖动)，经由用户界面而被接收的说出的话语等。例如，可以接收用于将位置指定为引脚的用户输入，其中该位置的坐标被显示在用户界面中。

为了进一步增强用户体验并且促进关于该位置的含义的用户直觉(即，坐标)，显示文本标签作为控件120的一部分，该文本标签指示与2D平面的相应部分对应的细粒度的情感。所示出的示例包括兴奋、欣喜、快乐、满足、放松、镇定、疲倦、无聊、沮丧、失意、愤怒和紧张。这些细粒度的情感中的每个细粒度的情感对应于“P”和“E”的相应量，其可以是正数、中性或负数。例如，在2D平面的右上区域中标记兴奋、欣喜和快乐，它们映射到“P”和“E”信号均为正的实例。类似地，在左下区域中标记沮丧、无聊和疲倦，以指示“P”和“E”两个信号的相对负量。以这种方式，可以有效地提供用户输入以支持数字搜索，其进一步的讨论被包括在以下部分中并且在对应附图中示出。

通常，关于上面和下面的示例描述的功能、特征和概念可以在本部分中描述的示例过程的上下文中采用。此外，关于本文档中的不同附图和示例描述的功能、特征和概念可以彼此互换，并且不限于在特定附图或过程的上下文中的实现。此外，与本文中的不同代表性过程和对应附图相关联的框可以按照不同方式一起应用和/或组合。因此，关于本文中的不同示例环境、设备、组件、图和过程而描述的各个功能、特征和概念可以按照任何合适的组合而被使用，并且不限于本说明书中所列举的示例所表示的特定组合。

多维数字内容搜索

图3描绘了示例实现中的系统300，该系统300更详细地示出了在执行多维数字内容搜索时图1的搜索I/O模块110和数字内容搜索系统128的操作。图4描绘了涉及情感的多维数字内容搜索的示例400。图5描绘了涉及情感的多维数字内容搜索的另一示例500。图6描绘了示例实现中的过程600，其中利用包括多维连续空间的表示的控件作为数字内容搜索的一部分。

以下讨论描述了可以利用先前描述的系统和设备而被实现的搜索技术。该过程的各方面可以按照硬件、固件、软件或它们的组合而被实现。该过程被示出为指定由一个或多个设备执行的操作的一组框，并且不必限于所示出的用于由相应框执行操作的顺序。在以下讨论的各部分中，可以互换地参考图1至图6。

首先，在该示例中，如图3所示的搜索I/O模块110包括用户界面模块302和搜索查询生成模块304。用户界面模块302被配置为输出图1的用户界面116。作为其一部分，用户界面模块302包括被配置为例如经由文本输入部分118接收用于指定文本308的用户输入的文本输入模块306。用户界面模块302还包括被配置为在用户界面116中显示控件120的控制模块310。

控件120包括多维连续空间的表示，包括如图1所示的与第一搜索标准的表示相关联的第一轴和与第二搜索标准的表示相关联的第二轴(框602)。如图2所示，第一搜索标准和第二搜索标准可以分别对应于情感，诸如愉悦和兴奋。

然后，通过与控件120的交互接收用户输入。用户输入提供相对于多维连续空间而被限定的位置314(例如，坐标316)的指示312。用户输入还包括文本308(框604)。例如，文本308可以通过由文本输入模块306输出的文本输入部分118来接收，诸如使用键盘输入的“狗”、说出的话语、手势等。也可以接收指示312，该指示312指定相对于由控件120限定的多维连续空间的表示而被限定的位置314(例如，坐标316)，例如，通过使用光标控制设备、点击手势等“点击”位置。

如图400的示例400所示，例如，搜索查询112可以包括文本308“女孩”。搜索查询112还包括相对于由控制模块310输出的控件120的多维连续空间的表示而被限定的坐标322，在这种情况中，该坐标322指示“兴奋”和“欣喜”附近的位置以指示高量的“兴奋”和中等量的“愉悦”。另一方面，在图5的示例500中，搜索查询112包括文本308“男孩”。搜索查询112还包括相对于由控制模块310输出的控件120的多维连续空间而被限定的坐标322，该坐标322指示“无聊”和“疲倦”附近的位置以指示相对较低量的“兴奋”和负量的“愉悦”。因此，在两种情况中，坐标322指定要通过单个用户输入而被应用于两种情感的权重，该权重可以是正的也可以是负的。

然后，由用户界面模块302将文本308和指示312输出给搜索查询生成模块304。搜索查询112由搜索查询生成模块304基于来自用户输入的位置314(例如，相对于多维连续空间的坐标316)和文本308(框606)来生成。然后，将搜索查询112传送到数字内容搜索系统128的搜索查询收集模块318并且由其接收(框608)。如先前所描述的，这可以使用网络106远程地执行或者在单个计算设备102处本地地执行。

由多维搜索模块134使用由搜索查询收集模块318收集的搜索查询112来生成搜索结果114。搜索结果114基于由机器学习模型320基于来自搜索查询112的文本308和位置314而进行的多个数字内容130的搜索(框610)。机器学习模型320例如可以被配置为集成模型，如关于图7进一步描述的，该集成模型包括图像模型和基于标签的模型。集成模型因此可用于为数字内容130的相应项目生成坐标322。以这种方式，来自搜索查询112的文本308和位置314的指示312的坐标316可以用于定位具有相似文字和坐标的数字内容130。然后，由输出模块324输出搜索结果114(框612)。以这种方式，多维搜索模块134比常规技术支持增加的灵活性和粒度。

继续图4的第一示例400，搜索查询112可以包括文本308“女孩”。搜索查询112还包括相对于由控制模块310输出的控件120的多维连续空间的表示而被限定的坐标322，该坐标322指示“兴奋”和“欣喜”附近的位置以限定相对较高的正量的“兴奋”和中等的正量的“愉悦”。因此，由多维搜索模块134生成搜索结果114，搜索结果114在该示例中示出了基于被分配给数字图像的坐标而具有高量的兴奋和中等量的愉悦的女孩，例如，举手在空中跳下码头。

同样地，在图500的示例500中，搜索查询112包括文本308“男孩”。搜索查询112还包括相对于由控制模块310输出的控件120的多维连续空间而被限定的坐标322，坐标322指示“无聊”和“疲倦”附近的位置。这指示相对较低的负量的“兴奋”和低的负量的“愉悦”。因此，由多维搜索模块134生成搜索结果114，该搜索结果114包括与文本308“男孩”相关联的数字图像和坐标322，坐标322示出了表现出低量的兴奋和愉悦的男孩，例如，躺在沙发上盯着平板计算机的男孩。结果，多维连续空间支持计算效率和准确性比以前可能更高的搜索技术。在以下部分中包括对实现示例的进一步讨论，并且使用对应附图进行示出，其中包括与数字内容的配置有关的其他细节以支持多维连续搜索和将数字内容用作搜索的一部分。

实现示例

在该实现示例中，控件120被配置为支持基于情感的数字图像搜索。基于情感的图像搜索是一种功能强大的工具，其由计算设备可用来查找触发相应情感的数字图像。例如，不同的数字图像可能对人类产生不同的情感。在这种情况中，“愉悦”和“兴奋”情感被用作通过使用多维连续空间来限定其他情感的基础。

常规的搜索解决方案基于一种基于标签的方式，其中搜索限于作为搜索查询的一部分的单个情感，诸如“快乐的孩子”或“愤怒的孩子”。例如，如果对主题有单一情感，则常规的基于标签的搜索效果很好，但在粒度和灵活性方面却不太好。例如，“快乐的孩子”、“悲伤的女孩”在基于标签的搜索中效果很好，但是，常规技术不支持以可接受的准确度一起搜索多个项目(诸如“快乐的热情的孩子”或“悲伤的镇定的女孩”。其他常规技术不支持将权重附接到表达情感的项目的能力，也不能一起执行。例如，常规技术不支持在诸如“快乐的热情的孩子”等搜索中指定快乐或热情的权重。

因此，本文中描述的技术支持搜索具有与数字图像相关联的不同程度的情感的数字图像的能力。因此，这些技术以提高的效率和准确性来支持用户体验，以便执行数字图像的搜索，如下面进一步所述。如前所述，多维搜索模块134通过利用多维连续空间来支持搜索。在该示例中，该空间用于通过限定这些情感在该空间内(例如，在二维网格中)的位置来概念化和限定人的情感。

图7更详细地描绘了图3的多维搜索模块134的机器学习模型320的示例实现700。在该示例中，机器学习模型320被实现为集成模型702，该集成模型702包括基于图像的模型704和基于标签的模型706。

基于图像的模型704分两个阶段进行训练。首先，使用来自基础数据集710的训练数据708基于相对大量的弱监督数字图像对基础模型进行训练。然后，使用经过微调的数据集712对基础模型进行“微调”以生成基于图像的模型704。

在该示例中，基于图像的模型704的基本模型是使用Resnet50架构形成的。训练机器学习模型以识别数字图像中的情感涉及大量数据集。为了解决这个问题，策划了一个弱推导的大规模基础数据集710，该基础数据集710包括超过一百万个数字图像，这些数字图像覆盖与人类、场景和符号有关的各种情感概念。该基础数据集710的一部分可能是不完整且嘈杂的，例如，数字图像包括很少的标签或不完整的标签或与数字图像不相关或松散相关的标签。因为视觉数据和文本数据的表示在语义上需要彼此接近，所以标签和数字图像中的相关信息起到使图像表示规则化的作用。因此，在该示例中，对数字图像的联合文本和视觉信息执行训练。

基础数据集710使用690个与情感相关的标签作为标签，以给出一组多样化的情感标签，从而避免了手动获取情感注释的困难。基础数据集710用于训练基于图像的模型704的特征提取网络，该特征提取网络使用联合文本和视觉嵌入以及文本蒸馏进一步规范化。该模型为690个标签(主要任务)和300维特征向量(主要任务)提供690维概率得分。还训练了8个类别(辅助任务)的8维概率得分。针对上述三个任务，使用多任务损失来训练模型。

针对经过微调的数据集721，收集21000个数字图像，每个数字图像在每个维度上基于两个搜索标准(例如，两个轴)针对-2、-1、0、+1、+2中的25个值而被标记。这种注释沿每个轴被独立地执行。为了使用该经过微调的数据集712对基础模型进行微调，移除基础模型的最后一层，并且在基础模型的头部添加完全连接的层，其中输出映射到具有两个得分的类。多类对数损失用于训练模型，如下所示：

针对基于标签的模型706，训练数据708的库存数据集包括带有弱标签(例如，至少部分由用户提供的文本标签)的1.4亿个数字图像。每个数字图像还包括可变数目的标签。为了查找针对多维连续空间内每个数字图像的坐标，基于这一空间针对情感标签中的每个情感标签分配坐标，例如，基于其在2D网格上的位置使用2D轴。

在图8的所示出的示例800中，例如，可以关于愉悦的X轴和兴奋的Y轴来限定情感标签坐标。例如，情感和对应坐标可以包括以下内容：

·快乐[0.67，1]

·欣喜[0.67，0.67]

·兴奋[.33，1]

·紧张[-0.33，1]

·愤怒[-0.67，0.67]

·失意[-1，0.33]

·沮丧[-1，-0.33]

·无聊[-0.67，-0.67]

·疲倦[-0.33，-1]

·镇定[0.33，-1]

·放松[0.67，-0.67]

·满足[0.67，-0.33]

因此，考虑图9的示例900，其中数字图像902包括以下标签904。

·快乐

·儿童

·父母

·阳光

·欢乐

·草地

·放松

·玩耍

·晚上

·天空

·树木

·涵盖

·日光

·母亲

·户外

在该示例中，数字图像902与15个标签相关联。但是，在这些标签中，三个标签(1)快乐、(2)欢乐和(3)放松表示情感。因此，可以分别针对这些标签中的每个标签和/或整体上为数字图像902分配坐标。

例如，针对整个数字图像902，首先，将与数字图像902相关联的标签与来自图8的示例的标签相匹配(例如，使用自然语言处理、word2vec空间中的向量等)并且获取对应坐标。例如，情感“快乐”和“欢乐”可以映射到表中的“快乐”标签。类似地，情感“放松”可以映射到表中的“放松”。

接下来，获取与“快乐”对应的坐标“[[0.67，1]”和与“放松”对应的坐标“[0.67，-0.67]”。然后，将整个数字图像902的坐标计算为坐标的平均值[(0.67+0.67)/2，(1+(-0.67))/2]＝[0.67，0.16]。将所得到的坐标[0.67，0.16]分配为数字图像902在多维连续空间内的位置。因此，在这种情况中，数字图像902位于第一象限中的某处。

同样，考虑图10的示例1000，其中数字图像1002包括以下标签1004。

·无聊

·欣喜

·镇定

·家庭

·配偶

这里，五分之三的标签与情感相关，即“无聊”、“欣喜”和“镇定”。这些情感分别对应于坐标[-0.67，-0.67]、[0.67，0.67]和[0.33，-1]。因此，与数字图像1002整体相关联的坐标可以如下计算：

[((-.067)+(0.67)+(0.33))/3，((-0.67)+(0.67)+(-1))/3]＝[0.11，-0.33]因此，在这种情况中，数字图像10002位于第四象限中的某处。

基于图像的模型704和基于标签的模型706形成由多维搜索模块134采用的集成模型702。在一个示例中，相等的权重被分配给这两个模型，并且因此最终模型表示为M.

M＝1*m1+(1-1)*m2

其中“m1”是基于图像的模型704，“m2”是基于标签的模型706，并且1＝0.5，在实践中发现这可以提供最佳结果。

基于Resnet的图像模型的输出为[0.75，0.67]，基于标签的模型的输出为[0.67，0.16]。针对1＝0.5的集成模型702的输出可以计算为0.5*[0.75，0.67]+(1-0.5)*[0.67，0.16]＝[0.71，0.41]。训练数据集中的某些数字图像可能不包括情感标签。在这种情况中，分配l＝1，并且集成模型的输出变为

M＝m1

其中“m1”是基于Resnet的图像模型。集成模型702的输出是格式为[x，y]的得分，其中X和Y轴的得分都在[-1，1]之间。这些[x，y]坐标也对应于多维连续空间中的点。

多维搜索模块134可以采用弹性搜索索引，其中离线生成坐标以便在接收搜索查询112时支持实时操作以生成搜索结果114。为此，多维搜索模块134的基础结构可以包括分析器和弹性搜索索引。分析器用作建立的一部分，其中集成模型作为网络服务部署在Docker容器内。此外，该分析器可以被缩放以分配足够的资源以便在短时间内索引数百万个数字图像。

弹性搜索索引是基于弹性搜索的索引，可以查询该弹性搜索以返回最接近基于L2距离而指定为搜索查询112的一部分的位置的数字内容130(例如，数字图像)。为了创建索引，使用一种产品量化技术，该技术涉及压缩特征嵌入，进行分桶(聚类)并且分配给1k个存储桶之一。预先建立的反向ES索引允许实时取回数字内容130。

为了压缩图像的特征向量的尺寸并且计算PQ码，可以执行以下操作。首先，将嵌入空间细分为每个8位的子空间。每个字节表示弹性搜索索引的桶标识符。从最近邻居的搜索角度来看，每个字节代表KNN中簇的质心。然后，每个嵌入的子空间矢量都使用最近的簇(存储桶)的ID进行编码。使用子空间ID计算PQ代码，并且将PQ代码和存储桶ID作为反向索引存储在弹性搜索中。

一旦建立了反向ES索引。可以通过以下机制取回结果。

1.用户使用2D网格进行查询；

2.所提到的分析器转换查询并且输出被发送给PQ-codes插件；

3.PQ代码插件将输入向量与子空间ID比较，并且基于L2距离返回最接近的子空间ID。这是“近似最近邻居”搜索的示例。

4.来自与子空间ID相关联的(多个)存储桶的数字内容130被用于生成搜索结果114；以及

5.反向索引可以用于将搜索限制为最接近的N个存储桶。

以这种方式，实时搜索可以被实现为如本文中描述的多维数字内容搜索技术的一部分。

例如，在其中可以处理1.8亿个数字图像(例如，作为库存数字图像服务的一部分)的情况中，多维连续空间的某些区域可能很密集，而其他区域可能很稀疏。因此，为了提高执行搜索的计算设备的操作效率，这可以通过不直接搜索空间中最接近的数字图像而被实现。例如，搜索“快乐的孩子”可以产生一千万个数字图像，作为搜索结果114的一部分。因此，为了提高处理效率，预先计算多维连续空间内的数字图像位置并且将其聚类成箱并且基于这些箱(例如，质心)进行搜索。

多维连续空间(例如，图2所示的2D空间)可以划分为多个框，并且该框内的顶部“X”(例如，1000)个数字图像被定位，从而提高效率作为本地邻居搜索的一部分。此外，在用户界面116中输出的搜索结果114可以包括密度图，以相对于多维连续空间的表示来示出“事物区域”，例如，作为可用性热图。另外，基于被分配给该区域的数字内容的量，网格大小可以在用于表示不同情感的区域中发生变化，并且可以支持“缩放”以支持不同级别的粒度，在不脱离本发明的精神和范围的情况中，还可以想到其他示例。

示例系统和设备

图11总体上以1100示出了包括示例计算设备1102的示例系统，示例计算设备602表示可以实现本文中描述的各种技术的一个或多个计算系统和/或设备。这一点通过包括多维搜索模块134来说明。计算设备1102可以是例如服务提供方的服务器、与客户端(例如，客户端设备)相关联的设备、片上系统和/或任何其他合适的计算设备或计算系统。

如图所示的示例计算设备1102包括处理系统1104、一个或多个计算机可读介质1106、以及彼此通信地耦合的一个或多个I/O接口1108。虽然未示出，但是计算设备1102还可以包括将各种组件彼此耦合的系统总线或其他数据和命令传输系统。系统总线可以包括利用各种总线架构中的任何总线架构的不同总线结构中的任何一个或组合，诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或处理器或本地总线。还构想了各种其他示例，诸如控制和数据线。

处理系统1104表示使用硬件执行一个或多个操作的功能。因此，处理系统1104被示出为包括可以被配置为处理器、功能块等的硬件元件1110。这可以包括用硬件实现为专用集成电路或使用一个或多个半导体形成的其他逻辑器件。硬件元件1110不受形成它们的材料或其中采用的处理机制的限制。例如，处理器可以包括(多个)半导体和/或晶体管(例如，电子集成电路(IC))。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读尺寸介质1106被示出为包括存储器/存储设备1112。存储器/存储设备1112表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储组件1112可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储组件1112可以包括固定介质(例如，RAM、ROM、固定硬盘驱动器等)以及可移除介质(例如，闪存、可移除硬盘驱动器、光盘等)。计算机可读介质1106可以按照下面进一步描述的各种其他方式而被配置。

(多个)输入/输出接口1108表示允许用户向计算设备1102输入命令和信息并且还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容或其他传感器)、相机(例如，其可以采用诸如红外频率等可见或不可见波长来将不涉及触摸的移动识别为手势)等。输出设备的示例包括显示设备(例如，显示器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备1102可以按照下面进一步描述的各种方式而被配置以支持用户交互。

本文中可以在软件、硬件元件或程序模块的一般上下文中描述各种技术。通常，这样的模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文中使用的术语“模块”、“功能”和“组件”通常表示软件、固件、硬件或它们的组合。本文中描述的技术的特征是平台无关的，这表示这些技术可以在具有各种处理器的各种商业计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或通过其传输。计算机可读介质可以包括可以由计算设备1102访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以是指能够持久和/或非暂态存储信息的介质和/或设备，与仅仅信号传输、载波或信号本身相反。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括以适于存储诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据等信息的方法或技术实现的硬件，诸如易失性和非易失性、可移除和不可移除介质和/或存储设备。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储器、硬盘、磁带盒、磁带、磁盘存储器或其他磁存储设备、或者适于存储期望的信息并且可以由计算机访问的其他存储设备、有形介质或制品。

“计算机可读信号介质”可以是指被配置为诸如经由网络向计算设备1102的硬件传输指令的信号承载介质。信号介质通常可以包含计算机可读指令、数据结构、程序模块或者诸如载波、数据信号或其他传输机制等调制数据信号中的其他数据。信号介质还包括任何信息传递介质。术语“调制数据信号”表示以使得能够在信号中对信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接等有线介质以及诸如声学、RF、红外和其他无线介质等无线介质。

如前所述，硬件元件1110和计算机可读介质1106表示在一些实施例中可以用于实现本文中描述的技术的至少一些方面的以硬件形式实现的模块、可编程设备逻辑和/或固定设备逻辑，诸如执行一个或多个指令。硬件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅或其他硬件的其他实现的组件。在这个上下文中，硬件可以作为执行由硬件实现的指令和/或逻辑定义的程序任务的处理设备以及用于存储用于执行的指令的硬件(例如，先前描述的计算机可读存储介质)进行操作。

还可以采用前述的组合来实现本文中描述的各种技术。因此，软件、硬件或程序模块和其他程序模块可以实现为包含在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1110实现的一个或多个指令和/或逻辑。计算设备1102可以被配置为实现与软件和/或硬件模块对应的特定指令和/或功能。因此，由计算设备1102作为软件可执行的模块的实现可以至少部分以硬件实现，例如，通过使用处理系统1104的计算机可读存储介质和/或硬件元件1110。指令和/或功能可以由一个或多个制品(例如，一个或多个计算设备1102和/或处理系统1104)执行/操作以实现本文中描述的技术、模块和示例。

本文中描述的技术可以由计算设备1102的各种配置支持，并且不限于本文中描述的技术的特定示例。该功能还可以全部或部分地通过使用分布式系统而被实现，诸如经由如下所述的平台1116在“云”1114上实现。

云1114包括和/或表示用于资源1118的平台1116。平台1116抽象云1114的硬件(例如，服务器)和软件资源的基础功能。资源1118可以包括在远离计算设备1102的服务器上执行计算机处理时可以使用的应用和/或数据。资源1118还可以包括通过因特网和/或通过订户网络(诸如蜂窝或Wi-Fi网络)提供的服务。

平台1116可以抽象资源和功能以将计算设备1102与其他计算设备连接。平台1116还可以用于抽象资源的缩放以提供相应的规模级别以满足经由平台1116实现的对资源1118的需求。因此，在互连的设备实施例中，本文中描述的功能的实现可以分布在整个系统1100中。例如，功能可以部分地在计算设备1102上以及经由抽象云1114的功能的平台1116而被实现。

结论

尽管已经用特定于结构特征和/或方法动作的语言描述了本发明，但是应当理解，所附权利要求书中定义的发明不必限于所描述的特定特征或动作。而是，特定的特征和动作被公开作为实现所要求保护的发明的示例形式。

Claims

1.一种在数字媒体搜索环境中的由计算设备实现的方法，所述方法包括：

由所述计算设备接收搜索查询，所述搜索查询包括相对于多维连续空间的位置的指示，所述多维连续空间使用与第一情感对应的第一轴和与第二情感对应的第二轴而被限定；

由所述计算设备基于所述位置的所述指示来搜索多个数字内容，所述搜索包括相对于所述多维连续空间，将所述位置的所述指示与分别被分配给所述多个数字内容的位置的指示比较；

由所述计算设备基于所述搜索来生成搜索结果；以及

由所述计算设备输出所述搜索结果。

2.根据权利要求1所述的方法，其中所述第一轴对应于兴奋或热情，并且所述第二轴对应于愉悦或快乐。

3.根据权利要求1所述的方法，其中所述第一轴和所述第二轴分别在所述多维连续空间内限定针对所述第一情感和所述第二情感的正量和负量。

4.根据权利要求1所述的方法，其中位置的所述指示指定分别被分配给所述第一情感和所述第二情感的权重。

5.根据权利要求1所述的方法，其中所述搜索查询包括文本查询，并且所述搜索包括使用所述文本查询对所述多个数字图像的关键字搜索。

6.根据权利要求1所述的方法，其中所述指示通过经由用户界面中的控制输出接收用户输入而被生成，所述用户输入相对于作为所述控制的一部分而被显示的所述多维连续空间的表示来选择所述位置。

7.根据权利要求1所述的方法，其中所述位置的所述指示使用相对于所述多维连续空间的坐标而被指定。

8.根据权利要求1所述的方法，其中所述多维连续空间包括至少两个维度，并且所述多个数字内容被配置为多个数字图像。

9.一种在数字媒体搜索环境中的系统，所述系统包括：

搜索查询收集模块，至少部分地在计算设备的硬件中被实现以接收搜索查询，所述搜索查询包括文本和相对于多维连续空间而被指定的坐标；

多维搜索模块，至少部分地在所述计算设备的硬件中被实现以基于对多个数字图像的搜索来生成搜索结果，所述多个数字图像基于来自所述搜索查询的所述文本和所述坐标；以及

输出模块，至少部分地在所述计算设备的硬件中被实现以输出所述搜索结果。

10.根据权利要求9所述的系统，其中所述多维搜索模块包括神经网络集成模型，所述神经网络集成模型被用于生成针对所述多个数字图像中的相应数字图像的坐标。

11.根据权利要求10所述的系统，其中所述神经网络集成模型包括基于图像的模型和基于标签的模型。

12.根据权利要求9所述的系统，其中所述多维连续空间限定至少两种情感的相应量。

13.根据权利要求9所述的方法，其中第一轴和第二轴分别在所述多维连续空间内限定针对第一搜索标准和第二搜索标准的正量和负量。

14.根据权利要求9所述的系统，其中所述坐标指定在所述多维连续空间内分别被分配给第一情感和第二情感的权重。

15.根据权利要求9所述的系统，其中所述坐标通过经由用户界面中的控制输出接收用户输入而被生成，所述用户输入相对于作为所述控制的一部分而被显示的所述多维连续空间的表示来选择所述坐标的位置。

16.一种在数字媒体搜索环境中的系统，所述系统包括：

用于在用户界面中显示控件的装置，所述控件包括多维连续空间的表示，所述多维连续空间包括与第一搜索标准的表示相关联的第一轴和与第二搜索标准的表示相关联的第二轴；

用于生成搜索查询的装置，所述搜索查询包括相对于所述多维连续空间的所述表示而被指定的位置，所述位置经由通过与所述控件的交互而被接收的用户输入而被指定；以及

用于输出搜索结果的装置，所述搜索结果基于使用所述搜索查询对数字内容的搜索而被生成。

17.根据权利要求16所述的系统，其中所述多维连续空间限定至少两种情感的相应量。

18.根据权利要求16所述的系统，其中第一轴和第二轴分别在所述多维连续空间内限定针对所述第一搜索标准和所述第二搜索标准的正量和负量。

19.根据权利要求16所述的系统，其中所述位置使用坐标而被指定。

20.根据权利要求19所述的系统，其中所述坐标指定在所述多维连续空间内分别被分配给第一情感和第二情感的权重。