CN117909524A

CN117909524A - 用于文本到图像替换的视觉搜索确定

Info

Publication number: CN117909524A
Application number: CN202311322117.7A
Authority: CN
Inventors: H·卡班达; C·J·凯利; P·尤塞夫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2022-10-18
Filing date: 2023-10-12
Publication date: 2024-04-19
Also published as: JP2024059598A; KR20240054894A; US20240126807A1

Abstract

用于文本替换的系统和方法可以包括视觉意图的确定，其可以触发用于选择图像以替换视觉描述符的界面。可以标识视觉描述性术语，并且可以提供指示器以指示可以被发起的文本替换选项。然后，用户可以选择图像来替换视觉描述性术语。

Description

用于文本到图像替换的视觉搜索确定

技术领域

本公开一般地涉及基于确定的视觉意图用图像替换文本。更具体地，本公开涉及处理文本串、确定视觉意图以及提供用于图像插入的界面。

背景技术

搜索查询可以包括用于搜索特定项和/或特定知识片段的文本输入。例如，用户可能想要知道特定体育比赛的得分。可替代地，用户可能想要更多地了解历史人物，或者可能想要找到企业的联系地址。

另外，用户可以利用搜索查询来找到要购买的特定对象和/或找到特定位置。对特定对象和地点的搜索查询可能涉及描述性术语，这些描述性术语可以缩小获得的搜索结果，但可能无法捕获用户试图提供的细节。

发明内容

本公开的实施例的方面和优点将在以下描述中部分地阐述，或者可以从描述中学习，或者可以通过实施例的实践来学习。

本公开的一个示例方面涉及一种用于多模态搜索的计算机实现的方法。该方法可以包括由包括一个或多个处理器的计算系统获得搜索查询。搜索查询可以包括一个或多个词。该方法可以包括由计算系统确定一个或多个词包括视觉意图。在一些实施方式中，视觉意图可以与一个或多个视觉特征相关联。该方法可以包括由计算系统提供用于显示的图像选择界面。图像选择界面可以包括用于选择的多个图像。在一些实施方式中，可以基于对包括视觉意图的一个或多个词的确定来提供图像选择界面以供显示。该方法可以包括由计算系统获得选择数据。选择数据可以描述图像的选择。该方法可以包括由计算系统提供图像以作为一个或多个词的替换来显示。在一些实施方式中，该方法可以包括由计算系统确定与图像相关联的一个或多个搜索结果，并且由计算系统提供一个或多个搜索结果作为输出。

在一些实施方式中，提供用于显示的图像选择界面可以包括由计算系统提供用户界面元素。用户界面元素可以描述文本替换选项。提供用于显示的图像选择界面可以包括由计算系统获得第一输入数据。第一输入数据可以描述文本替换选项的第一选择。提供用于显示的图像选择界面可以包括由计算系统基于第一输入数据提供用于显示的图像选择界面。

在一些实施方式中，可以经由搜索结果页面提供一个或多个搜索结果。搜索结果页面可以包括显示图像的查询框。搜索结果页面可以包括用于显示与一个或多个搜索结果相关联的信息的搜索结果面板。在一些实施方式中，搜索查询可以包括一个或多个附加词。可以至少部分地基于一个或多个附加词来确定一个或多个搜索结果。在一些实施方式中，获得搜索查询可以包括经由搜索界面的查询框获得搜索查询。一个或多个搜索结果可以包括一个或多个图像搜索结果。在一些实施方式中，一个或多个搜索结果可以包括描述与图像的一个或多个视觉特征相关联的产品的一个或多个产品搜索结果。

本公开的另一示例方面涉及一种用于文本到图像替换的计算系统。该系统可以包括一个或多个处理器和一个或多个非暂时性计算机可读介质，其共同存储指令，该指令在由一个或多个处理器执行时，使计算系统执行操作。操作可以包括获得文本数据。文本数据可以描述多个文本字符。操作可以包括处理文本数据以确定多个文本字符的子集包括视觉描述性术语。在一些实施方式中，视觉描述性术语可以与一个或多个视觉特征相关联。操作可以包括提供用于显示的图像选择界面。图像选择界面可以包括用于选择的多个图像。在一些实施方式中，可以至少部分地基于视觉描述性术语来获得多个图像。操作可以包括获得选择数据。选择数据可以描述图像的选择。操作可以包括提供图像以作为多个文本字符的子集的替换来显示。

在一些实施方式中，提供用于显示的图像选择界面可以包括提供用于显示的指示器(indicator)。指示器可以描述用于用图像数据替换视觉描述性术语的文本替换选项。提供用于显示的图像选择界面可以包括获得第一输入数据。第一输入数据可以描述文本替换选项的第一选择。提供用于显示的图像选择界面可以包括基于第一输入数据提供用于显示的图像选择界面。在一些实施方式中，指示器可以包括以与多个文本字符的剩余字符不同的一种或多种颜色显示的多个文本字符的子集。

在一些实施方式中，多个文本字符可以包括多个文本字符的子集和第二子集。操作可以包括处理图像和第二子集以确定多个搜索结果。可以基于图像和第二子集来确定多个搜索结果。操作可以包括在搜索结果页面界面中提供多个搜索结果。在一些实施方式中，可以通过以下方式获得多个图像：用多个文本字符的子集查询搜索引擎并接收多个图像。可以通过确定用户特定的图像数据库中的图像数据与一个或多个视觉特征相关联来获得多个图像。与一个或多个视觉特征相关联的图像数据可以包括多个图像。

在一些实施方式中，提供用于显示的图像选择界面可以包括提供图像搜索选项、用户图像数据库选项和图像捕获选项。图像搜索选项可以包括用多个文本字符的子集查询计算系统的网络。用户图像数据库选项可以包括从用户图像数据库获得图像。图像捕获选项可以包括利用用户设备的一个或多个图像传感器。在一些实施方式中，可以基于历史搜索数据来确定视觉描述性术语。历史搜索数据可以描述先前用于获得一个或多个图像搜索结果的多个术语。在一些实施方式中，可以基于用语义理解模型处理文本数据来确定视觉描述性术语。

本公开的另一示例方面涉及共同存储指令的一个或多个非暂时性计算机可读介质，所述指令在由一个或多个计算设备执行时，使所述一个或多个计算设备执行操作。操作可以包括获得多个词。多个词可以包括一个或多个特定词和一个或多个附加词。操作可以包括确定多个词中的一个或多个特定词包括视觉意图。在一些实施方式中，视觉意图可以与一个或多个视觉特征相关联。操作可以包括提供多个词以与标识一个或多个特定词的指示器一起显示。操作可以包括确定与一个或多个特定词相关联的多个图像。多个图像可以与视觉意图相关联。操作可以包括在用户界面面板中提供多个图像。在一些实施方式中，用户界面面板可以包括与多个图像相关联的多个交互式用户界面元素。操作可以包括获得对多个图像中的特定图像的选择，并且提供一个或多个附加词和特定图像以用于在没有一个或多个特定词的情况下输出。

在一些实施方式中，操作可以包括处理输出以生成翻译输出。可以至少部分地基于特定图像来生成翻译输出。操作可以包括将输出提供给搜索引擎并接收多个搜索结果。在一些实施方式中，多个搜索结果可以与一个或多个附加词和特定图像相关联。

本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并且与描述一起用于解释相关原理。

附图说明

在参考附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，在附图中：

图1A描绘了根据本公开的示例实施例的执行文本到图像确定的示例计算系统的框图。

图1B描绘了根据本公开的示例实施例的执行文本到图像确定的示例计算设备的框图。

图1C描绘了根据本公开的示例实施例的执行文本到图像确定的示例计算设备的框图。

图2A描绘了根据本公开的示例实施例的示例查询指示器的图示。

图2B描绘了根据本公开的示例实施例的示例图像选择界面的图示。

图2C描绘了根据本公开的示例实施例的示例图像选择界面的图示。

图2D描绘了根据本公开的示例实施例的示例图像选择界面的图示。

图3描绘了根据本公开的示例实施例的示例搜索界面的框图。

图4描绘了根据本公开的示例实施例的示例图像选择界面的图示。

图5描绘了根据本公开的示例实施例的示例文本到图像替换系统的框图。

图6描绘了根据本公开的示例实施例的用于执行文本到图像替换的示例方法的流程图。

图7描绘了根据本公开的示例实施例的执行多模态搜索的示例方法的流程图。

图8描绘了根据本公开的示例实施例的用于执行文本到图像替换的示例方法的流程图。

在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。

具体实施方式

概述

通常，本公开涉及用于通过用视觉记号(visual token)(例如，图像和/或视频)替换文本来增强字符串的系统和方法。特别地，本文公开的系统和方法可以利用视觉描述符确定来提示用户用视觉数据替换文本数据以提供多模态(multimodal)输出。例如，该系统和方法可以用于增强搜索查询以获得多模态搜索查询，该多模态搜索查询可以利用文本数据和图像数据两者来查询数据库。在一些实施方式中，该系统和方法可以包括获得文本数据。文本数据可以描述多个文本字符。该系统和方法可以包括处理文本数据以确定多个文本字符的子集包括视觉描述性术语。该视觉描述性术语可以与一个或多个视觉特征相关联。可以提供指示器用于显示。该指示器可以描述用于用图像数据替换视觉描述性术语的文本替换选项。该系统和方法可以包括获得第一输入数据。在一些实施方式中，第一输入数据可以描述文本替换选项的第一选择。可以提供用于显示的图像选择界面。该图像选择界面可以包括用于选择的多个图像。该系统和方法可以包括获得第二输入数据。在一些实施方式中，第二输入数据可以描述图像的第二选择。可以提供图像以作为多个文本字符的子集的替换来显示。

该系统和方法可以获得文本数据。文本数据可以描述多个文本字符。多个文本字符可以描述一个或多个词。可以经由对用户界面的一个或多个输入来获得多个字符。可替代地和/或附加地，可以通过处理与说出的话语相关联的音频数据来生成文本数据。

可以处理文本数据以确定多个文本字符的子集包括视觉描述性术语。视觉描述性术语可以与一个或多个视觉特征相关联。在一些实施方式中，可以基于历史搜索数据来确定视觉描述性术语。历史搜索数据可以描述用于获得一个或多个图像搜索结果的多个术语。在一些实施方式中，可以基于用语义理解模型处理文本数据来确定视觉描述性术语。可以基于历史点击数据来确定视觉描述性术语。历史选择数据可以是全局选择数据、用户特定的历史选择数据、区域特定的历史选择数据和/或上下文特定的历史选择数据。在一些实施方式中，历史选择数据可以描述当输入特定术语时选择图像搜索栏标(tab)的频率。

该系统和方法可以提供用于显示的指示器。指示器可以描述用于用图像数据替换视觉描述性术语的文本替换选项。指示器可以包括以与多个文本字符的剩余字符不同的一种或多种颜色显示的多个文本字符的子集。在一些实施方式中，指示器可以包括弹出用户界面元素。指示器可以包括突出显示一个或多个词、对一个或多个词加下划线、圈出一个或多个词和/或使一个或多个词闪烁。

然后可以获得第一输入数据。第一输入数据可以描述文本替换选项的第一选择。第一输入数据可以描述音频输入(例如，语音命令)、触摸输入(例如，对触摸屏的输入)、键盘输入和/或鼠标输入。第一输入数据可以包括对指示器的选择。

然后可以提供图像选择界面以供显示。图像选择界面可以包括用于选择的多个图像。可以通过确定包括多个图像的用户特定的图像数据库中的图像数据来获得多个图像。在一些实施方式中，多个图像可以与一个或多个视觉特征相关联。在一些实施方式中，可以基于一个或多个视觉描述性术语来获得多个图像。在一些实施方式中，可以在确定视觉描述性术语之后立即提供图像选择界面。可替代地和/或附加地，可以响应于接收到第一输入数据而提供图像选择界面。

在一些实施方式中，可以通过用多个文本字符的子集查询搜索引擎并接收多个图像来获得多个图像。用于查询搜索引擎的查询可以包括视觉描述性术语。附加地和/或可替代地，可以获得和/或确定一个或多个上下文。然后可以利用一个或多个上下文来细化(refine)搜索。一个或多个上下文可以包括用户特定的信息(例如，用户的位置、应用历史、用户的搜索历史、用户的购买历史、用户偏好和/或用户简档)。在一些实施方式中，一个或多个上下文可以包括一天中的时间、一周中的时间、一年中的时间、全局趋势和/或当利用特定视觉描述性术语时图像的过去选择。

附加地和/或可替代地，提供用于显示的图像选择界面可以包括提供图像搜索选项、用户图像数据库选项和图像捕获选项。图像搜索选项可以包括用多个文本字符的子集查询web(例如，计算系统的网络)。用户图像数据库选项可以包括从用户图像数据库获得图像。图像捕获选项可以包括利用用户设备的一个或多个图像传感器。用户图像数据库可以与一个或多个用户简档相关联，并且可以与一个或多个图像库应用相关联。在一些实施方式中，用户图像数据库选项可以允许选择本地存储的数据。可替代地和/或附加地，用户图像数据库选项可以使用户能够选择与用户相关联地存储在一个或多个图像存储应用中的图像，该图像存储应用可以包括云存储、服务器存储和/或本地存储。

该系统和方法可以获得第二输入数据(例如，选择数据)。第二输入数据可以描述图像的第二选择。第二输入数据可以描述音频输入(例如，语音命令)、触摸输入(例如，对触摸屏的输入)、键盘输入和/或鼠标输入。第一输入数据可以包括对选择图标的选择、对缩略图的选择和/或拖放选择。

然后可以提供图像以供显示，作为多个文本字符的子集的替换。例如，可以移除多个文本字符的子集，并且可以将图像添加在删除之前多个文本字符的子集的位置。

在一些实施方式中，多个文本字符可以包括多个文本字符的子集和第二子集。该系统和方法可以包括处理图像和第二子集以确定多个搜索结果。在一些实施方式中，可以基于图像和第二子集来确定多个搜索结果。然后可以在搜索结果页面界面中提供多个搜索结果。

该系统和方法可用于多模态搜索。特别地，查询串的一个或多个词可以用图像替换以生成更全面的搜索查询。例如，该系统和方法可以包括获得搜索查询。该搜索查询可以包括一个或多个词。可以确定一个或多个词包括视觉意图。在一些实施方式中，视觉意图可以与一个或多个视觉特征相关联。该系统和方法可以包括提供用于显示的图像选择界面。图像选择界面可以包括用于选择的多个图像。在一些实施方式中，可以基于包括视觉意图的一个或多个词的确定来提供用于显示的图像选择界面。该系统和方法可以包括获得选择数据。选择数据可以描述图像的选择。然后可以提供图像以作为一个或多个词的替换来显示。附加地和/或可替代地，该系统和方法可以包括确定与图像相关联的一个或多个搜索结果并提供一个或多个搜索结果作为输出。

该系统和方法可以获得搜索查询。该搜索查询可以包括一个或多个词。在一些实施方式中，获得搜索查询可以包括经由搜索界面的查询框获得搜索查询。搜索界面可以由web平台、移动应用和/或桌面应用提供。搜索查询可以包括布尔项和句法和/或自然语言结构。

可以确定一个或多个词包括视觉意图。视觉意图可以与一个或多个视觉特征相关联。视觉意图可以基于一个或多个词与颜色、图案、设计、对象和/或视觉特征相关联。该关联可以基于一个或多个词是视觉描述符，一个或多个词与特定视觉特征的标签相关联，和/或一个或多个词与过去的图像搜索查询相关联。描述颜色、图案、形状和/或其他视觉描述符的词可以被确定为包括视觉意图。

该系统和方法可以提供用户界面元素。在一些实施方式中，用户界面元素可以描述文本替换选项。用户界面元素可以是指示系统和方法已经确定一个或多个词与视觉意图相关联的指示器。用户界面元素可以包括视觉效果。用户界面元素可以包括弹出元素、下拉菜单、一个或多个词的显示的改变和/或图标的外观。

然后，该系统和方法可以获得第一输入数据。第一输入数据可以描述文本替换选项的第一选择。第一输入数据可以包括传感器数据。第一输入数据可以描述与用户界面元素的交互(例如，轻击输入、手势输入和/或在没有获得输入的情况下经由经过阈值时间量的输入的缺乏)。

然后可以提供用于显示的图像选择界面。图像选择界面可以包括用于选择的多个图像。图像选择界面可以包括用于查看和选择来自不同数据库的图像和/或不同介质或类型的图像的一个或多个不同栏标。图像选择界面可以包括用于提供不同类型的媒体内容项和/或来自不同源的媒体内容项的一个或多个面板。

然后，该系统和方法可以获得第二输入数据(例如，选择数据)。第二输入数据(例如，选择数据)可以描述图像的选择。第二输入数据可以包括传感器数据。第二输入数据可以描述与图像选择界面的交互(例如，轻击输入、手势输入和/或在没有获得输入的情况下经由经过阈值时间量的输入的缺乏)。

然后可以提供图像以作为一个或多个词的替换来显示。例如，可以提供图像的预览和/或缩略图以用于在搜索界面的查询框中显示。

该系统和方法可以包括确定与图像相关联的一个或多个搜索结果。在一些实施方式中，可以经由搜索结果页面提供一个或多个搜索结果。搜索结果页面可以包括显示图像的查询框。附加地和/或可替代地，搜索结果页面可以包括用于显示与一个或多个搜索结果相关联的信息的搜索结果面板。搜索查询可以包括一个或多个附加词。在一些实施方式中，可以至少部分地基于一个或多个附加词来确定一个或多个搜索结果。一个或多个搜索结果可以包括一个或多个图像搜索结果。附加地和/或可替代地，一个或多个搜索结果可以包括描述与图像的一个或多个视觉特征相关联的产品的一个或多个产品搜索结果。

可以提供一个或多个搜索结果作为输出。可以提供一个或多个搜索结果以在搜索结果页面界面中显示。可以基于搜索结果的类型、搜索结果的源和/或搜索结果的分类在不同的面板中提供搜索结果。

该系统和方法可以包括获得多个词。多个词可以包括一个或多个特定词和一个或多个附加词。该系统和方法可以包括确定多个词中的一个或多个特定词包括视觉意图。可以提供多个词以与标识一个或多个特定词的指示器一起显示。该系统和方法可以包括确定与一个或多个特定词相关联的多个图像。可以在用户界面面板中提供多个图像。该系统和方法可以包括获得对多个图像中的特定图像的选择，并且提供一个或多个附加词和特定图像以在没有一个或多个特定词的情况下输出。

该系统和方法可以包括获得多个词。多个词可以包括一个或多个特定词和一个或多个附加词。一个或多个特定词可以包括视觉描述性术语。一个或多个附加词可以与一个或多个特定词互补和/或可以针对搜索查询或短语的不同描述性方面。

然后，系统和方法可以包括确定多个词中的一个或多个特定词包括视觉意图。该确定可以基于用一个或多个机器学习模型处理多个词以生成一个或多个输出。一个或多个机器学习模型可以包括一个或多个检测模型、一个或多个分割模型、一个或多个分类模型和/或一个或多个增强模型。在一些实施方式中，一个或多个机器学习模型可以包括一个或多个自然语言处理模型。一个或多个机器学习模型可以包括一个或多个变换器模型。在一些实施方式中，该确定可以基于历史搜索数据。

可以提供多个词以与标识一个或多个特定词的指示器一起显示。指示器可以是描述可以基于标识的一个或多个特定词执行的一个或多个可能动作的视觉指示器。指示器可以包括描述，可以包括文本颜色改变，可以包括突出显示，和/或可以包括弹出元素。

然后可以确定与一个或多个特定词相关联的多个图像。该确定可以基于用一个或多个特定词查询数据库。数据库可以是存储在用户的设备上的本地数据库和/或可以是通过网络连接访问的数据库。可以裁剪一个或多个图像以隔离与一个或多个特定词相关联的图像的特定部分。

然后可以提供多个图像以在用户界面面板中显示。用户界面面板可以是弹出面板和/或可以替换原始显示的界面的一部分。

可以获得对多个图像中的特定图像的选择。在一些实施方式中，特定图像可以是来自图像数据库的裁剪图像。可以通过用一个或多个机器学习模型处理未裁剪图像以检测图像的相关部分并从未裁剪图像分割该相关部分来生成裁剪图像。

可以在没有一个或多个特定词的情况下提供一个或多个附加词和特定图像作为输出。特定图像可以位于先前显示一个或多个特定词的位置。在一些实施方式中，可以提供缩略图和/或预览以代替完整的特定图像进行显示。

在一些实施方式中，系统和方法可以包括处理输出以生成翻译(translation)输出。可以至少部分地基于特定图像来生成翻译输出。

可替代地和/或附加地，该系统和方法可以包括将输出提供给搜索引擎并接收多个搜索结果。多个搜索结果可以与一个或多个附加词和特定图像相关联。

用户可以用于用文本表达本质上可视的问题的部分；然而，问题的一些部分可以用图像更好地表示。例如，用户可能受到他们在社交媒体上看到的连衣裙的启发；然而，用户可能想要该图案替代地在袜子上。为了搜索具有特定图案的袜子，用户可以输入查询“具有彩色花卉图案的袜子”，但是“彩色花卉图案”可能失去其意图的保真度。更切中要点的搜索可以是如果“彩色花卉图案”被用户看到的实际图像替换。

本文公开的系统和方法可以检测看起来具有视觉意图的字符串，并且可以突出显示字符串的该部分。当用户轻击突出显示时，系统和方法可以触发视觉搜索工具，并且可以给用户一种简单的方式来将字符串交换为图像记号。

本公开的系统和方法提供了许多技术效果和益处。作为一个示例，该系统和方法可以提供文本到图像替换界面。特别地，本文公开的系统和方法可以利用交互式用户界面来确定候选图像以提供给用户以供选择以替换一个或多个词。

本公开的系统和方法的另一技术益处是利用视觉意图确定来确定何时以及在什么程度上可以提供文本到图像替换界面的能力。例如，该系统和方法可以确定一个或多个词与视觉意图相关联。该系统和方法可以确定将提供指示器以使得用户能够打开文本到图像替换界面以用一个或多个图像替换一个或多个词。

技术效果和益处的另一示例涉及改进的计算效率和计算系统的功能的改进。例如，本文公开的系统和方法可以利用文本到图像替换来提供更全面的多模态搜索查询，该多模态搜索查询可以减轻附加搜索和附加搜索结果页面浏览的使用，这可以节省时间和计算能力。

现在参考附图，将更详细地讨论本公开的示例实施例。

示例设备和系统

图1A描绘了根据本公开的示例实施例的执行文本到图像确定的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，诸如例如个人计算设备(例如，膝上型或台式)、移动计算设备(例如，智能电话或平板)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器114可以存储由处理器112执行以使用户计算设备102执行操作的指令118和数据116。

在一些实施方式中，用户计算设备102可以存储或包括一个或多个视觉意图确定模型120。例如，视觉意图确定模型120可以是或可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、循环(recurrent)神经网络(例如，长短期记忆循环神经网络)、卷积神经网络或其他形式的神经网络。参考图2A-5讨论示例视觉意图确定模型120。

在一些实施方式中，一个或多个视觉意图确定模型120可以通过网络180从服务器计算系统130接收，存储在用户计算设备存储器114中，并且然后由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现单个视觉意图确定模型120的多个并行实例(例如，以跨文本串的多个实例执行并行视觉意图确定)。

更具体地，视觉意图确定模型120可以处理一个或多个词以确定一个或多个词是否与视觉意图相关联。视觉意图确定模型120可以包括一个或多个分类模型、一个或多个分割模型和/或一个或多个检测模型。视觉意图确定模型120可以包括自然语言模型。在一些实施方式中，视觉意图确定模型120可以生成描述文本串的语义理解的语义理解输出。

附加地或可替代地，一个或多个视觉意图确定模型140可以被包括在服务器计算系统130中或以其他方式由服务器计算系统130存储和实现，该服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如，视觉意图确定模型140可以由服务器计算系统130实现为web服务(例如，文本到图像替换服务)的一部分。因此，可以在用户计算设备102处存储和实现一个或多个模型120和/或可以在服务器计算系统130处存储和实现一个或多个模型140。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可以通过其提供用户输入的其他部件。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器134可以存储由处理器132执行以使服务器计算系统130执行操作的指令138和数据136。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的实例中，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习视觉意图确定模型140。例如，模型140可以是或可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。参考图2A-5讨论示例模型140。

用户计算设备102和/或服务器计算系统130可以经由与通过网络180通信地耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分离，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器154可以存储由处理器152执行以使训练计算系统150执行操作的指令158和数据156。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。

训练计算系统150可以包括模型训练器160，该模型训练器160使用各种训练或学习技术(诸如，例如，误差的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。例如，损失函数可以通过(多个)模型反向传播以更新(多个)模型的一个或多个参数(例如，基于损失函数的梯度)。可以使用各种损失函数，诸如均方误差、似然损失、交叉熵损失、合页(hinge)损失和/或各种其他损失函数。梯度下降技术可以用于在多个训练迭代上迭代地更新参数。

在一些实施方式中，执行误差的反向传播可以包括执行通过时间的截断反向传播。模型训练器160可以执行多种泛化技术(例如，权重衰减、丢弃等)以改善正被训练的模型的泛化能力。

特别地，模型训练器160可以基于一组训练数据162来训练视觉意图确定模型120和/或140。训练数据162可以包括例如训练词和短语、基准真实(ground truth)标签、历史搜索查询、与查询细化相关联的历史选择数据、大型语言数据集和/或基准真实语义意图映射。

在一些实施方式中，如果用户已经提供同意，则训练示例可以由用户计算设备102提供。因此，在这样的实施方式中，提供给用户计算设备102的模型120可以由训练计算系统150在从用户计算设备102接收的用户特定的数据上训练。在一些情况下，该过程可以被称为个性化模型。

模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160可以在硬件、固件和/或控制通用处理器的软件中实现。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括存储在有形计算机可读存储介质(诸如RAM硬盘或光学或磁性介质)中的一组或多组计算机可执行指令。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)或其某种组合，并且可以包括任何数量的有线或无线链路。通常，网络180上的通信可以使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来携带。

本说明书中描述的机器学习模型可以在各种任务、应用和/或用例中使用。

在一些实施方式中，对本公开的(多个)机器学习模型的输入可以是图像数据。(多个)机器学习模型可以处理图像数据以生成输出。作为示例，(多个)机器学习模型可以处理图像数据以生成图像识别输出(例如，图像数据的识别、图像数据的潜在嵌入、图像数据的编码表示、图像数据的散列等)。作为另一示例，(多个)机器学习模型可以处理图像数据以生成图像分割输出。作为另一示例，(多个)机器学习模型可以处理图像数据以生成图像分类输出。作为另一示例，(多个)机器学习模型可以处理图像数据以生成图像数据修改输出(例如，图像数据的变更等)。作为另一示例，(多个)机器学习模型可以处理图像数据以生成编码图像数据输出(例如，图像数据的编码和/或压缩表示等)。作为另一示例，(多个)机器学习模型可以处理图像数据以生成扩充(upscale)的图像数据输出。作为另一示例，(多个)机器学习模型可以处理图像数据以生成预测输出。

在一些实施方式中，对本公开的(多个)机器学习模型的输入可以是文本或自然语言数据。(多个)机器学习模型可以处理文本或自然语言数据以生成输出。作为示例，(多个)机器学习模型可以处理自然语言数据以生成语言编码输出。作为另一示例，(多个)机器学习模型可以处理文本或自然语言数据以生成潜在文本嵌入输出。作为另一示例，(多个)机器学习模型可以处理文本或自然语言数据以生成翻译输出。作为另一示例，(多个)机器学习模型可以处理文本或自然语言数据以生成分类输出。作为另一示例，(多个)机器学习模型可以处理文本或自然语言数据以生成文本分割输出。作为另一示例，(多个)机器学习模型可以处理文本或自然语言数据以生成语义意图输出。作为另一示例，(多个)机器学习模型可以处理文本或自然语言数据以生成扩充的文本或自然语言输出(例如，质量高于输入文本或自然语言的文本或自然语言数据等)。作为另一示例，(多个)机器学习模型可以处理文本或自然语言数据以生成预测输出。

在一些实施方式中，对本公开的(多个)机器学习模型的输入可以是语音数据。(多个)机器学习模型可以处理语音数据以生成输出。作为示例，(多个)机器学习模型可以处理语音数据以生成语音识别输出。作为另一示例，(多个)机器学习模型可以处理语音数据以生成语音翻译输出。作为另一示例，(多个)机器学习模型可以处理语音数据以生成潜在嵌入输出。作为另一示例，(多个)机器学习模型可以处理语音数据以生成编码语音输出(例如，语音数据的编码和/或压缩表示等)。作为另一示例，(多个)机器学习模型可以处理语音数据以生成扩充的语音输出(例如，质量高于输入语音数据的语音数据等)。作为另一示例，(多个)机器学习模型可以处理语音数据以生成文本表示输出(例如，输入语音数据的文本表示等)。作为另一示例，(多个)机器学习模型可以处理语音数据以生成预测输出。

在一些实施方式中，对本公开的(多个)机器学习模型的输入可以是潜在编码数据(例如，输入的潜在空间表示等)。(多个)机器学习模型可以处理潜在编码数据以生成输出。作为示例，(多个)机器学习模型可以处理潜在编码数据以生成识别输出。作为另一示例，(多个)机器学习模型可以处理潜在编码数据以生成重构输出。作为另一示例，(多个)机器学习模型可以处理潜在编码数据以生成搜索输出。作为另一示例，(多个)机器学习模型可以处理潜在编码数据以生成重新聚类输出。作为另一示例，(多个)机器学习模型可以处理潜在编码数据以生成预测输出。

在一些实施方式中，对本公开的(多个)机器学习模型的输入可以是统计数据。(多个)机器学习模型可以处理统计数据以生成输出。作为示例，(多个)机器学习模型可以处理统计数据以生成识别输出。作为另一示例，(多个)机器学习模型可以处理统计数据以生成预测输出。作为另一示例，(多个)机器学习模型可以处理统计数据以生成分类输出。作为另一示例，(多个)机器学习模型可以处理统计数据以生成分割输出。作为另一示例，(多个)机器学习模型可以处理统计数据以生成可视化输出。作为另一示例，(多个)机器学习模型可以处理统计数据以生成诊断输出。

在一些情况下，输入包括视觉数据，并且任务是计算机视觉任务。在一些情况下，输入包括一个或多个图像的像素数据，并且任务是图像处理任务。例如，图像处理任务可以是图像分类，其中输出是一组分数，每个分数对应于不同的对象类并且表示一个或多个图像描绘属于该对象类的对象的可能性。图像处理任务可以是对象检测，其中图像处理输出标识一个或多个图像中的一个或多个区域，并且对于每个区域，标识该区域描绘感兴趣对象的可能性。作为另一示例，图像处理任务可以是图像分割，其中图像处理输出为一个或多个图像中的每个像素定义预定类别集合中的每个类别的相应可能性。例如，类别集合可以是前景和背景。作为另一示例，该类别集合可以是对象类。作为另一示例，图像处理任务可以是深度估计，其中图像处理输出为一个或多个图像中的每个像素定义相应深度值。作为另一示例，图像处理任务可以是运动估计，其中网络输入包括多个图像，并且图像处理输出为输入图像之一的每个像素定义在网络输入中的图像之间的该像素处描绘的场景的运动。

在一些情况下，输入包括表示说出的话语的音频数据，并且任务是语音识别任务。输出可以包括被映射到说出的话语的文本输出。在一些情况下，任务包括加密或解密输入数据。在一些情况下，任务包括微处理器性能任务，诸如分支预测或存储器地址转换。

图1A示出了可以用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据162。在这样的实施方式中，模型120可以在用户计算设备102处被本地训练和使用。在一些这样的实施方式中，用户计算设备102可以实现模型训练器160以基于用户特定的数据来个性化模型120。

图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如，应用1至应用N)。每个应用包含其自己的机器学习库和(多个)机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图1B所示，每个应用可以与计算设备的多个其他组件通信，诸如例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API特定于该应用。

图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1至应用N)。每个应用与中央智能层通信。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，跨所有应用的公共API)与中央智能层(以及存储在其中的(多个)模型)通信。

中央智能层包括多个机器学习模型。例如，如图1C所示，相应的机器学习模型(例如，模型)可以针对每个应用被提供并由中央智能层管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或以其他方式由计算设备50的操作系统实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是用于计算设备50的数据的集中式储存库。如图1C所示，中央设备数据层可以与计算设备的多个其他组件通信，诸如例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

示例系统布置

图2A描绘了根据本公开的示例实施例的示例查询指示器的图示。特别地，图2A描绘了搜索界面202中的查询输入框204。查询输入框204可以被配置为接收和/或显示要用作搜索查询的输入文本串。例如，用户可能已经提供了一个或多个输入以生成搜索查询“clutch with floral pattern(具有花卉图案的手提包)”。可以处理搜索查询以确定一个或多个特定词208与视觉意图相关联。然后可以提供一个或多个特定词208以与指示器一起显示(例如，一个或多个特定词208可以以不同的颜色提供和/或突出显示)。搜索查询中的一个或多个其他词206可以被提供用于以正常格式和/或以不同的指示器显示。

可以选择与视觉意图相关联的指示器以发起被生成和/或提供的图像选择界面。可以在输入期间实时提供(多个)指示器和/或可以在处理搜索查询时提供(多个)指示器，并且提供搜索结果以供显示。

在一些实施方式中，可以经由键盘(例如，物理键盘和/或图形键盘)、经由鼠标和/或经由语音输入(例如，用户可以选择语音命令图标210以开始记录语音话语以进行处理和转录)来输入搜索查询。附加地和/或可替代地，视觉意图确定和/或搜索结果的排序可以部分地基于用户简档212。

图2B描绘了根据本公开的示例实施例的示例图像选择界面220的图示。特别地，图2B描绘了用于从用户特定的图像库中选择图像的图像选择界面220的图示。例如，可以在搜索查询输入框222中提供指示器，可以选择该指示器以从搜索结果页面224转换到初始图像选择页面226。图像选择页面226可以包括多个面板，其可以包括最近图像面板、所有图像面板和/或相关性面板。最近图像面板可以包括最近保存的图像。所有图像面板可以包括用于访问用户特定的图像库中的所有图像的界面。所有图像面板可以包括基于图像的保存日期、图像的名称和/或图像与和视觉意图相关联的一个或多个特定词的相关性排列的图像。相关性面板可以包括来自用户特定的图像库的被确定为与一个或多个特定词和/或视觉意图最相关的一个或多个图像。可以基于图像中的一个或多个检测到的特征、图像的元数据、图像的源、图像的名称和/或图像捕获的位置来确定相关性。

一旦选择了图像，就可以处理选择的图像以确定感兴趣区域。可以提供指示器用于在区域选择界面228中与每个候选感兴趣区域一起显示。可以基于由一个或多个机器学习模型处理以检测图像中的一个或多个特征的图像来确定感兴趣区域。然后，用户可以选择特定候选区域，这可以使得提供裁剪界面230。裁剪界面230可以基于选择的候选区域和/或基于一个或多个其他用户输入来提供建议的裁剪区域。

一旦剪切区域被确认，图像232(或图像的缩略图)就可以替换一个或多个特定词，并且可以被提供用于在查询输入框中显示。然后可以基于图像来细化搜索结果，这可以使得更新的搜索结果页面234被提供用于显示。

图2C描绘了根据本公开的示例实施例的示例图像选择界面240的图示。特别地，图2C描绘了用于捕获图像的示例图像选择界面240的图示。例如，可以提供搜索查询，可以处理搜索查询以确定视觉意图，并且可以提供指示器242。指示器242的选择可以将搜索界面从搜索结果界面244转换到图像捕获界面248。可以从由图像选择界面240提供的多个选项246中选择图像捕获选项。

然后可以使用用户计算设备的一个或多个图像传感器来捕获图像。然后，图像选择界面240可以向用户提供裁剪选项250。裁剪选项250可以包括自动建议的裁剪区域。可替代地和/或附加地，裁剪选项250可以使得用户能够手动裁剪捕获的图像以提供更具体的区域用于输入。

然后可以将裁剪区域添加到搜索查询(例如，以替换视觉描述性术语和/或补充视觉描述性术语)以生成多模态查询252。然后可基于多模态查询252在更新的搜索结果界面254中提供多个搜索结果。

图2D描绘了根据本公开的示例实施例的示例图像选择界面260的图示。特别地，图2D描绘了用于使用搜索引擎选择图像的示例图像选择界面260。例如，可以提供搜索查询，可以处理搜索查询以确定视觉意图，并且可以提供指示器262。指示器262的选择可以将搜索界面从搜索结果界面264转换到图像搜索界面268。可以从由图像选择界面260提供的多个选项266中选择图像搜索选项。

图像搜索界面268可以处理与视觉意图相关联的搜索查询的一个或多个特定词以确定多个候选图像。然后，用户可以选择特定图像，这可以将图像选择界面260转换到区域选择阶段270。用户可以选择区域，并且图像选择界面260可以提供裁剪选项272，其可以启动自动裁剪和/或手动裁剪。

一旦裁剪完成，就可以提供更新的搜索结果页面276。更新的搜索结果页面276的搜索结果可以基于多模态查询274，该多模态查询274包括原始搜索查询的一个或多个词和选择的图像的至少一部分。

图3描绘了根据本公开的示例实施例的示例搜索界面300的框图。本文公开的系统和方法可以启动搜索查询304的增强以生成可以由搜索引擎302处理的多模态搜索查询。搜索查询304可以被输入到搜索引擎302的查询输入框中，并且可以包括与视觉意图相关联的视觉描述符。

可以处理搜索查询304以确定多个搜索结果，其可以用于生成搜索结果页面306。搜索结果页面306可以包括具有搜索查询的查询输入框，该搜索查询具有指示器308以指示一个或多个确定的视觉描述符。具有指示器308的搜索查询可以指示视觉意图被确定，并且可以打开界面以通过生成多模态搜索查询来细化搜索。搜索结果页面306可以包括第一搜索结果310、第二搜索结果312、第三搜索结果314和/或第N搜索结果316。基于通过生成多模态搜索查询对搜索的细化，搜索结果页面306可被更新以包括具有不同排序的相同搜索结果、不同搜索结果和/或新搜索结果与先前显示的搜索结果的混合。

图4描绘了根据本公开的示例实施例的示例图像选择界面400的图示。在一些实施方式中，可以响应于对文本到替换选项的选择来提供用户特定的图像库选项410、图像捕获选项420和/或图像搜索选项430。用户特定的图像库选项410、图像捕获选项420和图像搜索选项430可以各自具有可以与特定选项相关联的它们自己的相应图标。图标可以是可选择的，以便从一个选项导航到另一个选项。例如，用户特定的图像库选项410可以与重叠图块图标412相关联，图像捕获选项420可以与相机图标422相关联，并且图像搜索选项430可以与地球图标432相关联以指示图像的全局搜索。

每个选项可以为图像提供不同和/或重叠的源。用户特定的图像库选项410可以提供来自特定地与用户相关联的一个或多个图像库的图像。图像库可以本地存储在用户设备上和/或存储在服务器计算系统上。用户特定图像库选项410可以包括用于交互的不同面板，其可以包括最近屏幕截图面板414、最近相机捕获面板和/或所有图像面板416。

图像捕获选项420可以利用用户设备的一个或多个图像传感器，并且可以包括用于确定在环境中何时和/或什么拍摄照片的图像捕获用户界面元素424。

图像搜索选项430可以利用搜索引擎从互联网上的多个源获得图像数据。图像搜索选项430可以利用输入搜索查询的一个或多个词来查询搜索引擎。在一些实施方式中，可以经由专用搜索查询框434输入新查询。可替代地和/或附加地，可以调整一个或多个词。多个图像搜索结果可以被显示和/或由用户交互。

图5描绘了根据本公开的示例实施例的示例文本到图像替换系统500的框图。文本到图像替换系统500可以处理文本数据502以生成增强的数据516。文本数据502可以描述与一个或多个词相关联的多个字符。一个或多个词可以与搜索查询、博客中的文本串、消息中的文本串和/或对问题或提示的响应相关联。

可以处理文本数据502以确定与文本数据502相关联的一个或多个特定词与视觉意图相关联(例如，一个或多个词是视觉描述性词(例如，描述一个或多个视觉特征))。可以基于历史数据504、启发法和/或基于一个或多个机器学习模型(例如，视觉意图确定模型508)来进行确定。例如，历史数据504可以描述在使用一个或多个特定词时用户的过去交互。在一些实施方式中，当使用一个或多个特定词时，用户和/或多个用户可以将搜索结果细化为图像。可替代地和/或另外地，一个或多个特定词可以经常用于描述图像(例如，在图像说明文字中)。可以基于与图像和/或与图像特征的公共关联来确定一个或多个特定词与视觉意图相关联。在一些实施方式中，可以利用词或短语的自然语言含义来确定一个或多个特定词与视觉意图相关联。

附加地和/或可替代地，可以利用一个或多个机器学习模型(例如，视觉意图确定模型508)来确定一个或多个特定词与视觉意图相关联。视觉意图确定模型508可以解析文本数据，处理每个分段以提供每个分段的分类，并且生成描述文本数据是否包括与视觉意图相关联的一个或多个特定词的输出数据510。可替代地和/或附加地，视觉意图确定模型508可以包括自然语言处理模型，该自然语言处理模型可以处理作为整体和/或各种语法确定的分段中的文本数据以生成输出数据510。

基于一个或多个特定词与视觉意图相关联的确定，可以提供指示器506以供显示。指示器506可以包括具有不同颜色和/或改变颜色的一个或多个特定词。可以选择指示器506和/或一个或多个其他用户界面元素。然后可以提供文本到图像替换界面512。然后，用户可以选择是否搜索用户特定的图像库、捕获新图像和/或搜索web(例如，计算系统的网络)以获得要代替文本数据502的一部分和/或与文本数据502的一部分一起利用的特定图像514。

然后可以利用选择的特定图像514来增强文本数据502以生成可以包括文本和图像数据两者的增强的数据516。在一些实施方式中，可以在增强文本数据502之前处理选择的特定图像514。例如，可以由一个或多个机器学习模型(例如，裁剪模型518)处理特定图像514以生成要添加到文本数据502的增强的图像。特别地，可以由裁剪模型518处理特定图像514，以确定要分割的特定图像514的一个或多个部分，以生成裁剪图像520。然后，可以利用裁剪图像520来生成增强的数据516。裁剪模型518可以包括一个或多个检测模型、一个或多个分类模型和/或一个或多个分割模型。裁剪模型可以确定在特定图像514中描绘了一个或多个对象，可以确定与一个或多个对象相关联的一个或多个区域，并且可以向用户提供建议的裁剪区域。可替代地和/或附加地，裁剪模型518可以确定特定图像514的多个区域中的哪个区域与一个或多个特定词相关联。例如，如果一个或多个特定词包括“pattern(图案)”，则裁剪模型518可以确定分割具有条纹的连衣裙的一部分而不是分割墙壁的纯色墙纸。

示例方法

图6描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管出于说明和讨论的目的，图6描绘了以特定顺序执行的步骤，但是本公开的方法不限于具体示出的顺序或布置。在不脱离本公开内容的范围的情况下，可以以各种方式省略、重新布置、组合和/或调整方法600的各个步骤。

在602处，计算系统可以获得文本数据。文本数据可以描述多个文本字符。多个文本字符可以描述一个或多个词。可以经由对用户界面的一个或多个输入来获得多个字符。可替代地和/或附加地，可以通过处理与说出的话语相关联的音频数据来生成文本数据。

在604处，计算系统可以处理文本数据以确定多个文本字符的子集包括视觉描述性术语。视觉描述性术语可以与一个或多个视觉特征相关联。在一些实施方式中，可以基于历史搜索数据来确定视觉描述性术语。历史搜索数据可以描述用于获得一个或多个图像搜索结果的多个术语。在一些实施方式中，可以基于用语义理解模型处理文本数据来确定视觉描述性术语。可以基于历史点击数据来确定视觉描述性术语。历史选择数据可以是全局选择数据、用户特定的历史选择数据、区域特定的历史选择数据和/或上下文特定的历史选择数据。在一些实施方式中，历史选择数据可以描述当输入特定术语时选择图像搜索栏标的频率。

在606处，计算系统可以提供用于显示的指示器。指示器可以描述用于用图像数据替换视觉描述性术语的文本替换选项。指示器可以包括以与多个文本字符的剩余字符不同的一种或多种颜色显示的多个文本字符的子集。在一些实施方式中，指示器可以包括弹出用户界面元素。指示器可以包括突出显示一个或多个词、对一个或多个词加下划线、圈出一个或多个词和/或使一个或多个词闪烁。

在608处，计算系统可以获得第一输入数据。第一输入数据可以描述文本替换选项的第一选择。第一输入数据可以描述音频输入(例如，语音命令)、触摸输入(例如，对触摸屏的输入)、键盘输入和/或鼠标输入。第一输入数据可以包括指示器的选择。

在610处，计算系统可以提供用于显示的图像选择界面。图像选择界面可以包括用于选择的多个图像。在一些实施方式中，至少部分地基于视觉描述性术语来获得多个图像。可以通过确定用户特定的图像数据库中的图像数据与一个或多个视觉特征相关联来获得多个图像。计算系统可以确定与一个或多个视觉特征相关联的图像数据包括多个图像。在一些实施方式中，可以基于一个或多个视觉描述性术语来获得多个图像。

在一些实施方式中，可以通过用多个文本字符的子集查询搜索引擎并接收多个图像来获得多个图像。用于查询搜索引擎的查询可以包括视觉描述性术语。附加地和/或可替代地，可以获得和/或确定一个或多个上下文。然后可以利用一个或多个上下文来细化搜索。一个或多个上下文可以包括用户特定的信息(例如，用户的位置、应用历史、用户的搜索历史、用户的购买历史、用户偏好和/或用户简档)。在一些实施方式中，一个或多个上下文可以包括一天中的时间、一周中的时间、一年中的时间、全局趋势和/或当利用特定视觉描述性术语时图像的过去选择。

附加地和/或可替代地，提供用于显示的图像选择界面可以包括提供图像搜索选项、用户图像数据库选项和图像捕获选项。图像搜索选项可以包括用多个文本字符的子集查询web。用户图像数据库选项可以包括从用户图像数据库获得图像。图像捕获选项可以包括利用用户设备的一个或多个图像传感器。用户图像数据库可以与一个或多个用户简档相关联，并且可以与一个或多个图像库应用相关联。在一些实施方式中，用户图像数据库选项可以允许选择本地存储的数据。可替代地和/或附加地，用户图像数据库选项可以使用户能够选择与用户相关联地存储在一个或多个图像存储应用中的图像，该图像存储应用可以包括云存储、服务器存储和/或本地存储。

在一些实施方式中，计算系统可以在不提供指示器和/或不获得第一输入数据的情况下提供图像选择界面。例如，计算系统可以执行604，然后执行610而不执行606和608。

在612处，计算系统可以获得第二输入数据。第二输入数据(或选择数据)可以描述图像的第二选择。第二输入数据可以描述音频输入(例如，语音命令)、触摸输入(例如，对触摸屏的输入)、键盘输入和/或鼠标输入。第一输入数据可以包括选择图标的选择、缩略图的选择和/或拖放选择。

在614处，计算系统可以提供图像以作为多个文本字符的子集的替换来显示。例如，可以移除多个文本字符的子集，并且可以将图像添加在删除之前多个文本字符的子集的位置。

在一些实施方式中，多个文本字符可以包括多个文本字符的子集和第二子集。计算系统可以包括处理图像和第二子集以确定多个搜索结果。在一些实施方式中，可以基于图像和第二子集来确定多个搜索结果。然后可以在搜索结果页面界面中提供多个搜索结果。

图7描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管出于说明和讨论的目的，图7描绘了以特定顺序执行的步骤，但是本公开的方法不限于具体示出的顺序或布置。在不脱离本公开的范围的情况下，可以以各种方式省略、重新布置、组合和/或调整方法700的各个步骤。

在702处，计算系统可以获得搜索查询。搜索查询可以包括一个或多个词。在一些实施方式中，获得搜索查询可以包括经由搜索界面的查询框获得搜索查询。搜索界面可以由web平台、移动应用和/或桌面应用提供。搜索查询可以包括布尔项和语法和/或自然语言结构。

在704处，计算系统可以确定一个或多个词包括视觉意图。视觉意图可以与一个或多个视觉特征相关联。视觉意图可以基于一个或多个词与颜色、图案、设计、对象和/或视觉特征相关联。该关联可以基于一个或多个词是视觉描述符，一个或多个词与特定视觉特征的标签相关联，和/或一个或多个词与过去的图像搜索查询相关联。描述颜色、图案、形状的词和/或其他视觉描述符可以被确定为包括视觉意图。

在706处，计算系统可以提供用户界面元素。在一些实施方式中，用户界面元素可以描述文本替换选项。用户界面元素可以是指示系统和方法已经确定一个或多个词与视觉意图相关联的指示器。用户界面元素可以包括视觉效果。用户界面元素可以包括弹出元素、下拉菜单、对一个或多个词的显示的改变和/或图标的外观。

在708处，计算系统可以获得第一输入数据。第一输入数据可以描述文本替换选项的第一选择。第一输入数据可以包括传感器数据。第一输入数据可以描述与用户界面元素的交互(例如，轻击输入、手势输入和/或在没有获得输入的情况下经由经过阈值时间量的输入的缺乏)。

在710处，计算系统可以提供用于显示的图像选择界面。图像选择界面可以包括用于选择的多个图像。在一些实施方式中，可以基于包括视觉意图的一个或多个词的确定来提供图像选择界面以供显示。图像选择界面可以包括用于查看和选择来自不同数据库的图像和/或不同介质或类型的图像的一个或多个不同栏标。图像选择界面可以包括用于提供不同类型的媒体内容项和/或来自不同源的媒体内容项的一个或多个面板。

在一些实施方式中，计算系统可以在不提供指示器和/或不获得第一输入数据的情况下提供图像选择界面。例如，计算系统可以执行704然后执行710，而不执行706和708。

在712处，计算系统可以获得选择数据。选择数据(例如，第二输入数据)可以描述图像的第二选择。选择数据可以包括传感器数据。选择数据可以描述与图像选择界面的交互(例如，轻击输入、手势输入和/或在没有获得输入的情况下经由经过阈值时间量的输入的缺乏)。

在714处，计算系统可以提供图像以作为一个或多个词的替换来显示。例如，可以提供图像的预览和/或缩略图以在搜索界面的查询框中显示。

在716处，计算系统可以确定与图像相关联的一个或多个搜索结果。在一些实施方式中，可以经由搜索结果页面提供一个或多个搜索结果。搜索结果页面可以包括显示图像的查询框。附加地和/或可替代地，搜索结果页面可以包括用于显示与一个或多个搜索结果相关联的信息的搜索结果面板。搜索查询可以包括一个或多个附加词。在一些实施方式中，可以至少部分地基于一个或多个附加词来确定一个或多个搜索结果。一个或多个搜索结果可以包括一个或多个图像搜索结果。附加地和/或可替代地，一个或多个搜索结果可以包括描述与图像的一个或多个视觉特征相关联的产品的一个或多个产品搜索结果。

在718处，计算系统可以提供一个或多个搜索结果作为输出。可以提供一个或多个搜索结果以在搜索结果页面界面中显示。可以基于搜索结果的类型、搜索结果的源和/或搜索结果的分类在不同的面板中提供搜索结果。

图8描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管出于说明和讨论的目的，图8描绘了以特定顺序执行的步骤，但是本公开的方法不限于具体示出的顺序或布置。在不脱离本公开的范围的情况下，可以以各种方式省略、重新布置、组合和/或调整方法800的各个步骤。

在802处，计算系统可以获得多个词。多个词可以包括一个或多个特定词和一个或多个附加词。一个或多个特定词可以包括视觉描述性术语。一个或多个附加词可以与一个或多个特定词互补和/或可以针对搜索查询或短语的不同描述性方面。

在804处，计算系统可以确定多个词中的一个或多个特定词包括视觉意图。视觉意图可以与一个或多个视觉特征相关联。该确定可以基于用一个或多个机器学习模型处理多个词以生成一个或多个输出。一个或多个机器学习模型可以包括一个或多个检测模型、一个或多个分割模型、一个或多个分类模型和/或一个或多个增强模型。在一些实施方式中，一个或多个机器学习模型可以包括一个或多个自然语言处理模型。一个或多个机器学习模型可以包括一个或多个变换器模型。在一些实施方式中，该确定可以基于历史搜索数据。

在806处，计算系统可以提供多个词以与标识一个或多个特定词的指示器一起显示。指示器可以是描述可以基于标识的一个或多个特定词执行的一个或多个可能动作的视觉指示器。指示器可以包括描述，可以包括文本颜色变化，可以包括突出显示，和/或可以包括弹出元素。

在808处，计算系统可以确定与一个或多个特定词相关联的多个图像。附加地和/或可替代地，多个图像可以与视觉意图相关联。该确定可以基于用一个或多个特定词查询数据库。数据库可以是存储在用户的设备上的本地数据库和/或可以是通过网络连接访问的数据库。可以裁剪一个或多个图像以隔离与一个或多个特定词相关联的图像的特定部分。

在810处，计算系统可以在用户界面面板中提供多个图像。用户界面面板可以包括与多个图像相关联的多个交互式用户界面元素。用户界面面板可以是弹出面板和/或可以替换原始显示的界面的一部分。

在812处，计算系统可以获得对多个图像中的特定图像的选择。在一些实施方式中，特定图像可以是来自图像数据库的裁剪图像。可以通过用一个或多个机器学习模型处理未裁剪图像以检测图像的相关部分并从未裁剪图像分割相关部分来生成裁剪图像。

在814处，计算系统可以提供一个或多个附加词和特定图像以在没有一个或多个特定词的情况下输出。特定图像可以位于先前显示一个或多个特定词的位置。在一些实施方式中，可以提供缩略图和/或预览以代替完整的特定图像进行显示。

在一些实施方式中，计算系统可以包括处理输出以生成翻译输出。可以至少部分地基于特定图像来生成翻译输出。

可替代地和/或附加地，计算系统可以包括将输出提供给搜索引擎并接收多个搜索结果。多个搜索结果可以与一个或多个附加词和特定图像相关联。

附加公开

本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的系统，以及采取的动作和发送到这些系统和从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能的各种可能的配置、组合和划分。例如，本文讨论的过程可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或者跨多个系统分布。分布式组件可以顺序地或并行地操作。

虽然已经关于本主题的各种具体示例实施例详细描述了本主题，但是每个示例是通过解释而不是限制本公开的方式提供的。在获得对前述内容的理解后，本领域技术人员可以容易地产生对这些实施例的变更、变化和等同物。因此，本主题公开不排除包括对本主题的这样的修改、变化和/或添加，这对于本领域普通技术人员来说将是显而易见的。例如，作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此，本公开旨在覆盖这样的变更、变化和等同物。

Claims

1.一种用于多模态搜索的计算机实现的方法，所述方法包括：

由包括一个或多个处理器的计算系统获得搜索查询，其中，所述搜索查询包括一个或多个词；

由所述计算系统确定所述一个或多个词包括视觉意图，其中，所述视觉意图与一个或多个视觉特征相关联；

由所述计算系统提供用于显示的图像选择界面，其中，所述图像选择界面包括用于选择的多个图像，其中，所述图像选择界面基于包括所述视觉意图的所述一个或多个词的确定而被提供用于显示；

由所述计算系统获得选择数据，其中，所述选择数据描述图像的选择；

由所述计算系统提供所述图像以作为所述一个或多个词的替换来显示；

由所述计算系统确定与所述图像相关联的一个或多个搜索结果；以及

由所述计算系统提供所述一个或多个搜索结果作为输出。

2.根据权利要求1所述的方法，其中，由所述计算系统提供用于显示的图像选择界面包括：

由所述计算系统提供用户界面元素，其中，所述用户界面元素描述文本替换选项；

由所述计算系统获得第一输入数据，其中，所述第一输入数据描述所述文本替换选项的第一选择；以及

由所述计算系统基于所述第一输入数据提供用于显示的图像选择界面。

3.根据权利要求1所述的方法，其中，所述一个或多个搜索结果是经由搜索结果页面提供的，其中，所述搜索结果页面包括显示所述图像的查询框，并且其中，所述搜索结果页面包括用于显示与所述一个或多个搜索结果相关联的信息的搜索结果面板。

4.根据权利要求1所述的方法，其中，所述搜索查询包括一个或多个附加词，其中，至少部分地基于所述一个或多个附加词来确定所述一个或多个搜索结果。

5.根据权利要求1所述的方法，其中，获得所述搜索查询包括经由搜索界面的查询框获得所述搜索查询。

6.根据权利要求1所述的方法，其中，所述一个或多个搜索结果包括一个或多个图像搜索结果。

7.根据权利要求1所述的方法，其中，所述一个或多个搜索结果包括一个或多个产品搜索结果，所述一个或多个产品搜索结果描述与所述图像的一个或多个视觉特征相关联的产品。

8.一种用于文本到图像替换的计算系统，所述系统包括：

一个或多个处理器；以及

一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质共同存储指令，所述指令在由所述一个或多个处理器执行时，使所述计算系统执行操作，所述操作包括：

获得文本数据，其中，所述文本数据描述多个文本字符；

处理所述文本数据以确定所述多个文本字符的子集包括视觉描述性术语，其中，所述视觉描述性术语与一个或多个视觉特征相关联；

提供用于显示的图像选择界面，其中，所述图像选择界面包括用于选择的多个图像，其中，所述多个图像是至少部分地基于所述视觉描述性术语获得的；

获得选择数据，其中，所述选择数据描述图像的选择；以及

提供所述图像以作为所述多个文本字符的子集的替换来显示。

9.根据权利要求8所述的系统，其中，提供用于显示的图像选择界面包括：

提供用于显示的指示器，其中，所述指示器描述用于用图像数据替换所述视觉描述性术语的文本替换选项；

获得第一输入数据，其中，所述第一输入数据描述所述文本替换选项的第一选择；以及

基于所述第一输入数据提供用于显示的图像选择界面。

10.根据权利要求9所述的系统，其中，所述指示器包括以与所述多个文本字符中的剩余字符不同的一种或多种颜色显示的所述多个文本字符的子集。

11.根据权利要求8所述的系统，其中，所述多个文本字符包括所述多个文本字符的所述子集和第二子集；并且

其中，所述操作还包括：

处理所述图像和所述第二子集以确定多个搜索结果，其中，所述多个搜索结果是基于所述图像和所述第二子集确定的；以及

在搜索结果页面界面中提供所述多个搜索结果。

12.根据权利要求8所述的系统，其中，所述多个图像通过以下方式获得：

用所述多个文本字符的所述子集查询搜索引擎；以及

接收所述多个图像。

13.根据权利要求8所述的系统，其中，通过确定用户特定的图像数据库中的图像数据与所述一个或多个视觉特征相关联来获得所述多个图像，

其中，与所述一个或多个视觉特征相关联的图像数据包括所述多个图像。

14.根据权利要求8所述的系统，其中，提供用于显示的图像选择界面包括：

提供图像搜索选项、用户图像数据库选项和图像捕获选项，其中，所述图像搜索选项包括用所述多个文本字符的所述子集查询计算系统的网络，其中，所述用户图像数据库选项包括从用户图像数据库获得图像，并且其中，所述图像捕获选项包括利用用户设备的一个或多个图像传感器。

15.根据权利要求8所述的系统，其中，所述视觉描述性术语是基于历史搜索数据来确定的。

16.根据权利要求15所述的系统，其中，所述历史搜索数据描述先前用于获得一个或多个图像搜索结果的多个术语。

17.根据权利要求8所述的系统，其中，所述视觉描述性术语是基于用语义理解模型处理文本数据来确定的。

18.一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质共同存储指令，所述指令在由一个或多个计算设备执行时，使所述一个或多个计算设备执行操作，所述操作包括：

获得多个词，其中，所述多个词包括一个或多个特定词和一个或多个附加词；

确定所述多个词中的所述一个或多个特定词包括视觉意图，其中，所述视觉意图与一个或多个视觉特征相关联；

提供所述多个词以与标识所述一个或多个特定词的指示器一起显示；

确定与所述一个或多个特定词相关联的多个图像，其中，所述多个图像与所述视觉意图相关联；

在用户界面面板中提供所述多个图像，其中，所述用户界面面板包括与所述多个图像相关联的多个交互式用户界面元素；

获得对所述多个图像中的特定图像的选择；以及

提供所述一个或多个附加词和所述特定图像以在没有所述一个或多个特定词的情况下输出。

19.根据权利要求18所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

处理所述输出以生成翻译输出，其中，所述翻译输出是至少部分地基于所述特定图像来生成的。

20.根据权利要求18所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

将所述输出提供给搜索引擎；以及

接收多个搜索结果，其中，所述多个搜索结果与所述一个或多个附加词和所述特定图像相关联。