CN108876706A

CN108876706A - 根据全景图像的缩略图生成

Info

Publication number: CN108876706A
Application number: CN201810002317.7A
Authority: CN
Inventors: T·加格; N·戈尔
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2017-05-15
Filing date: 2018-01-02
Publication date: 2018-11-23
Anticipated expiration: 2038-01-02
Also published as: AU2018200055B2; US11086926B2; US10417276B2; US20180329927A1; DE102017012116A1; CN108876706B; GB201800168D0; US20190354550A1; AU2018200055A1; GB2562556B; GB2562556A

Abstract

描述了从全景图像生成缩略图。在一个或多个实现中，全景图像的2D投影被接收并被投影到3D表面上以生成3D投影。3D投影的部分被形成，并且每个部分被投影到2D平面以生成该部分的2D投影。然后在标识全景图像内的对象、对象的属性、和对象的位置的部分上执行对象识别。响应于与识别的对象中的一个相匹配的图像搜索查询，系统从全景图像生成特定于包含对象的全景图像的一部分的缩略图并且输出缩略图。

Description

根据全景图像的缩略图生成

背景技术

可用于由用户使用的数字图像的量(为了简便在下面的讨论中也被称为“图像”)不断增加。随着图像的量的增加，对图像的准确和用户友好的搜索的需求也增加。为了查找具有特定内容的图像，用户经常向计算设备提供搜索术语或其他准则以获得有意义的结果。例如，计算设备可以使用搜索术语“小船”来执行图像搜索，并且可以返回已经被标识为包含小船的一组图像。在通常的数字图像中，返回图像的简单显示效果良好，例如经由缩略图，因为缩略图通常捕获图像中包括的全部内容，例如特定对象。然而，由于甚至在单个图像内包括的内容的量，从全景图像生成基本缩略图可能是有问题的。

由于通常比人眼的视野大的视野，全景图像通常被视为的3D投影。由于3D投影通常需要诸如的专业查看器，所以全景图像经常作为二维(2D)投影被存储和查看，例如等矩柱状投影和鱼眼投影。因此，为了响应于图像搜索而返回全景图像，传统的计算设备通常生成全景图像的整个2D投影的缩略图。但是，这可以会导致投影内的对象变形，导致无法辨别投影内的各个对象。在另一种传统技术中，计算设备可以创建2D投影(其未被扭曲)的中心部分的缩略图以表示全景图像。虽然居中部分的缩略图对于用户是视觉上令人满意的并且可理解的，但图像内的许多对象可位于缩略图的外部。因此，如果图像搜索涉及缩略图部分之外的对象，则即使全景图像包含对象，用户也将很可能确定图像与搜索无关。因此，传统技术无法生成有用的全景图像的缩略图，使得用户能够响应于图像搜索而容易地看到全景图像内的特定内容。

发明内容

描述由计算设备从全景图像的缩略图生成。缩略图基于全景图像内特定于识别的对象的全景图像的部分。以这种方式，用户可以快速且容易地看到与图像搜索相关的全景图像的一部分的缩略图。通过利用相关缩略图，可以克服传统图像搜索技术在面对全景图像时的技术限制。在一个实现中，数字媒体环境包括被配置为接收全景图像的2D投影的至少一个计算设备。计算设备将2D投影投影到诸如球体的3D表面上。从那里，计算设备生成3D投影的一部分的一系列2D投影，并在2D部分上运行对象识别。计算设备然后标识全景图像内的对象和对象的位置。计算设备然后被配置为生成包括作为图像搜索的主题的对象的全景图像的一部分的2D投影。

本发明内容以简化的形式介绍了在下面的具体实施方式中进一步描述的一些概念的选择。因此，本发明内容既不旨在标识所要求保护的主题的必要特征，也不旨在用作确定所要求保护的主题的范围的辅助手段。

附图说明

参考附图描述详细描述。图中表示的实体可以指示一个或多个实体，因此可以对讨论中的单数或复数形式的实体可互换地进行参考。

图1是可操作用于从全景图像生成缩略图的示例实现中的数字媒体环境的图示。

图2是更详细地图示了图1的对象位置模块的示例数字媒体实现的图示。

图3是更详细地图示了图1的缩略图生成模块的操作的示例数字媒体实现的图示。

图4是图示了全景图像的示例2D投影的示例实现的图示。

图5是图示了从图4的全景图像来生成缩略图的传统技术的示例实现的图示。

图6是图示了在全景图像的2D投影和3D投影之间的关系的示例实现的图示。

图7是图示了图4的全景图像的3D投影的部分的多个2D投影的示例实现的图示。

图8是图了与图4的全景图像有关的匹配图像搜索的搜索项的识别对象的位置以及针对每个搜索项生成的缩略图的示例实现的图示。

图9是描绘了用于检测对象并确定全景图像内的识别的对象的位置以用于从全景图像生成缩略图的示例实现中的过程的流程图。

图10是描绘了用于输出与全景图像内的对象相对应的从全景图像生成的缩略图的示例实现中的过程的流程图。

图11是可操作用于从全景图像生成缩略图的示例实现中的系统和设备的图示。

具体实施方式

概述

全景图像通常捕获具有比人眼的视野更大的视野的场景。通过计算设备的使用来查看全景图像的最直观的方式是将全景图像投影到3D表面上，例如投影到查看者“周围”的球体上。尽管3D投影可以是经由计算设备使全景图像可视化的最佳方式，但是其不是用于存储和查看全景图像的实用格式，因此全景图像通常被存储为2D投影。地图制作者早已使用类似的技术来投影地球的一部分，以生成2D地图，因为与地球一起行进是不实际的。尽管2D投影显示在全景图像内包含的整个图像数据，但是整个全景图像的2D投影通常难以解读，并且通常包含大量的失真。用于向用户呈现全景图像的传统技术依赖于整个2D投影的缩略图的生成或者2D投影的中心部分的缩略图的生成。因此，这些传统技术可以导致难以解读的缩略图的生成，并且可以缺少与用户相关的全景图像的部分，例如作为图像搜索的一部分。

描述了用于从全景图像生成缩略图的技术和系统。当搜索数字图像时，用户的体验通常受结果的准确性和图像可以被解析以找到感兴趣图像的速度的影响。在全景图像的特殊情况下，用户想要查看与图像搜索相关的全景图像的部分，使得用户能够快速且容易地确定图像是否相关。

在一个示例中，计算设备接收要从其生成缩略图的全景图像。全景图像可以以各种方式配置，诸如2D投影、3D投影、虚拟现实格式、全景图像的专用文件格式等等。不管如何接收全景图像，计算设备将全景图像投影到3D表面上以生成3D投影(如果它尚未被投影到3D表面上)。从3D投影，计算设备生成3D投影的一系列部分，并将这些部分投影到2D平面。例如，计算设备可以在3D表面上使用“滑动窗口”来生成该系列。计算设备然后对部分执行对象识别，以标识对象和部分内的对象的属性以及对象相对于3D投影的位置。响应于匹配用户搜索查询的对象中的一个，计算设备然后可以通过将所标识的对象的坐标从3D投影投影到2D平面用于输出来生成缩略图。以这种方式，针对对象的图像的用户搜索可以接收特定于该对象的全景图像的一部分的缩略图。如以下各部分中进一步描述的，各种其他示例也是可以想到的。

描述了可以采用本文描述的缩略图生成技术的示例环境。然后描述可以在示例环境以及其他环境中执行的示例过程。因此，示例过程的执行不限于示例环境，并且示例环境不限于示例过程的执行。

术语

术语“全景图像”是指捕获示出比人眼更大的视野的图像数据的任意电子图像文件，大约160°×75°。例如，许多全景图像具有360°×180°的视野，其被称为360°全景或全景图像、球形视图图像、全球视图图像等等。

术语“缩略图”是指容易发送、存储和使用的图像的表示。缩略图的示例是数字图像的一部分或数字图像的较低分辨率表示。

术语“2D投影”或“前向投影”是指全景图像或全景图像的一部分到2D平面上的任意种类投影，诸如圆柱投影、等矩柱状投影、鱼眼投影、立体投影和等等。2D投影通常用于存储和显示全景图像。

术语“3D投影”或“反向投影”是指将全景图像或全景图像的一部分投影到诸如球体的3D表面上的任意种类的投影。尽管这些类型的投影对于用户来说更直观，但是3D投影需要复杂的界面以正确地查看。

术语“对象”是指具有属性的全景图像的识别或标识部分。对象的示例是白色的帆船。

术语“位置”是指全景图像内的对象的位置，使得可以创建对应于对象的全景图像的一部分的2D投影。示例位置可以是具有四个经度和纬度坐标的边界框。

示例环境

图1描绘了通常在100处的在可操作用于从全景图像生成缩略图的示例实现中的数字媒体环境。所图示的数字媒体环境100包括包含缩略图模块104的计算设备102。缩略图模块104至少部分地以计算设备102的硬件实现，以从全景图像108生成缩略图106。缩略图106例如可以被配置为捕获在全景图像108内包含的识别的对象110。全景图像108和缩略图106两者均被图示为存储在存储设备112中。在一个实现中，缩略图模块104、缩略图模块104的一部分、全景图像108、缩略图106或其任意组合可以经由网络114(例如因特网、Wi-Fi网络(例如，根据一个或多个IEEE 802.11标准)、无线网络、蜂窝数据网络等等)整体或部分地“在云中”实现。

为了生成缩略图106，缩略图模块104利用至少部分地以硬件实现的对象位置模块116来接收全景图像108并且生成与全景图像108内的识别的对象110相对应的缩略图106。尽管被示出为具有单个识别对象的单个缩略图，可以针对单个全景图像生成多个缩略图。例如，可以显示用户界面视图120，其显示与来自全景图像108三个识别的对象(长凳、小船和救生圈箱)相关联的三个缩略图。关于图2描述了对象位置模块116的细节以及它如何被实现以生成全景图像108的缩略图106。

缩略图模块104还包含缩略图生成模块118，缩略图生成模块118至少部分地以硬件实现，以响应于识别的对象110匹配搜索查询而从全景图像108返回缩略图106。以这种方式，响应于计算设备102接收到与识别的对象110相对应的图像搜索查询，可以返回全景图像108内的识别的对象110的缩略图106。参照图3描述了缩略图生成模块118的细节以及它如何被实现以返回全景图像108的缩略图106。

图2描绘了一般在200处的更详细地示出了当生成与全景图像108内的识别的对象110相关联的全景图像108的缩略图106时的图1的对象位置模块116的操作的示例实现。为了这样做，计算设备102首先接收全景图像108。全景图像108可以作为原始数据、3D投影、2D投影、全景查看器文件类型等被接收。全景图像108可以从计算设备102(例如从存储设备112)本地接收，或者经由上传或电子邮件等等通过网络114(例如因特网、Wi-Fi网络(例如根据一个或多个IEEE 802.11标准)、无线网络、蜂窝数据网络)从连接到计算设备102的另一计算设备接收。计算设备102利用反向投影模块202，该反向投影模块202至少部分地以硬件实现以将所接收的全景图像108投影到3D表面(诸如球体)上，以便生成全景图像108的3D投影。例如当全景图像108被投影到球体上时，可以想象为图像的查看者位于球体的中心，其中场景被投影在其周围的所有面上。如果全景图像108被接收为合适的3D投影，则不需要投影它。

然后全景图像的3D投影由滑动窗口前向投影模块204接收，滑动窗口前向投影模块204至少部分地以硬件实现以生成3D投影的部分的2D投影。滑动窗口前向投影模块204利用在3D投影的表面上“滑动”的窗口，并且针对窗口包围的每个新部分生成2D投影。滑动窗口前向投影模块204可以利用各种尺寸的窗口/部分来创建这些部分的2D投影。

然后由对象识别模块206接收全景图像的部分的2D投影，对象识别模块206至少部分地以硬件实现以识别这些部分的2D投影内的对象。对象识别可以单独检查每个部分或者检查这些部分的组合。因此，可以检测到在单个部分内包含或跨越多个部分的对象。对象识别模块206识别对象并确定对象在全景图像内的位置。例如，对象的位置可以包括具有围绕对象的像素坐标的边界框。关于图4和6-8进一步讨论坐标。对象识别模块206然后基于识别的对象的位置生成全景图像108中的各个识别的对象110缩略图106。缩略图可以被存储为实际缩略图或者作为对象的位置，使得可以在图像搜索时生成相关的缩略图。

图3描绘了一般在300处的更详细地示出了当响应于接收图像搜索查询302而返回至少一个全景图像的缩略图时的图1的缩略图生成模块118的操作的示例实现。为了这样做，计算设备102接收图像搜索查询302。图像搜索查询302可以包括搜索项、名词、对象、对象属性等。例如，图像搜索查询302可以包括搜索项“白色小船”。图像搜索查询302可以从计算设备102本地接收，或者通过网络114(例如因特网、Wi-Fi网络(例如，根据一个或多个IEEE 802.11标准)、无线网络、蜂窝数据网络等等)从连接到计算设备102的另一个计算设备接收。

图像搜索查询302由图像搜索模块304接收，图像搜索模块304至少部分地以硬件实现以接收图像搜索查询302并且确定与图像搜索查询302匹配的至少一个识别的对象，示出为识别的对象110和306。图像搜索模块304搜索与图像搜索查询302匹配的全景图像(由对象位置模块116识别)内的识别的对象。识别的对象110和306可来自相同的全景图像，例如，如果全景图像包含两条白色小船；或者来自两幅不同的全景图像，例如各包含一条白色小船的两幅全景图像。尽管示出了两个识别的对象和关联的缩略图，但是图像搜索模块304可以从任意数量的全景图像中找到任意数量的识别对象。因此，图像搜索模块304确定匹配搜索查询302的相应全景图像内的识别对象110和306的位置。

然后，缩略图返回模块310接收识别的对象110和306的位置，缩略图返回模块310至少部分地以硬件实现，以输出与识别的对象110相关联的缩略图106以及与识别的对象306相关联的缩略图308。如上所述，可以在搜索之前例如在对象位置模块116识别对象时生成缩略图，或者可以响应于基于识别的对象的坐标和包含识别的对象的相应的全景图像的搜索来生成缩略图。因此，缩略图返回模块310分别发送特定于检测到的对象110和306的缩略图106和308，其两者都与图像搜索查询302匹配。

图4描绘了一般在400处示出作为2D等矩柱状投影的全景图像108和针对2D等矩柱状投影的示例坐标系402的示例实现。在这个示例中，坐标系使用标准纬度(phi)和经度(lambda)坐标，这些坐标与用于地球的地球仪和地图的坐标类似。在不脱离本公开的范围的情况下，可以使用任意坐标系。坐标系统402还包含显示全景图像108的哪些部分与查看者相关的视觉引导。如图所示，草在查看者面前，混凝土人行道/码头跑到查看者的左右，海洋在查看者的后面。

图5描绘了响应于接收到图像搜索生成图4的全景图像的缩略图以输出的传统技术的示例。在该示例中，可以生成包括整个2D投影的第一缩略图500。如所示，由于缩略图内的失真和大视野，用户可以无法辨别关于缩略图内的对象的细节。可以生成第二缩略图502，该第二缩略图502包括2D投影中间的部分(由边界框504表示)。如图所示，用户仅暴露于图像数据的一小部分，因此可以确定全景图像与图像搜索无关。

图6描绘了总体上在600处的示出了全景图像的等矩柱状2D投影602的坐标如何通过反向投影模块202被“反向投影”到3D球形投影604的示例实现。因为如上所述的全景图像的本地格式是3D投影，所以使用术语反向。在这个示例中，使用了与图4相同的坐标系(项目402)。当等矩柱状2D投影602内的点在被反向投影到3D球体上时，分别具有对应于其经度和纬度的坐标这就是为什么由于2D和3D之间的直接坐标映射，等矩柱状投影有时被称为“非投影”。为了将2D投影602反向投影到3D投影604，将来自点的经度和纬度用作二维的角度以将像素放置在球体上的相应位置。这非常相似于将点从地图映射到地球仪。尽管使用等矩柱状投影，但是任意类型的2D投影都可以类似地反向投影到3D，因为每种类型的2D投影具有反向投影到3D的方法。

图7描绘了一般在700处的示出了来自图6的3D球形投影604的部分如何通过滑动窗口前向投影模块204被向前投影回到2D，以及对象识别如何通过对象识别模块206在部分的2D投影上执行的示例实现。为了这样做，通过滑动窗口前向投影模块204生成3D投影的一系列部分(由球体上的线表示)。这些部分可以是任意尺寸，并且该过程可以针对多个部分尺寸重复。一旦确定了部分，则每个部分都被滑动窗口前向投影模块204前向投影到2D。可以使用滑动窗口，其渐进地投影球体周围的相邻部分。通过仅对全景图像的一部分进行向前投影，不会生成失真，因此可以更有效地使用对象识别。

一旦生成了这些部分的2D投影，由对象识别模块206对每个部分执行对象识别。对象识别可以是图像中包含的对象和对象的属性的任意种类的检测。属性可以是图像内的单词(通过文本识别来检测)、形状、颜色等等。如上所述，可以使用多个尺寸的部分来确保识别的对象被包含在部分内，或者识别的对象可以跨越多个部分。无论如何，确定对象的位置，例如作为对象的经纬度坐标、围绕对象的具有纬度和经度坐标的边界框、另一坐标系等等，使得对象可以位于3D投影内。在该示例中，对象识别已经确定在全景图像108内存在长凳702、救生圈箱704、和白色小船706，对应的位置将在下面参照图8进行讨论。

图8描绘了一般在800处示出了在生成和返回特定于与全景图像108的部分匹配的三个单独的图像搜索查询302的缩略图时缩略图生成模块118的功能性的示例实现。首先，缩略图生成模块118接收长凳的搜索查询。缩略图生成模块118确定全景图像108包含具有位置的长凳。响应于该确定，缩略图生成模块118生成缩略图802，缩略图802包括与长凳的坐标相对应的全景图像的一部分的2D投影。描绘了代表小船和救生圈的搜索查询的两个其他搜索查询，针对其缩略图生成模块118从全景图像108的分别生成缩略图804和806。全部三个缩略图802、804和806被链接到全景图像108。因此，响应于搜索查询而接收缩略图802、804和806的计算设备响应于接收到对缩略图802、804和806中的任意一个的用户选择来导航到整个全景图像108。在另一实现中，缩略图的选择使计算设备导航到与缩略图相对应的全景图像的标识部分的图像，而不是整个全景图像108。这样，取决于匹配全景图像108的部分的搜索查询的术语/属性，计算设备可以生成全景图像108的不同缩略图。

通过本文描述的技术的使用，可以从全景图像生成描绘满足搜索准则的全景图像的一部分的缩略图。例如，如果用户搜索小船，并且全景图像包含小船，则系统仅返回小船的缩略图而不是整个图像或图像的默认缩略图。以这种方式，根据用于找到全景图像的搜索项，可以生成用于单个全景图像的不同缩略图。这导致图像搜索结果既准确又容易被用户解析。

示例过程

以下讨论描述了可以利用先前描述的系统和设备来实现的从全景图像生成缩略图。每个程序的方面可以用硬件、固件或软件或其组合来实现。该过程被示出为指定由一个或多个设备执行的操作的框集合，并且不必限于用于执行相应框的操作的顺序。在以下讨论的部分中，将参考图1-8。

图9描绘了一般在900处在其中全景图像内的识别对象的位置由计算设备确定的示例实现中的过程。

首先，由计算设备生成全景图像的3D投影(步骤902)。全景图像可以作为2D投影被接收，诸如等矩柱状投影。接收到的2D投影的示例是关于图1、2、4和6所讨论的全景图像108。不管全景图像如何被接收，全景图像2D被反向投影到3D表面以生成全景图像的3D投影。例如，可以将等矩柱状投影108投影到球体上以生成关于图6讨论的全景图像的球形3D投影604。在一个实现中，全景图像作为3D投影被接收，这移除了对步骤902的需要。

其次，3D投影的多个部分由计算设备形成(步骤904)。在球体3D投影的情况下，部分可以包括散布在球表面上的正方形窗口。3D投影的部分的示例是关于图7讨论的球形投影604上的正方形或“滑动窗口”。

第三，通过将相应的所述部分投影到二维平面上，由计算设备生成用于多个部分的多个二维投影(步骤906)。例如，可以使用滑动窗口，其将部分以相邻部分的顺序投影到二维平面。

第四，通过在多个二维投影上执行对象识别，由计算设备确定对象的位置和关于对象的信息(步骤908)。即使对象跨越多个部分，也可以识别对象。在一个实现中，部分的尺寸是变化的，并且分割、投影和对象识别被重复，使得可以在部分内标识各种大小的对象。识别的对象和部分的示例是关于图7讨论的全景图像108内的长凳702、救生圈箱704和白色小船706。

最后，由计算设备输出对象的位置和关于对象的信息(步骤910)。例如，一旦在全景图像中标识出白色小船，则输出白色小船的位置。对象的标识位置的示例是关于图8讨论的缩略图802、804和806的坐标。

尽管关于上述步骤进行了描述，但是在一个实现中，可以在整个全景图像的2D投影执行对象识别以确定对象的位置。以这种方式，可以确定类似的位置而不需要全景图像的反向投影和每个部分的前向投影。

图10描绘了一般在1000处的其中响应于包含满足搜索准则的对象的部分由计算设备输出全景图像的一部分的缩略图的示例实现中的过程。

首先，计算设备接收图像搜索准则(步骤1002)。搜索准则可以描述用户正在搜索的对象，诸如白色小船。搜索项的示例是关于图8讨论的“长凳”、“小船”和“救生圈箱”。

其次，通过计算设备来标识包含匹配搜索准则的对象的全景图像(步骤1004)。如以上关于图8所讨论的全景图像108可以被标识为包含与“长凳”、“小船”和“救生圈箱”相关联的对象。可以使用上述任意技术和系统来标识对象。

第三，基于全景图像内的对象的位置的特定于对象的全景图像的缩略图由计算设备生成并输出(步骤1006)。缩略图可以通过将与该部分相对应的全景图像的3D投影的一部分投影到2D平面来生成。继续上面的示例，缩略图802、804和806可以响应于分别接收针对“长凳”、“小船”和“救生圈箱”的搜索查询而被生成。以这种方式，搜索被确定为在全景图像内的对象的用户仅接收包含该对象的全景图像的一部分的缩略图。

示例系统和设备

图11描绘了一般在1100处的示出了代表可以实现本文描述的各种技术的一个或多个计算系统和/或设备的示例计算设备1102的示例实现。这通过包括缩略图模块104而被图示，缩略图模块104可以被配置为从全景图像生成缩略图。计算设备1102可以是例如服务提供商的服务器、与客户端(例如，客户端设备)相关联的设备、片上系统、和/或任意其他合适的计算设备或计算系统。

所图示的示例计算设备1102包括彼此通信地耦合的处理系统1104、一个或多个计算机可读介质1106以及一个或多个I/O接口1108。尽管未示出，但是计算设备1102可以进一步包括系统总线或将各种部件彼此耦合的其他数据和命令传输系统。系统总线可以包括不同总线结构中的任意一个或组合，诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任一个的处理器或本地总线。各种其他的示例也被考虑，诸如控制和数据线。

处理系统1104表示使用硬件来执行一个或多个操作的功能。因此，处理系统1104被图示为包括可以被配置为处理器、功能块等的硬件元件1110。这可以包括作为专用集成电路或使用一个或多个半导体形成的其他逻辑器件的以硬件的实现。硬件元件1110不受元件从其形成的材料或其中采用的处理机制的限制。例如，处理器可以被配置为半导体和/或晶体管(例如电子集成电路(IC))。在这种上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读存储介质1106被图示为包括存储器/存储装置1112。存储器/存储装置1112表示与一个或多个计算机可读介质相关联的存储器/存储装置容量。存储器/存储装置部件1112可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置部件1112可以包括固定介质(例如，RAM、ROM、固定硬盘驱动器等)以及可移除介质(例如，闪存、可移除硬盘驱动器、光盘等等)。计算机可读介质1106可以以下面进一步描述的各种其他方式来配置。

输入/输出接口1108表示允许用户向计算设备1102输入命令和信息的功能，并且还允许使用各种输入/输出设备将信息呈现给用户和/或其他部件或设备。输入设备的示例包括键盘、光标控制设备(例如鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容或其他传感器)、相机(例如其可以采用诸如红外频率的可见或不可见波长来将移动识别为不涉及触摸的手势)等等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等等。因此，可以以如下面进一步描述的各种方式来配置计算设备1102以支持用户交互。

本文可以在软件、硬件元件或程序模块的一般上下文中描述各种技术。通常，这样的模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、部件、数据结构等。本文使用的术语“模块”、“功能”和“组件”通常表示软件、固件、硬件或其组合。本文描述的技术的特征是独立于平台的，意味着可以在具有各种处理器的各种商业计算平台上实现这些技术。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者通过某种形式的计算机可读介质来发送。计算机可读介质可以包括可以由计算设备1102访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以指与单纯的信号传输、载波或信号本身相比，使能信息的持久和/或非暂态存储的介质和/或设备。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括以适于诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据的信息的存储的方法或技术实现的诸如易失性和非易失性、可移除和不可移除介质和/或存储设备的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储器、硬盘、磁带盒、磁带、磁盘存储器或其他磁存储设备或其他存储设备、有形介质或适于存储所需信息并可由计算机访问的制品。

“计算机可读信号介质”可以指被配置为诸如经由网络向计算设备1102的硬件发送指令的信号承载介质。信号介质通常可以在诸如载波、数据信号或其他传输机制的调制数据信号中实施计算机可读指令、数据结构、程序模块或其它数据。信号介质也包括任意信息传递介质。术语“调制数据信号”是指使具有以如对信号中的信息进行编码的这种方式设置或改变的其特征中一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、RF、红外线的无线介质和其它无线介质。

如前所述，硬件元件1110和计算机可读介质1106是以硬件形式实现的模块、可编程设备逻辑、和/或固定设备逻辑的表示，其可以在一些实现中被采用以用于实现本文描述的技术的至少一些方面，诸如以执行一个或多个指令。硬件可以包括集成电路或片上系统的部件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅或其他硬件的其他实现。在这种上下文中，硬件可以作为执行由硬件实施的指令和/或逻辑定义的程序任务的处理设备以及用于存储用于执行的指令的硬件(例如先前描述的计算机可读存储介质)来操作。

前述的组合也可以被采用以实现本文所述的各种技术。因此，可以将软件、硬件或可执行模块实现为在一些形式的计算机可读存储介质上和/或由一个或多个硬件元件1110实施的一个或多个指令和/或逻辑。计算设备1102可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过计算机可读存储介质和/或处理系统1104的硬件元件1110的使用，作为软件可由计算设备1102来执行的模块的实现可以至少部分地以硬件实现。指令和/或功能可以由一个或多个制品(例如，一个或多个计算设备1102和/或处理系统1104)可执行/可操作以实现本文描述的技术、模块和示例。

本文描述的技术可以由计算设备1102的各种配置来支持，并且不限于本文描述的技术的特定示例。该功能还可以全部或部分地通过使用分布式系统(诸如如下所述经由平台1116在“云”1114上)来实现。

云1114包括和/或代表资源1118的平台1116。平台1116抽象云1114的硬件(例如，服务器)和软件资源的底层功能。资源1118可以包括在计算机处理在远离计算设备1102的服务器上被执行时可以利用的应用和/或数据。资源1118还可以包括通过因特网和/或通过订户网络(诸如蜂窝网络或Wi-Fi网络)提供的服务。

平台1116可以抽象资源和功能以将计算设备1102与其他计算设备连接。平台1116还可以用于抽象资源的缩放，以将对应的缩放级别提供给所遇到的用于经由平台1116实现的资源1118的需求。因此，在互连的设备实现中，本文描述的功能的实现可以分布在整个系统1100中。例如，功能可以部分地在计算设备1102上以及经由抽象云1114的功能的平台1116来实现。

结论

虽然本发明已经以特定于结构特征和/或方法动作的语言进行了描述，但是应当理解的是，所附权利要求中限定的本发明不一定限于所描述的特定特征或动作。相反，特定特征和动作被公开为实现所要求保护的发明的示例形式。

Claims

1.一种在确定全景图像内的对象的位置的数字媒体环境中由至少一个计算设备实现的方法，所述方法包括：

由所述至少一个计算设备从所述全景图像的三维投影中形成多个部分；

由所述至少一个计算设备通过将相应的所述部分投影到二维平面上来生成所述多个部分的多个二维投影；

由所述至少一个计算设备通过在所述多个二维投影上执行对象识别来确定所述对象的所述位置；以及

由所述至少一个计算设备输出所述对象的所述位置。

2.根据权利要求1所述的方法，其中所述生成包括在所述全景图像的所述三维投影上方滑动窗口。

3.根据权利要求1所述的方法，其中所述对象识别的所述执行是当所述二维投影被生成时，在所述图像的所述部分的所述二维投影中的每一个二维投影上被执行。

4.根据权利要求1所述的方法，还包括重复针对多个部分尺寸的所述投影以及所述确定。

5.根据权利要求1所述的方法，其中所述确定还包括确定关于所述对象的信息，所述信息包括所述对象包括的内容、所述对象的颜色、所述对象的属性、所述对象的形状、标识的词语、或与所述对象相关联的搜索项。

6.根据权利要求1所述的方法，其中所述全景图像包括360度视图。

7.根据权利要求1所述的方法，其中所述对象的所述位置限定在所述三维投影内的边界区域。

8.根据权利要求1所述的方法，其中所述确定包括用于将所述对象识别为所述对象识别的一部分的深度机器学习。

9.根据权利要求1所述的方法，其中所述图像的所述部分的所述二维投影包括等矩柱状投影。

10.一种在用于确定全景图像内的对象的位置的数字媒体环境中的系统，包括：

对象位置模块，至少部分地以计算设备的硬件来实现，以确定所述对象在所述全景图像内的所述位置，所述对象位置模块包括：

反向投影模块，至少部分地以所述计算设备的硬件来实现，以从所述全景图像的二维投影中生成所述全景图像的三维投影；

滑动窗口前向投影模块，至少部分地以所述计算设备的硬件实现，以：

从所述全景图像的所述三维投影中形成多个部分；以及

通过将相应的所述部分投影到二维平面上来生成用于所述多个部分的多个二维投影；以及

对象识别模块，至少部分地以所述计算设备的硬件实现，以：

通过在所述多个二维投影上执行对象识别来确定所述对象的所述位置；以及

输出所述对象的所述位置。

11.根据权利要求10所述的系统，其中所述全景图像的所述二维投影包括等矩柱状投影、立方体投影或鱼眼投影。

12.根据权利要求10所述的系统，其中所述多个部分的所述二维投影包括等矩柱状投影。

13.根据权利要求10所述的系统，其中所述多个部分从所述全景图像的所述三维投影中的所述形成、所述多个二维投影的所述生成、以及通过在所述多个二维投影上执行对象识别的所述对象的所述位置的所述确定针对对多个部分尺寸被重复。

14.根据权利要求10所述的系统，其中所述对象的所述位置包含所述全景图像的所述三维投影内的边界区域。

15.一种在用于响应于图像搜索来生成特定于对象的全景图像的缩略图的数字媒体环境中的系统，包括：

缩略图生成模块，至少部分地以计算设备的硬件实现，以响应于所述图像搜索来生成所述全景图像的所述缩略图，所述缩略图生成模块包括：

图像搜索模块，至少部分地以所述计算设备的硬件来实现，以：

接收图像搜索准则；以及

将来自多个图像的所述全景图像标识为包含匹配所述图像搜索准则的所述对象；以及

缩略图返回模块，至少部分地以所述计算设备的硬件实现，以：

基于所述全景图像内的所述对象的位置来生成特定于来自所述全景图像的所述对象的所述缩略图，所述缩略图包括与所述对象相对应的所述全景图像的三维投影的一部分的二维投影；以及

输出特定于所述对象的所述缩略图。

16.根据权利要求15所述的系统，其中所述缩略图是响应于确定所述对象的所述位置而被生成的。

17.根据权利要求15所述的系统，还包括：对象位置模块，至少部分地以所述计算设备的硬件来实现，以通过在所述全景图像上执行对象识别来确定所述全景图像内的所述对象的所述位置。

18.根据权利要求17所述的系统，其中所述对象位置模块包括：

反向投影模块，至少部分地以所述计算设备的硬件来实现，以通过将所述全景图像投影到三维球体上来生成所述全景图像的三维球形投影；

从所述全景图像的所述三维球形投影中形成多个部分；以及

通过将相应的所述部分投影到二维平面上来生成所述多个部分的多个二维投影；以及

对象识别模块，其至少部分地以所述计算设备的硬件来实现，以通过在所述部分的所述多个二维投影上执行对象识别来确定所述对象的所述位置。

19.根据权利要求17所述的系统，其中所述全景图像作为所述全景图像的等矩柱状投影被接收。

20.根据权利要求19所述的系统，其中所述对象的所述位置是通过在所述全景图像的所述等矩柱状投影上执行对象识别被确定的。