CN102129812B

CN102129812B - 在街道级图像的上下文中观看媒体

Info

Publication number: CN102129812B
Application number: CN201110022517.7A
Authority: CN
Inventors: E·奥费克; M·克勒普夫尔; J·R·沃克; G·A·拉莫斯; B·H·阿格拉亚阿卡斯
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-01-12
Filing date: 2011-01-11
Publication date: 2014-07-23
Anticipated expiration: 2031-01-11
Also published as: US20110173565A1; US8447136B2; CN102129812A; US20130229434A1; US8831380B2

Abstract

本文中提供了一种在街道级图像的上下文中观看媒体的方法和系统。一种用于显示通过将附加媒体对象嵌入在街道级全景图像内产生的混合图像数据的系统包括用户界面，通过该用户界面用户可在以街道级浏览位置的虚拟环境的上下文中观看、搜索、和/或导航附加媒体对象。响应于指示请求观看地理位置和/或附加媒体对象的用户输入，可提供与该地理位置相关联的街道级全景图像数据以通过用户界面进行显示，在该街道级全景图像数据中已经嵌入了也与该地理位置相关联的一个或多个附加媒体对象。该用户界面可由包括接收由服务器的一个或多个处理器产生的混合图像数据并向用户显示该图像数据的一个或多个处理器的客户机设备来提供。

Description

在街道级图像的上下文中观看媒体

相关申请

本申请根据35U.S.C.§119(e)要求提交于2010年1月12日题为VIEWING MEDIA IN THE CONTEXT OF STREET-LEVEL IMAGES(在街道级图像的上下文中观看媒体)的美国临时申请号61,294,435的优先权，该临时申请通过引用全文包括于此。

技术领域

本发明涉及图像处理技术，尤其涉及用于提供混合图像数据以进行显示的方法和系统。

背景技术

地图绘制应用作为软件在因特网上广泛地可用；此类地图绘制应用的示例有BING地图和地图。这些应用提供用户所指定的位置的道路地图，并且还能提供去往一位置的驾驶指引或者关于一位置或其周边的信息。例如，地图绘制应用可向用户标识在指定位置邻域的餐馆或其他兴趣点。

一些当前的地图绘制应用提供常被称为“街景”的选项，其中该应用的用户能从第一人街道级视角来查看地理位置。响应于用户例如通过向地图绘制应用输入特定街道地址并点击标有“街景”的按钮来请求特定地理位置的街景，此类地图绘制应用提供就像该用户正站在或行驶在该街道上的该位置那样的景观。此街道级景观常在显示360度全景图像的部分的视口中提供。用户典型地能通过虚拟地旋转该图像来改变该全景内的视角，从而用该全景图像的不同部分更新视口以便在该位置上从不同的旋转角度查看第一人场景。

一些地图绘制应用还呈现附加媒体，诸如与特定地理位置相关联的用户内容。用户内容一般是通过因特网从诸如相片共享网站之类的在线源获得的。例如，用户内容可以是来自各行各业的用户所拍摄并上传至相片共享网站的数码照片。已知的相片共享网站的示例有网站和网站。通常，数码照片是加注地理标签的，即用指示拍摄该照片的地理位置的元数据进行编码。可使用启用了全球定位系统(GPS)的相机在拍摄时为照片加注地理标签，或者可在后来通过相片共享网站为照片加注地理标签。可通过因特网访问加注有地理标签的用户内容以在地图绘制应用中显示。

当用户在地图绘制应用中选择浏览地理位置时，可呈现用附近位置加注地理标签的用户内容(例如，用户照片)的列表。用户例如可通过点击列表中的照片链接或缩略图来查看特定的用户照片。所选的照片随后作为分开的查看屏幕被呈现给用户。

发明内容

发明人已经认识和领会到通过在街道级全景图像内嵌入附加媒体对象可以提供所希望的用户体验。由此可连同在其中捕捉附加媒体对象的周边上下文来观看附加媒体对象。这些附加媒体对象可以是可出现在街道级全景图像中的特征的照片、视频或视觉表示。

因此，通过为用户在街景上下文中显示附加媒体对象可以增强在地图绘制应用的街景模式下浏览位置的用户体验，即使在用户使用地图绘制应用内的导航控件改变街景的视角时亦如此。用户观看个体媒体对象的体验还可通过将它们嵌入在捕捉位置的全景街道级场景的上下文内来增强。用户由此可被提供浸身其中的三维体验，其中媒体对象看起来就像用户正站在捕捉该媒体对象的位置附近一样，具有该位置的完整的全景第一人视野范围。

根据本公开的一些实施例提供包括用户界面的系统，通过该用户界面用户可在以街景模式浏览位置的虚拟环境的上下文中观看、搜索和/或导航附加媒体对象。响应于指示请求观看地理位置和/或附加媒体对象的用户输入，可提供与该地理位置相关联的街道级全景图像数据以通过用户界面进行显示，在该街道级全景图像数据中已经嵌入了也与该地理位置相关联的一个或多个附加媒体对象。用户界面可由从服务器接收混合图像数据并向用户显示该图像数据的客户机设备来提供。服务器可操作性地连接至存储街道级全景图像与附加媒体对象之间的地理关联的数据集，且可通过将附加媒体对象嵌入在与其在地理上相关联的街道级全景图像内来产生混合图像数据。响应于观看混合图像数据的用户输入或者标识混合图像和观看方向或标识相对于先前所选的混合图像或观看方向的改变的其他输入，服务器可通过网络向客户机设备提供混合图像数据以显示给用户。

观看混合图像数据的用户输入可以各种形式来接收，且用于选择混合图像进行呈现的一些或所有参数可以明确地输入，而其他参数可以从其他用户选择中得到暗示。在一些实施例中，用户输入可以是对用户想要在街道级上观看的特定地理位置的指示。响应于此类用户输入，可选择与该位置相对应的街道级全景图像，连同有关联数据集中与该全景图像相关联的一个或多个附加媒体对象。可在用户界面的视口中渲染其中嵌入了附加媒体对象中的一个或多个附加媒体对象的全景图像的一部分。此类显示可以使用通过将一个或多个附加媒体对象嵌入在街道级全景图像内产生的混合全景图像并提供代表混合全景图像中要在视口中显示的一部分的混合图像数据来达成。混合全景图像中将被显示在视口中的部分可根据观看方向来选择，观看方向可以具有默认值或者可根据用户输入来确定。可通过用户输入改变观看方向以旋转该全景，响应于此，可产生并提供新的混合图像数据用于显示。

响应于观看特定地理位置的用户输入，可自动显示嵌入在该全景中的一个或多个相关联的附加媒体对象。替换地或补充地，用户界面可提供对与用户输入所指示的地理位置相关联的可用附加媒体对象的列表和/或其他指示。该附加媒体对象的列表和/或其他指示可以在与用户界面中的视口分开的面板中提供，和/或可以通过视口内的街道级景观上的视觉指示符来提供。街道级景观上的视觉指示符可以是各种形式的，诸如标志、图钉、足迹框、以及擦刷条。用户可例如通过点击可用附加媒体对象的视觉或文字指示符来选择要观看的附加媒体对象。响应于此用户输入，可在视口中显示代表混合全景图像当中与允许所嵌入的附加媒体对象被看到的观看方向相对应的一部分的新混合图像数据。

在其他实施例中，观看混合图像数据的用户输入可以是对该用户想要观看的特定附加媒体对象的指示。例如，用户界面可提供搜索字段，通过该搜索字段用户可通过一个或多个参数来搜索附加媒体对象，这些参数诸如有媒体对象的作者、媒体对象的主题、捕捉媒体对象的时间、或捕捉媒体对象的位置。附加媒体对象可与允许它们根据此类参数被归类的元数据一起被存储在附加媒体数据集中。响应于用户的搜索查询，可通过用户界面显示恰适附加媒体对象的列表。响应于用户从该列表中对特定附加媒体对象的选择，服务器可标识对应的地理位置、街道级全景图像和观看方向，产生对应的混合图像数据，并提供该混合图像数据以通过用户界面的视口进行显示。

一些实施例还提供用于响应于如上所述的各种形式的用户输入产生混合图像数据的系统和方法。用户输入可包括对地理位置、相关联的附加媒体对象、或这两者的指示。若用户输入未直接指示任何一者，则其可基于另一者来确定。观看方向也可基于地理位置、附加媒体对象和/或独立的用户输入来确定。根据地理位置，可选择对应的街道级全景图像。可从附加媒体数据集检索附加媒体对象，并且可从关联数据集中的投影数据检索将附加媒体对象的特征最佳地映射至全景图像的特征的预先计算出的变换。随后可使用该预先计算出的变换将附加媒体对象投影到全景图像上以产生具有嵌入的附加媒体对象的混合全景图像。根据观看方向，可提供代表混合全景图像的一部分的混合图像数据以供在用户界面的视口中显示。

以上概述是对由所附权利要求定义的本发明的非限定性的概述。

附图说明

附图不旨在按比例绘制。在附图中，各个附图中示出的每一完全相同或近乎完全相同的组件由同样的标号来表示。出于简明的目的，不是每一个组件在每幅附图中均被标号。在附图中：

图1解说用于捕捉街道级全景图像的常规装置；

图2A解说各种查看方向上的街道级全景图像的诸示例性部分；

图2B解说示例性街道级全景图像；

图3解说根据本公开的一些实施例捕捉街道级全景图像和附加媒体对象的示例；

图4解说根据本公开的一些实施例的示例性街道级全景图像和示例性附加媒体对象；

图5是解说用于实践本发明的一些实施例的示例性分布式系统的框图；

图6解说根据本公开的一些实施例的特征匹配的示例；

图7解说根据本公开的一些实施例变换附加媒体对象的示例；

图8是根据本公开的一些实施例显示混合图像数据的示例性视口的草图；

图9是根据本公开的一些实施例的可通过其执行对附加媒体对象的擦刷的示例性用户界面的草图；

图10是根据本公开的一些实施例的可通过其执行对附加媒体对象的搜索的示例性用户界面的草图；

图11是解说根据本公开的一些实施例提供混合图像数据以供显示的示例性方法的流程图；

图12是解说根据本公开的一些实施例产生混合全景图像的示例性方法的流程图；

图13是解说根据本公开的一些实施例确定附加媒体对象的关联和投影数据的示例性方法的流程图；

图14是解说用于实践本发明的一些实施例的示例性计算系统的框图。

具体实施方式

通过将街道级景观与附加媒体对象相整合并在同步视点下呈现这两者(即使在用户输入或其他事件改变街道级景观或媒体对象时也是如此)来提供增强的用户体验的系统最初可使用本领域所已知的用于构造地图绘制应用的技术来构造。如下所述，可通过纳入处理和接口来扩展这些技术。

系统可从对应地理位置的多个街道级全景图像中选择街道级图像，这些街道级全景图像可使用已知技术捕捉并以使其能被用户在地图绘制应用中虚拟地探究的格式存储。例如，已知道的是地图绘制应用开发人员驾驶特殊装备的车辆通过该地图绘制应用所支持的城市或其他地区的街道，从而在驾驶的同时以预定义间隔记录街道级全景图像。图1给出此类技术的示例性解说，其中车辆100装备有多个定向成从车辆100的位置捕捉不同视角的图像的相机102、104、106和108。相机102、104、106和108可以是例如具有GPS能力的数码相机，以使得由该些相机捕捉的图像可被加注地理标签，即，用指示捕捉图像的地理位置的元数据进行编码。地理位置可以任何合适的格式来指示，例如，作为纬度和经度坐标来指示。

相机102、104、106和108在车辆100上可被定向成使得由所有相机捕捉到的组合图像形成该车辆的周边环境的全景图像。例如，相机102可被定向成捕捉从车辆100往西看的图像112(图2)，相机104可被定向成捕捉从车辆100往北看的图像114(图2)，相机106可被定向成捕捉从车辆100往东看的图像116(图2)，以及相机108可被定向成捕捉从车辆100往南看的图像118(图2)。在图1中，在图像112、114、116和118中所描绘的对应真实世界位置分别被指定为112’、114’、116’和118’。尽管图1示出包括4台相机的相对简单的配置，但应领会可使用任何数目的相机来拍摄任何数目的视角的照片。例如，典型配置可利用莲座形8台或更多台相机来提供毗邻图像间的更加无缝的过度。或者，可通过单台全景相机来拍摄全景图像。

在图1的示例中，当车辆100处在某个地理位置上时，相机102、104、106和108可同时捕捉图像112、114、116和118，以使得组合图像代表在捕捉这些图像时从该特定位置上可以看到的第一人场景的360度全景。图像112代表该全景场景当中朝西的部分，并且可包括对建筑物125的描绘。图像114代表该全景场景当中朝北的部分，包括建筑物120和建筑物140的部分。图像116代表朝东的部分，包括建筑物135和140的部分，而图像118代表朝南的部分，包括建筑物130和建筑物135的部分。图2A解说为图1中的示例性场景的所捕捉的分开的两维图像112、114、116和118。每幅图像代表从车辆100位置的该场景的不同视角。

由这多台相机捕捉的分开的图像之后可使用已知的图像缝合技术被缝合在一起以形成连续的多视角全景图像，如图2B中所解说。全景图像可以是同时或连续地表示从一位置的多个视角景观的任何图像或图像数据。应领会，全景图像可涵盖包括多个视角景观的任何范围的观察角度。例如，全景图像200涵盖通过图像缝合纳入了单视角图像112、114和116的270度的观察范围。在一些实施例中，用于位置浏览的街道级全景图像可涵盖全部和连续的360度观察范围。

在捕捉到一个地理位置的全景(连同对应的地理标签元数据)之后，车辆100可以驾驶以按预定义间隔(例如，在彼此相距指定的距离处)捕捉其他全景。每个全景代表从捕捉该全景的地理位置可以看到的街道级场景的第一人多视角景观。地图绘制应用可访问以此类方式捕捉的全景图像的大型数据存储，以使得用户能通过以一种浸入其中的虚拟体验在全景之间进行导航来浏览一位置，就像该用户正在沿该位置的街道行走或驾驶。

图3解说以预定义间隔捕捉连贯全景的车辆100的示例。例如，车辆100可捕捉图像以形成位于图3的靠南端的地理位置的全景图像310，驾驶并捕捉图像以形成位于图3的靠北端的下一地理位置的全景图像320，并从那里继续驾驶。在图3中，全景图像310和320中所描绘的对应真实世界位置分别被指定为310’和320’。结果得到的全景图像310和320中的每幅全景图像都可以是从多幅较小的图像缝合而来以形成连续的360度全景图像，软件应用的用户可观看其任何部分，就像用户正从该位置从特定观看方向虚拟地观看该街道级场景。例如，图像部分315(描绘对应的真实世界位置315’)代表全景图像310当中可被显示给希望从第一人视角观看包括建筑物300的场景的用户的部分。图像部分315可在软件应用的视口中渲染，就像它是在全景内由特定定向的虚拟相机105所捕捉到的一样。

在与车辆100的全景捕捉时间不相关的时间，诸如步行者350之类的另一人可能从全景图像310的位置附近的地理位置捕捉附加媒体对象360(描绘对应的真实世界位置360’)。附加媒体对象360例如可以是步行者350所拍摄的数码照片或视频，其捕捉在全景图像310中、特别是在全景图像310的图像部分315(如图4中所解说)中所捕捉的同一建筑物300的景观。附加媒体对象360可以由也启用了GPS的相机来捕捉，以使得用指示拍摄它的地理位置的元数据自动为其加注地理标签。然而，应领会，可使用任何合适的办法来为附加媒体对象加注标签。例如，步行者350可在后来使用标签加注软件来为附加媒体对象360加注地理标签。也可用指示媒体对象的其他参数的元数据来为附加媒体对象360加注标签，诸如尤其是拍摄时间、创建它的作者、以及其主题(例如，建筑物300)等。

在以街景模式浏览附近位置时，或者在遍览各种附加媒体对象时，用户可能希望在其最近的街道级全景图像(即，全景图像310)的上下文中观看附加媒体对象360。相应地，本公开的一些实施例提供对嵌入在街道级全景图像的上下文中的此类附加媒体对象的观看。可以这样一种方式来嵌入附加媒体对象，即将附加媒体对象的特征与全景图像的特征对准，以使得观者可以容易地认识到物理对应关系和方位。

图5是解说用于实践本发明的一些方面的示例性系统500的框图。分布式系统500包括可通过网络580向和从用户560操作的客户机550传送数据和接收数据的服务器510。网络580可以是能够承载数据通信的任何网络或网络组合，包括但不限于，局域网、中域网、和/或诸如因特网之类的广域网。客户机550可以是操作性地连接至一个或多个处理器、本地存储器、一个或多个显示器、以及一个或多个诸如键盘或鼠标之类的输入设备的计算设备。客户机550可具有任何合适的形式或功能，并且可以是诸如移动手持机或个人数字助理(PDA)之类的便携设备。类似地，可使用能够向客户机550供应数据的一个或多个计算设备的任何组合来实现服务器510。

服务器510可以访问可使用一个或多个计算机可读存储介质来实现的全景图像数据集520和附加媒体数据集530。应领会，全景图像数据集520和附加媒体数据集530可以实现在单个计算机可读媒介上或分开的计算机可读介质上，且每个个体数据集可以实现在单个或多个计算机可读介质上。全景图像数据集520可存储代表一个或多个全景图像525的数据，每个全景图像皆可用相应的元数据进行了编码。元数据可包括标识捕捉全景图像的地理位置的地理标签。全景图像525可使用如以上所述的各种已知技术中的任何技术来捕捉，且可被存储在全景图像数据集520中以供地图绘制应用使用。全景图像525可以是代表多个视角景观的任何类型的全景图像。例如，全景图像525可包括诸如可从城市的街道捕捉的室外场景的街道级全景图像。全景图像525还可包括诸如可为建筑物的虚拟游历所捕捉的室内场景的全景图像。

附加媒体数据集530可存储代表一个或多个附加媒体对象535的数据。附加媒体对象535可包括具有诸如数码照片或其他数码图像或视频之类的图像分量的各种形式的媒体数据中的任何媒体数据，并且可包括音频和/或其他分量。附加媒体对象535可通过网络580从诸如媒体共享网站570之类的各种可访问源中的任何源来获得。媒体共享网站的示例有网站和网站。附加媒体对象535可用元数据进行编码，包括标识捕捉附加媒体对象535的地理位置的地理标签元数据。元数据可替换或补充地指示附加媒体对象的其他参数，诸如其作者、主题、和/或捕捉其的时间。附加媒体对象535可以由作者、捕捉设备、或第三方在捕捉时或者在后来使用各种已知形式的标签加注软件中的任何软件来自动或手动地用元数据进行编码。

服务器510还可访问关联数据集540，关联数据集540可与全景图像数据集520和/或附加媒体数据集530分开或毗连地实现在一个或多个计算机可读存储介质上。关联数据集540可存储同一个或多个附加媒体对象535与一个或多个全景图像525之间的关联有关的数据。对于附加媒体对象535的每个图像帧，关联数据集540可存储标识最接近的全景的数据和包括相应的相对位置和几何变换的投影数据。最接近的全景可被标识为具有与附加媒体对象535的该帧的地理位置最接近的相应地理位置(由其元数据指示)的全景图像525。最接近的全景可在关联数据集540中以任何合适的形式来指示，诸如通过其地理位置或通过指派给该最接近全景图像525的唯一性标识符来指示。包括相对位置和几何变换的投影数据包括在将附加媒体对象535的诸帧正确地嵌入在其最接近全景图像525中时所需要的数据，如在下文将描述的。关联数据集540还可存储指示附加媒体对象535中对应每幅全景图像525的多个关联帧的数据。

服务器510可用计算机可执行指令编程以确定附加媒体对象535与全景图像525之间的关联，将相关联附加媒体对象535嵌入在全景图像525内以产生混合全景图像，并响应于通过网络580接收自客户机550的用户输入来传送混合图像数据。服务器510还可操作性地连接至搜索引擎515，搜索引擎515可用计算机可执行指令编程以响应于诸如搜索查询之类的用户输入来检索至全景图像525和/或附加媒体对象535的链接。

客户机550可被配置成提供用户界面555，用户560可通过该用户界面555与由第一人街道级全景表示的虚拟环境交互并在其中进行导航。用户界面555可包括可在其中向用户560显示全景图像数据的视口面板。在任何给定时间，该视口可显示接收自服务器510的表示全景图像525或混合全景图像中根据特定观看方向的一部分的图像数据。例如，可以在视口中渲染图4的图像315以显示图3的全景图像310中代表往西北的观看方向的那部分。用户界面555可提供多个按钮、箭头、链接、输入字段和/或其他导航图标以允许用户560旋转特定全景的观看方向或移至毗邻地理位置的全景。此类用户界面可使用本领域已知的技术来实现。客户机550可向服务器510传送用户导航输入，作为响应，服务器510可向客户机550传送相应更新的图像数据以在用户界面555的视口中渲染。

用户界面555还可提供诸如信息面板和/或搜索面板之类的一个或多个附加面板，以向用户560提供一种或多种替换的导航方法。例如，信息面板可提供用户560可能希望观看的所建议的地理位置、地标、和/或附加媒体对象的缩略图和/或链接。响应于诸如至所建议的地理位置的链接上的点击之类的用户输入，服务器510可提供混合图像数据以在用户界面555的视口中渲染。通过嵌入与该位置相关联的附加媒体对象535的一个或多个图像帧，可从对应该位置的全景图像525产生混合图像数据。响应于诸如所建议的附加媒体对象的缩略图上的点击之类的用户输入，服务器510可提供通过将附加媒体对象535嵌入在其相关联的全景图像525中产生的混合图像数据。

用户界面555还可提供搜索字段，用户560可在该搜索字段中输入对希望观看的项目的搜索查询。例如，用户560可输入关于所需附加媒体对象的搜索查询。用户560可基于诸如附加媒体对象的作者、附加媒体对象的主题、捕捉附加媒体对象的时间、和/或捕捉附加媒体对象的位置之类的各种参数中的任何参数来搜索要观看的附加媒体对象。响应于收到用户请求，服务器510可利用搜索引擎515查询附加媒体数据集530中附加媒体对象535的元数据以寻找恰适参数。随后可在用户界面555的信息面板中向用户560提供匹配附加媒体对象的列表，该列表任选地使用本领域已知的各种方法中的任何方法来过滤。响应于用户560从该列表中选择附加媒体对象，服务器510可产生恰适的混合图像数据并提供其来在用户界面555的视口中显示。

图6-8解说根据本发明的一些实施例通过在全景图像中嵌入附加媒体对象来产生混合图像数据的示例性处理阶段。在图6中，图像360代表诸如由图3中的步行者350所捕捉的附加媒体对象之类的附加媒体对象的帧。在例如数码照片的情形中，图像360可以是附加媒体对象的全部图像数据，不包括其元数据。在例如数字视频的情形中，附加媒体对象的每个图像帧可分开地嵌入在全景图像中。若该视频是用驻定的相机捕捉的，则诸图像帧可在同一全景图像中一图像帧位于另一图像帧之上地彼此交迭。当通过用户界面555向用户560显示混合图像数据时，可在视口中在相关联的街道级全景图像的上下文内显示该视频。或者，用户560可选择逐帧地步进视频以将其作为个体嵌入的图像来观看。若该视频是用移动的相机捕捉的，则根据捕捉不同图像帧的不同地理位置，该视频的不同图像帧可被嵌入在相同的全景图像内的不同相对位置中，和/或可跨不同的全景图像被嵌入。在向用户560显示混合图像数据时，图像帧可在空间上分开来观看，且用户可通过旋转全景内的观看方向和/或移至连续的全景来沿着图像帧导航。或者，可在视口内以固定方位在时间上播放该视频，并且周围的全景图像数据可随着视频的进行而连续地更新。应领会，附加媒体对象还可包括图像数据之外的格式的数据，诸如包括在也可通过用户界面555提供的视频对象中的音频数据。照片附加媒体对象也可包括音频数据，诸如包括在其元数据中的语音注释。

继续参照图6，图像315代表诸如图3的全景图像310之类的全景图像的一部分。尽管图6中仅描绘了全景图像310的一部分，应领会，产生混合图像数据的处理也可对代表可涵盖至多达全360度观看方向的完整全景图像的数据进行操作。在图6的示例中，全景图像部分315包括对作为该图像的主题的建筑物300的描绘。建筑物300也是附加媒体对象图像帧360的主题，尽管它是从略有不同的地理位置的观察点来描绘的。基于附加媒体对象图像帧360的元数据所标识的地理位置，全景图像310(包括图像部分315)被标识为与附加媒体对象的关联数据中的最接近全景相对应。

通过在全景图像310中嵌入附加媒体对象帧360来产生混合图像数据的处理可以这样一种方式执行，即将附加媒体对象帧360中(例如，对建筑物300)的一个或多个描绘与全景图像310中的对应描绘相对准，以使得观看者能认识到物理对应关系。此类处理可以由例如计算机实现的服务器的一个或多个处理器来实现，该些处理器被用指导这一个或多个处理器执行该些处理步骤的计算机可执行指令进行编码。该处理可涉及各种已知的图像匹配或图像对准技术中的任何技术，其示例在提交于2009年6月4日的题为“Geocoding by Image Matching(通过图像匹配进行地理编码)”的美国专利申请S/N.12/478569中描述。

在诸如上述示例之类的技术之后，可在全景图像310和附加媒体对象图像帧360的每一个中标识多个兴趣点(即，图像中具有某些数学特性的区域)。基于为每个兴趣点计算出的特征向量，可将附加媒体对象图像帧360中的兴趣点与全景图像310中的对应兴趣点相匹配。匹配的兴趣点代表描绘相同场景或物理主题的全景图像的特征与附加媒体对象帧的特征之间的可能映射。在图6的示例中，箭头600所指示的匹配的兴趣点提供附加媒体对象帧360与全景图像部分315之间可被用来适当地对准建筑物300的两个描绘的可能映射。

根据匹配的兴趣点，可确定附加媒体对象帧360关于全景图像310的默认观看方向和相对位置。例如，匹配兴趣点在全景图像310中的位置可提供这样的指示：对应全景图像部分315的观看方向是附加媒体对象帧360的恰适的默认观看方向——若根据用于该观看方向的某些准则使得视口中可见的匹配兴趣点的数目最大化。另外，匹配兴趣点可以按可测精度指示附加媒体对象帧360应被最优地嵌入在全景图像部分315内的相对位置。

接下来可使用匹配兴趣点来确定将附加媒体对象帧360中的匹配兴趣点与全景图像部分315中的对应匹配兴趣点最佳地对准的几何变换。可利用任何合适形式的几何变换。在一些实施例中，几何变换被指定为将直线映射为直线且可能尤其适合描绘建筑物正面的图像的单应性平面模型变换。用于附加媒体对象帧360的几何变换可被确定为将附加媒体对象帧360的匹配兴趣点最优地投影到全景图像部分315的匹配兴趣点上的变换。例如，最优的几何变换可以是最多的匹配兴趣点相符合且不符合的离群值最少的单应性。然而应领会，可采用任何合适形式的变换。所确定的几何变换随后可作为附加媒体对象帧360的投影数据与所确定的相对位置以及任选地所确定的默认观看方向一起被存储。

可对附加媒体对象帧360应用该几何变换以产生如图7中所解说的经调整的附加媒体对象帧700。经调整的附加媒体对象帧700是附加媒体对象帧360的经几何变换的版本，且根据如上所述的一些准则被最优地对准以展现在经调整的附加媒体对象帧700和全景图像部分315两者中所描绘的场景(包括建筑物300)之间的物理对应关系。随后根据如上所述地确定的相对位置将经调整的附加媒体对象帧700嵌入在全景图像部分315中。该嵌入可用经调整的附加媒体对象帧700的图像数据来替换下面的全景图像部分315的区域以产生如图8中所解说的混合图像数据800。然而应领会，可使用任何合适的办法来嵌入，例如包括形成将显示经调整的附加媒体对象帧700显示成半透明的合成图像，或者采用其他图像处理技术形成平均或混杂表示。在一些实施例中，混合图像数据可仅显示所嵌入的经调整的附加媒体对象帧的部分，诸如附加媒体对象帧内的特定兴趣主题。例如，经调整的附加媒体对象帧700中的有轨电车的描绘可被嵌入在全景图像部分315中，同时淡化或移除经调整的附加媒体对象帧700所贡献的建筑物300的描绘的部分或全部。

混合图像数据可呈现诸如全景图像310之类的街道级全景图像的周边场景，其嵌入了可能从略有不同的有利位置或者在不同的时间获得的一个或多个附加媒体对象中描绘相同场景的区域的一个或多个图像帧。在图8的示例中，经调整的附加媒体对象帧700描绘在原始全景图像310中可能不存在的有轨电车。在由服务器510提供并通过用户界面555由客户机550显示时，混合图像数据800可允许用户观看通过该全景的周边场景的上下文进行增强的有轨电车的图像。系统还可在允许用户旋转观看方向并在全景内导航的同时维持经调整的附加媒体对象帧700在全景图像310中的嵌入。例如，若用户560操作用户界面555以旋转观看方向从而使得经调整的附加媒体对象帧700应该开始移出视口的视野之外，则服务器510可提供经调整的混合图像数据，其包含相对位置和嵌入得以维持的经调整的附加媒体对象帧700与全景图像310的恰适部分。然而应领会，从不同的观看方向渲染混合全景图像的处理不一定需要在服务器510上执行。例如，服务器510可为客户机550提供其中已经嵌入了经调整的附加媒体对象帧700的完整混合全景图像，并且客户机550可根据用户指定的观看方向在用户界面555的视口中渲染混合全景图像的恰适部分。

图9是通过其可在视口面板910中向用户显示混合图像数据的示例性用户界面555的草图。用户界面555可由客户机550的一个或多个处理器根据编码在一个或多个计算机可读存储介质上的计算机可执行指令来实现。客户机550的这一个或多个处理器可被编程以向服务器510传送通过用户界面555收到的用户输入，并从服务器510接收混合图像数据且通过用户界面555将其显示给用户。服务器510类似地可包括一个或多个处理器，这一个或多个处理器被用计算机可执行指令进行编码以响应于收到用户界面555所支持的各种形式的用户输入中的任何用户输入而传送经恰适地产生的混合图像数据以供在视口910中显示。

例如，用户可输入该用户想要在街道级观看的特定地理位置。此用户输入可通过用户界面555被客户机550的一个或多个处理器接收，并被传送至服务器510。响应于收到该用户输入，服务器510的一个或多个处理器可确定该用户输入所指定的位置的最接近全景图像、与该全景图像相关联的一个或多个附加媒体对象、以及显示全景图像的观看方向。若用户未指定该观看方向，则可由服务器510的一个或多个处理器以任何各式的合适方式自动确定。例如，对于任何全景图像，该观看方向可具有一默认值，诸如正北。替换地或补充地，特定全景图像可具有其自己的默认观看方向，诸如主要街道或地标的方向。观看方向还可被确定为用于完全显示嵌入在全景图像中的附加媒体对象的最优观看方向。

用户界面555还可包括信息面板920，在其中可通过客户机550和/或服务器510的一个或多个处理器对程序指令的执行来显示当前地理位置的可用附加媒体对象的列表(及其对应全景)。该列表可包括对可用附加媒体对象的文字标志和/或描述，和/或诸如缩略图片之类的视觉指示。若用户诸如通过点击缩略图930选择该列表中的链接，则可根据缩略图930所表示的附加媒体对象来确定新的观看方向，且可在视口910中显示包括嵌入在当前全景中的缩略图930的该附加媒体对象的经更新的混合图像数据。

替换地或补充地，客户机550和/或服务器510执行的处理指令可导致通过叠加在视口910中所显示的全景图像部分上的各种形式的视觉指示符来指示，但不显式地显示，与当前全景相关联的一个或多个附加媒体对象。例如，可在附加媒体对象帧将被嵌入在全景图像中的相对位置附近显示诸如图钉940之类的图标。若用户点击图钉940，则可将观看方向旋转成面对图钉940，且可提供嵌入了对应的附加媒体对象的经更新的混合图像数据。

可用附加媒体对象帧的视觉指示符还可以诸如足迹框950之类的足迹框形式来提供。足迹框可被显示为描绘全景图像当中所嵌入的附加媒体对象将在对应的混合图像中替换的区域的形状轮廓(即，附加媒体对象的足迹)。若多个附加媒体对象足迹交迭，如足迹框950就与经调整的附加媒体对象帧700交迭，则可提供擦刷条960以允许用户擦刷遍历交迭的附加媒体对象帧。当嵌入和显示一个附加媒体对象帧时，其他交迭的附加媒体对象帧可通过其足迹框来表示，诸如通过足迹框950来表示。若用户使用擦刷条960选择不同的附加媒体对象帧来观看，则先前的附加媒体对象帧可用足迹框来表示，并可显示嵌入了所选的附加媒体对象帧的新混合图像数据。交迭的附加媒体对象帧可来自在相同位置和相对位置捕捉的不同附加媒体对象，和/或可来自视频附加媒体对象中的连贯图像帧。

由客户机550的一个或多个处理器实现的用户界面555还可为用户提供用于导航地理位置和/或附加媒体对象的其他选项，如图10中所解说。例如，用户界面555可包括搜索字段1010，用户可在其中输入与地理位置、兴趣地点、和/或附加媒体对象有关的搜索查询。为了搜索用户可能希望观看的附加媒体对象，用户可输入与这些附加媒体对象的一个或多个参数有关的搜索查询，这些参数诸如有捕捉位置、捕捉时间、捕捉作者、或所描绘的主题。响应于此类搜索查询，服务器510可利用搜索引擎515返回匹配附加媒体对象的列表，这是根据它们的元数据来返回的。该列表可被显示在用户界面555的信息面板920中，并且用户可从该列表中选择附加媒体对象以在其街道级上下文中进行观看。响应于此类选择，服务器510可通过一个或多个处理器的计算机程序动作来确定恰适的附加媒体对象、全景图像和观看方向、并提供恰适的混合图像数据以供在视口910中显示。

用户界面555还可包括供用户用于在虚拟环境中导航诸位置的任何数目和形式的导航图标、按钮、箭头、链接、或其他可选项目。例如，用户界面555可包括可允许用户在全景内和全景之间进行导航的方向和旋转箭头按钮1030。旋转箭头可允许用户更新当前全景内的观看方向，响应于此，服务器510的一个或多个处理器可提供经更新的混合图像数据，同时维持显示在视口910的视野范围内的任何附加媒体对象帧的恰适嵌入。方向箭头可允许用户通过虚拟地移至毗邻全景来更新地理位置，响应于此，服务器510可以用与在用户输入随意的地理位置时相类似的方式提供经更新的混合图像数据。当新的地理位置源于自毗邻地理位置的移动时，可从其先前值维持观看方向。

用户界面555还可提供指示在正投影地图上的当前地理位置的道路地图面板1020。若用户点击该道路地图1020上的不同地理位置，则可针对该新地理位置提供经更新的混合图像数据。用户界面555还可提供可允许用户控制当前全景的缩放水平(即，视口视野范围和图像分辨率)的缩放按钮1040。响应于改变缩放水平的用户输入，服务器510可提供恰适更新的混合图像数据，其维持任何附加图像在视野范围内的嵌入而不管图像大小和分辨率的怎样变化。

图11是解说根据本公开的一些实施例提供混合图像数据以供显示的示例性方法1100的流程图。该方法可以例如由包括执行编码在一个或多个计算机可读存储介质上的指令的一个或多个处理器的一个或多个计算机来实现。该处理可发生在操作性地连接至服务器510和/或客户机550的处理器的任何组合上。方法1100始于动作1105，在1105，接收各种形式中的任何形式的用户输入，如上所述。例如，用户输入可以是搜索查询、对位置或附加媒体对象的链接的选择、或者对导航选项的选择。

在动作1110，响应于用户输入，可确定地理位置、观看方向以及一个或多个附加媒体对象。若这三者中有任何未被该用户输入直接指定，则可以自动确定或者可从其他用户输入进行推断。例如，若用户输入指定地理位置，则可以标识最靠近该位置所捕捉的全景图像，并且可使用关联数据集来标识与该全景图像相关联的一个或多个附加媒体对象。观看方向可基于如上所述的默认值、或者基于与相关联的附加媒体对象中的一者或多者相对应的最优观看方向来确定。若用户输入指定附加媒体对象，则可从该附加媒体对象的元数据确定相关联的地理位置，且可使用关联数据集确定关于该最接近全景的最优观看方向。若用户输入仅指定观看方向，则可以维持当前正向用户显示的地理位置，且可使用关联数据集确定相关联的附加媒体对象，因为它们的相对位置落在观看方向所确定的视野范围内。

在动作1115，根据在动作1110确定的地理位置、观看方向和(诸)附加媒体对象，可从全景图像数据集检索全景图像并可从附加媒体数据集检索一个或多个相关联的附加媒体对象。在动作1120，可在相关联的全景图像中嵌入所检索的(诸)附加媒体对象的帧以产生混合全景图像。用于通过此类嵌入产生混合全景图像的示例性方法将在下文参照图12来描述。继续参照图11，在动作1125，可提取该混合全景图像中对应根据观看方向将显示在视口中的视野范围的部分。在动作1130，可提供代表混合全景图像的此部分的混合图像数据以供在用户界面的视口中显示。

在动作1135，可作出是否要求一新景观的确定。可响应于各种事件中的任何事件而要求新景观。例如，可接收到指定对地理位置、观看方向和/或(诸)附加媒体对象的改变的新用户输入。此新用户输入可以上述各种形式中的任何形式被接收。还可响应于视频附加媒体对象的回放在时间上的行进之类的事件而要求新景观。若该视频附加媒体对象是使用移动相机捕捉的，则在连贯帧的显示之间可能意味着新的观看方向和/或新的地理位置。若在动作1135确定要求新景观，则方法1100可循环回到动作1110，在1110，可确定新的地理位置、观看方向和/或(诸)附加媒体对象。若确定未要求新景观，则方法1100结束。

图12是解说根据本公开的一些实施例产生混合全景图像的示例性方法1200的流程图。该方法可以例如由包括执行编码在一个或多个计算机可读存储介质上的指令的一个或多个处理器的一个或多个计算机来实现。该处理可发生在操作性地连接至服务器510和/或客户机550的处理器的任何组合上。方法1200始于动作1205，在1205，获得全景图像和一个或多个相关联的附加媒体对象，例如如在方法1100的动作1115。在动作1210，例如从关联数据集检索附加媒体对象的帧的投影数据。如上所述，附加媒体对象帧的投影数据可包括关于相关联的全景图像的相对位置和以恰适的对准将附加媒体对象帧投影到全景图像的几何变换。用于计算此类数据的示例性方法将在下文参照图13来描述。

继续参照图12，在动作1215，可对附加媒体对象帧应用几何变换以产生经调整的附加媒体对象帧。在动作1220，可根据相对位置将该经调整的附加媒体对象帧嵌入在全景图像内。在动作1225，可作出是否还有更多附加媒体对象帧尚待嵌入在当前全景图像内的确定。例如，另外的附加媒体对象帧可能属于该第一附加媒体对象帧也属于的视频，或者属于在相同地理位置附近捕捉的其他附加媒体对象。将嵌入在单个混合全景图像内的可用附加媒体对象帧的数目可基于各种因素来确定，诸如系统配置参数、用户界面的显示能力、用户偏好、或其他考量因素。若有更多的附加媒体对象帧可用但未被选择嵌入，则可通过如上讨论的诸如列表、图钉和足迹框之类的其他视觉指示符来向用户指示它们的可用性。

若在动作1225确定有更多附加媒体对象帧尚待嵌入，则方法1200可循环回到动作1210，在1210可检索下一附加媒体对象帧的投影数据。若确定没有更多的附加媒体对象帧尚待嵌入，则方法1200可行进至动作1230，在1230，可将包含先前所嵌入的附加媒体对象帧的混合全景图像提供给进一步的处理阶段。

图13是解说根据本公开的一些实施例确定附加媒体对象的关联和投影数据的示例性方法1300的流程图。该方法可以例如由包括执行编码在一个或多个计算机可读存储介质上的指令的一个或多个处理器的一个或多个计算机来实现。该处理可发生在操作性地连接至服务器510和/或客户机550的处理器的任何组合上。方法1300始于动作1305，在1305，可为附加媒体对象的帧选择目标全景图像。该目标全景图像例如可通过将附加媒体对象帧的元数据与全景图像数据集中的全景图像的元数据作比较来选择。若附加媒体对象帧被用特定的地理位置加注了地理标签，则目标全景图像可被选择为被用与该附加媒体对象帧的地理位置最接近的地理位置加注了地理标签的全景图像。一旦选择了目标全景图像，至该全景图像的链接就可与该附加媒体对象帧相关联地存储在关联数据集中。

方法1300随后可进行至例如使用如在提交于2009年6月4日的题为“Geocoding by Image Matching(通过图像匹配进行地理编码)”的美国专利申请S/N.12/478569中描述的特征匹配技术将附加媒体对象帧与目标全景图像相对准。例如，在动作1310，可标识附加媒体对象帧中和目标全景图像中的多个兴趣点。在动作1315，可计算每个兴趣点的特征向量。在动作1320，可基于特征向量来标识附加媒体对象帧与目标全景图像之间的匹配兴趣点。基于匹配兴趣点，可确定附加媒体对象帧关于目标全景图像的相对位置和几何变换。确定相对位置和几何变换的处理可涉及例如使用本领域已知的各种评估技术中的任一种来评估多个可能的相对位置和/或几何变换，诸如计算每种可能性的恰适评估分数。在动作1330，所确定的相对位置和几何变换可作为附加媒体对象帧的投影数据被存储在关联数据集中。

在动作1335，可确定该附加媒体对象是否还余留更多的附加媒体对象帧。例如，若该附加媒体对象是视频，则其可包含可确定其关联及投影数据的多个图像帧。若在动作1335确定还余留有更多附加媒体对象帧，则方法1300可循环回到动作1305，在1305可选择下一附加媒体对象帧的目标全景图像。若确定未余留更多的附加媒体对象帧，则方法1300结束。

本文描述的各种发明方面可与各自具有一个或多个处理器的一台或多台计算机和/或设备来联用，这一个或多个处理器可被编程为采取上述动作的任何动作以允许在街道级全景图像的上下文中观看附加媒体对象。例如，如上所述，服务器510和/或客户机550可被实现为一台或多台计算机。图14示意性地示出了可在其上实现本公开的各种发明方面的计算机1400。计算机1400包括处理器或处理单元1401以及可包括易失性和/或非易失性存储器的存储器1402。除了系统存储器1402之外，计算机1400还可包括存储1405(例如，一个或多个盘驱动)。

存储器1402和/或存储1405可存储用于编程处理单元1401以执行本文所述的任何功能的一条或多条计算机可执行指令。存储1405还可根据需要任选地存储一个或多个数据集。例如，用于实现服务器510的计算机可在存储1405中存储全景图像数据集520、附加媒体数据集530和/或关联数据集540的任何组合。或者，可与用于实现服务器510的计算机分开地实现这些数据集中的任何数据集。

如上所提及的，本文对计算机的引用可包括具有经编程的处理器的任何设备，包括机架式计算机、台式计算机、膝上型计算机、平板计算机或者可能一般不被认为是计算机的包括经编程的处理器的诸多设备中的任何设备(例如，PDA、MP3播放器、移动电话、无线耳机等)。

计算机1400可具有一个或多个输入设备和/或输出设备，诸如图14中所解说的设备1406和1407。这些设备尤其可被用来呈现用户界面，诸如用户界面555。可被用来提供用户界面的输出设备的示例包括用于可视地呈现输出的打印机或显示屏和用于可听地呈现输出的扬声器或其他声音生成设备。可被用于用户界面的输入设备的示例包括键盘和诸如鼠标、触摸板和数字化输入板等定点设备。作为另一示例，计算机可以通过语音识别或以其他可听格式来接收输入信息。

如图14中所示，计算机1400还可包括使能经由各种网络(例如，网络1420)进行通信的一个或多个网络接口(例如，网络接口1410)。网络的示例包括局域网或广域网，诸如企业网或因特网。这些网络可以基于任何合适的技术并可以根据任何合适的协议来操作，并且可以包括无线网络、有线网络或光纤网络。

至此描述了本发明的至少一个实施例的若干方面，可以理解，本领域的技术人员可容易地想到各种更改、修改和改进。例如，尽管已经提供了通过在全景图像中嵌入附加媒体对象来增强用户浏览位置的体验的示例，但应领会根据本公开，也可将附加媒体对象嵌入其他类型的参考图像。例如，其他合适类型的参考图像可包括在地图绘制应用中常用于浏览位置的各种类型的图像中的任何图像，诸如空间像、鸟瞰图像、和光合图像。

这样的更改、修改和改进旨在是本发明的一部分，且旨在处于本发明的精神和范围内。因此，上述描述和附图仅用作示例。

可以用多种方式中的任一种来实现本发明的上述实施例。例如，可使用硬件、软件或其组合来实现各实施例。当使用软件实现时，该软件代码可在无论是在单个计算机中提供的还是在多个计算机之间分布的任何合适的处理器或处理器集合上执行。

此外，应当理解，计算机可以用多种形式中的任一种来具体化，如机架式计算机、台式计算机、膝上型计算机、或平板计算机。另外，计算机可以具体化在通常不被认为是计算机但具有合适的处理能力的设备中，包括个人数字助理(PDA)、智能电话、或任何其他合适的便携式或固定电子设备。

同样，计算机可以具有一个或多个输入和输出设备。这些设备主要可被用来呈现用户界面。可被用来提供用户界面的输出设备的示例包括用于可视地呈现输出的打印机或显示屏和用于可听地呈现输出的扬声器或其他声音生成设备。可被用于用户界面的输入设备的示例包括键盘和诸如鼠标、触摸板和数字化输入板等定点设备。作为另一示例，计算机可以通过语音识别或以其他可听格式来接收输入信息。

这些计算机可以通过任何合适形式的一个或多个网络来互连，包括作为局域网或广域网，如企业网络或因特网。这些网络可以基于任何合适的技术并可以根据任何合适的协议来操作，并且可以包括无线网络、有线网络或光纤网络。

而且，此处略述的各种方法或过程可被编码为可在采用各种操作系统或平台中任何一种的一个或多个处理器上执行的软件。此外，这样的软件可使用多种合适的程序设计语言和/或程序设计或脚本工具中的任何一种来编写，而且它们还可被编译为可执行机器语言代码或在框架或虚拟机上执行的中间代码。

就此，本发明可被具体化为用一个或多个程序编码的一个计算机可读介质(或多个计算机可读介质)(例如，计算机存储器、一个或多个软盘、紧致盘(CD)、光盘、数字视频盘(DVD)、磁带、闪存、现场可编程门阵列或其他半导体器件中的电路配置、或其他非瞬态的有形计算机存储介质)，当这些程序在一个或多个计算机或其他处理器上执行时，它们执行实现本发明的上述各个实施例的方法。这一个或多个计算机可读介质可以是便携的，使得其上存储的一个或多个程序可被加载到一个或多个不同的计算机或其他处理器上以便实现本发明上述的各个方面。

此处以一般的意义使用术语“程序”或“软件”来指可被用来对计算机或其他处理器编程以实现本发明上述的各个方面的任何类型的计算机代码或计算机可执行指令集。另外，应当理解，根据本实施例的一个方面，当被执行时实现本发明的方法的一个或多个计算机程序不必驻留在单个计算机或处理器上，而是可以按模块化的方式分布在多个不同的计算机或处理器之间以实现本发明的各方面。

计算机可执行指令可以具有可由一个或多个计算机或其他设备执行的各种形式，诸如程序模块。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常，在各实施例中，程序模块的功能可以视需要组合或分布。

而且，数据结构能以任何合适的形式存储在计算机可读介质上。为简化说明，数据结构可被示为具有通过该数据结构中的位置而相关的字段。这些关系同样可以通过对各字段的存储分配传达各字段之间的关系的计算机可读介质中的位置来得到。然而，可以使用任何合适的机制来在数据结构的各字段中的信息之间建立关系，包括通过使用指针、标签、或在数据元素之间建立关系的其他机制。

本发明的各个方面可单独、组合或以未在前述实施例中具体讨论的各种安排来使用，从而并不将其应用限于前述描述中所述或附图中所示的组件的细节和安排。例如，可使用任何方式将一个实施例中描述的各方面与其他实施例中描述的各方面组合。

同样，本发明可被具体化为方法，其示例已经提供。作为该方法的一部分所执行的动作可以按任何合适的方式来排序。因此，可以构建各个实施例，其中各动作以与所示的次序所不同的次序执行，不同的次序可包括同时执行某些动作，即使这些动作在各说明性实施例中被示为顺序动作。

在权利要求书中使用诸如“第一”、“第二”、“第三”等序数词来修饰权利要求元素本身并不意味着一个权利要求元素较之另一个权利要求元素的优先级、先后次序或顺序、或者方法的各动作执行的时间顺序，而仅用作将具有某一名字的一个权利要求元素与(若不是使用序数词则)具有同一名字的另一元素区分开的标签以区分各权利要求元素。

同样，此处所使用的短语和术语是出于描述的目的而不应被认为是限制。此处对“包括”、“包含”、或“具有”、“含有”、“涉及”及其变型的使用旨在包括其后所列的项目及其等效物以及其他项目。

Claims

1.一种用于提供混合图像数据以进行显示的方法，所述方法包括：

接收用户输入；

至少基于所述用户输入确定地理位置、观看方向、以及用于显示的至少一个附加媒体对象的至少一个媒体图像帧，所述至少一个附加媒体对象具有在所述地理位置处沿所述观看方向看见的主题的至少一部分的第一描绘；

至少基于所述地理位置选择目标全景图像，所述目标全景图像具有所述主题的至少一部分的第二描绘；

使用至少一个计算机系统将所述至少一个媒体图像帧整合到所述目标全景图像中以产生混合全景图像，所述混合全景图像将所述主题的第一描绘与所述主题的第二描绘相对准；以及

提供混合图像数据用于显示，所述混合图像数据根据所述观看方向包括所述混合全景图像的至少一部分；

其中所述用户输入包括从由对所述地理位置的至少一个指示、对所述观看方向的至少一个指示、以及对希望显示的第一附加媒体对象的至少一个指示构成的组中选择的至少一个指示。

2.如权利要求1所述的方法，其特征在于，所述至少一个附加媒体对象包括至少一个照片图像。

3.如权利要求1所述的方法，其特征在于，所述至少一个附加媒体对象包括多个视频图像帧。

4.如权利要求1所述的方法，其特征在于，所述至少一个附加媒体对象是从媒体共享网站获得的。

5.如权利要求1所述的方法，其特征在于，所述地理位置是至少基于与所述至少一个媒体图像帧相关联的元数据来确定的。

6.如权利要求1所述的方法，其特征在于，还包括至少基于所述地理位置提供对至少一个可用附加媒体对象的至少一个指示，其中所述至少一个指示可由用户选择以观看所述至少一个可用附加媒体对象。

7.如权利要求1所述的方法，其特征在于，还包括针对时间前进中所述至少一个附加媒体对象的至少下一个媒体图像帧来重复所述确定、选择、整合和提供。

8.如权利要求1所述的方法，其特征在于，还包括提供对未被整合到所述混合图像数据中的至少一个交迭媒体图像帧的至少一个指示，其中所述至少一个交迭媒体图像帧的足迹与至少一个经整合的媒体图像帧的足迹相交迭，其中所述至少一个指示可由用户选择以观看所述至少一个交迭媒体图像帧。

9.一种用于提供混合图像数据以进行显示的方法，所述方法包括：

接收第一用户输入；

至少基于所述第一用户输入确定地理位置、第一观看方向、以及用于显示的至少一个附加媒体对象的至少一个媒体图像帧，所述至少一个附加媒体对象具有在所述地理位置处沿所述第一观看方向看见的主题的至少一部分的第一描绘；

产生包括根据所述第一观看方向与所述目标全景图像的至少第一部分对准的所述至少一个媒体图像帧的混合图像数据，所述对准将所述至少一个媒体图像帧中的所述主题的第一描绘与所述目标全景图像中的所述主题的第二描绘对准；以及

提供所述混合图像数据用于显示；

其中所述第一用户输入包括从由对所述地理位置的至少一个指示、对所述第一观看方向的至少一个指示、以及对希望显示的第一附加媒体对象的至少一个指示构成的组中选择的至少一个指示。

10.如权利要求9所述的方法，其特征在于，还包括：

接收指示第二观看方向的第二用户输入；以及

提供经更新的混合图像数据用于显示，所述经更新的混合图像数据包括根据所述第二观看方向与所述目标全景图像的至少第二部分对准的所述至少一个媒体图像帧的至少一部分。

11.如权利要求10所述的方法，其特征在于，所述第二用户输入包括对希望显示的第二附加媒体对象的选择。

12.如权利要求9所述的方法，其特征在于，还包括：

接收指示希望显示的附加媒体对象的至少一个参数的第二用户输入；以及

至少基于所述至少一个参数提供对至少一个可用附加媒体对象的至少一个指示，其中所述至少一个指示可由用户选择以观看所述至少一个可用附加媒体对象。

13.如权利要求12所述的方法，其特征在于，所述至少一个参数是从由以下构成的组中选择的：至少一个附加媒体对象所被捕捉的至少一个位置、至少一个附加媒体对象的至少一个作者、至少一个附加媒体对象的至少一个主题、以及至少一个附加媒体对象所被捕捉的至少一个时间。

14.如权利要求9所述的方法，其特征在于，还包括提供对未包括于所述混合图像数据中的至少一个交迭媒体图像帧的至少一个指示，其中所述至少一个交迭媒体图像帧的足迹与包括于所述混合图像数据中的所述至少一个媒体图像帧的足迹相交迭。

15.如权利要求14所述的方法，其特征在于，还包括：

接收包括对至少一个交迭媒体图像帧的选择的第二用户输入；以及

提供经更新的混合图像数据用于显示，所述经更新的混合图像数据包括与所述目标全景图像的至少所述第一部分对准的所选至少一个交迭媒体图像帧。

16.一种用于提供混合图像数据以进行显示的系统，所述系统包括：

用于接收第一用户输入的装置；

用于至少基于所述第一用户输入确定地理位置、第一观看方向、以及用于显示的至少一个附加媒体对象的至少一个媒体图像帧的装置，所述至少一个附加媒体对象具有在所述地理位置处沿所述第一观看方向看见的主题的至少一部分的第一描绘；

用于至少基于所述地理位置选择目标全景图像的装置，所述目标全景图像具有所述主题的至少一部分的第二描绘；

用于产生包括根据所述第一观看方向与所述目标全景图像的至少第一部分对准的所述至少一个媒体图像帧的混合图像数据的装置，所述对准将所述至少一个媒体图像帧中的所述主题的第一描绘与所述目标全景图像中的所述主题的第二描绘对准；以及

用于提供所述混合图像数据用于显示的装置；