CN106462768A - 使用图像特征从图像提取视窗 - Google Patents

使用图像特征从图像提取视窗 Download PDF

Info

Publication number
CN106462768A
CN106462768A CN201580028581.2A CN201580028581A CN106462768A CN 106462768 A CN106462768 A CN 106462768A CN 201580028581 A CN201580028581 A CN 201580028581A CN 106462768 A CN106462768 A CN 106462768A
Authority
CN
China
Prior art keywords
potential
group
panoramic picture
feature
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580028581.2A
Other languages
English (en)
Other versions
CN106462768B (zh
Inventor
A.谢里丹
S.B.萨特金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN106462768A publication Critical patent/CN106462768A/zh
Application granted granted Critical
Publication of CN106462768B publication Critical patent/CN106462768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)

Abstract

本公开的一些方面提供了选择视窗。视窗是图像的子部分。例如,可接收为特定图像302、322选择视窗的请求。在该特定图像内标识一组潜在视窗602、622,并且在该组潜在视窗中的视窗内标识特征。对于该组潜在视窗中的每个给定视窗,至少部分基于具有一组特征权重的权重向量和该组潜在视窗中的该给定视窗内的标识的特征来计算得分。基于计算出的得分选择该组潜在视窗中的视窗。然后,响应于为该特定全景图像选择视窗的请求,提供所选择的视窗。

Description

使用图像特征从图像提取视窗
相关申请的交叉引用
本申请是2014年6月27日递交的美国专利申请14/317,639的延续案,特此通过引入将该美国专利申请的公开内容并入在此。
背景技术
各种系统向用户提供不同位置的图像。一些系统向用户提供全景图像或者具有一般来说更宽的视野的全景图像。例如,全景图像可包括具有比人眼的视野更大的视野(例如,180度或更大)的图像或图像的集合。一些全景图像可提供某个位置的360度视域。
发明内容
本公开的一些方面提供了一种用于选择视窗(viewport)的由计算机实现的方法,其中视窗是图像的子部分。该方法包括:由一个或多个计算设备接收对特定图像的请求;由一个或多个计算设备标识特定图像内的一组潜在视窗;由一个或多个计算设备标识该组潜在视窗中的视窗内的特征;由一个或多个计算设备对于该组潜在视窗中的每个给定视窗至少部分基于具有一组特征权重的权重向量和该组潜在视窗中的该给定视窗内的标识的特征来计算得分;由一个或多个计算设备基于计算出的得分选择该组潜在视窗中的视窗;以及由一个或多个计算设备响应于请求提供选择的视窗和特定图像。
在一个示例,该方法还包括接收一组训练全景图像。该组训练全景图像中的至少一个训练全景图像与标识该全景图像中的最令人感兴趣的视窗的信息相关联。对于此,该方法还包括在为每个视窗计算得分之前,利用该组训练全景图像作为训练数据来调整权重向量的特征权重。额外地或替换地,方法还包括标识至少一个全景图像的与最令人感兴趣的视窗的至少一部分重叠的潜在视窗,并且至少一个全景图像的与最令人感兴趣的视窗的至少一部分重叠的潜在视窗被进一步用作训练数据来调整权重向量的特征权重。在此示例中,该方法包括标识至少一个全景图像的与最令人感兴趣的视窗完全重叠的潜在视窗,并且至少一个全景图像的与最令人感兴趣的视窗完全重叠的潜在视窗被进一步用作训练数据来调整权重向量的特征权重。额外地或替换地,该方法还包括对于该组全景图像中的每个全景图像标识第二组潜在视窗。这里,第二组潜在视窗中的每个给定潜在视窗各自与标识该给定潜在视窗对于该给定潜在视窗的相应全景图像不是最令人感兴趣的视窗的信息相关联。该方法还包括处理第二组潜在视窗中的每个视窗以便标识特征,并且在第二组潜在视窗中的每个视窗中标识的特征被进一步用作训练数据来调整权重向量的特征权重。
在另一示例中,请求包括标识视窗的宽高比的信息,并且标识该组潜在视窗是进一步基于宽高比的。在另一示例中,对于视窗的请求是对于搜索结果的请求的一部分,并且该方法还包括基于权重向量选择第二全景图像的视窗,并且将选择的第二全景图像的视窗与选择的视窗和一组搜索结果一起提供。
本公开的另一方面提供了一种用于选择视窗的系统,其中视窗是图像的子部分。该系统包括一个或多个计算设备,被配置为接收对特定图像的请求;标识特定图像内的一组潜在视窗;标识该组潜在视窗中的视窗内的特征;对于该组潜在视窗中的每个给定视窗,至少部分基于具有一组特征权重的权重向量和该组潜在视窗中的该给定视窗内的标识的特征来计算得分;基于计算出的得分选择该组潜在视窗中的视窗;以及响应于请求提供所选择的视窗和特定图像。
在一个示例中,一个或多个计算设备还被配置为接收一组训练全景图像。该组训练全景图像中的至少一个训练全景图像与标识该全景图像中的最令人感兴趣的视窗的信息相关联。对于此,一个或多个计算设备被配置为在为每个视窗计算得分之前,利用该组训练全景图像作为训练数据来调整权重向量的特征权重。在此示例中,一个或多个计算设备还被配置为标识至少一个全景图像的与最令人感兴趣的视窗的至少一部分重叠的潜在视窗,并且至少一个全景图像的与最令人感兴趣的视窗的至少一部分重叠的潜在视窗被进一步用作训练数据来调整权重向量的特征权重。额外地或替换地,一个或多个计算设备还被配置为标识至少一个全景图像的与最令人感兴趣的视窗完全重叠的潜在视窗,并且至少一个全景图像的与最令人感兴趣视窗完全重叠的潜在视窗被进一步用作训练数据来调整权重向量的特征权重。额外地或替换地,一个或多个计算设备还被配置为对于该组全景图像中的每个全景图像标识第二组潜在视窗。这里,第二组潜在视窗中的每个给定潜在视窗各自与标识该给定潜在视窗对于该给定潜在视窗的相应全景图像不是最令人感兴趣的视窗的信息相关联。一个或多个计算设备还被配置为处理第二组潜在视窗中的每个视窗以便标识特征,并且在第二组潜在视窗中的每个视窗中标识的特征被进一步用作训练数据来调整权重向量的特征权重。
在另一示例中,请求包括标识视窗的宽高比的信息,并且标识该组潜在视窗是进一步基于宽高比的。在另一示例中,对于视窗的请求是对于搜索结果的请求的一部分,并且一个或多个计算设备还被配置为基于权重向量选择第二全景图像的视窗并且将选择的第二全景图像的视窗与选择的视窗和一组搜索结果一起提供。
本公开的另一方面提供了一种非暂态计算机可读存储介质,其上存储有程序的计算机可读指令。这些指令当被处理器执行时使得处理器执行一种用于选择视窗的方法,其中视窗是图像的子部分。该方法包括接收对特定图像的请求;标识特定图像内的一组潜在视窗;标识该组潜在视窗中的视窗内的特征;对于该组潜在视窗中的每个给定视窗,至少部分基于具有一组特征权重的权重向量和该组潜在视窗中的该给定视窗内的标识的特征来计算得分;基于计算出的得分选择该组潜在视窗中的视窗;以及响应于请求提供所选择的视窗和特定图像。
在一个示例中,该方法还包括接收一组训练全景图像。该组训练全景图像中的至少一个训练全景图像与标识该全景图像中的最令人感兴趣的视窗的信息相关联。对于此,该方法还包括在为每个视窗计算得分之前,利用该组训练全景图像作为训练数据来调整权重向量的特征权重。额外地或替换地,该方法还包括标识至少一个全景图像的与最令人感兴趣的视窗的至少一部分重叠的潜在视窗,并且至少一个全景图像的与最令人感兴趣的视窗的至少一部分重叠的潜在视窗被进一步用作训练数据来调整权重向量的特征权重。在此示例中,该方法包括标识至少一个全景图像的与最令人感兴趣的视窗完全重叠的潜在视窗,并且至少一个全景图像的与最令人感兴趣的视窗完全重叠的潜在视窗被进一步用作训练数据来调整权重向量的特征权重。额外地或替换地,该方法还包括对于该组全景图像中的每个全景图像标识第二组潜在视窗。这里,第二组潜在视窗中的每个给定潜在视窗各自与标识该给定潜在视窗对于该给定潜在视窗的相应全景图像不是最令人感兴趣的视窗的信息相关联。该方法还包括处理第二组潜在视窗中的每个视窗以便标识特征,并且在第二组潜在视窗中的每个视窗中标识的特征被进一步用作训练数据来调整权重向量的特征权重。
在另一示例中,请求包括标识视窗的宽高比的信息,并且标识该组潜在视窗是进一步基于宽高比的。在另一示例中,对于视窗的请求是对于搜索结果的请求的一部分,并且该方法还包括基于权重向量选择第二全景图像的视窗,并且将选择的第二全景图像的视窗与选择的视窗和一组搜索结果一起提供。
附图说明
图1是根据本公开的一些方面的示例系统的功能图。
图2是图1的示例系统的直观图。
图3是根据本公开的一些方面的一组训练数据的示例。
图4是根据本公开的一些方面的一组训练数据和关联的显著视窗的示例。
图5是根据本公开的一些方面的一组训练数据和滑动窗口的示例。
图6是与显著视窗部分重叠和完全重叠的可能视窗的示例。
图7是根据本公开的一些方面的流程图。
具体实施方式
概述
本技术涉及自动地标识并提供例如全景图像之类的图像的显著子部分,这些显著子部分是最有可能让用户感兴趣或吸引用户的。作为示例,系统可选择要提供给计算设备的用户的全景图像。然而,因为难以在没有失真的情况下同时显示整个全景图像,所以系统可选择将在客户端计算设备上显示的全景图像的子部分。如上所述,可以选择图像的子部分(例如,与图像的非全部像素相对应的图像区域)或“视窗”,因为与同一图像的其他子部分相比其很可能具有较高的显著性。对用户来说,系统可能看起来自动将图像剪裁到其最令人感兴趣的区域。
为了选择子部分,可利用一组训练数据来标识模型。此训练数据可包括一组全景图像,其中这些全景图像中的至少一些与标识全景图像的曾被操作者认为最令人感兴趣的视窗的信息相关联。作为示例,操作者可以是捕捉全景图像的人或者就是某个审阅图像的人。对于此,一个人例如可通过标识该人认为包括全景图像的最令人感兴趣的细节的矩形或其他形状来选择视窗。在一些示例中,该形状可具有特定的宽高比(例如,m像素乘n像素),虽然如此但是可使用各种其他大小。在一些示例中,训练数据也可包括操作者标识为至少令人感兴趣的视窗,虽然这种输入可能不是必需的。
训练数据可被处理以便将全景分离成多个可能的视窗,包括那些被标识为令人感兴趣的和那些未被标识为令人感兴趣的。例如,给定视窗的特定尺寸,滑动窗口可用于标识每个可能的视窗。在一些情况中,这可包括被标识为至少令人感兴趣的视窗。未被标识为令人感兴趣的视窗可全都具有相同大小(例如,m像素乘n像素)。对于此,可能的视窗中的至少一些可与标识为令人感兴趣的那些视窗完全或部分重叠。
训练数据随后可用作机器学习的输入以输出权重向量。例如,计算机视觉处理技术可用于从可能视窗中提取特征。示例特征可包括颜色、形状、对象、纹理、视窗大小和位置、特征的组合,等等。权重向量可包括用于从可能视窗中提取的每个特征的一系列权重。权重标识该特定类型的特征有多令人感兴趣。对于此,训练数据可用于调整权重向量。
权重向量随后可用于在给定特定宽高比的情况下标识图像的令人感兴趣的部分。再有,滑动窗口可用于标识可能视窗。每个可能视窗随后可被处理以标识特征并生成特征向量。权重向量随后可用于对特征向量打分。具有得分最高的特征向量的视窗可被标识为最令人感兴趣的视窗。类似的计算可用于确定任何数目的图像当中的具有特定宽高比的最令人感兴趣的视窗。在一些情况中,可利用非极大值抑制(non-maximum suppression)来增强此计算。
从而,权重向量不仅可用于确定要向用户提供什么图像,而且可用于确定要向用户显示这些图像的什么部分。例如,以上描述的特征可用于确定如何显示给定图像作为一组搜索结果的一部分,作为与在用户的移动设备上(例如,平板或电话)或web浏览器中显示的地图有关的令人感兴趣的图像的一组缩略图的一部分,等等。
虽然以上描述的特征是联系全景图像来说明的,但同样的技术可用于标识非全景图像的显著部分。对于此,训练数据也可包括与标识最令人感兴趣的视窗的信息相关联的非全景图像,以及不与这种信息相关联的非全景图像。
如上所述,权重向量允许了对任何给定图像中的最令人感兴趣的视窗的确定。系统为了做到这一点并不需要实际标识图像中的任何特定对象或者为每个图像生成显著性地图。
示例系统
图1和图2包括其中可实现上述特征的示例系统100。其不应当被认为限制本公开的范围或者本文描述的特征的有用性。在此示例中,系统100可包括计算设备110、120、130和140以及存储系统150。计算设备110可包含一个或多个处理器112、存储器114和通常存在于通用计算设备中的其他组件。计算设备110的存储器114可存储处理器112可访问的信息,包括可被处理器112执行的指令116。
存储器也可包括可被处理器取回、操纵或存储的数据118。存储器可以是能够存储处理器可访问的信息的任何非暂态类型的,例如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、可写存储器和只读存储器。
指令116可以是要被处理器直接执行(例如机器代码)或间接执行(例如脚本)的任何指令集合。对于此,术语“指令”、“应用”、“步骤”和“程序”在本文中可被互换使用。指令可以以目标代码格式来存储以供处理器直接处理,或者以任何其他计算设备语言来存储,包括根据需要解释或预先编译的独立源代码模块的集合或脚本。指令的功能、方法和例程在下文更详细说明。
数据118可被处理器112根据指令116来取回、存储或修改。例如,虽然本文描述的主题不受任何特定数据结构的限制,但数据可被存储在计算机寄存器中、存储在诸如具有许多不同字段和记录的表格之类的关系数据库中或者存储在XML文档中。数据也可被格式化为任何计算设备可读格式,例如但不限于二进制值、ASCII或Unicode。另外,数据可包括足以标识相关信息的任何信息,例如数字、描述性文本、专有代码、指针、对存储在其他存储器中(例如存储在其他网络位置)的数据的引用或者被函数用来计算相关数据的信息。
一个或多个处理器112可包括任何传统处理器,例如市售的CPU。可替换地,处理器可以是专用组件,例如ASIC或其他基于硬件的处理器。虽然并非必要,但计算设备110可包括专门的硬件组件来更快速或更高效地执行特定的计算处理,例如对视频解码、将视频帧与图像匹配、使视频失真、对失真的视频编码等等。
虽然图1从功能上将处理器、存储器和计算设备110的其他元件图示为在同一块内,但处理器、计算机、计算设备或存储器实际上可包括可能被存放在同一物理壳体内或者不被存放在同一物理壳体内的多个处理器、计算机、计算设备或存储器。例如,存储器可以是位于与计算设备110不同的壳体中的硬盘驱动器或其他存储介质。从而,对处理器、计算机、计算设备或存储器的提及将被理解为包括对可并行操作或者不并行操作的处理器、计算机、计算设备或存储器的集合的提及。例如,计算设备110可包括作为负载平衡服务器群操作的服务器计算设备。此外,虽然下文描述的一些功能被指示为在具有单个处理器的单个计算设备上发生,但本文描述的主题的各种方面可由例如通过网络160传达信息的多个计算设备来实现。
计算设备110可在网络160的各种节点处并且能够与网络160的其他节点直接和间接地通信。虽然在图1-图2中只描绘了几个计算设备,但应当明白典型的系统可包括许多连接的计算设备,其中每个不同的计算设备在网络160的不同节点处。网络160和本文描述的居间节点可利用各种协议和系统来互连,使得网络可以是因特网、万维网、特定内联网、广域网或本地网络的一部分。网络可利用标准通信协议,例如以太网、WiFi和HTTP,一个或多个公司专有的协议,以及前述的各种组合。虽然当如上所述发送或接收信息时获得某些优点,但本文描述的主题的其他方面不限于信息的任何特定传送方式。
作为示例,计算设备110可包括能够经由网络与存储系统150以及计算设备120、130和140通信的一个或多个web服务器。例如,服务器计算设备110可使用网络160来在显示器(例如计算设备120、130或140的显示器122、132或142)上向用户(例如用户220、230或240)发送和呈现信息。对于此,计算设备120、130和140可被认为是客户端计算设备并且可执行下文描述的特征的全部或一些。
每个客户端计算设备可与服务器计算设备110类似地配置,具有如上所述的一个或多个处理器、存储器和指令。每个客户端计算设备120、130或140可以是旨在供用户220、250、250使用的个人计算设备,并且具有通常联系个人计算设备使用的所有组件,例如中央处理单元(central processing unit,CPU)、存储数据和指令的存储器(例如,RAM和内部硬盘驱动器)、诸如显示器122、132或142之类的显示器(例如,具有屏幕的监视器、触摸屏、投影仪、电视或者可操作来显示信息的其他设备)以及用户输入设备124(例如,鼠标、键盘、触摸屏或麦克风)。客户端计算设备还可包括用于记录视频流的相机、扬声器、网络接口设备和用于将这些元件连接到彼此的所有组件。
虽然客户端计算设备120、130和140可各自包括全尺寸个人计算设备,但是可替换地,它们也可包括能够通过诸如因特网之类的网络与服务器无线地交换数据的移动计算设备。仅作为示例,客户端计算设备120可以是移动电话或者诸如具备无线能力的PDA、平板PC或上网本之类的能够经由因特网获得信息的设备。在另一示例中,客户端计算设备130可以是头戴式计算系统。作为示例,用户可利用小键盘、袖珍键盘、麦克风、用相机利用视觉信号或者利用触摸屏来输入信息。
存储系统150可存储图像。这些图像中的至少一些可包括全景图像,例如上文描述的具有比人眼的视野更大的视野(例如,180度或更大)的那些。除了图像以外,存储系统150还可存储与诸如视窗这样的这些图像或者这些图像的被选择为显著的子部分相关联的信息,如下文更详细描述的。视窗信息可被存储,以使得其可用于标识图像的像素的特定子集并且只显示该像素子集。
除了图像以外,存储系统150还可存储模型,以及可用于更新或生成模型的训练数据。在一些示例中,模型可包括权重向量,并且训练数据可包括一组图像,以及这些图像的被标识为显著或令人感兴趣的子部分或视窗,如下文更详细描述的。虽然本文描述的特征是联系全景图像来说明的,但同样的技术可用于标识非全景图像的显著部分。对于此,训练数据也可包括与标识显著视窗的信息相关联的非全景图像,以及不与这种信息相关联的非全景图像。
与存储器114一样,存储系统150可以是能够存储服务器110可访问的信息的任何类型的计算机化存储装置,例如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、可写存储器和只读存储器。此外,存储系统150可包括分布式存储系统,其中数据被存储在可物理上位于相同或不同地理位置的多个不同存储设备上。存储系统150可如图1所示经由网络160连接到计算设备,和/或可直接连接到或被包含到任何计算设备110-140(未示出)。
示例方法
如上所述,为了选择视窗,可利用存储系统150的一组训练数据来训练模型。如上所述,此训练数据可包括一组图像,例如图3所示的全景图像。示例训练数据300包括两个全景图像302和322。这些全景图像可能是在不同的日期和时间在不同的位置捕捉的。
该组训练数据中的至少一些可与标识被认为令人感兴趣的视窗或者说图像的子部分的信息相关联。关于什么令人感兴趣的想法是一种个人的想法,并且至少最初可由手动审阅图像并选择图像的子部分的人类操作者来确定。作为示例,操作者可以是捕捉全景图像的人或者就是某个查看了图像的人。对于此,一个人例如可通过标识该人确信的矩形或其他形状包括全景图像的最令人感兴趣的细节来选择视窗。这可利用应用或其他计算工具来实现以选择或描绘视窗并将此信息发送到一个或多个服务器计算设备110以作为该组训练数据的一部分存储在存储系统150中。在一些示例中,该形状可具有特定的尺寸或宽高比(例如,m像素乘n像素),虽然如此但是可使用各种其他大小。
图4是训练数据300的示例400,该训练数据300包括与全景图像302相关联的视窗402和与全景图像322相关联的视窗422。每个显著视窗(salient viewport)可与将该视窗标识为显著的标签相关联。如上所述,这些显著视窗可能是由操作者标识的。在此示例中,两个视窗402和422是大致相同大小的(例如,形状和像素数目)。然而,如上所述,也可使用各种其他形状和大小。对于此,视窗402和422的尺寸或宽高比可实际上不同。
在一些示例中,训练数据也可包括操作者标识为至少令人感兴趣的视窗,虽然这种输入可能不是必需的。例如,视窗422可能被标识为全景图像322中的对操作者来说至少令人感兴趣或显著的视窗,而视窗402可能被选择为全景图像302中的对操作者来说最显著的视窗。再有,视窗可具有特定大小和形状,使得对于给定的图像,第一大小的最显著视窗可不同于(完全不同、部分不同或者根本不重叠)与第一大小不同的第二大小的最显著视窗。
训练数据可被处理以便将全景分离成多个可能的视窗。例如,具有固定尺寸(例如m乘n像素)的滑动窗口可用于标识每个可能视窗,如图5的示例500中所示。例如,可将滑动窗口502和522在全景图像302和322上四处移动以便为每个图像标识一组可能的视窗。这些可能视窗可能是重叠的或不重叠的,这取决于集合中的可能视窗的数目和大小。
如图6的示例600中所示,可能视窗可与被操作者标识为显著的视窗部分重叠或完全重叠。例如,可能视窗602只与显著视窗402部分重叠。可能视窗622与显著视窗422完全重叠。然而,因为可能视窗622在大小上大于显著视窗422,所以可能视窗622可包括全景图像322的额外特征。对于此,可能视窗的尺寸可与任何显著视窗的尺寸相同或不同。随后可用指示出这些可能视窗是非显著的标签来标识这些可能视窗。此外,如果可能视窗和显著视窗的尺寸相同,则在一些情况中,可能视窗和显著视窗可能是相同的,或者更确切地说是完美重叠的。在这种示例中,可能视窗可与指示该可能视窗是显著视窗的标签相关联。类似的示例也可用于非显著视窗。
训练数据——包括图像、可能视窗、显著视窗和标签——随后可用作机器学习的输入以输出权重向量。例如,计算机视觉处理技术,例如采用各种特征的直方图或全局描述符的那些,可用于从可能视窗中提取特征。示例特征可包括颜色、形状、对象、纹理、视窗大小和位置、特征的组合,等等。
如上所述,权重向量可包括用于从可能视窗中提取的每个特征的一系列权重。对于此,权重向量可以是实值数的向量,例如 向量的维度,或者向量的值的总数,可对应于被考虑的特征的数目。
权重可标识特定类型的特征有多显著或令人感兴趣,换言之,权重越高,越感兴趣。从而,带着显著标签被包括在视窗中的特征可能在权重向量中更有可能具有更高的权重。从而,训练数据被用于调整权重向量。因为使用了机器学习,所以可随着时间的流逝调整权重向量,使得随着新图像、潜在视窗、显著视窗和标签被添加到训练数据,可基于更新的训练数据进一步调整权重向量。
权重向量随后可用于标识任何图像中的显著视窗。与训练数据一样,存储系统150的个体图像可被处理以标识一组可能视窗。再有,m乘n像素的滑动窗口可用于标识集合的可能视窗。每个可能视窗随后可被例如利用上文描述的计算机视觉处理来加以处理以便标识特征。这些特征可被组合成特征向量,该特征向量列出表示在特定的可能视窗中标识出哪些特征的值,例如此特征向量可包含视窗中的特征的实际分布。权重向量的权重随后可用于对于集合的每个可能视窗为特征向量计算得分,例如通过确定特征和权重向量之间的点积(dot product)。在一些情况中,可利用非极大值抑制来增强此计算。具有最高得分的特征向量或者说该视窗的特征向量与权重向量之间具有最高值点积的视窗可被标识为最显著的视窗。
类似的计算可用于确定具有不同尺寸或者更确切地说具有不同宽高比的最令人感兴趣的视窗。对于此,对于特定类型的图像可以有默认宽高比,例如基于图像是否是全景图像(例如,视野)或者图像中的像素的数目。当用户(或者做出请求的客户端计算设备)请求具有不同于默认值的特定尺寸或特定宽高比的显著视窗时,可对应于这些特定尺寸来选择该组可能视窗中的视窗的尺寸。再有,给定图像的最显著视窗对于不同的视窗尺寸可完全不同。
一旦已如上所述标识了给定图像的最显著视窗,该最显著视窗就可与该给定图像相关联,并且该关联就可被存储在存储器中,例如存储系统150中。对于此,响应于由一个或多个服务器计算设备110从客户端计算设备接收到的取回图像来例如在客户端计算设备上显示给用户的请求,与请求的图像相关联的最显著视窗以及图像可被提供给客户端计算设备。一旦接收到,客户端计算设备就可向用户显示最显著视窗,使得用户只查看该视窗或者与最显著视窗相对应的图像的子部分。这在图像是全景图像或者具有宽视野(例如大于90度)的图像的情况下可尤其有用。作为示例,最显著视窗可用于显示一组图像搜索结果,使得这些搜索结果中的一个或多个图像被利用关联的最显著视窗来显示。作为另一示例,当一组图像与在客户端计算设备上显示的地图有关时,最显著视窗可用于显示这些图像。
可替换地,不是标识最显著视窗并将信息存储在存储器中以便响应于对图像的请求而取回,最显著视窗可被实时标识。对于此,响应于对一个或多个图像的请求,例如来自客户端计算设备的图像搜索请求,一个或多个服务器计算设备可标识一个或多个响应图像,然后处理这些图像以标识最显著视窗。从而,一个或多个相关图像随后可与标识这一个或多个图像的任何最显著视窗的信息一起被发送到做出请求的客户端计算设备以在客户端计算设备处显示。
图7的流程图700是上文描述的一些方面的示例,其可由如上所述的客户端计算设备和/或一个或多个服务器计算设备的一个或多个处理器执行。例如,在块702,接收一组全景图像。该组全景图像中的至少一个全景图像与标识该全景图像中的最令人感兴趣的视窗的信息相关联。在块704,该组全景图像被用作训练数据来调整具有一组特征权重的权重向量。在块706,此权重向量随后被存储以供后来使用。随着额外的全景图像被添加到该组,这些步骤可重复自身。
在块708,接收到为特定全景图像选择视窗的请求。在块710,在该特定全景图像内标识一组潜在视窗,并且在该组潜在视窗中的视窗内标识特征。然后在块712,至少部分基于存储的权重向量和该组潜在视窗中的每个给定视窗内的标识的特征,为该组潜在视窗中的该给定视窗计算得分。再有,存储的权重向量具有被用作该计算的一部分的一组特征权重。在块714,基于计算出的得分从该组潜在视窗中选择视窗。例如,这个选择的视窗可具有该组潜在视窗的计算出的最高得分。然后在块716,响应于为该特定全景图像选择视窗的请求,提供所选择的视窗。
前述替换示例的大多数不是互斥的,而是可以按各种组合实现来获得独特的优点。由于可在不脱离权利要求限定的主题的情况下利用以上论述的特征的这些和其他变化和组合,所以对实施例的前述描述应当被作为例示而不是作为对权利要求限定的主题的限制来理解。作为示例,前述操作不必按以上描述的确切顺序执行。更确切地说,可按不同顺序处理或同时处理各种步骤。除非另有申明,否则也可省略步骤。此外,本文描述的示例的提供,以及措辞为“例如”、“包括”之类的从句,不应当被解释为将权利要求的主题限制到特定示例;更确切地说,这些示例打算只例示许多可能实施例之一。另外,不同附图中的相同标号可标识相同或相似的元素。
工业实用性
本公开可用于自动地标识并提供例如全景图像之类的图像的显著子部分,这些显著子部分是最有可能让用户感兴趣或吸引用户的。

Claims (20)

1.一种用于选择视窗的由计算机实现的方法,该方法包括:
由一个或多个计算设备接收对特定图像的请求;
由所述一个或多个计算设备标识所述特定图像内的一组潜在视窗,其中所述一组潜在视窗中的每个潜在视窗是所述特定图像的子部分;
由所述一个或多个计算设备标识所述一组潜在视窗中的每个潜在视窗内的特征;
由所述一个或多个计算设备对于所述一组潜在视窗中的每个给定潜在视窗,至少部分基于具有一组特征权重的权重向量和所述一组潜在视窗中的该给定潜在视窗内的标识的特征来计算得分;
由所述一个或多个计算设备基于计算出的得分选择所述一组潜在视窗中的视窗;以及
由所述一个或多个计算设备响应于所述请求提供选择的视窗和所述特定图像。
2.如权利要求1所述的方法,还包括:
接收一组训练全景图像,其中所述一组训练全景图像中的至少一个训练全景图像与标识该全景图像中的最令人感兴趣的视窗的信息相关联;以及
在为每个视窗计算所述得分之前,利用所述一组训练全景图像作为训练数据来调整所述权重向量的特征权重。
3.如权利要求2所述的方法,还包括:
标识所述至少一个全景图像的与所述最令人感兴趣的视窗的至少一部分重叠的潜在视窗,以及
其中,所述至少一个全景图像的与所述最令人感兴趣的视窗的至少一部分重叠的潜在视窗被进一步用作训练数据来调整所述权重向量的特征权重。
4.如权利要求2所述的方法,还包括:
标识所述至少一个全景图像的与所述最令人感兴趣的视窗完全重叠的潜在视窗,以及
其中,所述至少一个全景图像的与所述最令人感兴趣的视窗完全重叠的潜在视窗被进一步用作训练数据来调整所述权重向量的特征权重。
5.如权利要求2所述的方法,还包括:
对于所述一组全景图像中的每个全景图像标识第二组潜在视窗,其中,所述第二组潜在视窗中的每个给定潜在视窗各自与标识该给定潜在视窗对于该给定潜在视窗的相应全景图像不是最令人感兴趣的视窗的信息相关联;
处理所述第二组潜在视窗中的每个潜在视窗以便标识特征;
其中,在所述第二组潜在视窗中的每个潜在视窗中标识的特征被进一步用作训练数据来调整所述权重向量的特征权重。
6.如权利要求1所述的方法,其中:
所述请求包括标识视窗的宽高比的信息;以及
标识所述一组潜在视窗是进一步基于所述宽高比的。
7.如权利要求1所述的方法,其中,对于视窗的请求是对于搜索结果的请求的一部分,并且所述方法还包括:
基于所述权重向量选择第二全景图像的视窗;以及
将选择的第二全景图像的视窗与选择的视窗和一组搜索结果一起提供。
8.一种用于选择视窗的系统,该系统包括:
一个或多个计算设备,被配置为:
接收对特定图像的请求;
标识所述特定图像内的一组潜在视窗,其中所述一组潜在视窗中的每个潜在视窗是所述特定图像的子部分;
标识所述一组潜在视窗中的每个潜在视窗内的特征;
对于所述一组潜在视窗中的每个给定潜在视窗,至少部分基于具有一组特征权重的权重向量和所述一组潜在视窗中的该给定潜在视窗内的标识的特征来计算得分;
基于计算出的得分选择所述一组潜在视窗中的视窗;以及
响应于所述请求提供所选择的视窗和所述特定图像。
9.如权利要求1所述的系统,其中,所述一个或多个计算设备还被配置为:
接收一组训练全景图像,其中所述一组训练全景图像中的至少一个训练全景图像与标识该全景图像中的最令人感兴趣的视窗的信息相关联;以及
在为每个视窗计算所述得分之前,利用所述一组训练全景图像作为训练数据来调整所述权重向量的特征权重。
10.如权利要求9所述的系统,其中,所述一个或多个计算设备还被配置为:
标识所述至少一个全景图像的与所述最令人感兴趣的视窗的至少一部分重叠的潜在视窗,以及
其中,所述至少一个全景图像的与所述最令人感兴趣的视窗的至少一部分重叠的潜在视窗被进一步用作训练数据来调整所述权重向量的特征权重。
11.如权利要求9所述的系统,其中,所述一个或多个计算设备还被配置为:
标识所述至少一个全景图像的与所述最令人感兴趣的视窗完全重叠的潜在视窗,以及
其中,所述至少一个全景图像的与所述最令人感兴趣的视窗完全重叠的潜在视窗被进一步用作训练数据来调整所述权重向量的特征权重。
12.如权利要求9所述的系统,其中,所述一个或多个计算设备还被配置为:
对于所述一组全景图像中的每个全景图像标识第二组潜在视窗,其中,所述第二组潜在视窗中的每个给定潜在视窗各自与标识该给定潜在视窗对于该给定潜在视窗的相应全景图像不是最令人感兴趣的视窗的信息相关联;
处理所述第二组潜在视窗中的每个潜在视窗以便标识特征;
其中,在所述第二组潜在视窗中的每个潜在视窗中标识的特征被进一步用作训练数据来调整所述权重向量的特征权重。
13.如权利要求8所述的系统,其中:
所述请求包括标识视窗的宽高比的信息;以及
进一步基于所述宽高比标识所述一组潜在视窗。
14.如权利要求8所述的系统,其中,对于视窗的请求是对于搜索结果的请求的一部分,并且所述一个或多个计算设备还被配置为:
基于所述权重向量选择第二全景图像的视窗;以及
将选择的第二全景图像的视窗与选择的视窗和一组搜索结果一起提供。
15.一种非暂态计算机可读存储介质,其上存储有程序的计算机可读指令,所述指令当被处理器执行时使得该处理器执行一种用于选择视窗的方法,该方法包括:
接收对特定图像的请求;
由所述一个或多个计算设备标识所述特定图像内的一组潜在视窗,其中所述一组潜在视窗中的每个潜在视窗是所述特定图像的子部分;
标识所述一组潜在视窗中的每个潜在视窗内的特征;
对于所述一组潜在视窗中的每个给定潜在视窗,至少部分基于具有一组特征权重的权重向量和所述一组潜在视窗中的该给定潜在视窗内的标识的特征来计算得分;
基于计算出的得分选择所述一组潜在视窗中的视窗;以及
响应于所述请求提供所选择的视窗和所述特定图像。
16.如权利要求15所述的介质,其中,所述方法还包括:
接收一组训练全景图像,其中,所述一组训练全景图像中的至少一个训练全景图像与标识该全景图像中的最令人感兴趣的视窗的信息相关联;以及
在为每个视窗计算所述得分之前,利用所述一组训练全景图像作为训练数据来调整所述权重向量的特征权重。
17.如权利要求15所述的介质,其中,所述方法还包括:
标识所述至少一个全景图像的与所述最令人感兴趣的视窗的至少一部分重叠的潜在视窗,以及
其中,所述至少一个全景图像的与所述最令人感兴趣的视窗的至少一部分重叠的潜在视窗被进一步用作训练数据来调整所述权重向量的特征权重。
18.如权利要求15所述的介质,其中,所述方法还包括:
对于所述一组全景图像中的每个全景图像标识第二组潜在视窗,其中,所述第二组潜在视窗中的每个给定潜在视窗各自与标识该给定潜在视窗对于该给定潜在视窗的相应全景图像不是最令人感兴趣的视窗的信息相关联;
处理所述第二组潜在视窗中的每个潜在视窗以便标识特征;
其中,在所述第二组潜在视窗中的每个潜在视窗中标识的特征被进一步用作训练数据来调整所述权重向量的特征权重。
19.如权利要求15所述的介质,其中:
对于视窗的请求包括标识视窗的宽高比的信息;以及
进一步基于所述宽高比标识所述一组潜在视窗。
20.如权利要求15所述的介质,其中,对于视窗的请求是对于搜索结果的请求的一部分,并且所述方法还包括:
基于所述权重向量选择第二全景图像的视窗;以及
将选择的第二全景图像的视窗与选择的视窗和一组搜索结果一起提供。
CN201580028581.2A 2014-06-27 2015-06-23 使用图像特征从图像提取视窗 Active CN106462768B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/317,639 US9569498B2 (en) 2014-06-27 2014-06-27 Using image features to extract viewports from images
US14/317,639 2014-06-27
PCT/US2015/037152 WO2015200304A1 (en) 2014-06-27 2015-06-23 Using image features to extract viewports from images

Publications (2)

Publication Number Publication Date
CN106462768A true CN106462768A (zh) 2017-02-22
CN106462768B CN106462768B (zh) 2019-11-19

Family

ID=53539929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580028581.2A Active CN106462768B (zh) 2014-06-27 2015-06-23 使用图像特征从图像提取视窗

Country Status (5)

Country Link
US (1) US9569498B2 (zh)
EP (1) EP3161726A1 (zh)
CN (1) CN106462768B (zh)
DE (1) DE202015009137U1 (zh)
WO (1) WO2015200304A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559887A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 全景图与兴趣点挂接的方法及构建全景图推荐模型的方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD780777S1 (en) 2014-04-22 2017-03-07 Google Inc. Display screen with graphical user interface or portion thereof
USD781317S1 (en) 2014-04-22 2017-03-14 Google Inc. Display screen with graphical user interface or portion thereof
US9934222B2 (en) 2014-04-22 2018-04-03 Google Llc Providing a thumbnail image that follows a main image
US9972121B2 (en) * 2014-04-22 2018-05-15 Google Llc Selecting time-distributed panoramic images for display
US9715638B1 (en) 2015-12-31 2017-07-25 Nokia Technologies Oy Method and apparatus for identifying salient subimages within a panoramic image
US10841557B2 (en) * 2016-05-12 2020-11-17 Samsung Electronics Co., Ltd. Content navigation
CN107888987B (zh) * 2016-09-29 2019-12-06 华为技术有限公司 一种全景视频播放方法及装置
US11636572B2 (en) 2016-12-29 2023-04-25 Nokia Technologies Oy Method and apparatus for determining and varying the panning speed of an image based on saliency
US10237614B2 (en) * 2017-04-19 2019-03-19 Cisco Technology, Inc. Content viewing verification system
US10417276B2 (en) * 2017-05-15 2019-09-17 Adobe, Inc. Thumbnail generation from panoramic images

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130035853A1 (en) * 2011-08-03 2013-02-07 Google Inc. Prominence-Based Generation and Rendering of Map Features
US8683519B2 (en) * 2007-09-26 2014-03-25 At&T Intellectual Property I, L.P. Favorites mosaic

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPM701394A0 (en) * 1994-07-22 1994-08-18 Monash University A graphical display system
US8525825B2 (en) 2008-02-27 2013-09-03 Google Inc. Using image content to facilitate navigation in panoramic image data
JP5891388B2 (ja) * 2011-03-31 2016-03-23 パナソニックIpマネジメント株式会社 立体視画像の描画を行う画像描画装置、画像描画方法、画像描画プログラム
US8750613B2 (en) 2011-12-13 2014-06-10 The Nielsen Company (Us), Llc Detecting objects in images using color histograms
US8898150B1 (en) * 2012-09-10 2014-11-25 Google Inc. Collecting image search event information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8683519B2 (en) * 2007-09-26 2014-03-25 At&T Intellectual Property I, L.P. Favorites mosaic
US20130035853A1 (en) * 2011-08-03 2013-02-07 Google Inc. Prominence-Based Generation and Rendering of Map Features

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH H. LAMPERT ET AL.: "Efficient Subwindow Search: A Branch and Bound Framework for Object Localization", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559887A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 全景图与兴趣点挂接的方法及构建全景图推荐模型的方法
CN112559887B (zh) * 2020-12-25 2023-09-05 北京百度网讯科技有限公司 全景图与兴趣点挂接的方法及构建全景图推荐模型的方法

Also Published As

Publication number Publication date
DE202015009137U1 (de) 2016-11-04
US9569498B2 (en) 2017-02-14
EP3161726A1 (en) 2017-05-03
WO2015200304A1 (en) 2015-12-30
CN106462768B (zh) 2019-11-19
US20150379086A1 (en) 2015-12-31

Similar Documents

Publication Publication Date Title
CN106462768B (zh) 使用图像特征从图像提取视窗
US10121099B2 (en) Information processing method and system
JP5827445B2 (ja) 拡張現実インタラクションを実現する方法およびシステム
WO2021073332A1 (zh) 用于辅助数学应用题的方法及装置
CN104094255B (zh) 用于搜索图像的方法和装置以及用于执行该方法的计算机可读记录介质
CN105637463B (zh) 多个图像中导航的技术
JP2010530998A (ja) 画像ベース情報検索の方法およびシステム
CN107430498A (zh) 扩展照片的视场
US20230162466A1 (en) Method and computer system for displaying identification result
US11455783B2 (en) Image recognition method and apparatus, device and non-volatile computer storage medium
Rose et al. Word recognition incorporating augmented reality for linguistic e-conversion
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
US20160232714A1 (en) Apparatus, method and system for providing interactive multimedia content based on print media
KR101320247B1 (ko) 증강현실 서비스를 지원하는 시스템에서 영상 정합을 위한 장치 및 방법
JP2019212039A (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
US9165339B2 (en) Blending map data with additional imagery
KR20210057925A (ko) 스트리밍 서버 및 이를 이용한 다시점 동영상에서의 객체 처리 방법
KR102488953B1 (ko) 컬러북을 이용한 중고명품 상태 확인 서비스 제공 시스템
Wojciechowski Mobile vision based augmented reality navigation system
Shao et al. Human action representation using pyramid correlogram of oriented gradients on motion history images
KR20230045758A (ko) 손 그림을 이용한 의류 검색 시스템 및 방법
KR20150125417A (ko) 이미지 기반 오브젝트 정보 제공 방법
Ceniceros et al. Augmented Reality for Green Consumption: Using Computer Vision to Inform the Consumers at Time of Purchase
CN114913443A (zh) 目标对象的检测方法及系统,图像处理方法、产品检测方法
JP2015041270A (ja) 画像検索システム、情報処理装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: California, USA

Applicant after: Google limited liability company

Address before: California, USA

Applicant before: Google

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant