CN106462960A - 图像的协同对准 - Google Patents
图像的协同对准 Download PDFInfo
- Publication number
- CN106462960A CN106462960A CN201580021002.1A CN201580021002A CN106462960A CN 106462960 A CN106462960 A CN 106462960A CN 201580021002 A CN201580021002 A CN 201580021002A CN 106462960 A CN106462960 A CN 106462960A
- Authority
- CN
- China
- Prior art keywords
- frame
- screen
- multiple frames
- correspondence
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/68—Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
Abstract
公开了用于对准图像的技术。作为一个示例,帧可能已经由手持式设备上的视频相机所捕获。教导了协同地对准图像数据的相关帧。协同对准确定了图像数据的帧的对中的像素之间的对应性,以及该对应性中的置信度。将与每一个帧对之间的对应性一致的坐标系统(或者变换)分配给每一个帧。相应对应性中的置信度可以用于在对准坐标系统时向对应性提供加权。可以丢弃异常帧,并且过程重复以得到鲁棒解。
Description
背景技术
对于视频相机,相机的任何移动可能导致帧间抖动。图像稳定化可以用于减少该帧间抖动。存在各种各样的图像稳定化技术。一些依赖于具有检测相机运动使得可以做出适当补偿的传感器。一种基于这样的传感器的技术被称为机械图像稳定化。图像稳定化还可以使用数字图像处理实现。然而,继续存在针对用于图像稳定化的更准确技术的需要。这样的技术对于手持式视频设备而言可能是合期望的。
发明内容
本文描述的技术提供用于协同地对准图像数据的相关帧的各种实施例。技术可以计算描绘场景或对象的帧序列中的各帧之间的对准。该技术的一个优点在于,使用利用其它相邻帧的多个成对对准测量结果来计算被分配给每一个帧以使之与其它者对准的坐标系统。这些成对对准测量结果的大集合可以被处理以提供最大化测量结果之间的一致性的结果。而且,技术能够标识可以被移除或校正的异常帧(outlier frame)。
一个实施例是包括以下内容的方法。访问图像的帧。选择帧的对。对于每一个所选对,寻找帧对中的像素或区段之间的对应性。将与用于每一个所选帧的对的对应性一致的坐标系统分配给每一个帧。
一个实施例是包括配置成执行以下内容的处理器的装置。处理器访问图像的帧,并且选择帧的对。对于每一个所选对,处理器寻找帧对中的像素或区段之间的对应性。处理器将与用于每一个所选帧的对的对应性一致的坐标系统分配给每一个帧。
一个实施例是具有体现在其上以供处理器使用的计算机可读指令的计算机可读存储设备。计算机可读指令使处理器执行以下内容。指令使处理器访问图像的帧。指令使处理器选择帧的对。对于每一个所选择的对,使处理器估计差异变换参数并且关联差异变换参数中的置信度。指令使处理器将变换参数集合分配给与差异变换参数和用于每一个所选帧对的差异变换参数中的相关联置信度一致的多个帧中的每一个。
提供该发明内容以便以简化形式引入以下在具体实施方式中进一步描述的概念的选择。该发明内容不意图标识所要求保护的主题的关键特征或必要特征,也不意图用于帮助确定所要求保护的主题的范围。
附图说明
在附图中,相同编号的元件相互对应。
图1描绘了包括客户端计算设备、网络通信介质和服务器的计算系统。
图2描绘了计算设备的示例实施例。
图3是可以在技术的实施例中操作的示例性移动设备的框图。
图4A描绘了用于图像数据的帧的协同对准的过程的概览。
图4B示出了两个帧F i 和F i 之间的对应性C ji 的表示。
图5是示出了确定用于每一个帧对的对应性和该对应性中的置信度的过程的一个实施例的流程图。
图6是屏幕检测过程的一个实施例的流程图。
图7A是使用动作图像执行线积分测试(line integration test)的一个实施例的流程图。
图7B示出了用于红色分量的动作图像的小部分的一个示例。
图7C示出了沿所选线的每一侧的动作图像的积分。
图7D是使用平均颜色图像执行线积分测试的一个实施例的流程图。
图8是估计屏幕位置和尺寸的过程的一个实施例的流程图。
图9图示了依照一个实施例的估计屏幕的竖直边缘的原理。
图10A描述了用于估计屏幕的竖直线的一个实施例的过程。
图10B描述了用于估计屏幕的水平线的一个实施例的过程。
图11A表示在动作分离测试的一个实施例中使用的动作图像中的各种片段。
图11B是用于一个候选线的动作分离测试的一个实施例的流程图。
图12A表示在颜色分离测试的一个实施例中使用的平均颜色图像中的各种片段。
图12B是用于一个候选线的平均颜色测试的一个实施例的流程图。
图13A和图13B各自示出具有候选屏幕以帮助说明颜色对称测试的一个实施例的平均颜色图像。
图14是具有屏幕候选者以帮助促进对屏幕边界颜色均匀性测试的一个实施例的解释的示例平均颜色图像的图示。
图15A和15B是具有屏幕候选者以帮助促进对角落力度测试的一个实施例的解释的示例平均颜色图像的图示。
图16是基于各种测试对屏幕候选者评分的一个实施例的流程图。
具体实施方式
本文描述的技术提供了用于对准诸如图像帧之类的图像的技术。作为一个示例,帧可能已经由手持式设备上的视频相机所捕获。一个实施例是协同地对准图像数据的相关帧。协同对准确定图像数据的帧对中的像素或区段之间的对应性,以及该对应性中的置信度。将与每一对之间的对应性一致的坐标系统(或变换)分配给每一个帧。相应对应性中的置信度可以用于在分配坐标系统时向对应性提供加权。
协同对准实施例的一个优点在于,使用利用其它相邻帧的多个成对对准测量结果来计算被分配给每一个帧以使之与其它者对准的坐标系统。可以处理这些成对测量结果的大集合以提供最大化测量结果之间的一致性的结果。
而且,协同对准实施例能够标识可以被移除或校正的错误或异常帧。然后,协同对准实施例可以在异常帧被移除或校正的情况下重复。
在一个实施例中,协同对准被用作屏幕检测(其还可以称为“屏幕提取”)的部分。世界上充满着显示屏幕、计算机监控器、图像投影仪、街道标志、电子公告板等。所有这些都是显示图像、视频和其它内容的“屏幕”的示例。准确地检测这样的屏幕的边界并且将它们从背景分离的能力具有许多应用,包括但不限于TV和视频内容的自动内容识别(ACR)、合并屏幕内容和虚拟对象的增强现实体验、读取动态街道标志、通过大型电子公告板(例如,体育馆中的比分板、机场中的出发/到达屏幕)传送和同步消息、以及识别博物馆或其它展示房间中的展览的身份。协同对准可以帮助对抗检测屏幕的过程中的相机的运动。
图1描绘了包括客户端计算设备145、网络通信介质170和服务器120的计算系统。客户端计算设备145可以例如是移动相机、膝上型电脑、笔记本计算机、智能电话、可穿戴计算设备(例如,头部安装式显示器)。服务器120表示向客户端145提供服务的计算设备。网络通信介质允许客户端计算设备与服务器通信。网络170可以表示一个或多个网络,其未必使用相同通信协议。在实施例中,网络170可以单独地或者组合地是互联网、广域网(WAN)或局域网(LAN)。网络170上的通信可以是无线或有线的。
客户端145可以具有用于捕获图像的视频相机。在一个实施例中,服务器120执行用于客户端145的图像处理,诸如对准图像数据的帧、检测图像数据中的计算机屏幕等。在一个实施例中,客户端145在本地执行图像处理的部分或全部。
图2描绘了计算设备200的示例实施例。这可以用于图1的客户端145。然而,要指出,实施例未必要求服务器120以帮助进行图像处理。相反,捕获图像的计算设备可以执行图像处理。
在其最基本配置中,计算设备200典型地包括一个或多个处理单元202并且也可以包括不同类型的处理器,诸如中央处理单元(CPU)和图形处理单元(GPU)。计算设备200还包括存储器204。取决于计算设备的精确配置和类型,存储器204可以包括易失性存储器205(诸如RAM)、非易失性存储器207(诸如ROM、闪存等)或者这两种的某种组合。附加地,设备200还可以具有附加特征/功能性。例如,设备200还可以包括附加存储装置(可移除和/或不可移除),包括但不限于,磁性或光学盘或带。这样的附加存储装置在图2中通过可移除存储装置208和不可移除存储装置210图示。
设备200还可以包含(多个)通信连接212,诸如一个或多个网络接口和收发器,其允许设备与其它设备通信。设备200还可以具有(多个)输入设备214,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。也可以包括(多个)输出设备216,诸如显示器、扬声器等。所有这些设备在本领域中是公知的并且不需要在此处详尽讨论。
相机220允许计算设备200捕获图像数据的帧。在一个实施例中,相机是RGB相机,其可以捕获视频或静止帧。相机220可以捕获黑白图像。相机可以捕获2D图像数据或3D图像数据。
根据示例实施例,相机220可以是可以捕获场景的深度图像的深度相机。深度图像可以包括所捕获的场景的二维(2-D)像素区域,其中2-D像素区域中的每一个像素可以表示深度值,诸如例如以厘米、毫米等计的所捕获的场景中的对象距相机的距离。在一个实施例中,相机220包括红外(IR)光组件,其可以用于捕获场景的深度图像。例如,相机220可以将红外光发射到场景上并且然后可以使用传感器(未示出)来检测来自场景中的一个或多个目标和对象的表面的背向散射光。
图3是可以在技术的实施例中操作的示例性移动设备300的框图。描绘了典型移动电话的示例性电子电路。电话300包括一个或多个微处理器312和存储器310(例如,诸如ROM之类的非易失性存储器和诸如RAM之类的易失性存储器),其存储由控制处理器312的一个或多个处理器执行以实现本文描述的功能性的处理器可读代码。
移动设备300可以包括例如处理器312、包括应用的存储器311和非易失性存储装置。处理器312可以实现通信以及任何数目的应用,包括本文讨论的交互应用。存储器311可以是任何各种各样的存储器存储介质类型,包括非易失性和易失性存储器。设备操作系统处置移动设备300的不同操作并且可以包含用于操作的用户接口,诸如拨打和接收电话呼叫、文本消息传送、检查语音邮件等。应用330可以是任何种类的程序,诸如用于照片和/或视频的相机应用、地址薄、日程表应用、媒体播放器、互联网浏览器、游戏、其它多媒体应用、警报应用等。存储器310中的非易失性存储组件340包含数据,诸如web缓存、音乐、照片、联系人数据、行程安排数据和其它文件。
处理器312还与继而耦合到天线302的RF传送/接收电路306,与红外传送器/接收器308,与任何附加的通信信道360(比如Wi-Fi、WUSB、RFID、红外或蓝牙),以及与诸如加速度计之类的移动/取向传感器314通信。加速度计已经并入到移动设备中以使得如智能用户接口这样的应用能够让用户通过手势、室内GPS功能性(其在与GPS卫星的联系被断掉之后计算设备的移动和方向)输入命令,并且检测设备的取向且在电话旋转时自动地将显示器从纵向改变成横向。可以提供加速度计,例如通过作为内置到半导体芯片上的(微米尺度的)细小机械设备的微机电系统(MEMS)。可以感测加速度方向以及取向、振动和冲击。陀螺仪可以用于检测移动设备的旋转和取向。MEMS陀螺仪也是可获得的。处理器312还与响铃机/振动器316、用户接口键区/屏幕、生物测量传感器系统318、扬声器320、麦克风322、相机324、光传感器321和温度传感器327通信。
处理器312控制无线信号的传送和接收。在传送模式期间,处理器312将来自麦克风322的语音信号或者其它数据信号提供给RF传送/接收电路306。传送/接收电路306将信号传送给远程站点(例如,固定站点、运营商、其它蜂窝电话等)以用于通过天线302进行通信。响铃机/振动器316用于向用户用信号通知来电呼叫、文本消息、日程表提醒、闹铃提醒或者其它通知。在接收模式期间,传送/接收电路306通过天线302从远程站点接收语音或其它数据信号。将所接收的语音信号提供给扬声器320而同时还适当地处理其它所接收的数据信号。
附加地,可以使用物理连接器388将移动设备300连接到外部电源,诸如AC适配器或者充电对接站点。物理连接器388还可以用作到计算设备的数据连接。数据连接允许诸如使移动设备数据与另一设备上的计算数据同步之类的操作。
针对这样的服务而启用利用基于卫星的无线电导航来中继用户应用的位置的GPS接收器365。
在本文中参照根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图图示、序列图和/或框图来描述本公开内容的方面。将理解到,流程图图示和/或框图中的每一个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令实现。类似地,可以同样地通过计算机程序指令实现序列图的每一个箭头。这些计算机程序指令可以被提供给通用计算机(或计算设备)、专用计算机或其它可编程数据处理装置的处理器以便产生机器,使得经由计算机或其它可编程指令执行装置的处理器而执行的指令创建用于实现在流程图、序列图和/或框图的一个或多个框中指定的动能/动作的机制。
存储设备和工作存储器是有形、非暂时性计算机或处理器可读存储设备的示例。存储设备包括以任何方法或技术实现以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的易失性和非易失性、可移除和不可移除设备。计算机存储设备包括RAM、ROM、EEPROM、高速缓存器、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光盘存储装置、存储器棒或卡、磁盒、磁带、媒体驱动器、硬盘、磁盘存储装置或其它磁性存储设备、或者可以用于存储所期望信息并且可以由计算机访问的任何其它设备。
协同帧对准
一个实施例是协同地对准图像数据的相关帧。技术可以计算描绘场景或对象的帧序列中的各帧之间的对准。该技术的一个优点在于,使用利用其它相邻帧的多个成对对准测量结果来计算被分配给每一个帧以使之与其它者对准的坐标系统。这些成对对准测量结果的大集合可以被处理以提供最大化测量结果之间的一致性的结果。而且,技术能够标识可以被移除或校正的错误或异常值。
出于说明目的,假设存在k个帧F 1 、F 2 ...、F k 。每一个帧包含图像数据的像素。为了讨论起见,每一个帧具有像素(u,v)的任何阵列。作为一个示例,像素可以具有颜色和亮度。在一个实施例中,每一个帧具有红色、绿色和蓝色像素。颜色不作为要求。在一个实施例中,帧包含深度信息。在该3D示例中,像素可以具有深度值。对于像素数据而言存在其它可能性。
在一个实施例中,为每一个帧分配坐标系统C 1 、C 2 ...、C k ,使得为表示空间中的相同点的不同帧中的像素或区段分配相同坐标。换言之,我们寻找的是不同帧中的对应像素或区段。
坐标系统C i 是将F i 中的每一个像素(u,v)映射到坐标值(x,y)的变换或者C:(u,v)->(x,y)。在一个实施例中,利用表示平移(t x ,t y )和缩放(s x ,s y )的四个参数(t x ,t y ,s x ,s y )来参数化变换:
还可能使用其它参数,诸如旋转。在一个实施例中,使用陀螺仪测量旋转。
图4A描绘了用于图像数据的帧的协同对准的过程400的概览。图像数据可以是2D或3D的。图像数据可以是RGB、灰度级的等。作为一个示例,图像数据可以是由移动视频记录设备捕获的视频数据,诸如手持式视频记录仪、蜂窝电话、笔记本计算机等。在步骤402中,访问帧的集合。在一个实施例中,对于帧而言存在时间次序,对于视频数据而言,可能就是这种情况。
在步骤404中,选择帧的对以用于分析。这可以是集合中的任何两个帧。为了讨论起见,这些将被称为帧F i 和帧F j 。这两个帧可以是或者可以不是连续的帧。一般地,对于k个帧的集合,存在要分析的(k)(k-1)/2个独特的对。为了讨论起见,可以存在集合中的10个帧。在该示例中,存在要分析的45个可能的帧对。
并不要求分析所有可能的对。出于讨论目的,选择“m”个帧对,其中:m≤(k)(k-1)/2。“M”不需要是固定数;其可以通过累积来自所测试的帧对的置信度而适应性地决定。显然,每一个帧可以是高达k-1个对的成员。在一个实施例中,k个帧中的每一个与集合中的至少一个其它帧配对。
在步骤406中,针对帧F i 和F j 的“m”个所选对中的每一个确定成对对应性。图4B示出了两个帧F i 和F j (被称为402i和402j)之间的对应性C ji 的表示。对应性实质上可以是来自一个帧的像素或区段向其在其它帧中的对应像素或区段的映射。在该示例中,每一个帧具有像素格栅,其各自由格栅中的一个框表示。表示出来自F i 的像素中的四个像素向其在F j 中的对应像素的映射。没有示出其它像素的映射,以便不混淆图示。
在步骤408中,确定每一个对应性中的置信度。在一个实施例中,置信度与用于该对应性的变换误差成比例。以下讨论进一步的细节。
在步骤410中,将坐标系统分配给每一个帧。也就是说,为每一个帧分配其自身的坐标系统。在一个实施例中,坐标系统的分配与每一对的对应性一致。该步骤寻找所有帧之间的全局对准。在一个实施例中,坐标系统包括变换参数。变换参数的示例包括但不限于缩放、平移和旋转。
在一个实施例中,与每一个对应性相关联的置信度被用作权重以帮助将坐标系统分配给每一个帧。
在一个实施例中,步骤410包括确定方程组的最小平方解,其中用于多个帧中的每一个的坐标系统是未知的并且用于各对的每一个帧的对应性是已知的。以下讨论进一步的细节。
在可选步骤412中,移除作为异常值的帧。然后,过程可以在异常值被移除的情况下重复。帧可能是异常值的一个原因是由于该帧中的噪声所致。移除这样的异常值可以改进解的总体准确度。下面讨论细节。这样,坐标系统的分配可以与许多不同测量结果一致并且可以相对于单个成对误差鲁棒得多。异常值可能由于相机被急剧地碰撞(being
sharply bumped)而发生。可替换地,异常值可能是由于噪声所致。而且,完全或部分阻挡,例如某一对象在有限时间内遮挡视野,可能引起对准故障。
图5是示出了确定用于每一个针对的对应性和该对应性中的置信度的过程500的一个实施例的流程图。这是图4A的步骤406-408的一个实施例。
在步骤502中,选择帧的对以用于分析。这可以是集合中的任何两个帧。为了讨论起见,这些将被称为帧F i 和帧F j 。这两个帧可以是或者可以不是连续的帧。一般地,对于k个帧的集合,存在要分析的(k)(k-1)/2个独特的对。为了讨论起见,可以存在集合中的10个帧。在该示例中,存在要分析的45个可能的帧对。不要求分析所有可能的对。
在步骤504中,针对帧F i 和F j 的该对确定一个或多个成对对应性。在一个实施例中,通过组合分别地用于对F i 和F j 的每一个成员的变换C i 和C j 来确定成对对应性。因而,两个变换C i 和C j 可以组合以便如下定义帧F j 中的像素(u,v) j 和帧F i 中的像素(u,v) i 之间的对应性C ji :
可以使用各种各样的方法来确定用于帧对的对应性。示例技术包括但不限于光学流动和蛮力搜索。对于帧F i ,F j 对,可以在步骤504中确定对应性C ji c 的小集合。在该示例中,针对帧对确定“c”个对应性的集合。
在步骤506中,确定每一个对应性中的置信度。在一个实施例中,置信度与用于该对应性的变换误差成比例。在一个实施例中,变换误差通过将一个帧的像素映射到另一个帧来确定。然后,确定对应像素之间的差异。差异可以被合计以确定变换误差。以下方程是计算变换误差的一种方式:
如所指出的,置信度可以与变换误差成比例。因而,对于每一个对应性C ji c ,可以确定表示对应性中的置信度的对应权重W ji c 。通过以下方程给出权重和变换误差之间的可能关系:
在以上方程中,α是用于建立如何使置信度与变换误差成比例的因子。用于α的值经受设计选择。成对对应性和相关联的置信度可以在图5的步骤410中使用。
在一个实施例中,选择最佳(例如,最准确的)对应性以在步骤410中使用。这在步骤510中反映。然而,可以在步骤410中使用多于一个对应性。因而,步骤510是可选的。过程然后可以针对另一帧对重复(在步骤512的条件下)。
分配坐标系统
下面描述将坐标系统分配给每一个帧的一个实施例。这是图4A的步骤410的一个实施例。如上文指出,用于帧的坐标系统可以具有变换参数。为了示例起见,将讨论四个变换参数。具体地,示例变换参数是x平移(tx)、y平移(ty)、x缩放(sx)和y缩放(sy)。因而,一个实施例的目标是将这些变换参数的集合分配给每一个帧。
在一个实施例中,测量或者以其它方式确定成对对应性C ji 及其变换误差。要指出,成对对应性C ji 及其变换误差不提供用于对中的帧的特定坐标系统C i 和C j 。替代地,它提供如由以下方程反映的变换参数(tx,ty,sx,sy) i 和(tx,ty,sx,sy) j 之间的差异:
由于在当前示例中存在k个帧,所以可以测量个不同差异。此外,根据一个实施例,这些差异中的每一个具有指示测量结果中的置信度的相关联的误差。
下面描述用于分配与用于帧对的对应性及其相关联的置信度一致的坐标系统的一种技术。
在方程7中定义向量X。该向量表示用于k个帧中的每一个的未知变换参数。
如在方程8中可以定义m个所测量的差异的向量。该向量表示已知(例如,所测量的)对应性。例如,这些可以是在步骤406或504中确定的对应性。
在以上方程中,。m个对应性中的每一个是用于m个帧对中的一个。对应性还可以称为“差异变换参数”。也就是说,这些是指用于帧对的变换参数(tx,ty,sx,sy)。然而,这些是反映用于对中的两个帧的变换参数之间的差异的变换参数。
接下来,求解方程组(在方程9中示出)。
在以上方程中,A表示差异算子。可以示出,A的秩(rank)是4k-4,其中向量X0=(1,1,1,...,1)跨越(spanning)其零空间。换言之,如果X是以上线性方程组的解,则亦是如此。为了缓解这一点,可以将更多的四行添加到表示X0上的约束的矩阵。在一个实施例中,目标是使所有平移(tx,ty)的平均值为(0,0)并且所有缩放(sx,sy)的平均值为(1,1)。
还要指出,可以存在比参数更多的方程(4m>4k)。因此,一个解是最小平方解,其寻找最小化|AX-d|的最小平方差的X。
在一个实施例中,使用权重来对不同测量结果进行加权,从而恰当地更多强调具有更高置信度的差异以求解可能由于测量的不准确性而发生的冲突方程。
作为总结,一个实施例求解以上方程以将坐标系统(例如,变换参数)分配给每一个帧。该解利用来自帧对的测量结果。
回想在做出初始解之后,可以移除异常值,并且过程可以重复(参见图4A的步骤412-414)。在一个实施例中,异常值是向|Ax-d|范数(norm)贡献大数量的那些X。因而,作为异常值的帧可以从要分析的帧的集合移除,并且过程重复。另一选项是校正来自异常帧的数据。
屏幕检测
协同对准技术的一种可能的使用是在屏幕检测中。世界上充满着显示屏幕、计算机监控器、图像投影仪、街道标志、电子公告板等。所有这些是显示图像、视频和其它内容的“屏幕”的示例。准确地检测这样的屏幕的边界并且将它们从背景分离的能力具有许多应用,包括但不限于,TV和视频内容的自动内容识别(ACR)、合并屏幕内容和虚拟对象的增强现实体验、读取动态街道标志、通过大电子公告板(例如,体育馆中的比分板、机场中的出发/到达屏幕)传送和同步消息、以及识别博物馆或其它展示房间中的展览的身份。
图6是屏幕检测的过程600的一个实施例的流程图。屏幕可以是具有非静态图像的显示屏幕。例如,过程可以用于检测诸如计算设备、智能电话、电视、比分板、动态街道标志等等电子设备的显示屏幕。过程还可以用于检测静态的屏幕。例如,过程可以用于检测静态的街道标志。
步骤602包括访问一系列图像。为了讨论起见,序列包括图像数据的K个帧。因而,该过程的输入可以是K个帧的序列,其可以表述如下:
在一个实施例中,图像数据具有红色、绿色和蓝色信道。这可以由以下表示:
灰度级可以由以下方程表述:
步骤604包括检测屏幕的大体区段。这可以包括估计屏幕位置和尺寸。在一个实施例中,分析低分辨率图像以检测屏幕的大体区段。在一个实施例中,系统寻找运动。下面讨论进一步的细节。
步骤606包括稳定化相机运动。在一个实施例中,使用协同对准来稳定化相机运动。例如,可以使用图4A的过程。然而,可以使用除协同对准之外的技术。在一个实施例中,使用光学流动技术来稳定化相机运动。一种可能的光学流动技术是Lucas-Kanade技术。步骤606可以使用比较一个帧中的像素与另一个帧中的像素的技术。可替换地,步骤606可以使用比较一个帧中的特征与另一个帧中的特征的技术。
步骤608包括形成动作图像。动作图像寻找帧之间的像素值中的差异。动作图像也可以被称为差异图像。要指出,如果屏幕不是静态的,则预期到对应像素值将随时间改变。然而,在屏幕的边界处,动作可能改变。例如,在屏幕外部,图像可能是静态的,或者可能以不同方式改变。例如,如果屏幕外部的区段是非静态的,诸如树上的移动叶片,则存在某种动作。下面讨论进一步的细节。
以下是用于动作图像的示例方程(方程13)。在该示例中,为每一个色带(红色、绿色、蓝色)分配其自身的动作值。要指出,在方程13中,假定图像帧已经对准。因此,Ri中的像素(x,y)对应于与Ri-1中的像素(x,y)相同的对象。
在该示例中,形成动作图像使用“k”个帧作为输入。输出是用于这k个帧的一个动作图像。以上方程中的x,y值是指帧已经对准之后帧的坐标。因而,在该实施例中,由于相机移动所致的运动例如作为“动作”的源而被消除。参数“p”可以是恒定的,其值可以是设计选择。在一个实施例中,步骤618基于不同帧中的对应像素之间的差异而形成动作图像。
步骤610包括形成平均颜色图像。平均颜色图像中的每一个像素表示用于所分析的帧的集合中的该像素的平均颜色。换言之,在一个实施例中,步骤620基于不同帧中的对应像素的平均颜色而形成平均颜色图像。如对于动作图像而言,由于该分析在帧对准之后执行,所以此处所提及的像素是后对准像素。因而,在方程中使用(x,y)(与(u,v)相对)。以下是用于计算平均颜色图像的方程的一个示例。
在该示例中,形成颜色图像也可以使用“k”个帧作为输入。输出是用于这k个帧的一个颜色图像。在一个实施例中,步骤608和/或610基于图像数据的帧中的对应像素而形成“处理图像”。处理图像未必是将由用户观看的图像。相反,它可以用于进一步的处理以检测屏幕。在一个实施例中,处理图像包括与图像数据的帧中的像素对应的值。
步骤612是检测候选线的集合。也就是说,检测候选作为屏幕的边缘的线。作为一个示例,寻找16个水平线和16个竖直线的集合。然而,不要求候选线是水平或竖直的。而且,什么是“水平”以及什么是“竖直”的定义是灵活的。水平线可以是“大致”水平的以便计及屏幕的上边缘和下边缘没有在图像数据中精确地水平取向的可能性。类似原因适用于“竖直线”。要指出,整个过程可以是寻找矩形屏幕。然而,真实世界中的矩形屏幕在投射到图像平面(例如,图像数据)上时将未必作为矩形而出现。这就是为什么不要求候选线完全地水平或完全地竖直的一个原因。而且,可以寻找比32条更多或更少的线。
这些线可以基于动作图像和/或颜色图像来检测。然而,检测可以是基于数据而不是动作图像或颜色图像。
在一个实施例中,检测候选线包括计算线积分。在一个实施例中,看起来是作为屏幕边界的良好候选者的线被选择用于进一步研究。在一个实施例中,接近非连续性的线被选择为候选线。线积分可以在动作图像和/或颜色图像上执行。线积分不限于这两个示例。在下文讨论线积分。
步骤614是形成屏幕候选者。在一个实施例中,假定屏幕是大体矩形的。因而,在一个实施例中,选择两条“水平”线和两条“竖直”线以形成潜在的屏幕。然而,屏幕可以具有任何形状。取决于诸如屏幕的角度和取向之类的因素,其在帧图像中可能看起来不是矩形的。在各种实施例中,计及这样的因素。
步骤616包括对屏幕候选者评分。可以使用数个规则来选择良好的屏幕。下面是示例规则。“动作测试”可以基于以下假设来定义:良好的屏幕在内部具有明显动作,但是在屏幕边界之外具有更少的动作。“颜色分离测试”可以基于以下假设来限定:平均颜色可以在屏幕边界处急剧地改变。“纵横比”测试可以确认屏幕形状。“屏幕边界颜色均匀性测试”可以基于以下假设来限定:颜色应当沿屏幕边界均匀。“角落力度”测试可以基于以下假设来限定:期望屏幕具有良好限定的角落(导致得到矩形屏幕)。“颜色对称”测试可以基于以下假设来限定:屏幕的帧在左边应当是与右边相同的颜色(类似原因适用于帧的顶部和底部)。要指出,并非所有屏幕都将具有帧,在该情况下,这些测试中的一些可以被省略或修改。下面讨论这样的测试的进一步细节。步骤616可以使用这些测试的任何组合,从而向每一个测试提供各种权重。而且还可以使用其它测试。因而,不要求使用这些测试中的每一个,或者给予它们相同的权重。在一个实施例中,仅仅有对总体分值有贡献的测试。因此,可能的是,即便是几个测试失败了,候选屏幕也接收高分值。
步骤618包括基于评分而选择最可能的候选屏幕。
图7A是使用动作图像执行线积分测试的一个实施例的流程图。该过程可以使用在过程600的步骤608中形成的动作图像,并且可以在检测候选线步骤(图6,612)中使用。该过程描述了沿一条线的积分。该过程典型地针对要测试的数条线而重复。
在步骤702中,访问动作图像。在步骤704中,选择作为可能的屏幕边界的线。
在步骤706中,在线的每一侧上对动作图像积分。该积分可以针对红色、绿色和蓝色值单独地执行。对动作图像积分意味着沿所选线移动,而同时形成动作图像中的值的累计(针对每一个颜色)。更具体地,每一个累计可以用于线的每一侧上的像素,如将在以下示例中讨论的。
图7B示出了用于红色分量的动作图像的小部分的一个示例。为了说明方便,将值表述为数字。动作图像的顶部行对应于处在所测试的线的一侧上的x,y坐标的集合。底部行对应于线的另一侧。顶部和底部行各自可以被称为“带”。在该示例中,每一个带是一个像素宽。带可以是多于一个像素宽。换言之,每一个带可以包括两行、三行等。在该示例中,所选线是水平线。也可以选择竖直线。不要求所选线为完全水平或完全竖直的。
图7C示出了沿所选线的每一侧的动作图像的积分。如所描绘的,积分形成像素值的累计——在该示例中从左向右移动。在该示例中,所选线下方的较高值指示在线下方存在更多动作,其可以指示线是屏幕边界,其中屏幕处于线下方。当带是多于一个像素宽时,作为一个示例,积分可能仍旧产生一行积分值。
要指出,积分可以在沿所选线的任何两个点处开始和停止。而且,一旦计算积分值,则针对该所选线的部分进行重新计算是非常简单的。例如,为了在前三个值被忽略的情况下重新确定最终积分值,针对顶部而言,简单地从37减去14并且针对底部而言,从71减去24。这导致处理能力的极大节省,如果做出线的一部分不是所感兴趣的确定的话。
步骤708是比较线的每一侧上的积分值。例如,步骤708可以生成作为线的一侧上的积分值与线的另一侧上的对应积分值之间的差异的值。该值可以被保存以用于与针对其它线的积分值相比较。在一个实施例中,步骤708确定线的一侧上的积分值与线的另一侧上的对应积分值之间的差异是否大于某一阈值。而且如所指出,用于该所选线的积分可以针对线的不同部分进行重新计算。这可以在沿竖直线积分之后执行。也就是说,来自沿竖直线的积分的信息可能暗示着水平线的部分是较为感兴趣或较不感兴趣的,其中水平线上的积分的开始点和结束点可以更改。
图7D是使用平均颜色图像执行线积分测试的一个实施例的流程图。该过程可以使用在过程600的步骤610中形成的平均颜色图像,并且可以在检测候选线步骤(图6,612)中使用。该过程描述了沿一条线的积分。该过程典型地针对要测试的数条线而重复。
在步骤742中,访问平均颜色图像。在步骤744中,选择作为可能的屏幕边界的线。一个选项是使用在图7A的过程中的动作图像的积分中所使用的相同线集合。
在步骤746中,在线的每一侧上对平均颜色图像进行积分。该积分可以针对红色、绿色和蓝色平均值单独地执行。对平均颜色图像的积分类似于对动作图像的积分。例如,对平均颜色图像进行积分意味着沿所选线的方向移动并且形成平均颜色图像中的值的累计(针对每一个颜色)。步骤748是比较线的每一侧中的积分值。
在针对动作图像和颜色图像执行线积分之后,结果是用于所测试的许多线的积分值。在一个实施例中,基于积分值而选择16条水平线和16条竖直线。
估计屏幕位置和尺寸
下面是用于估计屏幕位置和尺寸的一个实施例的附加细节。这提供了用于过程600的步骤604的一个实施例的进一步细节。在一个实施例中,这在没有彼此对准数据的帧的情况下(例如,在其之前)执行。该过程被应用于图像数据的帧的某一集合。在该以下讨论中,假设“n”个帧被处理。这可能是例如来自相机的帧的连续集合。
用于检测屏幕的大体区段(例如,步骤604)的一个动机是增大帧对准的准确度(例如,步骤606)。检测大体区段允许对在屏幕上发生的并且可能混淆对应性估计的非相机运动打折扣。这在屏幕尺寸与提供用于对准的稳定界标的周围背景相比相对大时可能是重要的。
图8是估计屏幕位置和尺寸的过程的一个实施例的流程图。最初,所有图像可以被转换成灰度并且以与帧之间的最大估计平移成比例的缩放因子而重新定尺寸。步骤802是将图像转换成灰度。灰度级可以由以下方程式表述:
前面假设输入图像数据是RGB数据。然而,不要求输入是RGB数据。因而,该过程的变化在其中不执行步骤802或者步骤802被另一步骤所替换的情况下是可能的。
步骤804是基于帧之间的最大估计平移对图像进行缩放。最大估计x平移可以表述为。最大估计y平移可以表述为。缩放可以是以下因子:
接下来,可以在步骤806中计算变化图像V(x,y)。以下方程是用于计算变化图像的一种技术。
以上方程中的“n”是指所处理的图像数据的“n”个帧。
在步骤808中,基于变化图像确定可能表示屏幕的竖直线的估计。图10A描述了用于估计屏幕的竖直线的过程。在步骤810中,确定可能表示屏幕的竖直线的估计。图10B描述了用于估计水平线的过程。
图9图示了依照一个实施例的估计竖直线的原理。这可以使用在检测屏幕的大体区段(例如,步骤604,图6)的一个实施例中。示出了变化图像V(x,y) 902。区段904表示在变化图像中存在显著动作的地方。显著动作区段904可以指示屏幕所位于的地方。并不是每一个显著动作区段都必然地是屏幕。还示出了不是屏幕的两个这样的显著动作区段906。
图9中的变化图像下方的图形示出了用于函数R(x)的曲线910,函数R(x)用于估计应当将竖直线放置在哪里。在过程中重新计算函数R(x),如将在下文描述的。用于R(x)的初始值可以通过函数R'(x)来建立,函数R'(x)可以如下计算。
在方程20中,H是变化图像中的像素的行数目并且W是变化图像中的列数目。如已经指出的,重新计算在图9中描绘的函数R(x)直到达到收敛为止。因而,将领会到,图9中的曲线910不是最终值。然而要指出,曲线910在动作较大的地方具有较高值。
以下两个方程用于R'(x)的平均(μ)和标准偏差。
图10A描绘了用于估计屏幕的竖直线的过程1000。这可以在检测屏幕的大体区段(例如,步骤604,图6)的一个实施例中使用。一般地,过程在以下假设之下开始:屏幕可以在变化图像902中的任何地方。变化图像902的处理涉及假设变化图像中的两条竖直线的位置。最初,这两条线可以处于最左和最右极端处。处理可以向内移动这两条线直到解收敛为止。在收敛时,已经粗略地找到屏幕的左和右竖直边缘作为线的最终位置。图9中的线916a和916b表示在收敛之前过程中的某一假想点的左和右竖直线。
在一个实施例中,过程检查处于变化图像的这两条线916a、916b之间的部分以及处于变化图像的每一条线916a、916b外部的部分。曲线910表示该处理。
在步骤1002中,R(x)被设定成R'(x)。方程20提供了一个适合的方程。要指出,通过从y=0到y=h求和,针对某一x坐标从变化图像的顶部向其底部对像素进行求和。这是在以下假定之下:左上方是(0,0)。图9中靠近变化图像902的竖直箭头意为表示针对一列像素(例如,一个x值)的求和。
在步骤1004中,建立初始阈值。在一个实施例中,这通过如下进行设定:
这基于R(x)的平均和标准偏差而建立初始阈值。要指出,可以使用除“0.5”之外的因子。该阈值将在步骤1010中更新。再次返回到图9,线912描绘了阈值。
在步骤1006中,初始化开始和结束参数。在一个实施例中,“开始”在概念上是指线916a,并且“结束”在概念上是指线916b。这些参数将在过程期间移动以寻找屏幕的竖直边缘。在一个实施例中,使用以下内容:
开始=
结束=
开始被设定成对于其而言R(x)大于阈值的R(x)的最小x值。这是图9中的左线916a。结束被设定成对于其而言R(x)大于阈值的R(x)的最大x值。这是右线916b。要指出,步骤1006可以通过寻找大于阈值的R(x)的两个(或更多)连续x值而计及噪声的可能性。还要指出,当计算结束点时,R(x)的处理可以是从最高到最低的x值。
在步骤1008中,更新R(x)。以下方程描述了用于更新的一个实施例。
方程26表示基于两条线916a、916b处理变化图像。标记“开始<x<结束”指示如何分割变化图像以用于处理。在概念上,“开始”表示线916a,并且“结束”表示线916b。变化图像的处于两条线916a、916b之间的部分可以被给予正常权重。这由等式26中的R'(x)表示。另一选项是增强这些值。
在一个实施例中,变化图像的处于两条线916a、916b外部的部分可以通过将它们乘以-2而受罚。这由“-2R'(x)”(以及“其它情况”)表示。要指出,可以使用除“-2”之外的因子。
在步骤1010中,更新R(x)平均和标准偏差。在一个实施例中,方程21和22用于这些更新。而且更新阈值。方程23可以用于该更新。
在步骤1012中,就平均、标准偏差或阈值中的任一个是否作为步骤1010的更新的结果而改变做出确定。如果存在任何改变,则过程返回到步骤1006。在步骤1006中,开始和结束值改变。这是移动竖直线916a、916的事物。典型地,这些向内移动。
最终,解应当收敛,如由步骤1012所确定。在收敛之后,执行步骤1014。在步骤1014中,最终的开始和结束值(来自步骤1006)被用作左和右屏幕边界。在一个实施例中,该处理将竖直线916a、916b放置在动作的边缘处。
屏幕的水平边缘的估计可以以类似的方式执行。图10B是用于确定水平边缘的流程图的一个实施例。这可以使用在检测屏幕的大体区段(例如,步骤604,图6)的一个实施例中。该过程可以类似于对竖直线的估计并且将不会详细讨论。在该实施例中,变化图像902的处理涉及假设用于变化图像中的两条水平线的位置。最初,这两条线可以处于最低和最高极端处。处理可以将这两条线向内移动直到解收敛。在收敛之后,已经粗略地找到屏幕的顶部和底部水平边缘作为线的最终位置。
以下方程可以使用在该过程中。
在方程29中,W是变化图像中的像素的列数目。
以下两个方程用于R'(y)的平均(μ)和标准偏差。
在步骤1052中,R(y)被设定成R'(y)。
在步骤1054中,建立初始阈值。在一个实施例中,这通过如下进行设定:
这基于R(y)的平均和标准偏差而建立初始阈值。要指出,可以使用除“0.5”之外的因子。
在步骤1056中,初始化开始和结束参数。这些可以类似于图9中的线916a、916b,但是作为水平线。这些参数将在该过程期间移动以寻找屏幕的水平边缘。在一个实施例中,使用以下内容:
开始=
结束=
开始被设定为对于其而言R(y)大于阈值的R(y)的最小y值。结束被设定为对于其而言R(y)大于阈值的R(y)的最大y值。
在步骤1058中,更新R(y)。以下方程描述了用于更新的一个实施例。
方程33表示处理变化图像。标记“开始<y<结束”指示如何分割变化图像以用于处理。开始和结束在步骤1056中计算。变化图像的开始和结束之间的部分可以被给予正常权重。这由方程33中的R'(y)表示。另一选项是增强这些值。
在一个实施例中,变化图像的处于开始和结束之外的部分可以通过将它们乘以-2而受罚。这通过“-2R'(y)”表示。要指出,可以使用除“-2”之外的因子。
在步骤1060中,更新R(y)的平均和标准偏差。在一个实施例中,方程28和29用于这些更新。而且更新阈值。方程30可以用于该更新。
在步骤1062中,就平均、标准偏差或阈值中的任一个是否作为步骤1060的更新的结果而改变做出确定。如果存在任何改变,则过程返回到步骤1056。在步骤1056中,开始和结束值改变。
最终,解应当收敛,如由步骤1062所确定。在收敛之后,执行步骤1064。在步骤1064中,最终的开始和结束值(来自步骤1066)被用作顶部和底部屏幕边界。
对屏幕候选者评分
下面描述对屏幕候选者评分的进一步的细节。这提供用于过程600的步骤616的一个实施例的进一步的细节。屏幕候选者可以从两条候选竖直线和两条候选水平线形成。这些线可能已经在过程600的步骤612中找到。
动作分离测试
一个实施例是动作分离测试。动作分离测试将屏幕外部的动作与屏幕内部的动作进行比较。在动作分离测试的一个实施例中,内部的动作应当大于外部的动作。在一个实施例中,这归因于稳定化,其取消了大多数背景移动,但是留下了屏幕内部的运动和非连续性。动作分离测试可以在四条线上执行,四条线可以由顶部、底部、左边和右边屏幕边界候选线来限定。
图11A表示在动作分离测试的一个实施例中使用的动作图像1102中的各种片段I11、I12、I13、I21、I22、I23(片段I12,被称为1106)。作为一个示例,动作图像1102可以如方程15中所描述的那样形成。片段I21、I22、I23刚好处于候选屏幕1104内部。片段I11、I12、I13刚好处于候选屏幕1104外部。
图11A表示顶部线片段。候选屏幕1104由虚线示出。候选屏幕1104可以如上文在过程600的步骤614中所述的那样找到。这可以涉及使用如分别关于图7A和7D所述的动作图像和/或平均颜色图像。尽管描述了对于顶部线片段的处理,但是可以针对底部、左边和右边线片段执行类似的处理。
在顶部线的每一侧上存在三个片段1106。因而,三个片段被视为处于屏幕外部并且三个处于内部。使用三个片段的原因在于,动作可能沿线(其在该示例中限定屏幕的顶部)变化。例如,可能存在屏幕中间的大量动作,但是出于某种原因在右边很少有动作。使用片段可以帮助避免在这样的情况下低估中间的动作。可以使用任何数目的片段。
每一个片段1106因而包含动作图像中的像素带。该带具有一个或多个像素的高度(在该示例中)。例如,带可以是一个、两个、三个、四个像素高。当分析竖直线时,带可以具有一个或多个像素宽的宽度。
图11B是用于一条候选线(例如,顶部、底部、左边、右边)的动作分离测试的一个实施例的流程图。在步骤1152中,确定用于动作图像的每一个片段1106的值。这包括屏幕内部的至少一个片段和屏幕外部的至少一个片段。该计算可以以数个方式做出。在一个实施例中,存在用于动作图像的红色、绿色和蓝色带。在这样的情况下,可以存在针对每一个片段所确定的三个值。作为另一种可能性,这一个值可以针对这三个颜色的带的组合而确定。在一个实施例中,动作图像被转换成灰度级图像,这类似于如何将变化图像转变成灰度级图像。
在步骤1154中,将候选线内部的动作值与候选线外部的动作值比较。在一个实施例中,目标是确定在屏幕内部是否存在比外部更明显的动作。
在一个实施例中,步骤1154在逐片段的基础上进行。例如,将片段I11与I12比较等。在一个实施例中,还存在组合所有片段的测试。例如,可以针对I11、I12、I13的组合确定动作值(例如,通过相加用于每一个片段的动作值)。这可以与用于I21、I22、I23的组合的动作值比较。
在步骤1156中,就比较的任何片段是否通过做出确定。下面是可以执行的可能测试。
内部动作>T1 (34)
>T2并且外部动作>T3 (35)。
在一个实施例中,方程34的测试或者方程35的测试应当通过以用于使片段通过。方程34测试用于候选屏幕内部的片段的动作是否大于某一阈值T1。方程34测试内部动作与外部动作之比是否大于某一阈值T2并且外部动作是否大于某一阈值T3。这可以帮助解决其中偶然的高比率的情况,其在两个动作估计变得接近零时可能发生。
在图11A的示例中,存在三个片段。还可以存在如上文所指出的“组合”片段。因而,在该示例中,方程34和35可以应用于四个片段。在一个实施例中,如果这些片段中的任一个通过,则线通过动作分离测试。然而,变化是可能的,诸如要求所述片段中的两个、三个或更多的片段通过。而且如上文所指出,尽管图11A示出了三个片段,但是可以使用任何数目的片段。
步骤1158要指出该候选线通过。步骤1160是建立用于该线的分值。可以使用各种各样的技术。在一个实施例中,分值是基于屏幕内部和屏幕外部的动作值中的差异。分值可以基于从内部那些动作值减去的外部动作值来确定。过程1150可以针对其它线而重复。在一个实施例中,所有四条线需要通过以用于使候选屏幕通过动作分离测试。
在一个实施例中,用于屏幕的总体动作分值基于用于每一条线的动作分值来确定。一种可能性是相加用于四个候选线的动作分值。另一种可能性是由外部总体动作除内部总体动作。再一种可能性是组合这两个方法。许多其它技术可能用于基于屏幕候选者内部的动作图像的值与屏幕候选者外部的动作图像的值的比较而形成分值。
步骤1162要指出该候选线在没有片段通过的情况下失败。要指出,失败可以以另一种方式限定,诸如没有足够的片段通过。
颜色分离测试
一个实施例是颜色分离测试。颜色分离测试比较屏幕外部的平均颜色与屏幕内部的平均颜色。在颜色分离测试的一个实施例中,内部的平均颜色应当不同于外部。类似于动作分离测试,颜色分离测试可以在四条线上执行,四条线可以由顶部、底部、左边和右边屏幕边界候选线来限定。这些可以是在动作分离测试中分析的相同的四条候选线。
图12A表示在颜色分离测试的一个实施例中使用的平均颜色图像1202中的各种片段I11、I12、I13、I21、I22、I23(片段I12,被称为1206)。作为一个示例,平均颜色图像1202可以如在方程16中所述的那样形成。片段I21、I22、I23刚好在候选屏幕1104外部。片段I11、I12、I13刚好在候选屏幕1104内部。
图12A表示顶部线片段。候选屏幕1104由虚线示出。这可以是与动作分离测试相同的候选屏幕。可以针对底部、左边和右边线片段执行类似的处理。
存在底部候选线的每一侧上的三个片段1206。使用三个片段的原因在于,平均颜色可能沿候选线变化。可以使用任何数目的片段。
每一个片段1206因而包含平均颜色图像1202中的像素带。该带具有一个或多个像素的高度(在该示例中)。例如,该带可以是一个、两个、三个、四个像素高。当分析竖直线时,该带可以具有一个或多个像素宽的宽度。
图12B是用于一条候选线(例如,顶部、底部、左边、右边)的平均颜色测试的一个实施例的流程图。在步骤1252中,确定用于平均颜色图像1202的每一个片段1206的值。这包括屏幕内部的至少一个片段和屏幕外部的至少一个片段。该计算可以以数个方式做出。在一个实施例中,存在用于动作图像的红色、绿色和蓝色带。也就是说,存在平均红色值、平均绿色值和平均蓝色值。在这样的情况下,可以存在针对每一个片段所确定的三个值。作为另一种可能性,这一个值可以针对这三个颜色的带的组合而确定。在一个实施例中,平均颜色图像1202被转换成灰度级图像,这类似于如何将变化图像转换成灰度级图像。
在步骤1254中,候选线内部的平均颜色值与候选线外部的平均颜色值比较。在一个实施例中,目标是确定是否存在屏幕内部对比屏幕外部的平均颜色中的明显差异。
在一个实施例中,步骤1254在逐片段的基础上进行。例如,片段I11与I12比较等。在一个实施例中,还存在组合所有片段的测试。例如,可以针对I11、I12、I13的组合而确定平均颜色值(例如,通过相加用于每一个片段的平均颜色值)。这可以与用于I21、I22、I23的组合的平均颜色值比较。
在步骤1256中,就比较的任何片段是否通过做出确定。以下方程可以使用在可以执行的可能测试中。
方程36基于红色、蓝色和绿色带而形成单个值。在方程36中,下标“1”表示候选屏幕1104内部的片段,并且下标“2”表示候选屏幕1104外部的片段。Rj的值可以针对每一个片段来确定。而且,可以针对所有片段的组合来确定Rj的单个值。下标“j”表示片段。ε(epsilon)是计及其中RGB值变得接近于零并且比率可能打破的暗区段的小数字。
在针对给定片段确定Rj之后,可以将其与某一阈值比较。作为一个示例,如果对于任何片段而言Rj大于二,则测试通过。
另一可能的测试从屏幕内部的平均颜色值减去屏幕外部的平均颜色值。这可以在逐片段的基础上执行。在一个实施例中,如果差异大于阈值,则线通过。例如,最大可能的平均颜色可能是255。如果差异大于100,则测试可能通过。
在一个实施例中,如果Rj或平均颜色减法测试针对片段通过,则该片段通过。在一个实施例中,如果单个片段通过,则候选线通过。
步骤1258要指出该候选线通过。步骤1260是建立用于该线的分值。可以使用各种各样的技术。在一个实施例中,分值是基于屏幕内部与屏幕外部的平均颜色值的差异。如所指出的,可以基于从内部的平均颜色值减去外部的平均颜色值来确定分值。过程1250可以针对其它候选线重复。在一个实施例中,所有四条线需要通过以用于使候选屏幕通过颜色分离测试。
在一个实施例中,基于用于每一条线的平均颜色分值来确定用于屏幕的总体平均颜色分值。一种可能性是相加用于四条候选线的平均颜色分值。许多其它技术可能用于基于屏幕候选者内部的平均颜色的值与屏幕候选者外部的平均颜色的值的比较来形成分值。
在一个实施例中,基于平均颜色分值和动作分离分值的组合来确定分值。作为一个示例,这两个分值彼此相乘。在一个实施例中,该分值被视为用于平均颜色分离分值的最终分值。
步骤1160要指出该候选线失败。要指出,失败可以以另一种方式限定,诸如没有足够的片段通过。
颜色对称测试
一个实施例是颜色对称测试。图13A示出了具有候选屏幕1104的平均颜色图像1202以帮助说明该测试。区段1306a是刚好在候选屏幕1104左侧外部的区段。区段1306b是刚好在候选屏幕1104右侧外部的区段。这些区段1306a、1306b可能各自是一个、两个、三个、四个等像素宽。在颜色对称测试的一个实施例中,比较区段1306a与区段1306b以确定其平均颜色是否大约相同。该测试背后的动机是寻找屏幕帧。典型地,屏幕帧将在每一侧上具有相同颜色。以下两个方程可以使用在颜色对称测试的一个实施例中。
在这些方程中,是指区段1306a,并且是指区段1306b。方程37可以执行从一个区段减去另一个区段。在一个实施例中,该测试单独地应用于每一个颜色带。在一个实施例中,诸如例如通过形成灰度级图像来组合不同颜色带。用于给定带的该测试可以形成用于整个区段1306a、1306b的单个值,诸如例如通过对用于该颜色带的像素的值求和(并且可能地归一化)。然而,对于减法运算,存在其它可能性。
方程38可以求到这两个区的内积。要指出,平均颜色图像1202可以是向量,因为其可以具有三个颜色带。方程38可以确定这些两个向量之间的角度。在一个实施例中,这是测试这些两个向量之间的角度是否充分小。要指出,阈值Tc2可以是0和1之间的值,其中值1指示小角度。因而,Tc2可以是小于但是接近于1的某一值。
用于颜色对称测试的分值可以基于方程37和/或方程38来确定。在一个实施例中,来自方程37和/或方程38的值例如通过乘以恒定值而调节。
颜色对称测试还可以应用于候选屏幕的顶部和底部。图13B示出了具有候选屏幕1104的平均颜色图像1202以帮助说明该测试。区段1306c是刚好在候选屏幕1104底部外部的区段。区段1306d是刚好在候选屏幕1104顶部外部的区。分析可以类似于之前的示例并且将不会详细地讨论。
屏幕边界颜色均匀性测试
一个实施例是屏幕边界颜色均匀性测试。该测试背后的原因在于,对于许多屏幕,存在可能期望在颜色方面均匀的屏幕边界处的帧(或其它元素)。例如,沿屏幕的顶部边界,可能期望的是可以存在颜色方面的空间均匀性。在一个实施例中,该测试应用于屏幕的四个边界(例如,顶部、底部、右边、左边)。
图14示出了具有候选屏幕1104的平均颜色图像1202。示出了在平均颜色图像1202中的刚好在候选屏幕1104的顶部上方的五个片段I0、I1、I2、I3、I4(片段I2称为1406)。可以存在比五个更多或更少的片段。在该示例中,每一个片段1406占据高度可能是一个或多个像素的某个“带”。对于右侧或左侧的测试,带可以是一个或多个像素宽。
在一个实施例中,将空间相邻的片段1406彼此比较。为了讨论起见,这些相邻片段1406将被称为Ij和Ij+1。该测试确定相邻片段1406中的平均颜色是否类似。可以执行众多可能的测试。以下是一种可能的测试。
方程39的测试确定相邻片段中的平均颜色之比是否接近于1。该测试可以在每一对相邻片段1406上执行。平均颜色图像1202可以具有三个颜色带。在该情况下,方程39的测试可以单独地应用于每一个颜色带。另一选项是形成用于三个带的单个平均“颜色”。这可能包括确定用于平均颜色图像的灰度级,类似于方程12。
在一个实施例中,所有片段对(用于给定边界)应当通过测试以便使该边界通过。测试可以针对其它边界重复。在一个实施例中,所有边界应当通过测试以用于使屏幕候选者通过屏幕边界颜色均匀性测试。
另一种可能的测试是基于如下那样的归一化内积。
在方程40中,CU是阈值。用于CU的示例值是刚好在1.0之下的某一值,诸如大约0.94。这仅仅是示例,阈值可以更高或更低。分子是平均颜色图像中的两个相邻片段1406的内积。如上文所讨论,那些片段1406可以处于屏幕边界处。在一个实施例中,片段1406刚好在候选屏幕外部。分母具有如所示出的两个内积。
在一个实施例中,方程40的测试与每一个片段Ij、Ij+1应当暗于指定参数的附加要求组合。例如,该参数可以指定区段具有某一等级的暗度。
在又一实施例中,片段对Ij、Ij+1应当通过方程39或方程40的测试以用于使该片段对通过。在再一实施例中,片段对Ij、Ij+1应当通过方程39的测试或者通过方程40的测试和前述暗度测试二者以用于使该片段对通过。
前面是屏幕边界颜色均匀性测试的示例。对于测试候选屏幕的边界的颜色均匀性而言,存在其它可能性。
角落力度测试
一个实施例是角落力度测试。图15A和15B是具有屏幕候选者1104以帮助促进对角落力度测试的一个实施例的解释的示例平均颜色图像1202的图示。角落力度测试的一个实施例针对屏幕候选者1104的角落处的颜色上的差异进行测试。该测试背后的一个动机在于,良好的屏幕可以展现“强有力”的角落。强有力的角落可以被限定为其中平均颜色在屏幕角落处急剧地改变的角落。
在图15A中,描绘了区段I1 1506a、I2 1506b、I3 1506c和I4 1506d。区段I1 1506a和I3 1506c刚好在候选屏幕1104内部,在角落接合处。区段I2 1506b和I4 1506d刚好在候选屏幕1104外部,在角落接合处。区段I1 1506a的平均颜色可以与区段I2 1506b比较。同样地,区段I3 1506c的平均颜色可以与区段I4 1506d比较。关于图15B,区段I1 1506a的平均颜色可以与区段I5 1506e比较。同样地,区段I3 1506c的平均颜色可以与区段I6 1506f比较。
以下两个方程可以用于针对图15A和15B中的区段的一种可能的测试。
(参见例如图15A)(41)
(参见例如图15B)(42)。
在一个实施例中,角落通过以下事实来表征:内部区段(例如,图15A中的I11506a)不同于两个不同的外部区段(例如,图15A中的I2 1506b和图15B中的I5 1506e)。类似原因可以适用于其它角落。以下内容适用于左下角落。
(参见例如图15A)(43)
和
(参见例如图15B)(44)。
在这些方程中,CT1是设计成针对明显颜色改变进行测试的阈值。
纵横比测试
一个实施例是纵横比测试。这测试候选屏幕的纵横比是否合理。以下是要使用的一种可能的方程。
在方程45中,比率通过宽度除以高度而给出,如由屏幕候选者的线所限定。作为一个示例,AR1可以是大约1.1并且AR2可以是大约3.5。每一个值可以更高或更低。要指出,屏幕可能没有面对相机使得其表面垂直于相机的图像轴线。这可能影响纵横比。一个选项是在纵横比测试之前尝试补偿候选屏幕的这种不大理想的对准。在该情况下,相比于以未经补偿的数据工作的情况而言,可能使用用于AR1和AR2的不同值。
对屏幕候选者评分
图16是基于各种测试对屏幕候选者评分的一个实施例的流程图。在步骤1602中,通过充分的测试的屏幕候选者被选择用于进一步的处理。在一个实施例中,选择通过:1)动作分离测试和纵横比测试;或者1)颜色分离测试和纵横比测试的那些屏幕候选者。然而,可以使用不同测试集合。例如,在一个实施例中,不要求通过纵横比测试。
在步骤1604中,使用各种测试对通过步骤1602的过滤器的屏幕进行评分。可以使用本文描述的测试的任何组合。因而,分值可以是基于以下项中的一个或多个:动作分离测试、颜色分离测试、颜色对称测试、屏幕边界颜色均匀性测试和/或角落强度测试。在一个实施例中,使用所有这些测试。在各种实施例中,使用至少两个、至少三个或者至少四个测试。在一个实施例中,没有在步骤1604中使用来自纵横比测试的分值。然而,一个选项是对纵横比测试评分并且在步骤1604中使用它。
在步骤1606中,通过屏幕分值对屏幕进行排名。具有最高分值的前K个候选者被选择为用于进一步处理的潜在屏幕。因而,诸如显示屏、计算机监控器、图像投影仪、街道标志、电子公告板等等屏幕可以位于图像数据中。一旦检测到屏幕,则可以执行进一步的处理。这可以包括TV和视频内容的自动内容识别、合并屏幕内容和虚拟对象的增强现实体验、阅读动态街道标志、通过大电子公告板传送和同步消息、识别博物馆或其它展示房间中的展览的身份等。
尽管已经以特定于结构特征和/或方法动作的语言描述了本主题,但是要理解到,在随附权利要求中限定的主题未必限于以上描述的特定特征或动作。相反,以上描述的特定特征和动作是作为实现权利要求的示例形式而公开的。
Claims (15)
1.一种方法,包括:
访问图像的多个帧,帧具有像素;
选择帧的对;
对于每一个所选择的对,寻找该对中的帧中的像素或区段之间的对应性;以及
将与用于每一个所选择的帧的对的对应性一致的坐标系统分配给多个帧中的每一个。
2.如权利要求1所述的方法,其中寻找该对中的帧中的像素或区段之间的对应性包括:
估计用于每一个所选择的帧的对的差异变换参数的集合,该集合中用于给定对的差异变换参数是用于该对的第一成员的未知变换参数的第一集合与用于该对的第二成员的未知变换参数的第二集合之间的差异。
3.如权利要求2所述的方法,其中基于用于每一个所选择的帧的对的对应性而将坐标系统分配给多个帧中的每一个包括:
针对多个帧中的每一个而寻找变换参数的集合,该变换参数的集合与用于每一个所选择的帧的对的差异变换参数的集合一致。
4.如权利要求2所述的方法,还包括:
将置信度与用于每一个所选择的帧的对的集合中的差异变换参数相关联,其中将坐标系统分配给多个帧中的每一个包括,基于相关联的置信度对用于每一个所选择的帧的对的集合中的差异变换参数进行加权。
5.如权利要求1-4中任一项所述的方法,还包括:
在将坐标系统分配给多个帧中的每一个之后,从多个帧移除作为异常值的帧;以及
在已经从多个帧移除异常帧之后,重复选择、寻找对应性以及分配。
6.如权利要求1-5中任一项所述的方法,还包括:
对于每一个所选择的对,将置信度与该对中的帧中的像素之间的对应性相关联,其中将坐标系统分配给多个帧中的每一个包括,针对多个帧中的每一个而寻找与对应性和相关联的置信度一致的坐标系统。
7.如权利要求1-6中任一项所述的方法,其中将与用于每一个所选择的帧的对的对应性一致的坐标系统分配给多个帧中的每一个包括:
确定方程组的解,在所述方程组中,用于多个帧中的每一个的坐标系统未知并且用于各对的每一个帧的对应性已知。
8.如权利要求1-7中任一项所述的方法,还包括:
基于分配给多个帧中的每一个的坐标系统来对准多个帧;以及
在对准之后检测多个帧中的屏幕的位置。
9.如权利要求8所述的方法,其中检测多个帧中的屏幕的位置包括:
基于多个帧中的一个或多个而形成图像;
标识作为用于屏幕的边界的候选者的多个帧中的线的集合;
在线的集合中的每一条线的每一侧上对图像进行积分以形成积分结果;
基于积分结果而形成屏幕假设的集合;
根据准则对屏幕假设中的屏幕进行评分;以及
基于评分而从屏幕假设的集合中的屏幕选择屏幕。
10.一种装置,包括:
处理器,被配置为:
访问图像的多个帧,帧具有像素;
选择帧的对;
对于每一个所选择的对,寻找该对中的帧中的像素或区段之间的对应性;以及
将与用于每一个所选择的帧的对的对应性一致的坐标系统分配给多个帧中的每一个。
11.如权利要求10所述的装置,其中被配置为寻找该对中的帧中的像素之间的对应性的处理器包括被配置为进行以下操作的处理器:
估计用于每一个所选择的帧的对的差异变换参数的集合,集合中用于给定对的差异变换参数是用于该对的第一成员的未知变换参数的第一集合与用于该对的第二成员的未知变换参数的第二集合之间的差异,其中被配置为基于用于每一个所选择的帧的对的对应性而将坐标系统分配给多个帧中的每一个的处理器包括被配置为进行以下操作的处理器:
针对多个帧中的每一个而寻找变换参数的集合,而变换参数的集合与用于每一个所选择的帧的对的差异变换参数的集合一致。
12.如权利要求11所述的装置,其中处理器还被配置为:
使置信度与用于每一个所选择的帧的对的集合中的差异变换参数相关联,其中被配置为将坐标系统分配给多个帧中的每一个的处理器包括被配置为执行以下操作的处理器:
基于相关联的置信度对用于每一个所选择的帧的对的集合中的差异变换参数进行加权。
13.如权利要求10-12中任一项所述的装置,其中处理器还被配置为:
在处理器将坐标系统分配给多个帧中的每一个之后,从多个帧移除作为异常值的帧;以及
在处理器从多个帧移除异常帧之后,重复选择、寻找对应性和分配。
14.如权利要求10-13中任一项所述的装置,其中处理器还被配置为:
对于每一个所选择的对,使置信度与该对中的帧中的像素或区段之间的对应性相关联,其中被配置为将坐标系统分配给多个帧中的每一个的处理器包括被配置为执行以下操作的处理器:针对多个帧中的每一个而寻找与对应性和相关联的置信度一致的坐标系统。
15.如权利要求10-14中任一项所述的装置,还包括:
捕获图像的多个帧的视频相机,处理器还被配置为基于被分配给多个帧中的每一个的坐标系统而对准多个帧。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/260,171 US9311708B2 (en) | 2014-04-23 | 2014-04-23 | Collaborative alignment of images |
US14/260171 | 2014-04-23 | ||
PCT/US2015/025495 WO2015164103A2 (en) | 2014-04-23 | 2015-04-13 | Collaborative alignment of images |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106462960A true CN106462960A (zh) | 2017-02-22 |
CN106462960B CN106462960B (zh) | 2020-06-26 |
Family
ID=54238499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580021002.1A Active CN106462960B (zh) | 2014-04-23 | 2015-04-13 | 图像的协同对准 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9311708B2 (zh) |
EP (1) | EP3134871A2 (zh) |
CN (1) | CN106462960B (zh) |
WO (1) | WO2015164103A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447107A (zh) * | 2018-03-15 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于生成视频的方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1377036A2 (en) * | 2002-06-28 | 2004-01-02 | Microsoft Corporation | Video processing system and method for automatic enhancement of digital video |
CN1926575A (zh) * | 2004-03-03 | 2007-03-07 | 日本电气株式会社 | 图像相似度计算系统、图像搜索系统、图像相似度计算方法和图像相似度计算程序 |
CN101141572A (zh) * | 2006-09-07 | 2008-03-12 | 索尼株式会社 | 图像数据处理装置、图像数据处理方法和成像系统 |
CN101261736A (zh) * | 2008-04-10 | 2008-09-10 | 西北工业大学 | 多源图像动目标协同检测方法 |
WO2009070508A1 (en) * | 2007-11-30 | 2009-06-04 | Dolby Laboratories Licensing Corp. | Temporally smoothing a motion estimate |
CN101714256A (zh) * | 2009-11-13 | 2010-05-26 | 河北工业大学 | 基于全方位视觉的动态目标识别和定位方法 |
WO2010151215A1 (en) * | 2009-06-22 | 2010-12-29 | Imint Image Intelligence Ab | Real time video stabilization |
WO2012058442A1 (en) * | 2010-10-28 | 2012-05-03 | Google Inc. | Methods and systems for processing a video for stabilization and retargeting |
CN102656876A (zh) * | 2009-10-14 | 2012-09-05 | Csr技术公司 | 用于图像稳定的方法和装置 |
US20130083192A1 (en) * | 2011-09-30 | 2013-04-04 | Siemens Industry, Inc. | Methods and System for Stabilizing Live Video in the Presence of Long-Term Image Drift |
Family Cites Families (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4677466A (en) | 1985-07-29 | 1987-06-30 | A. C. Nielsen Company | Broadcast program identification method and apparatus |
US4739398A (en) | 1986-05-02 | 1988-04-19 | Control Data Corporation | Method, apparatus and system for recognizing broadcast segments |
US5276790A (en) | 1991-07-12 | 1994-01-04 | Destiny Technology Corporation | Fast vertical scan-conversion and filling method and apparatus for outline font character generation in dot matrix devices |
US5546107A (en) | 1994-04-05 | 1996-08-13 | Etak, Inc. | Automatic chain-based conflation of digital maps |
US5574764A (en) | 1995-06-06 | 1996-11-12 | General Electric Company | Digital brightness detector |
US5982951A (en) * | 1996-05-28 | 1999-11-09 | Canon Kabushiki Kaisha | Apparatus and method for combining a plurality of images |
US5838838A (en) | 1996-07-19 | 1998-11-17 | Hewlett-Packard Company | Down-scaling technique for bi-level images |
US6208765B1 (en) * | 1998-06-19 | 2001-03-27 | Sarnoff Corporation | Method and apparatus for improving image resolution |
US6320623B1 (en) | 1998-11-13 | 2001-11-20 | Philips Electronics North America Corporation | Method and device for detecting an event in a program of a video and/ or audio signal and for providing the program to a display upon detection of the event |
US6400844B1 (en) | 1998-12-02 | 2002-06-04 | Xerox Corporation | Method and apparatus for segmenting data to create mixed raster content planes |
US6771793B1 (en) | 1999-02-17 | 2004-08-03 | Fuji Photo Film Co., Ltd. | Image processing method and apparatus |
US6774917B1 (en) | 1999-03-11 | 2004-08-10 | Fuji Xerox Co., Ltd. | Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video |
US6404925B1 (en) | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
US7098914B1 (en) * | 1999-07-30 | 2006-08-29 | Canon Kabushiki Kaisha | Image synthesis method, image synthesis apparatus, and storage medium |
US20040125877A1 (en) | 2000-07-17 | 2004-07-01 | Shin-Fu Chang | Method and system for indexing and content-based adaptive streaming of digital video content |
US6990453B2 (en) | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
JP2005501310A (ja) | 2001-05-02 | 2005-01-13 | ビットストリーム インコーポレーティッド | スケーリング方法及び/又は特定方向で情報媒体を表示する方法及びシステム |
GB0125774D0 (en) | 2001-10-26 | 2001-12-19 | Cableform Ltd | Method and apparatus for image matching |
US7349922B2 (en) | 2001-11-14 | 2008-03-25 | Yeda Research And Development Co. Ltd. | Method and apparatus for data clustering including segmentation and boundary detection |
US6768816B2 (en) | 2002-02-13 | 2004-07-27 | Convey Corporation | Method and system for interactive ground-truthing of document images |
US7589729B2 (en) | 2002-05-15 | 2009-09-15 | Mental Images Gmbh | Image synthesis by rank-1 lattices |
US7227893B1 (en) | 2002-08-22 | 2007-06-05 | Xlabs Holdings, Llc | Application-specific object-based segmentation and recognition system |
US7120195B2 (en) | 2002-10-28 | 2006-10-10 | Hewlett-Packard Development Company, L.P. | System and method for estimating motion between images |
KR20050086470A (ko) | 2002-11-12 | 2005-08-30 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 멀티미디어 컨텐츠를 핑거프린트하는 방법 |
JP4148041B2 (ja) | 2003-06-27 | 2008-09-10 | ソニー株式会社 | 信号処理装置および信号処理方法、並びにプログラムおよび記録媒体 |
JP4392584B2 (ja) | 2003-06-27 | 2010-01-06 | ソニー株式会社 | 信号処理装置および信号処理方法、並びにプログラムおよび記録媒体 |
JP3951984B2 (ja) | 2003-08-22 | 2007-08-01 | 日本電気株式会社 | 画像投影方法、及び画像投影装置 |
US7440964B2 (en) | 2003-08-29 | 2008-10-21 | Vortaloptics, Inc. | Method, device and software for querying and presenting search results |
US7782954B2 (en) | 2003-09-07 | 2010-08-24 | Microsoft Corporation | Scan patterns for progressive video content |
US7400680B2 (en) | 2003-09-30 | 2008-07-15 | Intel Corporation | Rectangular-shape motion search |
US7424672B2 (en) | 2003-10-03 | 2008-09-09 | Hewlett-Packard Development Company, L.P. | System and method of specifying image document layout definition |
WO2005041109A2 (en) | 2003-10-17 | 2005-05-06 | Nielsen Media Research, Inc. | Methods and apparatus for identifiying audio/video content using temporal signal characteristics |
US7336841B2 (en) | 2004-03-25 | 2008-02-26 | Intel Corporation | Fingerprinting digital video for rights management in networks |
US7639258B1 (en) | 2004-03-31 | 2009-12-29 | Adobe Systems Incorporated | Winding order test for digital fonts |
JP2005354610A (ja) | 2004-06-14 | 2005-12-22 | Canon Inc | 画像処理装置、画像処理方法および画像処理プログラム |
US20060059120A1 (en) | 2004-08-27 | 2006-03-16 | Ziyou Xiong | Identifying video highlights using audio-visual objects |
ATE486332T1 (de) | 2005-03-17 | 2010-11-15 | British Telecomm | Verfahren zur verfolgung von objekten in einer videosequenz |
US9098597B2 (en) | 2005-06-03 | 2015-08-04 | Apple Inc. | Presenting and managing clipped content |
US7602990B2 (en) | 2005-09-29 | 2009-10-13 | Mitsubishi Electric Research Laboratories, Inc. | Matting using camera arrays |
US7933451B2 (en) | 2005-11-23 | 2011-04-26 | Leica Geosystems Ag | Feature extraction using pixel-level and object-level analysis |
CN102164238B (zh) | 2006-01-10 | 2013-09-18 | 松下电器产业株式会社 | 颜色校正处理装置、动态摄像机颜色校正装置以及使用其的影像检索装置 |
WO2007091243A2 (en) | 2006-02-07 | 2007-08-16 | Mobixell Networks Ltd. | Matching of modified visual and audio media |
JP4492567B2 (ja) | 2006-03-17 | 2010-06-30 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
CN101454803A (zh) | 2006-05-25 | 2009-06-10 | 日本电气株式会社 | 视频的特殊效果检测装置、特殊效果检测方法、特殊效果检测程序及视频再生装置 |
US8139067B2 (en) | 2006-07-25 | 2012-03-20 | The Board Of Trustees Of The Leland Stanford Junior University | Shape completion, animation and marker-less motion capture of people, animals or characters |
US8233545B2 (en) | 2006-08-21 | 2012-07-31 | Texas Instruments Incorporated | Run length encoding in VLIW architecture |
US8139115B2 (en) | 2006-10-30 | 2012-03-20 | International Business Machines Corporation | Method and apparatus for managing parking lots |
US8059915B2 (en) | 2006-11-20 | 2011-11-15 | Videosurf, Inc. | Apparatus for and method of robust motion estimation using line averages |
US8488839B2 (en) | 2006-11-20 | 2013-07-16 | Videosurf, Inc. | Computer program and apparatus for motion-based object extraction and tracking in video |
US20080120290A1 (en) | 2006-11-20 | 2008-05-22 | Rexee, Inc. | Apparatus for Performing a Weight-Based Search |
US20080120328A1 (en) | 2006-11-20 | 2008-05-22 | Rexee, Inc. | Method of Performing a Weight-Based Search |
US20080120291A1 (en) | 2006-11-20 | 2008-05-22 | Rexee, Inc. | Computer Program Implementing A Weight-Based Search |
US8379915B2 (en) | 2006-11-20 | 2013-02-19 | Videosurf, Inc. | Method of performing motion-based object extraction and tracking in video |
US8385687B1 (en) * | 2006-12-06 | 2013-02-26 | Matrox Electronic Systems, Ltd. | Methods for determining a transformation between images |
US7920748B2 (en) | 2007-05-23 | 2011-04-05 | Videosurf, Inc. | Apparatus and software for geometric coarsening and segmenting of still images |
US8265333B2 (en) | 2007-07-27 | 2012-09-11 | Synergy Sports Technology, Llc | Systems and methods for generating bookmark video fingerprints |
TW200926011A (en) | 2007-09-04 | 2009-06-16 | Objectvideo Inc | Background modeling with feature blocks |
AU2008200966B2 (en) | 2008-02-28 | 2012-03-15 | Canon Kabushiki Kaisha | Stationary object detection using multi-mode background modelling |
US20130215116A1 (en) | 2008-03-21 | 2013-08-22 | Dressbot, Inc. | System and Method for Collaborative Shopping, Business and Entertainment |
WO2009132084A1 (en) | 2008-04-25 | 2009-10-29 | Gracenote, Inc. | Recognition of video content |
US8364660B2 (en) | 2008-07-11 | 2013-01-29 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
WO2010006334A1 (en) | 2008-07-11 | 2010-01-14 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
TWI413937B (zh) | 2008-08-11 | 2013-11-01 | Asia Optical Co Inc | 影像辨識方法與裝置 |
US8990235B2 (en) | 2009-03-12 | 2015-03-24 | Google Inc. | Automatically providing content associated with captured information, such as information captured in real-time |
JP2010272109A (ja) | 2009-04-20 | 2010-12-02 | Fujifilm Corp | 画像処理装置、画像処理方法およびプログラム |
US8953906B2 (en) | 2009-09-03 | 2015-02-10 | National Ict Australia Limited | Illumination spectrum recovery |
US8594392B2 (en) | 2009-11-18 | 2013-11-26 | Yahoo! Inc. | Media identification system for efficient matching of media items having common content |
US8934024B2 (en) | 2010-01-14 | 2015-01-13 | Fuji Xerox Co., Ltd. | Efficient, user-friendly system to stream screens inside video using a mobile device |
US20110246402A1 (en) | 2010-03-31 | 2011-10-06 | Teledyne Scientific & Imaging, Llc | Acoustic event classification using particle swarm optimization with flexible time correlation matching |
US8447139B2 (en) | 2010-04-13 | 2013-05-21 | International Business Machines Corporation | Object recognition using Haar features and histograms of oriented gradients |
CN102236784A (zh) | 2010-05-07 | 2011-11-09 | 株式会社理光 | 屏幕区域检测方法及系统 |
US9508011B2 (en) | 2010-05-10 | 2016-11-29 | Videosurf, Inc. | Video visual and audio query |
EP2547111B1 (en) | 2011-07-12 | 2017-07-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing multi-view image using hole rendering |
US20130083003A1 (en) | 2011-09-30 | 2013-04-04 | Kathryn Stone Perez | Personal audio/visual system |
US8719884B2 (en) | 2012-06-05 | 2014-05-06 | Microsoft Corporation | Video identification and search |
-
2014
- 2014-04-23 US US14/260,171 patent/US9311708B2/en active Active
-
2015
- 2015-04-13 EP EP15772038.4A patent/EP3134871A2/en not_active Withdrawn
- 2015-04-13 CN CN201580021002.1A patent/CN106462960B/zh active Active
- 2015-04-13 WO PCT/US2015/025495 patent/WO2015164103A2/en active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1377036A2 (en) * | 2002-06-28 | 2004-01-02 | Microsoft Corporation | Video processing system and method for automatic enhancement of digital video |
CN1926575A (zh) * | 2004-03-03 | 2007-03-07 | 日本电气株式会社 | 图像相似度计算系统、图像搜索系统、图像相似度计算方法和图像相似度计算程序 |
CN101141572A (zh) * | 2006-09-07 | 2008-03-12 | 索尼株式会社 | 图像数据处理装置、图像数据处理方法和成像系统 |
WO2009070508A1 (en) * | 2007-11-30 | 2009-06-04 | Dolby Laboratories Licensing Corp. | Temporally smoothing a motion estimate |
CN101261736A (zh) * | 2008-04-10 | 2008-09-10 | 西北工业大学 | 多源图像动目标协同检测方法 |
WO2010151215A1 (en) * | 2009-06-22 | 2010-12-29 | Imint Image Intelligence Ab | Real time video stabilization |
CN102656876A (zh) * | 2009-10-14 | 2012-09-05 | Csr技术公司 | 用于图像稳定的方法和装置 |
CN101714256A (zh) * | 2009-11-13 | 2010-05-26 | 河北工业大学 | 基于全方位视觉的动态目标识别和定位方法 |
WO2012058442A1 (en) * | 2010-10-28 | 2012-05-03 | Google Inc. | Methods and systems for processing a video for stabilization and retargeting |
US20130083192A1 (en) * | 2011-09-30 | 2013-04-04 | Siemens Industry, Inc. | Methods and System for Stabilizing Live Video in the Presence of Long-Term Image Drift |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447107A (zh) * | 2018-03-15 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于生成视频的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2015164103A3 (en) | 2016-03-10 |
CN106462960B (zh) | 2020-06-26 |
US20150310614A1 (en) | 2015-10-29 |
US9311708B2 (en) | 2016-04-12 |
EP3134871A2 (en) | 2017-03-01 |
WO2015164103A2 (en) | 2015-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103703758B (zh) | 移动增强现实系统 | |
EP2261604B1 (en) | Computer arrangement for and method of calculating motion vectors using range sensor data | |
CN105814609B (zh) | 用于用户识别、跟踪与设备关联的融合设备与图像运动 | |
TWI483215B (zh) | 根據相關3d點雲端資料強化影像資料 | |
JP5905540B2 (ja) | 画像の少なくとも1つの特徴として記述子を提供する方法及び特徴をマッチングする方法 | |
TWI587205B (zh) | Method and system of three - dimensional interaction based on identification code | |
CN104995665B (zh) | 用于在真实环境中表示虚拟信息的方法 | |
CN102812416B (zh) | 指示输入装置、指示输入方法、程序、记录介质以及集成电路 | |
US20200364509A1 (en) | System and method for training a neural network for visual localization based upon learning objects-of-interest dense match regression | |
CN104870941B (zh) | 分离的基于计算机视觉的姿势与基于惯性传感器的姿势的显示 | |
CN109615703A (zh) | 增强现实的图像展示方法、装置及设备 | |
CN111242088A (zh) | 一种目标检测方法、装置、电子设备及存储介质 | |
CN106247951A (zh) | 一种基于深度图像的物体测量方法 | |
CN110260857A (zh) | 视觉地图的校准方法、装置及存储介质 | |
CN109961472B (zh) | 3d热力图生成的方法、系统、存储介质及电子设备 | |
CN109785446A (zh) | 图像识别系统及其方法 | |
CN107004264A (zh) | 增加针对具有对角布局的相机图像的整数视差精度的方法和系统 | |
US20170147874A1 (en) | Methods and systems for generating a three dimensional representation of a human body shape | |
CN110458166A (zh) | 一种基于可变形卷积的危险品检测方法、装置及设备 | |
CN111595332B (zh) | 一种融合惯性技术与视觉建模的全环境定位方法 | |
CN109478769A (zh) | 缆线可动区域显示装置、缆线可动区域显示方法和缆线可动区域显示程序 | |
CN114185073A (zh) | 一种位姿显示方法、装置及系统 | |
CN105631849B (zh) | 多边形目标的变化检测方法及装置 | |
CN106462960A (zh) | 图像的协同对准 | |
CN109871116A (zh) | 用于识别手势的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |