CN107636589B - 用于减少多个限界区的系统和方法 - Google Patents

用于减少多个限界区的系统和方法 Download PDF

Info

Publication number
CN107636589B
CN107636589B CN201680026212.4A CN201680026212A CN107636589B CN 107636589 B CN107636589 B CN 107636589B CN 201680026212 A CN201680026212 A CN 201680026212A CN 107636589 B CN107636589 B CN 107636589B
Authority
CN
China
Prior art keywords
area
limit area
limit
electronic device
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201680026212.4A
Other languages
English (en)
Other versions
CN107636589A (zh
Inventor
马蒂奥·托蒂·曼尼诺
钟辛
高大山
格克切·戴恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN107636589A publication Critical patent/CN107636589A/zh
Application granted granted Critical
Publication of CN107636589B publication Critical patent/CN107636589B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

本发明描述一种由电子装置执行的方法。所述方法包含基于图像产生多个限界区。所述方法还包含基于至少一个准则以及所述图像中的选定区域来确定所述多个限界区的子集。所述方法进一步包含基于所述多个限界区的所述子集来处理所述图像。

Description

用于减少多个限界区的系统和方法
技术领域
本发明大体上涉及电子装置。更具体地说,本发明涉及用于减少多个限界区的系统和方法。
背景技术
在最近几十年中,电子装置的使用已变得普遍。明确地说,电子技术中的进步已降低了越来越复杂且有用的电子装置的成本。成本降低和消费者需求已使电子装置的使用剧增,使得其在现代社会中几乎随处可见。由于电子装置的使用已推广开来,因此具有对电子装置的新的且改进的特征的需求。更具体来说,人们常常寻求执行新功能和/或更快、更有效或以更高质量执行功能的电子装置。
一些电子装置(例如,相机、视频摄像机、数码相机、蜂窝式电话、智能电话、计算机、电视机等)捕获和/或利用图像。举例来说,智能电话可捕获和/或处理静态图像和/或视频图像。处理图像可能需要相对较大量的时间、存储器和能量资源。所需要的资源可能根据处理的复杂性而发生改变。
可能难以实施一些复杂的处理任务。举例来说,一些处理任务可能花费较长的时间来完成,和/或可能产生不希望的结果。这在可具有受限的处理、存储器和/或能量资源(例如受限电池寿命)的移动平台(例如移动装置,例如智能电话、平板计算机、膝上型计算机等)中可能尤其成立。如从此论述可观察到,改进图像处理的系统和方法可为有益的。
发明内容
本发明描述一种由电子装置执行的方法。所述方法包含基于图像产生多个限界区。所述方法还包含基于至少一个准则以及所述图像中的选定区域来确定所述多个限界区的子集。所述方法进一步包含基于所述多个限界区的所述子集来处理所述图像。产生所述多个限界区可基于一种基于梯度的限界区产生算法。处理所述图像可包含执行对象辨识、对象跟踪、聚焦、对象去除、图像增强、裁剪和/或压缩。
确定所述多个限界区的所述子集可基于所述多个限界区中的每一者相对于选定区域的居中性。确定所述多个限界区的所述子集可基于每一限界区的色彩直方图与每一相应环绕区的色彩直方图之间的比较。确定所述多个限界区的所述子集可基于所述多个限界区的平均大小。所述平均大小可为中值大小和/或均值大小。
确定所述多个限界区的子集可包含拒绝所述多个限界区中使居中性准则和/或第一大小准则失效的任一者。确定所述多个限界区的子集还可包含选择满足色差准则和/或第二大小准则的限界区。可针对具有经加权中值大小或经加权均值大小的限界区,满足所述第二大小准则。
确定所述多个限界区的子集可包含拒绝所述多个限界区中使产生多个其余限界区的居中性准则失效的任一者。确定所述多个限界区的子集还可包含:确定所述多个其余限界区中的每一者与相应的环绕区之间的色彩距离;以及选择具有最大色彩距离的限界区。
还描述一种电子装置。所述电子装置包含处理器,其经配置以:基于图像产生多个限界区;基于至少一个准则以及所述图像中的选定区域,确定所述多个限界区的子集;以及基于所述多个限界区的所述子集,处理所述图像。
还描述了一种计算机程序产品。所述计算机程序产品包含具有指令的非暂时性计算机可读媒体。所述指令包含用于致使电子装置基于图像产生多个限界区的代码。所述指令还包含用于致使所述电子装置基于至少一个准则以及所述图像中的选定区域来确定所述多个限界区的子集的代码。所述指令进一步包含用于致使所述电子装置基于所述多个限界区的子集来处理所述图像的代码。
还描述通过电子装置执行的另一方法。所述方法包含确定图像的选定区域。所述方法还包含基于选定区域,从多个限界区产生算法选择一种限界区产生算法。所述方法进一步包含基于选定的限界区产生算法产生一或多个限界区。
附图说明
图1说明图像内的限界区的若干实例;
图2是说明其中可实施用于选择限界区产生算法和/或用于减少多个限界区的系统和方法的电子装置的一个实例的框图;
图3是说明用于减少多个限界区的方法的一个配置的实例的流程图;
图4是说明选定区域、限界区和环绕区边界的实例的图;
图5是说明用于减少多个限界区的方法的更具体配置的实例的流程图;
图6是说明根据本文中揭示的系统和方法的选定区域、候选限界区和选定限界区的实例的图像;
图7是说明用于选择限界区产生算法的方法的一个配置的流程图;
图8是说明用于选择限界区产生算法的方法的更具体配置的实例的流程图;
图9是说明其中可实施用于选择限界区产生算法和/或用于减少多个限界区的系统和方法的处理器的实例的框图;
图10是说明可操作以执行单触式对象选择的系统的一个配置的框图;
图11是说明单触式对象选择的方法的一个实例的图;
图12是说明与对象选择相关联的多种实例计算机视觉(CV)使用情况的图;
图13是说明用于对象选择的基于运动的分段的方法的实例的图;
图14是说明在用于对象选择的基于运动的分段的情形下的错误处置方法的一个配置的图;
图15说明包含用于单触式对象选择的时间关注区(ROI)融合的基于色彩的分段方法的特定说明性配置。
图16是说明通过执行分段和ROI融合进行单触式对象选择的方法的一个配置的流程图;
图17是说明使用基于运动的和基于色彩的分段连同ROI融合的组合来进行单触式对象选择的方法的一个配置的流程图;以及
图18说明可包含在经配置以实施本文中所揭示的系统和方法的各种配置的电子装置和/或无线装置内的特定组件。
具体实施方式
现在参考图式描述各种配置,其中相同的参考标号可以指示功能上相似的元件。可以广泛多种不同配置来布置和设计如本文中在各图中大体描述和说明的系统和方法。因此,对如各图中所表示的若干配置的以下更详细描述并不希望限制如所主张的范围,而仅表示系统和方法。
图1说明图像内的限界区的若干实例102a-c。限界区可为限定图像的一或多个像素的边界的封闭形状。限界区的形状可为规则或不规则的。举例来说,限界区可为矩形、正方形、圆形、椭圆形、梯形、多边形、闭合曲线等。限界区的大小可不同。如图1中所说明,实例A 102a说明若干类型的限界区104a-c。具体地说,限界区A 104a的形状是矩形,限界区B104b的形状是圆形,且限界区C 104c的形状是不规则的。在一些配置中,限界区还可被称作关注区(ROI)或限界框(举例来说,对于矩形限界区)。限界区可完全含有对象,可部分含有对象或可不含有对象。在一些配置中,限界区可与对象(例如地面实况对象)的一部分(例如至少一部分)重叠。举例来说,限界区可与对象重叠66%或三分之二。
限界区产生算法可产生一或多个限界区(例如限界框)。限界区产生算法的实例包含基于区生长和梯度的限界区产生算法。二进制化赋范梯度(BING)可为基于梯度的限界区产生算法的一个实例。举例来说,基于梯度的限界区产生算法可使用图像的基于梯度的分析来产生一或多个初始限界区(例如限界框)。可利用限界区产生算法来在图像中寻找(例如检测、跟踪等)对象。
在一些配置中,限界区产生算法可基于选定区域(例如选定点、触摸点、一或多个像素等)来确定一或多个限界区。实例A 102a说明选定区域106。在一些配置中,选定区域106可基于接收到的输入。举例来说,智能电话可从触摸屏检测触摸点,其中触摸点指示图像上的一或多个像素。在另一实例中,计算机可基于鼠标点击事件来选择像素,其中光标位置对应于图像中的像素。因此,实例A 102a说明可基于选定区域106(例如选定点、触摸点、一或多个像素等)的不同限界区104a-c。
可通过本文中揭示的系统和方法来解决的一个目标可为使用户能够简单地通过触摸呈现在触敏式显示器上的图像内的对象,来选择来自相机的图像内的对象。对于每一触摸点,算法可产生多个限界区,其可含有用户已选定的对象。实例B 102b和C 102c说明可由限界区产生算法产生的多个限界区的实例。具体地说,实例B 102b说明图像中的多个限界区。在实例B 102b中,限界区是具有不同大小的矩形限界区。类似地,实例C 102c说明图像中不同大小的多个矩形限界区。可减少所述多个限界区。举例来说,可选择所述多个限界区中的一或多者(例如所述限界区的子集)。在一些配置中,可确定所述多个限界区中的一个限界区。举例来说,可有利地确定包含既定对象的限界区。本文中揭示的系统和方法可提供解决此问题的一或多个方法。
图2是说明其中可实施用于选择限界区产生算法和/或用于减少多个限界区的系统和方法的电子装置208的一个实例的框图。电子装置208的实例包含智能电话、蜂窝式电话、计算机(例如桌上型计算机、膝上型计算机等)、平板计算机装置、媒体播放器、电视机、游戏控制台、个人数字助理(PDA)、机器人、飞行器、无人驾驶的空中交通工具(UAV)、汽车等。电子装置208可包含一或多个组件或元件。所述组件或元件中的一或多者可在硬件(例如电路)或硬件与软件的组合(例如具有指令的处理器)中实施。在一些配置中,电子装置208可包含处理器226、图像传感器240、光学系统242、存储器252、显示器224和/或通信接口246。处理器226可耦合到图像传感器240、光学系统242、存储器252、显示器224和通信接口246中的一或多者(例如与之电子通信)。
通信接口246可使电子装置208能够与一或多个其它电子装置通信。举例来说,通信接口246可为有线和/或无线通信提供接口。在一些配置中,通信接口246可耦合到一或多个天线248以用于发射和/或接收射频(RF)信号。
电子装置208可获得一或多个图像(例如数字图像)。在一些配置中,电子装置208可从另一装置(例如耦合到电子装置208的图像传感器、连网装置、远程服务器、外部驱动器(例如快闪驱动器、外部硬盘驱动器)、存储卡等)接收一或多个图像。举例来说,电子装置208可使用有线和/或无线通信,经由通信接口246接收一或多个图像。另外或替代地,电子装置208可捕获一或多个图像。举例来说,电子装置208可包含相机。相机可包含图像传感器240,以及光学系统242(例如,镜头),其将位于光学系统242的视野内的对象的图像聚焦到图像传感器240上。图像传感器240可捕获一或多个图像。在一些配置中,电子装置208可包含相机软件应用程序和显示器224。当相机应用程序正在运行时,图像传感器240可记录位于光学系统242的视野内的对象的图像。正由图像传感器240记录的图像可在显示器224上呈现。在一些配置中,这些图像可以相对较高的帧速率快速连续显示,使得在任何给定时刻,位于光学系统242的视野内的对象呈现在显示器224上。电子装置208所获得的一或多个图像可为一或多个视频帧和/或一或多个静态图像。因此,术语视频帧和数字图像在本文中可互换使用。
在一些配置中,电子装置208可在显示器224上呈现用户接口222。举例来说,用户接口222可使用户能够指示图像中的一或多个对象。
在一些配置中,显示器224可为接收来自物理触摸(例如通过手指、触笔或其它工具)的输入的触摸屏。举例来说,触摸屏可为接收指示选定区域的触摸输入的输入接口。在一些配置中,选定区域可对应于目标对象。举例来说,如果电子装置208正捕获包含动物的自然场景,那么用户可在动物的图像上轻触(举例来说,指示检测、跟踪到动物和/或执行某一其它操作的指令)。
另外或替代地,电子装置208可包含另一输入接口或耦合到另一输入接口。举例来说,电子装置208可包含面对用户的相机,且可检测用于指示图像中的选定区域(例如选定点等)的用户示意动作(例如手部示意动作、手臂示意动作、眼部跟踪、眼睑眨眼等)。在另一实例中,电子装置208可耦合到鼠标,且可检测指示图像中的选定区域(例如点)的鼠标点击。因此,可以任何合适的方式来指示(例如选择)一或多个选定区域(例如,对应于目标对象)。举例来说,触摸输入、鼠标点击、所辨识的示意动作、面部辨识、对象辨识等可用于指示选定区域(例如点)。
在一些配置中,用户输入可能不是必需的。举例来说,电子装置208可自动检测一或多个图像中的一或多个对象(例如面部、人、动物、汽车、记号、文本等)。可基于一或多个检测到的目标来确定一或多个选定区域。结合图4给出选定区域的一个实例。
处理器226可包含和/或实施限界区产生器210。限界区产生器210可基于图像产生多个限界区。举例来说,限界区产生器210可使用一或多个限界区产生算法212来产生多个限界区(例如限界框)。限界区产生算法212的实例包含基于区生长和梯度的限界区产生算法(例如二进制化赋范梯度(BING))。应注意,可利用一或多个其它对象检测算法来产生初始限界区(例如限界框)。如上文所描述,所产生的限界区中的一或多者可包含对象。结合图4给出限界区的一个实例。
处理器226可包含和/或实施限界区减少器244。限界区减少器244可基于图像的选定区域来确定所述多个限界区的子集。举例来说,限界区减少器244的目标可为将所述多个限界区减少到包含对象(例如所指示的对象)的一或多个限界区。举例来说,所指示的对象可为对应于选定区域(例如一或多个选定点、选定像素或像素群组等)的对象。如上文所描述,选定区域可基于输入来指示,或可自动产生。举例来说,电子装置208可接收输入(例如触摸输入、触摸点、鼠标点击等)。输入可指示对象在图像中的位置。举例来说,输入可指示其中对象位于所述图像中的选定区域(例如一或多个像素)。
限界区减少器244可通过应用一或多个准则来确定所述多个限界区的子集。这可将所述多个限界区减少到子集。可执行一个或多个减少。举例来说,可执行多次降低(举例来说,各自根据一准则)。每次减少可导致所述多个限界区的子集。
在一些配置中,限界区减少器244可基于居中性准则214、大小准则216和色差准则218中的一或多者,来确定所述多个限界区的子集。居中性准则214可为限界区之间的区别是基于居中性的规则。可拒绝(例如不考虑、消除、删除、丢弃等)所述多个限界区中不满足居中性准则214的任一者。举例来说,限界区减少器244可通过消除不够居中(例如不在中心距离阈值内和/或不在若干最小中心距离之中)的任何限界区,来减少所述多个限界区。
在一些配置中,确定所述多个限界区的所述子集可基于所述多个限界区中的每一者的中心距离。限界区减少器244可计算所述多个限界区中的每一者的中心距离。在一个实例中,限界区的中心距离可为限界区与选定区域(例如选定点、当选定区域大于选定区域的点时的选定区域的中心或图心,或当选定区域大于点时的选定区域的边缘(例如最近边缘)等)的中心(例如图心)之间的距离。在另一实例中,限界区的中心距离可为限界区的中心(例如图心)与所有限界区的集合的中心(例如图心)之间的距离。因此,可将具有较小中心距离的限界区视为较居中。在一些配置中,中心距离可表达为以像素或其它量度(例如英寸、厘米、毫米等)为单位的距离。
在一些配置中,居中性准则214可依据中心距离阈值和/或最居中限界区的数目来表达。举例来说,对于中心距离阈值内的所有限界区(例如具有小于或等于中心距离阈值的中心距离的任何限界区),满足居中性准则214。中心距离阈值可为预定距离、相对距离和/或统计距离。预定距离可为像素的预定数目、英寸、厘米等。相对距离可为(例如)最远限界区中心与选定区域之间的(最大)距离或最远限界区边缘与所有限界区的集合的中心(例如图心)之间的(最大)距离的比例、百分比或比率。举例来说,对于具有小于或等于最大距离的十分之一的中心距离的任何限界区,可满足居中性准则214。统计距离可为限界区中心距离的统计量度,例如所有限界区中心距离的标准偏差或经按比例缩放的标准偏差。举例来说,对于具有小于或等于限界区中心距离的标准偏差的中心距离的任何限界区,可满足居中性准则214。
在另一实例中,对于若干最居中限界区,可满足居中性准则214。举例来说,对于具有最小中心距离的十个限界区,可满足居中性准则214。
在一些配置中,可确定中心距离,且可如下应用居中性准则。假定选定区域的中心坐标是vc=(xc,yc),且第一限界框(例如限界框1)的中心是vb1=(xb1,yb1),可将vc与vb1之间的中心距离与(例如)L2范数进行比较。可为限界框中的一或多者确定中心距离。接着可将中心距离与中心距离阈值进行比较。可拒绝(例如消除)具有大于阈值的中心距离的那些限界框。
另外或替代地,可如下应用居中性准则。可选择参数ε,其中ε可为介于0.0与0.5之间的值。举例来说,ε可为预定的,或可在操作期间选定(例如调适)。如上文所描述,可(使用例如BING或某一其它限界区产生算法)产生图像内的多个限界区(例如限界框)。假定P表示选定区域(例如选定点、像素等),其中P的(x,y)坐标指示为P.x和P.y。P可在所产生的若干限界框内部。限界框可表示为(x,y,w,h),其中x和y是左上坐标,且w、h是宽度和高度。可保留限界框中含有P(例如P.x和P.y)且满足居中性准则214的任一者,同时可拒绝(例如丢弃)其余限界框。居中性准则214可如下实施。对于ε,可保留满足x+ε*w≤P.x且P.x≤x+(1-ε)*w且y+ε*h≤P.y且P.y≤y+(1-ε)*h的限界框。视觉上,这意味着如果选定区域(例如选定点)P靠近限界框的中心(例如在限界框内部的较小限界框内),那么可保留所述选定区域。应注意,如果ε=0.5,那么在限界框的中间,仅存在一个可接受点:(x+0.5*w,y+0.5*h)。此外,在ε大于0.5的情况下,没有点可满足居中性准则。
大小准则216可为基于大小来区分限界区的规则。可拒绝(例如不考虑、消除、删除、丢弃等)所述多个限界区中不满足大小准则216的任一者。举例来说,限界区减少器244可通过消除不是平均大小和/或不够接近平均大小(例如不在平均大小阈值内和/或不在最接近于平均大小的若干限界区之中)的任何限界区,来减少所述多个限界区。
在一些配置中,确定所述多个限界区的子集可基于所述多个限界区中的平均大小(例如均值、中值等)。举例来说,限界区减少器244可计算所述多个限界区的平均大小(例如均值、中值等)。在一些配置中,限界区的“大小”可为限界区的几何面积(例如像素的数目、平方英寸(或例如其它量度)等)。在其它配置中,限界区的“大小”可表达为高度、宽度或另一量度(例如对角线量度、最大维度等)。
限界区减少器244可计算所述多个限界区中的每一者的大小。在一些配置中,大小准则216可依据一或多个大小阈值和/或最接近平均大小限界区的数目来表达。举例来说,对于一或多个大小阈值内的所有限界区(例如具有在大于平均大小的第一大小阈值内或在小于平均大小的第二大小阈值内的大小的任何限界区),可满足大小准则216。所述大小阈值中的一或多者可为预定大小、相对大小和/或统计大小。预定大小可为像素的预定数目、平方英寸、平方厘米等。相对大小可为(例如)平均大小的比例、百分比或比率。举例来说,对于具有在平均大小的百分之十内的大小的任何限界区,可满足大小准则216。统计大小可为限界区大小的统计量度,例如所有限界区大小的标准偏差或经按比例缩放的标准偏差。举例来说,对于具有在平均(例如均值)限界区大小的标准偏差内的大小的任何限界区,可满足大小准则216。
在另一实例中,对于最接近平均大小(例如最接近所述多个限界区的平均大小)的若干限界区,可满足大小准则216。举例来说,对于大小最接近(大于和/或小于)平均限界区大小的十个限界区,可满足大小准则216。
在一些配置中,可通过使用穿过(例如包含和/或接触)选定区域(例如触摸点)的限界区的大小来确定用于比较的限界区大小。举例来说,用于比较的限界框大小可为限界框大小的平均值或限界框大小的中值。举例来说,n个框的宽度可表示为{w1,w2,…,wn},且n个框的高度可表示为{h1,h2,...,hn}。平均宽度(wavg)可为w1到wn的均值,且平均高度(havg)可为h1到hn的均值。或者,平均宽度可为w1到wn的中值,且平均高度可为h1到hn的中值。可将所有限界框的宽度和高度与平均值(例如均值或中值)进行比较。可拒绝(例如消除)在大小阈值(sizeth)范围之外的限界框。举例来说,可拒绝具有w1>(wavg+sizeth)且h1>(havg+sizeth)的第一限界框,其中sizeth可为0或某一其它值。
另外或替代地,大小准则216可基于最大和/或最小宽度和/或高度。举例来说,限界区减少器244可选择最大和最小高度以及最大和最小宽度。可基于预期对象大小来选择最大和最小高度和宽度。举例来说,最大高度可为预期对象高度的1.5倍,且最小高度可为预期对象高度的0.5倍,而最大宽度可为预期对象宽度的1.5倍,且最小宽度可为预期对象宽度的0.5倍。可拒绝不在最大和/或最小高度和/或宽度内的限界区。应注意,在一些配置中,可对最大和/或最小高度和/或宽度设置额外约束。举例来说,最大尺寸可能不大于图像大小的一半。另外或替代地,最小尺寸可能不小于预定大小(例如16×16个像素)。
色差准则218可为基于色差来区分限界区之间的规则。可拒绝(例如不考虑、消除、删除、丢弃等)所述多个限界区中不满足色差准则218的任一者。举例来说,限界区减少器244可通过消除不具有最大色彩距离(或例如不在具有最大色彩距离的若干限界区之中)的任何限界区,来减少所述多个限界区。
在一些配置中,确定所述多个限界区的所述子集可基于所述多个限界区中的每一者的色差。举例来说,限界区减少器244可计算所述多个限界区中的每一者的色彩距离。限界区的“色彩距离”可为限界区与环绕区(例如完全或部分在限界区周围的区)之间的色差的量度。限界区减少器244可计算所述多个限界区中的每一者的色彩距离。在一些配置中,确定所述多个限界区的子集是基于每一限界区的色彩直方图与每一相应环绕区的色彩直方图之间的比较。举例来说,限界区减少器244可确定限界区中的色彩直方图以及来自环绕区的色彩直方图。限结合图4给出界区和环绕区的一个实例。限界区减少器244可基于直方图来计算直方图距离(例如卡方(Chi-Squared)距离),以确定色彩距离(例如限界区与环绕区有多不同)。
在一些配置中,可计算两个直方图之间的色彩距离(例如hist1=[a1a2a3…a24]且hist2=[b1b2b3…b24])。举例来说,色彩距离可为直方图之间的简单差(例如,作为范围ⅰ(例如i=1到24)内的(ai-bi)2的求和)。在其它实例中,可使用权重。对于权重(wti),例如等式可为范围ⅰ(例如i=1到24)内的wti×(ai-bi)2的求和。所述权重可针对色彩分量的每一仓而不同。
在一些配置中,可依据最大色彩距离和/或色彩距离阈值中的一或多者来表达色差准则218。举例来说,对于具有最大色彩距离的限界区(或对于具有最大色彩距离的若干限界区),可满足色差准则218。在另一实例中,对于大于色彩距离阈值(例如预定色彩距离阈值)的所有限界区,可满足色差准则218。
在一些配置中,可根据以下来实施色差准则218。假定hbb是候选限界框的色彩直方图。举例来说,hbb可具有每色彩分量8个仓或每色彩分量6个仓。色彩空间可为(例如)YCbCr(亮度、蓝色差异和红色差异)、RGB(红色、绿色、蓝色)或另一色彩空间。举例来说,YCbCr可为应用程序的处理管线的色彩空间。可确定大于候选限界框(以例如围封环绕区)的另一框。举例来说,较大框的宽度和高度可为候选限界框的宽度*1.25和高度*1.25。较大框可在候选限界框上居中。可计算较大框的另一色彩直方图,表示为hlargebb。可将框hbb和hlargebb视为向量(例如,具有长度24)。可计算hbb与hlargebb之间的色彩距离。举例来说,可利用L2范数来寻找色彩距离。举例来说,代替于L2范数,可利用替代的距离计算,类似于卡方距离。如果色彩距离较小(例如小于色彩距离阈值或小于另一限界框的色彩距离),那么可拒绝(例如消除)候选限界框。如果色彩距离较大(例如大于色彩距离阈值或大于另一限界框的色彩距离),那么可保留候选限界框(例如,作为包含对象的限界框)。在其中不存在要检查的更多准则(例如当色差准则218是最后一个准则)的配置中,例如可选择具有(例如,所述多个限界框的)最大色彩距离的限界框。
可实施用于实施色差准则218的额外或替代方法。举例来说,限界区减少器244可确定限界区内部以及限界区外部(例如在环绕区中)的均值色彩(例如RGB)值,且可计算均值色彩值之间的色差(例如欧几里得距离)。在此方法中,可选择具有(例如,所述多个限界区的)最大色差的限界区(同时可拒绝其它限界区)。
应注意,使用色彩来减少所述多个限界区可为有利的,因为一些限界区产生算法(例如对象边界框提供者)可不利用色彩信息。举例来说,一些限界区产生算法可仅检查梯度。添加色彩信息提供额外信息来选择限界区。举例来说,色彩直方图差异展现良好实验结果。
在一些配置中,限界区减少器244可以特定次序应用减少准则(例如大小准则216、居中性准则214和/或色差准则218)中的两个或更多个。举例来说,限界区减少器244可首先应用居中性准则214。接着,可将大小准则216应用于在基于居中性准则214的减少之后剩余的限界区。接着,色差准则218可应用于在基于大小准则216的减少之后剩余的限界区。在其它配置中,可利用其它次序(例如大小准则216,接着居中性准则214,接着色差准则218)。
在一些配置中,可利用多个大小准则216。举例来说,可利用第一大小准则和第二大小准则。明确地说,限界区减少器244可拒绝所述多个限界区中不满足居中性准则214和/或第一大小准则(例如不足够接近平均大小和/或不在最大和/或最小尺寸内)的任一者。限界区减少器244可选择满足色差准则218和/或第二大小准则的限界区(例如具有经加权中值大小或经加权均值大小的限界区)。举例来说,在应用居中性准则和第一大小准则(例如居中性和大小设计滤波器)之后,可计算在每一限界区内部和外部(例如在限界区内部以及在限界区外部但在环绕区内)的色彩直方图距离。可利用色彩直方图距离来计算经加权均值限界区(例如限界框)。举例来说,对于每一限界框B_i=some(x,y,w,h),可计算权重w_i。所利用的最终限界框(例如其余子集)可为B=w_1*B_1+w_2*B_2+w_3*B_3+...w_n*B_n。应注意,可设定权重(例如w_i)的阈值,使得可将小于权重阈值的权重从所述计算丢弃。
在一些配置中,可利用一或多个额外准则。举例来说,限界区减少器244可基于边缘计数准则来减少所述多个限界区。
处理器226可基于所述多个限界区的子集(例如,由限界区减少器244确定)来处理所述图像。处理器226可任选地包含和/或实施对象跟踪器228、对象辨识器230、对象去除器232、图像增强器234、裁剪器236、压缩器238和/或聚焦器250。
在一些配置中,对象跟踪器228可基于所述多个限界区的子集来跟踪所述图像中的对象。举例来说,对象跟踪器228可尝试跟踪所述多个限界区的子集中的一或多个对象。对象跟踪可包含基于所述多个限界区的子集来跟踪后续图像(例如帧)中的一或多个对象。举例来说,对象跟踪器228可利用限界区中的对象的图像,且可尝试在后续图像中定位所述对象。
在一些配置中,对象跟踪可包含测量限界区中的一或多个标志位置。对象跟踪器228接着可预测对应标志位置在后续图像(例如帧)中的定位。另外或替代地,对象跟踪器228可搜索后续图像来寻找与来自所关注区的标志匹配的标志。
在一些配置中,对象辨识器230可基于所述多个限界区的子集来辨识对象。在一些配置中,对象辨识可包含将来自限界区的信息(例如标志、特征等)与对象数据库进行比较。如果所述对象与数据库中的对象匹配(例如,达某一概率程度),那么辨识到所述对象。举例来说,可将限界区中的面部与已知面部的数据库进行比较。如果限界区中的面部与数据库中的面部匹配,那么辨识到所述面部。举例来说,所述数据库可包含对应于所述面部的人的名称。因此,可辨识面部来识别人。可对其它对象(例如眼睛、建筑物、街道标记、人、道路、文本等)执行对象辨识。
在一些配置中,对象去除器232可基于所述多个限界区的子集来将对象从图像去除。举例来说,对象去除器232可通过用来自限界区之外的区域的图像补丁填充在对象区域中来去除包含于限界区中的对象。
在一些配置中,图像增强器234可基于所述多个限界区的子集来增强所述图像的质量和/或特性。举例来说,图像增强器234可执行色彩校正、色彩调整、白平衡、对比度增强、去浊、红眼去除、锐度调整、降噪、镜头校正、滤波、图像合并、对象突出显示和/或图像失真(例如变形)。增强所述图像可包含修改所述多个限界区的子集内部和/或外部的像素。
在一些配置中,裁剪器236可基于所述多个限界区的所述子集来裁剪所述图像。举例来说,裁剪器236可裁剪所限界区之外的像素或具有裕度的限界区之外的像素。
在一些配置中,压缩器238可基于所述多个限界区的子集来压缩所述图像。举例来说,压缩器238可压缩限界区之外的像素或具有裕度的限界区之外的像素。这可允许维持包含所关注的对象的一或多个区域(例如限界区)中的图像保真度,同时允许所述图像的其余部分压缩以减小所述图像的数据大小。
在一些配置中,聚焦器250可基于所述多个限界区的子集来使光学系统242聚焦。举例来说,聚焦器250可利用一或多个限界区内的图像作为使光学系统242聚焦的参考。这可允许一或多个限界区内的一或多个对象对焦。
在一些配置中,处理器226可包含和/或实施限界区产生算法选择器220。限界区产生算法选择器220可选择一或多个算法212来产生一或多个限界区。举例来说,限界区产生算法选择器220所选择的算法212可由限界区产生器210使用。
电子装置208可确定图像的选定区域(例如选定点)。可如上文所描述而实现此操作。限界区产生算法选择器220可基于选定区域,从多个限界区产生算法选择一或多个限界产生算法212。在一些配置中,限界区产生算法选择器220可在区生长算法与基于梯度的限界区产生算法(例如BING)之间进行选择。限界区产生器210接着可基于选定的限界区产生算法212产生一或多个限界区。可基于特征向量和分类器来选择限界区产生算法212。在一些配置中,特征向量可基于色彩直方图和/或边缘梯度。
如下给出用于选择限界区产生算法的方法的一个实例。限界区产生算法选择器220可基于选定区域(例如选定点)周围(例如在选定区域内和/或在周围的裕度中)的一些像素(例如测试图像)来计算一些统计。举例来说,限界区产生算法选择器220可计算色彩直方图和/或边缘计数等。可利用这些统计来确定一个限界区产生算法212何时比另一限界区产生算法212作用大。举例来说,限界区产生算法选择器220可使用所述统计来寻找其中第一限界区产生算法212(例如区生长)执行较好的情境(例如图像类型)以及其中第二界限区域算法212(例如基于梯度的限界区产生算法)执行较好的情境的通用性和/或差异。寻找这些情境的通用性和/或差异可基于具有已知后果的数据集。K均值或期望最大值可为可寻找通用性的方法的实例。支持向量机(SVM)可为可寻找辨别差异的方法的实例。基于从数据集习得的通用性和/或差异,限界区产生算法选择器220可计算具有选定区域(例如初始位置)的测试图像上的统计。限界区产生算法选择器220可基于哪些统计最佳拟合(例如具有最近相邻者或线性分离)来确定要使用哪一限界区产生算法212。
存储器252可存储指令和/或数据。处理器可存取存储器252(例如从其读取和/或向其写入)。可由存储器252存储的指令和/或数据的实例可包含图像数据、限界区数据(例如一或多个限界区的位置和/或大小)、一或多个限界区的居中性(例如距离)、对应于一或多个限界区的色彩距离(例如直方图距离)、限界区产生器算法指令、标志、色彩直方图、边缘计数、特征向量等。
图3是说明用于减小多个限界区的方法300的一个配置的实例的流程图。方法300可由结合图2描述的电子装置208执行。
电子装置208可基于图像产生(302)多个限界区。这可结合图1到2中的一或多者所描述来实现。举例来说,电子装置208可使用区生长算法和/或基于梯度的限界区产生算法产生多个限界区。在一些配置中,电子装置可使用如结合图13和15中的一或多者所描述的区生长产生所述多个限界区。
电子装置208可基于图像中的选定区域和/或至少一个准则来确定(304)所述多个限界区的子集。这可如结合图2所描述来实现。举例来说,电子装置208可应用一或多个准则(例如居中性准则、大小准则和/或色差准则)来减少所述多个限界区。
在一些配置中,确定所述多个限界区的子集可基于所述多个限界区中的每一者相对于选定区域的居中性。举例来说,可从所述多个限界区拒绝(例如消除、去除等)不满足居中性准则(例如具有小于中心距离阈值的中心距离)的一或多个限界区。
在一些配置中,确定所述多个限界区的所述子集可基于大小准则。举例来说,可从所述多个限界区拒绝(例如消除、去除等)不满足大小准则(例如不够接近所述多个限界区的平均大小(例如均值、中值等))的一或多个限界区。
在一些配置中,确定所述多个限界区的所述子集可基于色差准则。举例来说,可从所述多个限界区拒绝(例如消除、去除等)不满足色差准则(例如不具有所述多个限界区的最高色彩距离)的一或多个限界区。在一些配置中,限界区的色彩距离可基于限界区(例如内)的色彩直方图与环绕区(例如在限界区之外且在环绕边界内)的色彩直方图之间的比较。应注意,在具有多个准则的配置中,所述多个准则可依序应用或可并行应用。
电子装置208可基于所述多个限界区的子集来处理(306)所述图像。这可如上结合图2所描述来实现。举例来说,电子装置208可辨识对象、跟踪对象、使光学系统242聚焦、去除对象、增强图像、裁剪图像和/或压缩图像。可执行其它操作。
图4是说明选定区域454、限界区456和环绕区边界458的实例的图。电子装置208可确定、产生和/或利用选定区域454、限界区456和环绕区边界458中的一或多者。如上文所描述,选定区域454可基于接收到的输入(例如触摸点、鼠标点击等)来确定或可自动确定。如图4中所说明,选定区域454可为像素群组。举例来说,选定区域454可包含对应于触摸屏输入的区域的像素群组。可基于限界区算法(例如区生长、基于梯度的限界区产生算法等)产生限界区456。举例来说,限界区456可为所产生的多个限界区中的一者。在一些配置中,可基于选定区域454产生限界区456。可基于限界区456确定环绕区(例如环绕区边界458)。举例来说,环绕区边界可比限界区456大某一量。举例来说,环绕区边界458可具有成比例地大于限界区456的尺寸,或可比限界区456大固定量。在一个实例中,环绕区边界458可具有比限界区456的高度大20%的高度,以及比限界区456的宽度大20%的宽度。
在图4中示出的实例子中,限界区456包含选定区域454。如上文所描述,在一些配置中,可拒绝不满足居中性准则和/或大小准则的一或多个限界区。
另外或替代地,可拒绝不满足色差准则的一或多个限界区。在一些配置中,可通过基于限界区456内的像素计算色彩直方图,且基于环绕区(例如限界区456与环绕区边界458之间)中的像素计算色彩直方图,来确定限界区456的色彩距离。接着可通过比较色彩直方图来计算色彩距离。举例来说,可计算(例如,色彩直方图之间的)卡方距离以产生色彩距离。在一些配置中,具有最大色彩距离的限界区可满足色差准则。可拒绝任何其它限界区。
因此,图4结合居中性准则和外像素准则(例如色差准则)来说明边界。应注意,具有比限界框宽度和高度大20%的尺寸的环绕区仅为一个实例。可使用其它比例和/或量。
图5是说明用于减小多个限界区的方法500的更具体配置的实例的流程图。方法500可由结合图2描述的电子装置208执行。
电子装置208可基于图像产生(502)多个限界区。这可结合图1到4中的一或多者所描述来实现。举例来说,电子装置208可使用区生长算法和/或基于梯度的限界区产生算法产生多个限界区。
电子装置208可基于居中性准则,任选地拒绝(504)所述多个限界区中的一或多者。这可结合图2到4中的一或多者所描述来实现。举例来说,电子装置208可通过确定并扔掉不接近所述区的中心的区候选者,来消除限界区候选者。另外或替代地,基于所述居中性准则来拒绝(504)所述多个限界区中的一或多者可基于选定区域(例如接收到的触摸输入)。在一些配置中,可首先应用居中性准则。
电子装置208可基于大小准则,任选地拒绝(506)所述多个限界区中的一或多者。这可结合图2到4中的一或多者所描述来实现。举例来说,可拒绝不够接近所述多个限界区的平均大小(例如均值、中值等)的一或多个限界区。
电子装置208可计算(508)每一限界区的色彩统计(例如色彩直方图)以及每一环绕区的色彩统计(例如色彩直方图)。这可结合图2到4中的一或多者所描述来实现。举例来说,可为每一限界区确定前景(例如限界区)的色彩统计和背景(例如环绕区)的色彩统计。应注意,色彩直方图可指示区(例如限界区、环绕区等)的色彩组成。举例来说,色彩直方图可指示色彩(例如像素色彩值)有多少处于区中和/或色彩谱上的色彩密度。计算(508)色彩统计可包含:为每一限界区,确定像素的环绕区;以及收集在限界区外部以及限界区内部的区的色彩直方图。电子装置208也可计算直方图距离(例如卡方)。这可确定和/或指示背景与限界区有多不同。直方图距离越大,限界区与环绕区(例如背景)之间的差异越大。
电子装置208可基于色差(例如色彩距离)选择(510)限界区。为了仅选择(510)一个限界区(例如限界框),电子装置208可使用为每一限界区计算的距离(例如色彩距离)。在一些配置中,所选择(510)的限界区可为具有最大距离的限界区。或者,电子装置可使用具有权重的距离(例如色彩距离)来计算(508)所有限界区的经加权均值(或中值)。可如上文所描述来确定所有(其余)限界区的经加权均值。电子装置208可因此提供限界区(例如包含对象的限界框)。
图6是说明根据本文中揭示的系统和方法的选定区域664、候选限界区660和选定限界区662的实例的图像。明确地说,点表示图像中的选定区域664。举例来说,所述图像中描绘的汽水罐可为所关注对象。用户可在触摸屏上触摸汽水罐的图像。电子装置208可基于触摸区域确定选定区域664。接着,电子装置208可产生多个候选限界区。举例来说,具有短划线的矩形可为来自一般对象检测器(例如限界区产生器210)的候选限界区660。选定限界区662可为本文中揭示的系统和方法的结果。举例来说,选定限界区662可选自候选限界区660。举例来说,电子装置208可减少候选限界区660,直到仅选定限界区662留下为止。此操作可如上文结合图1到5中的一或多者所描述来实现。
一般对象检测(举例来说,相对于涉及检测如汽车、行人等特定(例如预定)对象的特定对象检测)是有许多工作要探索的相对较新的领域。利用初始位置(例如选定区域)的一些应用程序可使用基于相似性的区生长方法来寻找指定对象。一些区生长方法可能无法通过标度来搜索。在图6中的图像中,例如,一些区生长方法可能无法辨别选择汽水罐还是汽水罐上的印字。一般对象检测器可能够提供所有标度的限界区候选者,从而允许能够搜索每个可能对象大小。本文中揭示的系统和方法的一些配置可将选定区域(例如初始位置输入)与多标度检测器进行组合。通过提供改进的速度和/或准确性,将选定区域与多标度检测器进行组合可为有益的。
图7是说明用于选择限界区产生算法的方法700的一个配置的流程图。方法700可由电子装置208执行。电子装置208可确定(702)图像的选定区域。此操作可如上文结合图1到6中的一或多者所描述来实现。举例来说,电子装置208可接收和/或检测触摸输入、鼠标点击、示意动作等。电子装置208可基于所述接收到的和/或检测到的输入来确定选定区域。举例来说,电子装置208可确定所述输入与图像中的一或多个像素之间的对应性。在一些配置中,可将触摸传感器(例如触摸屏)的检测到的区域映射到图像的一或多个像素。或者,电子装置208可确定选定区域,而不检测用户输入。
电子装置208可基于选定区域,从多个限界区产生算法212选择(704)一种限界区产生算法212。这可如上文结合图2所描述来实现。
在一些配置中,电子装置208可基于选定区域中和/或周围的像素(例如,从具有已知后果的数据集)计算一些统计。统计的实例可包含色彩直方图和边缘计数。可利用所述统计来寻找情境的通用性和/或差异,其中一个限界区产生算法比一或多个其它限界区产生算法执行地更好。举例来说,可利用K均值或期望最大值来寻找通用性,和/或可利用SVM来寻找差异。可使用通用性和/或差异来产生使其中一个限界区产生算法执行较好的一些情境(例如图像类型、具有特定统计和/或特征的图像等)从其中另一限界区产生算法执行较好的其它情境(例如其它类型的图像)分离的决策规则(例如分类器)。可依据准确性和/或速度来测量性能。
基于选定区域(例如选定区域中和/或周围的像素),电子装置208可计算统计(例如色彩直方图、边缘计数等)。决策规则(例如分类器)可应用于所述统计。举例来说,如果所述统计(例如,对应于当前图像中的选定区域)较类似于其中第一限界区产生算法展现较好性能的情境的统计,那么电子装置208可选择所述第一限界区产生算法。然而,如果所述统计较类似于其中第二界限区域产生算法展现较好性能的情境的统计,那么电子装置208可选择所述第二界限区域产生算法。
电子装置208可基于选定限界区产生算法,产生(706)一或多个限界区。举例来说,如果已选择(704)多标度算法,那么电子装置208可基于多标度算法(例如基于梯度的限界区产生算法或BING)来产生一或多个限界区,或如果已选择(704)区生长算法,那么可产生区算法。
图8是说明用于选择限界区产生算法的方法800的更具体配置的实例的流程图。明确地说,图8说明区生长算法(例如用于基于初始点周围的色彩相似性来寻找对象的方法)与多标度算法(例如基于梯度的限界区产生算法或BING)之间的选择的实例。方法800可由电子装置208执行。电子装置208可确定图像的选定区域。这可结合图1到7中的一或多者所描述来实现。
电子装置208可裁剪(804)选定区域。举例来说,电子装置208可丢弃在选定区域之外的像素或在大于选定区域的区域之外的像素。举例来说,电子装置208可保留选定区域,或可保留具有额外裕度的选定区域(例如超过选定区域20%、超过选定区域100%、环绕选定区域的区的预定大小等)。
电子装置208可基于选定区域来计算(806)特征。举例来说,电子装置208可收集选定区域和/或选定区域周围的裕度的图像统计。如上文所描述,电子装置208可产生决策规则(例如可训练描述符或分类器),其确定对于具有某些特性(例如统计)的图像,哪些算法执行得较好。
电子装置208可确定(808)哪一限界区产生算法由所述特征(例如统计)指示。这可结合图2到7中的一或多者所描述来实现。举例来说,如果所述特征较类似于其中区生长算法执行得较好的图像的特征,那么电子装置208可选择区生长算法。如果所述特征更类似于其中多标度算法(例如基于梯度的限界区产生算法)执行得较好的图像的特征,那么电子装置208可选择所述多标度算法。可应用选定算法。
在一些配置中,电子装置208可基于选定区域(例如选定点)周围(例如在选定区域内和/或在选定区域周围的裕度中)的一些像素(例如测试图像),来计算一些统计(例如色彩直方图和/或边缘计数等)。这可对具有已知后果的数据集执行。可利用这些统计来产生决策规则(例如以训练分类器和/或描述符),其为具有特定特性(例如统计)的图像选择哪一限界区产生算法(例如区生长或多标度)执行得较好。举例来说,可用K均值、期望最大值和SVM中的一或多者来寻找通用性和/或差异。电子装置208可将决策规则(例如分类器、描述符等)应用于当前选定区域的统计(使用最近相邻者和/或线性分离,例如其可指示统计最佳配合哪一情形)。这可产生区生长算法或多标度算法是否将可能提供较好性能的决策。
如果选定限界区算法是区生长算法,那么电子装置208可基于区生长算法产生(810)限界区(例如对象限界框)。这可结合图2、13和15中的一或多者所描述来实现。电子装置208可基于限界区来处理(816)所述图像。举例来说,电子装置208可如上文结合图2到3中的一或多者所描述来处理(816)所述图像。应注意,在一些配置中,区生长算法可仅产生一个限界区(例如,对于每一对象)。在这些配置中,电子装置208可直接基于限界区来处理(816)所述图像。在其它配置中,区生长算法可产生多个限界区(例如,对于每一对象)。在这些配置中,电子装置208可任选地确定(814)所述多个限界区的子集(例如一个),且基于所述多个限界区的所述子集来处理(816)所述图像。
如果选定限界区算法是多标度算法,那么电子装置208可基于所述多标度算法来产生(812)多个限界区(例如限界区候选者)。这可如上文结合图1到6中的一或多者所描述来实现。
电子装置208可基于所述图像中的选定区域来确定(814)所述多个限界区的子集(例如一个)。此操作可如上文结合图2到6中的一或多者所描述来实现。举例来说,电子装置208可从多个限界框确定单个对象限界框。
电子装置208可基于限界区来处理(816)所述图像。举例来说,电子装置208可如上文结合图2到3中的一或多者所描述来处理(816)所述图像。
应注意,对于不同图像,一些种类的限界区产生算法可比其它限界区产生算法执行得好。举例来说,如根据本文所揭示的系统和方法所描述的具有限界区减少的多标度算法或基于梯度的限界区产生算法常常可比区生长算法执行得好。然而,在一些情况下(例如,对于单色对象),区生长算法执行得非常好。否则,多标度算法可提供较大的精度和稳定性。因此,选择限界区产生算法的能力可通过选择对于特定图像可能更好地执行的限界区产生算法,来提供较大的灵活性和改进的性能。
图9是说明其中可实施用于选择限界区产生算法和/或用于减少多个限界区的系统和方法的处理器926的实例的框图。处理器926可为结合图2描述的处理器226的一个实例。举例来说,处理器926可包含在电子装置(例如电子装置208)内。
处理器926可包含和/或实施对象检测器984和/或对象跟踪器928。如图9中所说明,对象检测器984可包含限界区产生器910、限界区减少器944和/或限界区产生算法选择器920。限界区产生器910、限界区减少器944和限界区产生算法选择器920可为结合图2描述的限界区产生器210、限界区减少器244和限界区产生算法选择器220的相应实例。
对象检测器984可检测图像中(例如视频帧中)的对象。举例来说,对象检测器984可产生包含对象的限界区。在一些配置中,限界区产生算法选择器920可任选地选择如上文结合图2以及7到8中的一或多者所描述的限界区产生算法。限界区产生器910可产生多个限界区(例如,当选择产生多个限界区的限界区产生算法时)。举例来说,限界区产生器910可产生多个限界区。这可结合图1到8中的一或多者所描述来实现。限界区减少器944可确定所述多个限界区的子集(例如一或多个)。这可结合图2到6以及8中的一或多者所描述来实现。
可将所述多个限界区的子集提供到对象跟踪器928。对象跟踪器928可为结合图2描述的对象跟踪器228的实例。在一些配置中,对象跟踪器928可为具有光流模块986的运动跟踪器。
对象跟踪器928可用于对当前视频帧(N)执行基于运动的跟踪。举例来说,可接收(例如通过电子装置)先前视频帧(N-1)和当前视频帧(N)。先前视频帧(N-1)可在视频帧序列中紧接着先于当前视频帧(N)。额外视频帧可由处理器926获得和处理。可将先前视频帧(N-1)提供到对象跟踪器928。另外,存储器(例如存储器252,图9中未图示)可存储与先前视频帧(N-1)相关联的数据,在本文中被称作所捕获的先前视频帧。在一些配置中,存储器可直接从电子装置(例如从相机)获得关于先前视频帧(N-1)的信息。存储器还可获得关于先前视频帧(N-1)的跟踪结果,其可指定在先前视频帧(N-1)中的什么地方跟踪和/或检测到对象。关于先前视频帧(N-1)或其它先前捕获的视频帧的信息可存储在存储器中。
对象跟踪器928可随后接收一序列视频帧中的当前视频帧(N)。运动跟踪器928可将当前视频帧(N)与先前视频帧(N-1)进行比较(例如使用从存储器提供的信息)。运动跟踪器928可使用光流模块986来跟踪对象在当前视频帧(N)上的运动。光流模块986可包含用于对当前视频帧(N)上的对象执行基于运动的跟踪的硬件和/或软件。通过将先前视频帧(N-1)与当前视频帧(N)进行比较,运动跟踪器928可确定与目标对象处于当前视频帧(N)中的可能性相关联的跟踪置信度值。在一个实例中,跟踪置信度值是基于目标对象位于当前视频帧(N)内或当前视频帧(N)内的窗内的确定性百分比的实数(例如介于0与1之间)。
如图9中所说明,所说明的组件中的一或多者可任选地通过处理器926实施。举例来说,对象检测器984和对象跟踪器928可通过处理器926实施。在一些配置中,不同处理器可用于实施不同组件(例如一个处理器可实施对象跟踪器928,且另一处理器可用于实施对象检测器984。
图10是说明可操作以执行单触式对象选择的系统1000的一个配置的框图。系统1000包含移动装置1002。移动装置1002可为结合图2描述的电子装置208的一个实例。移动装置1002可为移动电话、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、个人数字助理(PDA)、计算机或任何其它移动计算装置。移动装置1002包含相机1004。相机1004可经配置以捕获和输出静态图像和视频。移动装置1002包含输出接口1006。输出接口1006可经配置以与显示装置(例如液晶显示器(LCD)、发光二极管(LED)显示器或任何其它显示装置)通信。在特定配置中,输出接口1006输出图形用户接口(GUI)。移动装置1002进一步包含输入接口1008。输入接口1008可包含触摸屏、任何其它类型的输入装置,或其任何组合。在特定配置中,输入接口1008可经配置以接收来自用户1010的输入(例如响应于由输出接口1006输出的GUI的输入)。
移动装置1002可进一步包含配件装置接口1012。在特定配置中,配件装置接口1012接收来自配件装置1014的输入。在特定配置中,配件装置1014包含相机。从配件装置1014接收到的输入可包含图像或视频数据。在特定配置中,附件装置1014可嵌入于用户可穿戴配件(例如眼镜或珠宝)中。
移动装置1002可进一步包含通信接口1016,其经配置以与网络1018通信。通信接口1016可包含以太网接口、802.11(Wi-Fi)接口、蜂窝式通信接口,例如长期演进(LTE)接口、码分多址(CDMA)接口、时分多址(TDMA)接口、802.16(WiMAX)接口、任何其它有线或无线网络接口,或其任何组合。
移动装置1002进一步包含存储装置1020。存储装置1020可包含固态驱动器、硬盘驱动器、光盘驱动器,或任何其它类型的计算机可读存储媒体或装置。存储装置1020可存储图像和视频(例如由相机1004捕获,由移动装置1002经由通信接口1016下载等的图像和视频)。在一些配置中,存储装置1020可为结合图2描述的存储器252的一个实例。
单触式对象选择模块1022可在硬件与软件的组合(例如可由移动装置1002的处理器执行的存储于移动装置1002的存储器中的指令)中实施。或者,单触式对象选择模块1022的全部或部分可在硬件中实施。单触式对象选择模块1022可经由用户输入接收包含(例如描绘)在视频的图像或帧中的一或多个对象的选择。单触式对象选择模块1022可经配置以响应于从用户1010接收到的单触式输入来执行对象选择。参考图11到17进一步描述系统1000的操作的实例。
图11是说明单触式对象选择的方法1100的一个实例的图。图11说明用户可经由单触式输入1104选择对象1102,且可响应于单触式输入1104识别对象限界框1106。
单触式对象选择可在各种计算机视觉(CV)应用中有用。作为说明性、非限制性实例,用于限定限界框的多点触摸输入在对象跟踪应用中可能较繁琐或不精确。为了使用多点触摸输入来限定限界框,用户可通过使用单手指绘制或双手指绘制来绘制一条线来越过对象。此类限界框可为不精确的。举例来说,用户可选择比所要的多或少的图像来跟踪。另外,在一些情况下,对于用户来说,可能难以在移动目标(例如快速移动的汽车)周围或小对象(例如足球场上的特定足球运动员)周围限定限界框。因此,响应于单触式输入1104而产生对象限界框1106来选择对象1102可提供改进的用户体验。
图12是说明与对象选择相关联(例如响应于单触式输入)的多个实例计算机视觉(CV)使用情况1200的图。举例来说,图12说明可与各种应用程序相关联的初始对象选择1202。举例来说,初始对象选择1202可包含触摸屏上的单触式输入(例如图11中说明的单触式输入1104)。然而,将了解,可存在多种方式来供用户做出对象的初始选择。替代用户输入的实例可包含一或多个示意动作、一或多个眼睛移动、一或多个话音命令或其组合。或者,可使用各种基于CV的自动对象检测机制来进行初始对象选择。
图12进一步说明初始对象选择1202可在各种应用程序中有用,包含对象跟踪应用程序1204、对象辨识应用程序1206、现实扩增应用程序1208、场景分析应用程序1210或自动对焦应用程序1211,以及其它替代方案。在与对象跟踪应用程序1204相关联的实例图像中,正跟踪的对象包含移动的汽车1212。另外或替代地,在与自动对焦应用程序1211相关联的实例图像中,正对焦的对象包含汽车1212。在一些配置中,可结合跟踪或独立于跟踪来执行自动对焦。举例来说,随着对象移动,相机镜头焦点可维持在对象上。在与对象辨识应用程序1206相关联的实例图像中,识别四个对象,包含人1214、飞机1216、汽车1218和动物1220。在与现实扩增应用程序1208相关联的实例图像中,提供与特定位置相关联的信息1222(例如建筑物的地址或标石位于建筑物附近的指示)。在与场景分析应用程序1210相关联的实例图像中,足球场上的个别足球运动员可由不同限界区1224识别。
图13是说明用于对象选择的基于运动的分段的方法1300的实例的图。在图13中示出的实例中,使用基于运动的分段的对象选择可响应于单触式输入1302(例如响应于人在图像中的单个用户触摸)。在图13中,单触式输入1302表示为跑动的儿童背上的白点。
响应于单触式输入1302,可基于至少两个视频帧来检测运动。图13说明其中包含第一视频帧1306、第二视频帧1308和第三视频帧1310的一序列视频帧1304用于运动场产生1312的实例。然而,将了解,替代数目的视频帧可用于运动场产生1312。在一些情况下,视频编码器(例如视频编码硬件)可用于全局/局部运动估计1314。在一些情况下,视频编码器可使用与运动估计相关联的视频编码级的子集来估计运动,而不执行不与运动估计相关联的其它视频编码级。
图13说明视频编码器所产生的运动向量场1316的实例。在一些情况下,运动向量场1316可表示密集运动向量场(例如帧中每8×8个像素块一个运动向量)。虽然在图13中,以灰度级格式说明运动向量场1316,但运动向量场1316可包含一或多个色彩。虽然运动向量场1316可为有噪声的,但图13的运动向量场1316说明移动的人是可辨别的。对于全局/局部运动估计1314,可执行运动向量场1316的进一步处理。举例来说,图13说明:第一灰度级图像1318,其表示运动向量场1316中的X方向(水平)运动;以及第二灰度级图像1320,其表示运动向量场1316中的Y方向(垂直)运动。在图13中说明的特定实例中,第一灰度级图像1318表示将X方向中值滤波器应用于运动向量场1316的结果,而第二灰度级图像1320表示将Y方向中值滤波器应用于运动向量场1316的结果。在替代配置中,可使用一或多个不同滤波器或若干组滤波器来进一步处理运动向量场1316。
在特定配置中,全局运动估计可包含确定X方向和Y方向两者上的所有运动的中值。或者,可使用全局运动估计的其它方法。举例来说,可将图像分成多个区(例如8×8像素方块),可为每一区获得运动的中值,且可基于来自多个区的个别中值中的中值来估计全局运动。在特定配置中,局部运动估计可包含确定所述图像的个别部分中(例如个别8×8像素方块中)的局部运动向量。
在图13中示出的实例中,单触式输入1302可用于使局部运动与全局运动分开。也就是说,单触式输入1302可与运动向量场1316中的X和Y坐标相关联,且这些X和Y坐标可表示将用作区生长的第一种子1322的开始位置。在图13中,第一种子1322由点表示,且基于第一种子1322执行的第一区生长操作产生第一所关注区(ROI)1324(在本文中也被称作限界区(例如限界框))。
在一些情况下,基于单触式输入1302的区生长所产生的限界框可能不满足与对象跟踪应用程序(例如图12的对象跟踪应用程序1204)相关联的限界框大小阈值。作为另一实例,用户无法经由单触式输入1302来准确地选择特定对象。举例来说,对于用户来说,可能难以选择小对象(例如与图12中的限界区1224相关联的足球运动员)和/或快速移动的对象(例如图12中的移动的汽车1212)。因此,虽然单触式输入1302可提供区生长的开始点,但图13说明通过使用区生长的一或多个替代种子的区生长1326进行的特定分段配置。
图13说明可通过从多个种子的区生长产生的多个候选关注区(ROI)1328(例如,还被称作限界区)。第一候选ROI包含通过使用单触式输入1302作为第一种子1322的区生长产生的第一ROI 1324。图13进一步说明其中四个其它种子用于区生长的特定实例。然而,将了解,替代数目的种子可用于区生长1326所进行的分段,从而产生替代数目的候选ROI。在图13的实例中,四个其它种子是相对于第一种子1322的X、Y坐标的相邻X、Y坐标。在一些情况下,相邻X、Y坐标可包含偏移了n个像素(在正或负方向上)的坐标,其中n可为固定的整数(例如1)或可编程的。作为说明性、非限制性实例,基于具有替代X、Y坐标(例如X-1,Y+1)的第二种子的区生长可导致第二候选ROI 1330。作为进一步实例,基于具有替代坐标(例如X+1,Y+1)的第三种子的区生长可导致第三候选ROI 1332,基于具有替代坐标(例如X-1,Y-1)的第四种子的区生长可导致第四候选ROI 1334,且基于具有替代坐标(例如X+1,Y-1)的第五种子的区生长可导致第五候选ROI 1336。
图13进一步说明可对候选ROI 1328的至少一个子集执行以便产生最终ROI 1340的帧内ROI融合1338(在本文中也被称作空间ROI融合)。也就是说,个别候选ROI 1324、1330、1332、1334和1336表示由基于不同种子执行的个别区生长操作产生的ROI,且最终ROI1340表示个别区生长操作的融合结果。在图13中所说明的特定实例中,最终ROI 1340由个别候选ROI 1324、1330、1332、1334和1336的最大X跨度和最大Y跨度界定。或者,可丢弃候选ROI 1324、1330、1332、1334和1336中的一或多者,且可对候选ROI 1324、1330、1332、1334和1336的子集执行帧内ROI融合1338。为了说明,当五个候选ROI 1324、1330、1332、1334和1336中的一或多者不满足大小阈值(例如ROI可能太小而无法进行对象跟踪)时,可丢弃它们。作为另一实例,当五个候选ROI 1324、1330、1332、1334和1336中的一或多者超过大小阈值(例如ROI可能太大而无法进行对象跟踪)时,可丢弃它们。也就是说,可丢弃基于一或多个准则(例如与其它候选ROI的相似性)识别为离群值的候选ROI,且其无法用来确定最终ROI 1340。图13进一步说明其中帧内ROI融合1338所确定的最终ROI 1340用作对象限界框1342(例如用于对象跟踪)的特定实例。举例来说,对象限界框1342可为用以在儿童在场景中跑动时跟踪所述儿童的初始限界框。然而,将了解,最终ROI 1340可用于其它计算机视觉(CV)应用程序(例如用于对象辨识,用于现实扩增,或场景分析,以及其它替代方案)。
因此,图13说明由视频编码器(例如视频编码硬件)产生的可用于分段和单触式对象选择的运动向量场1316。图13中说明的单触式对象选择的实例包含通过区生长进行的分段以产生多个候选ROI,以及基于候选ROI的至少一个子集执行ROI融合,以确定最终ROI(例如用于对象跟踪应用程序)。虽然图13说明包含运动场产生1312、全局/局部运动估计1314、通过区生长的分段1326以及帧内ROI融合1338的特定实例,但将了解,次序不具限制性。也就是说,替代次序是可能的,其中更多步骤、更少步骤、不同步骤、同时步骤等。
图14是说明在用于对象选择的基于运动的分段的情形下的错误处置方法1400的一个配置的图。在图14中示出的实例中,错误处置可响应于单触式输入1402(例如在图像的不包含具有相关联局部运动的对象的部分上的用户触摸)。在图14中,单触式输入1402表示为一块草地上的白点。
图14说明响应于用户在草上的触摸执行帧内ROI融合1404可导致超过大小阈值(例如用于对象跟踪)的最终ROI 1406。在对象跟踪的情形中,大小阈值可基于用户不会跟踪与最终ROI 1406的大小一样大的对象的假定。出于跟踪目的,所述大小阈值可指定对象在单触式输入1402的特定空间范围内。为了说明,所述大小阈值可指定所述对象小于最大对象大小,且大于最小对象大小。另外或替代地,所述大小阈值可指定对象的最小纵横比和最大纵横比。
在图14中说明的特定配置中,错误处置1408可包含产生视觉指示1410。视觉指示1410可警告用户单触式用户输入1402在选择跑动的儿童时未成功。视觉指示1410可提示用户以提供另一单触摸输入。在一些情况下,视觉指示1410可包含具有基于单触式用户输入1402的X、Y坐标所产生的默认大小的限界框。
虽然图13和14说明用于单触式对象选择的空间分段,但将了解,可代替于空间分段或除空间分段之外,使用其它类型的分段。另外,虽然图13和14说明帧内或空间ROI融合,但将了解,可代替于空间ROI融合或除空间ROI融合之外,使用其它类型的ROI融合。
图15说明包含用于单触式对象选择的时间ROI融合的基于色彩的分段的方法1500的特定说明性配置。图15说明可对多个视频帧执行以产生多个候选ROI且可使用时间ROI融合来产生最终ROI的二步法分段。在一些配置中,当基于运动的分段(例如如参考图13到14所描述)失效时,可执行基于色彩的分段。
图15说明基于色彩的分段的输出是限界框(如在相对于图13到14描述的基于运动的分段方法中),且用户输入1502是单触式用户输入(如在相对于图13到14描述的基于运动的分段方法)。相比之下,图15说明时间双分段方法(例如二级分段方法),接着是时间ROI融合而不是空间ROI融合,如相对于图13到14所描述。为了说明,对于基于色彩的分段,可识别预定数目的视频帧来进行分段(例如五个帧)。可对所述五个帧中的每一者执行基于色彩的分段,且所述方法可包括识别所述五个帧之中的一致分段结果。也就是说,在真对图13描述的基于运动的分段方法中,在空间上进行ROI融合,且在图15中说明的基于色彩的分段的特定实例中,可在时间上进行ROI融合。
在图15中,用户输入1502可包含单触式输入。响应于用户输入1502,可对多个视频帧执行二步法分段。也就是说,特定视频帧1504的处理可包含第一级分段1506和第二级分段1508,从而产生与特定视频帧1504相关联的候选ROI 1510。可产生多个候选ROI,其各自与多个视频帧中的特定视频帧相关联。为了识别所述多个视频帧之中的一致分段结果,可执行时间ROI融合1512以产生最终ROI 1514。
仅出于说明性目的,图15示出第一视频帧1516(“帧N”)、第二视频帧1518(“帧N+1”),以及第三视频帧1520(“帧N+2”)。然而,将了解,可对替代数目的帧执行基于色彩的分段。在图15中,在第一视频帧1516中示出用户触摸位置1522。归因于相机运动或对象在场景中的运动,对象可从帧到帧移动。图15说明可将用户触摸位置1522传播到后续帧。为了说明,在图15的实例中,用户触摸位置1522在鼻尖上,且鼻尖上的此点可从第一视频帧1516传播到第二视频帧1518。另外,在鼻尖上的用户触摸位置1522可从第二视频帧1518传播到第三视频帧1520。在一些情况下,由视频编码器(如上文相对于运动向量场1316所描述)产生的运动向量场可用于在帧之间传播用户触摸位置1522。
对于第一视频帧1516,可使用用户触摸位置1522来确定开始区(例如5×5块),且可使用区生长来使开始区生长到遮罩中。在一些情况下,如果所述遮罩未能满足大小阈值(例如遮罩太大),那么可使用较大开始区(例如7×7块或9×9块)再次执行区生长。在基于色彩的分段方法中,可将区生长应用于红色、绿色和蓝色(RGB)色彩通道信息,而不是X、Y坐标(如在图13的基于运动的方法中)。基于所述遮罩,可产生第一候选ROI 1524。
图15说明使用种子化区生长方法的分段的实例。也就是说,用户以单个触摸点(即,用户触摸位置1522)的形式提供种子。在图15中,双层(在本文中也被称作双级)方法包含第一层,其从在生长到具有区域N的区中的用户触摸位置1522上居中的5×5块开始(说明为第一级分段1506)。在一些情况下,区域N可不满足大小阈值(例如区域N可能太小)。因此,从具有不同大小(例如在此情况下,M大于5的M×M块)的块(在用户触摸位置1522上居中)开始的第二层可生长到具有区域R的区中(说明为第二级分段1508)。在一些情况下,可基于N来确定M,且M可与N成比例。在特定配置中,可基于(1/3)帧高度*(1/3)帧宽度来确定最大大小,而最小大小可为16×16像素(以及其它替代大小)。另外,在一些情况下,可存在最大纵横比和最小纵横比阈值。为了说明,纵横比阈值可不包括高、薄块或平坦、窄块。
对于第二视频帧1518,所传播的用户触摸位置1522可确定另一开始块(例如5×5块),使用RGB色彩通道信息的区生长可用于使开始块生长到遮罩中,且可从所述遮罩产生第二候选ROI 1526。类似地,对于第三视频帧1520,所传播的用户触摸位置1522可确定另一开始块(例如5×5块),使用RGB色彩通道信息的区生长可用于使开始块生长到遮罩中,且可从所述遮罩产生第三候选ROI 1528。
时间ROI融合1512可包含基于候选ROI的至少一个子集确定最终ROI 1514。也就是说,可使用第一候选ROI 1524、第二候选ROI 1526和第三候选ROI 1528的至少一个子集来确定最终ROI 1514。图15说明可使用最终ROI 1514来产生对象限界框1530(例如用于对象跟踪)。
图16是说明通过执行分段和ROI融合进行单触式对象选择的方法1600的一个配置的流程图。在说明性配置中,方法1600可由图10的移动装置1002执行。
方法1600包含在1602处接收单触式输入。举例来说,单触式输入可包含图13中说明的单触式输入1302或图14中说明的单触式输入1402。
方法1600包含在1604处执行分段以产生多个候选关注区(ROI)。举例来说,在一些情况下,分段可包含相对于图13描述的基于运动的分段。在其它情况下,所述分段可包含相对于图15描述的基于色彩的分段。或者,所述分段可包含基于运动的分段和基于色彩的分段两者。为了说明,当执行分段时,可检查运动和色彩信息两者。也就是说,XY坐标信息和RGB色彩通道信息两者可用于分段。
方法1600包含在1606处对候选ROI的至少一个子集执行ROI融合,以产生最终ROI。举例来说,执行ROI融合可包含执行相对于图13描述的帧内ROI融合1338。作为另一实例,执行ROI融合可包含执行相对于图15描述的时间ROI融合1512。
图17是说明使用基于运动的和基于色彩的分段连同ROI融合的组合来进行单触式对象选择的方法1700的一个配置的流程图。在说明性配置中,方法1700可由图10的移动装置1002执行。
方法1700包含在1702处接收视频帧,且在1704处执行基于运动的分段以确定运动ROI。在基于运动的分段的情形下,可接收一序列视频帧以便估计运动。举例来说,参看图13,可接收所述序列的视频帧1304,且视频编码器可基于所述序列的视频帧1304来产生运动向量场1316。如图13中所说明,区生长1326所进行的分段可包含产生多个候选ROI 1328,以及对所述候选ROI 1328的至少一个子集执行帧内(空间)ROI融合1338。
在1706处,方法1700包含确定帧内ROI融合1338所产生的ROI是否表示有效ROI。举例来说,如上文相对于图13所描述,在一些情况下,ROI融合所产生的ROI可能不满足大小阈值。举例来说,在对象跟踪的情形下,大小阈值可基于用户不会跟踪与基于帧内ROI融合确定的ROI一样大的对象的假定。出于跟踪目的,所述大小阈值可指定对象在单触式输入1302的特定空间范围内。为了说明,所述大小阈值可指定所述对象小于最大对象大小,且大于最小对象大小。另外或替代地,所述大小阈值可指定对象的最小纵横比和最大纵横比。
当运动ROI有效时,方法1700可包含在1716处产生最终ROI。也就是说,在图17中说明的特定配置中,使用基于运动的分段方法产生的融合ROI可被视为较高优先级或充足结果,且方法1700可不包含执行基于色彩的分段。在一些情况下,可基于最终ROI产生对象限界框。为了说明,参看图13,可基于最终ROI 1340产生对象限界框1342。
当在1706处确定运动ROI将无效时,方法1700可包含在1708处执行基于色彩的分段以确定特定视频帧的色彩ROI。也就是说,在图17中说明的特定配置中,当基于运动的分段失效时,可执行基于色彩的分段。为了说明,参看图15,可对第一视频帧1516执行基于色彩的分段。对于第一视频帧1516,可使用用户触摸位置1522来确定开始区(例如5×5块),且可使用区生长来使开始区生长到遮罩中。在一些情况下,如果遮罩太大,那么可使用较大的开始区(例如7×7块或9×9块)来再次执行区生长。在基于色彩的分段方法中,可将区生长应用于红色、绿色和蓝色(RGB)色彩通道信息,而不是X、Y坐标(如在图13的基于运动的分段方法中)。基于所述遮罩,可产生第一候选ROI 1524。
方法1700包含在1710处确定是否已达到特定(例如最大)帧数目。也就是说,可对特定数目的帧(例如五个帧)执行基于色彩的分段,且方法1700可返回到1702,以接收与另一帧相关联的信息,直到已达到用于基于色彩的分段的帧的特定数目为止,或直到运动ROI有效为止。为了说明,参看图15的实例,说明三个帧。在对第一视频帧1516执行基于色彩的分段以确定第一候选ROI 1524之后,可对第二视频帧1518执行基于色彩的分段以确定第二候选ROI 1526。在对第二视频帧1518执行基于色彩的分段以确定第二候选ROI 1526之后,可对第三视频帧1520执行基于色彩的分段。
当在1710处已达到帧的特定数目时,方法1700包含在1712处执行色彩ROI的时间ROI融合。为了说明,参看图15,可对第一候选ROI 1524、第二候选ROI 1526和第三候选ROI1528执行时间ROI融合1512。在1714处,方法1700包含确定融合的色彩ROI是否有效。为了说明,参看图15,可对表示候选ROI 1524、1526和1528的时间ROI融合1512的结果的最终ROI1514进行评估以确定有效性。当融合的色彩ROI有效时,方法1700进行到1716,其中将由基于色彩的分段产生的最终ROI(例如图15中的最终ROI 1514)确定为(例如产生作为)最终ROI。在一些情况下,可基于最终ROI产生对象限界框。为了说明,参看图15,可基于最终ROI1514产生对象限界框1530。
在特定配置中,图16的方法1600和图17的方法1700可经由处理单元(例如中央处理单元(CPU)、数字信号处理器(DSP)或控制器)的硬件(例如现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)等)、经由固件装置,或其任何组合来实施。举例来说,图16的方法1600和图17的方法1700可由执行指令的处理器来实施,如相对于图18所描述。
图18说明可包含在经配置以实施本文中所揭示的系统和方法的各种配置的电子装置和/或无线装置1802内的特定组件。电子装置/无线装置1802可为接入终端、移动台、用户设备(UE)、智能电话、数码相机、摄像机、平板装置、膝上型计算机等(例如电子装置208、移动装置1002等)。可根据本文所述的电子装置208和移动装置1002中的一或多者来实施电子装置/无线装置1802。电子装置/无线装置1802包含处理器1835。处理器1835可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1835可被称作中央处理单元(CPU)。尽管电子装置/无线装置1802中仅示出单个处理器1835,但在替代配置中,可使用处理器(例如ARM和DSP)的组合。
电子装置/无线装置1802还包含存储器1817。存储器1817可为任何能够存储电子信息的电子组件。存储器1817可体现为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、随处理器包含的机载存储器、EPROM存储器、EEPROM存储器、寄存器等,包含其组合。
数据1821a和指令1819a可存储于存储器1817中。指令1819a可为可由处理器1835执行以实施本文所描述的方法中的一或多者。执行指令1819a可涉及使用存储于存储器1817中的数据。当处理器1835执行指令1819时,可将指令1819b的各部分加载到处理器1835上,且可将各条数据1821b加载到处理器1835上。
电子装置/无线装置1802还可包含发射器1825和接收器1827以允许将信号发射到电子装置/无线装置1802且从电子装置/无线装置1802接收信号。发射器1825和接收器1827可统称为收发器1829。多个天线1837a到1837b可电耦合到收发器1829。电子装置/无线装置1802还可包含(未图示)多个发射器、多个接收器、多个收发器和/或额外天线。
电子装置/无线装置1802可包含数字信号处理器(DSP)1831。电子装置/无线装置1802还可包含通信接口1833。通信接口1833可实现一或多个种类的输入和/或输出。举例来说,通信接口1833可包含一或多个端口和/或通信装置以用于将其它装置链接到电子装置/无线装置1802。另外或替代地,通信接口1833可包含一或多个其它接口(例如,触摸屏、小键盘、键盘、麦克风、相机等)。举例来说,通信接口1833可使用户能够与电子装置/无线装置1802交互。
电子装置/无线装置1802的各种组件可通过一或多个总线耦合在一起,所述总线可包含电力总线、控制信号总线、状态信号总线、数据总线等。为清楚起见,各种总线在图18中说明为总线系统1823。
术语“确定”涵盖各种各样的动作,且因此“确定”可包含计算、估计、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找)、查实等。并且,“确定”可包含接收(例如,接收信息)、存取(例如,在存储器中存取数据)及类似者。并且,“确定”可包括解析、选择、挑选、建立等等。
除非以其它方式明确地指定,否则短语“基于”并不意味着“仅基于”。换句话说,短语“基于”描述“仅基于”与“至少基于”两者。
术语“处理器”应广义上解释为涵盖通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。在一些情况下,“处理器”可指专用集成电路(ASIC)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)等。术语“处理器”可指代处理装置的组合,例如DSP和微处理器的组合、多个微处理器的组合、一或多个微处理器结合DSP核心,或任何其它此类配置。
术语“存储器”应广义上解释为涵盖能够存储电子信息的任何电子组件。术语存储器可指各种类型处理器可读媒体,诸如随机接入存储器(RAM)、只读存储器(ROM)、非易失性随机接入存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可抹除PROM(EEPROM)、快闪存储器、磁性或光学数据存储器、寄存器等。如果处理器可从存储器读取信息和/或将信息写入到存储器,那么存储器被称为与处理器电子连通。与处理器成一体的存储器与处理器进行电子通信。
术语“指令”和“代码”应该广义地解释为包含任何类型的计算机可读语句。举例来说,术语“指令”和“代码”可指代一或多个程序(program)、例程、子例程、函数、过程(procedure)等。“指令”和“代码”可包括单个计算机可读语句或许多计算机可读语句。
本文中所描述的功能可在通过硬件执行的软件或固件中实施。所述功能可存储为计算机可读媒体上的一或多个指令。术语“计算机可读媒体”或“计算机程序产品”指代可通过计算机或处理器存取的任何有形存储媒体。作为实例而非限制,计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于运载或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和Blu-光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。应注意,计算机可读媒体可为有形且非暂时性的。术语“计算机程序产品”是指与可由计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)组合的计算装置或处理器。如本文中所使用,术语“代码”可指可由计算装置或处理器执行的软件、指令、代码或数据。
还可通过传输媒体来传输软件或指令。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线路(DSL)或无线技术(例如,红外线、无线电和微波)从网站、服务器或其它远程源传输软件,那么同轴电缆、光纤电缆、双绞线、DSL或无线技术(例如,红外线、无线电和微波)包含在传输媒体的定义中。
本文中所揭示的方法包括用于实现所描述的方法的一或多个步骤或动作。在不偏离权利要求书的范围的情况下,方法步骤和/或动作可彼此互换。换句话说,除非正描述的方法的适当操作需要步骤或动作的特定次序,否则,在不脱离权利要求书的范围的情况下,可修改特定步骤和/或动作的次序和/或使用。
另外,应了解,用于执行本文中描述的方法和技术的模块和/或其它适当装置可下载和/或另外通过装置获得。举例来说,装置可耦合到服务器以促进用于执行本文中所描述的方法的装置的传送。或者,本文所述的各种方法可经由存储装置(例如随机存取存储器(RAM)、只读存储器(ROM)、物理存储媒体,例如压缩光盘(CD)或软性磁盘,等)提供,使得在将存储装置耦合或提供到装置后,所述装置可即刻获得各种方法。
应理解,所附权利要求书不限于上文所说明的精确配置和组件。在不脱离所附权利要求书的范围的情况下,可在本文中所描述的系统、方法和设备的配置、操作和细节方面进行各种修改、改变和变更。

Claims (26)

1.一种由电子装置执行的方法,其包括:基于图像产生多个限界区;基于色差准则以及所述图像中的选定区域,确定所述多个限界区的子集,其中所述色差准则基于限界区与相应环绕区之间的色彩距离来区分限界区;以及基于所述多个限界区的所述子集来处理所述图像。
2.根据权利要求1所述的方法,其中确定所述多个限界区的所述子集是进一步基于所述多个限界区中的每一者相对于所述选定区域的居中性。
3.根据权利要求1所述的方法,其中确定所述多个限界区的所述子集是进一步基于每一限界区的色彩直方图与每一相应环绕区的色彩直方图之间的比较。
4.根据权利要求1所述的方法,其中确定所述多个限界区的所述子集是进一步基于所述多个限界区的平均大小。
5.根据权利要求4所述的方法,其中所述平均大小是中值大小和均值大小中的至少一者。
6.根据权利要求1所述的方法,其中处理所述图像包括执行对象辨识、对象跟踪、聚焦、对象去除、图像增强、裁剪或压缩中的一或多者。
7.根据权利要求1所述的方法,其中产生所述多个限界区是基于一基于梯度的限界区产生算法。
8.根据权利要求1所述的方法,其中基于所述色差准则和所述图像中的所述选定区域来确定所述多个限界区的子集包括:拒绝所述多个限界区中使居中性准则或第一大小准则中的一或多者失效的任一者;以及选择满足色差准则或第二大小准则中的一或多者的限界区。
9.根据权利要求8所述的方法,其中对于具有经加权中值大小或经加权均值大小的限界区,满足所述第二大小准则。
10.根据权利要求1所述的方法,其中基于所述色差准则和所述图像中的所述选定区域来确定所述多个限界区的子集包括:拒绝所述多个限界区中使居中性准则未能产生多个其余限界区的任一者;确定所述多个其余限界区中的每一者与相应环绕区之间的色彩距离;以及选择具有最大色彩距离的限界区。
11.一种电子装置,其包括:处理器,其经配置以:基于图像产生多个限界区;基于色差准则和所述图像中的选定区域,确定所述多个限界区的子集,其中所述色差准则基于限界区与相应环绕区之间的色彩距离来区分限界区;以及基于所述多个限界区的所述子集来处理所述图像。
12.根据权利要求11所述的电子装置,其中所述处理器经配置以进一步基于所述多个限界区中的每一者相对于所述选定区域的居中性,确定所述多个限界区的所述子集。
13.根据权利要求11所述的电子装置,其中所述处理器经配置以进一步基于每一限界区的色彩直方图与每一相应环绕区的色彩直方图之间的比较,确定所述多个限界区的所述子集。
14.根据权利要求11所述的电子装置,其中所述处理器经配置以进一步基于所述多个限界区的平均大小,确定所述多个限界区的所述子集。
15.根据权利要求14所述的电子装置,其中所述平均大小是中值大小和均值大小中的至少一者。
16.根据权利要求11所述的电子装置,其中所述处理器经配置以通过执行对象辨识、对象跟踪、聚焦、对象去除、图像增强、裁剪或压缩中的一或多者来处理所述图像。
17.根据权利要求11所述的电子装置,其中所述电子装置进一步包括:图像传感器,其耦合到所述处理器,其中所述图像传感器经配置以捕获所述图像;存储器,其耦合到所述处理器,其中所述存储器经配置以存储限界区数据;显示器,其耦合到所述处理器,其中所述显示器经配置以呈现所述图像;以及输入接口,其耦合到所述处理器,其中所述输入接口经配置以接收指示所述选定区域的输入。
18.根据权利要求11所述的电子装置,其中所述处理器经配置以:拒绝所述多个限界区中使居中性准则或第一大小准则中的一或多者失效的任一者;以及选择满足色差准则或第二大小准则中的一或多者的限界区。
19.根据权利要求18所述的电子装置,其中对于具有经加权中值大小或经加权均值大小的限界区,满足所述第二大小准则。
20.根据权利要求11所述的电子装置,其中所述处理器经配置以:拒绝所述多个限界区中使居中性准则未能产生多个其余限界区的任一者;确定所述多个其余限界区中的每一者与相应环绕区之间的色彩距离;以及选择具有最大色彩距离的限界区。
21.一种存储指令的非暂时性计算机可读介质,所述指令当在电子装置上执行时致使所述电子装置:基于图像产生多个限界区;基于色差准则和所述图像中的选定区域来确定所述多个限界区的子集,其中所述色差准则基于限界区与相应环绕区之间的色彩距离来区分限界区;以及基于所述多个限界区的所述子集来处理所述图像。
22.根据权利要求21所述的非暂时性计算机可读介质,其包括用于致使所述电子装置进一步基于所述多个限界区中的每一者相对于所述选定区域的居中性来确定所述多个限界区的所述子集的指令。
23.根据权利要求21所述的非暂时性计算机可读介质,其包括用于致使所述电子装置进一步基于每一限界区的色彩直方图与每一相应环绕区的色彩直方图之间的比较来确定所述多个限界区的所述子集的指令。
24.根据权利要求21所述的非暂时性计算机可读介质,其包括用于致使所述电子装置进一步基于所述多个限界区的平均大小来确定所述多个限界区的所述子集的指令。
25.根据权利要求21所述的非暂时性计算机可读介质,其包括用于致使所述电子装置执行对象辨识、对象跟踪、聚焦、对象去除、图像增强、裁剪或压缩中的一或多者的指令。
26.根据权利要求21所述的非暂时性计算机可读介质,其中所述用于致使所述电子装置基于所述色差准则和所述图像中的所述选定区域来确定所述多个限界区的子集的指令包括:用于致使所述电子装置拒绝所述多个限界区中使居中性准则未能产生多个其余限界区的任一者的指令;用于致使所述电子装置确定所述多个其余限界区中的每一者与相应环绕区之间的色彩距离的指令;以及用于致使所述电子装置选择具有最大色彩距离的限界区的指令。
CN201680026212.4A 2015-05-08 2016-02-24 用于减少多个限界区的系统和方法 Expired - Fee Related CN107636589B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/707,929 US9542751B2 (en) 2015-05-08 2015-05-08 Systems and methods for reducing a plurality of bounding regions
US14/707,929 2015-05-08
PCT/US2016/019334 WO2016182612A1 (en) 2015-05-08 2016-02-24 Systems and methods for reducing a plurality of bounding regions

Publications (2)

Publication Number Publication Date
CN107636589A CN107636589A (zh) 2018-01-26
CN107636589B true CN107636589B (zh) 2019-03-15

Family

ID=55697448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680026212.4A Expired - Fee Related CN107636589B (zh) 2015-05-08 2016-02-24 用于减少多个限界区的系统和方法

Country Status (5)

Country Link
US (1) US9542751B2 (zh)
EP (1) EP3295424B1 (zh)
JP (1) JP2018517972A (zh)
CN (1) CN107636589B (zh)
WO (1) WO2016182612A1 (zh)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015186341A1 (ja) 2014-06-03 2015-12-10 日本電気株式会社 画像処理システム、画像処理方法及びプログラム記憶媒体
CN106575362A (zh) 2014-08-28 2017-04-19 高通股份有限公司 基于关注区融合的对象选择
US10586102B2 (en) * 2015-08-18 2020-03-10 Qualcomm Incorporated Systems and methods for object tracking
KR102516173B1 (ko) * 2015-09-21 2023-03-30 한화비전 주식회사 전경의 색상 추출 시스템, 방법 및 컴퓨터 판독 가능한 기록매체
KR102516172B1 (ko) * 2015-09-21 2023-03-30 한화비전 주식회사 전경의 색상 추출 시스템, 방법 및 컴퓨터 판독 가능한 기록매체
US10482681B2 (en) * 2016-02-09 2019-11-19 Intel Corporation Recognition-based object segmentation of a 3-dimensional image
US9865062B2 (en) 2016-02-12 2018-01-09 Qualcomm Incorporated Systems and methods for determining a region in an image
US10373380B2 (en) 2016-02-18 2019-08-06 Intel Corporation 3-dimensional scene analysis for augmented reality operations
WO2017212459A1 (en) 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US10573018B2 (en) 2016-07-13 2020-02-25 Intel Corporation Three dimensional scene reconstruction based on contextual analysis
US20180082428A1 (en) * 2016-09-16 2018-03-22 Qualcomm Incorporated Use of motion information in video data to track fast moving objects
US10133951B1 (en) * 2016-10-27 2018-11-20 A9.Com, Inc. Fusion of bounding regions
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US10755144B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10241588B1 (en) * 2018-01-31 2019-03-26 Piccolo Labs Inc. System for localizing devices in a room
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US10699413B1 (en) * 2018-03-23 2020-06-30 Carmax Business Services, Llc Automatic image cropping systems and methods
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US10915786B2 (en) * 2019-02-28 2021-02-09 Sap Se Object detection and candidate filtering system
US11270121B2 (en) 2019-08-20 2022-03-08 Microsoft Technology Licensing, Llc Semi supervised animated character recognition in video
US11366989B2 (en) 2019-08-20 2022-06-21 Microsoft Technology Licensing, Llc Negative sampling algorithm for enhanced image classification
JP7143263B2 (ja) * 2019-09-05 2022-09-28 Kddi株式会社 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
CN112800805A (zh) * 2019-10-28 2021-05-14 上海哔哩哔哩科技有限公司 视频剪辑方法、系统、计算机设备及计算机存储介质
US11302025B2 (en) * 2019-11-26 2022-04-12 Zebra Technologies Corporation Error mitigation for mobile dimensioning in stereo vision
CN111191730B (zh) * 2020-01-02 2023-05-12 中国航空工业集团公司西安航空计算技术研究所 一种面向嵌入式深度学习的超大尺寸图像目标检测方法及系统
US20210350160A1 (en) * 2020-05-07 2021-11-11 Booz Allen Hamilton Inc. System And Method For An Activity Based Intelligence Contextualizer
CN112016537B (zh) * 2020-10-27 2021-01-08 成都考拉悠然科技有限公司 一种基于计算机视觉的综合检测老鼠的方法
US11461880B2 (en) * 2021-01-12 2022-10-04 Adobe Inc. Generating image masks from digital images utilizing color density estimation and deep learning models
US20220222477A1 (en) * 2021-01-14 2022-07-14 Nvidia Corporation Performing non-maximum suppression in parallel
US11450107B1 (en) 2021-03-10 2022-09-20 Microsoft Technology Licensing, Llc Dynamic detection and recognition of media subjects
KR102348375B1 (ko) * 2021-04-27 2022-01-06 신용석 이미지 내 객체 추출 방법, 장치 및 컴퓨터-판독가능 기록 매체
CN113849118A (zh) * 2021-10-20 2021-12-28 锐捷网络股份有限公司 一种应用于电子白板的图像识别方法及相关装置
US11810256B2 (en) * 2021-11-11 2023-11-07 Qualcomm Incorporated Image modification techniques
CN116912621B (zh) * 2023-07-14 2024-02-20 浙江大华技术股份有限公司 图像样本构建方法、目标识别模型的训练方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362381A (ja) * 2003-06-06 2004-12-24 Ntt Data Corp 画像処理装置及び方法
JP2010271987A (ja) * 2009-05-22 2010-12-02 Mitsubishi Electric Corp 領域分類装置、画質改善装置、映像表示装置、およびそれらの方法
CN102999924A (zh) * 2011-09-09 2013-03-27 富士施乐株式会社 图像处理设备和图像处理方法
JP2013257843A (ja) * 2012-06-14 2013-12-26 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
US7254270B2 (en) * 2002-07-09 2007-08-07 Hewlett-Packard Development Company, L.P. System and method for bounding and classifying regions within a graphical image
US9329827B2 (en) * 2004-12-29 2016-05-03 Funmobility, Inc. Cropping of images for display on variably sized display devices
US7801330B2 (en) 2005-06-24 2010-09-21 Objectvideo, Inc. Target detection and tracking from video streams
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
EP2199981A1 (en) 2008-12-09 2010-06-23 Koninklijke Philips Electronics N.V. Image segmentation
CA2785746C (en) 2009-12-30 2016-09-13 Nokia Corporation Methods and apparatuses for facilitating content-based image retrieval
US8861864B2 (en) 2010-03-11 2014-10-14 Qualcomm Incorporated Image feature detection based on application of multiple feature detectors
US8625897B2 (en) 2010-05-28 2014-01-07 Microsoft Corporation Foreground and background image segmentation
US20120078899A1 (en) 2010-09-27 2012-03-29 Fontana James A Systems and methods for defining objects of interest in multimedia content
IL210427A0 (en) * 2011-01-02 2011-06-30 Agent Video Intelligence Ltd Calibration device and method for use in a surveillance system for event detection
KR20130091441A (ko) * 2012-02-08 2013-08-19 삼성전자주식회사 물체 추적 장치 및 그 제어 방법
WO2013144418A1 (en) 2012-03-29 2013-10-03 Nokia Corporation Image segmentation
JP2013214234A (ja) 2012-04-03 2013-10-17 Sony Corp 移動制御装置、移動制御方法、およびプログラム
CN102682454B (zh) 2012-04-28 2013-05-08 中国科学技术大学 一种视频中的感兴趣区域跟踪方法及装置
US20140003686A1 (en) 2012-06-28 2014-01-02 Technologie Avanzate T.A. Srl Multimodality Image Segmentation of Volumetric Data Sets
US9514366B2 (en) * 2014-02-03 2016-12-06 Xerox Corporation Vehicle detection method and system including irrelevant window elimination and/or window score degradation
US9584814B2 (en) 2014-05-15 2017-02-28 Intel Corporation Content adaptive background foreground segmentation for video coding
CN106575362A (zh) 2014-08-28 2017-04-19 高通股份有限公司 基于关注区融合的对象选择
US9355320B2 (en) * 2014-10-30 2016-05-31 Toyota Motor Engineering & Manufacturing North America, Inc. Blur object tracker using group lasso method and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362381A (ja) * 2003-06-06 2004-12-24 Ntt Data Corp 画像処理装置及び方法
JP2010271987A (ja) * 2009-05-22 2010-12-02 Mitsubishi Electric Corp 領域分類装置、画質改善装置、映像表示装置、およびそれらの方法
CN102999924A (zh) * 2011-09-09 2013-03-27 富士施乐株式会社 图像处理设备和图像处理方法
JP2013257843A (ja) * 2012-06-14 2013-12-26 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TouchCut: Fast image and video segmentationusing single-touch interaction;WANG TINGHUAI ET AL;《COMPUTER VISION AND IMAGE UNDERSTANDING》;20141231;第120卷;14-30

Also Published As

Publication number Publication date
EP3295424B1 (en) 2020-02-19
US9542751B2 (en) 2017-01-10
US20160328856A1 (en) 2016-11-10
WO2016182612A1 (en) 2016-11-17
EP3295424A1 (en) 2018-03-21
JP2018517972A (ja) 2018-07-05
CN107636589A (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
CN107636589B (zh) 用于减少多个限界区的系统和方法
US9865062B2 (en) Systems and methods for determining a region in an image
US10268893B2 (en) System and method for automatic detection of spherical video content
CN105830062B (zh) 用于编码对象阵型的系统、方法及设备
US8750573B2 (en) Hand gesture detection
US8792722B2 (en) Hand gesture detection
US8933927B2 (en) Display system with image conversion mechanism and method of operation thereof
CN107194323A (zh) 车辆定损图像获取方法、装置、服务器和终端设备
US10235605B2 (en) Image labeling using geodesic features
US10620826B2 (en) Object selection based on region of interest fusion
US10430694B2 (en) Fast and accurate skin detection using online discriminative modeling
US20150055829A1 (en) Method and apparatus for tracking object
CN110956060A (zh) 动作识别、驾驶动作分析方法和装置及电子设备
CN105830009A (zh) 用于视频帧的显示分割和集群的对象的选择和跟踪
TW201703500A (zh) 視頻中之局部變化偵測技術
CN110910445B (zh) 一种物件尺寸检测方法、装置、检测设备及存储介质
CN106778731B (zh) 一种车牌定位方法及终端
TW201738807A (zh) 用於辨識一影像中之一物體之系統及方法
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
TWI732374B (zh) 物件辨識方法及裝置
JP2016045538A (ja) 情報処理装置、画像判定方法、及びプログラム
Yang et al. Football referee gesture recognition algorithm based on YOLOv8s
CN113139540A (zh) 背板检测方法及设备
CN115965848B (zh) 一种图像处理方法和相关装置
CN117541977A (zh) 一种基于行人分割的行人重识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190315

CF01 Termination of patent right due to non-payment of annual fee