CN102708572A - 更新场景模型的方法和系统、使用该方法的照相机系统 - Google Patents

更新场景模型的方法和系统、使用该方法的照相机系统 Download PDF

Info

Publication number
CN102708572A
CN102708572A CN2011104367571A CN201110436757A CN102708572A CN 102708572 A CN102708572 A CN 102708572A CN 2011104367571 A CN2011104367571 A CN 2011104367571A CN 201110436757 A CN201110436757 A CN 201110436757A CN 102708572 A CN102708572 A CN 102708572A
Authority
CN
China
Prior art keywords
model
pattern model
pattern
visual element
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104367571A
Other languages
English (en)
Other versions
CN102708572B (zh
Inventor
P·J·帕库洛斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN102708572A publication Critical patent/CN102708572A/zh
Application granted granted Critical
Publication of CN102708572B publication Critical patent/CN102708572B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/28Indexing scheme for image data processing or generation, in general involving image processing hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及更新场景模型的方法和系统、使用该方法的照相机系统。本文公开一种通过定义与用于视频序列中的对象检测的场景模型(230)的不同视觉元素相关的模式模型对之间的关系来更新所述场景模型(230)的系统和方法。所述方法包括以下步骤:根据预定标准确定所述模式模型对彼此是否具有时间相关性(745);确定所述模式模型对中的每个模式模型的类别(740);根据时间相关性的确定和类别的确定来修改所述模式模型对之间的关系(760);并基于修改的关系来更新场景模型(770)。

Description

更新场景模型的方法和系统、使用该方法的照相机系统
相关专利申请的引用
本申请依据国际(巴黎)公约并依据35U.S.C.§119要求于2010年12月23日提交的澳大利亚专利申请No.2010257409的申请日的优先权,在此通过引用并入其全部内容,就好像本文充分地阐述了它一样。
技术领域
本公开涉及视频图像中的对象检测,具体涉及使用场景建模的前景/背景分离。
背景技术
视频是图像的序列。图像也被称为帧。术语“帧”和“图像”在整个本说明书中可交换地用于描述图像序列中的单个图像。图像由视觉元素构成。视觉元素可以是例如如在JPEG图像中所使用的像素或者8x8 DCT(离散余弦变换)块。
场景建模也已知为背景建模,涉及基于描绘场景的图像序列对场景的视觉内容进行建模。所述内容通常包括前景内容和背景内容,通常期望区别或分离这两个内容。
前景/背景分割的常见方法是背景减除。背景减除使得视频分析系统能够通过差分运算来区分瞬态的前景对象和非瞬态的背景。例如,场景模型可维护输入的视频帧的每个块位置的一些模式模型,其中,每个块位置对应于视觉元素。模式模型的描述与帧中的对应位置处的当前视觉元素的描述进行比较。所述描述可包括,例如,与像素值或DCT系数相关的信息。如果当前视觉元素与模式模型中的至少一个类似,则认为该视觉元素属于背景。否则,认为该视觉元素属于前景对象。
一种方法使用按上述方式的初步分类来确定视觉元素是属于背景还是属于前景对象,然后使用该确定作为对于最终分类步骤的输入。在最终分类步骤中,该方法通过考虑视觉元素的初步分类来计算与将被分类的相邻视觉元素相关的每个视觉元素的最终分类得分。难题是获得视觉元素之间的相关性。
场景建模的另一种方法使用视觉元素之间的全帧互相关性。在该方法中,场景模型包含表示帧中的动态纹理区域的视觉元素的相关性。相关性模型使用帧与从前帧获得的该帧的预测之间的差异。该相关性模型从训练序列中的帧转变获悉。同时转变的场景的两个区域将具有相同的相关性系数,无论与该场景的这两个区域相关联的其它参数如何。该方法需要训练数据,由于合适的训练数据不总是可获得,所以训练数据有困难。
在又一种方法中,通过比较时间特性来计算相关性。所述时间特性记录每个视觉元素处的信息。时间特性的示例是行为计数(背景模型被认为表示输入的视觉元素的次数)、创建时间(与背景模型的创建对应的时间戳或帧号)或再现时间(背景模型被发现不表示输入的视觉元素的最后时间)。
具体地讲,一种方法使用行为计数来辅助分类。如果相应的行为计数之间的差值小于预定阈值,则两种背景模式模型相关。当前景对象在视频序列中描绘的场景中仍然存在并且该对象的仅一部分正在移动时,将对移动部分创建新的模式模型,而相同的模式模型将匹配非移动部分。在这种情形下,表示移动部分的模式模型与表示非移动部分的模式模型之间的行为计数差值将是大的。因此,即使这些模式模型表示同一个真实世界对象,这些模式模型也将不如所期望的相关。
因此,存在对于用于视频图像处理中的视频对象检测的改进方法的需求。
当一组前景视觉元素已被识别出时,有价值的是知道该前景“后面”是什么。该信息可用于辅助前景抠取,以辅助用于图像对准的帧匹配,或者简单地作为用户的视觉辅助工具。
识别背景的一种方法是从每个视觉元素模型取出最老的背景模式模型。在前景简单地挡住所建立的长期或初始化的背景的情况下,该方法将奏效。然而,在当前前景后面的区域改变的情况下,返回的背景将错误。例如,考虑(在t=0秒时)被初始化为空的场景,汽车驶入并在某个稍晚的时间(比方说t=30秒时)停车。在更晚的某个时间,比方说t=60秒,汽车被认为是背景的一部分。在还更晚的时间,比方说t=90秒,一个人走过,挡住汽车。最老的背景将来自t=0s,并且即使汽车在t=90秒时是背景的一部分,返回的背景也将不包括汽车。
另一种方法使用阈值时间。对于前面的示例,如果所使用的阈值为时间t=60秒,则当那个人走过汽车时,将返回正确的背景。这样的方法的问题是合适阈值的选择,该选择将取决于情形和任务。如果使用不正确的阈值时间,比如说t=30秒,则将返回不正确的背景。该问题简单地变为找出合适的阈值时间的问题,并且存在这样的阈值时间不存在的情形,例如,如果那个人从t=0起处于不同的位置,并且仅在汽车到达之后开始移动到他们的新位置。
又一种方法是选择最近看到的背景。这对于前面的示例将奏效,但是如果在那个人仍在那里的同时汽车开走,则由于返回的背景将显示汽车,而所需的背景是原始背景,所以返回的背景仍将不正确。
因此,存在对于识别视频帧中的看不见的背景的改进方法的需求。
当前景元素停止移动时,它们与背景之间的区别变得难以定义。具体的困难是对于不同应用关于该区别的不同要求以及实现合理的语义分割。如上所述,前景被移除的背景图像的估计对于辅助抠取、帧匹配或者作为视觉辅助工具是有价值的,同样的使用对于一些背景元素的移除也存在。此外,不同区域的语义分组使得能够实现跟踪场景的区域的历史的应用。在另一个应用中,根据对象的到达时间对前景区域和背景区域进行分组使得能够对每个对象进行统计,并根据应用在前景与背景之间转变。
分离前景与背景的一种方法连续地改动背景以适应当前帧内容。当背景的改动变得与改变的区域足够类似时,该改变的区域将变为背景的一部分。该方法的具体困难是不同区域和区域的不同部分将根据它们的出现在不同时间融入背景。
另一种方法建立每个视觉元素的年龄阈值,使得前景区域随时间推移而融入背景。具体的困难是阈值的选择。另一个具体的困难是区域被部分地吸收到背景中,导致部分的、片段的或移动的区域被报告给后面的处理阶段。
又一种方法对给定帧处的所有前景视觉元素进行分组,并基于整个区域的平均统计来决定将它们融入背景中。这样的方法的具体的困难是所述区域实际上可由多个子区域组成,这将导致不精确的平均统计。
因此,存在对于用已知的、但是当前看不见的视觉元素对相关的可见的视觉元素进行分组的改进方法的需求。
发明内容
根据本公开的一方面,提供一种计算机实现方法,该方法将第一视觉元素模型中的第一模式模型与从第二视觉元素模型中的多个模式模型中选择的第二模式模型相关联。所述模式模型处于用于图像序列中的对象检测的场景模型中。所述方法识别第一模式模型与第二模式模型之间的关系的强度,并基于所述关系将第一模式模型与第二模式模型相关联。
可取地,所述关联步骤在下述情况下将第一模式模型与第二模式模型相关联:(a)所述第一模式模型与所述第二模式模型之间的关系的强度满足所述第一模式模型与所述第二视觉元素模型中的所述多个模式模型之间的第一组关系强度的第一预定标准;和(b)所述第一模式模型与所述第二模式模型之间的关系的强度满足所述第二模式模型与所述第一视觉元素模型中的一个或更多个模式模型之间的第二组关系强度的第二预定标准。
可替换地,所述关联步骤在下述情况下将第一模式模型与第二模式模型相关联:所述关系强度是所述第一模式模型与所述第二视觉元素模型中的多个模式模型之间的一组关系强度中的最大值,所述第一模式模型是用于所述第一视觉元素模型的场景模式模型,于是所述方法将相关联的第二模式模型选择为场景模式模型。优选地,所述方法还包括基于第一场景模式模型和所选第二模式模型来重构图像系列的场景。
根据本公开的另一方面,提供一种计算机实现方法,该方法包括通过修改与第一视觉元素相关联的第一模式模型和与第二视觉元素相关联的第二模式模型之间的关系来更新用于图像序列中的对象检测的场景模型。所述更新可以包括:确定所述第一模式模型与所述第二模式模型之间的同现度(co-occurrence);根据所述第一模式模型与所述第二模式模型之间的同现度的确定来修改所述第一模式模型与所述第二模式模型之间的关系;和基于所述第一模式模型与所述第二模式模型之间的修改的关系来更新所述场景模型。
根据本公开的另一方面,提供一种计算机实现方法,该方法通过定义与场景模型的不同视觉元素相关的模式模型对之间的关系来更新用于视频序列中的对象检测的场景模型。所述方法根据预定标准确定所述模式模型对中的每个模式模型之间的时间相关性,并且还确定所述模式模型对中的每个模式模型的类别。所述方法根据时间相关性的确定和类别的确定来修改所述模式模型对之间的关系。所述方法基于修改的关系来更新场景模型。
根据本公开的进一步的方面,提供一种照相机系统,该照相机系统用于通过定义与场景模型的不同视觉元素相关的模式模型对之间的关系来更新用于视频序列中的对象检测的场景模型。所述照相机系统包括光学系统、传感器和控制器,所述控制器与光学系统和传感器中的每个耦接,以捕捉视频序列。所述控制器包括处理器,该处理器能够操作用于:根据预定标准确定所述模式模型对之间的时间相关性;确定所述模式模型对中的每个模式模型的类别;根据时间相关性的确定和类别的确定来修改所述模式模型对之间的关系;和基于修改的关系来更新场景模型。
根据本公开的更进一步的方面,提供一种用于通过定义与场景模型的不同视觉元素相关的模式模型对之间的关系来更新用于视频序列中的对象检测的场景模型的系统。所述系统包括:用于根据预定标准确定所述模式模型对之间的时间相关性的装置;用于确定所述模式模型对中的每个模式模型的类别的装置;用于根据时间相关性的确定和类别的确定来修改所述模式模型对之间的关系的装置;以及,用于基于修改的关系来更新场景模型的装置。
根据本公开的另一方面,提供一种用于实现前述方法中的任何一种的装置。
根据本公开的另一方面,提供一种包括计算机可读介质的计算机程序产品,所述计算机可读介质具有记录在其上的用于实现上述方法中的任何一种的计算机程序。
还公开了其它方面。
附图说明
现在将参照附图对各个实施例进行描述,在附图中:
图1是对其执行前景/背景分割的照相机的功能框图;
图2是输入帧和包括视觉元素模型的场景模型的框图,每个视觉元素模型具有模式模型;
图3A和图3B形成在其上可实施所述布置的通用计算机系统的示意性框图;
图4是示出前景/背景分离数据处理架构的功能的示意性流程图;
图5是示出模式模型匹配的方法的示意性流程图;
图6是示出计算图5中所使用的空间支持的方法的示意性流程图;
图7是示出更新场景模型的方法的示意性流程图;
图8是链接模式模型的示意性表示;
图9a是显示输入帧与视觉元素模型中的模式模型的匹配的示意性表示;
图9b显示与图9a中匹配的模式模型对应的关系的随后的加强;
图10a至图10h示出表示由场景产生的视觉元素模型的一组模式模型和在移除前景元素之后由不同算法产生的不同的场景重构方法;
图11a示意性地示出视觉元素模型中的两个最近匹配的模式模型与相邻视觉元素模型的模式模型之间的关系;
图11b是用于说明计算视觉元素模型中的一组模式模型中的每个与相邻视觉元素模型的关联概率的方法的示意性表示;
图12是示出从已知模式模型填补未知模式模型选择的方法的示意性流程图;
图13是示出计算作为图12中的一个元素的与一组近邻链接的模式模型的概率的示意性流程图;
图14a和图14b更详细地显示图13的方法中的场景重构处理;
图15a、图15b和图15c示意性地表示连接的模式模型的三个不同层;
图16a、图16b和图16c是描绘两个视觉元素模型中的多组模式模型之间的不同关系的示意性表示;
图17是示出基于关系信息接合两个模式模型的方法的示意性流程图;和
图18a和图18b示出由按照图16和图14的分析产生的模式模型层和对应的重构图像层。
具体实施方式
在附图中的任何一个或更多个中引用具有相同标号的步骤和/或特征的地方,这些步骤和/或特征为了本说明书的目的具有相同功能或操作,除非相反的意思表示出现。
本文公开了用于创建和更新与场景中的不同视觉元素相关的共同出现的模式模型之间的关系的计算机实现方法、系统和计算机程序产品。在一个实施例中,所述共同出现的模式模型与相邻的视觉元素相关。在另一个实施例中,所述共同出现的模式模型与不相邻的视觉元素相关。所述方法定义与不同视觉元素相关的模式模型对之间的关系,并使用该关系来更新场景模型。更新的场景模型然后可用于处理视频序列。
所述方法使用预定标准来识别所述模式模型对是否彼此具有时间相关性。所述方法然后确定所述模式模型对中的每个模式模型的类别。在一个实施例中,每个模式模型被分类为前景或背景之一。在可替换实施例中,每个模式模型的类别取决于各个模式模型的成熟度或者与该模式模型相关联的行为计数。相关领域技术人员将意识到的是,可同样地实施其它分类方式,并且实际分类方式将取决于特定应用。所述方法基于时间相关性的识别和类别的确定来修改所述模式模型对之间的关系。所述方法然后基于修改的关系来更新场景模型。
本公开的一方面提供一种用于当处理视频序列时更新被改动以用于执行对象检测的场景模型的计算机实现方法。所述方法通过定义与场景模型的不同视觉元素相关的模式模型对之间的关系来发挥作用。所述方法根据预定标准确定所述模式模型对中的模式模型是否彼此共享时间相关性。在一种实现中,所述方法一次处理一个图像帧,所以可用于处理的模式模型共同出现,因此,彼此固有地共享时间相关性。所述方法然后确定所述模式模型对中的每个模式模型的类别。所使用的实际类别取决于特定应用。类别的示例可包括例如,但不限于,前景、背景、年龄或成熟水平、行为计数和最近行为度量。所述方法根据时间相关性的确定和类别的确定来修改所述模式模型对之间的关系。所述方法然后基于修改的关系来更新场景模型。
根据本公开的前景/背景分割可在照相机系统上执行。照相机系统包括光学系统、传感器或其它记录设备、用于存储计算机程序的存储设备和控制器,所述控制器与光学系统和传感器中的每个耦接以捕捉一个或更多个视频帧的视频序列。在一个实施例中,所述光学系统包括透镜系统。在一个实施例中,所述传感器是光敏传感器阵列。在一个实施例中,所述存储设备是存储器,诸如随机存取存储器(RAM)或硬盘驱动器。
图1显示在其上执行前景/背景分割的照相机100的功能框图。照相机100是摇摄(pan)-倾斜-变焦照相机(PTZ),其包括照相机模块101、摇摄和倾斜模块103以及透镜系统114。照相机模块101通常包括担当照相机100的控制器的至少一个处理器单元105、以及存储器单元106、光敏传感器阵列115、与传感器阵列115耦接的输入/输出(I/O)接口107、与通信网络116耦接的输入/输出(I/O)接口108以及用于摇摄和倾斜模块103和透镜系统114的输入/输出(I/O)接口113。照相机模块101的组件107、105、108、113和106通常以导致相关领域技术人员已知的常规操作模式的方式通过互连总线104进行通信。
照相机100用于捕捉视频帧,视频帧也已知为输入图像,所述视频帧表示照相机100的视场中出现的场景的视觉内容。照相机100捕捉的每个帧包括多于一个视觉元素。视觉元素被定义为图像采样。在一个实施例中,视觉元素为像素,诸如红-绿-蓝(RGB)像素。在另一个实施例中,每个视觉元素包括一组像素。在又一个实施例中,视觉元素为8×8变换系数块,所述系数诸如如通过解码运动JPEG帧而获取的离散余弦变换(DCT)系数或者如JPEG-2000标准中所使用的离散小波变换(DWT)系数。颜色模型为YUV,其中,Y分量表示亮度,U和V表示色度。
如以上所指示的,根据本公开的各个实施例可同样地在具有嵌入式处理器的设备(诸如图1的照相机)或者通用计算机上实施。图3A和图3B描绘在其上可实施所述的各种布置的通用计算机系统300。
如图3A所见,计算机系统300包括:计算机模块301;输入设备,诸如键盘302、鼠标指针设备303、扫描仪326、照相机327和麦克风380;和输出设备,包括打印机315、显示设备314和扬声器317。计算机模块301可使用外部调制器-解调器(调制解调器)收发器设备316来经由连接件321与通信网络320来回通信。通信网络320可以是广域网(WAN),诸如互联网、蜂窝电信网络或私有WAN。在连接件321为电话线的情况下,调制解调器316可以是传统的“拨号”调制解调器。可替换地,在连接件321为高容量(比如,线缆)连接件的情况下,调制解调器316可以是宽带调制解调器。无线调制解调器也可用于与通信网络320的无线连接。
计算机模块301通常包括至少一个处理器单元305和存储器单元306。例如,存储器单元306可具有半导体随机存取存储器(RAM)和半导体只读存储器(ROM)。计算机模块301还包括一些输入/输出(I/O)接口,这些I/O接口包括:与视频显示器314、扬声器317和麦克风380耦接的音频-视频接口307;与键盘302、鼠标303、扫描仪326、照相机327耦接(可选地还与操纵杆或其它人机接口设备(未示出)耦接)的I/O接口313;和用于外部调制解调器316和打印机315的接口308。在一些实现中,调制解调器316可合并在计算机模块301内,例如在接口308内。计算机模块301还具有局域网接口311,其使得可通过连接件323将计算机系统300与已知为局域网(LAN)的局域通信网络322耦接。如图3A所示,局域通信网络322还可通过连接件324与广域网320耦接,连接件324通常将包括所谓的“防火墙”设备或类似功能的设备。局域网接口311可包括EthernetTM电路卡、BluetoothTM无线装置或IEEE 802.11无线装置;然而,对于接口311,可实施许多其它类型的接口。
I/O接口308和313可提供串行连接和并行连接中的任何一个或这二者,前者通常根据通用串行总线(USB)标准实现并具有对应的USB连接器(未示出)。提供存储设备309,其通常包括硬盘驱动器(HDD)310。还可使用其它存储设备,诸如软盘驱动器和磁带驱动器(未示出)。通常提供充当非易失性数据源的光盘驱动器312。例如,便携式存储器设备,诸如光盘(比如,CD-ROM、DVD、Blu-ray DiscTM)、USB-RAM、便携式外部硬盘驱动器和软盘可用作系统300的合适数据源。
计算机模块301的组件305至313通常以导致相关领域技术人员已知的计算机系统300的常规操作模式的方式通过互连总线304进行通信。例如,处理器305使用连接件318与系统总线304连接。同样,存储器306和光盘驱动器312通过连接件319与系统总线304耦接。在其上可实施所述布置的计算机的示例包括IBM-PC和兼容机、Sun Sparcstation、Apple MacTM或相似的计算机系统。
所述通过定义与不同视觉元素相关的模式模型对之间的关系来更新用于对象检测的场景模型的方法可使用计算机系统300来实现,其中,将描述的图2和图4至图18的处理可被实现为可在计算机系统300内执行的一个或更多个软件应用程序333。具体地讲,所述更新场景模型的方法的步骤通过在计算机系统300内运行的软件333中的指令331(参见图3B)来实现。软件指令331可被形成为一个或更多个代码模块,每个代码模块用于执行一个或更多个特定任务。所述软件还可分为两个分离的部分,其中,第一部分和对应的代码模块执行更新、相关、分类和关系修改方法,第二部分和对应的代码模块管理第一部分与用户之间的用户接口。
软件333通常存储在HDD 310或存储器306中。该软件从计算机可读介质加载到计算机系统300中,并被计算机系统300执行。因此,例如,软件333可存储在被光盘驱动器312读取的光学可读盘存储介质(比如,CD-ROM)325上。其上记录这样的软件或计算机程序的计算机可读介质是计算机程序产品。计算机程序产品在计算机系统300中的使用优选地实现用于更新在检测视频序列中的对象时所使用的场景模块的装置。这样的装置可用在例如监督应用中。
在某些情况下,在一个或更多个CD-ROM 325上编码的并且通过对应驱动器312读取的应用程序333可被供给用户,或者可替换地,可由用户从网络320或322读取。更进一步,所述软件还可从其它计算机可读介质加载到计算机系统300中。计算机可读存储介质是指将记录的指令和/或数据提供给计算机系统300以用于执行和/或处理的任何非暂时有形存储介质。这样的存储介质的示例包括软盘、磁带、CD-ROM、DVD、Blue-ray盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘或者诸如PCMCIA卡等的计算机可读卡,无论这样的设备是在计算机模块301的内部还是外部。也可参与将软件、应用程序、指令和/或数据提供给计算机模块301的暂时或非有形计算机可读传输介质的示例包括无线电或红外传输信道以及与另一个计算机或联网设备的网络连接以及互联网或内联网,该互联网或内联网包括电子邮件传输和记录在网站等上的信息。
可执行上述的应用程序333的第二部分和对应的代码模块来实现将呈现或以其它方式表示在显示器314上的一个或更多个图形用户接口(GUI)。通过典型地操纵键盘302和鼠标303,计算机系统300和应用的用户可以以功能适应性的方式操纵接口,以将控制命令和/或输入提供给与GUI相关联的应用。还可实现其它形式的功能适应性用户接口,诸如利用通过扬声器317输出的讲话提示和通过麦克风380输入的用户语音命令的音频接口。
图3B是处理器305和“存储器”334的详细示意性框图。存储器334表示可被图3A中的计算机模块301存取的所有存储器模块(包括HDD 309和半导体存储器306)的逻辑聚集体。
当计算机模块301一开始上电时,执行通电自测试(POST)程序350。POST程序350通常存储在图3A的半导体存储器306的ROM 349中。存储软件的硬件设备(诸如ROM 349)有时称之为固件。POST程序350审查计算机模块301内的硬件以确保适当地工作,通常检查处理器305、存储器334(309,306)和通常也存储在ROM 349中的基本输入-输出系统软件(BIOS)模块351,以正确地操作。一旦POST程序350成功运行,BIOS 351启动图3A的硬盘驱动器310。硬盘驱动器310的启动使驻存在硬盘驱动器310上的引导装入程序352通过处理器305执行。这将操作系统353加载到RAM存储器306中,由此,操作系统353开始操作。操作系统353是可被处理器305执行以实现各种高级功能的系统级应用程序,所述高级功能包括处理器管理、存储器管理、设备管理、存储管理、软件应用接口和一般的用户接口。
操作系统353管理存储器334(309,306),以确保在计算机模块301上运行的每个处理或应用程序具有在不与分配给另一个处理的存储器冲突的情况下执行的充足的存储器。此外,必须适当地使用图3A的系统300中可用的不同类型的存储器,以使得每个处理可有效地运行。因此,聚集式存储器334并非意图示出存储器的特定区段如何被分配(除非另有说明),而是意图提供可被计算机系统300存取的存储器的全视图和如何使用这样的存储器。
如图3B所示,处理器305包括一些功能模块,这些功能模块包括控制单元339、算术逻辑单元(ALU)340和本地或内部存储器348,本地或内部存储器348有时称之为高速缓冲存储器。高速缓冲存储器348在寄存器部分中通常包括一些存储寄存器344到346。一个或更多个内部总线341将这些功能模块在功能上互连。处理器305通常还具有使用连接件318经由系统总线304与外部设备通信的一个或更多个接口342。存储器334使用连接件319与总线304耦接。
应用程序333包括指令331的序列,指令331可包括条件分支和循环指令。程序333还可包括执行程序333时所使用的数据332。指令331和数据332分别存储在存储器位置328、329、330和335、336、337中。可根据指令331和存储器位置328-330的相对大小将特定指令存储在如存储器位置330中所显示的指令所描绘的单个存储器位置中。可替换地,可将指令分割成一些部分,每个部分存储在如存储器位置328和329中所显示的指令段所描绘的分离的存储器位置中。
通常,处理器305被给予在其中执行的一组指令。处理器1105等待后面的输入,处理器305通过执行另一组指令来对所述后面的输入作出反应。每个输入可从一些源中的一个或更多个提供,包括由输入设备302、303中的一个或更多个产生的数据、跨网络320、302之一从外部源接收的数据、从存储设备306、309之一检索的数据或者从插入到对应读取器312中的存储介质325检索的数据,在图3A中描绘了所有这些源。一组指令的执行在一些情况下可导致数据输出。执行还可涉及将数据或变量存储到存储器334。
所公开的更新、相关、修改和确定布置使用存储在存储器334中对应的存储器位置355、356、357中的输入变量354。更新、相关、修改和确定布置生成输出变量361,输出变量361存储在存储器334中对应的存储器位置362、363、364中。中间变量358可存储在存储器位置359、360、366和367中。
参照图3B的处理器305,寄存器344、345、346、算术逻辑单元(ALU)340和控制单元339一起工作,以对于构成程序333的指令集中的每一个指令执行执行“提取、解码和执行”循环所需的微操作序列。每个提取、解码和执行循环包括:
(a)提取操作,该操作从存储器位置328、329、330提取或读取指令331;
(b)解码操作,在该操作中,控制单元339确定哪个指令已被提取;和
(c)执行操作,在该操作中,控制单元339和/或ALU 340执行所述指令。
其后,可执行进一步的针对下一个指令的提取、解码和执行循环。类似地,可执行存储循环,控制单元339通过存储循环将值存储或写入到存储器位置332。
图4至图13的处理中的每个步骤或子处理与驻存在计算机模块301上的HDD 310或存储器306或者驻存在照相机模块101的板上存储器106上的程序333的一段或多段相关联。计算机模块301上的处理器305中的寄存器部分344、345、347、ALU 340和控制单元339或者照相机模块105的板上处理器105执行程序333,以对于为程序333的指出的段而设置的指令集中的每一个指令执行提取、解码和执行循环。
所述更新场景模型的方法可以可替换地用专用硬件来实现,所述专用硬件诸如执行更新、相关、确定和关系修改的功能或子功能的一个或更多个集成电路。这样的专用硬件可包括图形处理器、数字信号处理器或者一个或更多个微处理器和相关联的存储器。
图2显示包括多个视觉元素的输入帧210的示意性表示。视觉元素是进行处理的基本单元,并被诸如照相机100的图像传感器捕捉。视觉元素可以是例如像素或8x8 DCT块。图2还显示包括多个视觉元素模型的场景模型230的示意性表示。在所显示的示例中,输入帧210包括示例性视觉元素220,场景模型230包括对应的示例性视觉元素240。在一种布置中,场景模型230存储在照相机100的存储器106中。在一种布置中,处理在照相机100的处理器105上进行。在可替换布置中,输入帧的处理通过在通用计算机的处理器上执行的指令来执行,所述处理器诸如计算机模块301。
场景模型包括多个视觉元素模型。对于建模的每个输入视觉元素220,诸如视觉元素240,维护其内容被扩展的对应视觉元素模型250。每个视觉元素模型250包括一组一个或更多个模式模型260。可存在与捕捉的输入帧210中的相同位置对应的几种模式模型。模式模型260-1、260-2、260-3中的每个均基于对应的视觉元素(在这种情况下,视觉元素240)的值的一组历史。视觉元素模型250包括一组模式模型,该组模式模型包括模式模型1(260-1)、模式模型2(260-2)直到模式模型N(260-3)。
每个模式模型260对应于对应视觉元素的不同状态或出现。例如,在闪烁的霓虹灯在建模的场景中并且模式模型1(260-1)表示“背景-灯亮”的情况下,模式模型2(260-2)可表示“背景-灯关”,并且模式模型N(260-3)可表示临时前景元素,诸如经过汽车的一部分。在一种布置中,模式模型是像素强度值的均值。在另一种布置中,模式模型是每个DCT系数的观测DCT系数值的中间值或近似中间值,并且模式模型记录时间特性。
图9a显示输入帧(如同210)的示例性六个视觉元素910(如同220)与对应于这些元素的六个视觉元素模型940(如同250)中的不同模式模型930(如同260)的匹配920的示意性表示。在所述示例之一中,代替匹配920,创建新的模式模型950。帧与该帧被捕捉的时间相关联,进而依次匹配的模式模型与特定时间相关联。
在一个实施例中,在每个视觉元素模型中正好存在一个匹配的模式模型。在另一个实施例中,多个模式模型可同时被同一个视觉元素匹配。在一个实施例中,至少一个模式模型必须匹配一个视觉元素模型。在另一个实施例中,在一个视觉元素模型中可能根本没有将匹配的模式模型。
在一个实施例中,视觉元素可仅与对应视觉元素模型中的模式模型匹配。在另一个实施例中,视觉元素可与相邻视觉元素模型中的模式模型匹配。在又一个实施例中,存在表示多个视觉元素的视觉元素模型,并且该视觉元素模式模型中的模式模型可与所述多个视觉元素中的任何一个或者多个这些视觉元素匹配。
图9b显示处理中稍后时刻的与图9a的模式模型930相同的匹配模式模型960的示意性表示。在图9b中,在相邻模式模型之间,形成关系的一部分的同现度计数970增加,以指示它们同时被匹配。
在一个实施例中,所述关系仅由匹配计数组成。在另一个实施例中,所述关系包括其它信息,例如,最后一次共同出现的时间戳或帧号。在一个实施例中,记录与每次共同出现对应的帧号或帧时间。
在一个实施例中,仅对相邻的模式模型记录同现度关系。在另一个实施例中,在给定的相互距离内的模式模型之间记录同现度关系。在又一个实施例中,基于输入帧的内容和它们的视觉元素记录同现度关系。
图4是示出背景/前景分割的总体方法的处理400的流程图。如前所述,处理400通常以存储在存储器106/310中的并且由处理器105/305执行的软件来实现。分割处理400从开始步骤410开始,在开始步骤410中,处理器接收输入帧。控制转到决定步骤420,在决定步骤420中,处理器确定输入帧的任何视觉元素220(诸如像素或块)是否还要被处理(420)。如果存在将处理的多个视觉元素220(是),则控制从步骤420转到步骤430,在步骤430中,处理器选择用于进一步处理的视觉元素220,并识别对应的视觉元素模型。控制转到选择步骤440,在选择步骤440中,处理器将来自输入帧210的视觉元素220与对应于正被处理的视觉元素的视觉元素模型中的模式模型进行比较,以便选择最紧密匹配的模式模型,该模式模型将被称为匹配模式模型。控制转到分类步骤450,在分类步骤450中,处理器基于模式模型的属性并且还基于视觉元素与模式模型之间的匹配来确定正被处理的视觉元素是表示前景还是背景。接着,控制从分类步骤450转出,并返回到决定步骤420,以使处理器确定是否存在将被处理的任何更多视觉元素。
如果在决定步骤420中输入帧中不存在将被处理的更多视觉元素(否),则在视觉元素级完成分割处理,控制从步骤420转到更新步骤460。在处理所有视觉元素之后,步骤460然后根据对每个视觉元素的确定的匹配模式模型来更新场景模型。所述更新可包括将更新的场景模型存储在存储器中。控制从步骤460转到后处理步骤470,在后处理步骤470中,处理器执行后处理步骤,所述后处理步骤可包括例如使用标准技术(诸如填色)对分割结果应用连通域分析。其它后处理步骤可包括例如移除小的连通域或者对分割结果进行形态学过滤。在步骤470之后,控制转到结束步骤480,处理400对于输入帧结束。可选地,可对所述序列中的其它帧重复所述处理。
如上所述,在步骤440中,处理器选择最紧密匹配模式。存在选择匹配模式模型的多种方式。一种布置将输入视觉元素220与对应于该输入视觉元素的视觉元素模型中的每个模式模型进行比较。所述布置然后选择与匹配模式模型类似性最高的模式模型。另一种布置利用阈值来确定输入视觉元素与模式模型之间的匹配是否是可接受的匹配,并且一旦匹配满足阈值,则不必比较另外的模式模型。例如,如果输入值在模式模型的均值的2.5标准差内,则确定模式模型匹配。后一布置对于计算类似性是昂贵操作的实现是有用的。可替换的布置利用多于一个的匹配标准来获得多于一种类型的匹配,然后利用匹配类型来确定后面的处理或者进行处理的模式模型。例如,对于强度图形匹配和对于总体亮度匹配,进行分离匹配。
本公开的一方面是计算输入视觉元素与模式模型之间的类似性。对于简单的背景模型,诸如平均强度表示,类似性的计算是简单的。对于更复杂的背景模型,确定类似性并不简单。例如,当视觉元素是8x8 DCT系数块时,需要通过多个变量定义类似性。一种布置利用机器学习技术来将多维输入值映射到一个概率值,所述概率值指示模式模型与输入视觉元素匹配的概率。这种机器学习技术可包括例如支持向量机和朴素贝叶斯(Bayes)分类器。
仅基于视觉元素中的信息的匹配模式模型的选择对于输入信号中的噪声敏感。这可通过考虑上下文,诸如通过考虑空间相邻的视觉元素来减小。对象检测的目标是找到充分可见的跨越多个视觉元素的对象。因此,当一个视觉元素被发现是前景时,合理地预计在该视觉元素的邻域存在其它前景视觉元素。如果在该视觉元素的邻域不存在前景视觉元素,则可能的是该视觉元素不应该被确定为前景。
作为同一个对象的一部分的视觉元素不必在视觉上类似。然而,作为同一个对象的一部分的视觉元素可能具有类似的时间特性。例如,如果对象正在移动,则与该对象相关联的所有视觉元素将仅在短的时间段内可见。相反,如果对象静止,则所有的视觉元素将对于类似的更长的时间段被建模。
图5是用于基于时间特性选择匹配模式的处理500的流程图。处理500通常以可被处理器执行的软件实现,作用于每个视觉元素,并从开始步骤505开始。控制转到步骤510,在步骤510中,处理器从与正被处理的视觉元素对应的视觉元素模型中选择候选模式模型来与正被处理的输入视觉元素匹配。接着,控制转到步骤520,在步骤520中,处理器确定视觉元素和候选模式模型的视觉支持值。支持值指示视觉类似性对确定模式模型匹配有什么贡献。
在一个实施例中,使用匹配的概率作为视觉支持值。在另一个实施例中,使用匹配概率的固定点逼近作为视觉支持值。
控制从步骤520转到步骤530,步骤530应用步骤520的相同匹配模式模型选择处理来为输入视觉元素的近邻找到匹配候选者。在计算候选模式模型的视觉支持之后,控制转到步骤540,以计算空间支持。空间支持是从近邻的匹配候选者给予的支持。最后,控制转到步骤550,在步骤550中,处理器从候选模式模型中选择匹配模式模型。对于每个候选模式模型,组合空间支持和视觉支持来计算模式模型匹配得分。在一个实施例中,通过在应用以下加权函数之后将它们相加来组合模式模型匹配得分:
Mode_model_matching_score=wv.+Visual_Support+ws.Spatial_Support。
Spatial_Support是给予候选模式的总空间支持。权重wv指示视觉支持的重要性,比方说0.5,权重ws指示总空间支持的重要性,比方说0.5。指出,权重可用于使支持值归一化。在一个示例中,ws被设置为一(1)。
在一种布置中,对于每个候选模式模型计算模式模型匹配得分,并将具有最高模式模型匹配得分的候选模式模型选择为与输入视觉元素220对应的匹配模式模型。在另一种布置中,使用模式模型匹配阈值,比方说四(4)。对候选模式模型计算模式模型匹配得分,直到模式模型匹配得分超过阈值为止。也就是说,与足够好的候选模式模型匹配,而不必是最佳模式模型。
控制从步骤550转到退出步骤560,并且视觉元素的处理终止。将意识到的是,可以以类似的方式处理任何数量的其它视觉元素。
图6是示出用于计算空间支持的图5的处理540的实施例的流程图。处理540从开始步骤600开始,并进入步骤610,在步骤610中,处理器将spatial_support值初始化为零(0)。处理540将候选模式模型与相邻的模式模型进行比较。因此,有必要检查是否存在任何更多的要对其计算空间支持的候选模式模型。控制从步骤610转到决定步骤620,决定步骤620确定是否存在任何未处理的候选模式模型。如果不存在任何未处理的候选模式模型(否),则控制转到结束步骤690,并且所述处理通过返回spatial_support值来终止。否则,如果在步骤620,存在至少一个未处理的候选模式模型(是),则控制转到步骤625,以选择用于与未处理的候选模式模型相邻的模式模型进行比较的未处理的候选模式模型。不同的实现可利用不同的标准来确定相邻的模式模型。一种布置考虑正被处理的视觉元素的4连通邻域。另一种布置考虑正被处理的视觉元素的8连通邻域。又一种布置考虑正被处理的视觉元素的21连通邻域。
控制从步骤625转到决定步骤630,在决定步骤630中,处理器确定对于正被处理的视觉元素是否存在任何未处理的近邻。如果不存在未处理的近邻(否),则控制返回到步骤620,以处理另一个候选模式模型。然而,如果在步骤630,对于正被处理的视觉元素存在至少一个剩余的未处理的近邻(是),则控制从步骤630转到步骤635,步骤635选择用于处理的近邻。
控制然后转到步骤640,步骤640基于所选候选模式模型与所选相邻模式模型之间的至少一种关系来计算这两个模式模型之间的链接强度。期望地,所述关系是这两个模式模型之间的同现度的强度。链接强度用于确定链接是否强。控制从步骤640转到决定步骤650,决定步骤650确定所选候选模式模型与所选相邻模式模型之间的链接强度是否强。确定链接是否强的一个实施例将链接强度与预定阈值(比如说0.5)进行比较。如果链接强度大于或等于阈值,则将链接视为强,否则,将链接视为弱。链接强度为关联模式模型做准备。
如果步骤650确定链接强度不强(否),则控制从步骤650返回到决定步骤630,以确定是否存在将被处理的任何其它剩余的近邻。然而,如果步骤650确定链接强度强(是),则控制转到步骤660,在步骤660中,处理器增加spatial_support值,在这种情况下,通过递增来增加spatial_support值。
如果链接强度强,并且如果两个模式模型共享相同的类别,诸如这二者都是前景或者这二者都是背景,则近邻具有与候选模式模型在时间上类似的所选模式模型,并增大该候选模式模型的空间支持,否则空间支持保持不变。
对于所有候选模式模型和与候选模式模型相关的视觉元素的相邻视觉元素相关联的所有模式模型,重复步骤620至660的处理。例如,如果存在具有在时间上与候选模式模型类似的所选模式模型的3个近邻,并且1个近邻具有弱链接,则空间支持为3。
图7是更新场景模型的处理700的流程图。处理700也优选地用被处理器105/305执行的软件实现,并从开始步骤710开始,在开始步骤710中,处理器例如从存储器106/306、310接收场景模型。控制转到决定步骤720,决定步骤720确定是否还有任何匹配模式模型要被处理。如果不再剩有将被处理的匹配模式模型(否),则控制从决定步骤720转到结束步骤780,处理700终止。然而,如果在步骤720,剩有至少一个将被处理的匹配模式模型(是),则控制从决定步骤720转到决定步骤730,在决定步骤730中,处理器确定匹配模式模型是否具有还没有被处理的任何相邻模式模型。
如果不再剩有将被处理的匹配模式模型近邻(否),则涉及该近邻的处理完成,并且控制从决定步骤730返回到步骤720。然而,如果在步骤730剩有至少一个将被处理的相邻模式模型(是),则控制从步骤730转到步骤740。处理器对匹配模式模型及其匹配的相邻模式模型执行剩余处理。匹配模式模型及其匹配的相邻模式模型在本文中称之为模式模型对。
在步骤740中,处理器确定模式模型对中的每个模式模型的类别。处理器将匹配模式模型及其匹配的相邻模式模型与类别相关联。在本示例中,类别要么是前景,要么是背景。在一个实施例中,类别的确定基于模式模型的年龄。在另一种实现中,模式模型的年龄被定义为当前帧号与创建模式模型的帧号之间的差值。在另一种实现中,基于时间戳定义模式模型的年龄。在可替换实施例中,可同样地利用其它类别。在一种可替换实施例中,根据相关联的年龄来对每个模式模型进行分类,所述年龄与自从模式模型被创建时起过去的时间量相关。在另一种可替换实施例中,根据视频序列处理期间每个模式模型被看见的多少次(基于例如与该模式模型相关联的命中计数)来对该模式模型进行分类。在另外的可替换实施例中,根据最近行为的度量对每个模式模型进行分类,所述度量基于在最近的预定时间段内该模式模型被看见多少次。
控制从步骤740转到步骤745,在步骤745中,处理器确定在目前正被处理的模式模型对中的匹配模式模型与相邻模式模型之间是否存在时间相关性(即,共同出现)。这通常基于预定标准或者其计数。在一个实施例中,所述处理逐帧地发生。在这样的上下文下,由于二者都是匹配模式模型的模式模型对在同一帧中匹配,所以该模式模型对总是具有时间相关性。在另一个实施例中,使用基于模式模型历史的相关性函数,并将输出与定义模式模型对之间的相关性的预定阈值进行比较。如果模式模型对之间没有时间相关性(否),则将相邻模式模型标记为已处理,并且控制从步骤745转到步骤730,以对下一个相邻模式模型进行处理。如果在步骤745在模式模型对之间存在时间相关性(共同出现)(是),则控制从步骤745转到步骤750。
下一个步骤750确定匹配模式模型和相邻模式模型是否具有相同类别。如果匹配模式模型和相邻模式模型不具有相同类别,则将近邻标记为已处理,并且控制返回到决定步骤730。如果模式模型对具有相同类别(是),则将匹配模式模型和相邻模式模型视为连通,并且控制从步骤750转到步骤760,在步骤760中,处理器修改模式模型对中的匹配模式模型与相邻模式模型之间的关系。
在修改步骤760的一个实施例中,匹配模式模型与相邻模式模型之间的关系是一个计数,并且步骤760将与该关系相关联的计数增加一(1)。该计数被称为同现度,并且期望地由处理器305存储在存储器306中。在另一个实施例中,所述关系是二元值,并被标记为“真”,简单地指示共同出现,而不试图将值赋予该共同出现。在另一个实施例中,修改取决于时间相关性的确定和类别的确定。
控制从步骤760转到更新步骤770,在更新步骤770中,处理器基于步骤760的修改关系来更新场景模型。在更新所述关系之后,所述处理从步骤770返回到决定步骤730。
如果不再有将被处理的匹配模式模型,则更新所述关系的处理700完成。
以上参照图7描述的方法使得能够基于数据对场景的共同行为建模,这使得可比仅使用各个模式模型的属性的方法更好地表示场景行为。
图8是示出计算链接强度的一个实施例的示意性表示。图8显示与多个视觉元素模型对应的多个模式模型800、810、820、830、840、860、870、880和890。具体地讲,图8显示两个匹配模式模型c 800和d 810,其中,c 800和d 810属于不同的视觉元素模型。图8还显示一些相邻模式模型820、830、840、860、880和890。相邻模式模型820、830、840、860、880和890可以匹配,或者可以不匹配。为了举例说明的目的,在该示例中仅一个视觉元素模型具有两个模式模型。在该示例中,模式模型820和830属于同一个视觉元素模型。根据实施例,其它视觉元素模型中的一个或更多个可包含另外的模式模型。模式模型850用虚线轮廓显示,以指示在可替换实施例中,模式模型850和模式模型840与同一个视觉元素模型相关。如下计算链接强度:
linking_strength(c,d)
=cooccurrence(c,d)/min(total_cooccurence(c),total_cooccurence(d))
其中:
total _ cooccurrence ( c ) = Σ i Σ j cooccurrence ( c , m j i )
total _ cooccurrence ( d ) = Σ i Σ j cooccurrence ( d , n j i )
c 800和d 810表示来自不同视觉元素模型的两个模式模型;
Figure BDA0000123894830000241
是c 800的第i相邻位置上的第j模式模型;
Figure BDA0000123894830000242
是d 810的第i相邻位置上的第j模式模型。
一些示例性值显示在以下表1中:
表1
Figure BDA0000123894830000243
以上表1中所示的示例的特征是模式模型对c和d,它对于计算这些模式模型之间的链接强度是有用的。模式模型c具有四个相邻位置,这四个相邻位置总共具有五种模式模型,这五种模式模型在表1的第二列中列出,即,
Figure BDA0000123894830000245
模式模型d具有四个相邻位置,这四个相邻位置具有四种模式模型,也在表1的第二列中列出,即,
Figure BDA0000123894830000246
匹配模式模型c或匹配模式模型d与各自的相邻模式模型中的每个之间的同现度在表1的第三列中列出。如下计算m与n之间的链接强度:
total_cooccurrence(c)=500+1+500+2000+200=3201
total_cooccurrence(d)=100+200+400+100=800
linking_strength(c,d)=200/min(3201,800)=200/800=0.25.
在另一个实施例中:
linking_strength(c,d)=cooccurrence(c,d)/min(hit_count(c),hit_count(d))
其中,hit_count(c)和hit_count(d)是帧的编号的计数,在所述帧中,模式模型c和d分别被选择为匹配模式模型(自从模式被创建时起)。
以下表2显示具有模式模型对c和d的另一个示例,该示例对计算模式模型c和d之间的链接强度是有用的。模式模型c具有四个相邻位置,这四个相邻位置总共具有五种模式模型,这五种模式模型在表2的第二列中被列为
Figure BDA0000123894830000251
模式模型d具有四个相邻位置,这四个相邻位置具有四种模式模型,这四种模式模型也在表2的第二列中被列为
Figure BDA0000123894830000254
匹配模式模型与相邻位置中的每一个模式模型之间的同现度在表2的第三列中列出。每个相邻模式模型的命中计数在表2的第四列中列出。如下计算模式模型c与模式模型d之间的链接强度:
linking_strength(c,d)=200/min(2000,600)=200/600=0.333
表2
Figure BDA0000123894830000255
Figure BDA0000123894830000261
在以上实施例中,链接强度在两个模式模型之间是对称的。在另一个实施例中,链接强度的计算是定向的,以使得模式模型c 800与模式模型d 810之间的链接强度取决于考虑哪个模式模型和哪个模式模型是近邻。当c被认为具有作为近邻的d时,计算链接强度:
linking_strength(c,d)=cooccurrence(c,d)/hit_count(c)
所以,通过使用表2中的相同示例值,得到:
linking_strength(c,d)=200/2000=0.1
在另一个实施例中,通过考虑的模式模型的总同现度使链接强度归一化,所述计算为:
linking_strength(c,d)=cooccurrence(c,d)/total_cooccurrence(c)
通过使用表1中的相同示例值和先前计算的总的同现度,提供:
linking_strength(c,d)=200/3201=0.0625
同现度是双向的,因此:
cooccurrence(c,d)=cooccurrence(d,c)
由于链接强度是定向的,所以如果d 810被认为具有作为近邻的c 800,则定义改变。链接强度为:
linking_strength(d,c)=cooccurrence(c,d)/hit_count(d)
所以,通过使用表2中的相同示例值,得到:
linking_strength(d,c)=200/600=0.333。
在使用总的同现度的实施例中,从d 810到c 800的链接强度为:
linking_strength(d,c)=cooccurrence(c,d)/total_cooccurrence(d)
通过使用表1中的相同示例值和先前计算的总的同现度,得到:
linking_strength(d,c)=200/800=0.25。
相关领域技术人员将意识到的是,可同样地实施使用同现度计算链接强度的其它方式,结果,计算的链接强度将具有微妙不同的意义。
链接强度用于确定两个模式模型之间的链接是否强。用于确定链接是否强的一个实施例将链接强度与预定阈值(比方说0.5)进行比较。如果链接强度大于或等于阈值,则将链接分类为强。否则,如果链接强度小于阈值,则将链接分类为弱。如果链接强度强并且两个模式模型属于同一类别,例如,二者都是前景或者二者都是背景或者二者共享共同的成熟度或行为计数,例如,成熟水平或最近行为,则近邻具有与候选模式模型在时间上类似的所选模式模型,并且该候选模式模型的空间支持增加。否则,空间支持保持不变。
对于所有候选模式模型和所有近邻,重复所述处理。例如,如果三个近邻具有与候选模式模型在时间上类似的所选模式模型并且一个近邻具有弱链接,则空间支持为3。
目前描述的方法的实施例提供表示同一个真实世界对象的场景中的视觉元素之间的改进的相关性。即使与同一个真实世界对象对应的不同视觉元素具有不同的行为计数或创建时间,这些实施例也正确地识别相关性。此外,所述方法的实现不要求数据在视频的当前帧以外可获得,所以根据本公开的布置可应用于直播视频流。根据本公开的实施例进一步不需要任何训练数据或初始化时间段。
图10a是视频帧1010的帧的示意性表示,视频帧1010具有场景背景1013、手提箱1011、位于手提箱1011后面的公共汽车1015和在这两个前面的人1017,人1017挡住了手提箱1011的一部分和公共汽车1015的一部分。在图10a的示例中,期望生成没有人1017的场景的表示。
用于一些场景构造或重构技术的混淆情景是当场景的深度排序与场景的时间历史不匹配的时候。例如,手提箱1011已经在视频中一些时间,公共汽车1015在稍晚时间在手提箱后停车,在更晚时间,人1017在公共汽车1015和手提箱101前面走过,部分挡住公共汽车公司的名称。
与视频帧1010对应的场景模型中的视觉元素模型均具有对应的匹配模式模型,这些匹配模式模型在这里称之为图10b中示出的场景模式模型1020。可根据场景模式模型1020对应的对象对场景模式模型1020进行分组。一些模式模型1025对应于公共汽车1015,一些模式模型1021对应于手提箱1011,一些模式模型1023对应于场景背景,一些模式模型1027对应于人1017。如果与人1017对应的区域1027被当作是未知的,则与人1027对应的视觉元素模型位置中的正确场景模式模型是未知的。由于场景模式模型1020的其余部分是匹配模式模型,所以它们是已知的。
如果如图10c中所表示的那样将具有最老创建时间的模式模型选择为场景模式模型,则由于场景最初是空的,所以人1017所在的所选区域的模式模型1037仅包括场景背景模式模型1033。
图10d显示从1030的所选模式模型重构图10a的场景的重构结果1040,该场景的重构结果1040仅包括公共汽车1045和箱1041的来自它们各自的模式模型1035和1031的部分图像,但是这些部分图像仅在原始帧中可见,人1017的区域1047仅被显示为场景背景1043。“重构”场景也可以或者可替换地被认为是从模型“构造”场景。
如果阈值时间用于重构场景,则有一些改进,但是结果仍不是所期望的。根据图10e的示例,帧的所选场景模式模型1050包括来自手提箱1051的另外被挡住的部分的一些模式模型1052,但是与人1057对应的模式模型的其余部分仍被归类为场景背景1053,而不是来自公共汽车1055的期望模式模型。
图10f显示从图10e中所选择的模式模型重构图10a中的场景的重构结果1060,重构结果1060正确地描绘手提箱1061,但是在人1067的形状中仍有个洞,该洞被背景10填充,并侵入到背景1063和公共汽车1065的重构结果中。虽然在一些示例中可选择将生成所期望结果的阈值,但是还存在根本不存在完美阈值的情况。如果例如人1017在早先的场景中可见,但是自从视频开始后已移动到场景中的不同位置,则将不存在人完全不在重构结果中的历史阈值。
期望状态是选择如图10g中所示的场景模式模型1070,1070仅在适当的1078的情况下使手提箱1071的挡住部分1072、公共汽车1075的挡住部分1076和场景背景1073的挡住部分完整。如果可作出这样的选择,则基于这些的图10h的重构结果1080可正确地包含手提箱1081、背景1083和公共汽车1085。
图11a是显示其最佳重构场景模式模型当前未知的视觉元素模型1110的示意性表示。两个连通的视觉元素模型1130和1140具有类似未知的最佳状态,但是另两个连通的视觉元素模型1120和1150分别具有已知的场景模式模型1125和1155。可基于来自第一已知模式模型1125的连通1114和来自第二已知模式模型1155的连通1112来选择视觉元素1110的最佳重构场景模式模型。图11b是显示用于计算一个视觉元素模型1160中的已知模式模型1161与另一个视觉元素模型1170的模式模型1171、1172和1173之间的关系1181、1182和1183的强度的计算的一个实施例的示意性表示。在所显示的实施例中,关系强度被表示为概率,该概率通过所述关系相对于所存储的测量已知模式模型的出现次数(也被称为命中计数)的值的相对同现度来计算。在另一个实施例中,相对于每个未知模式模型的出现次数计算关系度量。在又一个实施例中,相对于由已知模式产生的所有关系同现度的总和计算关系概率,由于模式模型有时被删除或到期,所以所述总和通常将小于模式模型出现次数。换句话讲,视觉元素1110中的具有与模式模型1125、1155中的至少一个的最大相对同现度的模式模型被选择为视觉元素1110的最佳背景模式模型。在又一个实施例中,所述关系强度被表示为其同现度的整数和。
图12是处理1200的流程图,处理1200用于迭代地识别模式模型,以在给定帧中的可用信息给定的情况下识别最可能的一组场景模式模型。与以前的方法相同,处理1200可以存储在存储器106/306、310中的并且可被处理器105/305执行的软件来实现。
当已知场景模式模型和未知视觉元素模型被处理器识别时,处理1200从步骤1210开始。在步骤1220中,处理器测试是否剩有任何未知的视觉元素模型1220,如果是,则处理1200进入步骤1230。
在步骤1230中,处理器选择与已知场景模式模型具有至少两个关系的未知视觉元素模型。在另一个实施例中,视觉元素模型与已知场景模式模型具有两个关系不是必要的,一个关系足够。在另一个实施例中,已知场景模式模型必须满足另外的要求,例如,与下述模式模型连通,所述模式模型与其出现将被重构的场景中的特定对象相关联。在又一个实施例中,例如通过模式模型的创建时间分选匹配的模式模型,并选择与最近创建的模式模型连通的视觉元素模型。在又一个实施例中,预先执行视觉元素模型的关系强度和概率计算,并修改根据1200的整个处理,以将每个步骤的具有最高概率的那些未知模式模型识别为已知的。
一旦视觉元素模型被选择,在步骤1240,处理器就识别视觉元素模型内的具有作为期望场景模式模型的最高概率的模式模型。在控制返回到步骤1220中的更多未知视觉元素模型的检查之前,处理器305然后在步骤1250中将该识别的模式模型的状态设置为已知,然后在步骤1260中将对应的视觉元素模型标记为已知。
如果在步骤1220不再有未知的剩余视觉元素模型(否),则所述处理在步骤1270结束。
图13是显示处理1240的更多细节的流程图,处理器根据该流程图识别最可能的场景模式模型。
处理1240在步骤1310以来自步骤1230的所选视觉元素模型开始,所述所选视觉元素模型与相邻视觉元素模型中的已知场景模式模型具有关系。在步骤1320,处理器检查以获悉是否存在还没有对当前计算贡献得分的任何近邻。如果存在任何未处理的近邻(是),则在步骤1330选择这些近邻中的一个近邻用于处理。
一旦具有已知场景模式模型的近邻被选择(1330),则在下一步骤1340中,处理器识别所选相邻视觉元素模型中的已知场景模式模型与未知视觉元素模型的模式模型之间的每个关系。在所述关系被识别的情况下,在步骤1350,处理器如图11b中所显示的示例那样计算与已知模式模型相关联的每个未知模式模型的可能性(1350)。这些概率与累积得分相加,并且所述处理返回以检查另外的已知的相邻模式模型(1320)。
如果在检查步骤1320,不再存在已知的相邻模式模型(否),则控制转到步骤1360。在该步骤中,将未知视觉元素模型中的具有最高累积可能性得分的模式模型选择为该视觉元素中的最大可能模式模型。所述处理在1370结束,并且控制转回到步骤1250。
图14a和图14b是显示使用图11、图12和图13中所述的方法重构图10a中的场景的重构结果的示意性表示。
关于上下文,参照作为例示性场景的图10a和作为表示该场景的场景模式模型的图10b。如图14a所见,被1017挡住的场景区域的重构从人的边缘开始,这是因为这些模式模型具有已知的场景模型近邻。在重构被迭代的同时,可在显示设备314上显示所选模式模型的中间视图1430,在中间视图1430中,看见表示手提箱1011的模式模型1431延伸到先前被人1017占据的区域1437中,分别与公共汽车1015和背景1013对应的模式模型1435和1433也是如此。分别基于这些模式模型1431、1433和1435与周围模式1021、1023和1025的关系来选择这些模式模型1431、1433和1435。如图14b所见,随着迭代继续(1440),与手提箱1011对应的模式模型1441中的多个被选择,与公共汽车1015和背景1013对应的模式模型1445和1443也是如此,留下非常少的人1017以前所在的未知模式模型1447。
现在参照图10g,当迭代完成时,看到,先前未知的位置1072、1076和1078中的模式模型已分别被对应地识别为手提箱1011、背景1013和公共汽车1015。如图10h所示,重构图像1080显示手提箱1081和背景1083,所述手提箱1081和背景1083已通过填补未知模式模型以获得一组背景模式模型被完全重构。公共汽车1085也被重构,露出公共汽车公司名称(Bee-Line Bus)的其余部分。递归的填补的次序优选地被选择为向内操作,以基于场景模型中的所选一组已知模式模型填补具有未知模式模型的视觉元素。然而,可按任何顺序操作所述布置。
图10h的图像1080将一些伪像描绘为对人1017的以前位置的视觉引导,但是这些在本专利说明书中仅用于举例说明的目的,处理1200/1240不必在重构图像1080中留下任何可见伪像。
图15a、图15b和图15c示意性地表示一组视觉元素模型中的模式模型信息的三个分离“层”,这三层在图15a中显示在一起,在图15b中被看见分开为1515、1525和1535。在图15a中,可以看到每层的模式模型(诸如模式模型1510)通过强关系(诸如1511)接合。这些层重叠,以使得例如单个视觉元素模型1550可包含来自全部三层的模式模型。在该示意性表示中还存在不必是任何层的部分的模式模型,诸如模式模型1560。
另外,用较暗的边界标记某些模式模型,诸如模式模型1510和模式模型1530,以示出它们在给定时间是匹配模式模型,该时间与其视觉元素与匹配模式模型匹配的帧相关联。其它模式模型,诸如模式模型1520,不匹配。在图15a中,每个视觉元素模型,存在一个匹配模式模型。
在图15b中,为了清晰起见,将图15a中的重叠层分开,以使得在1515中仅可看见与模式模型1510对应的层,在1525中仅可看见与模式模型1520对应的层,在1535中仅可看见与模式模型1530对应的层。
虽然如图18清楚地所示,将所有(或大部分)模式重构为层是场景内容的准3D模型,这是非常可取的概念,但是本发明人发现这对于利用真实数据的尝试通常是不可能或不实用的。尽管如此,然而,它对于仅获取给定时间的匹配模式(图15c)并决定它们是否共同链接(按照图17)是非常可行且在计算上是鲁棒的,所述匹配模式被保证具有关系(至少它们最近共同出现的关系)。然后可将该共同链接扩展到(通过当前帧的匹配模式)分割当前帧。在本描述中始终进行其他引用以仅检查匹配模式之间的链接,以实现分割。
在示例性实施例中,以匹配模式模型(诸如模式模型1510)的关系(诸如关系1511)来考虑匹配模式模型。然后,在对模式模型进行匹配时,通过仅使用每个视觉元素模型中的那些匹配的模式模型,可基于所选模式模型与相邻视觉元素中的模式模型之间的关系来形成分割。该分割的结果的示例在图15c中被显示为示例性分割块1518、1528和1538。换句话讲,一旦模式模型与输入模式模型匹配,就对匹配模式模型检查同现度值。如果匹配模式模型之间的关系高,则在分割处理中将这些模式模型分组到同一个分割块中。
图16a是显示两个相邻视觉元素模型1600和1610的示意性表示,第一模型1600具有模式模型1601和1602,第二模型1610具有模式模型1611、1612和1613。在图16a中,考虑模式模型1601和1611,以发现它们是否在同一层中,所以用与其它模式模型1602、1612和1613不同的轮廓风格绘制模式模型1601和1611。在一个实施例中,由于这两个模式模型1601和1611在它们各自的视觉元素模型中是匹配模式模型,所以考虑这两个模式模型1601和1611。在另一个实施例中,由于依次考虑所有组合,所以考虑模式模型1601和1611。处理器305确定这两个模式模型1601与1611之间的关系是否强(例如,通过步骤650)。通过考虑模式模型1611,视觉元素模型1600中的所有模式模型1601和1602被选择。检查模式模型关系1621和1622,模式模型关系1621和1622分别在模式模型1611与两个模式模型1601和1602之间。
在该示例中,关系1621的强度被赋值为例如30,比被赋值为例如10的关系1622的强度强。在一种实现中,关系强度是两个模式模型之间的同现度。在另一种实现中,基于关系的其它属性计算关系强度。在又一种实现中,基于与相关联的模式模型的属性组合的关系的属性计算关系强度。
图16b是显示分别与图16a中的两个相邻视觉元素模型(即,1600和1610)对应的相同的两个相邻视觉元素模型1630和1640的示意性表示。视觉元素模型1630具有模式模型1631和1632,在该示例中,期望对模式模型1631测试关系强度。选择包含模式模型1641、1642和1643的视觉元素模型1640。关系1651、1652和1653分别与这三个模式模型相关联。在该示例中,被赋值为40的关系1652的强度比被赋值为30的关系1651的强度或者被赋值为0的关系1653的强度强。
图16c是显示与图16b(即,分别与视觉元素模型1630和1640)对应的相同的两个相邻视觉元素模型1660和1670的示意性表示。三个关系1681、1682和1683分别与在图16b中被显示为1651、1652和1653的相同。然而,在该表示中,关系1682具有被赋值为20的较小值。该改变的结果是,关系1681现在最强。
图16a与图16b或16c不矛盾,图16a至图16c因此显示两个情景,一个情景中考虑图16a和图16b,一个情景中考虑图16a和图16c。为了对同一图块或层中的两个模式模型分类,所述关系是一个模式模型与另一个视觉元素中的模式模型之间的一组关系的最大值,反之亦然。例如,在图16a和图16b的情况下,模式模型1601与模式模型1611之间的同现度1621(为30)是模式模型1611与视觉元素1600中的模式模型之间的一组同现度的最大值,但是不是模式模型1601和1630与视觉元素1640中的一组模式模型之间的最大值(1651)。因此,模式模型1601和1611不属于同一层。另一方面,在图16a和图16c的情况下,模式模型1601与模式模型1611之间的同现度1621、1681(为30)是模式模型1611与视觉元素1600中的模式模型之间的一组同现度的最大值。模式模型1601、1660之间的同现度1681也是与视觉元素1670中的一组模式模型的一组同现度值的最大值。因此,认为模式模型1601、1660是与模式模型1611相同的对象层。
在一种实现中,图16a至图16c中的两个视觉元素模型对应于相邻视觉元素。在另一种实现中,视觉元素模型分开固定距离。在又一种实现中,视觉元素模型可以是在其之间可形成关系的任何两个视觉元素模型。
图17是显示示例性方法1700的流程图,通过示例性方法1700,可将具有已知关系(比如,同现度)的模式模型分类为属于同一层还是不属于同一层。期望地,方法1700使用存储在存储器106/306、310中的并且可被处理器105/305执行的软件来实现。在一个实施例中,该方法可用于测试场景模型中的所有关系,以形成场景的分层分割。在另一个实施例中,该方法仅可用在匹配模式模型之间的关系上,从而实现输入帧的分割。输入帧可通过下述方式分割,即,使所有视觉元素彼此分离,然后重新连接其对应模式模型在同一对象层中的那些视觉元素。在另一个实施例中,图17的方法1700可用于将模式模型添加到来自种子位置的扩展模型中的层中,由此由于每个新的模式模型被添加到同一层,与该模式模型相关联的所有关系被添加到将被检查的列表。换句话讲,当同现度满足第一预定标准和第二预定标准时,关联两个模式模型,所述第一预定标准针对当前模式模型与相邻视觉元素中的一组模式模型之间的第一组同现度,所述第二预定标准针对相邻视觉元素中的模式模型与当前视觉元素中的多个模式模型之间的第二组同现度。
方法1700的其它实现包括具有以下标准:
(a)同现度关系至少为一组同现度的最大值的预定分数,
(b)同现度在一组同现度的最大值的预定阈值量内,或者
(c)同现度至少位于排序的同现度列表中的预定位置处。
方法1700可在以下情况下将第二模式模型与第一模式模型相关联:
(a)同现度是第一模式模型与第二视觉元素模型中的多个模式模型之间的第一组同现度的最大值;和
(b)同现度是第二模式模型与第一视觉元素模型中的多个模式模型之间的第二组同现度的最大值。
处理1700从开始步骤1710开始,在开始步骤1710中,从存储器106/306接收场景模型,或者处理器105/305以其它方式识别场景模型。在第一步骤1720中,处理器确定在应该被处理的模式模型之间是否仍存在任何关系。如果存在(是),则处理1700进入选择步骤1730,在选择步骤1730中,选择用于处理的候选模式模型关系(例如,模式模型1621)。这涉及识别在其之间存在关系的第一模式模型(例如,模式模型1601)和第二模式模型(例如,模式模型1611),并且还识别分别包含第一模式模型和第二模式模型的第一视觉元素模型(例如,模式模型1600)和第二视觉元素模型(例如,模式模型1610)。
处理1700然后执行所选关系的第一测试1740,以找到第一模式模型与第二视觉元素模型的模式模型之间的所有关系。处理器然后执行测试1750,以确定候选关系是否是所有这些关系中的最强关系。如果关系不是最强(否),则处理1700返回到步骤1720,以检查更多未处理的关系。如果关系最强(是),则处理1700进入所选关系的第二测试1760。
在所选关系的第二测试1760中,处理器操作,以找到第二模式模型与第一视觉元素模型的模式模型之间的所有关系。然后执行测试1770,以确定候选关系是否是所有这些关系中的最强关系。如果候选关系不是最强的(否),则处理1700返回到步骤1720,以检查更多未处理的关系。如果候选关系是最强的(是),则处理器1700进入步骤1780,在步骤1780中,处理器将第一模式模型和第二模式模型分类为在同一对象层中。类别可存储在存储器106/306、310中。处理1700然后返回到步骤1720,以检查更多未处理的关系。
还指出,在两个模式没有被识别为相关或者以其它方式被建立为相关的情况下,这样不意味着它们不在同一对象层中。这样仅意味着它们是否在同一对象层中是未知的。模式可通过其它链接的模式而显露为相关的。
如果如在步骤1720测试的那样不再存在未处理的关系(否),则方法1700在步骤1790结束。
图18a和图18b提供显示在场景模型中的所有模式模型已根据图17的方法被处理成层之后首先在图10a中出现的情景1020的示意性表示。在图18b中,通过检查相邻模式模型之间的同现度值来将模式模型层重构为它们各自的对象的图像。如果同现度是当前模式模型与相邻视觉元素中的模式模型之间的同现度值的最大值以及相邻模式模型与当前模式模型的视觉元素中的模式模型之间的同现度值的最大值,则这两个模式模型属于同一对象层。
图18a显示背景1013的层1810、与公共汽车1015相关联的层1815、与手提箱1011相关联的层1811和与人1017相关联的层1817。每层以超过在原始帧中直接观察到的程度而存在,许多模式模型在其它模式模型后面。指出,与公共汽车1015相关联的层1815在与手提箱1011相关联的层1811后面,但是手提箱1011在场景中比公共汽车1015在更早的时间出现,以使得由于公共汽车1015没有在那被观察到,所以没有关于公共汽车1015在手提箱1011后面的区域的层信息。
图18b显示重构为其对应图像元素的模式模型层。背景模式模型1810被重构为背景1013的图像1820,与手提箱1011对应的模式模型1811被重构为手提箱的图像1821,与公共汽车1015对应的模式模型1815被重构为公共汽车1015的图像1825,与人1017对应的模式模型1817被重构为人1017的图像1827。
工业应用
所述布置可应用于计算机和数据处理行业,特别是成像和视频行业。
前面仅描述了本公开的一些实施例,在不脱离如权利要求中所限定的本发明的范围和精神的情况下,可对这些实施例进行修改和/或改变,实施例是示例性,而不是限制性。

Claims (30)

1.一种用于更新场景模型的计算机实现方法,包括以下步骤:
通过修改与第一视觉元素相关联的第一模式模型和与第二视觉元素相关联的第二模式模型之间的关系来更新用于图像序列中的对象检测的场景模型,所述更新包括:
确定所述第一模式模型与所述第二模式模型之间的同现度;
根据所述第一模式模型与所述第二模式模型之间的同现度的确定来修改所述第一模式模型与所述第二模式模型之间的关系;和
基于所述第一模式模型与所述第二模式模型之间的修改的关系来更新所述场景模型。
2.根据权利要求1所述的方法,还包括以下步骤:
在以下情况下将所述第二模式模型与所述第一模式模型相关联:
(a)所述同现度是所述第一模式模型与第二视觉元素模型中的多个模式模型之间的第一组同现度中的最大值;和
(b)所述同现度是所述第二模式模型与第一视觉元素模型中的多个模式模型之间的第二组同现度中的最大值。
3.根据权利要求1所述的方法,还包括在以下情况下将所述第二模式模型选择为用于所述第二视觉元素的场景模式模型的步骤:所确定的与所述第一模式模型的同现度是所述第一模式模型与第二视觉元素模型中的多个模式模型之间的一组同现度中的最大值,所述第一模式模型是用于所述第一视觉元素的场景模式模型。
4.根据权利要求3所述的方法,还包括基于用于所述第一视觉元素的所述场景模式模型和所选第二模式模型来构造所述图像序列的场景的步骤。
5.根据权利要求2所述的方法,还包括以下步骤:
确定所述第一模式模型和所述第二模式模型的类别;其中,
所述修改的步骤根据所述类别的确定来修改所述第一模式模型与所述第二模式模型之间的关系。
6.根据权利要求2所述的方法,其中,所述第一模式模型和所述第二模式模型与所述场景模型中的空间相邻的视觉元素相关联。
7.根据权利要求3所述的方法,还包括以下步骤:
确定所述第一模式模型和所述第二模式模型的类别;其中,
所述修改的步骤根据所述类别的确定来修改所述第一模式模型与所述第二模式模型之间的关系。
8.根据权利要求3所述的方法,其中,所述第一模式模型和所述第二模式模型与所述场景模型中的空间相邻的视觉元素相关联。
9.根据权利要求7所述的方法,其中,所述修改步骤取决于共享共同类别的第一模式模型和第二模式模型。
10.根据权利要求7所述的方法,其中,第一模式模型和第二模式模型中的每个的所述类别是前景和背景之一。
11.根据权利要求7所述的方法,其中,第一模式模型和第二模式模型中的每个的所述类别与成熟水平和最近行为中的至少一个相关。
12.根据权利要求1所述的方法,其中,第一模式模型与第二模式模型之间的关系与预定标准的计数相关。
13.根据权利要求12所述的方法,其中,对于空间相邻的模式模型,保持所述预定标准的所述计数。
14.根据权利要求1所述的方法,其中,所述修改所述第一模式模型与所述第二模式模型之间的关系的步骤包括:
在以下情况下将所述第二模式模型与所述第一模式模型相关联:
(a)所述同现度满足所述第一模式模型与所述第二视觉元素模型中的多个模式模型之间的第一组同现度的第一预定标准;和
(b)所述同现度满足所述第二模式模型与所述第一视觉元素模型中的多个模式模型之间的第二组同现度的第二预定标准。
15.根据权利要求14所述的方法,其中,所述第一预定标准和所述第二预定标准是以下中的至少一个:
(a)同现度至少是第一组同现度和第二组同现度的最大值的预定分数;
(b)同现度在第一组同现度和第二组同现度的最大值的预定阈值量内;和
(c)同现度至少位于排序的第一组同现度和第二组同现度的列表中的预定位置处。
16.根据权利要求4所述的方法,其中,递归地执行所述构造图像序列的场景的步骤,以基于具有已知模式模型的多个视觉元素填补具有未知模式模型的多个视觉元素。
17.一种照相机系统,包括:
光学系统;
传感器;
控制器,所述控制器与所述光学系统和所述传感器中的每个耦接以捕捉图像序列,所述控制器包括处理器,所述处理器能够操作用于:
通过修改与第一视觉元素相关联的第一模式模型和与第二视觉元素相关联的第二模式模型之间的关系来更新用于图像序列中的对象检测的场景模型,所述处理器能够操作以通过如下方式更新场景模型:
确定所述第一模式模型与所述第二模式模型之间的同现度;
根据所述第一模式模型与所述第二模式模型之间的同现度的确定来修改所述第一模式模型与所述第二模式模型之间的关系;和
基于所述第一模式模型与所述第二模式模型之间的修改的关系来更新所述场景模型。
18.根据权利要求17所述的照相机系统,其中,所述处理器还能够操作以通过如下方式修改所述第一模式模型与所述第二模式模型之间的关系:
在以下情况下将所述第二模式模型与所述第一模式模型相关联:
(a)所述同现度是所述第一模式模型与所述第二视觉元素模型中的多个模式模型之间的第一组同现度中的最大值;和
(b)所述同现度是所述第二模式模型与第一视觉元素模型中的多个模式模型之间的第二组同现度中的最大值。
19.根据权利要求17所述的照相机系统,其中,所述处理器进一步能够操作以通过如下方式修改所述第一模式模型与所述第二模式模型之间的关系:
在以下情况下将所述第二模式模型选择为用于所述第二视觉元素的场景模式模型:所确定的与所述第一模式模型的同现度是所述第一模式模型与所述第二视觉元素模型中的多个模式模型之间的一组同现度的最大值,所述第一模式模型是用于所述第一视觉元素的场景模式模型;以及
所述处理器进一步能够操作用于:
基于所述第一视觉元素的场景模式模型和所选第二模式模型来构造所述图像序列的场景。
20.一种用于更新场景模型的系统,所述系统包括:
用于通过修改与第一视觉元素相关联的第一模式模型和与第二视觉元素相关联的第二模式模型之间的关系来更新用于图像序列中的对象检测的场景模型的装置,包括:
用于确定所述第一模式模型与所述第二模式模型之间的同现度的装置;
用于根据所述第一模式模型与所述第二模式模型之间的同现度的确定来修改所述第一模式模型与所述第二模式模型之间的关系的装置;和
用于基于所述第一模式模型与所述第二模式模型之间的修改的关系来更新所述场景模型的装置。
21.一种在用于图像序列中的对象检测的场景模型中将第一视觉元素模型中的第一模式模型与从第二视觉元素模型中的多个模式模型中选择的第二模式模型相关联的计算机实现方法,所述方法包括以下步骤:
识别所述第一模式模型与所述第二模式模型之间的关系的强度;和
基于所述关系将所述第一模式模型与所述第二模式模型关联。
22.根据权利要求21所述的方法,其中,所述关联的步骤在以下情况下将所述第一模式模型与所述第二模式模型相关联:
(a)所述第一模式模型与所述第二模式模型之间的关系的强度满足所述第一模式模型与第二视觉元素模型中的所述多个模式模型之间的第一组关系强度的第一预定标准;和
(b)所述第一模式模型与所述第二模式模型之间的关系的强度满足所述第二模式模型与第一视觉元素模型中的一个或更多个模式模型之间的第二组关系强度的第二预定标准。
23.根据权利要求21所述的方法,其中,所述关联的步骤在以下情况下将所述第一模式模型与所述第二模式模型相关联:
所述关系强度是所述第一模式模型与所述第二视觉元素模型中的多个模式模型之间的一组关系强度中的最大值,所述第一模式模型是用于所述第一视觉元素的场景模式模型;和
将相关联的第二模式模型选择为用于所述第二视觉元素的场景模式模型。
24.根据权利要求23所述的方法,还包括以下步骤:
基于所述第一场景模式模型与所选第二模式模型来重构所述图像序列的场景。
25.根据权利要求22所述的方法,其中,通过修改所述第一模式模型与所述第二模式模型之间的关系的强度来更新所述用于图像序列中的对象检测的场景模型,所述更新的步骤包括以下步骤:
确定所述第一模式模型与所述第二模式模型之间的同现度;
根据所述第一模式模型与所述第二模式模型之间的同现度的确定,来修改所述第一模式模型与所述第二模式模型之间的关系的强度;和
基于所述第一模式模型与所述第二模式模型之间的修改的关系的强度来更新所述场景模型。
26.根据权利要求24所述的方法,其中,通过修改所述第一模式模型与所述第二模式模型之间的关系的强度来更新所述用于图像序列中的对象检测的场景模型,所述更新的步骤包括以下步骤:
确定所述第一模式模型与所述第二模式模型之间的同现度;
根据所述第一模式模型与所述第二模式模型之间的同现度的确定来修改所述第一模式模型与所述第二模式模型之间的关系的强度;和
基于所述第一模式模型与所述第二模式模型之间的修改的关系的强度来更新所述场景模型。
27.根据权利要求25所述的方法,还包括:
确定所述第一模式模型和所述第二模式模型的类别;其中,
所述修改步骤根据所述类别的确定来修改所述第一模式模型与所述第二模式模型之间的关系。
28.根据权利要求25所述的方法,其中,所述第一模式模型和所述第二模式模型与所述场景模型中的空间相邻的视觉元素相关联。
29.根据权利要求26所述的方法,还包括以下步骤:
确定所述第一模式模型和所述第二模式模型的类别;其中,
所述修改步骤根据所述类别的确定来修改所述第一模式模型与所述第二模式模型之间的关系。
30.根据权利要求26所述的方法,其中,所述第一模式模型和所述第二模式模型与所述场景模型中的空间相邻的视觉元素相关联。
CN201110436757.1A 2010-12-23 2011-12-23 更新场景模型的方法和系统、使用该方法的照相机系统 Expired - Fee Related CN102708572B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2010257409 2010-12-23
AU2010257409A AU2010257409B2 (en) 2010-12-23 2010-12-23 Temporal-correlation-based mode connection

Publications (2)

Publication Number Publication Date
CN102708572A true CN102708572A (zh) 2012-10-03
CN102708572B CN102708572B (zh) 2015-08-05

Family

ID=46316863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110436757.1A Expired - Fee Related CN102708572B (zh) 2010-12-23 2011-12-23 更新场景模型的方法和系统、使用该方法的照相机系统

Country Status (3)

Country Link
US (1) US9031280B2 (zh)
CN (1) CN102708572B (zh)
AU (1) AU2010257409B2 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013273784B2 (en) * 2013-12-20 2016-06-02 Canon Kabushiki Kaisha Method, system and apparatus for updating a scene model
US9390328B2 (en) * 2014-04-25 2016-07-12 Xerox Corporation Static occlusion handling using directional pixel replication in regularized motion environments
CN105205830A (zh) * 2014-06-17 2015-12-30 佳能株式会社 用于更新场景模型和视频监视的方法和设备
AU2014280948A1 (en) * 2014-12-24 2016-07-14 Canon Kabushiki Kaisha Video segmentation method
TWI569212B (zh) * 2015-12-10 2017-02-01 財團法人工業技術研究院 影像辨識方法
US10514711B2 (en) * 2016-10-09 2019-12-24 Airspace Systems, Inc. Flight control using computer vision
US10325169B2 (en) * 2016-10-09 2019-06-18 Airspace Systems, Inc. Spatio-temporal awareness engine for priority tree based region selection across multiple input cameras and multimodal sensor empowered awareness engine for target recovery and object path prediction
EP3543902B1 (en) * 2018-03-22 2021-06-02 Canon Kabushiki Kaisha Image processing apparatus and method and storage medium storing instructions
CN110298223A (zh) * 2018-03-22 2019-10-01 佳能株式会社 图像处理装置和方法及存储指令的存储介质
CN109032940B (zh) * 2018-07-19 2021-04-09 郑州云海信息技术有限公司 一种测试场景录入方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294270A1 (en) * 2006-06-09 2007-12-20 Eric Gregory Layering and Referencing of Scene Description
US20090262984A1 (en) * 2000-10-03 2009-10-22 Gesture Tek, Inc. Multiple Camera Control System
CN101802762A (zh) * 2006-12-27 2010-08-11 约维申有限公司 可视化对象关系
CN101833760A (zh) * 2010-03-29 2010-09-15 中山大学 一种基于图像块的背景建模方法及背景建模装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7336803B2 (en) * 2002-10-17 2008-02-26 Siemens Corporate Research, Inc. Method for scene modeling and change detection
US8150155B2 (en) * 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8669939B2 (en) * 2006-02-08 2014-03-11 Oblong Industries, Inc. Spatial, multi-modal control device for use with spatial operating system
US8401229B2 (en) * 2007-09-04 2013-03-19 Objectvideo, Inc. Stationary target detection by exploiting changes in background model
TWI348659B (en) * 2007-10-29 2011-09-11 Ind Tech Res Inst Method and system for object detection and tracking
AU2009251048B2 (en) * 2009-12-18 2013-12-19 Canon Kabushiki Kaisha Background image and mask estimation for accurate shift-estimation for video object detection in presence of misalignment
US8694299B2 (en) * 2010-05-07 2014-04-08 Exxonmobil Upstream Research Company Artifact reduction in iterative inversion of geophysical data
US8645082B2 (en) * 2010-09-13 2014-02-04 Mks Instruments, Inc. Monitoring, detecting and quantifying chemical compounds in a sample

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090262984A1 (en) * 2000-10-03 2009-10-22 Gesture Tek, Inc. Multiple Camera Control System
US20070294270A1 (en) * 2006-06-09 2007-12-20 Eric Gregory Layering and Referencing of Scene Description
CN101802762A (zh) * 2006-12-27 2010-08-11 约维申有限公司 可视化对象关系
CN101833760A (zh) * 2010-03-29 2010-09-15 中山大学 一种基于图像块的背景建模方法及背景建模装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAKRIS D. ET AL.: "Automatic learning of an activity-based semantic scene model", 《ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE, 2003. PROCEEDINGS. IEEE CONFERENCE ON》 *
方帅等: "基于背景建模的动态目标检测算法的研究与仿真", 《系统仿真学报》 *

Also Published As

Publication number Publication date
US20120163658A1 (en) 2012-06-28
AU2010257409A1 (en) 2012-07-12
AU2010257409B2 (en) 2013-01-31
CN102708572B (zh) 2015-08-05
US9031280B2 (en) 2015-05-12

Similar Documents

Publication Publication Date Title
CN102708572B (zh) 更新场景模型的方法和系统、使用该方法的照相机系统
Kim et al. Deep monocular depth estimation via integration of global and local predictions
CN110599492B (zh) 图像分割模型的训练方法、装置、电子设备及存储介质
EP3399460B1 (en) Captioning a region of an image
Hui et al. Effective building extraction from high-resolution remote sensing images with multitask driven deep neural network
Mnih Machine learning for aerial image labeling
US9558268B2 (en) Method for semantically labeling an image of a scene using recursive context propagation
dos Santos et al. A relevance feedback method based on genetic programming for classification of remote sensing images
CN101288100B (zh) 立体成像中的遮蔽处理
Ion et al. Image segmentation by figure-ground composition into maximal cliques
CN109191446A (zh) 用于肺结节分割的图像处理方法及装置
US20150339828A1 (en) Segmentation of a foreground object in a 3d scene
CN102917159B (zh) 用于改进的多模式背景去除的模式移除
Bai et al. NHL Pathological Image Classification Based on Hierarchical Local Information and GoogLeNet‐Based Representations
Cheng et al. Exploiting nonlocal spatiotemporal structure for video segmentation
CN108805151B (zh) 一种基于深度相似性网络的图像分类方法
CN112487207A (zh) 图像的多标签分类方法、装置、计算机设备及存储介质
US11055572B2 (en) System and method of training an appearance signature extractor
CN101872415A (zh) 适用于iptv的视频拷贝检测方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Mseddi et al. Real-time scene background initialization based on spatio-temporal neighborhood exploration
Hou et al. An object detection algorithm based on infrared-visible dual modal feature fusion
US20230281865A1 (en) Systems and methods for optical recognition and identification of objects, and inventorying of the same
CN109063537A (zh) 针对异常小目标解混的高光谱图像预处理方法
CN114494272A (zh) 一种基于深度学习的金属零件快速分割方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150805

Termination date: 20161223