CN1716280A - 用光学信息进行情形识别的方法及装置 - Google Patents

用光学信息进行情形识别的方法及装置 Download PDF

Info

Publication number
CN1716280A
CN1716280A CN 200510082135 CN200510082135A CN1716280A CN 1716280 A CN1716280 A CN 1716280A CN 200510082135 CN200510082135 CN 200510082135 CN 200510082135 A CN200510082135 A CN 200510082135A CN 1716280 A CN1716280 A CN 1716280A
Authority
CN
China
Prior art keywords
optical information
value
indication
situation
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200510082135
Other languages
English (en)
Other versions
CN100377168C (zh
Inventor
布赖恩·克拉克森
村田诚
児嵨环
赵文武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1716280A publication Critical patent/CN1716280A/zh
Application granted granted Critical
Publication of CN100377168C publication Critical patent/CN100377168C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种情形识别装置包括:光学信息获取单元,配置为获取光学信息;存储器,配置为存储多条光学信息;处理单元,配置为匹配存储在存储器中的多条光学信息和由光学信息获取单元新获取的光学信息;以及输出单元,配置为输出匹配的结果。存储器还存储以数值方式表示多条光学信息之间的跳转的概率模型。

Description

用光学信息进行情形识别的方法及装置
技术领域
本发明涉及用于情形识别的方法和装置、系统、计算机程序、以及记录介质,更具体地,涉及用于通过使用光学信息来比较当前的和过去的情形以识别情形的情形识别方法和装置、系统、计算机程序、以及记录介质。
背景技术
在自动机器学的技术领域,有这样一种情况:在自动机器上组合具有360°视野的抛物面摄像机和图像记录技术以执行位置测量,如下面的非专利文献2到4中作为示例所描述。该技术执行详细的校准处理以使所获取的图像或者图像组与在被称为图像地图集的参考图像数据库空间中的具体点相关联。
为了上述关联而执行的图像匹配使用局部的且高分辨率的图像。为此,图像地图集需要包含关于地图空间的所有点的信息,而且,每个点上的信息需要以不依赖于传感器方向的形式来表示。
在可佩戴计算的技术领域中,已经提出了通过使用传感器或其它类似的器件以匹配当前情形和过去情形的技术作为用于实现前后关系(context)认知和所谓的事件记忆的方法,所述前后关系认知用于以在适当的定时触发行为,所述事件记忆用于记忆用户或其他人在相似的情形下做了什么,或者辨认重复发生或者新发生的情形。
关于“位置”的信息在前后关系认知方面非常有用。即,即使仅可以识别用户的位置,也有可能通过利用对过去情形的识别结果和信息来辨认当前的情形。
在上述方法中,不使用视觉信息的技术有:
●无线电频率标签(RF标签:专利文献2)
●红外标签(IR标签,非专利文献5)
●环境中的基准标记(专利文献3)
●全球定位系统(GPS)
●超声波信标
●个人手持电话系统(PHS)
●802.11无线网络
[非专利文献1]Thurn,S.,D.Fox,et al.(2001),“Robust Monte Carlolocalization for mobile robots.”,Artifical Intelligence 128(1-2):99-141.
[非专利文献2]Betke,M.and L.Gurvits(1997).″Mobile RobotLocalization Using Landmarks.″IEEE Transactions on Robotics and Automation13(2):251-261.
[非专利文献3]Jogan,M.and A.Leonardis(2000).″Robust localizationusing panoramic view-based recognition.″15th International Conference onPattern Recognition 4:136-139.
[非专利文献4]Pajdla,T.and V.Hlavac(1999).″Zero-PhaseRepresentation of Panoramic Images for Image-based Localization.″8thInternational Conference on Computer Analysis of Images and Patterns:550-557.
[非专利文献5]Starner,T.,D.Kirsh,et al.(1997).“The locust Swarm:AnEnviormentally-powered,Network-less Location and Messaging System”,Internation Symposium on Wearable Computers,Cambridge MA.
[非专利文献6]Aoki,H.,B.Schiele,et al.(1999).“Realtime PersonalPositioning System for Wearable Computers”,International Symposium onWearable Computers’99.
[非专利文献7]Rungsarityotin,W.and T.Starner(2000).″Findinglocation using omnidirectional video on a wearable computing platform.″Proceedings of IEEE International Symposium on Wearable Computing(ISWC2000),Atlanta,GA.
[专利文献1]美国专利No.4,737,794,“Method and apparatus fordetermining remote object orientation and position”.
[专利文献2]美国专利No.6,680,702,“Radio frequency resonant tagswith conducting patterns connected via a dielectric film”.
[专利文献3]美国专利No.6,073,044,“Method for determining thelocation in physical space of a point of fiducial marker that is selectivelydetachable to a base”.
发明内容
在自动机器的技术领域,有利用激光前后关系的探测器的情形识别技术(非专利文献1)。在非专利文献1公开的系统中,用激光前后关系的探测器来给自动机器定位,并在从过去到现在的测量结果的前后关系和当前的测量结果的基础上估计自动机器的当前位置。
这是因为如果拥有上述传统系统的自动机器停留在一个位置,则通过激光前后关系探测器可以从周围环境获取的测量结果有限且太稀疏。即,因为激光前后关系探测器的设备特征的内在限制,用在一个位置获取的测量结果很难辨认自动机器的位置,对于更准确的辨认需要附加信息。附加信息典型地从通过传统系统获取的过去的测量结果和位置估计结果得来。典型地,上述激光前后关系探测器仅在室内环境中有用。
因此,需要提供不但在室内环境中有用而且在其它环境中也有用的情形识别方法和装置。
在自动机器学的情形识别方法中,存在自动机器本身需要执行预定的动作的情况。例如,为了通过使用在自动机器中提供的窄视野激光前后关系探测器实现高度可靠的深度测量,控制自动机器的运动,使得自动机器绕其中心轴旋转多次。作为另一个示例,为了改善初始在自动机器中提供的地图数据库,预先使自动机器勘探未绘制地图的区域或者地图绘制粗劣的区域。
但是,希望通过仅使用随着设备的移动被动获取的测量结果来进行情形识别,而不需要任何附加的动作诸如自动机器动作之一,即不促使安装设备的平台执行预定的一个或多个动作。
另一方面,上述可佩戴计算技术使得有必要预先为实施而构建基础结构,例如,自动机器中的附属物(satellite)和布置在用户可能位于其中的区域中的无线转发器。但是,在许多情况下,这样的基础结构及其构建可能是昂贵的。此外,GPS在室内不起作用,且如果使用上述基准标记系统,将需要非常大数量的基准标记。
此外,这些传统的系统仅提供关于位置的信息,而不提供任何关于在该位置处的情形或其变化的信息。例如,上述基于802.11的定位系统可以提供指示系统辨认的位置是会议室的信息。但是,系统不能提供关于会议室是否满员或光线是否昏暗的任何信息。
为此,为了更详细地识别情形,除位置测量之外,希望使用光学信息来执行情形识别。
在上述可佩戴计算的技术领域,存在用包括摄像机的系统来进行位置测量的情况(非专利文献6和7)。在非专利文献6公开的技术中,用低分辨率的粗略光学特征来作为对图像匹配处理的输入。但是,在非专利文献6所描述的技术中,没有使用宽视野的传感器,并且要在匹配处理中提到的数据库存储手动地选择和分割的视频剪辑。
为了根据该系统的方便,不希望上述非常依赖于手动工作的数据库构建方法,且优选地,记录数据的量会随着系统使用更久而自然地增加。
此外,在非专利文献6所描述点技术中,为了减少由于使用窄视野传感器而引起的传感器方向的影响,使用了直方图(histogram)。但是,如果使用直方图,则几乎丢失了所有的空间信息。结果,有可能删除了存在于特定位置并有助于位置辨认的特征元素。
希望在执行匹配处理期间利用上述光学特征。
非专利文献7中公开的技术使用宽视野摄像机捕获的图像之间的相似性。但是,为了使图像之间的相似性最大化,该技术去除了关于所捕获图像的方向的信息。这种计算给处理器加了沉重的负担。可能存在这种情况,牺牲方向分辨能力而致力于训练视频的给定数据库的效率最大化是合理的。但是,明显的是在实践中应该收集多少用于训练的实例不是问题,但是可以多么精确地辨认相似的位置或情形是重要的。一旦建立了实际的系统,可容易地获取新训练实例。
非专利文献7试图通过浓缩(Condensation)算法估计连续的运动和位置模式。浓缩算法是连续模拟的维特比(Viterbi)算法的蒙特卡罗(Menta Carlo)方案。浓缩算法的精度取决于通过模型传播的采样数量,其计算与维特比处理相比可能是非常大的计算负担。
在非专利文献7的技术中,记录的过去视频的数据库和当前时刻很少匹配,但是估计了用户的运动的运动矢量。为此,自然地预期上述大计算负担。因此,在非专利文献7的技术中,需要减少图像数据库的尺寸。换言之,一定程度上知道用户的位置是前提。但是,如果不需要准确地检测运动矢量,即如果概略地识别了当前情形,就不需要这样的前提。
鉴于上述问题而做出了本发明。
此外,本发明的发明人已经注意到可以使用本发明的许多系统(例如,附于用户或自动机器上的可佩戴计算机)以预定的模式运动并习惯性地跟踪路径。即,如果要实施更有效的情形识别,希望不是比较简单的瞬间时刻,而是要执行考虑了一定时间段内的历史或前后关系的匹配。此外,希望提供一种即使在一个空间中存在朝向或远离特定“位置”延伸的多个可能路线的情况下也能够有效地运作的系统。
根据本发明的实施例,提供了一种通过使用光学信息来识别当前情形的情形识别装置。该装置包括:光学信息获取单元,配置为获取光学信息;存储器,配置为存储多条光学信息;处理单元,配置为匹配存储在存储器中的多条光学信息和由光学信息获取单元新获取的光学信息;输出单元,配置为输出匹配的结果。存储器还存储以数值方式表示多条光学信息之间的跳转(transition)的概率模型。该处理单元包括:差计算部分,分别获取该多条光学信息和新获取的光学信息之间的差,并计算指示该差的值;差存储部分,按时间顺序存储所计算的多个指示该差的值;以及匹配处理部分,通过使用所存储的多个值的时间序列和概率模型来执行匹配。
概率模型可以配置为使得每一个状态对应于所存储的多条光学信息中相应的一条,且将状态之间的跳转参数设定为预定的值。该处理单元还可以包括模型构建部分,配置为基于存储在存储器中的多条光学信息来构建概率模型。可以使用例如隐藏马尔可夫(Hidden Markov)模型作为该概率模型。
在该情形识别装置中,处理单元还可以包括编码处理部分,配置为压缩要在匹配中使用的光学信息的数据量。如果指示新获取的光学信息和经过编码处理部分的最后一条光学信息之间的差的值大于预定的阈值,则编码处理部分可以输出新获取的光学信息。
在该情形识别装置中,匹配处理部分可以通过使用维特比算法来确定与所存储的多条光学信息匹配的最优状态序列和指示差的值的时间序列。可以通过在时间反方向上从与当前时间最接近的状态延伸维特比格子(ViterbiTrellis)图中的路径,执行对最佳状态序列的确定。可替换地,匹配处理可以配置为使得如果在维特比格子图中基本上所有的路径(所有路径或几乎所有路径)都经过一个状态,则将这一个状态检测为地标,并且该地标用于设定指示各个差的值的时间序列的长度,该时间序列在匹配处理中使用。此外,可以通过使用为路径数目设定的预定阈值来确定经过这一个状态的路径是否是“基本上所有路径”。
可替换地,在该情形识别装置中,匹配处理部分可以配置为:如果匹配处理部分获得以高于预定阈值的概率匹配所存储的多条光学信息之一的光学信息,则将所发现的光学信息检测为地标,并通过使用该地标确定指示差的值的时间序列的长度。
在该情形识别装置中,可以用指示对应状态的标注来分别标记存储在存储器中的多条光学信息的至少一部分。可替换地,可以不用指示对应状态的标注来标记存储在存储器中的多条光学信息的至少一部分。如果新获取的光学信息和没有用标注标记的光学信息匹配,则输出单元可以通过使用由对应于在时间上接近于没有用一个或多个标注标记的信息的一条或多条用标注标记了的信息的一个或者多个标注所指示的信息,把匹配结果输出给用户。可替换地,处理单元还可以通过使用由对应于在时间上接近于没有用标注标记的信息的一条或多条用标注标记的信息的一个或者多个标注所指示的信息,将标注附加到没有用标注标记的光学信息。
在该情形识别装置中,光信息获取单元单元可以包括多个光传感器。光信息获取单元单元还可包括聚光器,用于将光聚集到多个光传感器中的每一个上。
根据本发明的另一个实施例,提供了一种包括情形识别装置和通过使用从情形识别装置输出的识别结果来执行预定处理的处理执行装置的系统。在该系统中,用根据上述实施例的情形识别装置作为情形识别装置。例如该系统可以是可佩戴计算机或自动机器等。
根据本发明的又一个实施例,提供了一种通过执行对新获取的光学信息和预先存储的多条光学信息的匹配处理来识别当前情形的方法、使计算机执行该方法的计算机程序、其上记录有该计算机程序的记录介质、和/或被编码以发送该计算机程序的信号。该情形识别方法包括:构建以数值方式表示所存储的多条光学信息之间的跳转的概率模型;获取所存储的多条光学信息和新获取的光学信息之间的差;计算指示该差的值;设定指示该差的值的时间序列,其中所计算的指示该差的值按时间顺序排列;以及通过使用指示该差的值的时间序列和概率模型来执行匹配。
根据本发明,可以提供一种装置、方法、计算机程序、以及记录介质,当通过使用光学信息匹配过去的情形和当前的情形时,所有这些都可以通过匹配在一定时间段内考虑的历史记录来识别当前情形,而不是比较简单的时间时刻,并且/或者提供配置了该装置、方法、计算机程序或者记录介质的系统。
附图说明
图1是示出根据本发明的实施例的情形识别装置的结构的方框图;
图2是示出根据本发明的实施例的光学信息获取单元的结构的一个例子的方框图;
图3A是示出根据本发明的实施例的光学信息获取单元的结构的一个例子的说明性视图;
图3B是示出根据本发明的实施例的光学信息获取单元结构的另一个例子的说明性视图;
图4是示出根据本发明的实施例的处理单元和存储器的结构的一个例子的方框图;
图5是示出根据本发明的实施例的隐藏马尔可夫模型的一个例子的说明性视图;
图6是示出根据本发明的实施例的匹配处理的一个例子的流程图;
图7是示出用于改变检测的阈值随时间改变的图,该阈值用于根据本发明的实施例的匹配处理;
图8是示出根据本发明的实施例的已经测量的图像数据的配置的一个例子的说明性视图;
图9是示出根据本发明的实施例的HMM构建处理的一个例子的流程图;
图10是用于说明根据本发明的实施例的使用地标的匹配处理的说明性视图;
图11是用于说明根据本发明的实施例的使用地标的匹配处理的维特比格子图;
图12A示出了表示根据本发明的实施例的实现匹配处理的程序的一个例子的伪码(pseudo code);
图12B示出了表示根据本发明的实施例的检测地标的程序的一个例子的伪码;
图13是示意性示出根据本发明的实施例的匹配处理的说明性视图;
图14是示意性示出应用本发明的实施例的方法的一个例子的说明性视图;
图15A是示意性示出应用本发明的实施例的方法的另一例子的说明性视图;
图15B示意性示出应用本发明的实施例的方法的另一个例子的说明性视图;
图15C是示意性示出应用本发明的实施例的方法的另一个例子的说明性视图。
具体实施方式
下面将参考附图详细描述本发明的实施例。
根据本发明的实施例,提供了情形识别装置1,当考虑涉及依次获取的光学信息的时间顺序的前后关系时,情形识别装置1能够使当前的情形与过去的情形相关联。
如图1作为示例所示,情形识别装置1包括:光学信息获取单元10,获取光学信息并提供输出;处理单元20,对输出执行预定的处理并执行情形识别;存储器30,记录对预定处理必要的信息;用户接口40,向用户呈现情形识别的结果,并接受来自用户的操作输入。例如在包括CPU、存储器和人-机接口的计算机系统中,通过执行为了情形识别而实现预定处理的软件,可以实现装置1的处理单元20、存储单元30和用户接口40。
光学信息获取单元10提取关于外部环境的光学信息而不大量地依赖其方向。如图2作为示例所示,光学信息获取单元10包括:多个光传感器101-1到101-n,和组合了多个光传感器101-1到101-n的输出并将结果输出的复用器102。多个光传感器101-1到101-n例如二维地或者三维地排列。在二维的情况下,多个光传感器101-1到101-n可以以预定的矩阵或者栅格形式排列,而在三维排列的情况下,可以排列多个光传感器101-1到101-n以形成气球形或球形。此外,可以根据光传感器的视野来确定在多个光传感器101-1到101-n中的每一个之间的距离。
此外,多个光传感器101-1到101-n中的每一个具有聚光器,例如聚光镜头、针孔或者狭缝。此外,为了覆盖更宽的视野,所有的光传感器101-1到101-n可以配置为以共享单个广角镜头或者鱼眼(fish-eye)镜头,或者多个光传感器101-1到101-n的每一个可以具有聚光镜头等。可以围绕装置1或在携带装置1的用户或平台来排列多个光传感器101-1到101-n,使得它们能够更有效地获取外部环境的光学情形。
光传感器101-1到101-n中的每一个包括例如检测一种或多种颜色(例如R、G、和B)的光电二极管。此外,可以使用:诸如CCD的图像捕获设备,其获取二维光学信息的图像;或者具有大的宽视野的单元,例如全方向的摄像机,来代替多个光传感器101-1到101-n。装置1可以制作成便携的(图3A)或配置为具有自驱动功能(图3B)。在用户50携带装置1的图3A的情况下,将每个都用作光学信息获取单元10的光学信息获取单元110f和110r分别放置在用户50的身体的前方和后方。在图3B的情况下,具有摄像机121和用于将光线从所有方向投射到摄像机121的镜子122的全方向摄像机被合并到自驱动或自促进类型的平台120。
在本实施例中,由于执行应用前后关系的匹配处理,所以不需要高分辨率的信息。因此,如果用典型的图像捕获装置来获取光学信息,优选地,降低获取的光学信息的分辨率,并在本实施例的处理中使用低分辨率的光学信息,这将在后面描述。
根据本实施例的光学信息获取单元10配置为使得,复用器102组合来自多个光传感器101-1到101-n的输出,并提供该结果。可替换地,可以使用光传感器之间的差值或在标准化等等之后检测的光的相对值来替代光传感器输出。
处理单元20接收从光学信息获取单元10输出的光学信息输入、执行考虑了在光学信息的时间序列上前后关系的匹配处理、以及将匹配处理的结果输出给用户接口40。如图4中作为示例所示,处理单元20包括:编码处理部分201、距离矢量计算部分202、距离矢量存储部分203、匹配处理部分204、以及隐藏马尔可夫模型(HMM)构建部分205。存储器30包括光学信息存储器部分301和HMM存储部分302。
在本实施例中,距离矢量计算部分202和距离矢量存储部分203是分别对应于已经在“发明内容”部分提及的差计算部分和差存储部分的组件。即用将要在下面详细描述的距离矢量作为指示多条信息之间的差或不相似性的一个例子。当然,可以在本实施例中使用的这种“指示差的值”不仅仅限于距离矢量,而可以是任意形式的数学表达式,只要该形式可以表示指示要在本实施例中处理的多条光学信息之间的差的值。
此外,在本实施例中,使用其中多条光学信息与状态相关联的隐藏马尔可夫模型作为在“发明内容”部分提及概率模型,该隐藏马尔可夫模型数字地表示了多条光学信息之间的变化和跳转。隐藏马尔可夫模型是个概率模型,其包括:内部状态,其根据特定符号(在本实施例中为光学信息)的概率只依赖于前一个符号的马尔可夫过程进行跳转;以及将在每个状态中出现的符号的概率分布。应该注意的是可以用于本实施例的这类概率模型不限于隐藏马尔可夫模型,而可以是可用数字表示要在本实施例中处理的多条光学信息发生改变和跳转的情形的任意模型。
编码处理部分201执行编码处理,如通过删除没有提供或者几乎没有提供新信息的光学信息和被认为是对情形识别不必要或冗余的光学信息来压缩数据量,以便根据本实施例构建更适合于匹配处理的有效数据库。将从编码处理部分201输出的光学信息存储到光学信息存储器部分301,并且也发送到距离矢量计算部分202。距离矢量计算部分202获取用于表现从编码处理部分201输出的光学信息的特征的特征矢量。在本实施例中,计算该光学信息和存储在存储器30的多条光学信息的每一个之间的距离,计算将各个计算的距离作为其矢量元素的距离矢量作为特征矢量。距离矢量存储部分203以从编码处理部分201输出的顺序存储预定数量的距离矢量。距离矢量存储的顺序对应于获取光学信息的时间顺序。即,存储在距离矢量存储部分203中的内容指示距离矢量的时间序列,且呈现使当前情形与过去的情形之一匹配的时间前后关系。在下面的描述中,将对应于存储在存储器30中的光学信息的过去一定时期称为“很久以前”,而对应于以存储在距离矢量存储部分203中的距离矢量的形式表示的光学信息、且包括当前时间和通向当前时间的一定时间周期的时间周期被称为“不久以前”。
例如通过使用从一组过去的光学信息构建的HMM和维特比算法,匹配处理部分204检测与距离矢量的时间序列相对应的不久以前序列最佳匹配的很久以前序列。后面将参考图6描述本实施例中的匹配处理。
以预定的周期或者根据来自外部的指示,将从编码处理部分201输出的光学信息存储到光学信息存储部分301,并将其从那里读出以构建要在根据本实施例的匹配处理中使用的HMM。HMM构建部分205构建HMM(λ),并将HMM(λ)存储到HMM存储部分302。如图5作为示例所示,将配置为使得M个过去图像(1到M)分别对应于各个状态的HMM(λ)而存储到HMM存储部分302。后面将参考图9描述根据本实施例的HMM构建方法。
下面将描述装置1的操作。
根据本实施例的装置1执行对可以根据本发明的实施例光学识别的情形的匹配处理。在根据本发明的实施例的匹配处理中考虑的“相似性”包含两个情形之间的光学(或视觉)相似性和时间前后关系上的相似性。术语“时间前后关系”对应于例如光学信息的时间序列模式,并表示何种顺序的过去情形(光学信息)通向当前情形。
在下面的描述中,将讨论一个例子,其中将根据本实施例的情形识别方法施加到位置识别。
在将光传感器101-1到101-n附加到或嵌入到诸如人、自动机器或者车辆的移动平台的应用中,光学情形和位置之间的相关性相当高。在这种情况下,通过下述步骤(1)到(3)执行位置识别。这里假设下述例子用图像信息作为光学信息。
(1)用位置信息标注先前从过去情形获取的图像信息。该处理仅需要执行一次,而也可以周期性地执行以更新,以便使装置1适应新的情形。例如当存储了新图像时,该处理可以通知用户,并请求用户用位置信息标注所存储的新信息。此外,在可以使用来自能够输出位置信息的定位系统如GPS的输出的情况下,该处理可以通过使用这些位置信息自动地标注图像信息。此外,装置1可以配置为使得经由有线或无线通信或者通过存储该信息的记录介质从外部预先加载已标注的图像信息。
(2)通过使用根据本实施例的情形识别方法来确定在过去的情形中与当前的情形最相似的情形和匹配置信度(相似性)。
(3)如果匹配置信度高于预定的值,则确定由用于标注与相关过去情形相对应的图像信息的位置信息指示的位置为当前情形的位置。
通过图6的流程图中示出的步骤执行在步骤(2)中执行的本实施例的匹配处理。
首先,在步骤1101,获取图像信息作为当前的光学信息。在本实施例中,作为用于尽可能如实地掌握周围环境的情形且用于抑制匹配处理中的计算负担增加的装置,假设可接受具有低分辨率和小尺寸但具有相当宽视野的图像信息的输入。在将本实施例应用到可佩戴计算机领域的情况下,如图3A所示可以将摄像机分别放到用户的前方和后方,以获取在用户前方和后方的图像信息。
在根据本实施例的光学信息获取单元10中,上述CCD彩色摄像机可以是数字摄像机或光传感器阵列。优选地,以每个像素的RGB信息的连续排列的方式,例如将RGB信息记录为(Ri、Gi、Bi)的RGB包格式,记录CCD彩色摄像机的测量结果。根据该配置,有可能减少将在后面描述的计算处理的负担。
可替换地,例如可以通过将超广角镜头(鱼眼镜头)或者抛物面镜附加到CCD彩色摄像机的前方,并通过在过滤或者抽取(decimate)之后获取具有期望的分辨率的图像。根据该配置,尽管所获取图像中的详细特征变得难以分辩,但是可以不依赖于传感器的方向而提取光学环境的总体或大致特征。
在下面的描述中,假设1表示传感器索引(index)(对应于图像情况下的像素位置);c表示颜色信道索引(1、2和3典型地分别表示红、绿和蓝);i表示每当执行新的测量时增加的测量索引,单次测量结果表示为xi(l,c)。此外,如果光学信息获取单元10中使用的传感器是获取图像信息的图像捕获单元,则传感器索引对应于像素位置。此外,ti表示执行第i次测量的时间(例如,秒)。
以预定的周期来周期性地执行步骤1101中的测量。根据光学环境结构改变或者预期改变的速度来确定步骤1101中的测量周期。在将根据本实施例的装置1应用到例如车载(in-vehicle)系统的情况下,优选地,在比配置为用户佩戴该系统的可佩戴系统短的周期内获取图像信息。本发明的发明人执行的试验结果已经表明,5Hz的捕获周期适合于可佩戴系统,即用户佩戴装置1并四处散步的情况。
将在步骤1101获取的多个测量结果发送到装置1的处理单元20,且通过专用的硬件或者通过可以由通用信息处理单元或日用计算机执行的预定软件来执行处理单元20的处理。
接下来,在步骤1103,由编码处理单元201对所获取的图像执行编码处理。步骤1103的处理执行将新获取的图像(当前图像)与在先前时间经过步骤1103的上一个图像相比较的处理,并且只在这两个图像之间发生大于预定阈值的改变的情况下,才输出当前获取的图像。根据该处理,可以充分地压缩图像信息,而没有丢失任何有用的图像信息。换言之,根据该处理,有可能防止不提供任何新信息的冗余图像的加载,从而使得能够抑制将存储到光学信息存储部分301的图像数据量的增加。此外,根据该处理,有可能构建更大的HMM,该HMM有效地包含关于可用于匹配处理的过去的多条信息。
此外,根据该处理的压缩效果,可以减少装置1中的计算负担,且可以改善将在步骤1109的处理中使用的隐藏马尔可夫模型(HMM)的建模能力,这将在后面描述。
以例如在新获取的图像Z和在先前时间上一个输出的图像xi之间的不相似性和时间间隔为基础,编码处理部分201确定有没有改变。如果不相似性和时间间隔中的任一个都足够大,例如大于各个预定阈值(在步骤1103,Y),将当前获取图像传输到接下来的处理。
使用不相似性的原因是为了防止相同或者近似相同的图像长时间地延续。使用时间间隔的原因是为了在指示所获取的图像的信号示出这样的改变时,自适应地调整不相似性变化的评估准则。
在步骤1103,编码处理部分201通过使用下面的公式(1)检测图像变化:
D ( X i - 1 , Z ) D max < &rho; e - &beta; | t i - 1 - t Z |
&beta; = ln 2 &Delta;&tau; &CenterDot; &CenterDot; &CenterDot; ( 1 )
其中Dmax是D(xi-1,z)的最大值,而ρ是接受xi-1和Z所需要的百分比变化。函数D由将在后面描述的公式(3)来定义。Z是新获取图像,xi-1是从编码处理部分201输出的上一个图像。β是用于调整自适应速度的因子。本发明的发明人的实验结果已经表明,Δτ和ρ在典型条件下可设定为Δτ=5秒(sec)和ρ=0.05。这指的是确定是否接受当前的测量图像所需要的变化起初是5%的变化,而在5秒钟之后变成2.5%的变化。
图7中示出了所得变化检测的自适应曲线。随着从编码处理部分201输出的上一个图像的接受起消逝的时间增加,要接受新图像信息用所需要的变化阈值指数地减少。最后,传感器的潜在噪声影响了测量图像的接受。根据该配置,有可能在本处理中保证最小的处理速度。此外,根据该配置,环境中没有变化或者没有大变化发生(或即使变化稀疏地发生)的长时期可以由存储在光学信息存储部分301中的过去测量结果组(在下文中称为图像档案)表示,并且在图像档案的基础上构建的HMM以及变化频繁地发生的时期也可以以相似的方式表示。
尽管已经作为示例将编码处理部分201描述为考虑不相似性和时间来执行处理,但是要在本发明中使用的编码处理类型不仅限于这种编码。可替换地,本发明可使用任意种类的编码处理,如JPEG编码和运行长度(run-length)编码,只要该编码处理能压缩光学信息。
将从编码处理部分201输出的图像保存到光学信息存储部分301,且在图6的步骤1105中,计算图像的特征量。在本实施例中,计算距离矢量作为特征量,每一个距离矢量以从编码处理部分201输出的当前测量图像和记录在图像档案中相应的一个过去图像之间的差作为矢量元素。在本实施例中,通过检测这个差,有可能在执行匹配处理之前,估计测量图像和每个过去图像之间的光学相似性,这将在后面描述。
此外,在本实施例中,为了提高计算速度,步骤1105的阶段记录在图像档案中的过去图像序列配置为使得过去图像连续地记录在处理容易访问的位置,这将在后面描述。
在步骤1105中,从下面的公式(2)得到指示从编码处理部分201输出的图像和图像档案中的每一个过去图像之间的差的距离矢量。这里假设用{x1,...,xM}表示包含在图像档案中的图像组。也可以例如仅通过连续地排列从编码处理部分201输出的测量图像,来构建该过去图像组。通过计算如此编码的图像和每个存储图像之间的距离,可以得到用下面的公式(2)定义的M维距离矢量。
d i = ( x i , x 1 ) &CenterDot; &CenterDot; ( x i , x M ) &CenterDot; &CenterDot; &CenterDot; ( 2 )
在公式(2)中,D(x,y)表示在用于获取图像信息的传感器的测量间隔中包含特定类型失真的测量结果。可以使用能表示两个图像x和y之间的差的任意函数,但不需要满足严格的测量要求(度量)。在本实施例中,使用下面的L1度量。在下面的公式(3)中,HW表示每个传感器索引在高度方向和宽度方向上的最大值。
D ( x , y ) = &Sigma; 1 HW &Sigma; c 3 | x ( 1 , c ) - y ( 1 , c ) | &CenterDot; &CenterDot; &CenterDot; ( 3 )
如果xi(l,c)的任何分量展示高度相关或宽度延伸(即,xi的协方差矩阵非常不同于xi的单位矩阵),实践中优选地,根据公知的PCA方法(原理分量分析)的过程将传感器的测量结果投射到传感器的本征空间。
根据PCA方法,在上述失真计算中,有可能防止传感器的测量结果的单个分量或者分量组具有过大的影响。在这种情况下,公式(3)的失真测量变成如下所示:
D ( x , y ) = &Sigma; j | x j &prime; - y j &prime; |
x′=Λx
y′=Λy                                  …(4)
在公式(4)中,Λ是基于本征矢量的投影矩阵,这“白化”了传感器的测量结果。也可以通过训练典型的传感器的测量结果获取Λ。
在步骤1107中,将在步骤1105中计算的距离矢量di存储到距离矢量存储部分203中。距离矢量存储部分203包括例如FIFO缓冲器。可替换地,可以使用任何任意类型的存储器来代替FIFO缓冲器,只要该存储器可以按时间顺序存储预定数量的所计算距离矢量,并允许在计算过程中容易地访问,这将在后面描述。在本实施例中,在FIFO缓冲器中连续地存储以时间顺序从最近到更久远的距离矢量中获取的N个距离矢量。这N个距离矢量将在下一步骤1109中执行的处理中使用。FIFO缓冲器的内容是表示不久以前(在本实施例中,最后的N个图像)和很久以前(在本实施例中,存储在图像档案中的N个图像)之间的距离的矩阵H。这里假设本实施例中的不久以前的图像和很久以前的图像具有如图8所示的时间顺序关系。
然后,在步骤1109,匹配处理部分204在由存储在距离矢量存储部分203中的矩阵H表示的不久以前和由存储在HMM存储部分302中的隐藏马尔可夫模型(HMM)λ表示的很久以前之间执行匹配。
根据图9作为示例的流程图中所示的程序,直接从图像档案的内容构建HMM(λ)。具体地,如图6的步骤1101和1103,如果获取了新图像(步骤1001),则将新图像与在获取新图像之前从编码处理部分201输出的图像比较,并通过上述公式(1)确定有没有变化(步骤1003)。如果确定新图像有变化,则将图像存储到图像档案(步骤1005)。在步骤1007,每当图像档案的内容发生变化时,编码处理部分201重新构建HMM(λ),并将重新构建的HMM(λ)存储到HMM存储部分302。
在产生HMM的时候,在许多情况下,通过经由期望值最大化等从部分标注的数据来估计HMM的参数。但是,在本实施例中,HMM的每个状态直接与单个图像相关联,并设定预定的值为其跳转参数。在典型的方法中不执行训练就将预定值用作跳转参数的原因如下:以时间消逝的顺序获取对应于HMM的各个状态的图像(光学信息)。由于步骤1103的处理,消逝的时间也可以包含不连续的时期,另外,公式(1)用于考虑图像变化和时间流逝来执行变化检测。因此,认为跳转到时间久远状态的发生概率小或者为零。因此,在本实施例中,不需要执行跳转参数的最优化处理,从而可以很大程度地减少计算成本。
以关于两个图像之间的时间距离的具有零均值的截断高斯分布(在下文中称为零均值截断高斯)为基础,计算HMM的跳转参数,作为示例由下述公式(5)表示。
P ( S t = i | S t - 1 = j ) = N ( | t i - t j | ; 0 , &sigma; B ) , | t i - t j | &le; &tau; 0 , | t i - t j | > &tau; &CenterDot; &CenterDot; &CenterDot; ( 5 )
在根据本实施例的HMM中,允许在时间上接近的状态之间的跳转,而两个时间上久远的图像之间的跳转需要高成本。
返回到图6的步骤1109,例如,通过使用维特比算法,确定使不久以前的N个图像和很久以前的图像相匹配的光学状态序列,其中不久以前的N个图像和很久以前的图像都被表达为距离矢量的矩阵H。矩阵H用于下述状态置信的计算:
P ( x i | s i = j ) = e - D ( x i , x j ) = e - H ij &CenterDot; &CenterDot; &CenterDot; ( 6 )
维特比算法为下面的最大化问题提供了解。在下述公式中,si表示对应于xi的第个图像的图像,且si*表示最佳的状态。在本实施例中,应用被称为维特比算法的动态编程以获取最大化问题的解。
{ s 1 * , &CenterDot; &CenterDot; &CenterDot; , s N * } = arg max { s 1 , &CenterDot; &CenterDot; &CenterDot; , s N } P ( s 1 , &CenterDot; &CenterDot; &CenterDot; , s N | H , &lambda; )
= arg max { s 1 , &CenterDot; &CenterDot; &CenterDot; , s N } P ( x i | s 1 ) P ( s 1 ) &Pi; j = 2 N P ( x i - j | s j ) P ( s j | s j - 1 ) &CenterDot; &CenterDot; &CenterDot; ( 7 )
在步骤1111中,输出作为上述匹配的结果(在下文中称为前后关系匹配)而获取的最后状态SM*的值。在本实施例的情况下,输出对应于状态SM*的图像xSM或者对应于图像xSM的位置/情形作为认识结果,其中状态SM*作为匹配结果而获得,并在过去的相似性序列中是时间上最近的。
下面将描述本实施例中使用的维特比算法。维特比算法根据给定的HMM和各对图像之间的距离H而给出了两个图像组{x1,…,xM}和{x1-N,…,xi}之间的最佳的一一对应(最佳匹配)。在这种情况下,如果M和N的值是大的,则维特比算法可以近似。最受欢迎的一种近似算法是维特比光束搜索(BeamSearch)。根据维特比光束搜索,很难获得最佳的匹配,但是可能获得可允许的匹配等价的对应。此外,在本实施例中,可以用任何能够确定这两个图像组之间的一一对应的任意种类的处理来代替维特比算法。该任意种类的处理可操作以使包含在图像组{x1,…,xM}中的图像和包含在图像组{x1-N,…,xi}的图像中的对应的一个图像之间的距离最小化,同时保持时间上的连续性。根据本实施例的维特比算法通过HMM的跳转矩阵来维持时间上的连续性。
在标准维特比算法的实施中,不直接执行其概率计算。这是因为如果随后乘以概率,维特比算法的处理量将超过计算机的计算能力。为此,实践中,对所有可能性取自然对数,并重写维特比算法,使得其公式以下述方式表示为对数概率。结果,尽管所有乘法变成了加法,但是也可以以相似的方式实现最优化。
{ s 1 * , &CenterDot; &CenterDot; &CenterDot; , s N * } = arg max { s 1 , &CenterDot; &CenterDot; &CenterDot; , s N } P ( s 1 , &CenterDot; &CenterDot; &CenterDot; , s N | H , &lambda; )
= arg max { s 1 , &CenterDot; &CenterDot; &CenterDot; , s N } P ( x i | s 1 ) P ( s 1 ) &Pi; j = 2 n P ( x i - j | s j ) P ( s j | s j - 1 )
= arg max { s 1 , &CenterDot; &CenterDot; &CenterDot; , s N } log P ( x i | s 1 ) + log P ( s 1 ) + &Sigma; j = 2 N log P ( x i - j | s j )
+ log P ( s j | s j - 1 ) &CenterDot; &CenterDot; &CenterDot; ( 8 )
后面将描述维特比算法的具体处理例子。
在上述匹配处理中,存在不久以前图像序列的图像顺序与很久以前图像序列的图像顺序非常不同的情况。如果要匹配分别包含基本上不同的事件(不同情形的图像)的两个图像序列,则低置信匹配可以防止问题的发生。在这种情况下,仅需要显示已经获得低置信度的指示,或者输出诸如“匹配图像检测失败”的消息。
但是,在最坏的情况下,匹配的置信度可能变高,并可能导出错误的结果。在下述情况下很容易发生最坏的结果:尽管两个图像序列之间有视觉相似性,但是在物理条件上这两个相同图像序列之间位置远离或者情形不同。
错误匹配也发生在情形的顺序之间存在误匹配的情况,在很久以前图像序列(训练例子)和不久以前图像序列(测试例子)之间看出这一点(参考图10)。在本实施例中,用“地标”的概念来减少这种误匹配。例如,通过考虑正在比较的两个图像的匹配程度是否高来执行匹配处理,并且每个图像是可以视为地标(特征标记或符号)的图像或者光学信息。此外,在本实施例中,可以用地标来智能地确定将在匹配中使用的不久以前图像序列的长度,从而增加匹配处理的效率和速度。
在图10所示的例子中,分别用虚线910和940表示的路径是训练例子,而点划线920表示的路径是测试例子。这里假设图像档案仅包含沿着两条训练例子的路径得到的图像,其中,一个训练例子沿着走廊901从房间A 902前进到房间B 903,而另一个训练例子通过门902d-2和903d-2从房间A 902前进到房间C 904。测试例子的路径920从走廊901开始,通过门902d-1进入房间A902,经过门902d-2进入房间B 903,并通过门903d-1返回走廊901。
如果通过不使用地标的传统方法使测试例子的整个路径920和任一个训练例子的路径910或940彼此匹配,则因为两条路径的图像顺序彼此不同,所以将容易发生误匹配,使得不清楚是否可以得到正确的结果。此外,即使找到了匹配,匹配概率低的可能性将会高。
作为这个问题的解决方案,本发明人已经注意到这样的事实:如果随时间的流逝连续获取光学信息,在多个路径中将存在能够起到地标作用的位置点。例如,已经在图10所示的例子中发现,如果在点对(dot pair)930到933表示的任何位置点有地标(诸如有区别的门),那么通过使用以地标结束的图像序列可以获得更为准确的匹配结果,作为不久以前图像序列。在本系统已经例如沿着测试例子的路径920进入房间B 903的情形(位置950)中,如果系统通过使用迄今为止获取的所有数据来执行一般的匹配处理,则该系统不能确定其位于训练例子的路径910还是路径940。然而,在使用地标的匹配处理中,将以最后的地标932结束的图像序列作为一个测试例子的路径。因此,系统可以正确地识别:其当前位于沿着一个训练例子的路径940的位置。可替换地,替代将图像序列的长度固定于直到地标的长度,也可能根据地标的位置来调整将用于匹配处理的过去图像序列的长度。
根据本实施例,通过使用地标,有可能确定到哪个位置点应该追踪要用于匹配处理中的不久以前图像序列的历史。因此,即使在上述路径的图像顺序彼此不同的情况下,也可以更准确地实现匹配处理。
在本实施例中,因为使用了维特比算法,所以可以很容易地检测地标。在典型维特比算法的情况下,每条路径在维特比格子图中沿前进方向(在时间的前进方向)来延伸,以传播状态记号(score)。相反地,在本实施例中,每条路径沿时间的反方向从当前位置向过去延伸。
下面将参考图11、12A和12B来描述在本实施例中的地标检测和使用地标的匹配处理。图11示出用于本实施例的匹配处理中的维特比格子图的一个例子,且垂直向对应于很久以前图像x1到xM,而水平方向对应于不久以前图像xi到xi-N。在当前位置71开始匹配处理,在时间的反方向传播状态记号直到检测到地标匹配70。在每一步骤中,根据预先通过上述公式(5)设定的跳转参数而仅考虑具有非零跳转概率的k个状态。
图12A示出表示基于维特比算法使用地标匹配的检测的匹配处理的一个例子的伪码。将参考用下面的对数概率表示的维特比公式来描述本实施例的伪码。
初始化
α1(j)=A(1,j)           1≤j≤M            …(9)
约化
&alpha; 1 + 1 ( j ) = A ( i + 1 , j ) + max k { &alpha; i ( k ) + B jk } 1≤j≤N-1
1≤j≤M  …(10)
结束
s N * = arg max { &alpha; N }
s i * = pred ( i , s i + 1 * ) 1≤i≤N-1        …(11)
在图12A所示的伪码中,步骤1到3是初始化处理,具体地,阿尔法(alpha)变量的初始化。步骤4到12是约化处理。在这些步骤1到12中,alpha(prev,j)是αi(j),alpha(now,j)是αi+1(j),而temp(k)是αi(k)+Bjk。步骤13到16是结束处理。
图12A所示的伪码在下面的方面不同于标准的维特比公式表达:
1.时间沿反方向推进。
2.在步骤10的地标检测中,其约化循环在早先的时间停止。将参考图12B在后面描述在该地标检测处理中使用的“Is-Ladmark-Present(i,pred,threshold)”(地标是否存在)。
3.在图12A所示的伪码中,仅保持了阿尔法矩阵的当前列和先前列。
在本实施例中,如果检测到了地标匹配,则通过追溯至此时间点所找到的最佳路径直到当前位置而得到解。在本实施例中,当所有路径或者基本上所有路径在维特比格子图中都经过一个状态时,定义在该时间点检测到了地标匹配。术语“基本上所有路径”指在处理应用本发明的应用所允许的误差范围内可确定为等价于术语“所有路径”的情况。在仅需要低匹配准确度的情况,如果在各状态之中发现了一个比任何其它状态有更多路径经过的状态,则可以确定检测到地标匹配。
应该注意的是,即使路径在维特比格子图中向前延伸并到达了地标,也没有很大的用处。这是因为路径总是有可能仍可以任意散布,且不清楚在维特比格子图的末端可以得到什么解。相反地,在本实施例中,路径在时间的反方向上延伸。因此,当检测到地标时,路径不需要进一步在维特比格子图中延伸。这是因为对维特比格子图的起始点的解没有改变。
通过使用上述地标,即使在图像档案中作为图像存储的原始过去情形不具有任何对应情形或者可以准确地匹配的情形,也有可能为用户的当前情形自动地识别另一个路径。
如果所有的跳转概率都不是零,可以没有任何问题地实现上述使用地标检测的匹配处理。但是,在本实施例中,考虑到实践应用,使用具有预定的宽度且其跳转概率在超过预定宽度的区域变成零的截断高斯。因此,不能从每个状态访问所有其它状态。为此,在本实施例中,对于有关匹配度的决定提供了阈值(threshold),并通过使用该阈值执行对地标匹配的检测。
例如,在本实施例中,即使在零跳转概率的情况下,通过如图12B所示的处理来检测地标存在还是不存在。在如图12B所示的处理中,在步骤1,将计数初始化,而在步骤2和3,对经过每个状态的路径数量计数,并确定最大计数值是否大于阈值。
如果所有的跳转概率都不是零,可以将阈值设为M-1。根据该设置,只有当所有路径以通过一个状态的方式作出跳转,才检测到地标。在上述情况不适用的情况,包括零跳转概率的情况下,可替换地,可以将阈值设为例如低于M-1的0.5×M,使得大量路径或者基本上所有路径经过一个状态。
实践中,存在上述匹配处理中使用的维特比格子图变得非常大的情况。在这种情况下,为了防止计算处理的复杂度(在维特比算法的情况下,时间方面O(NM2))变得无限大,路径修剪变得必要。在公式O(NM2)中,M表示图像档案中包含的图像数量,而N表示不久以前时间序列中包含的图像数量。为此,在表现出大量变化的复杂环境中,复杂度变得非常大。
在本实施例中,为了降低计算处理的复杂度采取了各种措施。一种措施是由编码处理部分201执行的上述编码处理。在该编码处理中,检测图像的变化以去除图像的冗余,以压缩图像的数据量,而不实质性地削弱要存储到图像档案中的图像的信息量。此外,在本实施例中,使用截断高斯作为跳转函数,且对经过具有零概率的跳转的路径不执行计算。如果采取了这些措施,则维特比算法的计算处理的实际成本变成O(NKM)。在公式O(NKM)中,K表示从隐藏马尔可夫模型λ的每个状态退出的非零概率跳转的数量(常量)。因此,本实施例的维特比算法的计算处理的复杂度与图像档案尺寸成时间线性关系。
此外,如果最优化处理使用具有k最近邻法(k-NN)中使用的树形结构的数据,则复杂度可以在对数时间内降低到接近于图像档案的尺寸M。
通过设定图像档案的子集(例如,尺寸为L)来实现最优化处理,其中期望例如匹配度变高。该处理是k最近邻法最初针对的处理。此后,仅对尺寸为L的子集而不是整个图像档案执行维特比算法。根据该处理,上述复杂度变成O(NKL2log M)。
子集包括图像档案{X1,…,XM}中包含的与图像组{xi-N,…,Xi}中包含的每个图像最近的L个图像。由L1度量(metric)确定最近的L个图像。该子集对每个图像xi是不同的。更具体地,仅考虑与每个图像xi最近的L个图像,而不为每个图像xi考虑图像档案中包含的所有图像。因此,并不计算矩阵H的所有列,也不考虑HMM中的所有状态。
作为从图像档案{x1,…,xM}中确定相对于图像xi最近的L个图像的方法,可以使用例如任意标准k最近邻法(k=L)。
应当注意的是,如果在对数概率空间中执行维特比算法,则可以以16位整数执行所有计算。这些计算基于以整数格式表示所获取的传感器数据的假设,且该假设对应于通过典型图像捕获处理和模数转换获取图像数据的情况。
如果使用具有具有不太大尺寸的图像档案,且如果执行上述最优化处理,则甚至可以用廉价的内置硬件如所谓的单芯片计算机来实现实时处理。此外,上述算法的格子结构适于在FPGA(现场可编程门阵列)上实现。
在根据本发明的上述匹配处理中,用图像的时间序列模式找到前后关系匹配。因此,不需要高分辨率的图像数据,即,根据本实施例的装置不需要在光学信息获取单元10中使用高分辨率传感器。因此,根据本实施例,因为不能识别面孔或文字本身,所以有可能实现情形识别而不侵犯用户或者周围环境的隐私。根据本实施例的装置可以用具有比传统装置使用的图像的典型分辨率更低的分辨率的图像数据来提供有效地实现情形识别的有利效果。
如在上文中所描述,根据上述实施例,用光学信息如图像提供了配备存储功能的系统。根据上述实施例,有可能在诸如自动机器、可佩戴计算机和环境监视系统的各种信息处理系统中实现下述功能。
(1.1)记忆回想(回想):通过匹配当前情形和过去情形来自动地回想过去情形中的前后关系。例如,如图13所示,对从当前时间到最后一个地标的不久以前图像序列1200和存储在图像档案中的很久以前图像序列1200执行匹配,从而计算与不久以前图像序列1200具有高匹配度的相似序列1211。此外,如果如图14中作为例子所示,用指示很久以前图像序列1210中的情形的标注来分别标记图像,辨认已经找到的相似序列1211中对应于当前情形的时间点1220,作为匹配结果。因此,有可能回想起与当前情形相似的情形(在图14中,在列车内部)。
(1.2)恰好及时的信息(JIT):识别情形,并提供对于所识别的情形必要的信息。例如,该功能基于所识别的位置使用标签。
(1.3)反常检测:上述回想功能的相对功能。如果当前情形和过去情形的匹配不成功,则该功能确定该装置处于还没有遇到过的新情形(图15B)。通过使用该功能,有可能检测到不同于正常情形的情形,并激活记录单元等。
(1.4)预测:在过去的情形A之后发生情形B的情况下,如果当前情形被识别为情形A,则该功能可以预测接下来将发生情形B(图15A)。该功能适用于基于预测运作的单元向导单元,并使得有可能通过预见用户的意图或者用户的下一个动作来以恰当的时机提供合适的服务。
(1.5)比较:比较过去的和当前的情形,并检测诸如墙上的图画的变化的变化(图15C)。
此外,为了实现本实施例中的上述功能,没有必要标注存储在图像档案中的所有数据。在本实施例中,例如即使不是手动标注的数据对用户或者使用本实施例的应用也具有特定的价值。即,有可能唯一地定义未标注的数据和其它已标注的数据之间的相对时间关系。
在上面的(1.1)中提到的回想功能中,如图14作为示例所示,如果存在于“家”和“公司”之间的情形和不久以前(当前)情形匹配,则有可能识别当前情形是“在家和列车之间”。当然,同样优选地,将该系统配置为在已经用“家”、“列车”等手动地标注图像数据之后,在本实施例的系统端将未标注的图像数据自动地标注为“在家和列车之间”等。
更具体地,优选采用下述配置:如果未标注情形和当前情形匹配,则通过使用作为对一个或多个情形的标注而附加且在时间上更接近于匹配情形的信息,从存储在图像档案中的情形中,产生要显示的消息或者当将匹配结果输出给用户时发给用户的消息。
此外,同样优选采取这样的配置:通过使用作为对一个或多个情形的标注附加的信息而新产生的信息来标注匹配的情形。
此外,上面在(1.4)中提及的“预测”功能配置为匹配当前的情形和过去的情形,并预测该时间点的将来情形,因此没有必要标注对应于未预测的过去情形的图像数据,例如图15A所示的在所预测的未来1230之前的数据。此外,在图15B和15C中所示的“反常检测”和“比较”功能中的任一个中都不需要标注。
如果将上述实施例应用到配备有为捕获用户的环境的图像而排列的光传感器的可佩戴计算机,则一些可能应用如下。
(2.1)变化的标签(META-TAGGING):将与情形相关的信息作为标签附加到其它形式的记录信息如电话会谈、所接收的文本消息、以及所拍摄的照片。
(2.2)情形识别:用于软件代理的情形识别(包括位置认知)。
(2.3)反常检测:认知非常有可能有危险或者需要特别动作的情形(例如,医疗紧急事件、犯罪活动)。
(2.4)预测:基于过去事件预测用户的下一个情形;例如在过去用户走出饭店之后呼叫出租车的情况下,提供对应于该过去事件的服务。
如果将本实施例应用到配备有为捕获用户的环境的图像而排列的光传感器的自动机器,则一些可能应用如下。
(3.1)自动机器的图像存储功能:支持分析计划,当自动机器要完成预定的动作时,也支持使自动机器对可能将预定动作引入失败的情形感到不愉快的感情功能。
(3.2)预测:用于对自动机器的行为预测,当自动机器在预定的情形中执行具体动作的时候,通过用于预测下一个情形将是什么的模型化概率规则来实现该预测(例如,使自动机器能够预测其自己的动作的结果,并将其自己向所期望的情形指引的导航)。
也可以将上述实施例应用到不具有运动功能的装置、安全监视装置、病人监视装置、或其它视觉地监视空间和目标的任意装置。在这种情况下,由于主要执行监视处理,所以例如上面提及的反常检测功能很有用。此外,可以用本实施例根据所检测的情况激活其它系统,例如在睡眠时通知护士病人发生痉挛。
此外,根据上述实施例的装置还可以包括通信部分。例如通信部分可配置为与外部单元进行有线或无线通信,以读取多个光学信息序列和/或隐藏马尔可夫模型,并在匹配处理中使用所读取的多个光学信息序列和/或隐藏马尔可夫模型。光学信息序列的格式等价于本实施例的上述图像档案的格式,并以与本实施例相同的方式基于多个光学信息构建隐藏马尔可夫模型。
此外,代替使用根据上述实施例的装置,有可能将上述类型的光学信息获取单元连接到包括操作处理单元、存储器和用户接口的通用计算机,并提供根据本实施例使通用计算机执行用于实现情形识别的处理的计算机程序。可将计算机程序通过有线/无线通信或者经由网络直接发送到单独的计算机系统,或者也可以以存储在记录介质中的形式分发计算机程序。
此外,代替使用根据上述实施例的装置,有可能将本发明应用到移动类型的电子装置,以使该电子装置执行情形识别处理,并用所获得的结果来进行电子装置的部分原始操作。可以应用本发明的电子装置的例子可以包括移动电话、PDA、用于播放诸如CD和DVD的存储介质的便携式存储介质播放装置、以及诸如数字摄像机和可携式摄像机的图像捕获装置。
本发明包含涉及分别于2004年6月29日和2005年1月4日提交日本专利局的日本专利申请JP 2004-191308和JP 2005-000115的主题,通过引用而其所有内容合并于此。
本领域技术人员应该理解,只要在所附权利要求或其等价物的范围内,可根据设计需要和其它因素作出各种修改、组合、再组合和变更。

Claims (21)

1.一种情形识别装置,通过使用光学信息来识别当前情形,该装置包括:
光学信息获取单元,配置为获取光学信息;
存储器,配置为存储多条光学信息;
处理单元,配置为匹配存储在存储器中的多条光学信息和由光学信息获取单元新获取的光学信息;
输出单元,配置为输出匹配的结果;
其中,存储器还存储以数值方式表示多条光学信息之间的跳转的概率模型;
其中,处理单元包括
差计算部分,分别获取该多条光学信息和新获取的光学信息之间的差,并计算指示该差的值;
差存储部分,按时间顺序存储所计算的指示该差的值;以及
匹配处理部分,通过使用所存储的多个指示该差的值的时间序列和概率模型来执行匹配。
2.根据权利要求1的情形识别装置,其中,
概率模型配置为使得每一个状态对应于所存储的多条光学信息中相应的一条,且将状态之间的跳转参数设定为预定的值。
3.根据权利要求2的情形识别装置,其中,
处理单元还包括模型构建部分,配置为基于存储在存储器中的多条光学信息来构建概率模型。
4.根据权利要求1的情形识别装置,其中,
该概率模型是隐藏马尔可夫模型。
5.根据权利要求1的情形识别装置,其中,
处理单元还包括编码处理部分,配置为压缩要在匹配中使用的光学信息的数据量。
6.根据权利要求5的情形识别装置,其中,
如果指示新获取的光学信息和经过编码处理部分的最后一条光学信息之间的差的值大于预定的阈值,则编码处理部分就输出新获取的光学信息。
7.根据权利要求1的情形识别装置,其中,
匹配处理部分通过使用维特比算法来确定与所存储的多条光学信息匹配的最优状态序列和指示差的值的时间序列。
8.根据权利要求7的情形识别装置,其中,
通过在时间反方向上从与当前时间最接近的状态延伸维特比格子图中的路径,执行对最佳状态序列的确定。
9.根据权利要求7的情形识别装置,其中,
匹配处理操作以使得如果在维特比格子图中基本上所有的路径都经过一个状态,则将该状态检测为地标,并且
该地标用于设定指示各个差的值的时间序列的长度,该时间序列在匹配处理中使用。
10.根据权利要求1的情形识别装置,其中
匹配处理部分操作以使得如果匹配处理部分获得以高于预定阈值的概率匹配所存储的多条光学信息之一的光学信息,则将所发现的光学信息检测为地标,并通过使用该地标确定指示差的值的时间序列的长度。
11.根据权利要求1的情形识别装置,其中
用指示对应状态的标注来分别标记存储在存储器中的多条光学信息的至少一部分。
12.根据权利要求11的情形识别装置,其中
不用指示对应状态的标注来标记存储在存储器中的多条光学信息的至少一部分;以及
如果新获取的光学信息和没有用标注标记的光学信息匹配,则输出单元通过使用由对应于在时间上接近于没有用标注标记的信息的一条或多条用标注标记了的信息的一个或者多个标注所指示的信息,把匹配结果输出给用户。
13.根据权利要求11的情形识别装置,其中
处理单元还通过使用由对应于在时间上接近于没有用标注标记的信息的一条或多条用标注标记的信息的一个或者多个标注所指示的信息,将标注附加到没有用标注标记的光学信息。
14.根据权利要求1的情形识别装置,其中
光学信息获取包括多个光传感器。
15.根据权利要求14的情形识别装置,其中
光学信息获取单元还包括聚光器,配置为将光聚集到多个光传感器中的每一个上。
16.一种包括情形识别装置和通过使用从情形识别装置输出的识别结果来执行预定处理的处理执行装置的系统,其中,
情形识别装置通过使用光学信息来识别当前的情形,该情形识别装置包括:
光学信息获取单元,配置为获取光学信息;
存储器,配置为存储多条光学信息;
处理单元,配置为匹配存储在存储器中的多条光学信息和由光学信息获取单元新获取的光学信息;
输出单元,配置为输出匹配的结果;
其中,存储器还存储以数值方式表示多条光学信息之间的跳转的概率模型;
其中,处理单元包括
差计算部分,分别获取该多条光学信息和新获取的光学信息之间的差,并计算指示该差的值;
差存储部分,按时间顺序存储所计算的指示该差的值;以及
匹配处理部分,通过使用所存储的多个指示该差的值的时间序列和概率模型来执行匹配。
17.一种通过执行新获取的光学信息和多条预先存储的光学信息的匹配处理来识别当前情形的方法,该情形识别方法包括:
构建以数值方式表示所存储的多条光学信息之间的跳转的概率模型;
获取所存储的多条光学信息和新获取的光学信息之间的差;
计算指示该差的值;
设定指示该差的值的时间序列,其中所计算的多个指示该差的值按时间顺序排列;以及
通过使用指示该差的值的时间序列和概率模型来执行匹配。
18.一种计算机程序,其使计算机通过执行新获取的光学信息和多条预先存储的光学信息的匹配处理来执行识别当前情形的方法,该情形识别方法包括:
构建以数值方式表示所存储的多条光学信息之间的跳转的概率模型;
获取所存储的多条光学信息和新获取的光学信息之间的差;
计算指示该差的值;
设定指示该差的值的时间序列,其中所计算的多个指示该差的值按时间顺序排列;以及
通过使用指示该差的值的时间序列和概率模型来执行匹配。
19.一种记录介质,其上记录有计算机程序,该计算机程序使计算机通过执行新获取的光学信息和多条预先存储的光学信息的匹配处理来执行识别当前情形的方法,该情形识别方法包括:
构建以数值方式表示所存储的多条光学信息之间的跳转的概率模型;
获取所存储的多条光学信息和新获取的光学信息之间的差;
计算指示该差的值;
设定指示该差的值的时间序列,其中所计算的多个指示该差的值按时间顺序排列;以及
通过使用指示该差的值的时间序列和概率模型来执行匹配。
20.一种信号,被编码以发送计算机程序,该计算机程序使计算机通过执行新获取的光学信息和多条预先存储的光学信息的匹配处理来执行识别当前情形的方法,该情形识别方法包括:
构建以数值方式表示所存储的多条光学信息之间的跳转的概率模型;
获取所存储的多条光学信息和新获取的光学信息之间的差;
计算指示该差的值;
设定指示该差的值的时间序列,其中所计算的多个指示该差的值按时间顺序排列;以及
通过使用指示该差的值的时间序列和概率模型来执行匹配。
21.一种情形识别装置,通过使用光学信息来识别当前的情形,该装置包括:
光学信息获取部件,用于获取光学信息;
存储部件,用于存储多条光学信息;
处理部件,用于匹配存储在存储部件中的多条光学信息和由光学信息获取部件新获取的光学信息;以及
输出部件,用于输出匹配的结果;
其中,存储器还存储以数值方式表示多条光学信息之间的跳转的概率模型;
其中,处理部件包括
差计算部件,用于分别获取该多条光学信息和新获取光学信息之间的差,并计算指示该差的值;
差存储部件,用于按时间顺序存储指示该差的计算值;以及
匹配处理部件,用于通过使用所存储的多个指示该差的值的时间序列和概率模型来执行匹配。
CNB2005100821358A 2004-06-29 2005-06-29 用光学信息进行情形识别的方法及装置 Expired - Fee Related CN100377168C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP191308/04 2004-06-29
JP2004191308 2004-06-29
JP000115/05 2005-01-04

Publications (2)

Publication Number Publication Date
CN1716280A true CN1716280A (zh) 2006-01-04
CN100377168C CN100377168C (zh) 2008-03-26

Family

ID=35822098

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100821358A Expired - Fee Related CN100377168C (zh) 2004-06-29 2005-06-29 用光学信息进行情形识别的方法及装置

Country Status (1)

Country Link
CN (1) CN100377168C (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923663A (zh) * 2009-06-11 2010-12-22 索尼公司 信息处理设备、信息处理方法和程序
CN101923662A (zh) * 2009-06-11 2010-12-22 索尼公司 信息处理设备、信息处理方法以及程序
CN105913386A (zh) * 2008-03-12 2016-08-31 皇家飞利浦电子股份有限公司 实时数字图像处理体系结构
CN109584295A (zh) * 2017-09-29 2019-04-05 阿里巴巴集团控股有限公司 对图像内目标物体进行自动标注的方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222665A (ja) * 1997-01-31 1998-08-21 Fujitsu Ten Ltd 画像認識装置
JP3880702B2 (ja) * 1997-09-11 2007-02-14 富士重工業株式会社 画像のオプティカルフロー検出装置及び移動体の自己位置認識システム
US5991460A (en) * 1998-02-12 1999-11-23 Rockwell Science Center, Inc. Navigation system using hybrid sensor correlation system
CN1359533A (zh) * 1999-06-29 2002-07-17 株式会社尼康 标记探测法及其装置、曝光法及其设备和器件制造方法及其器件

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913386A (zh) * 2008-03-12 2016-08-31 皇家飞利浦电子股份有限公司 实时数字图像处理体系结构
CN105913386B (zh) * 2008-03-12 2020-03-10 皇家飞利浦电子股份有限公司 实时数字图像处理体系结构
CN101923663A (zh) * 2009-06-11 2010-12-22 索尼公司 信息处理设备、信息处理方法和程序
CN101923662A (zh) * 2009-06-11 2010-12-22 索尼公司 信息处理设备、信息处理方法以及程序
CN101923662B (zh) * 2009-06-11 2013-12-04 索尼公司 信息处理设备、信息处理方法以及程序
CN101923663B (zh) * 2009-06-11 2015-08-12 索尼公司 信息处理设备、信息处理方法和程序
CN109584295A (zh) * 2017-09-29 2019-04-05 阿里巴巴集团控股有限公司 对图像内目标物体进行自动标注的方法、装置及系统
CN109584295B (zh) * 2017-09-29 2022-08-26 阿里巴巴集团控股有限公司 对图像内目标物体进行自动标注的方法、装置及系统

Also Published As

Publication number Publication date
CN100377168C (zh) 2008-03-26

Similar Documents

Publication Publication Date Title
US7636453B2 (en) Object detection
US20050265603A1 (en) Image processing
US8467575B2 (en) Moving-object detection apparatus, moving-object detection method and moving-object detection program
WO2005116910A2 (en) Image comparison
CN1335021A (zh) 视频/音频信号处理方法和视频/音频信号处理设备
CN101068310A (zh) 运动图像处理设备和运动图像处理方法
US8831357B2 (en) System and method for image and video search, indexing and object classification
CN1905629A (zh) 摄像装置和摄像方法
JP2006508601A5 (zh)
JP2006508601A (ja) ビデオカメラ
CN1534446A (zh) 信息显示系统及其信息处理装置、指示装置和标记显示法
CN1818927A (zh) 指纹识别方法与系统
JP2006508461A (ja) 顔検出及び顔追跡
JP2006510240A (ja) メディア処理システム
JP2005269605A (ja) デジタル図鑑システム、図鑑検索方法、図鑑検索プログラム
JP2006508463A (ja) 顔検出
JP2006508462A (ja) 顔検出
CN1909670A (zh) 图像表示和分析方法
JP2012073684A (ja) 画像認識方法及び装置並びにプログラム
CN1716280A (zh) 用光学信息进行情形识别的方法及装置
US20130155228A1 (en) Moving object detection method and apparatus based on compressed domain
JP5429564B2 (ja) 画像処理装置および方法、並びにプログラム
US20130208984A1 (en) Content scene determination device
JP2003208617A (ja) 画像処理装置
US20100128141A1 (en) Method and apparatus for determining similarity between images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080326

Termination date: 20180629

CF01 Termination of patent right due to non-payment of annual fee