CN1440538A - 用于测定图像中的对象的方法和装置 - Google Patents

用于测定图像中的对象的方法和装置 Download PDF

Info

Publication number
CN1440538A
CN1440538A CN01812200A CN01812200A CN1440538A CN 1440538 A CN1440538 A CN 1440538A CN 01812200 A CN01812200 A CN 01812200A CN 01812200 A CN01812200 A CN 01812200A CN 1440538 A CN1440538 A CN 1440538A
Authority
CN
China
Prior art keywords
mrow
image
local resolution
information
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01812200A
Other languages
English (en)
Inventor
G·德科
B·许曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1440538A publication Critical patent/CN1440538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

为测定图像中的对象,分级地选出子区或分子区,这些子区或分子区以不同的分辨率被拍摄在各个分级的层上,并与待识别的对象进行比较。如果能以足够的可靠性识别所述的对象,则输出所述待识别的对象以作为被识别出的对象。如果不是这种情况,则选出当前的子区中的另一个分子区,并以提高的局部分辨率从该分子区中采集信息。

Description

用于测定图像中的对象的方法和装置
本发明涉及用于测定图像中的对象的方法和用于测定图像中的对象的装置。
从[1]中已公开这种方法和这种装置。
在[1]所公开的方案中,从一个借助摄像机拍摄的、且包含有需识别的对象的图像中采集该图像的一个子区内的信息。针对被采集的信息执行特征提取,并借助已知的图样识别方法把从该子区中提取的特征与预先提取的、描述所述待识别的对象的特征进行比较。
如果在所述从子区提取的特征和所述描述待识别的对象的预定特征之间存在足够大的相似性,则终止所述的方法,并输出所述已针对其形成了所述提取特征的被识别对象,以作为被识别出的对象。
可以迭代地针对图像的不同子区一直执行该方法,直到测出所述的对象或直到满足预定的中断判据,譬如预定数目的迭代或以足够的精度识别待识别的对象。
该方案的缺点尤其在于,为测定待考察的图像内的对象需要大量的计算时间。这尤其归因于以相同的方式处理所述图像的所有子区,也就是说在对象测定方法的范围内,所述图像的所有子区的局部分辨率是相同的。
另外,[2]以小波变换的形式公开过一种所谓的两维盖博变换。该两维盖博变换是一些借助局部的空间带通滤波器的基本函数,所述的滤波器在空间域和频域、也即在一维的空间域和两维的频域内实现理论上最佳的总分辨率。
[3]和[4]公开了其它一些变换。
本发明基于的问题在于测定图像内的对象,其中所述的测定可以用统计上较少的计算时间来实现。另外,本发明基于的问题还在于训练一种具有学习能力的装置,使得该装置能被用来测定图像内的对象,以便在测定对象时,通过采用被训练过的具有学习能力的装置可以比已知的解决方案实现更少的计算时间。
该问题通过具有各独立权利要求所述特征的方法、装置、计算机程序单元和计算机可读的存储介质来解决。
在本发明的用于测定图像中的对象的方法中,以第一局部分辨率从所述的图像中采集信息。针对所采集的信息而执行第一次特征提取。根据所述的第一次特征提取而从所述的图像中选出所述对象可能所在的至少一个子区。继续以第二局部分辨率从所述被选定的子区中采集信息。且所述的第二局部分辨率大于所述的第一局部分辨率。针对所述的以第二局部分辨率采集的信息而执行第二次特征提取,并检验所述借助第二特征提取从所述的信息中所提取的特征是否满足预定的判据。如果不满足所述预定的判据,则分别以更高的局部分辨率迭代地从所述被选定的子区的至少一个分子区中采集信息,并检验所述分别以更高的局部分辨率所采集的信息是否满足预定的判据,直到满足该预定的判据,或者从所述的图像中选出另一个子区,并以第二局部分辨率从该另一子区中采集信息。作为替换方案,也可以终止所述的方法。
譬如在数字化图像处理中,所述的信息可以是分配给数字化图像像点的亮度信息和/或颜色信息。
利用本发明可以在测定图像中的对象时大大地节省计算时间。
显然,本发明是基于如下知识,即在生物的视觉感受中,以不同的局部分辨率来感觉大小不同的各个区域的分级方法通常可以达到识别出被找寻的对象的目的。
当然从本发明可以看出,为测定图像中的对象而分级地选择各个子区和分子区,这些子区或分子区分别是以不同的分辨率被拍摄到各个分级的层上的,并且在成功地进行特征提取之后将其与待识别对象的特征进行比较。如果以足够的可靠性识别出所述的对象,则输出所述待识别的对象以作为被识别出的对象。但如果不是这种情况,则可选地提供如下可能性,即选出当前的子区的另一个分子区,并再次以一个提供的局部分辨率从该分子区中采集信息,或者选出另一个子区并根据待识别的对象而检测该子区。
在用于训练具有学习能力的装置的方法中,所述的装置可以被用来测定图像中的对象,并且采集一个包含待测定对象的图像。预给定所述待识别的对象在所述图像中的位置和该对象自身。对所述的对象分别以不同的局部分辨率执行多次特征提取。利用所述被提取的特征分别针对一个不同的局部分辨率而训练所述的具有学习能力的装置。
所述的装置在本发明中既可以借助计算机程序、也即用软件来实现,也可以借助特殊的电子电路、也即用硬件来实现。
本发明的优选改进方案由各个从属权利要求给出。
这些其它的改进方案既涉及方法、装置、计算机可读的存储介质,也涉及计算机程序单元。
作为预定的判据可以采用以下的检验,即检验所述以相应的局部分辨率所采集的信息是否足以用足够的精度测定所述的对象。
另外,所述的判据也可以是预定数量的迭代,也即被用来分别选择分子区和以提高的局部分辨率检测该分子区的预定最大数量的迭代。
此外,所述的判据可以是预定数量的待检测的子区或最多待检测的分子区数量。
所述的特征提取可以借助一种变换而分别以不同的局部分辨率来实现。
作为变换可以优选地采用小波变换,优选地采用两维的盖博变换(2D-盖博-变换)。
通过采用两维的盖博变换,以最佳的方式既在空间域也在频域内对所述的图像信息进行编码,也就是说在减少冗余信息方面,在空间域编码和频域编码之间达成最佳的折衷。
可以采用各种变换作为所述的变换,该变换尤其满足以下前提条件:
-椭圆的高斯包络的形态比应该基本上为2∶1;
-所述平面波的传播方向应该沿着所述椭圆高斯包络的较短轴;
-频率响应的半幅带宽应该沿着最佳方向约等于1-1.5倍频程。
另外,所述变换的平均值应该等于0,以确保所述小波变换的可靠的函数基。
作为替换方案,也可以采用在[3]和[4]中所讲述的变换。
所述的变换可以借助多个神经元网络中的一个神经元网络来实现,优选地使用一种递归的神经元网络。
通过使用神经元网络,尤其可以采用一种快速的、与每次待识别的对象或与相应被采集的图像信息相匹配的变换装置。
在本发明的另一改进方案中,在所述的图像中测定多个子区,其中针对每个子区分别求出相应子区包含有所述待识别对象的概率。以相应待测定的对象的所属概率下降的顺序针对所述的子区执行所述的迭代方法。
通过该方法可以进一步减少所需的计算时间,因为从统计学的观点来看,这给出了一种用于测定所述待识别对象的最佳方案。
为进一步降低所需的计算时间,在本发明的改进方案中规定,被选定的子区的形状基本上对应于所述待测定的对象的形状。
利用该方法分别检测已经基本上对应于所述待测定对象的子区或一个分子区。由此避免了检测那个肯定不存在所述待测定对象的图像区,因为相应的图像区一定已经具有不同的形状。
可以采用至少一个神经元网络作为具有学习能力的装置。
优选地按照形貌布置所述神经元网络的神经元。
附图中示出了本发明的一个实施例,下面来详细讲述它。其中:
图1用框图示出了本发明一种实施例的用于测定对象的装置结构,
图2用框图详细示出了在图1的本发明实施例中用于执行两维盖博变换的模块结构,
图3用框图详细示出了在图1的实施例中的识别模块,
图4用框图示出了本发明一种实施例的用于测定对象的装置结构,其中详细示出了优先卡的测定,
图5a和5b示出了具有不同对象的图像,从这些对象中需要求出待测定的对象,其中在图5a中示出了不同的拍摄对象,以及图5b中在不同的局部分辨率的情况下求出了识别结果,
图6用流程图示出了本发明实施例的方法的各个步骤。
图1示出了装置100的简图,利用该装置来测定待测定的对象。
所述的装置100具有一个视场101。
另外还设有一个采集单元102,利用它可以经所述的视场101以不同的局部分辨率从图像中采集信息。
所述的采集单元102具有一个特征提取单元103和一个识别单元104。
图1在采集单元102中示出了许多特征提取单元103,这些特征提取单元分别以不同的局部分辨率从图像中采集信息。
由所述的特征提取单元103把从被测定的图像信息中所提取的特征输入到识别模块中,也即以特征矢量105的形式输入到识别单元104中。
在下面还要详细讲述的识别单元104中,以下文还要详细讲述的方式把所述的特征矢量105与一个预先形成的特征矢量进行样式比较。
识别结果被输入到控制单元106中,由该控制单元判断选定所述图像的哪个子区或哪个分子区-下文还要进一步讲述-,以及利用何种局部分辨率来检测相应的子区或分子区。控制单元106另外还具有一个判定单元,在该判定单元中检验在所提取的特征方面是否满足预定的判据。
如同箭头107所示,根据控制单元106的控制信号而在各个识别单元104之间进行“切换”,以便分别利用不同的局部分辨率在不同的采集区域108中采集信息。
下面来详细讲述图2详细示出的特征提取单元103。
如果如此地设立两维的盖博小波,使得频率范围被置于一个对数划分之中,则每个采集的频率被称作倍频程。每个倍频程在下文被称作局部分辨率。
在预定的局部分辨率情况下执行小波变换的每个单元都具有一种神经元布置,其采集范围对应于两维的盖博函数,并依赖于某种取向。
相应神经元的输出还依赖于预定的局部分辨率,并且是对称的。每个特征提取单元103都具有一个递归的神经元网络200,如图2所示。
下文假定一个具有n*n个像点的数字化图像201(根据该实施例,n=128,也即根据该实施例所述的图像具有16384个像点)。
每个像点被分配一个位于“0”  (黑)和“255”(白)之间的亮度值Iij orig。所述的亮度值Iij orig分别标明了一个像点所分配的亮度值,且所述的像点在图像201内是处于用指数i,j表示的局部坐标上。
从图像201、也即从位于相应采集区域内的像点中求出所述图像201的像点亮度值Iij orig的平均亮度值DC DC = 1 n 2 Σ i = 1 n Σ j = 1 n I ij orig , - - - ( 1 )
这些像点位于所述的采集区域内,并且通过一个对比度校正单元202从每个像点的亮度值Iij orig中减去该平均亮度值DC。
结果是对比度不变的亮度值的一个集合。对于在采集区域内的像点,其亮度值的对比度不变的描述通过以下公式来得出: I ij = I ij orig - 1 n 2 Σ i = 1 n Σ j = 1 n I ij orig , - - - ( 2 )
该没有DC的亮度值被输入到一个神经元层203中,由其神经元提取简单的特征。
神经元层203的神经元具有一些感受域,由这些感受域根据以下公式执行两维的盖博变换。 Ψ ( x , y , ω 0 , Θ ) = ω 0 2 Πκ e - ω 0 2 8 κ 2 ( 4 · ( x cos Θ + y sin Θ ) 2 + ( - x sin Θ + y cos Θ ) 2 ) · [ e i ω 0 ( x cos Θ + y sin Θ ) - e - k 2 2 ]                   (3)
其中:
·ω0表示每个长度单元用弧度计的角频率,以及
·Θ以弧度表示小波的取向。
所述的盖博小波在x=y=0                  (4)
处集中,并借助L2标准进行标准化,使得:<Ψ,Ψ>=1.                               (5)
利用恒量K来确定频带宽度。
根据该实施例而使用K=Π                                        (6)
这对应于一个倍频程的频带宽度。
通过按照下式离散化所述连续小波函数(3)的频率、取向和中心点可以求出一系列离散的2D-盖博-小波Gkpql(x,y): G kpql ( x , y ) = a - k &Psi; &Theta; 1 ( a - k x - pb , a - k y - qb ) , - - ( 7 ) 其中, &Psi; &Theta; 1 = &Psi; ( x cos ( 1 &Theta; 0 ) + y sin ( 1 &Theta; 0 ) , - x sin ( 1 &Theta; 0 ) + y cos ( 1 &Theta; 0 ) ) - - - ( 8 ) 而且基本小波为: &Psi; ( x , y ) = 1 2 &Pi; e - 1 8 ( 4 x 2 + y 2 ) &CenterDot; [ e ikx - e - &kappa; 2 2 ] . - - - ( 9 ) 根据该公式,·Θ0=п/L表示各个角度旋转的步进量,·1表示根据优选的取向Θ1=1п/L的旋转的指数,·k表示各个倍频程,以及·p和q表示感受域的中心位置(cx=pba k和cy=qba k)。对于给定的倍频程k,根据 P = [ n ba k ] , - - - ( 10 ) Q = [ n ba k ] , - - - ( 11 ) 得出p和q的最大值,其中用 表示小于x的最大整数。
下文利用rkpql来表示激活所述神经元层203内的神经元。
激活rkpql依赖于某个局部的频率,该频率取决于距优选取向和中心处激励的倍频程k,其中所述的优选取向由旋转指数1确定,而所述的中心由指数p和q确定。
各个神经元层203内的神经元的激活rkpql被定义为相应的感受域和图像(也即像点的亮度值)的卷积,因此根据以下公式得出神经元的激活rkpql r kpql = < G kpql , I > = &Sigma; i = 1 n &Sigma; j = 1 n G kpql ( i , j ) &CenterDot; I ij &CenterDot; g ij , - - - ( 12 )
其中用gij表示所述具有相应局部分辨率k的采集单元的像点(i,j)的加权值。
需注意的是,神经元的激活rkpql是一个复数,因此该实施例采用两个神经元来编码一个亮度值Iij,一个神经元用于亮度值Iij的实部,一个神经元用于被变换的亮度信息Iij的虚部。
所述神经元层205的采集所述被变换的亮度信号204的神经元206产生一个神经元输出值207。
借助该神经元输出信号207在图像重构单元208内形成一个重构的图像209。
根据该实施例,所述的图像重构单元208具有一些用于执行盖博-小波-变换的神经元。
为此,所述的图像重构单元208具有一些按照前馈结构彼此相连的神经元,它们对应于一个盖博感受域。
换句话说,这意味着按照如下公式进行图像重构: I ^ ij = c &Sigma; k = 0 K &Sigma; p = 0 P &Sigma; q = 0 Q &Sigma; l = 0 L - 1 r kpql G kpql ( i , j ) , - - - ( 13 )
其中用K表示最大的分辨率。
利用恒量C来表示所采用的小波基的密度。由于盖博-小波-基函数的非正交性,通过公式(13)及其线性叠加不能保证达到按照下式求出的重构误差E的最小值: E = &Sigma; i = 1 n &Sigma; j = 1 n g ij | | I ij - I ^ ij | | 2 - - - ( 14 )
可以通过借助反馈连接动态地优化所述的重构误差E来获得所述公式(14)的校正。
接下来为所述神经元层205的每个神经元206求出一个反馈的校正项rkpql corr
如此来确定所述递归神经元网络200的动态,使得根据如下公式来求出一个动态的重构误差: E = &Sigma; i = 1 n &Sigma; j = 1 n g ij | | I ij - c &Sigma; k = 0 K &Sigma; p = 0 P &Sigma; q = 0 Q &Sigma; l = 0 L - 1 { r kpql + r kpql corr } G kpql ( i , j ) | | 2 . ( 15 ) 所述递归的神经元网络200的动态重构误差被最小化。这通过按照如下公式动态地匹配校正项rkpql corr来实现: &PartialD; r kpql corr &PartialD; t = - &eta; 2 &PartialD; E &PartialD; r kpql corr = &eta; &Sigma; i = 1 n &Sigma; j = 1 n g ij E ij G kpql ( i , j ) = &eta; < G kpql , E > , ( 16 ) 其中: E ij = ( I ij - c &Sigma; k = 0 K &Sigma; p = 0 P &Sigma; q = 0 Q &Sigma; l = 0 L - 1 { r kpql + r kpql corr } G kpql ( i , j ) ) - - - ( 17 ) 用η表示变化系数(按照该实施例η=0.1)。按照以下公式求出所述的恒量C: max ( I ij ) = max ( I ^ ij ) ,
其中用max()表示各个值的最大值。
可以用以下方法明显地解释上述的动态。
如果反馈所述的重构误差信号E并用相同的盖博感受域(<Gkpql,E>)进行卷积,则整个动态系统将收敛到一个对应于所述重构误差信号214的最小值的吸引子。
借助一个差分单元210来求出所述的重构误差信号214。把无对比度的亮度信号211和所述被重构的亮度信号212输入到差分单元210中。通过求出所述无对比度的亮度信号211和相应被重构的亮度值212之间的差值而求出一个重构误差值213,把该误差值输入到所述的感受域、也即盖博滤波器中。
在学习阶段,针对待测定的、也即待识别的对象集中的每个待测对象,以及针对每个局部的分辨率而在上述的特征提取单元103中执行公式(16)所示的训练方法。
这通过为每个对象并针对每个局部分辨率而提取相应的2D-盖博-小波-特征来实现。
所述的识别单元104在其神经元加权中单个地存入针对每个局部分辨率而提取的特征矢量105。
由此根据每个局部分辨率和针对每个待测定的对象来训练不同的特征提取单元103,这在图1中是通过不同的特征提取单元103表示的。
感受域的中心位置被离散化,并针对等级k的局部分辨率得出cx=pbak                                            (18)和cy=qbak.                                           (19)
这明显地意味着,在空间上靠近的小波是通过较小的步距隔开的,而且相距较远的小波是通过较大的步距隔开的。
根据该实施例,所述的感受域在每种局部分辨率情况下都是以相同的方式覆盖整个采集区域的,也就是说它们总是以相同的方式重叠。
由此,局部分辨率为k的特征提取单元103具有 L ( n ( ba k ) ) 2 - - - ( 20 ) 个盖博神经元。
所述的盖博神经元明确地借助指数kpql和激活rkpql来表示,如同上文所述,它们是通过用所述采集区域的像点的亮度值Iij卷积相应的感受域而给出的。
通过上述的方法,由优选使用的特征提取单元103通过前向的盖博连接而快速地求出一个足够好的小波基函数集,以便更好地对所述的亮度值进行编码,这些亮度值是通过对重构误差值213进行递归的动态分析求出的,由此实现较少数量的迭代以求出所述重构误差值213的最小值。
根据该实施例,采用反馈的重构误差E来在以下意义上动态地改善所述图像201的前向的盖博表示,即依据盖博小波的非正交性来动态地校正在图像信息的描述中的以上冗余问题。
因此,通过按照图像信息的内部表示而改善所述的重构,盖博特征描述的冗余被动态地大大减小。
所以通过这种结构实现了盖博滤波器的常规线性表示的非线性校正,由此实现了图像信息的更有效的预测编码。
为实现图像信息的最佳预测编码所需要的迭代数量可以通过如下方式进一步减少,即采用冗余数量的盖博神经元来进行特征编码。
由此而冗余的基允许更多数量的基矢量作为输入信号。按照该实施例,对于局部分辨率为K的特征提取单元103,根据所述的倍频程至少采用等于通过局部分辨率K预给定的数值的数量来利用小波特征重构所述盖博神经元的内部表示。
根据该实施例采用六个倍频程,也即具有8个取向(L=8)的六个特征提取单元103(N=6),其中b=1和a=2,于是在应用所有等级的分辨率 L ( n ( ba k ) ) 2 - - - ( 20 ) 的情况下使用一些实施编码的盖博神经元。
由于根据该实施例在图像中包含16.384个像点,所以采用174.080个进行编码的盖博神经元来形成所述的冗余基。
下面来详细讲述神经元层205的神经元(参见图3)。
根据该实施例假定:针对每个神经元206(其中规定一个神经元300用于盖博变换的实部,一个神经元301用于盖博变换的虚部,这正如上文所述,也就是说两个用于“逻辑”神经元的神经元),利用至特征提取单元103的相应连接分别以加权信息的形式进行存储,所述的加权信息针对所述采集区域内的某个局部分辨率和某个对象位置而借助对象的特征矢量进行描述。
所述神经元层205的神经元206按照各列进行组织排列,以便按形貌排列所述的神经元。
所述的识别神经元的感受域被如此地设置,使得只传送神经元输入值在某个中心区域周围的有限的正方形采集区域。
所述的识别神经元的正方形感受域的大小是恒定的,并且如此地设置所述的识别神经元,使得只考虑位于各识别神经元301、302的采集区域之内的神经元层205的神经元206的信号。
在训练阶段内,感受域的中心处于各对象的亮度中心内。
针对每个需要学习的、也即在应用阶段需要识别的对象,把相同的识别神经元-也即以相同的加权进行划分但具有不同中心的神经元-分布在整个测定区域上,由此来获得平移不变性。
通过如下方式来获得旋转不变性,即在每个位置沿着不同的取向存储所述小波系数的总和。
总之,根据该实施例,在学习阶段为每个需要进行新的学习的对象设定一个自己的识别神经元数量,这些识别神经元在其加权中存储了相应基于小波的、各个对象的内部描述,也即描述所述对象的特征矢量。
针对每个局部分辨率产生一个识别神经元,该识别神经元对应于按照相应的倍频程的各个内部描述,也即对应于相应的局部分辨率,而且在整个采集区域内针对所有的中心位置而分布式地布置各个识别神经元。
所述的识别神经元是线性的神经元,它以输出值的形式在其输入加权和输入信号之间加入一个线性相关系数,其中所述的输入加权是由所述神经元层的位于特征提取单元103内的神经元形成的。
图3针对不同的对象303、304示出了各个识别神经元305、306、307、308、309、310、311、312。显然,在训练阶段期间,在一个时间点上在所述采集区域的一个预定的、且可自由预定的位置提供各个对象。
所述的识别神经元在其加权中存储所述基于小波的信息。对于一个给定的位置、也即具有像素坐标(cx,cy)的中心,为每个需要学习的对象设立两个识别神经元,一个识别神经元用于存储小波描述的实部,另一个识别神经元用于存储所述内部小波描述的虚部。
如同上文所述,在所述的递归动态成功地收敛之后,所述神经元的内部描述按照以下两个张量进行存储: w kpq = Re ( &Sigma; l = 0 L - 1 ( r k ( p + c x ) ( q + c y ) l + r k ( p + c x ) ( q + c y ) l corr ) ) , - - - ( 21 ) 以及 w ~ kqp = Im ( &Sigma; l = 0 L - 1 ( r k ( p + c x ) ( q + c y ) l + r k ( p + c x ) ( q + c y ) l corr ) ) , - - - ( 22 )
其中利用Re()来分别表示所述的实部,以及利用Im()来分别表示所述的虚部,而且对于所述的指数p和q适用:p,q∈[- R,R],                                   (23)其中利用R表示所采集的像点内的感受域的宽度。根据该实施例选择R=32个像点。在训练阶段期间,通过各个对象的亮度中心求出所述的中心(cx,cy),它由下式给出: c x = ( &Sigma; i = 1 n I ij &CenterDot; i ) ( &Sigma; i = 1 n I ij ) , - - - ( 24 ) 以及 c y = ( &Sigma; i = 1 n I ij &CenterDot; j ) ( &Sigma; i = 1 n I ij ) . - - - ( 25 )
通过求出在所有指数1上的总和,实现了相应对象的旋转不变的描述。
以相同的方式求出因激励而在另一中心内被激活的神经元,其中采用相同的加权来识别位于所述采集区域内的偏移位置处的相同对象。
识别神经元在识别阶段的输出通过一个相关系数来确定,该相关系数描述了所述的加权和神经元层205的神经元206的输出之间的相关性。
根据该实施例,在局部分辨率为k的情况下,通过参考所述神经元层205的神经元206在分辨率为k时的实部和所述的中心(zx,zy),所述识别单元104内的识别神经元的输出由下式给出: o k ( z x , z y ) = ( &Sigma; p = - R R &Sigma; q = - R R ( W kpq - < w k > ) ( v kpq ( z x , z y ) - < v k > ) ) &sigma; w k &sigma; v k . - - - ( 26 ) 相应的识别神经元针对所述虚部的输出由下式给出: o ~ k ( z x , z y ) = ( &Sigma; p = - R R &Sigma; q = - R R ( w ~ kpq - < w ~ k > ) ( v ~ kpq ( z x , z y ) - < v ~ k > ) ) &sigma; w ~ k &sigma; v ~ k . - - - ( 27 )
利用<a>表示平均值,利用σa表示变量a在所述采集区域上、也即在所有的指数p、q上的标准偏差。
需指出的是,在每种局部分辨率的情况下,所述的神经元是根据相同对象的采集、但也根据不同的位置而被激活的,因为相应于对象针对不同的位置存储了相同的加权。
根据该实施例,所述识别神经元的中心被如此地布置在采集区域上,使得它们完全覆盖所述的采集区域,而且总是有一个神经元与另一神经元的采集区域互相重叠一半,也就是说对于n=128和R=64,在以下的位置上布置了9个中心((32,32)(32,64)(32,96)(64,32)(64,64)(64,96)(96,32)(96,64)(96,96))。
因此在识别阶段期间,串行地通过控制单元106激活不同的识别单元104,这将在下文进行讲述。
在激活相应的识别单元104之后,检验是否满足预定的判据,其中,根据大于或等于当前倍频程的倍频程,也即通过在相应的时间点上只考虑被激活的识别单元104来测定具有最大激活的识别神经元的激活。
换句话说,在判定选择哪个识别神经元时,以如下方式采用一个所谓的谁胜谁占有策略,即由所述的控制单元106分析所选出的被分配给某个中心和某个对象的识别神经元。
正如下文所述,另外还由控制单元106判断相应对象的识别是否足够准确,或者是否需要通过选择一个较小的、具有较高局部分辨率的更细区域来对所述的对象进行更准确地分析。
如果是这种情况,则激活位于其它特征提取单元103或识别单元104内的其它神经元,以便提高所述的局部分辨率。
如图4所示,针对所述的采集区域在最粗的局部分辨率情况下形成识别单元104的一个优先卡,其中通过所述的优先卡给出图像区的各个子区,并给相应的子区分配一个概率,以该概率给出待识别的对象位于所述子区内的可能性(参见图4)。
在图4中所述的优先卡是用400表示的。子区401的特征在于该子区401的中心402。
下面来详细讲述被用来选择各个子区和分子区并分别以较高的局部分辨率进行检测的各个迭代。
根据该实施例,设立一种串行的反馈机制来掩蔽所述的采集区域,因此根据每次被选定的高分辨率k来激活一系列其它的采集单元102和特征提取单元103以及识别单元104,也就是说由控制单元106调节采集区域的定位和大小,其中由系统在该采集区域内拍摄可视信息并进一步进行处理。
在第一步中处理整个图像201,但利用的是最粗的局部分辨率,也就是说只激活第一识别单元和k=N的特征提取单元。
在该粗的局部分辨率的情况下,实际上通常只能识别所述对象的位置,并非常粗地确定对象的整体形状。
根据相应的任务,由控制单元把识别单元的结果存储下来作为优先卡,并选定所述图像的一个子区,并在该子区内象下文还要继续讲述的那样检测图像信息。
所述子区的相应选择通过相同的反馈连接由被激活的小波模块进行反馈。
子区的选择,也即规定以更高的局部分辨率详细地检测哪些像点是根据如下的像点来进行的,即该像点描述了最后被激活的局部分辨率的对象。
依据以下的像点来选出相应的像点,即这些像点能实现好的重构,也就是说能以低的重构误差、并通过与被滤波的黑背景不相对应的像点来实现重构。
换句话说,所述的注意力机制是以如下意义而基于对象的,即:仅串行地以较高的局部分辨率进一步分析所述对象所处的区域。
这意味着,串行地激活相应的较低的倍频程,但只是在所选定的子区内。
所述的注意力机制在数学上借助矩阵Gij来描述,当应该考虑相应的像点时其元素值为“1”,当不应考虑相应的像点时其元素值为“0”。
在对象识别中为最粗的局部分辨率的情况下(k=N),分析所有的图像201,也即gij=1     i,j.                                 (28)
产生所述的优先卡,并由控制单元106判断在下一步骤中详细分析哪个对象,以便在下一更高的局部分辨率的范围内只考虑位于所述图像区内、也即位于所述被选定的子区内的像点。
根据该实施例假定另外两个条件。
第一个条件是,被重构的图像具有亮度值 第二个条件是,重构误差不大于预定的阈值,也即:gijEij<α.                                          (29)
由此,所述的控制单元106判断出要详细分析处于所述优先卡中心(cx,cy)处的对象,然后根据如下公式更新由矩阵Gij所给定的掩模:
对于k>N,通常只通过上述两个条件来调节位于局部分辨率k和接下来的局部分辨率k-1(也即提高了的局部注意力)之间的注意力反馈。
因此根据该实施例按照下式定义一个新的矩阵值Gij,以激活下一个被提高的局部分辨率k-1:
Figure A0181220000223
下面来讲述针对具体的对象识别以不同的局部分辨率来检测各个子区和分子区的不同迭代过程。
在该实施例中设定了四种对象,如图5a所示。
第一对象501具有一个总体的H形状,并且局部元素具有T形状的对象组分,因此把第一对象标示为Ht。
第二对象502具有一个总体的H形状,并且局部元素也具有H形状的组分,因此把第二对象502标示为Hh。
第三对象503具有一个总体的T形状结构,并且局部形状也为T形,因此把第三对象503标示为Tt。
第四对象504具有一个总体的T形状,并且各个对象组分为局部的H形状,因此把第四对象标示为Th。
图5b示出了本发明的装置针对不同的局部分辨率而分别对第一对象501的识别结果(在第一局部分辨率510、在第二局部分辨率511、在第三局部分辨率512、和在第四局部分辨率513时的被识别对象)。
图5b还示出了本发明的装置针对不同的局部分辨率而分别对第二对象502的识别结果(在第一局部分辨率520、在第二局部分辨率521、在第三局部分辨率522、和在第四局部分辨率523时的被识别对象)。
图5b还示出了本发明的装置针对不同的局部分辨率而分别对第三对象503的识别结果(在第一局部分辨率530、在第二局部分辨率531、在第三局部分辨率532、和在第四局部分辨率533时的被识别对象)。
图5b还示出了本发明的装置针对不同的局部分辨率而分别对第四对象504的识别结果(在第一局部分辨率540、在第二局部分辨率541、在第三局部分辨率542、和在第四局部分辨率543时的被识别对象)。
从图5可以看出,在最高的局部分辨率情况下,已经利用很好的、至少足够的精度识别出相应的对象。
下面参考图6再次清楚地讲述所述的用于测定对象的方法。
在第一步骤(步骤601)中,对被采集的图像的像点、也即对该像点的亮度值以第一局部分辨率j=1进行特征值提取(步骤602)。
在下一步骤中从所述的图像内求出第一子区Tbi(步骤603)。
对于被求出的每个子区Tbi,求出所述待测定的对象处于相应子区Tbi内的概率。结果是一个优先卡,该优先卡包含有位于概率和子区之间的各个分配关系(步骤604)。
根据所求出的优先卡选出i=1的第一子区Tbi,并激活所述的神经元,以便在步骤605中将所选出的子区增加值1,然后利用提高的局部分辨率检测所选出的子区Tbi(步骤606,607)。
在检验步骤608中检验是否能以足够的可靠性识别所述的对象(步骤608)。
如果是这种情况,则输出所述被识别的对象以作为识别出的对象(步骤609)。
若不是这种情况,则在下一检验步骤(步骤610)中检验是否满足预定的中断判据,根据该实施例是检验是否达到预定的迭代数目。
若是这种情况,则终止所述的方法(步骤611)。
如果不是这种情况,则在下一检验步骤中(步骤612)检验是否应选出另一个分子区。
如果应该选出需要以提高的分辨率进行检测的另一个分子区,则选定该相应的分子区(步骤613),并在步骤606中通过为相应的分子区增加所述的局部分辨率而继续所述的方法。
但如果不是这种情况,则从所述的优先卡中选出另一个子区Tbi+1(步骤614),并在接下来的步骤(步骤605)中继续所述的方法。
在该文献中引用了如下公开物:
[1]A.Treisman所著的Perceptual Grouping and Attention inVisual Search for Features and for Objects,实验心理学学报:Human Perception and Performance,卷8,页194-214,1982
[2]J.Dauman所著的Complete Discrete 2D-Gabor-Transformsby Neural Networks for Image Analysis and Compression,IEEE关于声学、速度和信号处理的会议纪要,卷36,页1169-1179,1988
[3]D.J.Heeger所著的Nonlinear Model of Neural Responses inCat Visual Cortex,Computational Models of Visual Processing,由M.Landy和J.A.Movshon编辑,剑桥,MA,MIT出版社,页119-133,1991
[4]D.J.Heeger所著的Normalization of Cell Responses in CatStriate Cortex,Visual Neuro Science,卷9,页181-197,1992

Claims (17)

1.用于测定图像中的对象的方法,
其中,以第一局部分辨率从所述的图像中采集信息,
其中,针对所述图像中的信息而执行第一次特征提取,
其中,根据所述的特征提取而从所述的图像中选出所述对象可能所在的至少一个子区,
其中,以第二局部分辨率从所述被选定的子区中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,
其中,针对所述选定的子区中的信息执行第二次特征提取,
其中,检验是否满足预定的判据,
其中,如果不满足所述预定的判据,则终止所述的方法,或从所述的图像中选出另一个子区,并以第二局部分辨率从该另一个子区中采集信息,
其中,分别以更高的局部分辨率迭代地从所述被选定的子区的至少一个分子区中采集信息,并检验所述分别以更高的局部分辨率所采集的信息是否满足预定的判据,直到满足该预定的判据。
2.按权利要求1的方法,其中,
所述的判据是所述以第二局部分辨率采集的信息是否足以用足够的精度采集所述的信息。
3.按权利要求1的方法,其中,
所述的判据是预定数量的迭代。
4.按权利要求1-3之一的方法,其中,
借助一种变换分别以不同的局部分辨率来执行所述的特征提取。
5.按权利要求4的方法,其中,
采用小波变换作为变换。
6.按权利要求5的方法,其中,
采用两维的盖博变换作为小波变换。
7.按权利要求4-6之一的方法,其中,
借助神经元网络来执行所述的变换。
8.按权利要求7的方法,其中,
借助递归的神经元网络来执行所述的变换。
9.按权利要求1至8之一的方法,
其中,在所述的图像内求出大量的、分别以所求出的概率包含所述待识别的对象的子区,
其中,以概率下降的顺序针对所述的子区执行所述的迭代方法。
10.按权利要求1-9之一的方法,其中,
所选出的子区的形状基本对应于所述待识别的对象的形状。
11.用于训练具有学习能力的装置的方法,所述的装置需要被用来测定图像中的对象,
其中,采集一个包含待识别对象的图像,预给定所述待识别的对象在所述图像中的位置和该对象,
其中,针对所述的对象分别以不同的局部分辨率执行多次特征提取,
其中,利用所述被提取的特征分别针对一个局部分辨率而训练所述的装置。
12.按权利要求11的方法,其中,
采用至少一个神经元网络作为装置。
13.按权利要求12的方法,其中,
按形貌布置所述神经元网络的神经元。
14.用于测定图像中的对象的装置,具有一种被如此安装的处理器,使得可以执行如下的方法步骤:
以第一局部分辨率从所述的图像中采集信息,
针对所述图像的信息执行第一次特征提取,
依据所述的特征提取而从所述的图像中选出该对象可能所在的至少一个子区,
以第二局部分辨率从所述被选定的子区中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,
针对所述被选定的子区中的信息执行第二次特征提取,
检验是否满足预定的判据,
如果不满足所述预定的判据,则终止所述的方法,或从所述的图像中选出另一个子区,并以第二局部分辨率从该另一个子区中采集信息,
分别以更高的局部分辨率迭代地从所述被选定的子区的至少一个分子区中采集信息,并检验所述分别以更高的局部分辨率所采集的信息是否满足预定的判据,直到满足该预定的判据。
15.用于测定图像中的对象的装置,具有
一个采集单元,用于以多个不同的局部分辨率从所述的图像中采集信息,
一个特征提取单元,用于针对所述采集单元所采集的信息而提取特征,
一个选择单元,用于依据所述的特征提取单元所提取的特征而从所述的图像中选出该对象可能所在的至少一个子区,
一个用于控制所述采集单元的控制单元,所述的控制单元被如此地设立,使得以第二局部分辨率从所述被选定的子区中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,
一个判定单元,在该判定单元内检验在每次所提取的特征方面是否满足预定的判据,
其中所述的控制单元被如此地进一步设置,使得
如果不满足所述预定的判据,则终止所述的方法,或从所述的图像中选出另一个子区,并以第二局部分辨率从该另一个子区中采集信息,
分别以更高的局部分辨率迭代地从所述被选定的子区的至少一个分子区中采集信息,并检验所述分别以更高的局部分辨率所采集的信息是否满足预定的判据,直到满足该预定的判据。
16.计算机存储介质,其中存储了用于测定图像中的对象的计算机程序,当由处理器执行该程序时包含如下的方法步骤:
以第一局部分辨率从所述的图像中采集信息,
针对所述图像中的信息而执行第一次特征提取,
根据所述的特征提取而从所述的图像中选出所述对象可能所在的至少一个子区,
以第二局部分辨率从所述被选定的子区中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,
针对所述选定的子区中的信息执行第二次特征提取,
检验是否满足预定的判据,
如果不满足所述预定的判据,则终止所述的方法,或从所述的图像中选出另一个子区,并以第二局部分辨率从该另一个子区中采集信息,
分别以更高的局部分辨率迭代地从所述被选定的子区的至少一个分子区中采集信息,并检验所述分别以更高的局部分辨率所采集的信息是否满足预定的判据,直到满足该预定的判据。
17.用于测定图像中的对象的计算机程序单元,当由处理器执行该程序时该程序单元包括如下方法步骤:
以第一局部分辨率从所述的图像中采集信息,
针对所述图像中的信息而执行第一次特征提取,
根据所述的特征提取而从所述的图像中选出所述对象可能所在的至少一个子区,
以第二局部分辨率从所述被选定的子区中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,
针对所述选定的子区中的信息执行第二次特征提取,
检验是否满足预定的判据,
如果不满足所述预定的判据,则终止所述的方法,或从所述的图像中选出另一个子区,并以第二局部分辨率从该另一个子区中采集信息,
分别以更高的局部分辨率迭代地从所述被选定的子区的至少一个分子区中采集信息,并检验所述分别以更高的局部分辨率所采集的信息是否满足预定的判据,直到满足该预定的判据。
CN01812200A 2000-05-09 2001-05-07 用于测定图像中的对象的方法和装置 Pending CN1440538A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10022480 2000-05-09
DE10022480.6 2000-05-09

Publications (1)

Publication Number Publication Date
CN1440538A true CN1440538A (zh) 2003-09-03

Family

ID=7641256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01812200A Pending CN1440538A (zh) 2000-05-09 2001-05-07 用于测定图像中的对象的方法和装置

Country Status (5)

Country Link
US (1) US20030133611A1 (zh)
EP (1) EP1281157A1 (zh)
JP (1) JP2003533785A (zh)
CN (1) CN1440538A (zh)
WO (1) WO2001086585A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10163002A1 (de) * 2001-12-20 2003-07-17 Siemens Ag Erstellen eines Interessenprofils einer Person mit Hilfe einer neurokognitiven Einheit
JP3863775B2 (ja) * 2001-12-25 2006-12-27 株式会社九州エレクトロニクスシステム 画像情報圧縮方法及び画像情報圧縮装置並びに画像情報圧縮プログラム
WO2006083278A2 (en) * 2004-05-26 2006-08-10 Bae Systems Information And Electronic Systems Integration, Inc. Method for transitioning from a missile warning system to a fine tracking system in a countermeasures system
US8370755B2 (en) * 2007-12-27 2013-02-05 Core Wireless Licensing S.A.R.L. User interface controlled by environmental cues
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US10192327B1 (en) * 2016-02-04 2019-01-29 Google Llc Image compression with recurrent neural networks
US10657671B2 (en) 2016-12-02 2020-05-19 Avent, Inc. System and method for navigation to a target anatomical object in medical imaging-based procedures
CN107728143B (zh) * 2017-09-18 2021-01-19 西安电子科技大学 基于一维卷积神经网络的雷达高分辨距离像目标识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579439A (en) * 1993-03-24 1996-11-26 National Semiconductor Corporation Fuzzy logic design generator using a neural network to generate fuzzy logic rules and membership functions for use in intelligent systems
US6714665B1 (en) * 1994-09-02 2004-03-30 Sarnoff Corporation Fully automated iris recognition system utilizing wide and narrow fields of view
US6263122B1 (en) * 1998-09-23 2001-07-17 Hewlett Packard Company System and method for manipulating regions in a scanned image
US6639998B1 (en) * 1999-01-11 2003-10-28 Lg Electronics Inc. Method of detecting a specific object in an image signal

Also Published As

Publication number Publication date
US20030133611A1 (en) 2003-07-17
WO2001086585A1 (de) 2001-11-15
JP2003533785A (ja) 2003-11-11
EP1281157A1 (de) 2003-02-05

Similar Documents

Publication Publication Date Title
CN1276389C (zh) 图形对照装置及其图形对照方法
US6389169B1 (en) Intelligent systems and methods for processing image data based upon anticipated regions of visual interest
CN1459761A (zh) 基于Gabor滤波器组的字符识别技术
CN1828632A (zh) 目标检测装置、学习装置、目标检测系统及目标检测方法
CN1599913A (zh) 虹膜识别系统和方法以及具有其程序的存储介质
US7917540B2 (en) Nonlinear set to set pattern recognition
CN1818927A (zh) 指纹识别方法与系统
CN1273516A (zh) 从数字乳房x射线照片中自动检测成簇的微钙化的方法和系统
CN1924894A (zh) 多姿态人脸检测与追踪系统及方法
CN1977286A (zh) 对象识别方法及其设备
CN1604139A (zh) 图像融合评价系统的构建方法
JP6945253B2 (ja) 分類装置、分類方法、プログラム、ならびに、情報記録媒体
CN1440538A (zh) 用于测定图像中的对象的方法和装置
CN113095156B (zh) 一种基于逆灰度方式的双流网络签名鉴定方法及装置
Tsai et al. Decision-theoretic model to identify printed sources
El Abed et al. Fingerprint quality assessment using a no-reference image quality metric
CN116229230A (zh) 基于多尺度Transformer的静脉识别神经网络模型、方法与系统
WO2021259604A1 (en) Domain aware medical image classifier interpretation by counterfactual impact analysis
Couto et al. An IVFS-based image segmentation methodology for rat gait analysis
CN111507948A (zh) 基于机器视觉的超声视频流关键图像自动截取系统和方法
Oszust Optimized filtering with binary descriptor for blind image quality assessment
Ali et al. An Automated Deep Learning Approach for Kidney Disease Detection
CN115713505A (zh) 基于聚焦交叉熵的多元特征融合的脑膜瘤分级方法及系统
JP2006252504A (ja) パターン認識装置、パターン認識方法、パターン認識プログラム、及びパターン認識プログラムの記録媒体
Dubey et al. Computer-aided abnormality detection in chest radiographs in a clinical setting via domain-adaptation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication