CN1471051A - 处理视觉信息的神经动态模型 - Google Patents

处理视觉信息的神经动态模型 Download PDF

Info

Publication number
CN1471051A
CN1471051A CNA031241395A CN03124139A CN1471051A CN 1471051 A CN1471051 A CN 1471051A CN A031241395 A CNA031241395 A CN A031241395A CN 03124139 A CN03124139 A CN 03124139A CN 1471051 A CN1471051 A CN 1471051A
Authority
CN
China
Prior art keywords
neural
zone
tuple
neural tuple
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031241395A
Other languages
English (en)
Inventor
��G���¿���
G·德科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1471051A publication Critical patent/CN1471051A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

该模型是第三代神经模拟器。它表明多个的区域,其功能能用人脑视觉皮层的脊背和腹部路径区域的功能识别。在进行处理时,在不同区域之间设置反馈。此外,在不同特征和/或空间范围之间设置围÷绕注意力的竞争。该模型很灵活地适合于图象处理。它模拟自然的人的图象处理,并解释很多实验观察到的现象。

Description

处理视觉信息的神经动态模型
技术领域
本发明涉及视觉信息处理,尤其涉及处理视觉信息的神经动态模型。
背景技术
图象处理首先意味着物体识别和预先规定图样的视觉寻找。
对于传统的图象处理模型,比如数字图象处理,将一个摄取的图象在处理的逐渐出现的较高层面中去分析。在按照一个例如巴黎埃菲尔铁塔的图象中的一个特征寻找时,在传统的图象处理中要区分两个问题:
-第一个问题:例如在图象的中央能看到哪个物体?即一个所谓的“什么:what”-问题,问的是在预先规定的地点识别出一个物体(物体识别)。
-第二个问题:埃菲尔铁塔在何处?这是一个所谓的“哪里:where”-问题。它在找图象中已知特征的地点(模板搜寻)。典型的方式是为此用一个预先规定的、适当的窗口去搜寻摄取的图象,窗口要与被找的图样一致。
发明内容
本发明的任务是,在处理摄取的图象时改进物体识别和预先规定图样的视觉寻找。
这个任务用按照独立的权利要求的本发明来解决。本发明有利的扩展在从属权利要求中表明。
fMRI-Experimente(fMRI,functional magnetic resonanceimaging)[Kastner,S.,De Weerd,P.,Desimone,R.,undUngerleider,L.(1998).“Mecbanism of directed attention in thehuman extrastriate cortex as revealed by functional MRI”.Science,282,108-111;Wojciulik,E.,Kanwisher,N.,und Driver,J.(1998)。“Cover visual attention modulates face-specificactivity in the human fusiform gyrus:fMRI study”.Journal ofNeurophysiology,79,1574-1578]und die Beobachtung derAktivitaet einzelner Zellen im Gehirn[Moran,J.und Desimone,R.(1985).“Selective attention gates visual processing in theextrastriate cortex”.Science,229,782-784;Spitzer,H.,Desimone,R.and Moran,J.(1988).“Increased attentionenhances both behavioral and neuronal performance”.Science,240,338-340;Sato,T.(1989).“Interactions of visual stimuliin the receptive fields of inferior tempiral neurons in awakemacaques”.Experimental Brain Research,77,23-30;Motter,B.(1993).“Focal attention produces spatially selectiveprocessing in visual cortical areas V1,V2 and V4 in thepresence of competing stimuli”.Journal of Neurophysiology,70,909-919;Miller,E.,Gochin,P.and Gross,C.(1993).“Supression of visual responses of neurons in inferiortemporal cortex of the awake macaque by addition of a secondstimulus”.Brain Research,616,25-29;Chelazzi,L.Miller,E.Dunean,J.and Desimone,R.(1993).“A neural basis forvisual search in inferior temporal cortex”.Nature(London),363,345-347;Reynolds,J.,Chelazzi,L.and Desimore,R.(1999).“Competitive mechanisms subserve attention inmacaque areas V2 and V4”.Journal of Neuroscience,19,1736-1753]做了明确的说明,注意力影响视觉信息的处理。影响的方式是,体现所期待的特征(形状、颜色等)或所期待的地点的神经的活动被加强,而邻近的神经的活动被削弱,要不然对活跃的神经产生一个阻碍作用。
对于图象处理的传统模型,比如数字图象处理,注意力不起任何作用。更确切地说,以所谓的倒置方法(Bottom-up-Approaches),将所摄取的图象在处理的逐渐出现的较高层面中分析。
与这种图象处理的传统模型相反,表明一个所谓的自上而下的方法(Top-down-Approach)更好地反映视觉皮层的现实情况。在一个自上而下的方法时,将在一个较高的处理层面上的中间结果以反馈的方式为此使用,去合理地重新评估较低的处理层面。重要的是各个层面之间的反馈瞬间。
模型大多数是被结构化的区域,它们的功能能用视觉皮层的脊背和腹部路径区域的功能识别。在后面具体阐述的模型中,通过各个区域的交替作用使反馈得到实现。
反馈导致在各个神经元或神经元组(Pools,见下面)的注意力-竞争中有个平衡的推移。这样,围绕注意力就有一个越来越不平衡的竞争。图象的相关特征或空间范围因此出现在图象处理的过程中;它们在一些时间之后被其它潜在的特征衬托出来。
只有提高针对某个空间范围或特征或物体的注意力并随之忽略其它特征或空间范围,才有可能降低图象的数据量和发觉各个物体中的所要找的目标。
此时,所摄取的图象不是用一个窗口逐个搜索。而总是将整个图象平行处理。
有优点的方式是,将一个第三代神经模拟器(Neurokognition)用于处理。作为第一代神经模拟器,或多或少基于静态的神经元网络,即传统神经元网络的模型。作为第二代神经模拟器,是神经元动态特性的模型,尤其是由它们产生脉冲的模型。最后,在神经元组中的神经元组织和区域中的神经元组组织分层模型,被称为第三代神经模拟器。此时,一个神经元组包括上千个神经元。一方面,这导致降低神经元网络的复杂性。另一方面,因此使神经元网络在它的结构上与脑结构相当。
如果将神经元组的活动用一个平均场模型来说明,该模型比各个神经元活动的准确计算更好地适应快速更改的分析,则能使复杂性有个进一步的降低。
围绕注意力的竞争主要是出现在神经元组的层面上。竞争能经过至少一个抑制神经元组传送,它对神经元组的活动有阻碍作用。
合理的是,将神经元网络构造成能提高对某个要识别物体或对某个要定位物体的注意力。这样一个提高了的注意力或围绕注意力竞争中的平衡的推移(Bias)(围绕注意力的不平衡竞争,“biasedcompetition”),能通过源自视觉皮层之外区域的信号而产生或放大。这些(外部)信号能连接到视觉皮层中,它们在那里刺激某些特征或空间范围。它们影响围绕注意力的竞争的方式是,对于多数在视场中出现的要刺激的影响,赢得得那些围绕注意力竞争的、由外部信号刺激的细胞,它们代表所期待的特征或所期待的空间范围。其它细胞丧失注意力并受到抑制[Duncan,J.and Humph-reys,G.(1989).“Visual search and stimulus similarity”.PsychologicalReview,96,433-458;Desimone,R.and Duncan,J.(1995).“Neural mechanisms of selective visual attention”.AnnualReview of Neuroscience,18,193-222;Duncan,J.(1996).“Cooperating brain systems in selective perception anaction”.In Attention and Performance XVI,T.Inue and J.L.McClelland(Eds.),pp.549-578.Cambridge:MIT Press]。这样一个外部的推移(Bias)能因此确定,是进行一个物体识别(“what”-问题)还是进行一个模板搜寻(“where”-问题)。两个过程能用同样的方法或模型进行。
本发明的任务还通过一个计算机程序完成,所述计算机程序在计算机上运行时实施根据本发明的方法,以及通过一个带程序代码手段的计算机程序来完成任务,以便执行所有本发明方法的步骤。
此外,所述任务通过处理视觉信息的一种能实施本发明方法的神经动态模型来完成。为此,模型包括:大多数区域其功能能用人脑视觉皮层的脊背和腹部路径区域的功能识别。在不同的区域之间,在处理时设有反馈。此外,模型中在各种特征和/或各种空间范围之间设有围绕注意力的竞争。
本发明的任务也通过一个设备来完成,它包括在视觉信息各种特征和/或各种空间范围之间,有进行围绕注意力竞争的装置。此外,大多数区域,其功能是能用人脑视觉皮层的脊背和腹部路径区域的功能识别的;以及在处理时各种区域之间进行反馈的装置。
除此之外,如果程序运行在一台计算机,本发明的任务通过一个带程序代码手段的计算机程序来完成,以便执行所有根据本发明的方法步骤。
附图说明
在下面用图示的实施例进一步阐述本发明。各个图中的相同的参照数字表示的是相同的单元。计有:
图1  简化的脑视觉皮层的主要区域;
图2  脑区域及其突触(synaptischen)连接的一个抽象再现;和
图3  一个区域与一个所属的抑制神经元组之间的交替作用的示意。
具体实施方式
模型化的目的在于:采用脑区域的一个详细的神经元网络模型,反映在激发过程中脑内的真实情况,尤其是有关视觉注意力控制的情况,以便允许为图象处理模仿该过程。
为了这个自上而下方法的模型化,应用一个所谓的第三代神经模拟器。如以下视觉皮层的例子中所说明的那样,神经元组中的神经元组织的分层模型和相当于脑区域中的神经元组,称作为第三代神经模拟器。这里,一个神经元组包含有上千个神经。
图1示出的是简化了的脑10视觉皮层的主要区域。画出的是大脑16和小脑18。在大脑16中,视觉皮层里除了其它的还展示有后面要详述的区域V1,V4,PP和IT。在这些区域之间有多股的突触连接20。
参照图2来详细说明数学模型的结构,它是脑中情况的一个抽象再现。
区域IT(inferotemporal)用于一个图象内的图象识别或物体识别(“what”-问题)。图象图样存储于其中,这些图样可以对应可见世界的物体代表。以砖或蜂房两个图样为例。如果属于图样的一个所谓的“祖母-神经元”最活跃,则识别出一个图样。“祖母-神经元”识别出某个图样的能力,是通过训练获得的。下文将对训练进行阐述。在现有的模型中,不用“祖母-神经元”去进行图样识别,而是用模型的最小单元:神经元组。如果相应的“祖母-神经元组”最活跃,则一个图样被一个“祖母-神经元组”识别出。与此相应,就像有要识别的图样或物体那样,区域IT在现有的模型中同样获得很多神经元组。
区域PP(posterior parietal)用于已知图样的地点定位(“where”-问题)。如同在要识别的图象中存在像素的情况一样,区域PP在现有的模型中因此也包括很多神经元组24。在PP中小量相邻神经元组神经元活动的集中,对应物体定位。
在一个或一些神经元组中神经元活动的集中,一般对应通过这些神经元组所代表特征的被提高的注意力,或对应这些特征的识别。
区域V1和V4在现有的模型中被归纳为V1-V4,也用V4表示。这个区域一般负责提取特征。包括约1百万神经元组24,每个特征对应一个神经元组。神经元组24感应图象的各个特征。从图象的一个弱波-变换可得出图象的特征(见下面)。这样,一个特征通过一个一定的尺寸或空间频率、一个空间取向和在x-和y-方向的一个一定位置定义(见下面)。所有摄取的图象数据首先送到区域V1-V4。
此外,给每个区域至少有一个抑制神经元组(inhibitory Pool)22,即一个对其它神经元组的活动起阻碍作用的神经元组。抑制神经元组通过双向连接26与可激励的神经元组24连接。通过抑制神经元组22,在神经元组之间出现竞争的相互作用或围绕注意力的竞争。在V1-V4中的竞争是用神经元组24进行的,这些神经元组既将地点信息也将物体信息编码。PP概括出地点信息,并在一个空间层面上传输一个竞争,即模板搜寻。IT概括出物体等级的信息,并在物体等级的层面上传输一个竞争,即物体识别。
在区域之间有突触连接20,通过这些连接能将神经元组24激活。区域IT与区域V1-V4连接;区域PP与区域V1-V4连接。在模型中模拟的区域之间的突触连接20,反映视觉处理的“what”-和“where”-路径。“what”-路径为物体识别将区域V1-V4与区域IT连接。“where”-路径为地点定位将区域V1-V4与区域PP连接。区域IT和PP互相不连接。
突触连接20永远是双向的,就是说从V1-V4来的数据在PP或IT继续进行处理。但同时也将从PP或IT来的结果反馈到V1-V4,以便控制围绕注意力的竞争。
应用平均场近似对神经元的神经元组的活动进行模型化。脑子的很多范围,就像例如在初级视觉皮层中和在躯体感觉的(somatosensorischen)皮层中的取向缝隙那样,以缝隙或场编排相似特性来组织神经元的小组。这些称作为神经元组的神经元小组,是由一个大的和均匀的神经元群体组成,它们接收一个相似的外部的输入,相互耦合和大概共同作为一个单元起作用。这些神经元组能比一个单个的神经元组成一个较坚固的处理-和编码单元,因为它们瞬时的群体平均值应答,与在一个预先规定的时间窗口中一个相对随机神经时间平均值相反,较好地适应现实世界中快速更换的分析。
神经元的神经元组的活动借助于平均场近似来说明。此时,一个神经元组的脉冲-活动,通过神经元组所有神经元脉冲率的一个整体-平均值x来表达。神经元组的这个平均的活动x,通过用一个入口-脉冲电流I激励神经元组的神经元产生,一般表达为:
x(t)=F(I(t)).                                 (1)其中F是一个实数函数。对于在入口电流I上有决定性影响的“使成整体和触发”(integrate-and-fire)型脉冲的神经元,以绝热近似适用[Usher,M.and Niebur,E.:“Modelling the temporal dynamicsof IT neurons in visual search:A mechanism of top-downselective attention”,Journal of Cognitive Neuroscience,1996,311-327]: F ( I ( t ) ) = 1 T refractory - τ log ( 1 - 1 τI ( t ) ) , . . . . . . . ( 2 ) 其中Trefractory说明发出一次脉冲后一个神经元的停滞时间(约1ms),τ是神经元薄膜的等待时间,即一个外部输入与薄膜完全极化之间的时间[Usher,M.and Niebur,E.:“Modelling the temporaldynamics of IT neurons in visual search:A mechanism oftop-down selective attention”,Journal of CognitiveNeuroscience,1996,311-327页]。τ的一个典型数值为7ms。
一个孤立的神经元组的活动,除了通过平均活动x,还能通过在神经元之间流过的入口电流的强度I来描述其特性。它在时间上按照下面的公式展开: τ ∂ ∂ t I ( t ) = - I ( t ) + q ~ F ( I ( t ) ) . . . . . ( 3 ) 其中右边的第一项说明活动的衰减,右边第二项说明神经元组内部神经元之间的自激,即神经元组内部合作激发的相互作用。
Figure A0312413900103
将自激强度参数化。 的典型数值在0.8与0.95之间。
直接摄取的图象在一个灰度值图中编码,该灰度值图通过一个nxn-矩阵Γij orig来说明。同样有可能是一个非正方形的矩阵。但通常用一个64×64-矩阵工作,即n=64。此时,指数i和j是像素的空间位置。每个像素之内的灰度值Γij orig主要用8位编码。此时,位值0相当于黑色,位值255是白色。一般来说,也能处理较高动态的彩色图象。
在第一个处理步骤中,减去图象的恒定部分。这在脑中估计是在丘脑的所谓LGN(lateral geniculate nucleus)中进行。通过减去平均值得到nxn-图象矩阵Γij Γ ij = Γ ij orig - 1 n 2 Σ i = 1 n Σ j = 1 n Γ ij orig . . . . . . ( 4 )
在区域V1-V4中通过神经元组从图象提取特征,按照模型以这种方式样进行,即神经元组实施图象的一个伽柏-弱波-变换(Gabor-Wavelet-Transformation),准确一点说,神经元组的活动对应一个伽柏-弱波-变换的系数。
为伽柏-弱波-变换所应用的函数Gkpql是位置x和y的函数,或离散指数i和j的函数,通过下式定义 G kpql ( x , y ) = a - k Ψ θ 1 ( a - k x - pb , a - k y - qb ) , . . . . . ( 5 )
其中b大多选择1。此外 Ψ θ 1 ( u , v ) = ψ ( u cos ( lθ 0 ) + v sin ( lθ 0 ) , - u sin ( lθ 0 ) + v cos ( lθ 0 ) ) . . . ( 6 )
基本-弱波ψ(x,y)由一个椭圆高斯-函数与一个复合平面波的乘积来定义: ψ ( r , s ) = 1 2 π e - 1 8 ( 4 r 2 + s 2 ) · [ e ikr - e - k 2 2 ] . . . . . ( 7 )
优先选择k=π。
伽柏-弱波-函数因此有四个自由度:k,l,p和q。
k相当于特征的大小,通过倍频程k来表达,即空间频率,通过a^k-倍的基频计算,它通过参数a标定;一般给a选择数值2。主要要看三个倍频程k=1,2和3。
1相当于角度取向,通过θ1=1*θ01表达。是角度-步距θ0=π/L的数倍,即取向分辨率。为L主要选择的数值是2至10,多数选8。
p和q决定在x-和y-方向函数中心点m的空间位置,用下面公式表达:
m=(mx,my)=(pbak,qbak).                        (8)
因此,在区域V1-V4中,该区域在倍频程k、以指数l空间取向时对空间频率和一个剌激有反应,其中心由p和q来确定,将一个神经元组的活动Ikpql V4通过Ikpql V4,E用下面公式激发: I kpql V 4 , E : = | | < G kpql , &Gamma; > | | 2 : = | | &Sigma; i = 1 n &Sigma; j = 1 n G kpql ( i , j ) &Gamma; ij | | 2 . . . . . ( 9 ) 按照模型这正好相当于伽柏-弱波-变换的系数。Ikpql V4,E最好归一化在一个最大饱和数值0.025上。神经元组的各自情况在一个事先的训练路线中规定(见下面)。
现在来观察确定图象处理系统或模型时间展开的神经动态方程式。
在区域V1-V4中一个神经元组的活动Ikpql V4,E,带有由上述参数k,p,q和l说明的特性,通过抑制和激发的入口电流在继续进行公式(3)中当时按照下面的公式展开 &tau; &PartialD; &PartialD; t I kpql V 4 = - I kpql V 4 + q ~ F ( I kpql V 4 ) - b ~ F ( I k V 4 , I ) + I kpql V 4 , E + I pq V 4 - PP + I kpql V 4 - IT + I 0 + v . ( 10 ) 右边的前两项早已在前面说过。它们表示活动的自然衰减和神经元组内的自激。
公式(10)的右边第三项bF(Ik V4,I),阐述抑制神经元组22上面已经介绍过的抑制作用,下面还要进一步说明。公式(10)右边的参数
Figure A0312413900131
标定抑制的强度。 的典型数值为0.8。
公式(10)右边的第四项Ikpql V4,E,阐述通过按照公式(9)伽柏-弱波-变换所摄取图象的激发。
公式(10)右边的第五项Ipq V4-PP,阐述对一个带有符合p和q空间位置特征的注意力控制,即强调“whoere”-问题,后面要进一步说明。
公式(10)右边的第六项Ikpql V4-IT,阐述对IT某些图样在V1-V4中的注意力控制,即强调“what”-问题,后面要进一步说明。
公式(10)右边的第七项Io,阐述一个弥散自发的背景输入。Io的典型数值为0.025。ν是活动的一个随机噪声。出自简单化原因,假定对于所有神经元组都是相同强度。ν的典型平均值为零,在高斯分布时标准偏差在0.01和0.02之间。
公式(10)的右边第三项bF(Ik V4,I),如上所述,阐明抑制神经元组22对区域V1-V4的抑制作用。在下面涉及的是图3。一个区域内的神经元组24处于相互竞争中,这通过一个抑制神经元组22传送,该神经元组22从所有可激发的神经元组24接收要激发的输入27,并将一个相同的要阻碍的反馈28传到所有的可激发的神经元组24。这个要阻碍的反馈28,在不太活跃的神经元组上的作用要比在较活跃的神经元组上为强。这样,较强活跃的神经元组比较弱活跃的神经元组能得以实现。
此外,在图3中示出一个外部的入口电流30(Bias),它能激发一个或多个神经元组。推移30的准确功能在下面与公式(15)一起阐述。
下面的公式满足抑制神经元组内的活动Ik V4,I &tau; &PartialD; &PartialD; t I k V 4 , I ( t ) = - I k V 4 , I ( t ) + c ~ &Sigma; pql F ( I kpql V 4 ( t ) ) - dF ( I k V 4 , I ( t ) ) . . . . . ( 11 )
公式(11)右边的第一项又说明抑制神经元组22的衰减。第二项说明由V1-V4到属于V1-V4的带有指数k的抑制神经元组22的入口电流,通过参数c标定。
Figure A0312413900134
的一个典型的数值为0.1。
第三项表示属于V1-V4的带有指数k的抑制神经元组22的一个自抑制。d的一个典型的数值为0.1。
V1-V4内的抑制作用,按经验单独在一个预先规定大小的空间结构内起作用,用倍频程k表达。在量值k的结构内,在位置p和q和取向l之间出现竞争,通过总和 传送。每个指数三个一组(p,q,l)阻碍所有其它的指数三个一组(p,q,l)。不同量值k的空间结构,即不同的空间频率k,互不影响,因为在公式(10)中的抑制作用-bF(Ik V4,I)只作用返回到k本身。
抑制神经元组22的作用在数量上如下理解:在区域V1-V4中的神经元组越活跃,则抑制神经元组22就越活跃。因此,在区域V1-V4中神经元组得知的抑制反馈也越强。只有区域V1-V4中最活跃的神经元组将通过竞争。
公式(10)右边的第五项Ipq V4-PP,如上所述,阐明对一个带有符合p和q空间位置特征的注意力控制,即强调“where”-问题。注意力控制,是通过具有指数i和j的神经元组活动性的一个反馈,由区域PP到所有具有指数p和q的神经元组上靠近数值p和q时,到区域V1-V4中去完成。该反馈通过下面公式模型化 I pq V 4 - PP = &Sigma; i = 1 n &Sigma; j = 1 n W pqij F ( I ij PP ) . . . ( 12 ) 其中系数Wpqij由一个高斯-函数计算: W pqij = Ae - dist 2 ( ( p , q ) , ( i , j ) ) 2 S 2 - B . . . . . . ( 13 ) A为耦合常数(典型数值为1.5),S为确定一个特征空间影响作用范围的空间标定系数,dist(p,q,i,j)为具有指数i,j的位置与通过指数p,q规定的伽柏-弱波-函数的中心点之间计算距离的距离函数。在此最好用欧几里得格律(Metrik):
dist2((p,q),(i,j))=(p-i)2+(q-j)2,                (14)
此外,有一个对周围环境的负连接B,它导致过分强调邻近的特征和贬低远离的特征。B的一个典型数值为0.1。
在效果上具有相当于p和q空间位置的神经元组,并不直接激发V1-V4中的相应神经元组,而只在用一个高斯内核执行一个卷积之后。换句话说:V1-V4和PP用对称的定位的连接被连接在一起,这些连接通过高斯加权模型化。
在区域PP中神经元组活动Iij PP的时间展开通过下面公式给出 &tau; &PartialD; &PartialD; t I ij PP = - I ij PP + q ~ F ( I ij PP ) - b ~ F ( I PP , I ) + I ij PP - V 4 + I ij PP , A + I 0 + v . ( 15 )
该公式在第一、二、六和七项对应公式(10),然而是对于区域PP。
右边的第三项又阐明整个抑制神经元组I对区域PP的抑制作用。其活动IPP,I满足下面的公式 &tau; &PartialD; &PartialD; t I PP , I = - I PP , I + c ~ &Sigma; i , j F ( I ij PP ) - dF ( I PP , I ) . . . . ( 16 )
该公式在其结构上不对应已经阐明的公式(11)。对于区域PP只有一个统一的抑制作用。
公式(15)的右边第四项,又阐明从V1-V4向PP的注意力控制反馈,并通过下面公式给出 I ij PP - V 4 = &Sigma; k , p , q , l W pqij F ( I kpql V 4 ) , . . . . ( 17 ) 其中Wpqij在上面与公式(13)有关联作了规定。V1-V4与PP之间的突触连接20对称形成。V1-V4从而控制在PP中涉及一些位置的注意力(“where”-问题)。
公式(15)右边的第五项Iij PP,A,是一个外部的、注意力针对一个一定位置(i,j)的自上而下的推移(Top-Down-Bias),它导致“推移竞争:biased competition”。这在图3中用箭头30代表。在预先调整推移时,期待在预先调整的位置上有个物体。就在预先调整的位置上出现一个物体的识别(“what”)。因此,在一个一定位置上的推移就导致对“what”-问题的回答。这个外部推移的一个典型数值,对于所期待的位置为0.07,对于所有其它位置为0。
公式(10)右边的第六项Ikpql V4-IT,如上所述,阐明对IT某些图样在V1-V4中的注意力控制,即强调“what”-问题。注意力控制通过神经元组的一个活动Ic IT的一个反馈进行,这些神经元组代表图样c,从区域IT到区域V1-V4中所属的神经元组上进行。该反馈用下面公式模型化 I kpql V 4 - IT = &Sigma; c w ckpql F ( I c IT ) . . . . . ( 18 )
确定从IT到V1-V4中入口电流的加权Wckpql和因此确定在区域V1-V4中属于图样c的神经元组,在下面进一步阐述。
Ic IT是在区域IT中代表图样c的一个神经元组的活动。Ic IT的时间上的发展按照下面的微分方程进行: &tau; &PartialD; &PartialD; t I c IT = - I c IT + q ~ F ( I c IT ) - b ~ F ( I IT , I ) + I c IT - V 4 + I c IT , A + I 0 + v . . . ( 19 )
公式在第一、二、六和七项对应公式(10)和(15),然而是针对区域IT。
公式(19)右边的第三项-bF(IIT,I),又阐明抑制神经元组22对区域IT的图样c的抑制作用。抑制神经元组对区域IT的活动IIT,I满足下面的公式 &tau; &PartialD; &PartialD; t I IT , I = - I IT , I + c ~ &Sigma; c F ( I IT ) - dF ( I IT , I ) . . . ( 20 )
该公式在其结构上对应已经阐述过的公式(11)和(16)。对于区域IT只有一个统一的抑制作用,它对各个图样之间围绕注意力的竞争起作用。
公式(19)右边的第四项Ic IT-V4,又阐明从V1-V4向IT的注意力控制反馈,并通过下面公式给出 I c IT - V 4 = &Sigma; k , p , q , l w ckpql F ( I kpql V 4 ) , . . . . . ( 21 ) 其中Wckpql已经在公式(18)中出现过,后面还要进一步阐述。V1-V4与IT之间的突触连接是对称形成的。这样,V1-V4控制在IT中有关一些图样的注意力(“what”-问题)。
公式(19)右边的第五项Ic IT,A,又是一个外部的、注意力针对一个一定位置(i,j)的自上而下的推移。在预先调整推移时,期待一个确定的图样c或物体c。然后去寻找所期待物体所在的位置(“where”)。在一个确定物体或图样上的推移,导致对“where”-问题的回答。这个外部推移的一个典型数值,对于所期待的图样为0.07,对于所有其它图样为0。
所给出的微分方程的系统是高度的平行。由大约120万个连接在一起的微分方程组成。将这些微分方程以迭代数值方式求解,主要是借助于用欧拉-或龙格-库塔-方法的离散化。主要选用1ms作为时间步距,即按照公式(2)约为Trefractory
V1-V4与IT之间突触连接的加权Wckpql,通过用已知物体的Hebbschen培训(Hebbian Training)[Deco,G.und Obradovic,D.:
“An Information-theoretic Approach to Neurocomputing”,Springer Verlag(1996)]形成。为此,在偶然选择的位置(i,j)将图样c相继传送神经元网络。通过偶尔选择的、在其上交出图样的位置,使物体识别的一个平移不变量得以确保。当图样c交到位置(i,j)上时,属于c和(i,j)的外部推移Ic IT,A和Iij PP,A被激发。
此时,能将在上述IT中存储的图样c的伽柏-弱波-变换的数值,作为加权Wckpql应用。
在推荐一个图样c给一个位置(i,j)和输入外部推移之后,要等待方程系统的动态展开直至收敛。接着将Wckpql用Hebbsche规则 w ckpql &RightArrow; w ckpql + &eta;F ( I c IT ) F ( I kpql V 4 ) , . . . . ( 22 ) 积分,其中变量的数值按收敛应用。η是所谓的学习系数。η的典型数值在0.01和1之间,优先为0.1。
一直将迭代为物体或图样c和空间布置(i,j)重复,直至加权Wckpql收敛为止。
这个过程将为所有物体或图样和所有可能的空间布置重复进行。这往往得出上百万的推荐或迭代。
借助于所叙述的神经元网络,能从数量上去理解实验数据[Kaster,S.:De Weerd,P.:Desimore,R.and Ungerleider,L.:“Mechanismof directed attention in the human exstrastriate cortex asrevealed by functional MRI”;De Weerd,P.;Desimore,R.andUngerleider,L.:“Increased activity in human visual cortexduring directed attention in the absence of visualstimulation”;Neuron 22(1999)751-761.]。在V1-V4中,刻度上在一秒钟以下明显改变的神经元组活动的动态,表明在模型中与在实验中一样。同样也适用于所期待的注意力的控制和同时或相邻刺激的抑制作用。
此外,模型用在视觉皮层中各个细胞活动的测量证明是一致的[Moran,J.und Desimore,R.(1985).“Selective attention gatesvisual processing in the extrastriate cortex”.Science,229,782-784;Spitzer,H.,desimore,R.and Moran,J.(1988).“Increased attention enhances both behavioral and neuronalperformance”,Science,240,338-340;Sato,T.(1989).“Interactions of visual stimuli in the re-ceptive fields ofinferior temporal neurons in awake ma-caques”.ExperimentalBrain Research,77,23-30;Motter,B.(1993).“Focal attentionproduces spatially selec-tive processing in visual corticalareas V1,V2 and V4 in the presence of competing stimuli”.Journal of Neurophysiology,70,909-919;Miller,E.,Gochin,P.and Gross,C.(1993).“Supression of visual responses ofneurons in inferior temporal cortex of the awake macaque byaddition of a second stimulus”.Brain Research,616,25-29;Chelazzi,L.,Miller,E.Duncan,J.and Desimore,R.(1993).“A neural basis for visual search in inferior temporalcortex”.Nature(London),363,345-347;Reynolds,J.,Chelazzi,L.and Desimore,R.(1999).“Competi-tive mechanismsubserve attention in macaque areas V2 and V4”.Journal ofNeuroscience,19,1736-1753]。
对于新的自上而下方法,整个图象被并行处理。被寻找的特征在处理的过程中呈现,就是说它们在一个片刻之后显露出来,这样那些在各个神经元组之间或特征之间获得竞争的“祖母-神经元组”将活跃。“what”-和“where”-问题用同一个模型来回答。只是所谓的输入-推移被改变,即将注意力向“what”或“where”方向推移。借助于推移产生一个等待姿态。
用所介绍的模型,有可能以一种模拟人在观看过程时处理图象的方式去评估图象。
参考文献Chelazzi,L.,Miller,E.Duncan,J.and Desimone,R.(1993).″A neural basis for visual search in inferior temporal cor-tex″. Nature (London),363,345-347Deco,G. und Obradovic, D.:″An Information-theoretic Ap-proach to Neurocomputing″. Springer Verlag(1996)Desimone,R. and Duncan,J. (1995).″Neural mechanisms of se-lective visual attention″. Annual Review of Neuroscience,18,193-222Duncan,J. (1996). ″Cooperating brain systems in selectiveperception an action″. In Attention and Performance XVI,T.Inui and J. L. McClelland (Eds.),pp.549-578. Cambridge:MITPressDuncan,J. and Humphreys,G. (1989). ″Visual search andstimulus similarity″. Psychological Review,96,433-458Kaster,S.,De Weerd,P.,Desimone,R. and Ungerleider,L.:″Mechanisms of directed attention in the human extrastriatecortex as revealed by functional MRI″;Science 282 (1998)108-111Kaster,S.,Pinsk,M.,De Weerd,P.,Desimone,R. and Unger-leider,L.:″Increased activity in human visual cortex duringdirected attention in the absence of visual stimulation″;Neuron 22(1999)751-761Miller,E.,Gochin,P. and Gross,C.(1993).″Supression ofvisual responses of neurons in inferior temporal cortex ofthe awake macaque by addition of a second stimulus″. BrainResearch,616,25-29Moran,J. und Desimone,R.(1985). ″Selective attention gatesvisual processing in the extrastriate cortex″. Science,229,782-784Motter,B. (1993).″Focal attention produces spatially selec-tive processing in visual cortical areas V1,V2 and V4 in thepresence of competing stimuli″.Journal of Neurophysiology,70,909-919Reynolds,J.,Chelazzi,L. and Desimone,R.(1999).″Competi-tive mechanisms subserve attention in macaque areas V2 andV4″.Journal of Neuroscience,19,1736-1753Sato,T.(1989).″Interactions of visual stimuli in the re-ceptive fields of inferior temporal neurons in awake ma-caques″.Experimental Brain Research,77,23-30Spitzer,H.,Desimone,R. and Moran,J.(1988). ″Increasedattention enhances both behavioral and neuronal performance″.Science,240,338-340Usher,M. und Niebur,E.:″Modelling the temporal dynamics ofIT neurons in visual search:A mechanism of top-down selec-tive attention″,Journal of Cognitive Neuroscience,1996,Seiten 311-327Wojciulik,E.,Kanwisher,N.,und Driver,J.(1998). ″Covertvisual attention modulates face-specific activity in the hu-man fusiform gyrus:fMRI study″. Journal of Neurophysiology,79,1574-1578

Claims (11)

1.处理视觉信息的方法,其中
a)在视觉信息的各种特征和/或各种空间范围之间进行一个围绕注意力的竞争;
b)利用多个其功能能用人脑视觉皮层的脊背和腹部路径区域的功能进行识别的区域;和
c)在处理时进行不同区域之间的反馈。
2.如上述权利要求的方法,
其特征在于:
每个区域被模型化为神经元网络,其中各将多个神经元网络的神经元归纳为一个神经元组;和
模拟神经元组的活动性。
3.如上述权利要求的方法,
其特征在于:
用平均场模型描述神经元组的活动性。
4.如上述两个权利要求之一的方法,
其特征在于:
神经元组相互处于围绕注意力的竞争中;和
该竞争经过至少一个抑制神经元组传送,该抑制神经元组对神经元组的活动起阻碍作用。
5.如上述三项权利要求之一的方法,
其特征在于:
将神经元网络设计成:能够提高对一个确定要识别的物体或一个确定要定位的物体的注意力。
6.如上述权利要求之一的方法,
其特征在于:
一个区域(IT)的神经元组专门从事各特殊物体的识别,这样神经元网络的区域(IT)具有在视场中识别物体的功能,。
7.如上述权利要求之一的方法,
其特征在于:
一个区域(PP)的神经元组专门从事视场中特殊位置上物体的定位,这样神经元网络的区域(PP)具有在视场中识别可识别物体位置的功能。
8.处理视觉信息的神经动态模型,其中
a)该模型具有多个区域,所述区域的功能能用人脑视觉皮层的脊背和腹部路径区域的功能进行识别;
b)在处理时,在不同区域之间设置反馈;和
c)在不同特征和/或不同空间范围之间设置围绕注意力的竞争。
9.处理视觉信息的设备,具有
a)实施不同特征和/或视觉信息不同空间范围之间围绕注意力的竞争的装置;
b)其功能能用人脑视觉皮层的脊背和腹部路径区域的功能进行识别的多个区域;和
c)在处理时,在不同区域之间实施反馈的装置。
10.具有程序代码手段的计算机程序,以执行如权利要求1至7之一的所有步骤,如果该程序运行在一台计算机上。
11.存储有数据结构的数据载体,在被加载到计算机主存后实施如权利要求1至7之一的方法。
CNA031241395A 2002-04-30 2003-04-29 处理视觉信息的神经动态模型 Pending CN1471051A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10219403.3 2002-04-30
DE10219403 2002-04-30

Publications (1)

Publication Number Publication Date
CN1471051A true CN1471051A (zh) 2004-01-28

Family

ID=28798944

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031241395A Pending CN1471051A (zh) 2002-04-30 2003-04-29 处理视觉信息的神经动态模型

Country Status (3)

Country Link
US (1) US20030228054A1 (zh)
EP (1) EP1359539A3 (zh)
CN (1) CN1471051A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100367310C (zh) * 2004-04-08 2008-02-06 复旦大学 视网膜神经节细胞感受野尺度可变层次网络模型及其算法
CN105843224A (zh) * 2016-03-25 2016-08-10 哈尔滨工程大学 基于神经动态模型反步法的auv水平面路径跟踪控制方法
CN105929825A (zh) * 2016-05-16 2016-09-07 哈尔滨工程大学 一种基于神经动态模型的船舶动力定位反步控制方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120291B1 (en) * 1999-11-08 2006-10-10 Takafumi Terasawa Method and apparatus for analyzing input information
CA2642041C (en) * 2005-12-23 2014-07-15 Le Tan Thanh Tai Spatio-temporal pattern recognition using a spiking neural network and processing thereof on a portable and/or distributed computer
US11289175B1 (en) * 2012-11-30 2022-03-29 Hrl Laboratories, Llc Method of modeling functions of orientation and adaptation on visual cortex
CN111476250A (zh) * 2020-03-24 2020-07-31 重庆第二师范学院 图像特征提取与目标识别方法、系统、存储介质、终端

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100367310C (zh) * 2004-04-08 2008-02-06 复旦大学 视网膜神经节细胞感受野尺度可变层次网络模型及其算法
CN105843224A (zh) * 2016-03-25 2016-08-10 哈尔滨工程大学 基于神经动态模型反步法的auv水平面路径跟踪控制方法
CN105929825A (zh) * 2016-05-16 2016-09-07 哈尔滨工程大学 一种基于神经动态模型的船舶动力定位反步控制方法
CN105929825B (zh) * 2016-05-16 2019-02-15 哈尔滨工程大学 一种基于神经动态模型的船舶动力定位反步控制方法

Also Published As

Publication number Publication date
EP1359539A3 (de) 2004-11-03
EP1359539A2 (de) 2003-11-05
US20030228054A1 (en) 2003-12-11

Similar Documents

Publication Publication Date Title
CN105139028B (zh) 基于分层稀疏滤波卷积神经网络的sar图像分类方法
US10402699B1 (en) Automated classification of images using deep learning—back end
Arathorn Map-seeking circuits in visual cognition: A computational mechanism for biological and machine vision
CN100447808C (zh) 人脸表情图像的分类及语义评判量化方法
CN106934419A (zh) 基于复数轮廓波卷积神经网络的极化sar图像分类方法
CN107145830A (zh) 基于空间信息增强和深度信念网络的高光谱图像分类方法
CN105138993A (zh) 建立人脸识别模型的方法及装置
CN109489576A (zh) 一种基于初级视觉通路计算模型的轮廓检测方法
CN107292336A (zh) 一种基于dcgan的极化sar图像分类方法
CN104408472B (zh) 基于Wishart和SVM的极化SAR图像分类方法
Intrator Making a low-dimensional representation suitable for diverse tasks
CN106372656A (zh) 获取深度一次性学习模型的方法、图像识别方法及装置
Rao et al. Plant Disease Detection using Convolutional Neural Networks
CN1471051A (zh) 处理视觉信息的神经动态模型
Obermayer et al. Self-organizing map formation: foundations of neural computation
DE102020122979A1 (de) Verfahren zum Bereitstellen eines komprimierten, robusten neuronalen Netzes und Assistenzeinrichtung
DE102018100315A1 (de) Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
Safitra et al. Advancements in Artificial Intelligence and Data Science: Models, Applications, and Challenges
CN104732238B (zh) 基于方位选择性的灰度图像纹理特征提取的方法
EP4322059A1 (en) Method and system for mimicking saccadic human eye movements in an artificial neural network
CN108470183A (zh) 基于聚类细化残差模型的极化sar分类方法
Teichmann et al. Performance of biologically grounded models of the early visual system on standard object recognition tasks
Girma et al. DA 2-Net: Diverse & Adaptive Attention Convolutional Neural Network
Rahman Classification of road side material using convolutional neural network and a proposed implementation of the network through Zedboard Zynq 7000 FPGA

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication