CN1758283A

CN1758283A - 模拟多尺度交叠感受野的神经网络及其建立方法和应用

Info

Publication number: CN1758283A
Application number: CN 200510110001
Authority: CN
Inventors: 高颖; 张立明
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2005-11-03
Filing date: 2005-11-03
Publication date: 2006-04-12

Abstract

本发明属于计算机视觉技术领域，具体为一种具有实时特征学习的、模拟生物视觉多尺度交叠感受野的神经网络及其建立方法和应用，该网络可应用于机器视觉学习和认知。通过无监督的学习获得对外界图像的视觉特征，对不同位置和尺度的感兴趣目标，都可找到它在场景中的位置。结合有监督学习的识别分类算法，把它应用在机器视觉上，可以实现对感兴趣的目标进行实时跟踪；应用在行走机器人上，可在不同环境下自主学习和目标追踪。

Description

模拟多尺度交叠感受野的神经网络及其建立方法和应用

技术领域

本发明属于计算机视觉技术领域，具体涉及一种具有实时特征学习的、模拟生物视觉多尺度交叠感受野的神经网络及其构建方法，该神经网络可以用于提取视频图像特征。结合有监督学习的识别分类算法，把它应用在机器视觉上，可以实现对感兴趣的目标进行实时跟踪。

技术背景

早在1962年Hebel和Wiesel就发现生物视觉通道是由一系列负责不同位置的感受野的细胞单元组成。如把图像输入到一个多层的二维阵列神经元，它们各自关注的是以自己为中心的一个邻近区域，称为感受野；每个神经元的输入只与自己的感受野相联，相邻的神经元的感受野可产生交叠；每一层神经元都以自己为中心的一个邻近区域和高一层的神经元相联，形成低层的细胞感受野比较小，高层的感受野逐渐增大的结构[1]。

70年代Fukushima提出了多层的模仿人的视觉的神经网络[2][3]，它共分为6层，第1层的神经元直接和外界输入相连，它们的感受野尺寸比较小，只能获得图像的局部的特征，第2层神经元是和第1层的部分神经元相连，对输入图像而言，它关注的是更大尺寸的感受野，获得更大一些的局部特征，最后一层神经元可覆盖整个视野，从而最高层中每个神经元可代表视场中特定目标。该网络是用Hebb规则对神经元之间的联接权进行无监督学习，最后实现对目标的识别。Fukushima把这个神经网络用于对字母(A，B，C，D…)、数字和文字的识别，可做到平移不变，但因网络结构和学习算法比较复杂，学习时间长，同时，对略有变化的字体(如手写的字体)及尺度的变化的情况鲁棒性不好，80年代后期已很少有人应用。

2002年Zhang N等人利用了Fukushima的多层交迭感受野的思想，提出一种叫SHM(Staggered Hierarchical Mapping)的多层网络[4]，该网络权的学习是采用主元分析的(PCA)无监督学习方法，通过对输入视频图像的学习得到第一层到第二层的权，然后把输入图像在第一层的投影输出，再做主元分析得到第二层到第三层的权……该方法可从最顶层神经元的输出经多层的PCA的基恢复原图像，他们用两阶统计的方法学习神经网络的连接的权，改进了Fukushima网络在局部变化的鲁棒性，但因不同大小、不同位置的感受野输入的视频和图像完全不同，学习得到对应的特征向量也不同，这造成了即使相同的目标，在视野中经过尺度及平移变化后，在对应感受野上的神经元的输出却完全不同，用这些特征对目标进行识别，其效果不好，也无法进行视觉目标的注意力选择。

本发明在上述方法的基础上提出一种模拟生物视觉多尺度交叠感受野的神经网络(neural network simulating multi-size overlapping receipt-field，NNSMOR)，该网络在权的学习阶段采用多分辨率的视频场景，在不同分辨率的图像上交迭划出相同大小的图像子块作为神经网络的输入，能很容易完成多尺度感受野的功能。由于神经网络接受的子块图像的尺寸相同，在不同位置、不同大小感受野上所得到的PCA的基相同，解决了SHM存在的问题，又利用了PCA的统计学习权的鲁棒性，用这样的网络提取的特征，可以非常方便的对场景中的目标进行识别，不论图像中目标的大小、位置变化，都能进行跟踪和注意力选择。在学习中，我们采用了实时的PCA学习方法(CCIPCA)，不需求协方差矩阵，具有很快的学习速度。提出的方法与有监督学习的分类方法结合，已应用到实时的计算机视觉的目标注意力选择和机器人导航中。

下面介绍与本发明相关的一些概念：

1、CCIPCA算法[5]

对上节神经网络权的学习，使用一种自主地提取视觉信息的增量PCA方法，叫CCIPCA。一般的PCA方法需要对输入样本进行协方差矩阵的运算，则必须用批处理完成，它无法适应时刻变化的输入视频数据。而CCIPCA的增量PCA分析方法，能够对依次输入的样本增量计算其主元，而且学习速度可达到实时，通过迭代逐步收敛到待求的特征向量，和已有的增量PCA算法相比，具有更快的运算速度和更好的收敛效果，这里对该算法作简要的介绍：

设输入图像子块为列向量X^l，记为u′(j)，j＝1，2，…这里j为序号，当第p个矢量输入时，它的瞬时均值为

m (p) = \frac{1}{p} Σ_{j}^{p} u^{'} (j),

协方差矩阵为：

A (p) = \frac{1}{p} Σ_{j = 1}^{p} [u^{'} (j) - m (p)] {[u^{'} (j) - m (p)]}^{T} = \frac{1}{p} Σ_{j = 1}^{p} u (j) u {(j)}^{T}; - - - (1)

A(p)的第i个特征值和特征向量的计算公式为λ_ix_i(p)＝A(p)x_i(p)，其中x_i(p)为第p个矢量输入时的第i个特征向量，λ_i为对应的特征值。CCIPCA的迭代是对特征值和特征向量的乘积λ_ix_i进行的，设v_i＝λ_ix_i，利用式(1)可得

v_{i} (p) = \frac{1}{p} Σ_{j = 1}^{p} u (j) u {(j)}^{T} x_{i} (p) - - - (2)

若通过迭代获得v_i，可求得λ_i＝‖v_i‖，x_i＝v_i/‖v_i‖，这里的‖·‖为矢量的范数。把v_i(p-1)/‖v_i(p-1)‖近似为x_i(p)代入(2)式，经变换可得CCIPCA的基本迭代式：

v_{i} (p) = \frac{p - 1}{p} v_{i} (p - 1) + \frac{1}{p} u (p) u {(p)}^{T} \frac{v_{i} (p - 1)}{| | v_{i} (p - 1) | |}; - - - (3)

其中(p-1)/p为上一步的迭代值v_i(p-1)的权重，第2项的1/p相当于迭代的调整步长。u(p)作为第p幅新输入图像对迭代向量v_i(p)的调整，在迭代中v_i(p)逐步收敛，归一后求得第i个特征向量，即神经网络的权。对不同特征值对应的特征向量，都可用(3)式迭代，只是输入的图像子块u(p)不同。求最大的特征值对应的特征向量时，u(p)为直接采到的第p个图像子块(需要减瞬时均值)。在求第2、第3乃至更高维特征向量时，须作以下处理：如已通过迭代得到第1个特征向量，先设u₁(p)＝u(p)，并把u₁(p)功投影到上一个已求到的特征向量上(现为第1个特征向量)，求出残差图像u₂(p)，u₂(p)便作为求第2个特征向量的输入；类似的，可以求出第3，4，…个特征向量，如下式所示：

u_{i + 1} (p) = u_{i} (p) - u_{i}^{T} (p) \frac{v_{i} (p)}{| | v_{i} (p) | |} \frac{v_{i} (p)}{| | v_{i} (p) | |}; - - - (4)

因残差图像和上1个特征向量所恢复的图像正交，从而可求出所有相互正交的特征向量，另外，每输入1幅新的数据时，均值也要更新，对输入第p幅图像子块时的均值采用如下迭代式，

\hat{m} (p) = \frac{p - 1}{p} m (p - 1) + \frac{1}{p} u^{'} (p) - - - (5)

把上面的算法用到图3示的神经网络学习中，当一幅子图像输入，首先用式(5)和式(3)对第一个神经元的权进行更新，然后用式(4)返回到输入，用式(3)对第二个神经元的权进行更新，这个过程继续到最后一个神经元的权更新为止。当输入图像数n少于神经元数时，只需对前n个神经元的权进行更新。当只有一幅子图像输入时，就用该图像作为第一个神经元权的初值。

在我们提出的NNSMOR上进行学习，对160×120分辨率的输入图像提取10个特征向量，可以达到60帧/s以上的处理速度，能快速的估算出高维图像向量的特征向量，而且能比较好地还原原始输入图像。经过NNSMOR学习后，测试阶段只需取输入图像在网络的权上(特征向量上)的投影值，便能很好的表示该幅图像的特征。

2、HDR算法[6]

HDR是一种快速的、有监督的、采用分级树的学习方法，它是针对高维矢量的分类问题的。其过程为：(1)先根据要求的输出值Y对样本进行聚类，因而是一个有监督的学习；(2)此时，聚类后的每一类所对应的输入的高维矢量X会发生交迭，再把输入高维矢量X投影到低维子空间中为X’，在低维子空间中进行聚类，形成第1层子节点，输入如图1示，如每个子节点上的聚类样本X’的要求输出值Y相同，则该子节点为叶节点，如不同则(3)对每个子节点再重复步骤(1)(2)，形成第2层子节点，第3层……，最后形成一个认知的树状结构(图1)。在测试阶段，当测试样本输入的时候，用HDR树的搜索可很快地找到相应的输出。

参考文献

[1]Hubel，D.，Wiesel，T.：“Receptive fields，binocular interaction and functional architecture inthe cat’s visual cortex，”J.of Physiology 160(1962)106-154

[2]Fukushima，K.：A neural network model for selective attention in visual pattern recognition.Biol.Cybern No.55(1986)5-15

[3]Fukushima，K.：A neural network for visual pattern recognition.IEEE Computer.March(1988)65-75

[4]Zhang，N.，Weng，J.，Zhang.Z.：A developing sensory mapping for robots.Development andLearning，2002.Proceedings.The 2nd International Conference，(12-15 June 2002)13-20

[5]Weng，J.，Zhang，Y.，Hwang，W.S.：Candid covariance-free incremental principal componentanalysis.IEEE Trans.Pattern Analysis and Machine Intelligence，25(2003)1034-1040

[6]Hwang，W.-S.，Weng，J.：Hierarchical discriminant regression.IEEE Trans.on PatternAnalysis and Machine Intelligence，22(2000)1277-1293

发明内容

本发明的目的在于提出一种具有实时特征学习的、模拟生物视觉的多尺度交叠感受野的神经网络及其构建方法。该神经网络可以应用在机器视觉上，实现对感兴趣的目标进行实时跟踪，也可以应用在行走机器人上，实现在不同环境下自主学习和自主导航。

本发明提出的多尺度交叠感受野的神经网络(记为NNSMOR)是一种模拟生物视觉多尺度感受野结构的网络及模拟视觉认知过程的系统结构。NNSMOR的结构是一个多输入、多输出的前馈神经网络(见图2所示)，它的具体结构形式描述如下：

对输入图像分层降采样，每层都用同样大小的交叠的图像子块获得对应区域的感受野的输入，达到在高层的神经元具有更大的感受野的效果；对于同一层不同位置的感受野，他们所覆盖的区域大小相同；在该网络中，所有感受野都按照一定方式排列，图像按层缩小，直到使用一块或者几块感受野可完全覆盖整幅图像为止；对于输入场景中的某一个目标，无论大小、位置如何，总能找到一组神经元使得它们对应的感受野可以近似地覆盖这个目标的区域。直观可知，这个构架可以提供任意位置、任意大小的特征信息。

其中，第一层感受野(Level 1)对应的输出特征为{H₁，H₂，…H_n}，n为第一层感受野总数，第二层感受野(Level 2)对应的输出特征为{H_n+1，H_n+2，…H_n+n}，n₁为第二层感受野总数，…，直到最高层(Level N，图2中为Level 4)感受野只需一块感受野就可以覆盖整个视觉区域，这里的特征输出为H_N，N为所有层感受野的总数。

网络输入是从不同分辨率图像上得到的大小相同的图像子块，代表不同大小的感受野，通过学习希望得到的权是输入图像PCA的基，输出k个神经元为最大的k个PCA基上的投影，它代表了每个子块的特征。具体建立步骤如下：

A)假定输入的图像采样成不同尺度(分辨率)，每个图像被划分为大小相等的互相交叠的图像子块，用行头尾相接方法转换成一个输入向量X^l∈R^m，l＝1，2，…n，视为第l个感受野，如图4所示的图像左上角标出的块就是五个交叠的感受野，感受野的大小和感受野之间交叠的距离取决于视觉的“分辨率”和对运动变化的敏感度。

B)将输入图像缩小一定比(例如缩小比例为4∶3-2∶1)，用与第一层的输入同样大小的互相交叠的图像子块作为输入向量X^l1∈R^m，l₁＝1，2，…n₁，可以获得更大尺度的感受野(图3)。以此类推到第三、四层，……每一层都将图像缩小一定比例，用同样大小的互相交叠的图像子块作为输入向量，直到输入图像缩小到和感受野的尺寸相当为止，这时候最高层的感受野覆盖了整个视觉区域。

C)假设把每一层的互相交叠的图像子块排成序列例，作为学习集的一部分{X¹，X²…Xⁿ…Xⁿ¹…Xⁿ²…}，对于依次输入的视频流图像都以感受野的方式和k个神经元相连接，形成学习集{X¹(t)，X²(t)…Xⁿ(t)…Xⁿ¹(t)…Xⁿ²(t)…}t＝1，2…这里t为视频流的帧数编号，采用CCIPCA的方法求得和k个神经元相连接的权，为输入样本集的协方差矩阵的最大k特征值的特征向量。神经元网络的输入是感受野组成的矢量，它们和k个神经元相连接，通过CCIPCA算法可求得所有感受野共用的k个神经元的联接权。每一幅输入图像，所有层的所有感受野对应的图像子块依次输入到CCIPCA，经过一定数量的输入图像后，就可以获得每一个感受野的k个神经元的联接权。

D)对于每一个图像子块的输入向量X^l，都可通过神经元网络向相同的k个特征向量投影，它的k个输出作为对应输入图像子块的特征H_i。可以看到，采用这种方式，当任何外界场景图像输入时，我们把每个感受野的神经网络的k个输出组合成的向量作为特征，用来判别感兴趣目标的位置，不管目标的离机器人的眼睛多远和位置在何处，都可得到一个感受野能恰好覆盖到该目标，从而可很好地识别和跟踪任何感兴趣的目标。

把本发明的模拟生物视觉多尺度交叠感受野的神经网络和有监督学习结合起来，可以构建一个类生物视觉的识别系统。

通过NNSMOR获得外界的视觉特征后，结合有监督的学习和认知，可以实现一个类生物视觉的识别系统。该识别系统的由视觉特征获取模块、感知映射模块以及注意力选择模块组成(图6)：视觉特征获取通过NNSMOR网络完成，感知映射模块通过HDR算法完成，注意力选择模块完成对HDR输出结果的综合处理，并实现对目标的选择和认知。该识别系统建立步骤如下：

A)首先通过传感器(摄像头)获得输入图像，输经NNSMOR网络后输出的特征向量为H＝{H₁，H₂，…}，每一个Hi对应一定尺度、位置的感受野的特征输出，其相应的要求的输出为Y＝{Y₁，Y₂，…}；

B)建立对视觉输入的认知：在建树学习阶段，Y_i是已知的，设感兴趣的目标所在区域的感受野H_i所对应的Y_i都规定为1，其余感受野对应Y_i为0；这样经过HDR的自主学习后，系统获得一棵HDR树，其叶节点是对Y_i为1的特征的聚类；

C)在识别过程中，对输入的感受野H_i进行自主归类后，可以获得Y_i为1的感受野集所在方位，送往注意力选择模块进行处理，可以获得目标所在的区域；随着所需识别的目标的增多，每个目标所在感受野的输出Y_i可以分别标记为2，3，4…，这样系统所“认识”的物体的数量便逐渐增加，就形成对外界各种目标的认知。

上述识别过程中，注意力选择模块处理的步骤为：1)将每一层返回的Y_i为1的感受野区域进行相邻区域融合，即一个感受野A对应Y_i为1，那么它周围8个相邻的感受野若有对应Y_i为1的，那么就为该感受野，归入感受野A所在区域。最终每一层输出将获得若干个区域，选取面积最大的区域作为注意力选择区域，该区域中心为注意力中心。2)将每一层的注意力中心取平均值，获得最终注意力中心。3)将底层注意力选择区域作为最终注意力选择区，这样将获得目标所在区域。

本发明的优点：

这种模拟生物视觉多尺度交叠感受野的神经网络可以提取经摄像机拍摄的图像内任意大小、任意位置的目标特征信息。它与HDR结合的系统是基于特征提取和自主分类，从而对外界场景或目标进行认知的，不需要进行任何的运动分析和估计或其他方法，可迅速、方便的学习各类感兴趣的目标。这个方法实现了通过模拟生物视觉的神经网络实现机器人对感兴趣目标的在线识别和跟踪的问题，可以真正实现对场景中的目标识别的平移不变和尺度不变，同时比Fukushima提出的多层感受野网络算法简单，可以对图像进行在线处理。实验结果显示，经过训练，机器人可以对需要注意的目标进行识别和定位，其识别和跟踪的精度可达94％以上。

附图说明：

图1 HDR树结构简图。

图2多尺度交叠感受野网络。

图3多尺度交叠感受野的获取。

图4相互交叠的感受野。

图5每一个感受野的网络结构。

图6 SMORNN和HDR结合的识别系统。

具体实施方式

下面以我们在移动机器人上进行的注意力选择实验为例说明NNSMOR网络的建立及其和有监督学习方法结合实现的视觉认知系统的具体的实施方式。

A)建立网络：

我们的实验中的NNSMOR是一个具有80×80的输入、30个输出的神经元网络，输入图像大小为640×480像素，底层感受野大小为m＝80×80，每一个图像子块的位移距离为20像素。于是每行有29个图像块，每列21个，这样一幅图像的底层感受野总共有n＝609块。为了在下一层能覆盖一个更大的区域，在第二层中我们把图像按边长比例4∶3缩小为480×360。在第二层中，我们同样采用80×80大小的图像块在缩小的图像中每次位移20像素提取对应区域的特征，共有n₁＝315子块，因为图像已经缩小，因此感受野的在视场内覆盖区域则对应增大。对于第三层，第四层，我们采取同样的操作，图像的分辨率分别缩小为：320×240，160×120，直到图像大小和感受野分辨率大小相仿。最后对应每幅图像都得到四层共N＝1056个图像子块。

B)学习阶段，通过NNSMOR网络自主学习获得提取特征的权

通过摄像头获取5帧分辨率为640×480的外界输入图像，将图像转换成灰度图像，输入NNSMOR网络，获得每幅图像的1056个子块，每一幅图像的1056个子块都依次送到NNSMOR网络中用CCIPCA进行学习，得到30个正交化的权。这些正交化的权将作为获取每一块视觉感受野特征的输入滤波器。

C)训练阶段，将图像经NNSMOR网络的输出送到HDR建立对目标的认知

在目标认知学习阶段，把需要辨认的物体放在机器人眼睛前方，轻微晃动，通过运动检测获得目标物体所在区域，该区域作为需要辨识的物体所在区域，机器会根据所告知的区域，对该区域的特征作一定的标记。建立对目标的认知需要10幅图像，每一幅图像经NNSMOR网络后输出的特征向量为H＝{H₁，H₂，…}，每一个H_i对应一定尺度、位置的感受野的特征输出，例如H₁对应的是第一层第一个感受野的输出，H₂对应第一层第二个感受野输出，H₆₁₀对应第二层第一个感受野输出……同一幅图像中，每一块感受野对应的特征为：Y＝{Y₁，Y₂，…}。在建树学习阶段，Y_i作为已知输入，感兴趣的目标所在区域的感受野H_i所对应的Y_i都规定为1，其余感受野对应Y_i为0。10幅训练图像都输入HDR，经过HDR的自主学习后，系统获得一棵HDR树，其叶节点是对Y_i为1的特征的聚类，这棵树相当于实现对目标特征的认知。

D)识别过程，将输入图像经NNSMOR网络获得的特征输出送到HDR作识别

把物体重新放到机器眼睛前，上下左右或者前后移动。系统以2帧/s的速度获取视频图像，每一幅视频图像同样输入NNSMOR中获取图像特征，经NNSMOR网络后输出的特征向量为H＝{H₁，H₂，…}，每一个H_i同样对应一定尺度、位置的感受野的特征输出，但这时每一个感受野对应的Y＝{Y₁，Y₂，…}是未知，需要将H＝{H₁，H₂，…}输入到HDR进行分类识别获得Y＝{Y₁，Y₂，…}。在识别过程中，通过HDR对输入的感受野H_i进行自主归类后，可以获得Y_i为1的感受野子集所在方位，基本上聚集在所需要识别的目标所在区域上。综合所有感受野子集平均，经过计算可以获得目标所在的区域。

E)随着所需识别的目标的增多，每个目标所在感受野的输出Y_i可以分别标记为2，3，4…，这样系统所“认识”的物体的数量便逐渐增加，对不同目标，只要经过训练和学习，就进行辨别和认知，从而实现机器人对外界各种目标的认知。

下面是我们实验中分别对CD光盘、玩具狗、学生卡、包、手等目标进行训练后的目标追踪结果：PCA训练图像：5帧，HDR建树：10帧，追踪速度：2帧/s

目标	识别率	测试帧数
目标	识别率	测试帧数	CD	99％	200
玩具：	97％	200	CD	99％	200
玩具：	97％	200	学生卡：	96.5％	200
手：	94％	200	学生卡：	96.5％	200
手：	94％	200	包	98.5％	200

Claims

1、一种多尺度交叠感受野神经网络，记为NNSMOR，是模拟生物视觉多心度感受野结构的网络及模拟视觉认知过程的系统结构，其特征在于：对输入图像分层降采样，每层都用同样大小的交叠的图像子块获得对应区域的感受野的输入，达到在高层的神经元具有更大的感受野的效果；对于同一层不同位置的感受野，他们所覆盖的区域大小相同；在该网络中，所有感受野都按照一定方式排列，图像按层缩小，直到使用一块或者几块感受野可完全覆盖整幅图像为止；对于输入场景中的某一个目标，无论大小、位置如何，总能找到一组神经元使得它们对应的感受野可以近似地覆盖这个目标的区域；网络输入是从不同分辨率图像上得到的大小相同的图像子块，代表不同大小的感受野，通过学习希望得到的权是输入图像PCA的基，输出k个神经元为最大的k个PCA基上的投影，它代表了每个子块的特征。

2、一种如权利要求l所述的多尺度交叠感受野神经网络的建立方法，其特征在于具体如下：

A)假定输入的图像采样成不同尺度，每个图像被划分为大小相等的互相交叠的图像子块，用行头尾相接方法转换成一个输入向量X^l∈R^m，l＝1，2，…n，视为第l个感受野，

B)将输入图像缩小一定比例如缩小比例为4∶3-2∶1，用与第一层的输入同样大小的互相交叠的图像子块作为输入向量

X^{l_{1}} &Element; R^{m},

l₁＝1，2，…n₁，可以获得更大尺度的感受野；以此类推到第三、四层，……每一层都将图像缩小一定比例，用同样大小的互相交叠的图像子块作为输入向量，直到输入图像缩小到和感受野的尺寸相当为止，这时候最高层的感受野覆盖了整个视觉区域。

C)假设把每一层的互相交叠的图像子块排成序列例，作为学习集的一部分

{X^{1}, X^{2} \cdot \cdot \cdot X^{n} \cdot \cdot \cdot X^{n_{1}} \cdot \cdot \cdot X^{n_{2}} \cdot \cdot \cdot},

，对于依次输入的视频流图像都以感受野的方式和k个神经元相连接，形成学习集

{X^{1} (t), X^{2} (t) \cdot \cdot \cdot X^{n} (t) \cdot \cdot \cdot X^{n_{1}} (t) \cdot \cdot \cdot X^{n_{2}} (t) \cdot \cdot \cdot}

t＝1，2…这里t为视频流的帧数编号，采用CCIPCA的方法求得和k个神经元相连接的权，为输入样本集的协方差矩阵的最大k特征值的特征向量；

D)对于每一个图像子块的输入向量X^l，都可通过神经元网络向相同的k个特征向量投影，它的k个输出作为对应输入图像子块的特征H_i。

3、一种如权利要求1所述的多尺度交叠感受野神经网络在类生物视觉识别系统中的应用，具体步骤如下：

A)首先通过传感器获得输入图像，输经NNSMOR网络后输出的特征向量为H＝{H₁，H₂，…}，每一个H_i对应一定尺度、位置的感受野的特征输出，其相应的要求的输出为Y＝{Y₁，Y₂，…}；

C)在识别过程中，对输入的感受野H_i进行自主归类后，可以获得Y_i为1的感受野集所在方位，经过注意力选择模块的计算可以获得目标所在的区域；随着所需识别的目标的增多，每个目标所在感受野的输出Y_i可以分别标记为2，3，4…，这样系统所“认识”的物体的数量便逐渐增加，就形成对外界各种目标的认知。