CN106446833B - 一种用于复杂场景图像识别的多通道仿生视觉方法 - Google Patents
一种用于复杂场景图像识别的多通道仿生视觉方法 Download PDFInfo
- Publication number
- CN106446833B CN106446833B CN201610854533.5A CN201610854533A CN106446833B CN 106446833 B CN106446833 B CN 106446833B CN 201610854533 A CN201610854533 A CN 201610854533A CN 106446833 B CN106446833 B CN 106446833B
- Authority
- CN
- China
- Prior art keywords
- candidate target
- edge
- translation
- image
- original image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000035807 sensation Effects 0.000 title claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract description 56
- 230000015654 memory Effects 0.000 claims abstract description 44
- 230000000007 visual effect Effects 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000004438 eyesight Effects 0.000 claims abstract description 16
- 210000004556 brain Anatomy 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000013519 translation Methods 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 37
- 238000001514 detection method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 13
- 238000003708 edge detection Methods 0.000 claims description 9
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000003384 imaging method Methods 0.000 abstract 1
- 210000002569 neuron Anatomy 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 239000011664 nicotinic acid Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 210000000857 visual cortex Anatomy 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 210000003771 C cell Anatomy 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000008904 neural response Effects 0.000 description 1
- 230000036403 neuro physiology Effects 0.000 description 1
- 210000001328 optic nerve Anatomy 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006886 spatial memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/08—Projecting images onto non-planar surfaces, e.g. geodetic screens
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于复杂场景图像识别的多通道仿生视觉方法,其步骤主要包括三个变换通道。对于第一通道,通过模拟人类大脑的多通道视觉处理机制,对原图像进行前向通道计算,得到候选目标集,同时产生两个阶段的记忆信息。对于第二通道,依次对每个候选目标,利用这些记忆信息进行反向通道计算,得到原图像中的击中图,以此构成目标边缘图。对于第三通道,最后利用第二前向通道算法,对该目标边缘图进行两次变换,得到特征变换图并在候选集中进行验证,以此完成图像识别。通过模拟人类大脑的多通道视觉处理机制,提取视觉记忆信息,并利用反向通道计算,有效模拟人类大脑对目标的视觉信息处理过程,得到的识别图像准确度高。
Description
技术领域
本发明属于生物信息与机器视觉技术的交叉领域,尤其涉及一种用于复杂场景图像识别的多通道仿生视觉方法。
背景技术
复杂场景中的图像识别是计算机视觉领域的难点与热点问题。众所周知,人类视觉系统能在复杂场景中有效地屏蔽干扰信息,并保留目标图像。然而,利用传统计算机视觉算法实现复杂场景图像的目标识别,是一项极具挑战性的工作。随着人类视觉大脑皮层响应机制的不断揭示,Hubel曾在Nature中报道,生物视觉皮质细胞对某些长度或方向的线条,响应非常强烈。受此生物视觉响应机制启发,若机器视觉能提取图像目标的不同长度和不同方向的线条特征,并测量线条的空间分辨率,以模拟大脑视觉皮质细胞对线条响应的强度,那么一种基于仿生物视觉感知机理的图像识别方法便成为了现实。
近几年,出现了基于仿生机理的图像识别方法。但大多数方法中利用了Fouriertransform(FT)、Fourier-Mellin(FM)变换、Gabor滤波器、Fourier描述算子等。虽然FT变换能有效处理比例缩放图像的识别问题,但旋转图像将导致FT频域变换发生角度旋转。尽管FT功率谱具有平移不变性,但FT却丢失很多空间位置信息。FM是由FT变化而来,其同样具有空间信息丢失问题。Gobor滤波器能识别旋转与比例缩放图像,该方法具有噪声不变属性,但其滤波器方向角度与波长等参数,却难以针对不同图像自适应调整。上述均属于Bottom-Up数据驱动的不变属性特征提取方法,能有效处理图像识别的某些问题,Top-Down目标任务驱动的不变属性特征提取方法,对处理同时具备旋转、比例缩放、平移和加噪图像的不变属性特征提取具有明显效果。事实上,模拟生物特性的图像识别方法已成为当前的热门研究方向,如卷积神经网络模拟灵长目类动物视觉系统的递阶结构,卷积层完成了局部平均化和二次采样的工作,为此,特征图具有小平移不变性。VisNet是一种针对不变属性目标识别的视觉通道模型,但该模型需多次训练不同图像中各尺度的目标,否则难以实现加噪、旋转、比例缩放等不变属性特征的提取。HMAX是另一种四层计算单元组合结构的递阶模型,C单元利用非线性最大池操作,实现平移与比例缩放不变性。但由于随机选取图像块,使其对旋转图像非常敏感。为此,严重影响了目标识别的效果。生物变换方法通过仿视觉神经元工作模式,实现输入图像的平移、比例缩放与旋转不变属性的表达。但存在两方面不足,首先,该模型中采用了box滤波器,该滤波器是利用图像周围像素点加权均值实现,与人类视觉感知机理并非一致,为此,对噪声特别敏感。其次,该方法只能应用无背景的二值图像识别,稍加背景干扰会使得识别效果大打折扣。
根据生物视觉感知机理,当视觉目标刺激出现时,人类视觉感知初始过程产生在视网膜,视网膜内完成初始特征检测。而后,图像信号再由视神经激励传输。其中特征包括边缘、方向、梯度等信息。更重要的是,在这个过程中,存在多个信息传输通道。为此,如何模拟人类大脑视觉响应过程,在不同功能阶段构建感知模型,并客观描述大脑视觉皮质细胞对目标响应的强度,使该模型能有效识别复杂场景目标图像,成为本发明亟待解决的问题。
发明内容
本发明所要解决的技术问题是,提供一种用于复杂场景图像识别的多通道仿生视觉方法,通过计算机模拟人类大脑视觉机理,减小复杂场景图像目标识别过程中,受复杂场景对目标干扰的影响,以提升目标的识别率。
一种用于复杂场景图像识别的多通道仿生视觉方法,将原图像依次进行三个通道变换,具体包括以下几个步骤:
步骤一:通过模拟人类大脑的多通道视觉处理机制,对原图像采用前向通道算法进行两次生物变换,获得候选目标集,并生成两个阶段视觉记忆信息;
所述视觉记忆信息是指每个像素的K个前级变换的信息源,K的取值范围为8-12;
步骤二:对步骤一获得候选目标集中的每个候选目标,利用视觉记忆信息采用反向通道计算击中图,所有击中图构成目标边缘图;
利用视觉记忆信息采用反向通道计算击中图的具体过程如下:
利用第二阶段视觉记忆信息将步骤一中第二次生物变换得到的第二变换图投射至步骤一中第一次生物变换得到的第一变换图上,得到第一投射变换图;再利用第一阶段视觉记忆信息,将第一投射变换图投射至原图像上,得到击中图;
步骤三:针对步骤二获得的目标边缘图,采用前向通道算法进行两次生物变换,得到特征变换图;
步骤四:利用特征变换图对候选目标进行验证,将与特征变换图距离最小的候选目标作为最终的识别目标,得到识别图像。
所述采用前向通道算法进行两次生物变换时,对原图像使用生物相位一致性算法创建边缘图,然后采用Gabor滤波器对边缘图进行滤波处理,以滤波后的边缘图作为第一变换图;对第一变换图再次使用生物相位一致性算法和Gabor滤波器生成第二变换图;
其中,所述生物相位一致性算法所使用的公式如下:
其中,PC(x)表示图像的相位一致性检测结果,W(x)表示相位一致性加权函数,An(x)表示在原图像在x处的像素灰度值,ΔΦn(x)表示在原图像x处进行傅里叶变换的相位差,T1表示需要抑制的噪声强度,ε表示防止分母为0的常数,n表示原图像的傅里叶分解级数;
所述采用Gabor滤波器对边缘图进行滤波处理,得到滤波后的边缘图,是指按照以下公式进行方向边缘检测:
其中,D(x,y)表示原图像在(x,y)处的方向边缘,G(x,y)为Gabor滤波器,表示卷积操作。
在两次生物变换过程中,将得到的滤波后的边缘图采用间隔检测,将进行间隔检测后的图作为变换图。
首先对方向边缘图进行平移操作,平移距离为I和平移方向角度为θ+90°,再将平移后的边缘图乘以平移前的边缘图,得到包含多个乘积重叠区域的图像,对该图像中的所有区域的值进行累加,最后将该累加结果除以平移以前的边缘图灰度值的平方和。
所述步骤一中生成的视觉记忆过程如下:
在间隔检测过程中,首先对经Gabor滤波器滤波后得到的边缘图进行平移操作,平移距离为I和平移方向角度为θ+90°,再将平移后的边缘图乘以平移前的边缘图,得到多个响应区域,计算每个区域的加权中心位置,以所有加权中心位置构成多个区域的加权中心位置集合,作为视觉记忆信息区域Me(θ,I):
Me(θ,I)=PC(x,y)×PC(x-Δx,y-Δy)
其中,PC(x,y)为平移前边缘图,PC(x-Δx,y-Δy)为平移后的边缘图,水平方向平移量Δx=I×cos(θ+90°),垂直方向平移量Δy=I×sin(θ+90°),平移方向角度θ∈[0,180°),平移距离I∈[100,700]。
对于所有初始响应区域集合Re(θ,I)采用以下的策略删除弱响应区域,保留强响应区域,形成最终的响应区域集合Re′(θ,I):
Re′(θ,I)={Ck|max(Ck(x,y))>T,k=1,…,K}
其中,T表示响应强度的全局阈值,T=μnoise+3×δnoise:μnoise和δnoise分别为统计所有θ和I的响应分布,计算初始响应区域集合Re(θ,I)的响应强度的平均值和标准偏差;
其中,对平移前的边缘图与平移后的边缘图相乘后的所有区域,使用赢家通吃的策略,得到初始响应区域集合Re(θ,I),采用以下公式:
Re(θ,I)={max(Ck)|k=1,…,K}
上式中,k表示初始响应区域的序号,取值范围为1-K;K表示初始响应区域的数量,Ck表示第k个初始响应区域;
响应区域Ck中强度加权质心坐标为计算如下所示:
Ck(x,y)是一个响应区域的强度级,其值由间隔检测算子中的原图像边缘与平移边缘的乘积确定,M,N分别是响应区域大小。
强度加权质心坐标即为在当前角度θ和间隔I的视觉记忆信息,同时也为一次击中,在这种方式下,原图像的多个击中位置对应于第一级变换图的一个像素。以此类推,第一阶段图的多个击中对应于第二级变换图的一个像素。因此,在第一阶段变换中,通过记住这些击中的空间位置,形成第一个记忆,变换图中的任一个像素能够被反投影到原始图像上。第二级视觉记忆的创建过程与第一级记忆相同。
利用高斯卷积核函数作为掩模,与步骤二中生成的击中图进行卷积运算,得到卷积图;再将卷积图与原图像进行卷积运算,将得到的运算结果图作为目标边缘图;
所述采用高斯核函数为:
其中,高斯核函数的长和宽x=y=3,高斯核函数的中心坐标x0=y0=0,标准差σx=σy=0.2。
使一些不连通的击中区域变得连通,并且消除一些噪声区域,锐化边缘图像。
对目标边缘图中面积大于等于的连通区域保留在边缘图像上,进行去噪处理,击中模板外面的信号将置为0:
其中,min()是最小值运算符,YL为由L个候选目标构成的候选目标子集,min Area(YL)表示候选目标子集中的最小目标面积,minArea(YL)=min{Area(Tl k)k=1,…,K,and l=1,…,L},Tl k为第k个候选目标模板。
使得目标函数取得最大值时对应的候选目标;
其中,Sim(F,Tk)是输入图像特征与候选目标图像特征之间的相似性;F表示所有原图像的特征向量集合,F={fi|i=1,…,N},fi为输入图像特征向量,N表示原图像的特征向量总数,是候选目标集合中第k个目标特征,Tl k表示第k个候选目标对应的第l个子目标子集,1≤l≤L,L表示候选目标子集数量,为设定值,取值范围为5-10。
上述的特征向量是两级变换的变换图输出,对该二维矩阵形式的变换图整形为向量形式的结果。
所述输入图像特征与候选目标图像特征之间的相似性Sim(F,Tk)采用余弦相似性进行衡量计算:
其中,是候选目标集合中第k个目标特征,F={fi|i=1,…,N},fi为输入图像特征向量。
使得目标函数取得最大值时对应的候选目标的具体过程如下:首先,选择一个固定大小的候选目标窗口L中,产生一个分数,从初始候选集开始,按顺序用Tk+1替换Tk,增加了对象函数的值,直到获得最大分数值:
有益效果
本发明提供了一种用于复杂场景图像识别的多通道仿生视觉方法,其步骤主要包括三个变换通道。对于第一通道,通过模拟人类大脑的多通道视觉处理机制,对原图像进行前向通道计算,得到候选目标集,同时产生两个阶段的记忆信息。对于第二通道,依次对每个候选目标,利用这些记忆信息进行反向通道计算,得到原图像中的击中图,依次构成目标边缘图。对于第三通道,最后利用第二前向通道算法,对该目标边缘图进行两次变换,得到特征变换图并在候选集中进行验证,以此完成图像识别。
第一和第三通道仿生变换算法包括两个阶段。在第一阶段中,将方向边缘检测分为两个部分,其一,运用相位一致性算法进行方向边缘检测。其二,为类似V1响应的Gabor滤波器,不仅使图像特征具有噪声不变性,而且能利用余弦函数表示图像空间分辨率。在此基础上,利用空间分辨率间距检测,测量各方向、各间距的空间频率,以模拟生物视觉中线条反馈的响应强度。在第二阶段,将第一阶段的输出结果,再次输入至方向边缘检测与空间分辨率间距检测中。为此,原图像目标的平移,在第一阶段输出结果就具有不变性。原图像目标的旋转与比例缩放,在第一阶段输出结果仅表现为图像水平与垂直平移。第二阶段中,将第一阶段输出结果,再经过边缘检测子和间距检测子的检测,使得第二阶段输出不变属性特征图。具体体现在以下几点:
1.通过模拟人类多通道视觉机理,建立前向通道,反向通道及第二前向通道变换算法,其中,前向通道能够给出多个候选目标集,反向通道算法能够从每个候选目标追踪至原图像,以此获得目标边缘图。第二前向通道算法能够对目标边缘图进行两个阶段的生物变换,并验证最终的变换特征图,该过程能有效模拟人类大脑对目标的视觉信息处理过程。
2.记忆响应阈值可以被认为是能够通过间隔检测器检测到的最小神经响应的强度。从生物学的角度来看,这样的阈值引出了在人类视觉系统中神经元反应的最小灵敏度。从信号处理的角度来看,不考虑弱神经元信号响应,能够显著抑制噪声,并提高信噪比。
3.不同于暂时性的工作记忆,视觉感觉记忆对回溯追踪是很有帮助的。因此,在两级变换当中创建两个神经系统的短时记忆。而这些记忆包含每个神经元细胞的空间关系的信息。使用这些视觉记忆,能够显著提高神经反向计算的效率,从第二级的信号和噪声区域变换到原图像到目标模式,提高目标识别的准确性。
4.综合仿生滤波器和边缘检测器,实现复杂场景中的目标方向边缘检测,利用空间间隔检测得到第一阶段的变换图,在此基础上,再次运用方向边缘检测算子和间隔检测算子,得到第二阶段的变换图,该变换图具有空间平移,旋转及比例伸缩不变性,能够提高目标特征的稳定性。
附图说明
图1为间隔检测原理示意图;
图2为本发明两级视觉记忆追踪示意图;
图3为本发明二维高斯卷积核函数示意图;
图4为本发明真实目标的击中图与边缘图对比示意图;
图5为本发明总体框架示意图,其中,图5(a)为第一前向通道算法示意图,图5(b)为反向通道算法示意图,图5(c)为第二前向通道算法示意图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
一种用于复杂场景图像识别的多通道仿生视觉方法,将原图像依次进行三个通道变换,具体包括以下几个步骤:
步骤一:通过模拟人类大脑的多通道视觉处理机制,对原图像采用前向通道算法进行两次生物变换,获得候选目标集,并生成两个阶段视觉记忆信息,如图5(a)所示;
所述视觉记忆信息是指每个像素的K个前级变换的信息源,K的取值范围为8-12;
步骤二:对步骤一获得候选目标集中的每个候选目标,利用视觉记忆信息采用反向通道计算击中图,所有击中图构成目标边缘图,如图5(b)所示;
利用视觉记忆信息采用反向通道计算击中图的具体过程如下:
利用第二阶段视觉记忆信息将步骤一中第二次生物变换得到的第二变换图投射至步骤一中第一次生物变换得到的第一变换图上,得到第一投射变换图;再利用第一阶段视觉记忆信息,将第一投射变换图投射至原图像上,得到击中图;
步骤三:针对步骤二获得的目标边缘图,采用前向通道算法进行两次生物变换,得到特征变换图,如图5(c)所示;
步骤四:利用特征变换图对候选目标进行验证,将与特征变换图距离最小的候选目标作为最终的识别目标,得到识别图像。
所述采用前向通道算法进行两次生物变换时,对原图像使用生物相位一致性算法创建边缘图,然后采用Gabor滤波器对边缘图进行滤波处理,以滤波后的边缘图作为第一变换图;对第一变换图再次使用生物相位一致性算法和Gabor滤波器生成第二变换图;
其中,所述生物相位一致性算法所使用的公式如下:
其中,PC(x)表示图像的相位一致性检测结果,W(x)表示相位一致性加权函数,An(x)表示在原图像在x处的像素灰度值,ΔΦn(x)表示在原图像x处进行傅里叶变换的相位差,T1表示需要抑制的噪声强度,ε表示防止分母为0的常数,n表示原图像的傅里叶分解级数;
所述采用Gabor滤波器对边缘图进行滤波处理,得到滤波后的边缘图,是指按照以下公式进行方向边缘检测:
其中,D(x,y)表示原图像在(x,y)处的方向边缘,G(x,y)为Gabor滤波器,表示卷积操作。
在两次生物变换过程中,将得到的滤波后的边缘图采用间隔检测,将进行间隔检测后的图作为变换图。
首先对方向边缘图进行平移操作,平移距离为I和平移方向角度为θ+90°,再将平移后的边缘图乘以平移前的边缘图,得到包含多个乘积重叠区域的图像,对该图像中的所有区域的值进行累加,最后将该累加结果除以平移以前的边缘图灰度值的平方和。
所述步骤一中生成的视觉记忆过程如下:
在间隔检测过程中,首先对经Gabor滤波器滤波后得到的边缘图进行平移操作,平移距离为I和平移方向角度为θ+90°,再将平移后的边缘图乘以平移前的边缘图,得到多个响应区域,计算每个区域的加权中心位置,以所有加权中心位置构成多个区域的加权中心位置集合,作为视觉记忆信息区域Me(θ,I):
Me(θ,I)=PC(x,y)×PC(x-Δx,y-Δy)
其中,PC(x,y)为平移前边缘图,PC(x-Δx,y-Δy)为平移后的边缘图,水平方向平移量Δx=I×cos(θ+90°),垂直方向平移量Δy=I×sin(θ+90°),平移方向角度θ∈[0,180°),平移距离I∈[100,700]。
如图1所示,以字母A为例,字母A的边缘被移动到位置(Δx,Δy)上其位移I和角度θ。并且有两个重叠区A和B。清楚地看出,重叠区域A和B可通过位移I和角度θ+180°反方向转移目标到位置(Δ′x,Δ′y),因此,检测角的半周期是足够的对于间隔检测,并且间隔检测如下:
其中,M,N分别是图像的宽度和高度,且θ∈[0,180°)。
在生物变换中,许多信号也许在高强度噪声中淹没由于间隔检测是一种非线性操作,这将恶化图像特征的选择性。因此,一个重要的任务是在追溯图像中的某个目标时,抑制其周围的环境。
对于人类的视觉,神经元释放化学物质进入到一个小的间隙,这叫做突触。其它相邻的神经元接收这些化学物质并且它们的活性也许被改变,从而实现存储和传输的视觉信息。此外,这两个神经生理学和人类神经影像学研究表明,较高阶的脑区都参与了短时记忆的维护,早期视觉区域提供在记忆中的皮质基础特征以及刺激的位置信息。
在第一级变换图中的任何一个像素由在源图像几个区域组成,并且与第二级的图相同。此外,对于所有的神经元响应高强度区的这些位置在目标识别期间被记忆。这些区域是由间隔检测动作产生的。与长时记忆比较,上面所提到的记忆仅仅是对一个物体识别是持续的,因此它是一个合理的短期记忆。
对于所有初始响应区域集合Re(θ,I)采用以下的策略删除弱响应区域,保留强响应区域,形成最终的响应区域集合Re′(θ,I):
Re′(θ,I)={Ck|max(Ck(x,y))>T,k=1,…,K}
其中,T表示响应强度的全局阈值,T=μnoise+3×δnoise:μnoise和δnoise分别为统计所有θ和I的响应分布,计算初始响应区域集合Re(θ,I)的响应强度的平均值和标准偏差;
其中,对平移前的边缘图与平移后的边缘图相乘积后的所有区域,使用赢家通吃的策略,得到初始响应区域集合Re(θ,I),采用以下公式:
Re(θ,I)={max(Ck)|k=1,…,K}
上式中,k表示初始响应区域的序号,取值范围为1-K;K表示初始响应区域的数量,Ck表示第k个初始响应区域;
响应区域Ck中强度加权质心坐标为计算如下所示:
Ck(x,y)是一个响应区域的强度级,其值由间隔检测算子中的原图像边缘与平移边缘的乘积确定,M,N分别是响应区域大小。
强度加权质心坐标即为在当前角度θ和间隔I的视觉记忆信息,同时也为一次击中,在这种方式下,原图像的多个击中位置对应于第一级变换图的一个像素。以此类推,第一阶段图的多个击中对应于第二级变换图的一个像素。因此,在第一阶段变换中,通过记住这些击中的空间位置,形成第一个记忆,变换图中的任一个像素能够被反投影到原始图像上,第二级视觉记忆的创建过程与第一级记忆相同。
由于区间检测角θ∈[0,180°),其中包含的空间位置信息的记忆仅仅覆盖对象的一半,这将随后导致不完整的追溯。为了解决这个问题,以虚拟相反的间隔检测来补偿击中位置。如图1所示,通过间隔检测,边缘由θ和I移位,而1号区域表示真实重叠区。2号区域是虚拟区域。在记忆创建期间,1号区域的一个击中位置其通过θ+180°和I向左转移到一个新的2号位置这将对称地击中目标的左侧部分。这些击中发生的位置将完全被记住作为一个单元。这一单元是关系到在第一个记忆中的像素。所有的单元都可通过θ和I产生,这形成了完整的空间记忆。第二个记忆的创建与第一个记忆一样。
如图2所示,考虑到每个候选对象,使用两级存储信息来反向投影边缘图。具体来说,通过候选对象的转换图来追踪第二阶段的击中图。击中图的位置信息将在第二级存储中搜索。变换图中没有信号的区域意味着没有存储信息。因此,相关的位置存储将被删除。相反,如果一些区域包含高强度信号,相应的位置存储信息将被保留,信号的强度依据区域内的平均数值大小进行判定。在后向跟踪过程中,击中数意味着击中强度,无论哪个位置的存储信息被反向投影,那个位置上的击中数将增加。
如果候选对象不同于原始图像上的真实对象,相当数量的记忆信息不能用于反向投影,这将导致在原始图像上丢失击中数或击中强度减弱。如果候选对象类似于真正的目标,绝大多数的记忆信息将被用于反向投影。所以,在原始图像上有高强度的击中,目标区域将会被突出。
虽然击中图覆盖了主要对象的轮廓,但可能会存在一些非连通的组成区域。此外,一些小型噪声区域需要被删除。在每次击中周围,应用二维高斯核函数来处理这些问题,利用如图3所示的高斯映射核函与击中图做卷积来实现,二维高斯核如下:
利用高斯卷积核函数作为掩模,与步骤二中生成的击中图进行卷积运算,得到卷积图;再将卷积图与原图像进行卷积运算,将得到的运算结果图作为目标边缘图;
其中,高斯核函数的长和宽x=y=3,高斯核函数的中心坐标x0=y0=0,标准差σx=σy=0.2。
使一些不连通的击中区域变得连通,并且消除一些噪声区域,锐化边缘图像。对目标边缘图中面积大于等于的连通区域保留在边缘图像上,进行去噪处理,击中模板外面的信号将置为0:
其中,min()是最小值运算符,YL为由L个候选目标构成的候选目标子集,minArea(YL)表示候选目标子集中的最小目标面积,minArea(YL)=min{Area(Tl k)k=1,…,K,and l=1,…,L},Tl k为第k个候选目标模板。
使得目标函数取得最大值时对应的候选目标;
其中,Sim(F,Tk)是输入图像特征与候选目标图像特征之间的相似性;F表示所有原图像的特征向量集合,F={fi|i=1,…,N},fi为输入图像特征向量,N表示原图像的特征向量总数,是候选目标集合中第k个目标特征,Tl k表示第k个候选目标对应的l个候选目标子集,1≤l≤L,L表示候选目标子集数量,为设定值,取值范围为5-10。
上述的特征向量是两级变换的变换图输出,对该二维矩阵形式的变换图整形为向量形式的结果。
所述输入图像特征与候选目标图像特征之间的相似性Sim(F,Tk)采用余弦相似性进行衡量计算:
其中,是候选目标集合中第k个目标特征,F={fi|i=1,…,N},fi为输入图像特征向量。
使得目标函数取得最大值时对应的候选目标的具体过程如下:首先,选择一个固定大小的候选目标窗口L中,产生一个分数,从初始候选集开始,按顺序用Tk+1替换Tk,增加了对象函数的值,直到获得最大分数值:
图4给出了真实对象的边缘图创建过程。对象和背景图象的原始尺寸均为1000×1000,初始角为零度。第一列是每个对象的状态参数,表示在背景图像对目标进行旋转或缩放。对真实对象的候选对象进行反向投影,击中对象展现在第二列中。在这些图中,击中图是由椭圆区域的斑点组成,记录每一个像素的击中数,并且形成击中图的强度等级。这些斑点击中对象和一些显着的背景区域上。尽管如此,大部分斑点击中在旋转和缩放状态下的对象,这个结果显示在第三列。击中图由二维高斯核函数屏蔽,并且明显突出目标。在进一步的步骤中,一些噪声通过与边缘图相乘使之不明显,并且锐化边缘。
这部分的任务是产生一个特征图。在此期间,首先应用Gabor滤波器来平滑边缘图。为了突出特征的选择性,使用一个方向边缘检测器在所有方向检测对象的边缘。其原因在于,大部分V1细胞是对有差别的边缘方向敏感。随着定向边缘,进行间隔的检测来测量极坐标里的空间频率。像第一次前向变换算法一样,这里也进行了两次变换,使特征图的旋转,缩放和平移是不变。
为了验证候选对象,把欧几里德近邻算法应用于图像分类。最近邻分类是无参数的分类算法,并在新的样本和每个邻居之间计算的欧式距离,然后,新的样本被分配到最接近邻居中。它可用于任意分布,而且并不需要假定底层密度的形式是已知的。
F是最终的变换特征向量,Tk是候选目标。当F={fi|i=1,…,N},k=1,…,K,此时,样本间的欧氏距离如下:
下一步,对于k=1,…,K,输出距离最小的候选目标。
用识别对象验证当前的候选目标,如果识别对象O是第k个候选目标Tk,则认为当前的候选目标是最终的输出目标。
以上应用了具体个例对本发明进行阐述,只是为了帮助本领域中的普通技术人员很好的理解。在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种推演、变形和替换。这些变更和替换都将落在本发明权利要求书所限定的范围内。
Claims (8)
1.一种用于复杂场景图像识别的多通道仿生视觉方法,其特征在于,将原图像依次进行三个通道变换,具体包括以下几个步骤:
步骤一:通过模拟人类大脑的多通道视觉处理机制,对原图像采用前向通道算法进行两次生物变换,获得候选目标集,并生成两个阶段视觉记忆信息;
所述视觉记忆信息是指每个像素的K个前级变换的信息源,K的取值范围为8-12;
步骤二:对步骤一获得候选目标集中的每个候选目标,利用视觉记忆信息采用反向通道计算击中图,所有击中图构成目标边缘图;
利用视觉记忆信息采用反向通道计算击中图的具体过程如下:
利用第二阶段视觉记忆信息将步骤一中第二次生物变换得到的第二变换图投射至步骤一中第一次生物变换得到的第一变换图上,得到第一投射变换图;再利用第一阶段视觉记忆信息,将第一投射变换图投射至原图像上,得到击中图;
步骤三:针对步骤二获得的目标边缘图,采用前向通道算法进行两次生物变换,得到特征变换图;
步骤四:利用特征变换图对候选目标进行验证,将与特征变换图距离最小的候选目标作为最终的识别目标,得到识别图像;
所述采用前向通道算法进行两次生物变换时,对原图像使用生物相位一致性算法创建边缘图,然后采用Gabor滤波器对边缘图进行滤波处理,以滤波后的边缘图作为第一变换图;对第一变换图再次使用生物相位一致性算法和Gabor滤波器生成第二变换图;
其中,所述生物相位一致性算法所使用的公式如下:
其中,PC(x)表示图像的相位一致性检测结果,W(x)表示相位一致性加权函数,An(x)表示在原图像在x处的像素灰度值,ΔΦn(x)表示在原图像x处进行傅里叶变换的相位差,T1表示需要抑制的噪声强度,ε表示防止分母为0的常数,n表示原图像的傅里叶分解级数;
所述采用Gabor滤波器对边缘图进行滤波处理,得到滤波后的边缘图,是指按照以下公式进行方向边缘检测:
其中,D(x,y)表示原图像在(x,y)处的方向边缘,G(x,y)为Gabor滤波器,表示卷积操作;
在两次生物变换过程中,将得到的滤波后的边缘图采用间隔检测,将进行间隔检测后的图作为变换图;
所述间隔检测是指首先对方向边缘图进行平移操作,平移距离为I和平移方向角度为θ+90°,再将平移后的边缘图乘以平移前的边缘图,得到包含多个乘积重叠区域的图像,对该图像中的所有区域的值进行累加,最后将该累加结果除以平移以前的边缘图灰度值的平方和。
2.根据权利要求1所述的方法,其特征在于,所述步骤一中生成的视觉记忆过程如下:
在间隔检测过程中,首先对经Gabor滤波器滤波后得到的边缘图进行平移操作,平移距离为I和平移方向角度为θ+90°,再将平移后的边缘图乘以平移前的边缘图,得到多个响应区域,计算每个区域的加权中心位置,以所有加权中心位置构成多个区域的加权中心位置集合,作为视觉记忆信息区域Me(θ,I):
Me(θ,I)=PC(x,y)×PC(x-Δx,y-Δy)
其中,PC(x,y)为平移前边缘图,PC(x-Δx,y-Δy)为平移后的边缘图,水平方向平移量Δx=I×cos(θ+90°),垂直方向平移量Δy=I×sin(θ+90°),平移方向角度θ∈[0,180°),平移距离I∈[100,700]。
3.根据权利要求2所述的方法,其特征在于,对于所有初始响应区域集合Re(θ,I)采用以下的策略删除弱响应区域,保留强响应区域,形成最终的响应区域集合Re′(θ,I):
Re′(θ,I)={Ck|max(Ck(x,y))>T,k=1,…,K}
其中,T表示响应强度的全局阈值,T=μnoise+3×δnoise:μnoise和δnoise分别为统计所有θ和I的响应分布,计算初始响应区域集合Re(θ,I)的响应强度的平均值和标准偏差;
其中,对平移前的边缘图与平移后的边缘图相乘后,使用赢家通吃的策略,得到初始响应区域集合Re(θ,I),采用以下公式:
Re(θ,I)={max(Ck)|k=1,…,K}
上式中,k表示初始响应区域的序号,取值范围为1-K;K表示初始响应区域的数量,Ck表示第k个初始响应区域;
响应区域Ck中强度加权质心坐标为计算如下所示:
Ck(x,y)是一个响应区域的强度级,其值由间隔检测算子中的原图像边缘与平移边缘的乘积确定,M,N分别是响应区域大小。
4.根据权利要求1-3任一项所述的方法,其特征在于,利用高斯卷积核函数作为掩模,与步骤二中生成的击中图进行卷积运算,得到卷积图;再将卷积图与原图像进行卷积运算,将得到的运算结果图作为目标边缘图;
所述采用高斯核函数为:
其中,高斯核函数的长和宽x=y=3,高斯核函数的中心坐标x0=y0=0,标准差σx=σy=0.2。
5.根据权利要求4所述的方法,其特征在于,对目标边缘图中面积大于等于的连通区域保留在边缘图像上,进行去噪处理,击中模板外面的信号将置为
其中,min()是最小值运算符,YL为由L个候选目标构成的候选目标子集,min Area(YL)表示候选目标子集中的最小目标面积,
min Area(YL)=min{Area(Tl k)|k=1,...,K,and l=1,...,L},Tl k为第k个候选目标模板。
6.根据权利要求1所述的方法,其特征在于,所述与特征变换图距离最小的候选目标是指使得目标函数取得最大值时对应的候选目标;
其中,Sim(F,Tk)是输入图像特征与候选目标图像特征之间的相似性;F表示所有原图像的特征向量集合,F={fi|i=1,…,N},fi为输入图像特征向量,N表示原图像的特征向量总数,是候选目标集合中第k个目标特征,Tl k表示第k个候选目标对应的第l个候选目标子集,1≤l≤L,L表示候选目标子集数量,为设定值,取值范围为5-10。
7.根据权利要求6所述的方法,其特征在于,所述输入图像特征与候选目标图像特征之间的相似性Sim(F,Tk)采用余弦相似性进行衡量计算:
其中,是候选目标集合中第k个目标特征,F={fi|i=1,…,N},fi为输入图像特征向量。
8.根据权利要求7所述的方法,其特征在于,使得目标函数取得最大值时对应的候选目标的具体过程如下:首先,选择一个固定大小的候选目标窗口L中,产生一个分数,从初始候选集开始,按顺序用Tk+1替换Tk,增加了对象函数的值,直到获得最大分数值:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610854533.5A CN106446833B (zh) | 2016-09-27 | 2016-09-27 | 一种用于复杂场景图像识别的多通道仿生视觉方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610854533.5A CN106446833B (zh) | 2016-09-27 | 2016-09-27 | 一种用于复杂场景图像识别的多通道仿生视觉方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446833A CN106446833A (zh) | 2017-02-22 |
CN106446833B true CN106446833B (zh) | 2019-08-02 |
Family
ID=58170445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610854533.5A Active CN106446833B (zh) | 2016-09-27 | 2016-09-27 | 一种用于复杂场景图像识别的多通道仿生视觉方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446833B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909059A (zh) * | 2017-11-30 | 2018-04-13 | 中南大学 | 一种面向复杂城市场景中协同仿生视觉的交通标志牌检测与识别方法 |
CN108492318B (zh) * | 2018-03-01 | 2022-04-26 | 西北工业大学 | 一种基于仿生技术的目标跟踪的方法 |
CN109815870B (zh) * | 2019-01-17 | 2021-02-05 | 华中科技大学 | 细胞表型图像定量分析的高通量功能基因筛选方法及系统 |
CN110936355B (zh) * | 2019-11-25 | 2021-06-22 | 广州微林软件有限公司 | 一种基于视觉测速定位的机械臂引导系统和方法 |
CN112036408B (zh) * | 2020-07-31 | 2022-04-12 | 北京航空航天大学 | 一种复杂场景底层视觉信息提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286237A (zh) * | 2008-05-22 | 2008-10-15 | 重庆大学 | 基于视觉仿生的运动目标检测方法 |
CN101853397A (zh) * | 2010-04-21 | 2010-10-06 | 中国科学院半导体研究所 | 一种基于人类视觉特性的仿生人脸检测方法 |
CN103020933A (zh) * | 2012-12-06 | 2013-04-03 | 天津师范大学 | 一种基于仿生视觉机理的多源图像融合方法 |
CN105809173A (zh) * | 2016-03-09 | 2016-07-27 | 中南大学 | 一种基于仿生物视觉变换的图像rstn不变属性特征提取及识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626798B2 (en) * | 2011-12-05 | 2017-04-18 | At&T Intellectual Property I, L.P. | System and method to digitally replace objects in images or video |
-
2016
- 2016-09-27 CN CN201610854533.5A patent/CN106446833B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286237A (zh) * | 2008-05-22 | 2008-10-15 | 重庆大学 | 基于视觉仿生的运动目标检测方法 |
CN101853397A (zh) * | 2010-04-21 | 2010-10-06 | 中国科学院半导体研究所 | 一种基于人类视觉特性的仿生人脸检测方法 |
CN103020933A (zh) * | 2012-12-06 | 2013-04-03 | 天津师范大学 | 一种基于仿生视觉机理的多源图像融合方法 |
CN105809173A (zh) * | 2016-03-09 | 2016-07-27 | 中南大学 | 一种基于仿生物视觉变换的图像rstn不变属性特征提取及识别方法 |
Non-Patent Citations (1)
Title |
---|
生物视觉仿生在计算机视觉中的应用研究;王红梅等;《计算机应用研究》;20090331;第26卷(第3期);全文 |
Also Published As
Publication number | Publication date |
---|---|
CN106446833A (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446833B (zh) | 一种用于复杂场景图像识别的多通道仿生视觉方法 | |
Chahi et al. | Local directional ternary pattern: A new texture descriptor for texture classification | |
Andrearczyk et al. | Convolutional neural network on three orthogonal planes for dynamic texture classification | |
Shoieb et al. | Computer-aided model for skin diagnosis using deep learning | |
CN105957063B (zh) | 基于多尺度加权相似性测度的ct图像肝脏分割方法及系统 | |
CN108764085B (zh) | 基于生成对抗网络的人群计数方法 | |
CN104835175B (zh) | 一种基于视觉注意机制的核环境中目标检测方法 | |
CN105809173B (zh) | 一种基于仿生物视觉变换的图像rstn不变属性特征提取及识别方法 | |
Zheng et al. | Defect inspection in tire radiographic image using concise semantic segmentation | |
CN101271525A (zh) | 一种快速的图像序列特征显著图获取方法 | |
CN104835182A (zh) | 摄像机上实现动态目标实时跟踪的方法 | |
CN104268543B (zh) | 一种复杂纹理织物起球图像的采集方法 | |
Miau et al. | Neuromorphic algorithms for computer vision and attention | |
CN106682678A (zh) | 一种基于支撑域的图像角点检测和分类方法 | |
Wei et al. | Image feature extraction and object recognition based on vision neural mechanism | |
Mohedano et al. | Object segmentation in images using EEG signals | |
Uba | Land use and land cover classification using deep learning techniques | |
CN105716609B (zh) | 一种机器人室内视觉定位方法 | |
Hansen et al. | Neural mechanisms for the robust representation of junctions | |
CN109241981A (zh) | 一种基于稀疏编码的特征检测方法 | |
Lin et al. | Multi-scale contour detection model based on fixational eye movement mechanism | |
Yang et al. | Classification of human epithelial type 2 cell images using independent component analysis | |
Ozimek et al. | A space-variant visual pathway model for data efficient deep learning | |
Islam et al. | HOG and pairwise SVMs for neuromuscular activity recognition using instantaneous HD-sEMG images | |
CN107423765A (zh) | 基于稀疏编码反馈网络的自底而上显著目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 410205 Hexi Wangchengpo, Yuelu District, Changsha City, Hunan Province Patentee after: Hunan University of Technology Address before: 410205 Hexi Wangchengpo, Yuelu District, Changsha City, Hunan Province Patentee before: HUNAN University OF COMMERCE |
|
CP01 | Change in the name or title of a patent holder |