CN101299233B

CN101299233B - 基于fpga实现的运动目标识别与跟踪方法

Info

Publication number: CN101299233B
Application number: CN2008100178992A
Authority: CN
Inventors: 冯祖仁; 刘锁山; 田峰; 梁耀斌
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2008-04-08
Filing date: 2008-04-08
Publication date: 2010-11-10
Anticipated expiration: 2028-04-08
Also published as: CN101299233A

Abstract

本发明公开了一种基于FPGA实现的运动目标识别与跟踪方法，核心是一个CMOS+FPGA的视觉系统，它包含一个低分辨率CMOS视觉传感器，用于采集连续的图像数据，一块FPGA，实现图像的特征检测算法以及系统控制，对连续图像中的机器人及障碍物进行识别，跟踪，利用RS232串口和主机通信。FPGA中实现了SOM神经网络算法进行图像处理，以得到目标区域的位置及大小信息，它分为三个步骤：权值初始化、计算距离、权值更新。最后对通过FIR滤波消除噪声，提取平滑、一致的速度信息。该信息检测器具有体积小，功耗低，处理速度快的特点。

Description

基于FPGA实现的运动目标识别与跟踪方法

技术领域

本发明涉及一种运用SOM神经网络进行图像特征检测的方法，尤其涉及一种基于FPGA实现的运动目标识别与跟踪其方法。

背景技术

1、FPGA作为图像处理核心

在运动目标识别与跟踪中，由于以视频信号为处理对像，数据量，处理速度和硬件资源是视觉传感器实现这一目标的三个相互制约的因素，传统上有三种途径实现图像处理，通用处理器，数字信号处理器(DSP)芯片，专用集成芯片(ASIC)。各种途径都存在缺点：通用处理器数据处理速度慢，不能满足高速处理的要求；DSP拥有流水线特色和优化的算法(MAC只需一个时钟周期)，可以加速图像处理速度，但不适用于所有运算；ASIC功能专一，传感器功能单一，造价昂贵，适应性差。目前现场可编程门阵列FPGA(Field Programmable Gate Array)的规模和速度，已经能够实现具有一定复杂度的算法运算，以FPGA为计算与控制核心，具有速度快，适应性好，造价低等优点。

2、基于背景差和神经网络相结合的运动目标识别与跟踪方法

目前对于运动目标识别与跟踪算法的研究已经较为成熟。传统的方法是从图像中提取一些变量，通过们之间的比较来进行目标识别。目前流行的算法有光流法、帧间差法、背景差法。光流法运算公式复杂，计算量大，不适用于实时性要求很高的场合；实时性要求很高的情况下一般都采用帧间差法和背景差法。背景差法是3种方法中最直接、最简单的一种方法。这种方法事先把背景图像存储下来，然后将前景图像与背景图像作差。一般情况下，由于运动物体在灰度上与背景灰度存在着很明显的差异，这样作差后的差值图像只是在运动物体处有较大的灰度值。选取适当的阈值T，差值图像的灰度值大于T，视为前景物体，灰度值小于T，视为背景点。运用背景差法通常会遇到背景的获取、背景的更新和背景的扰动等问题。近年来神经网络的方法非常流行，既有用一阶神经网络实现的，也有用高阶神经网络实现的，例如BP神经网络用作图像目标识别。而其作为神经网络输入的或者是从图像中提取的某些特征，或者是对图像进行归一化处理后的图像，与传统目标识别方法相比较，能够更快速、准确地识别目标。

目前这些算法能够直接用于硬件上实现并用于现场的并不多。

发明内容

本发明的目的在于克服上述现有技术不足，提供一种基于FPGA实现的运动目标识别与跟踪方法，具有高效的前端视觉处理能力，视觉系统对运动敏感，并可实现对机器人运动同步采集，其输出应具有明确语义而不只是像素级信息。

本发明的技术方案是这样实现的：

一种基于FPGA实现的运动目标识别与跟踪方法，目标识别与跟踪方法分为下述三个步骤：

第一步，按照公式(一)，将前景图像与背景图像作灰度差，将差值图像二值化，得到包含目标区域大小和位置的二值图像，将不为零的像素点认为是目标区域，所述公式(一)如下：

Diff(x，y)＝|Foreground(x，y)-Background(x，y)|＞Threshold？1:0

0≤x≤Height，0≤y≤Width；公式(一)

x，y代表像素点在像素平面的位置信息，Height，Width为图像的高与宽，Foreground，Background为前景图像灰度值与背景图像灰度值，Diff为灰度差，Threshold为设定的阈值；

第二步，将第一步中得到的二值图像Diff(x，y)输入到SOM神经网络算法模块，得到目标区域的中心位置及大小信息；

第三步，按照公式(二)，将第二步中得到的目标区域的中心位置及大小信息输入到FIR滤波器中，得到目标区域的速度估计，公式(二)如下：

v_{x} = \frac{N_{c} Σ_{i = 1}^{N_{c}} i x_{i} - Σ_{i = 1}^{N_{c}} i Σ_{i = 1}^{N_{c}} x_{i}}{T {(N_{c} Σ_{i = 1}^{N_{c}} i^{2} - {(Σ_{i = 1}^{N_{c}} i)}^{2})}^{2}};

公式(二)

v_{y} = \frac{N_{c} Σ_{i = 1}^{N_{c}} i y_{i} - Σ_{i = 1}^{N_{c}} i Σ_{i = 1}^{N_{c}} y_{i}}{T {(N_{c} Σ_{i = 1}^{N_{c}} i^{2} - {(Σ_{i = 1}^{N_{c}} i)}^{2})}^{2}};

v_x，v_y为目标区域在x，y方向上的运动速度，x_i，y_i为目标区域的位置信息，N_c为FIR滤波器的阶数，i＝1，...，N_c，T为采样的时间间隔；

其中，SOM神经网络算法模块的步骤包括：

Step 1)按照公式(三)权值向量初始化，所述公式(三)如下：

[w₀，w₁，w₂]＝[x，y，Diff(x，y)]；公式(三)

[w₀，w₁，w₂]为神经网络的权值向量，x，y为像素点在像素平面的位置信息，Diff(x，y)为对应像素点灰度差值；

Step 2)按照公式(四)计算输入向量[α₁，α₂，α₃]和各神经元之间的距离，所述公式(四)如下：

D_{j} = Σ_{i = 1}^{3} {(α_{i} - w_{ji})}^{2};

公式(四)

α_i为输入向量的i分量，i为输入向量元素的下标，i＝1，2，3，j表示第j个神经元，w_ji为与第j个神经元连接的权值向量的i分量，D_j为输入向量与权值向量的距离；

Step 3)按照公式(五)权值更新，所述公式(五)如下：

w_ji(t+1)＝w_ji(t)+λ×(x_i(t)-w_ji(t))；公式(五)

t为当前时刻，w_ji(t)，w_ji(t+1)分别表示t，t+1时刻权值向量的i分量，i表示输入向量的分量下标，x_i(t)为t时刻输入向量的i分量，j表示第j个神经元，w_ji同公式(四)中的w_ji含义相同，λ为学习速率；

Step 4)求取获胜节点，公式(六)如下：

min{D_j}，j≤N_neuron；公式(六)

N_neuron为输出神经元的个数，j表示第j个神经元。

所述SOM神经网络算法模块中，从像素平面随机选择n＝1000个像素点输入到神经网络模块进行训练。

所述FIR滤波器中，设定所述的目标区域在很小一段时间Δt内运动方程如公式(七)，即匀速直线运动，所述公式(七)如下：

x(t)＝v_x×t+x₀，y(t)＝v_y×t+y₀；公式(七)

t为当前时刻，x(t)，y(t)为t时刻目标区域的位置，x₀，y₀为目标区域的初始位置；

通过随机选择像素输入对神经元向量进行初始化，所选像素点在像素平面的位置(x，y)存储在FPGA内部的ROM中。

所述方法step 2)计算输入向量和各神经元之间的距离中，按照公式(八)替代乘法，求输入向量和各神经元之间的距离，公式(八)如下：

D_j＝|x-w_j1|+|y-w_j2|+|Diff(x，y)-w_j3|；公式(八)

然后在得到的距离中求取最小值作为获胜节点。

本发明提出一种实现运动目标识别与跟踪方法。以FPGA作为计算与控制核心，实现图像的特征检测算法以及系统控制，对连续图像中的机器人及障碍物进行识别，它的图像处理速度快，最高速度可达上千帧每秒，所以它能够满足高速处理的要求；视觉系统由一块FPGA主板及视觉传感器组成，体积小，功耗低，能够很容易地布置在机器人行走的环境中，并且在只有电池供电的情况下能够长期使用。

本发明提出一种基于FPGA实现的运动目标识别与跟踪方法。SOM神经网络算法非常适合于基于FPGA实现，所需存储空间小，不需要外部扩展存储空间，检测速度快。

附图说明

图1是FPGA+CMOS视觉系统的架构图。

图2是SOM神经网络的算法流程图。

图3是SOM神经网络中距离计算部分电路结构图。

图4是SOM神经网络中权值更新部分电路结构图。

图5是FIR滤波器结构图。

图6是背景更新电路结构图。

图7是视觉传感器EVS100K读取控制状态机图。

图8是SOM神经网络结构图。

具体实施方式

本发明硬件包括一个低分辨率的视觉传感器EVS100K11，一块FPGA。运动信息检测装置是以FPGA作为计算和控制核心，FPGA的特点是能够通过软件编程无限次更改内部硬件逻辑，改变功能，编程后的FPGA相当于专用集成芯片，基于FPGA构建的系统，采用硬件电路实现软件功能，具有很高的运动速度，由于它现场可编程，可以按照实际需要进行更改，具有很高的灵活性，非常适合一定适应性的视觉传感器中。设计中采用的FPGA芯片为Altera公司的Cyclone-I型号产品，它内部包含大约1万2千个逻辑单元以及60000比特的片内RAM。它的规模能够实现一定复杂度的图像处理算法。所述FPGA内部实现了视觉传感器读写控制、双口RAM、SOM神经网络、FIR滤波，NIOS控制核心，以及所述SOM神经网络包括的权值初始化单元、权值更新单元、求取获胜神经元单元。本发明提出一种运动目标识别与跟踪方法分为三个步骤。

参照图1所示，视觉传感器读写控制12，用作对EVS100K读写时序控制；双口RAM 13，用于存储EVS100K中采集的图像数据，SOM神经网络14，它实现了图像特征检测算法；FIR滤波15通过avalon总线连接NIOS控制核心16，主机通过串口连接NIOS控制核心16，Zigbee通信网络通过PIO口连接NIOS控制核心16，视觉传感器通过PIO口连接FPGA主板。低分辨率的视觉传感器EVS100K 11，用于采集连续的图像数据。

参照图2所示，SOM神经网络算法步骤包含：权值向量初始化21、距离计算及求取获胜神经单元22、权值更新单元23；clk是系统时钟信号；神经网络输入数据α₁，α₂，α₃分别代表像素点在像平面的纵、横坐标、像素点灰度值量化后的数值；init_wts信号的上升沿触发权值向量初始化，它利用神经网络的输入α₁，α₂，α₃完成对权值向量的初始化工作，然后start_train有效，触发神经网络开始工作；在load_x的上升沿，神经网络开始计算输入向量和权值向量的距离，并求取获胜神经元；当单帧图像数据训练完毕后系统输出frame_finish，高有效，同时输出目标区域的位置信息pos_x，pos_y。

参照图3所示，输入向量α₁，α₂，α₃的各分量与神经元权值向量w_i1，w_i2，w_i3的各分量分别输入到三个加法器31、32、33中作减法运算，得到的差值分别输入到三个绝对值运算单元中34、35、36求取差值的绝对值，最后通过加法器37求取上述绝对值之和，得到输入向量和权值向量的距离D_j，计算公式如下所述：

D_j＝|α₁-w_j1|+|α₂-w_j2|+|α₃-w_j3|；

参照图4所示，乘法单元41求取输入向量i分量α_i与学习速率λ的乘积，乘法单元42求取权值向量i分量w_ji与1-λ的乘积，加法器单元43求取上述乘积之和，得到t+1时刻的权值向量，权值向量更新公式如下所述：

w_ji(t+1)＝w_ji(t)+λ×(α_i(t)-w_ji(t))；

参照图5所示，FIR滤波器是七阶的，输入连续的七组数据x₁，x₂，x₃，x₄，x₅，x₆，x₇，因此，可以得到目标区域的速度估计公式如下所述：

V_{x} = \frac{3 (x_{7} - x_{1}) + 2 (x_{6} - x_{2}) + (x_{5} - x_{3})}{28};

参照图6所示，两块双口RAM单元61、62用于存储图像背景数据；二选一的多路选择器63选择两块双口RAM中的一路数据作为输出；sel_back_image为两块RAM的片选信号，当sel_back_image＝1时，选择第一块双口RAM作为输出，当sel_back_image＝0时，选择第二块双口RAM作为输出；系统开机运行时，输出store_back_image信号保存第一幅背景数据；ram_wr_ena信号写使能两块RAM；data_in[7:0]为输入图像数据，8位位宽。

参照图7所示，对视觉传感器的读写控制是一个Mealy型的状态机，其状态包括初始化、曝光71、图像采样72A、72B、数据读取73；当init＝1时，EVS100K开始进行初始化，初始化完毕输出init_ready＝1；set_x_addr，set_y_addr为设置行，列地址使能信号，高有效，当设置行，列地址完毕后输出set_x_ready＝1，set_y_ready＝1。

参照图8所示，SOM神经网络拓扑结构图，输出神经元组织成二维阵列，输入神经元和输出神经元为全连接。

本发明涉及一种运动信息检测器装置，是一种能够检测复杂环境中机器人运动信息的电子设备。它的核心是一个CMOS+FPGA的视觉系统，它包含一个低分辨率CMOS视觉传感器，用于采集连续的图像数据，一块大容量的FPGA，实现图像的特征检测算法以及系统控制，对连续图像中的机器人及障碍物进行识别与跟踪，利用RS232串口和主机通信。FPGA中实现了SOM神经网络算法进行图像处理，以得到目标区域的位置及大小信息，它分为三个步骤：权值初始化、距离计算、权值更新。最后对通过FIR滤波消除噪声，提取平滑、一致的速度信息。该信息检测器具有体积小，功耗低，处理速度快的特点。下面介绍该装置的原理及具体实施方法。

1、图像数据采集

本发明采用EVS100K型号的低分辨视觉传感器，对它的读写控制如附图7所示，分为初始化、曝光71、图像采样72A、72B、数据读取73四个阶段，在FPGA里面用Verilog描述该过程是一Mealy型的状态机。EVS100K的曝光时间是可控的，根据光照不同，光照条件好的话曝光时间可达5ms。EVS100K的最大分辨率可达352行×288列，内部图像RGB数据按照Bayer模式排列，即第一行数据为：RGRGRG……，第二行GBGBGB……，第三行RGRGRG……，第四行GBGBGB……。因此(i，j)处的RGB值可由其八邻域的图像数据推算出。

2、背景更新

背景更新部分电路图如图6所示，它包含由二块双口RAM构成的乒乓结构。一块用于更新背景图像数据61，而另一块才是真正用于存储算法中作背景差的背景图片62。其中主要的控制信号为sel_back_image，当sel_back_image＝1时，系统利用RAM1更新背景数据，利用RAM2中的图像数据计算背景差。同时，当store_back_image＝1时，两块RAM则同时更新背景数据，这是由于系统在开机运行时，两块RAM都没有存储背景数据，这时两块RAM则同时需要存储背景数据，所以在系统开机采集第一帧图像数据时，将store_back_image设为1。两块RAM的数据输出要通过一个二选一的译码器，和更新背景数据相对应，当sel_back_image＝1时，选择RAM2的数据进行输出，当sel_back_image＝0，时，选择RAM1的数据进行输出。

3、SOM神经网络

自组织特征映射网络(Self-Organizing Feature Map，即SOM)是由芬兰科学家Kohonen于1984年提出的，其本质上是一种无监督竞争学习网络。其结构上本身具有的2D特性吸引我们尝试用SOM网络进行图像识别。

我们采用二维的SOM网络，它由输入和输出层组成，每个输入通过权值与输出神经元相连接。

算法步骤

step 1：网络初始化，特别是权值初始化，对所有n个输入到m个输出节点的连接权值赋予(0，1)区间上的小随机数。n是视觉传感器EVS100K的有效感光区域，均匀分布概率下选取的随机采样点数；

step 2：输入给定向量X＝[α₁，α₂，α₃]；

step 3：计算给定输入和各神经元之间的欧氏距离；

step 4：寻找最小距离的神经元节点(获胜节点)；

step 5：对获胜节点邻域内的神经元的权值进行调整；

w_ji(t+1)＝w_ji(t)+λ×(α_i(t)-w_ji(t))

step 6：按邻域函数计算下邻域大小，学习速率按线性递减。

如象素未处理完毕，返回step 2。

本发明在FPGA中实现SOM神经网络，它不需要对整幅图像的所有数据进行处理，只需要从图像中随机选取一部分数据输入到神经网络进行训练，便可以得到目标区域的大小及位置信息，从而有效地减小存储空间，特别是基于FPGA实现，利用FPGA并行计算的特点，显著地提高了运算速度。下面具体描述SOM在神经网络中的实现。

系统流程如图2所示，如其所述，包括三部分。首先初始化权值向量21，接着计算输入向量和各神经元的距离22，最后对获胜节点进行权值更新23。其中权值向量初始化，一种方法是对权值赋一个随机数，但是这种方法需要一个随机数生成器；另一种方法是通过随机选取一些输入向量对权值向量进行初始化。在这里，考虑到FPGA内部生成随机数比较困难，采用后者，但每次初始化选取的像素点的位置是固定的，这些固定的位置是在图像平面上随机选取的，并将其存储在FPGA内部的ROM中。

3.1、数据表示

由于硬件中只能表示整数，所以在这里需要将小数量化为整数来表示。神经网络的输入向量及权值向量均为三维向量[α₁，α₂，α₃]，分别像素点所在像平面的纵坐标，横坐标、像素灰度值，，在这里都将其量化为[0，255]区间上的整数。像素的灰度值取值范围为0～255，纵坐标取值范围为0～240，横坐标取值范围为0～320，在FPGA中采用8位整数对其进行量化，量化方法如下：

α₁＝255*纵坐标/240；

α₂＝255*横坐标/320；

α₃＝255*灰度值/255；

3.2、邻域函数Nc(t)

神经网络算法中要求邻域函数Nc(t)关于t严格单调递减，并且保证t→∞时，邻域中只包含获胜神经元本身。在FPGA中，采用6X6的二维神经元阵列，所以其邻域函数的取值范围为0.01～6，更新时每次递减0.5，因此可将其量化为1～12，这样Verilog语言中只需对其进行自减运算。

3.3、学习速率λ

λ是时变的，计算公式为0.2*(1-t/1000)，即当t＝0时，λ取得最大值为0.2，当t＝1000时λ取得最小值为0，每次更新递减0.2/1000＝0.0002。这里为了在FPGA里面适合于用整数表示。对计算公式稍作修改，即为0.25*(1-t/1024)，因此可以将其在FPGA量化为12位整数，对应的整数取值范围为：当t＝0时取最大值0.25，当t＝1024时，取小值0。因此，更新λ需进行减一运算，因此每次递减0.25/1024＝0.000244。

3.4、距离计算

计算给定输入[α₁，α₂，α₃]向量和各神经元权值向量之间的欧氏距离

但是由于实现乘法器在FPGA中会占用大量逻辑单元，所以具体实现时我们采用下式来取代上述距离计算公式

然后寻找最小距离的神经元节点(获胜节点)，min(D_j)，距离结果保留9位精度。对于36个神经元，如果同进行权值更新，需要36个距离计算模块进行并行计算。上述每个距离计算模块实现如图3所示，包括四个加法器31，32，33，37，三个求绝对值部分34，35，36。

3.5、权值更新

Kohonen算法中对邻域内的节点，按权值调整公式计算如下：

w_ji(t+1)＝w_ji(t)+λ×(α_i(t)-w_ji(t))

上式中，权值wts为8位整数，自适应算法中，权值的调整使其趋近于输入input，因此，输入input为8位整数，输入仍为8位整数，不会产生溢出。权值更新中存在乘法运算，在这里采用兆函数乘法包(lpm_mul)，参数设置如下：

lpm_mult mul225

(

.dataa(lam)，

.datab(datab225)，

.result(deta225)

)；

defparam mul225.lpm_widtha＝12；

defparam mul225.lpm_widthb＝10；

defparam mul225.lpm_widthp＝10；

defparam mul225.lpm_widths＝22；

defparam mul225.lpm_representation＝″SIGNED″；

其中学习速率为12位整数，datab225＝x₂-weights225，由于datab225可能为负，采用补码表示x₂和weights225均为9位整数，所以结果datab225用10位整数表示。最终乘法输出结果保留10位，最高位为符号位，乘法器计算方式为有符号数计算，lpm_representation＝″SIGNED″。

上述实现电路如图4所示，它包括二个乘法器41，42，一个加法器43。

4、FIR滤波

SOM神经网络输出的物体位置序列含有量测噪声。Motion Estimation滤除这种噪声影响，提取平滑、一致的速度信息。假定SOM神经网络的测量时间间隔为T，得到的物体的一个位置序列为(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，L(x_N，y_N)。在一段较短的时间内，物体的运动形式可以认为是匀速直线运动，即

x(t)＝v_x×t+x₀；

y(t)＝v_y×t+y₀；

其中v_x，v_y分别是x和y方向的速度，(x₀，y₀)是物体的初始位置。按照最小二乘准则，应让

取得最小值，此时有：

v_{x} = \frac{N Σ_{i = 1}^{N} i x_{i} - Σ_{i = 1}^{N} i Σ_{i = 1}^{N} x_{i}}{T (N Σ_{i = 1}^{N} i^{2} - {(Σ_{i = 1}^{N} i)}^{2})};

v_{y} = \frac{N Σ_{i = 1}^{N} i y_{i} - i Σ_{i = 1}^{N} y_{i}}{T (N Σ_{i = 1}^{N} i^{2} - {(Σ_{i = 1}^{N} i)}^{2})}

上式中，N和T已知，v_x是N个x_i的线性组合，v_y是N个y_i的线性组合。这可以用FIR滤波器来实现，可以高效地由FPGA实现。

例如，这里运用最小二乘法，采样连续七组数据(x或y)，对运动物体X方向和Y方向的速度进行估计。可以得到，

V_{x} = \frac{7 Σ_{i = 1}^{7} i x_{i} - Σ_{i = 1}^{7} i Σ_{j = 1}^{7} x_{j}}{T (7 Σ_{i = 1}^{7} i^{2} - {(Σ_{i = 1}^{7} i)}^{2})}

= \frac{3 (x_{7} - x_{1}) + 2 (x_{6} - x_{2}) + (x_{5} - x_{3})}{28 T}

取T＝1，有，

V_{x} = \frac{3 (x_{7} - x_{1}) + 2 (x_{6} - x_{2}) + (x_{5} - x_{3})}{28}

= 0.107 {Δx}_{71} + 0.0714 {Δx}_{62} + 0.0357 {Δx}_{53}

即这里只需要用一个三阶的FIR滤波器即可实现对运动物体X方向的速度估计。同理，可以得到，对于Y方向的速度估计：

V_y＝0.1071Δy₇₁+0.0714Δy₆₂+0.0357Δy₅₃

可以看出，对速度的估计实计上是与x₄无关的。

Claims

1.一种基于FPGA实现的运动目标识别与跟踪方法，其特征在于，目标识别与跟踪方法分为下述三个步骤：