CN201853209U

CN201853209U - 实时视频图像坐标识别系统

Info

Publication number: CN201853209U
Application number: CN2010201593660U
Authority: CN
Inventors: 高俊华; 徐睿; 国海欣; 彭超然; 屠斌杰
Original assignee: SHANGHAI TIANPAI WIRELESS TECHNOLOGY CO LTD
Current assignee: SHANGHAI TIANPAI WIRELESS TECHNOLOGY CO LTD
Priority date: 2010-04-15
Filing date: 2010-04-15
Publication date: 2011-06-01
Anticipated expiration: 2020-04-15

Abstract

本实用新型涉及一种实时视频图像坐标识别系统，包括图像传感器，FPGA嵌入式系统，SDRAM存储器以及USB控制器。通过进行实时视频采集、视频分析、捕获特征点，特征点位置坐标变换与计算机通信等一系列工作，实现了对数字视频图像的实时坐标识别以及交互式操作。本实用新型具有很好的定位精度，定位误差小于2.5mm，同时具有功耗低，成本低，体积小，便于携带等优点。

Description

实时视频图像坐标识别系统

技术领域

本申请涉及一种图像坐标识别系统，尤其地，涉及一种基于FPGA的实时视频图像坐标识别系统，其可进行交互式投影定位。

背景技术

随着多媒体技术的不断发展，需要对视频图像进行实时的处理，以及同步的坐标识别及定位，进而进行一些交互式操作。因此，一些相关的处理系统便应运而生。较为常见的交互式投影定位主要有以下几种方式：

(1)超声波定位

这是基于回音三角定位技术来进行定位，该技术实现难度较小，但是精度比较差，通常有1～5CM的误差，而且容易受到反射平面上其他物体干扰，所以使用的产品比较少。

(2)超声波与红外结合的方式

该方式将超声波三角定位和红外超声速度差定位两种方式相结合，是主流的特征点定位方式。此类方式的优点在于定位比较精确，缺点在于必须安装在投影白板上。这对于使用投影幕的用户来说不是很方便。

(3)激光光电定位方式

该方式首先采集激光光点信息，然后通过坐标变换来定位，但要求激光亮度高，光斑小。

(4)红外整列阵列

这种技术通过安装红外发射接收器阵列，由特征物体遮挡红外光导致接收器阵列出现的亮暗变化来定位特征点。但此技术安装比较麻烦，而且对于大尺寸的发射接收器来说，存在耗电量比较大的问题。

(5)基于触摸屏定位

将特制的触摸屏安装在白板表面，然后根据压力导致的电压/电容变化确定压力点位置。但对于大尺寸的交互式投影场合，安装大尺寸触摸屏费用非常昂贵。

因而，使用嵌入式系统进行实时的视频图像处理已经成了当前研究的热点课题。为了实现嵌入式系统的图像处理，现有的方法包括：首先将图像数据经过专用处理电路，如硬件电路模块或专用DSP，进行采集和压缩处理；然后，将处理后的信号传送至嵌入式处理器以进行相关的处理。然而，采用专用处理电路进行图像数据的采集和压缩处理，虽然能够较大的提高处理速度，但是由于其增加制造成本、增大电路体积、增大功耗，并且对图像的处理方式相对固定，难以根据实际需求灵活改变，从而使得上述方式的嵌入式图像处理系统的应用受到了一定程度的限制。

另一方面，在对视频图像的实时处理时，需要进行有效的坐标识别，从而进行一系列的相关操作，如人脸识别，车牌识别，定位识别等，进而可在坐标识别的基础上进行一系列交互式操作，从而可实时的对所采集到的图像进行相关的调整和处理。然而，现有技术中对视频图像进行的坐标识别通常存在定位精度不够，定位误差较大的问题，从而不能准确有效的进行后续交互式操作。

因此，本实用新型提供一种基于FPGA的嵌入式实时视频图像识别系统，其体积小，功耗低，功能性强，便于携带，可广泛的应用于相应的处理系统中。

实用新型内容

本实用新型提供一种基于FPGA的实时视频图像坐标识别系统，其能够高效的进行实时坐标识别，使得定位误差小于2.5mm，同时具有功耗低，成本低，体积小，便于携带等优点。

按照本实用新型，提供一种基于FPGA的实时视频图像坐标识别系统，所述系统包括：

图像传感器，用于采集视频图像；

同步动态随机存取存储器，用于存储采集到的视频图像数据；

FPGA嵌入式系统，其中所述FPGA嵌入式系统包括：

同步动态随机存取存储器控制器，用于控制所述同步动态随机存取

存储器的操作；

数字信号处理单元，用于对采集到的视频图像数据进行处理；

控制单元，用于控制所述FPGA嵌入式系统的操作；

USB控制器，用于控制所述FPGA嵌入式系统与外部设备的通信。

其中，在视频采集镜头后还安装一红外滤光片，并在在视频图像的采集后，进行视频采集镜头的畸变校正。

其中，所述图像传感器为COMS图像传感器，在所述FPGA嵌入式系统的配置下采集到的视频图像分辨率为640x480，采集帧率为60帧/秒。

其中，所述同步动态随机存取存储器被配置为全页突发模式，采用异步FIFO作为其与所述FPGA嵌入式系统之间的数据缓冲器。

其中，所述数字信号处理单元又包括图像预处理模块和数字识别模块，所述图像预处理模块对图像进行图像增强、二值化、归一化、细化、数字特征值提取等操作，所述数字识别模块进行建立数字特征库，模板匹配数字识别等操作。

其中，所述USB控制器为FT245BM。

因此，所述基于FPGA的实时视频图像坐标识别系统能够有效的进行实时的视频图像坐标识别，达到较高的识别率和良好的抗噪性能，以进行实时的交互式操作。同时，系统具有跟踪多个数字特征值的能力，能够实现多点触摸等高级功能。

附图说明

图1为本实用新型的系统使用场景简图；

图2为本实用新型的硬件体系结构图；

图3为本实用新型视频采集的光学成像系统简图；

图4为本实用新型视频采集镜头的畸变示意图；

图5(a)为本实用新型的SDRAM控制器的设计图；

图5(b)为本实用新型的SDRAM控制器的结构图；

图6为最大类间方差法选取阈值的流程图；

图7为Hilditch细化算法流程图；

图8为本实用新型图像特征点提取流程图；

图9为本实用新型的图像预处理流程图；

图10为本实用新型的模板匹配数字识别的具体流程图；

图11为本实用新型的FT245BM芯片的功能框图。

具体实施方式

下面将结合附图对本实用新型做出更为清楚详细的说明。

图1是本实用新型的系统的使用场景简图。其中视频采集处理模块为本实用新型的核心部分，其能够捕捉投影幕上的图像以及用户使用的笔的笔尖位置，即特征位置。同时，该视频采集处理模块将上述位置信息转换为鼠标信息，使投影幕变成一个大的“触摸屏”或者“交互式白板”，用户可以在投影幕上进行绘画、书写、点击等工作。另外，该系统还具有跟踪多个特征点的能力，能够实现多点触摸等高级功能。

下面将详细介绍本实用新型的系统的硬件体系结构。如图2所示，该系统主要包括图像传感器，FPGA嵌入式系统，SDRAM存储器，以及USB控制器。其中，该系统的核心单元是FPGA嵌入式系统。通过在FPGA中实现SDRAM控制器，微控制器以及DSP运算单元来实现图像的捕捉，采集，分析以及对USB控制器和SDRAM的控制与操作。

其中，所采用的图像传感器为CMOS图像传感器，其为该系统中数字图像采集模块的核心。在本实用新型中，采用的是美国OmniVision技术有限公司生产的COMS图像传感器。该COMS图像传感器集成有诸如曝光控制、伽玛、增益、白色控制、彩色矩阵、彩色饱和度、色彩控制、窗口等照相功能。能够通过串行I²C/SCCB总线接口编程，通过编程实现8位和16位格式的输出。OV公司定义和配置了一种串行成像控制总线SCCB(Serial CameraControl Bus)，它是一种3线串行总线，可以控制大多数OV公司的CMOS图像传感器。为减少芯片封装，SCCB可以在2线串行模式下工作。OV系列传感器可以通过SCCB接口提供图像的全帧采样，窗口采样，并且可以完全由用户来控制图像质量、格式和输出数据流。所有的图像处理功能包括曝光控制、gamma、白平衡、色彩饱和度、色调控制等均可通过SCCB接口编程实现。为了满足互动投影的要求，对采集的图像要求分辨率高，帧数多，并且需要根据环境设定合理的曝光时间等参数。对图像配置主要是通过FPGA来实现。FPGA接受COMS图像传感器提供的行同步和帧同步信号，并同时向图像传感器提供数据同步时钟。FPGA与图像传感器之间有控制信号接口与数据信号接口。其中控制信号接口用于由FPGA配置COMS图像传感器，包括进行采样速度，图片格式，图片大小，白平衡，增益等的配置。在该系统中COMS图像传感器采集到的图像的分辨率为640x480，帧率为60帧/秒。实际实验表明，该配置能满足交互投影定位的要求。至于对曝光时间的控制，需要在视频图像识别工作前，先预采集一些图片，并对图片中亮度进行柱状直方图分析，根据分析结果，确定曝光时间的相关参数配置。

为了有效提取特征点，本系统使用了近红外发光二极管制作的笔头作为特征点。如图3所示，为本系统视频采集的光学成像系统简图。可以看到与普通光学系统最大的不同在于，在镜头透镜组的最后增加了一片红外滤光片。根据实际情况可以选择700nm～1000nm波长的红外滤片。这里发光二极管可以是任意类型的二极管，但是为了节能，特别选用了850nm波长的发光二极管，并配合850nm红外滤光片使用，从而得到了红外成像的原始图片。

另外，为了提供精确的定位，首先需要对采集图像的镜头进行畸变校正，并存储畸变变形参数，以便对每个特征点的坐标位置进行校正。一般地，镜头畸变分为桶状畸变和枕状畸变，如图4所示。

通常，国内视频采集镜头使用的镜头组产生的畸变为桶状畸变，镜头中心的畸变通常为0，各点到镜头中心的距离可以使用函数拟合为：

R＝r(1+k₁+k₂×r+k₃×r²......)

这里r为点到透镜中心实际距离，R为变形以后点到透镜中心的距离。而k₁，k₂，k₃为变形参数。

假设(u，v)为理想镜头(无任何变形畸变镜头)上像素点。而

是真实镜头中对应像素点坐标。同理，设(x，y)和

分别是理想和真实图像上任意点的标准化坐标。那么就有：

\overset{&OverBar;}{u} = u + (u + u_{0}) [k 1 (x^{2} + y^{2}) + k 2 {(x^{2} + y^{2})}^{2}]

\overset{&OverBar;}{v} = v + (v + v_{0}) [k 1 (x^{2} + y^{2}) + k 2 {(x^{2} + y^{2})}^{2}]

在采集系统出厂前，通常使用标准校对图，例如棋盘格图，进行成像状况的校对。通过校对n张图像中m个特征点的坐标数据，可以得到2mn个方程。这样可以通过线性方程组求解来使用软件自动计算k1，k2，k3的值，并将值存储在硬件系统中备用。

当上述COMS图像传感器采集到所需要的数字视频图像后，先将其存储在SDRAM存储器中，以供后续的FPGA嵌入式系统进行相关的处理。SDRAM作为大容量、高速度、低价格、低功耗的存储器件，在嵌入式实时图像处理系统中具有很高的应用价值，但其控制机制复杂。因此需要设计控制器，以简化系统对SDRAM的访问。虽然目前许多微处理器及DSP都提供了与SDRAM的直接接口，但这种通用控制器的执行效率很低，难以满足实时系统对速度的要求。因此，在本系统中，FPGA中有专门的SDRAM控制器，用于控制SDRAM上的数据存取。

如图5(a)所示，所述SDRAM控制器包括：片选，时钟，时钟使能，行列地址选择，读写选择，数据有效等引脚。其具体结构图如图5(b)所示，主要由时钟锁相环模块、初始化模块、刷新控制模块、数据通路模块、输入/输出FIFO模块、FIFO接口模块和主控制器模块组成。其中，所述时钟锁相环模块用于将输入时钟倍频为所需要的时钟，并根据电路板布局进行相移，以保证在时钟上升沿准确的采样命令和数据。所述初始化模块用于由时间、顺序和个数的控制命令对SDRAM进行初始化配置，并在进程结束后发出ini_end信号，以启动主状态机。所述刷新控制模块以最长7.812μs的间隔发出刷新请求信号ref_req，并接收主控制器发出的ref_ack信号，重新刷新计数器。所述数据通路模块用于控制数据的有效输入/输出。

在本系统中，对SDRAM控制器中读写操作的数据连续性要求很高，但读写速度比较低，而对SDRAM中读写操作的数据连续性并无要求，但读写速度很高。因此需要使用异步FIFO作为输入/输出缓存。另外，由于在本系统中将SDRAM配置为全页突发模式，为了充分发挥SDRAM高速读写的特点，输入/输出FIFO采用了乒乓操作的流水线结构，其数据宽度为16b，深度可视系统需要而定，但应大于一次读写的数据长度LENGTH，从而在保证数据连续性的同时，更能降低低速前端对高速SDRAM访问的影响。现以输入FIFO为例，当某个输入FIFO写满LENGTH数据时，主控制器从该输入FIFO读出数据写入SDRAM，同时系统向另一个输入FIFO写入数据。

FIFO接口模块的作用是将FIFO的状态信号转换为主控制器的读写请求信号，并控制切换输入/输出的两个FIFO。以向SDRAM写入数据为例，若某个输入FIFO的写入数据个数标志信号in_wr_used与LENGTH相等，则向主控制器发出写SDRAM请求，并将该输入FIFO中的LENGTH长度的数据一次写入SDRAM，同时控制系统向另一个输入FIFO写入数据。

另外，由于SDRAM支持多种工作模式，将其全部包含在主控制器状态机中会大大增加设计难度，并降低运行速度。考虑到一些模式在实时图像处理系统中并不需要，所以可对SDRAM主控制器韵状态进行相应的简化。

对于主控制器模块，当SDRAM工作在全页突发模式时，读写操作所访问的地址将在页内循环，直至收到Burst-Termi-nate命令或Pre-charge命令。由于在Burst-Termi-nate命令后还需发出Pre-charge命令才能保证芯片正常工作。因此设计采用了Pre-charge命令终止页模式。为保证LENGTH数据正确读出或写入SDRAM，发出Pre-charge命令时必须满足一定的时序要求。对于读操作，Pre-charge应在最后一个有效输出数据之前CL-1时钟发出；对于写操作，Pre-charge应在最后一个有效输入数据之后tDPL时间发出。

当SDRAM中的数据被读入FPGA中后，需要对得到的数字视频图像进行相应的处理，以获得所需的定位信息。上述处理过程均在FPGA中的数字信号处理单元中完成。其中，所述数字信号处理又包括图像预处理和数字识别两部分。

在图像预处理过程中，需要对得到的数字视频图像进行图像增强、二值化、归一化、细化、数字特征值提取等操作。

首先，进行图像增强操作。图像增强是增强图像中的有用信息，它可以是一个失真的过程，其目的是改善图像的视觉效果，针对给定图像的应用场合，有目的地强调图像的整体或局部特性，扩大图像中不同物体特征之间的差别，满足某些特殊分析的需要。其方法是通过一定手段对原图像附加一些信息或变换数据，有选择地突出图像中感兴趣的特征或者抑制/掩盖图像中某些不需要的特征，使图像与视觉响应特性相匹配。在图像增强过程中，不分析图像降质的原因，处理后的图像不一定逼近原始图像。图像增强技术根据增强处理过程所在的空间不同，可分为基于空域的算法和基于频域的算法两大类。基于空域的算法处理时直接对图像灰度级做运算，具有代表性的有局部求平均值法和中值滤波法等，它们可用于去除或减弱噪声；基于频域的算法是在图像的某种变换域内对图像的变换系数值进行某种修正，是一种间接增强的算法。具体的基于频域的算法把图像看成一种二维信号，对其进行基于二维傅里叶变换的信号增强。其中，采用低通滤波法，可去掉图中的噪声；采用高通滤波法，则可增强边缘等高频信号，使模糊的图片变得清晰。

具体地，基于空域的算法分为点运算算法和邻域去噪算法。点运算算法即灰度级校正、灰度变换和直方图修正等，目的是使图像成像均匀，或扩大图像动态范围，扩展对比度。邻域去噪算法分为图像平滑和锐化两种。平滑一般用于消除图像噪声，但是也容易引起边缘的模糊，常用算法有均值滤波、中值滤波。锐化的目的在于突出物体的边缘轮廓，便于目标识别，常用算法有梯度法、算子、高通滤波、掩模匹配法、统计差值法等。

上述处理之后，需要对图像进行二值化处理。二值化就是为了使整个图像呈现出明显的黑白效果，而让图像上的所有点的灰度值只用两种可能表示，即不是“0”就为“255”。二值化的最终目的为在原图像中反映图像结构的灰度值差别经映射后被保留，而不反映图像结构的灰度值抖动被消除，从而最终得到的只是构成字符图像的关键信息。二值化的关键步骤是确定阈值，而确定阈值主要分为两种方法：定阀值法和自适应阈值。其中定阈值法思想简单，实现起来也比较容易。首先对灰度图像进行扫描，根据得到图像中点的亮度情况，自动地设定一个阀值。比如说，想使图像中70％的点的颜色是黑色的，那么这个阀值就应该取整个图像中所有像素亮度值排序中的70％位置上的亮度值，高于这个值的就认为是“255”，即白色，低于这个值就认为是“0”，即黑色。一般来说，它要求在设定之前对整个图像的亮度有大致地了解。但这种办法局限性大，使用面窄。实际应用中，文件中的颜色千差万别，用定阈值的方法可能得到的结果就是黑黑的一片或者白茫茫一片。所以自适应的阈值选定法得到了更为广泛的研究和应用。其主要利用直方图进行相应的选定。直方图是一种集合图形表，是根据图像中各个灰度的点的数量分布情况，以组距为底边、以频数为高度的一系列连接起来的直方型矩形图。实际上就是利用了统计的思想，统计的越详细越容易确定这个最优阈值。通常，在直方图中，较黑的部分和较白的部分中间行成一个波谷，这个波谷的值就是阈值的最佳值。实际上自适应的方法全部是基于统计学的结果，主要的选取方法有极小值点阈值、最优阈值、最大类间方差法阈值。

在本系统中，采用的是最大类间方差法。由Ostu提出的最大类间方差法，算法简单、稳定有效，是一种受到普遍欢迎的阈值选取方法。其基本思路是将直方图在某一阈值处分割成两组，当被分成的两组的方差为最大时，得到阈值。因为方差是灰度分布均匀性的一种量度，方差值越大，说明构成图像的两部分差别越大，当部分目标错分为背景或部分背景错分为目标都会导致两部分差别变小。因此，类间方差最大的分割意味着错分概率最小。

如图6所示，即为最大类间方差法的流程图。以一幅灰度值为1～M级，灰度值为i的像素数为n_i的图像为例，我们可以得到：

总像素数

各灰度值出现的概率p_i＝n_i/N

设灰度门限值为k，则图像像素按灰度级被分为两类：C₀＝{1～k}，C₁＝{k+1～M}

图像总平均灰度级

C₀类的平均灰度级

C₀类的像素数

C₁类的平均灰度级为μ-μ(k)

C₁类的像素数N-N₀

C₀产生的概率

C₁产生的概率1-ω(k)

C₀组的均值μ₀＝μ(k)/ω(k)

C₁组的均值μ₁＝[μ-μ(k)]/[1-ω(k)]

图像总均值可化为μ＝ω₀μ₀+ω₁μ₁

类间方差σ²(k)＝ω₀(μ-μ₀)²+ω₁(μ-μ₁)²＝ω₀ω₁(μ₀-μ)²

可化为σ²(k)＝[μ*ω(k)-μ(k)]²/{ω(k)[1-ω(k)]}

其中，k从1～M变化，使σ²(k)最大的k即为所求之最佳门限。σ²(k)称为目标选择函数。

二值化处理以后，需要对图像接着进行归一化处理，以实现图像尺寸的规范化。归一化处理之后，需要对图像进行细化处理。

进行细化处理的目的是提取源图像的骨架，即是将源图像中线条宽度大于一个像素的线条细化成只有一个像素宽度，以形成“骨架”。这是因为形成骨架后能够比较容易的分析图像，有利于提取图像的特征。细化的基本思想是“层层剥夺”，即从线条边缘开始一层一层向里剥夺，直到线条剩下一个像素为止。

图像的细化操作大大地压缩了原始图像的数据量，并保持图像形状的基本拓扑结构不变，从而为文字识别中的特征抽取等应用奠定了基础。一般地，细化算法应满足以下条件：

1)将条形区域变成一条薄线；

2)薄线应位于原条形区域的中心；

3)薄线应保持原图像的拓扑结构。

细化分成串行细化和并行细化，串行细化即是一边检测满足细化条件的点，一边删除细化点；并行细化算法则是检测细化点的时候不进行点的删除只进行标记，而在检测完整幅图像后一次性去除要细化的点。常用的图像细化算法有Hilditch算法，Pavlidis算法和Rosefeld算法等。在本系统中，采用的是串行细化算法-Hilditch算法。Hilditch算法适用于输入图像为0和1的二值图像，因此细化前要对图像进行二值化。像素值为1的区域是需要细化的部分，像素值为0的区域是背景。

下面将详细介绍Hilditch细化算法，其具体流程图如图7所示。首先判断图像中是否有可细化的像素点，如果没有，则细化处理完成；如果存在可细化的像素点，再判断当前像素点是否为数字的点，若不是，则继续判断下一个像素点是否为数字的点，若是，则将此像素相邻的八个像素值存入缓存；再计算此点周围存在几个数字的点或已细化的数字点；接着判断周围的像素是否存在背景点，若不存在，则直接返回，继续判断下一个像素点是否为数字的点，若存在，则接着判断周围像素是否存在两个数字的点；若不存在两个数字的点，则直接返回，继续判断下一个像素点是否为数字的点，若存在两个数字的点，则判断n₃，n₅像素是否为已细化的像素；若为已细化的像素，则继续判断n₃，n₅像素是否存在数字的点；若存在数字的点，则细化此中心像素点；若不存在数字的点，则直接返回，继续判断下一个像素点是否为数字的点；若n₃，n₅像素不为已细化的像素，则直接细化此中心像素点；最后，判断整个图像是否循环完毕；若未循环完毕，则直接返回，继续判断下一个像素点是否为数字的点，若循环完毕，则删除需要细化的点；最后，开始下一个像素点的细化。为了更清楚的阐述Hilditch算法，下面以一具体实例来说明：

设p是被检测的像素，f(p)为像素p的灰度值，n_i(i＝1，2，...，8)为p的8邻域像素。n_i的位置如下图所示。

N4	N3	N2
			N5	P	N1
N6	N7	N8

设集合I＝{1}表示需要细化的像素子集，集合N＝{g|g-m＜＝0}表示背景像素子集，集合R＝{-m}表示在第m次减薄时，I中被减到的像素。

图像细化的减薄条件为：

(1)f(p)∈I

(2)U(p)＞＝1，其中U(p)＝a₁+a₃+a₅+a₇

这里，a_i为

a_{i} = \{\begin{matrix} 1 & f (n_{i}) &Element; N \\ 0 & others \end{matrix}\}

(3)V(p)＞＝2，其中

(4)W(p)＞＝1，其中

这里，c_i为

c_{i} = \{\begin{matrix} 1 & f (n_{i}) &Element; I \\ 0 & others \end{matrix}\}

(5)X(p)＝1，其中

这里b_i为

b_{i} = \{\begin{matrix} 1 & f (n_{2 i - 1}) &Element; N and f (n_{2 i}) &Element; I \cup R or f (n_{2 i + 1}) &Element; I \cup R \\ 0 & others \end{matrix}\}

(6)或X_i(p)＝1，(i＝3，5)，其中X_i(p)表示对p的第I个邻域像素的X(p)

用8邻域扫描待细化的图像，按照以上细化条件检测满足细化条件的同时删除符合减薄条件的点，直至细化处理完成。

对图像的细化处理已经完成，接着将要进行图像特征值的提取。

其中，在特征点提取的过程中，由于光源环境复杂，存在外界光干扰，导致特征点比较难分离。在不增加特征点发射功率的前提下，需要使用背景移除技术来强化特征点抽取。

背景区分通常基于运动检测。常用的运动检测包括：光流法，帧差法，背景差分法，混合高斯模型(GMM)、基于贝叶斯模型的运动物体检测，卡尔曼滤波检测等方法。针对图像处理效果，硬件与成本特点等综合考虑，本系统选择了背景差分法。

在背景已知的情况下，背景减法是一种有效的运动目标检测算法。它的基本思想是：首先，用事先存储或者实时获取的背景图像序列为每个统计建模，得到背景模型fb(x，y)；其次，将当前每一帧图像fk(x，y)和背景模型fb(x，y)相减，得到图像中偏离背景图像较大的像素点。后续处理步骤与帧间差分法相同，直至确定出目标的最小外接矩形。

Dk(x，y)＝|fk(x，y)-fb(x，y)|

其中，fk(x，y)为某一帧图像，fb(x，y)为背景图像，Db(x，y)为帧差图像。

通过背景差分法，可以得到LED光点移动的信息。接着对差值结果进行滤波，

y_{ij} = \underset{A}{Mcd} {x_{ij}} = Mcd {x_{(i + r), (j + s)}, (r, s) &Element; A, i, j, &Element; I^{2}}

这里y_ij是滤波结果。

对于滤波以后的图像，进行阈值分割，利用了图像中要提取的目标(LED光点)与其背景在灰度特性上的差异，把图像视为具有不同灰度级的两类区域即目标和背景的组合，选取一个合适的阈值，找到LED光点。最后利用亮度信息和位置信息，进行型心计算得到目标点的中心位置。

其中，型心计算使用如下算法：

\overset{&OverBar;}{x} = \frac{{&Integral;}_{A} xdA}{A},

\overset{&OverBar;}{y} = \frac{{&Integral;}_{A} ydA}{A}

这里

和

就是特征点的中心位置。如果对于光斑识别，需要更高精度，则需要结合亮度颜色等信息进行计算。设ρ(x，y)为亮度/色彩函数

\overset{&OverBar;}{x} = \frac{{&Integral;}_{A} xρ (x) dA}{{&Integral;}_{A} ρ (x) dA},

\overset{&OverBar;}{y} = \frac{{&Integral;}_{A} yρ (y) dA}{{&Integral;}_{A} ρ (y) dA}

在本系统中，对滤波以后的图像，进行直方图统计，并使用99.8％作为阈值。因此，特征点提取的流程如图8所示。

其中，在本系统中提取图像的特征点采用了霍夫变换算法，其具有具有良好的抗噪声性能和对部分遮盖的不敏感等特性，又不受图像旋转的影响。

霍夫变换是图像处理中从图像中识别几何形状的基本方法之一，其基本思想就是把图像平面上的点对应到参数平面上的曲线，最后通过统计特性来解决问题。自1962年Hough公布了该算法以来，由于其良好的抗噪声性能和对部分遮盖的不敏感等特性，霍夫变换在模式识别领域得到广泛的应用，如直线、圆、椭圆、矩形等几何图形检测，任意形状区域的边界提取，二维或三维运动的参数估计等。无线红外图像识别的特征点是圆形，或者是弧形，所以使用霍夫变换检十分有必要。下面具体介绍一下霍夫变换算法的一些基本原理：

1)半径已知的圆的识别

利用霍夫变换检测出半径已知的圆形，是将图像平面上的每一点对应到参数平面上的一个以已知半径为半径的圆。经过霍夫变换，在参数平面上得到圆相交于一点，这个点的坐标即为原图形坐标平面上待识别的圆心坐标。

算法可以简单描述为：取和图像平面一样的参数平面，以图像上每一个前景点为圆心，以已知的半径在参数平面上画圆，并把结果进行累加。最后找出参数平面上的峰值点，这个位置就对应了图像上的圆心。

2)未知半径的圆的识别

在第一个问题基础上，把参数平面扩大称为三维空间，即x--y--R三维，对应圆的圆心和半径。图像平面上的每一点就对应于参数空间中每个半径下的一个圆，在参数的三维空间中得到一个圆锥。最后找出参数空间中的峰值点，即得到待识别的圆的圆心和半径。

至此，对图像的预处理操作全部完成，其具体流程图如图9所示。

接着，需要对预处理后的图像进行模板匹配数字识别的操作，其具体流程图如图10所示。

首先，采用网格特征和交叉点特征相结合的方法作为其数字特征，建立数字标准特征库。其次，对提取的图像特征点进行识别，利用提取的特征点与数字标准特征库相比较，把提取的特征点识别为与其模板特征向量的加权距离最小的特征向量所代表的标准数字，从而对视频图像进行了准确有效的坐标识别。实验结果表明，基于模板匹配的数字识别是可行的，具有较高的识别率及较好的抗噪性能。

在FPGA中完成图像的数字特征识别之后，将上述特征点坐标转换为对应的计算机鼠标的位置信息，再通过USB接口传送至计算机。其中，设置一个USB控制器，以使得FPGA与外部计算机之间能够进行高速有效的数据传输。在本系统中，采用FT245BM芯片作为上述USB控制器。

FT245BM的主要功能是进行USB和并行I/O口之间的协议转换。芯片一方面可从主机接收USB数据，并将其转换为并行I/O口的数据流格式发送给外设；另一方面外设可通过并行I/O口将数据转换为USB的数据格式传回主机。中间的转换工作全部由芯片自动完成，开发者无须考虑固件的设计。

FT245BM内部主要由USB收发器、串行接口引擎(SIE)、USB协议引擎和FIFO控制器等构成，具体如图11所示。USB收发器提供USB1.1/2.0的全速物理接口到USB总线，支持UHCI/OHCI主控制器；串行接口引擎主要用于完成USB数据的串/并双向转换，并按照USB1.1规范来完成USB数据流的位填充/位反填充，以及循环冗余校验码(CRC5/CRC16)的产生和检错；USB协议引擎管理来自USB设备控制端口的数据流；FIFO控制器处理外部接口和收发缓冲区间的数据转换。另外，FT245BM还包括1个内置的3.3V的稳压器，1个6MHz的振荡器、8倍频的时钟倍频器、USB锁相环和EEPROM接口。FT245BM采用32脚的PQFP封装，体积小巧，易于和外设做到一块板上。

下面简单介绍一下FPGA对FT245BM的读写过程。在写过程中，当检测到USB_RXF变低，即可获知上位机已经将数据写入到FT245BM的缓冲区，然后产生读控制时序，将FT245BM接收缓冲区中的数据读入到FPGA的缓冲区。一直重复以上步骤直到将一帧数据读完，然后执行相应的帧处理操作。在读过程中，FPGA将数据准备好后，将发送允许信号(SendEN)置为有效，当状态机检测到SendEN＝1时，即启动发送操作。首先状态机按字节将待发送的数据读到FPGA的缓冲区，并产生写FT245BM发送缓冲区的时序，再将数据写到FT245BM发送缓冲区，直到将一帧数据发送完毕。

到此，已经全部完成了实时视频图像的坐标识别处理，并将处理结果传输至计算机，以进行后续的交互式处理等操作。

以上对本实用新型的较佳实施例进行了详细描述，但本实用新型并不限制于以上描述的具体实施例，其只是作为范例。对于本领域技术人员而言，任何对该系统进行的等同修改和替代也都在本实用新型的范畴之中。因此，在不脱离本实用新型的精神与范围下所做出的均等变换和修改，都应涵盖在本实用新型的范围内。

Claims

1.一种实时视频图像坐标识别系统，其特征在于，所述系统包括：

图像传感器，用于采集视频图像；

FPGA嵌入式系统，其中所述FPGA嵌入式系统包括：

同步动态随机存取存储器控制器，用于控制所述同步动态随机存取存储器的操作；

控制单元，用于控制所述FPGA嵌入式系统的操作；

USB控制器，用于控制所述FPGA嵌入式系统与外部设备的通信。

2.根据权利要求1所述的实时视频图像坐标识别系统，其特征在于，还包含一视频采集镜头，在所述视频采集镜头后还安装一红外滤光片，用于在视频图像的采集后，进行视频采集镜头的畸变校正。

3.根据权利要求1所述的实时视频图像坐标识别系统，其特征在于，所述图像传感器为在所述FPGA嵌入式系统的配置下采集分辨率为640x480，帧率为60帧/秒的视频图像的COMS图像传感器。

4.根据权利要求1所述的实时视频图像坐标识别系统，所述USB控制器为FT245BM。