CN101075295A

CN101075295A - 被动式及交互式实时影像辨识方法

Info

Publication number: CN101075295A
Application number: CN 200610078228
Authority: CN
Inventors: 熊兆王
Original assignee: Weiqing Science & Technology Co Ltd
Priority date: 2006-05-16
Filing date: 2006-05-16
Publication date: 2007-11-21
Anticipated expiration: 2026-05-16
Also published as: CN101075295B

Abstract

本发明为一种被动式及交互式实时影像辨识方法，特别是指一种不受环境光源与噪声影响的实时影像辨识方法，包括有被动式与交互式的辨识方法，通过影像投射装置投射影像，先行建立8bits灰阶值固定背景影像以作为基准参考影像，并以摄影机不断地对影像投射装置投射出的影像区域撷取实时8bits灰阶值影像与基准参考影像，进行影像相减及影像二值化等运算步骤，即可快速准确辨识移动物体的活动，以进行感应检测是否有遮蔽到投射影像的感应区域，并执行对应的动作。

Description

被动式及交互式实时影像辨识方法

技术领域

本发明为一种被动式及交互式实时影像辨识方法，特别是指一种不受环境光源与噪声影响的实时影像辨识方法，且本发明的实时影像辨识方法可应用在各种多媒体互动广告、教学、各种娱乐游戏、电子游戏等广泛领域。

背景技术

当今的实时影像辨识技术，主要通过单枪(或其它显像设备)投射出多媒体动画影像，并通过摄影机与影像撷取接口将所得到的影像进行数字化。

利用相关辨识技术判断人的肢体所接触投射影像的区域，并作相对的反应。在先涉及辨识技术的专利，美国专利第5,534,917号，采用AND运算子方式进行图样的辨识，主要是将反映区的图样当作样板储存，再以摄影机不断撷取影像供以辨识，在辨识过程中进行逐一比对。但这种方法虽然简单，不需大量的运算，但此种辨识方法极易受到不同背景光的影响而导致辨识产生误差。那些事先储存在内存中的图形样板，经过投影后的色彩饱和度大都会有所改变，再加上系统架设在不同的场合，其背景光源也会有所差异，所以，此种辨识技术在系统架设完成后，均必须经过色温、色差的校正，其过程相当繁琐。

发明内容

为了克服上述现有技术的缺陷，本申请提供一种不受环境光源变化及影像投射装置投射影像所造成的色差影响的辨识方法，而且通过采用灰阶摄影机，故数据流量较小，可以大幅降低硬设备成本。

本发明为一种被动式及交互式实时影像辨识方法，特别是指一种不受环境光源与噪声影响的实时影像辨识方法，包括有被动式与交互式的辨识方法，通过影像投射装置投射影像，先行建立8bits灰阶值的固定背景影像以作为基准参考影像，并以摄影机不断地对影像投射装置投射出的影像区域撷取实时8bits灰阶值影像与基准参考影像，进行影像相减及影像二值化等运算步骤，即可快速准确辨识移动物体的活动，以进行感应检测是否有遮蔽到投射影像的感应区域，并执行对应的动作。

本发明以灰阶摄影机撷取影像，故无需特定的高阶影像撷取卡及各种高单价硬件器材辅助运作，仅需以一般个人计算机即可运作形成准确的辨识，具有降低成本的功效。且本发明的实时影像辨识方法可供，如：各种多媒体互动广告、教学、各种娱乐游戏、电子游戏……等广泛运用。

附图说明

图1为本发明的被动式及交互式实时影像辨识方法的系统示意结构图；

图2为本发明的被动式及交互式实时影像辨识方法的摄影机事先撷取的基准参考影像示意图；

图3为本发明的被动式及交互式实时影像辨识方法的摄影机撷取实时影像示意图；

图4为本发明的被动式及交互式实时影像辨识方法的摄影机撷取基准参考影像与实时影像相减后的示意图；

图5为本发明被动式及交互式实时影像辨识方法的最佳门限值为波谷位置的灰阶值示意图；

图6为本发明的被动式及交互式实时影像辨识方法的最佳门限值的二区间示意图；

图7为本发明的被动式及交互式实时影像辨识方法的撷取基准参考影像与实时影像相减后又经二值化的示意图；

图8为本发明的被动式及交互式实时影像辨识方法的四连通屏蔽示意图；

图9(a)和9(b)为本发明的被动式及交互式实时影像辨识方法的Sobel屏蔽(a)x轴与(b)y轴的示意图；

图10为本发明的被动式及交互式实时影像辨识方法的交互式的基准参考影像示意图；

图11为本发明的被动式及交互式实时影像辨识方法的交互式的实时影像示意图；

图12为本发明的被动式及交互式实时影像辨识方法的交互式的基准参考影像与实时影像相减并二值化后的示意图；

图13为本发明的被动式及交互式实时影像辨识方法的交互式的物体线段编码片段示意图；

图14为本发明的被动式及交互式实时影像辨识方法的交互式的活动影像与活动感应区域分割出来的示意图；

图15为本发明的被动式及交互式实时影像辨识方法的交互式的活动感应区域辨识结果示意图。

具体实施方式

图1为本发明的一种被动式及交互式实时影像辨识方法的系统示意结构图，如图所示，该系统包括有个人计算机10、影像投射装置11、影像区域11a、摄影机12、影像撷取卡13。

本发明提供一种被动式及交互式实时影像辨识方法，主要辨识对象种类可分为被动式与交互式两大类。其中，被动式与交互式的差异在于影像感应区域的位置。在被动式的辨识模块下，影像感应区域的位置固定；而在交互式的情形正好相反，感应区域会在影像投射装置投射影像区域范围内变动。

本发明所撷取的影像皆为8bits灰阶，其灰阶值范围在0～225之间。

其中，被动式实时影像辨识方法如下：

步骤一：以摄影机12撷取影像投射装置11投射到影像区域11a的影像作为基准参考影像。形成例如5×5的灰阶值矩阵，参照图1和图2。

步骤二：以摄影机12不断撷取影像投射装置11投射至影像区域11a的实时影像。形成例如5×5的灰阶值矩阵，参照图1和图3，检验是否有外物接触感应区域。

上述步骤一的基准参考影像(参照图2)与步骤二的实时影像(参照图3)的差异值可由式子(1)表示：

DIFF(x，y)＝|REF(x，y)-NEW(x，y)| (1)

步骤三：将步骤一的基准参考影像的各灰阶值与步骤二的实时影像相对应的各灰阶值相减，即可得到剩余的影像灰阶值分布，如图4所示，非零区域表示有外物接触。

步骤四：经步骤三相减后的影像，通常会有噪声存在，可以通过式子(2)进行消除。

BIN (x, y) = \{\begin{matrix} 255 & DIFF (x, y) &GreaterEqual; T^{*} \\ 0 & DIFF (x, y) < T^{*} \end{matrix} - - - (2)

通过式子(2)的二值化方法消除杂点的影响，如图7所示；其中，T^*为门限值，在8bits灰阶影像中，门限值的范围为0～255之间。而最佳门限值的决定方式可由统计的方式求得，其最佳门限值为波谷位置的灰阶值，如图5所示，通过决定T^*的大小即可将影像分割成二个区间C₁，C₂，如图6所示，最佳门限值T^*的条件为C₁内的变异数加上C₂内的变异数之和为最小。假设影像的大小为N＝5×5，且8bits灰阶影像的灰阶值个数为I＝256。则灰阶值为I的概率可表示为式子(3)：

P (i) = \frac{n_{i}}{N} - - - (3)

此处n_i表示灰阶值i在影像中出现的次数，且i的范围为0≤i≤I-1，

根据概率原理可得知式子(4)：

Σ_{i = 0}^{I - 1} P (i) = 1 - - - (4)

假设C₁内的像素个数占的比率为式子(5)：

W_{1} = \Pr (C_{1}) = Σ_{i = 0}^{T^{*}} P (i) - - - (5)

而C₂内的像素个数占的比率为式子(6)：

W_{2} = \Pr (C_{2}) = Σ_{i = T^{*} + 1}^{I - 1} P (i) - - - (6)

这里亦满足W₁+W₂＝1。

接下来，也可算出C₁的期望值为式子(7)：

U_{1} = Σ_{i = 0}^{T^{*}} \frac{P (i)}{W_{1}} \times i - - - (7)

而C₂的期望值为式子(8)：

U_{2} = Σ_{i = T^{*} + 1}^{I - 1} \frac{P (i)}{W_{2}} \times i - - - (8)

利用式子(7)和式子(8)可求得C₁和C₂的变异数分别为式子(9)和(10)：

σ_{1}^{2} = Σ_{i = 0}^{T^{*}} {(i - U_{1})}^{2} \frac{P (i)}{W_{1}} - - - (9)

σ_{2}^{2} = Σ_{i = T^{*} + 1}^{I - 1} {(i - U_{2})}^{2} \frac{P (i)}{W_{2}} - - - (10)

则C₁和C₂的变异数和为式子(11)：

σ_{w}^{2} = W_{1} σ_{1}^{2} + W_{2} σ_{2}^{2} - - - (11)

接着，只要将0～255之间的数值代入式子(11)中，使式子(11)有最小值的数值就是最佳门限值T^*。

步骤五：虽经步骤四的二值化后所残留的噪声已基本消除，但，移动物体会产生一些残破，此种现象将通过四连通屏蔽及其膨胀、侵蚀算法来加以去除，如图8所示。

膨胀的算法如下：当屏蔽M_b(i，j)＝255时，便设定其四邻点位置的屏蔽如式子(12)：

M_b(i，j-1)＝M_b(i，j+1)＝M_b(i-1，j)＝M_b(i+1，j)＝255 (12)

侵蚀的算法如下：当屏蔽时M_b(i，j)＝0，便设定其四邻点位置的屏蔽如式子(13)：

M_b(i，j-1)＝M_b(i，j+1)＝M_b(i-1，j)＝M_b(i+1，j)＝0 (13)

将上述的屏蔽与二值化后的影像通过回旋积分即可消除破碎的现象。

步骤六：接着，我们便可利用侧边屏蔽来取得移动物体的轮廓，此处，我们将采用影像轮廓运算屏蔽(Sobel)屏蔽来取得物体的轮廓，如图9所示。

将Sobel(影像轮廓运算屏蔽)屏蔽与实时影像作回旋积分，如式子(14)(15)所示：

G_x(x，y)＝(NEW(x-1，y+1)+2×NEW(x，y+1)+NEW(x+1，y+1))-

(14)

(NEW(x-1，y-1)+2×NEW(x，y-1)+NEW(x+1，y-1))

G_y(i，j)＝(NEW(x+1，y-1)+2×NEW(x+1，y)+NEW(x+1，y+1))-

(15)

(NEW(x-1，y-1)+2×NEW(x-1，y)+NEW(x-1，y+1))

利用式子(16)便可得到所撷取影像的边缘：

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}} - - - (16)

将上述的边缘影像进行二值化，如式子(17)：

E (x, y) = \{\begin{matrix} 255 & G (x, y) &GreaterEqual; T_{e}^{*} \\ 0 & G (x, y) < T_{e}^{*} \end{matrix} - - - (17)

其中T_e ^*为最佳门限值，求取最佳门限值的方法和先前相同；接着，将实时影像的二值化轮廓图E(x，y)与相减后的二值化影像BIN(x，y)进行交集的操作后，移动物体的外围轮廓即可求得。

步骤七：感应检测移动物体的外围轮廓边点的坐标是否接触到感应区域，并执行对应的动作。

步骤八：重复上述的所有步骤。

另一交互式实时影像辨识方法的主要步骤包括：影像相减、二值化、影像分割、感应区域图样特征撷取与感应区域图样辨识，其中，感应区域图样特征撷取是以离线方式事前取得，而感应区域图样辨识则是实时处理；由于感应区域在投射影像中为任意形状且可能会有旋转或平移的运动，所以，图样特征值不能受到旋转、平移或缩放效果的影响。此处所采用的图样特征值为待辨识图样的不变矩，不变矩不会受到平移、旋转、大小比例改变的影响。

交互式实时影像辨识方法如下：

步骤一：以摄影机12撷取影像投射装置11投射至影像区域11a的影像作为基准参考影像，如图1和图10所示。

步骤二：以摄影机12不断撷取影像投射装置11投射至影像区域11a的实时影像，如图11所示，其中，影像具有活动影像20，检验是否有外物接触活动感应区域21。

上述步骤一的基准参考影像(参照图10)与步骤二的实时影像(参照图11)的差异值可由式子(1)表示：

DIFF(x，y)＝|REF(x，y)-NEW(x，y)| (1)

步骤三：将步骤一的基准参考影像(参照图10)的各灰阶值与步骤二的实时影像(参照图11)相应区域的各灰阶值相减，即得到剩余的影像灰阶值分布，通常会有噪声存在，即通过式子(2)进行二值化的方法消除杂点的影响(参照图12)

BIN (x, y) = \{\begin{matrix} 255 & DIFF (x, y) &GreaterEqual; T^{*} \\ 0 & DIFF (x, y) < T^{*} \end{matrix} - - - (2)

步骤四：经上述二值化后，白色部分(参照图12)即是影像中的活动影像20与活动感应区域21，可通过线段编码法将活动影像20与活动感应区域21分割出来(参照图14)，该线段编码法是一种以线段储存的方法储存物体中每一点的数据(参照图13)，在第1行检测到有一列分割影像，就把它视为第一个物体中的第一列，符号记下1-1，接着，在第2行检测到有两列，第一列因处于1-1的下方，所以记做1-2；而第二列为一新的物体，所以记做2-1，如此检测到第4行时发现，只有一列且位于物体1及物体2的下方，所以原先视为两个物体的影像原来为一物体，但，先记做1-4，等待全部影像扫描完成之后，再作合并的动作。

其中，每个物体储存的信息，包括有：面积区域、周长、物体特征、分割的影像大小、宽度以及物体的总数。

步骤五：当活动影像20与活动感应区域21被分割出之后，接着，就要计算每个物体的特征值，采用七个不变矩来表示物体的特征，其求解过程如下：

一个二值化影像b(m，n)的(k+l)阶矩定义为式子(18)：

M_{k, l} = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} m^{k} n^{l} b (m, n) - - - (18)

而，其中心矩的定义可表示为式子(19)：

μ_{k, l} = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} {(m - \overset{&OverBar;}{x})}^{k} {(n - \overset{&OverBar;}{y})}^{l} b (m, n) - - - (19)

其中，

\overset{&OverBar;}{x} = \frac{M_{1,0}}{M_{0,0}}, \overset{&OverBar;}{y} = \frac{M_{0,1}}{M_{0,0}}

代表物体的质量中心。

接着，求得式子(19)的正规化中心矩可通过式子(20)得到：

η_{k, l} = \frac{μ_{k, l}}{{(\sqrt{μ_{0,0}})}^{k + l + 2}} - - - (20)

接着，便可由正规化的第二阶矩与第三阶矩导出七个不变矩：

φ₁＝η_2，0+η_0，2

φ_{2} = {(η_{2,0} - η_{0,2})}^{2} + 4 η_{1,1}^{2}

φ₃＝(η_3，0-3η_1，2)²+(3η_2，1-η_0，3)²

φ₄＝(η_3，0+η_1，2)²+(η_2，1+η_0，3)²

φ₅＝(η_3，0-3η_1，2)(η_3，0+η_1，2)[(η_3，0+η_1，2)²-3(η_2，1+η_0，3)²]

+(3η_2，1-η_0，3)(η_2，1+η_0，3)[3(η_3，0+η_1，2)²-(η_2，1+η_0，3)²]

φ₆＝(η_2，0-η_0，2)[(η_3，0+η_1，2)²-(η_2，1+η_0，3)²]

+4η_1，1(η_3，0+η_1，2)(η_2，1+η_0，3)

φ₇＝(3η_2，1-η_0，3)(η_3，0+η_1，2)[(η_3，0+η_1，2)²-3(η_2，1+η_0，3)²]

+(3η_1，2-η_0，3)(η_2，1+η_0，3)[3(η_3，0+η_1，2)²-(η_2，1+μ_0，3)²]

步骤六：在实际图样辨识的过程中，由于每个类别中的图样极不可能有单一的特征向量值，而是一段范围内的值，且每个图样的特征质会落在该范围内的某个点并无法精确预知，甚至所谓的明确数值范围也未必可得知。对于这种具随机特性的问题，通过概率的概念来描述极为适合。在此处，实时图样辨识的部分，我们采用的是高斯图样类别的贝氏分类器来实时处理待辨识图像，其定义如式子(21)：

D_{j} (x) = - \frac{1}{2} \ln | C_{j} | - \frac{1}{2} [{(x - m_{j})}^{T} C_{j}^{- 1} (x - m_{j})], j = 1,2 . . . M - - - (21)

其中，D_j为第j类图样的决策函数；x＝[φ₁…φ₇]为第j类的特征向量；m_j和C_j分别为第j类图样的平均特征向量与共变异数矩阵，当D值为最大时，便归为此第j类图样。当图样辨识完成后，也就决定了感应区域的位置；若影像中有多个活动感应区域21，也就有多个子参考影像，利用被动式实时影像辨识方法的步骤一到步骤八的技术即可判断外物是否接触到子参考影像。辨识的执行步骤可以整理如下：

1.将图形样板事先训练，计算各类别φ₁…φ₇，再计算各类别的m_j及C_j，就可完成分类器的决策准则。

2.将摄影机12所撷取的影像经步骤四的方式分割成多个子影像，并计算每个子影像的D_j(x)。

3.比较出D_j(x)的大小，设法找出最大者为D_k(x)，则此图形判定为第k类。

辨识处理后，即可将活动感应区域21准确的寻找出来(参照图15)。

步骤七：活动感应区域21是否有外物接触，并执行对应的动作。

步骤八：重复上述的所有步骤。

以上所述乃是本发明的较佳实施例，根据本发明的构想所作的改变，其产生的功能、作用仍未超出说明书与附图所涵盖的精神时，均应属本发明的保护范围之内。

Claims

1.一种被动式实时影像辨识方法，其主要辨识方法如下：

步骤一：以摄影机撷取影像投射装置投射至影像区域的影像作为基准参考影像，形成灰阶值矩阵；

步骤二：以摄影机不断撷取影像投射装置投射至影像区域的实时影像，并形成灰阶值矩阵；

通过上述步骤一的基准参考影像与步骤二的实时影像，由式子(1)计算它们的差异值：

DIFF(x，y)＝|REF(x，y)-NEW(x，y)| (1)

步骤三：将步骤一的基准参考影像的各灰阶值与步骤二的实时影像相应的各灰阶值相减，即可得到剩余的影像灰阶值分布；

步骤四：经步骤三相减后的影像，通常会有噪声存在，通过式子(2)消除噪声杂点的影响；

BIN (x, y) = \{\begin{matrix} 255 & DIFF (x, y) &GreaterEqual; T^{*} \\ 0 & DIFF (x, y) < T^{*} \end{matrix} - - - (2)

式子(2)为二值化的方法消除噪声杂点的影响；其中，T^*为门限值，在8bits灰阶影像中，门限值的范围为0～255之间；而最佳门限值的决定方式可由统计的方式求得，其最佳门限值为波谷位置的灰阶值，通过决定T^*即可将影像分割成二区间C₁，C₂，其最佳门限值T^*的条件为C₁内的变异数加上C₂内的变异数的和为最小，假设影像的大小N，且8bits灰阶影像的灰阶值个数为I＝256，则灰阶值为I的概率可表示为式子(3)：

P (i) = \frac{n_{i}}{N} - - - (3)

此处n_i表示灰阶值i在影像中出现的次数，且i的范围介于0≤i≤I-1，依据概率原理可得知式子(4)：

Σ_{i = 0}^{I - 1} P (i) = 1 - - - (4)

假设C₁内的像素个数占的比率为式子(5)：

W_{1} = \Pr (C_{1}) = Σ_{i = 0}^{T^{*}} P (i) - - - (5)

而C₂内的像素个数占的比率为式子(6)：

W_{2} = \Pr (C_{2}) = Σ_{i = T^{*} + 1}^{I - 1} P (i) - - - (6)

这里亦满足W₁+W₂＝1，

接下来，算出C₁的期望值，为式子(7)：

U_{1} = Σ_{i = 0}^{T^{*}} \frac{P (i)}{W_{1}} \times i - - - (7)

而C₂的期望值为式子(8)：

U_{2} = Σ_{i = T^{*} + 1}^{I - 1} \frac{P (i)}{W_{2}} \times i - - - (8)

利用式子(7)和式子(8)可求得C₁和C₂的变异数分别为式子(9)和式子(10)：

σ_{1}^{2} = Σ_{i = 0}^{T^{*}} {(i - U_{1})}^{2} \frac{P (i)}{W_{1}} - - - (9)

σ_{2}^{2} = Σ_{i = T^{*} + 1}^{I - 1} {(i - U_{2})}^{2} \frac{P (i)}{W_{2}} - - - (10)

则C₁和C₂的变异数和为式子(11)：

σ_{w}^{2} = W_{1} σ_{1}^{2} + W_{2} σ_{2}^{2} - - - (11)

接着，只要将0～255之间的数值代入式子(11)中，使式子(11)有最小值的数值就是最佳门限值T^*；

步骤五：虽经步骤四二值化后所残留的噪声已消除，移动物体会有一些的残破，此种现象通过四连通屏蔽及其膨胀、侵蚀的算法来加以去除；

其中，膨胀的算法如下：当屏蔽M_b(i，j)＝255时，便设定其四邻点位置的屏蔽为式子(12)：

M_b(i，j-1)＝M_b(i，j+1)＝M_b(i-1，j)＝M_b(i+1，j)＝255 (12)

侵蚀的算法如下：当屏蔽时M_b(i，j)＝0，便设定其四邻点位置的屏蔽为式子(13)：

M_b(i，j-1)＝M_b(i，j+1)＝M_b(i-1，j)＝M_b(i+1，j)＝0 (13)

将上述的屏蔽与二值化后的影像作回旋积分即可消除破碎的现象；

步骤六：利用侧边屏蔽来取得移动物体的轮廓，此处，我们将采用影像轮廓运算屏蔽屏蔽来完成物体轮廓的取得；

将影像轮廓运算屏蔽屏蔽与实时影像作回旋积分，如式子(14)(15)所示：

G_x(x，y)＝(NEW(x-1，y+1)+2×NEW(x，y+1)+NEW(x+1，y+1))-

(NEW(x-1，y-1)+2×NEW(x，y-1)+NEW(x+1，y-1))

(14)

G_y(i，j)＝(NEW(x+1，y-1)+2×NEW(x+1，y)+NEW(x+1，y+1))-

(NEW(x-1，y-1)+2×NEW(x-1，y)+NEW(x-1，y+1))

(15)

利用式子(16)便可得到所撷取影像的边缘，

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}} - - - (16)

将上述的边缘影像通过式子(17)进行二值化，

E (x, y) = \{\begin{matrix} 255 & G (x, y) &GreaterEqual; T_{e}^{*} \\ 0 & G (x, y) < T_{e}^{*} \end{matrix} - - - (17)

其中T_e ^*为最佳门限值，求取最佳门限值的方法和上述步骤四中的相同；接着，将实时影像的二值化轮廓图E(x，y)与相减后的二值化影像BIN(x，y)进行交集的操作，移动物体的外围轮廓即可求得；

步骤七：感应检测移动物体的外围轮廓边点的坐标是否接触到感应区域，并执行对应的动作；

步骤八：重复上述的所有步骤。

2.一种交互式实时影像辨识方法，其主要辨识方法如下：

步骤一：以摄影机撷取影像投射装置投射至影像区域的影像作为基准参考影像；

步骤二：以摄影机不断撷取影像投射装置投射至影像区域的实时影像，其中，影像具有活动影像，检验是否有外物接触活动感应区域；

以上步骤一的基准参考影像与步骤二的实时影像的差异值可由式子(1)表示：

DIFF(x，y)＝|REF(x，y)-NEW(x，y)| (1)

步骤三：将步骤一的基准参考影像各灰阶值与步骤二的实时影像各灰阶值相减，即得到剩余的影像灰阶值分布，通常会有噪声存在，即由式子(2)消除噪声杂点的影响；

BIN (x, y) = \{\begin{matrix} 255 & DIFF (x, y) &GreaterEqual; T^{*} \\ 0 & DIFF (x, y) < T^{*} \end{matrix} - - - (2)

步骤四：经二值化后，白色部分即是影像中的活动影像与活动感应区域，可通过线段编码法将活动影像与活动感应区域分割出来，该线段编码法是一种以线段储存的方法储存物体中每一点的数据，在第1行检测到有一列分割影像，就把它视为第一个物体中的第一列，符号记下1-1，接着，在第2行检测到有两列，第一列因处于1-1的下方，所以记做1-2；而第二列为一新的物体，所以记做2-1，如此检测到第4行时发现，只有一列且位于物体1及物体2的下方，所以原先视为两个物体的影像原来为一物体，但，先记做1-4，等待全部影像扫描完成之后，再作合并的动作；

其中，每个物体储存的信息，包括有：面积区域、周长、物体特征、分割的影像大小、宽度以及物体的总数；

步骤五：当活动影像与活动感应区域被分割出之后，接着，就要计算每个物体的特征值，采用七个不变矩来表示物体的特征，其求解过程如下：

一个二值化影像b(m，n)的(k+l)阶矩定义为式子(18)：

M_{k, l} = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} m^{k} n^{l} b (m, n) - - - (18)

而，其中心矩的定义可表示为式子(19)：

μ_{k, l} = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} {(m - \overset{&OverBar;}{x})}^{k} {(n - \overset{&OverBar;}{y})}^{l} b (m, n) - - - (19)

其中，

\overset{&OverBar;}{x} = \frac{M_{1,0}}{M_{0,0}},

\overset{&OverBar;}{y} = \frac{M_{0,1}}{M_{0,0}}

代表物体的质量中心；

接着，求得式子(19)的正规化中心矩可得到式子(20)：

η_{k, l} = \frac{μ_{k, l}}{{(\sqrt{μ_{0,0}})}^{k + l + 2}} - - - (20)

接着，便可由正规化的第二阶矩与第三阶矩导出七个不变矩φ₁…φ₇：

φ₁＝η_2，0+η_0，2

φ_{2} = {(η_{2,0} - η_{0,2})}^{2} + {4 η}_{1,1}^{2}

φ₃＝(η_3，0-3η_1，2)²+(3η_2，1-η_0，3)²

φ₄＝(η_3，0+η_1，2)²+(η_2，1+η_0，3)²

φ₆＝(η_2，0-η_0，2)[(η_3，0+η_1，2)²-(η_2，1+η_0，3)²]

+4η_1，1(η_3，0+η_1，2)(η_2，1+η_0，3)

步骤六：在实际图样辨识的过程中，由于每个类别中的图样极不可能有单一的特征向量值，而是一段范围内的值，且每个图样的特征质会落在该范围内的某个点并无法精确预知，甚至明确数值范围也未必可得知，对于这种具随机特性的问题，通过概率的概念来描述极为适合，在此处，实时图样辨识的部分，采用高斯图样类别的贝氏分类器来实时处理待辨识图像，其定义如下式子(21)：

D_{j} (x) = - \frac{1}{2} \ln | C_{j} | - \frac{1}{2} [{(x - m_{j})}^{T} C_{j}^{- 1} (x - m_{j})], j = 1,2 \cdot \cdot \cdot M - - - (21)

其中，D_j为第j类图样的决策函数；x＝[φ₁…φ₇]为第j类的特征向量；m_j和C_j分别为第j类图样的平均特征向量与共变异数矩阵，当D值为最大时，便归为此第j类图样，当图样辨识完成后，也就决定了感应区域的位置，辨识的执行步骤可以整理如下：

a)将图形样板事先训练，计算各类别φ₁…φ₇，再计算各类别的m_j及C_j，就可完成分类器的决策准则；

b)将摄影机所撷取的影像经步骤四的方式分割成多个子影像，并计算每个子影像的D_j(x)；

c)比较出D_j(x)的大小，设法找出最大者为D_k(x)，则此图形判定为第k类；

辨识处理后，即可将活动感应区域准确的寻找出来；

步骤七：活动感应区域是否有外物接触，并执行对应的动作；

步骤八：重复上述的所有步骤。

3.如权利要求2所述的交互式实时影像辨识方法，其中，在步骤六，当影像中有多个活动感应区域，即有多个子参考影像时，通过权利要求1所述的步骤一到步骤八的判断外物是否接触到子参考影像。