CN101394479A

CN101394479A - 基于运动检测结合多通道融合的教师运动跟踪方法

Info

Publication number: CN101394479A
Application number: CNA2008102004247A
Authority: CN
Inventors: 郑红; 罗全锋; 陈刚; 申瑞民; 吴元
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2009-03-25
Anticipated expiration: 2028-09-25
Also published as: CN101394479B

Abstract

一种基于运动检测结合多通道融合的教师运动跟踪方法，步骤一，语音信号检测；步骤二，原始鼠标设备信号检测；步骤三，视频图像运动人像检测识别；步骤四，融合分析步骤一至三的三个通道检测结果，识别主讲教师所在位置，控制云台转向运动教师，进行变焦予以拉近拉远。步骤五，循环步骤一至步骤四，实时跟踪运动教师。本发明不仅能够被应用于远程教育智能教室中，还能被推广应用于电视会议、可视电话及网络会议中，能够准确实时地采集现场主讲人员的图像，传输给远端参与者，让他们获得一个临场感更强的远程交互体验。

Description

基于运动检测结合多通道融合的教师运动跟踪方法

技术领域

本发明涉及的是一种电信技术领域的运动跟踪方法，具体的说，涉及的是一种基于运动检测结合多通道融合的教师运动跟踪方法。

背景技术

随着互联网技术的成熟，移动3G网络的蓬勃发展，远程教育E-learning作为一种新的教育模式在教育中所占的比重将会越来越大。在E-learning中，一个重要的概念就是“智能教室”，在智能教室中，教师可以方便的使用鼠标、键盘、固定话筒、无线话筒、激光笔、讲台显示器、触摸屏、大屏幕的墙面投影、等离子电视和电子白板等高科技产品以在传统教室中一样自然的方式同时给现场的学生和远程的学生进行授课并且互动。为了给远程学生提供一个临场感更强的远程教学体验，客观需要系统自动跟踪主讲教师，并自动进行变焦予以拉近拉远，将高清的教师视频图像传输到远程学生端。

通常，运动人像的自动跟踪系统基于图像分析完成，由摄像头、图像采集卡、计算机、云台和跟踪软件组成。摄像头获取实时视频，经图像采集卡转换为图像，计算机上的跟踪软件进行图像分析检测运动人像，给云台发出转动变焦命令，实现对目标的跟踪。当前世界上已有不少通过图像分析的运动人像自动跟踪的方法和系统。但是，跟踪软件通过图像分析的方法实现实时自动跟踪往往存在很多困难，主要问题有，环境中背景对运动人像的遮挡容易造成目标丢失，外界环境存在的变化如开关灯，大屏幕墙面投影内容的变化等容易引起系统判断错误以及存在多个运动人像时不能自动识别跟踪目标的问题。

经对现有技术的文献检索发现，中国专利申请号为200610024077.8的专利提出了一种结合时域差分和空域分级的运动人像实时自动跟踪方法，该方法包括：图像采集卡采集的图像，在低空间分辨率级别，通过时域差分处理后，在自适应阈值作用下，经腐蚀运算，得到二值化差分图；在二值化差分图中搜寻运动人像目标，若找到目标则进行下一步；若没有搜寻到运动人像目标，则提高空间分辨率，计算所增加部分的二值化差分图，再重新进行搜寻；根据当前和历史的运动人像目标区域，进行转动和变焦控制，实现实时跟踪和变焦。该方法通过空域分级减少了计算量，提高了实时性，具有一定的优点，但是对于目标遮挡问题，跟踪目标识别问题以及当外界环境出现较大变化问题都未作说明或未作考虑。

发明内容

本发明针对上述现有技术的不足，提供一种基于运动检测结合多通道融合的教师运动跟踪方法，采用语音信号检测，原始鼠标设备信号检测和视频图像运动人像检测三个通道融合的方法，使其不仅不受物体遮挡，外界环境变化的影响，能够实时检测运动人像的位置，而且还能自动识别主讲教师，自动控制云台转动变焦，跟踪主讲教师。

本发明是通过以下技术方案实现的，包括以下步骤：

步骤一，语音信号检测。通过声卡采集音频信号，对输入的音频信号先进行高通滤波，减弱以噪音为主的信号能量。接着对音频信号进行短时处理，计算短段间的平均能量。在静音阈值作用下，判定当前状态为语音状态还是静音状态。

所述的语音信号检测，是指：对固定话筒是否有声音的检测。

所述的高通滤波，是指：让高频信号通过而不让低频信号通过，其作用是滤去音频信号中的低音成分，增强中音和高音成分。

所述的短时处理，是指：把语音信号分成一些短段(或称为分析帧)来进行处理。这些短段具有固定的特性，短段间经常有一定的重叠组成一段语音。

所述的静音阈值作用，是指：以先验静音平均能量作为静音阈值，将短段间的平均能量与之比较，大于该阈值，则认为当前状态为语音状态，否则为静音状态。

步骤二，原始鼠标设备信号检测。通过操作系统的应用程序接口实时监视鼠标动作，如果鼠标有动作，通过检测到的对应原始鼠标设备的设备唯一标志号来判断是哪个原始鼠标设备有操作。

所述的原始鼠标设备，是指：鼠标，触摸屏，手写板等设备。

所述的原始鼠标设备检测，是指：对鼠标，触摸屏，手写板等是否有操作的检测。

所述的操作系统，是指，windows操作系统。

所述的原始鼠标设备唯一标志号，是指：Windows操作系统为每个原始鼠标设备分配的唯一标志号。

步骤三，视频图像运动人像检测识别。通过对图像采集卡采集的每一帧图像与混合多高斯背景模型进行背景差分，在自适应阈值作用下，得到二值化差分图，更新混合多高斯背景模型。对二值化差分图像通过腐蚀计算降低分辨率级别，通过连通区域结合运动人像先验知识搜寻运动人像区域。对每个搜寻到的运动人像区域进行色彩特征提取，与前一刻的主讲教师的区域色彩特征进行匹配，找到与主讲教师最匹配的运动人像，更新主讲教师区域色彩特征。

所述的混合多高斯背景模型，是指：背景图像的每一个像素分别用K个高斯分布模型表示其在时间域上的值概率。即

P (x_{t}) = Σ_{i = 1}^{K} w_{i, t} . η (x_{t}; μ_{i, t}, Σ_{i, t})

其中，K是混合高斯模型中高斯分布的个数，一般取为3-5；xt是像素在t时刻的值，由红、绿、蓝三色分量构成。P(x_t)表示像素在t时刻值为x_t的概率，w_i，t表示时刻t混合高斯模型中第i个高斯分布的权重；μ_i，t和∑_i，t分别表示时刻t混合高斯模型中第i个高斯分布的均值向量和协方差矩阵。η表示高斯分布概率密度函数。

x_{t} = (x_{t}^{r}, x_{t}^{g}, x_{t}^{b})

μ_{i, t} = (μ_{i, t}^{r}, μ_{i, t}^{g}, μ_{i, t}^{b})

Σ_{i, t} = [\begin{matrix} σ_{r}^{2} & 0 & 0 \\ 0 & σ_{g}^{2} & 0 \\ 0 & 0 & σ_{b}^{2} \end{matrix}]

η (x_{t}, μ_{t}, Σ) = \frac{1}{{(2 π)}^{d / 2} {| Σ |}^{1 / 2}} . \exp [- \frac{1}{2} {(x_{t} - μ_{t})}^{T} {(Σ)}^{- 1} (x_{t} - μ_{t})]

其中，r表示红色分量，g表示绿色分量，b表示蓝色分量，红、绿、蓝分量相互独立。σ表示高斯分布中对应颜色分量的标准差。K个高斯分布按照权重值从大到小排序。

所述的背景差分，是指：对图像帧中每个像素值Xt与它对应的混合高斯模型进行匹配计算，如果像素值X_t与K个混合高斯分布中的第i个高斯分布的均值的距离小于2.5倍该高斯分布的标准差，则认为该像素值与这个高斯分布匹配。

所述的在自适应阈值作用下，得到二值化差分图，是指：预定阈值T(0.5≤T≤1)，以根据权重排序后的K个高斯分布中的权重和大于T的前B个高斯分布为背景该像素的最佳描述。即：

B = \arg_{b} \min {Σ_{i}^{b} w_{i, t} > T}

如果前一步背景差分所得该像素与该前B个高斯分布中的任何一个匹配，则该像素值置为1，表示该像素点属于前景，否则该像素值置为0，表示该像素点属于背景。

所述的更新混合多高斯背景模型，是指：更新像素值对应的K个混合高斯分布的均值μ，协方差矩阵∑和权重w。

均值、协方差更新规则为：

①当该像素值匹配至少一个高斯分布时：对于不匹配的高斯分布，均值和协方差矩阵保持不变。对于匹配的高斯分布的均值和协方差按下式更新：

μ_i，t＝(1-ρ)·μ_i，t-1+ρ·x_t

∑_i，t＝(1-ρ)·∑_i，t-1+ρ·diag[(x_t-μ_i，t)^T(x_t-μ_i，t)]

其中，ρ为高斯分布的更新率。如果背景稳定，更新率适合小，如果背景变化较快，更新率适合大。

②当该像素值不匹配任何一个对应的混合高斯分布时，对权中最小的高斯分布，即最不可能代表背景的高斯分布重新赋值。即

j＝arg_imin{w_i，t-1}

w_j，t-1＝0，u_j，t＝x_t，

Σ_{j, t} = σ_{0}^{2} \cdot I

其中，j表示最不可能代表背景的那个高斯分布。

表示初始化的各颜色分量的方差。I表示一个3×3的单位矩阵。

权重的更新规则为：

①对于匹配的高斯分布，权重更新为：

w_i，t＝w_i，t-1+α(1-w_i，t-1)

②对于不匹配的高斯分布，权重更新为：

w_i，t＝(1-α)w_i，t-1

其中α为权重的更新率。

所述的对二值化差分图像通过腐蚀计算降低分辨率级别，是指：设定分辨率降低率为n，原二值化差分图像的连续的每一个n×n的像素点集合归一化为降低分辨率后的新图像的一个像素点。n的大小可以为2—5。通过降低分辨率，图像大小减小为原来的

例如，当n为4时，通过降低分辨率级别，宽640像素，高480像素的图像将成为宽160像素，高120像素的图像。所谓的腐蚀计算指通过统计原二值图像中每个n×n的矩阵区域中像素点值为1的个数，如果超过阈值M个(0.5·n²≤M≤n²)，则降低分辨率后对应的像素值为1，否则为0。

所述的通过连通区域结合运动人像先验知识搜寻运动人像区域，是指：在二值化差分图像中找出像素值均为1(即前景像素点)的像素点构成的连通区域，再根据运动人像先验知识(即人体高宽比范围)，判定该连通区域是否为运动人像区域。连通区域具体指这样的区域：区域中任意2个像素值为1的像素点都能用一条由区域内像素值为1的像素点连成的曲线相连。

所述的运动人像区域的色彩特征提取，是指：对运动人像区域的像素各种颜色特征进行统计，并将统计结果进行归一化，以此代表该运动人像目标的色彩特征。颜色特征，即红、绿、蓝三色分量构成的颜色表述，将每色分量值(0-255)平均映射到10个子区间，则每个像素值的颜色共有10×10×10＝1000种可能具体表述。统计结果归一化公式为：

h_{t} (c_{i}) = \frac{H_{t} (c_{i})}{| I |}

其中，h_t(c_i)表示t时刻运动人像区域I中第i种颜色表述的像素点所占比例；H_t(c_i)表示t时刻运动人像区域I中第i种颜色表述的像素点个数；|I|表示运动人像区域I中像素点的个数。

所述的与前一刻的主讲教师的区域色彩特征进行匹配，找到与主讲教师最匹配的运动人像，是指：将t时刻搜寻到的每个运动人像区域与t-1时刻的跟踪目标区域的色彩特征进行比较，差异最小的运动人像区域为跟踪目标的新区域。色彩特征比较公式为：

D (I_{j}, I') = \frac{Σ_{i = 1}^{1000} | h_{I} (c_{i}) - h_{I'} (c_{i}) |}{Σ_{i = 1}^{1000} | h_{I} (c_{i}) + h_{I'} (c_{i}) |}

其中，I_j表示t时刻的搜寻到的第j个运动人像区域，I′表示t-1时刻的跟踪目标区域，D(I_j，I′)表示t时刻的搜寻到的第j个运动人像区域与t-1时刻的跟踪目标区域的色彩特征差异。

所述的更新主讲教师区域色彩特征，是指：在t-1时刻跟踪目标区域的色彩特征的基础上结合t时刻的与主讲教师最匹配的运动人像的色彩特征重新定义跟踪目标区域的色彩特征。具体更新方法为：

h_{t}^{new} (c_{i}) = α \cdot h_{t - 1} (c_{i}) + (1 - α) \cdot h_{t} (c_{i})

其中：

表示跟踪目标区域的最新色彩特征；h_t-1表示t-1时刻跟踪目标区域的色彩特征；h_t表示t时刻的色彩特征；α为色彩特征的更新率，0<α≤1。

步骤四，融合分析步骤一至三的三个通道检测结果，识别主讲教师所在位置，控制云台转向主讲教师，进行变焦予以拉近拉远。

所述的识别主讲教师所在位置，具体为：

1)当语音通道检测到语音信号时，得到结论：主讲教师现在所在位置为话筒所在区域；

2)当原始鼠标设备通道检测到原始鼠标设备信号时，得出结果：主讲教师现在所在位置为检测到的原始鼠标设备信号的对应原始鼠标设备所在的区域；

3)当视频图像运动人像检测通道检测到有运动人像时，如果运动人像有多个，通过色彩特征，找到与历史跟踪过程中的主讲教师最匹配的那个运动人像。如果之前没有主讲教师，则检测到的运动人像中随即选择一个认为最匹配。然后根据前一刻的主讲教师位置、语音通道结果和原始鼠标设备通道结果进行融合判断，具体为：

a)当前一刻主讲教师位置在话筒区域或者原始鼠标设备(如鼠标，键盘，触摸屏，手写板)区域，并且当前时刻检测到的运动人像中有人在该区域，则得出结果：主讲教师当前所在位置依旧为话筒区域或者原始鼠标设备区域；如果与主讲教师最匹配的运动人像在话筒区域或者原始鼠标设备区域，则认为该运动人像与主讲教师最匹配。否则，认为在话筒区域或者原始鼠标设备区域的运动人像与主讲教师最匹配。这种情况，可以帮助智能的选择多个运动人像中哪个最有可能是主讲教师。

b)当前一刻主讲教师位置在话筒区域或者原始鼠标设备(如鼠标，键盘，触摸屏，手写板)区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前语音信号检测通道检测到话筒有声音或者当前原始鼠标设备信号检测通道检测到有鼠标操作，则得出结果：主讲教师当前所在位置依旧为话筒区域或者原始鼠标设备区域。这种情况可能由于主讲教师站在讲台后讲话，由于被遮挡导致视频图像没有检测到运动人像，而话筒有声音或者原始鼠标设备有操作。

c)当前一刻主讲教师位置在话筒区域或者原始鼠标设备(如鼠标，键盘，触摸屏，手写板)区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前原始鼠标设备信号检测通道也没有检测到话筒有声音或者鼠标有操作，则得出结果：主讲教师当前所在位置为最匹配的运动人像所在位置。

d)当前一刻主讲教师位置在话筒，原始鼠标设备所在区域之外，则得出结果：主讲教师当前所在位置为最匹配的运动人像所在位置。

步骤五，循环步骤一到步骤四，实时跟踪运动教师。

本发明不仅能够被应用于远程教育智能教室中，还能被推广应用于电视会议、可视电话及网络会议中，能够准确实时地采集现场主讲人员的图像，传输给远端参与者，让他们获得一个临场感更强的远程交互体验。

附图说明

图1是本发明方案整体工作流程图；

图2是本发明视频图像中运动人像检测流程示意图；

图3是本发明多通道检测结果融合过程示意图；

图4是本发明实施例的实施场景图；

图5是本发明实施例的场景转移图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例用于在远程教育的智能教室中自动实时跟踪主讲教师，采集主讲教师的实时图像。

如图1所示，本实施例包括以下几个步骤：

步骤一，通过声卡采集智能教室中教师使用的话筒产生的音频信号，本实施例中的信号的采样率为8kHz。对输入的音频信号先进行高通滤波处理，减弱智能教室内以噪音为主的信号能量。接着对音频信号进行短时处理，计算每个短段间的平均能量。在静音阈值作用下，判定当前状态为语音状态还是静音状态。

所述的短时处理，是指：把语音信号分成一些短段(或称为分析帧)来进行处理。这些短段具有固定的特性，短段间经常有一定的重叠组成一段语音。本实施例中选择输入1024字节的音频信号数据的时间段为一个短段。

所述的静音阈值作用，是指：以先验静音平均能量作为静音阈值，将短段间的平均能量与之比较，大于该阈值，则认为当前状态为语音状态，否则为静音状态。本实施例中静音值为100。

步骤二，通过操作系统的应用程序接口实时监视引起鼠标动作的原始鼠标设备号，识别是多个原始鼠标设备中的哪个引起。

所述的原始鼠标设备，是指：鼠标，键盘，触摸屏等。本实施例中包括鼠标，键盘，触摸屏和手写板4个原始鼠标设备。

所述的操作系统，是指，windows操作系统。

步骤三，摄像头获取智能教室教师活动范围全景视频，经图像采集卡转换为图像，在图像中进行运动人像检测识别，具体检测过程如图2所示。

步骤四，按照如图3的融合过程处理步骤一到步骤三的三个通道的检测结果。

步骤五，通过步骤四的融合处理，得到主讲教师当前所在的位置。

步骤六，根据主讲教师位置信息，向云台发送控制命令，让云台转向主讲教师，并进行变焦予以拉近拉远。

如图2所示，视频图像的运动人像检测和识别过程包括以下步骤：

步骤一，摄像头获取智能教室教师活动范围全景视频，经图像采集卡转换为图像。通过第一帧图像初时化混合多高斯背景模型。其中图像采集卡转换的图像分辨率为宽640像素，高480像素。

P (x_{t}) = Σ_{i = 1}^{K} w_{i, t} . η (x_{t}; μ_{i, t}, Σ_{i, t})

其中，K是混合高斯模型中高斯分布的个数，一般取为3-5；x_t是像素在t时刻的值，由红、绿、蓝三色分量构成。P(x_t)表示像素在t时刻值为x_t的概率，w_i，t表示时刻t混合高斯模型中第i个高斯分布的权重；μ_i，t和∑_i，t分别表示时刻t混合高斯模型中第i个高斯分布的均值向量和协方差矩阵。η表示高斯分布概率密度函数。

x_{t} = (x_{t}^{r}, x_{t}^{g}, x_{t}^{b})

μ_{i, t} = (μ_{i, t}^{r}, μ_{i, t}^{g}, μ_{i, t}^{b})

Σ_{i, t} = [\begin{matrix} σ_{r}^{2} & 0 & 0 \\ 0 & σ_{g}^{2} & 0 \\ 0 & 0 & σ_{b}^{2} \end{matrix}]

η (x_{t}, μ_{t}, Σ) = \frac{1}{{(2 π)}^{d / 2} {| Σ |}^{1 / 2}} . \exp [- \frac{1}{2} {(μ_{t} - μ_{t})}^{T} {(Σ)}^{- 1} (x_{t} - μ_{t})]

本实施例中K取值为5。每一个像素由5个高斯分布模型描述。通过第一帧图像初始化混合多高斯背景模型时：第1个高斯分布的权重初始化为1，红、绿、蓝三色分量的高斯分布均值初始化为第一帧图像中对应分量的值，三个分量的高斯分布标准差均初始化为5；其他4个高斯分布的权重初始化为0，三色分量的高斯分布均值初始化为0，三色分量的高斯分布的标准差均初始化为5。

步骤二，将帧图像与混合多高斯背景模型进行背景差分。

所述的背景差分，是指：对图像帧中每个像素值X_t与它对应的混合高斯模型进行匹配计算，如果像素值X_t与K个混合高斯分布中的第i个高斯分布的均值的距离小于2.5倍该高斯分布的标准差，则认为该像素值与这个高斯分布匹配。

步骤三，经过背景差分后，在自适应阈值作用下，得到二值化差分图，更新混合多高斯背景模型。

B = \arg_{b} \min {Σ_{i}^{b} w_{i, t} > T}

如果前一步背景差分所得该像素与该前B个高斯分布中的任何一个匹配，则该像素值置为1，表示该像素点属于前景，否则该像素值置为0，表示该像素点属于背景。本实施例中阈值T的取值为0.7。

均值，协方差更新规则为：

1.当该像素值匹配至少一个高斯分布时：对于不匹配的高斯分布，均值和协方差矩阵保持不变。对于匹配的高斯分布的均值和协方差按下式更新：

μ_i，t＝(1-ρ)·μ_i，t-1+ρ·x_t

∑_i，t＝(1-ρ)·∑_i，t-1+ρ·diag[(x_t-μ_i，t)^T(x_t-μ_i，t)]

其中，ρ为高斯分布的更新率。如果背景稳定，更新率适合小，如果背景变化较快，更新率适合大。本实施例中高斯分布更新率ρ取值为

其中sum为历史匹配该高斯分布的图像帧数累积之和。

2.当该像素值不匹配任何一个对应的混合高斯分布时，对权中最小的高斯分布，即最不可能代表背景的高斯分布重新赋值。即

j＝arg_imin{w_i，t-1}

w_j，t-1＝0，u_j，t＝x_t，

Σ_{j, t} = σ_{0}^{2} \cdot I

其中，j表示最不可能代表背景的那个高斯分布。σ0表示初始化的各颜色分量的标准差。I表示一个3×3的单位矩阵。本实施例中各颜色分量的方差σ0的初始化值为5。

权重的更新规则为：

1.对于匹配的高斯分布，权重更新为：

w_i，t＝w_i，t-1+α(1-w_i，t-1)

2.对于不匹配的高斯分布，权重更新为：

w_i，t＝(1-α)w_i，t-1

其中α为权重的更新率。本实施例中对于智能教室中经常会有变化的背景区域(如投影屏幕区域)的权重更新率α取值为0.008，对于稳定背景区域的权重更新率α取值为0.002。

步骤四，对二值化差分图像通过腐蚀计算降低分辨率级别。

例如，当n为4时，通过降低分辨率级别，宽640像素，高480像素的图像将成为宽160像素，高120像素的图像。所谓的腐蚀计算指通过统计原二值图像中每个n×n的矩阵区域中像素点值为1的个数，如果超过阈值M个(0.5·n²≤M≤n²)，则降低分辨率后对应的像素值为1，否则为0。本实施例中n取值为4，经过降低分辨率，宽640像素，高480像素的二值化差分图像，成为宽160像素，高120像素的图像。阈值M为0.7×4×4＝11.2。

步骤五，通过连通区域结合运动人像先验知识在步骤四处理后的二值化差分图中搜寻运动人像区域。

步骤六，对每个搜寻到的运动人像区域进行色彩特征提取。

h_{t} = (c_{i}) = \frac{H_{t} (c_{i})}{| I |}

步骤七，与前一刻的主讲教师的区域色彩特征进行匹配，找到与主讲教师最匹配的运动人像，更新主讲教师区域色彩特征。

所述的与前一刻的主讲教师的区域色彩特征进行匹配，找到与主讲教师最匹配的运动人像，是指：将t时刻搜寻到的每个运动人像区域与t-1时刻的主讲教师区域的色彩特征进行比较，差异最小的运动人像区域为主讲教师的新区域。色彩特征比较公式为：

D (I_{j}, I') = \frac{Σ_{i = 1}^{1000} | h_{I} (c_{i}) - h_{I'} (c_{i}) |}{Σ_{i = 1}^{1000} | h_{I} (c_{i}) + h_{I'} (c_{i}) |}

其中，I_j表示t时刻的搜寻到的第j个运动人像区域，I′表示t-1时刻的跟踪目标区域，D(I_j，I′)表示t时刻的搜寻到的第j个运动人像区域与t-1时刻的主讲教师区域的色彩特征差异。

所述的更新主讲教师区域色彩特征，是指：在t-1时刻主讲教师的色彩特征的基础上结合t时刻的与主讲教师最匹配的运动人像的色彩特征重新定义主讲教师的色彩特征。具体更新方法为：

h_{t}^{new} = (c_{i}) = α \cdot h_{t - 1} (c_{i}) + (1 - α) \cdot h_{t} (c_{i})

其中：

表示跟踪目标区域的最新色彩特征；h_t-1表示t-1时刻跟踪目标区域的色彩特征；h_t表示t时刻的色彩特征；α为色彩特征的更新率，0<α≤1。本实施例中色彩特征的更新率α的值为0.9。

如图3所示，本实施例中的多通道检测结果融合过程为：

1.当语音通道检测到语音信号时，得到结果：主讲教师现在所在位置为话筒所在区域。

2.当原始鼠标设备通道检测到原始鼠标设备信号时，得出结果：主讲教师现在所在位置为检测到的原始鼠标设备信号的对应原始鼠标设备所在的区域。

3.当视频图像运动人像检测通道检测到有运动人像时，如果运动人像有多个，通过色彩特征，找到与历史跟踪过程中的主讲教师最匹配的那个运动人像。如果之前没有主讲教师，则检测到的运动人像中随即选择一个认为最匹配。然后根据前一刻的主讲教师位置、语音通道结果和原始鼠标设备通道结果进行判断，具体有以下七种可能情况：

情况一，前一刻主讲教师位置在话筒区域，并且当前时刻检测到的运动人像中有人在该区域，则得出结果：主讲教师当前所在位置依旧为话筒所在区域，如果与主讲教师最匹配的运动人像在话筒区域，则依旧认为该运动人像与主讲教师最匹配。否则，认为在话筒区域的运动人像与主讲教师最匹配。这种情况，可以帮助智能的识别多个运动人像中哪个最有可能是主讲教师，从而让云台正确跟踪。

情况二，前一刻主讲教师位置在话筒区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前语音信号检测通道检测到话筒有声音，则得出结果：主讲教师当前所在位置依旧为话筒所在区域。这种情况可能由于主讲教师站在讲台后讲话，由于被遮挡导致视频图像没有检测到运动人像，而话筒有声音。

情况三，前一刻主讲教师位置在话筒区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前语音信号检测通道检测到话筒也没有声音，则得出结果：主讲教师当前所在位置为最匹配的运动人像所在位置。

情况四，前一刻主讲教师位置在原始鼠标设备(如鼠标，键盘，触摸屏，手写板)所在区域，并且当前时刻检测到的运动人像中有人在该区域，则得出结果：主讲教师当前所在位置依旧为原始鼠标设备所在区域，如果与主讲教师最匹配的运动人像在原始鼠标设备区域，则依旧认为该运动人像与主讲教师最匹配。否则，认为在原始鼠标设备区域的运动人像与主讲教师最匹配。这种情况，可以帮助智能的识别多个运动人像中哪个最有可能是主讲教师，从而让云台正确跟踪。

情况五，前一刻主讲教师位置在原始鼠标设备(如鼠标，键盘，触摸屏，手写板)所在区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前原始鼠标设备信号检测通道检测到有鼠标操作，则得出结果：主讲教师当前所在位置为对应原始鼠标设备所在区域。这种情况可能由于主讲教师站在讲台后操作电脑等原因，由于被遮挡导致视频图像没有检测到运动人像，而鼠标设备有操作。

情况六，前一刻主讲教师位置在原始鼠标设备(如鼠标，键盘，触摸屏，手写板)所在区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前原始鼠标设备信号检测通道也没有检测到鼠标操作，则得出结果：主讲教师当前所在位置为最匹配的运动人像所在位置。

情况七，前一刻主讲教师位置在话筒，原始鼠标设备所在区域之外，则得出结果：主讲教师当前所在位置为最匹配的运动人像所在位置。

如图4所示，为本发明实施例的实施场景图。该实施场景为远程教育中心的一个智能教室。在该教室中有固定话筒，教师使用的电脑(配有鼠标，键盘，手写板和触摸屏)，大面积投影幕，拍摄视频图像的摄像头，跟踪教师运动的云台和数据计算处理服务器(配有图像采集卡，声卡)一台。摄像头拍摄教师活动范围的视频图像，摄像头数据线连接服务器上的采集卡，通过采集卡转换为图像，检测教师的运动人像。教师电脑上检测鼠标，键盘，手写板和触摸屏是否有人操作，并把结果通过网络传给服务器。固定话筒数据线连接服务器上的声卡，通过声卡采集音频信号，检测是否有人使用固定话筒。通过对话筒，鼠标，键盘，手写板和触摸屏信号的检测以及视频图像的运动人像检测，判断出当前教师所在的位置，控制云台转向教师，进行变焦予以拉近拉远。

如图5所示，为本发明实施例的场景转移图。转移图中选择了4个典型场景，分别为：

场景1：教师在讲台区域，使用话筒授课，使用手写板或鼠标或键盘使用电脑上课件。

场景2，3：教师在授课过程中走动。

场景4：教师走动到触摸屏附近，通过触摸屏使用电脑上的课件。

各个连续场景间的转换如场景1到场景2，场景2到场景3等主要由于教师的运动引起。通过视频图像对于运动人像的检测，实现实时的教师跟踪。

非连续场景的切换如场景3到场景1，场景4到场景1等主要是由于上课前期，学生在教师授课范围内走动，服务器只能检测到运动人像，而没有语音信号和原始鼠标设备信号，无法立即自动识别哪个运动人像为主讲教师引起的。当主讲教师开始授课，使用话筒，鼠标，键盘，手写板或触摸屏等授课用具时，服务器就自动识别多个运动人像中离被使用的授课用具最近的运动人像为主讲教师，将场景从错误的跟踪目标上切换到授课用具(即主讲教师)所在区域。

Claims

1、一种基于运动检测结合多通道融合的教师运动跟踪方法，其特征在于，包括以下步骤：

步骤一，语音信号检测：通过声卡采集音频信号，对输入的音频信号先进行高通滤波，减弱以噪音为主的信号能量，接着对音频信号进行短时处理，计算短段间的平均能量，在静音阈值作用下，判定当前状态为语音状态还是静音状态；

步骤二，原始鼠标设备信号检测：通过操作系统的应用程序接口实时监视鼠标动作，如果鼠标有动作，通过检测的对应原始鼠标设备的设备唯一标志号来判断是哪个原始鼠标设备有操作；

步骤三，视频图像运动人像检测识别：通过对图像采集卡采集的每一帧图像与混合多高斯背景模型进行背景差分，在自适应阈值作用下，得到二值化差分图，更新混合多高斯背景模型，对二值化差分图像通过腐蚀计算降低分辨率级别，通过连通区域结合运动人像先验知识搜寻运动人像区域，对每个搜寻到的运动人像区域进行色彩特征提取，与前一刻的主讲教师的区域色彩特征进行匹配，找到与主讲教师最匹配的运动人像，更新主讲教师区域色彩特征；

步骤四，融合分析步骤一至三的三个通道检测结果，识别主讲教师所在位置，控制云台转向主讲教师，进行变焦予以拉近拉远；

步骤五，循环步骤一到步骤四，实时跟踪运动教师。

2、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的混合多高斯背景模型，具体为：

背景图像的每一个像素分别用K个高斯分布模型表示其在时间域上的值概率，即

P (x_{t}) = Σ_{i = 1}^{K} w_{i, t} . η (x_{t}; μ_{i, t}, Σ_{i, t})

其中，K是混合高斯模型中高斯分布的个数，取3-5；x_t是像素在t时刻的值，由红、绿、蓝三色分量构成；P(x_t)表示像素在t时刻值为x_t的概率，w_i，t表示时刻t混合高斯模型中第i个高斯分布的权重；μ_i，t和∑_i，t分别表示时刻t混合高斯模型中第i个高斯分布的均值向量和协方差矩阵；η表示高斯分布概率密度函数；

x_{t} = (x_{t}^{r}, x_{t}^{g}, x_{t}^{b})

μ_{i, t} = ({μ_{i, t}^{r}, μ}_{i, t}^{g}, μ_{i, t}^{b})

Σ_{i, t} = [\begin{matrix} σ_{r}^{2} & 0 & 0 \\ 0 & σ_{g}^{2} & 0 \\ 0 & 0 & σ_{b}^{2} \end{matrix}]

η (x_{t}, μ_{t}, Σ) = \frac{1}{{(2 π)}^{d / 2} {| Σ |}^{1 / 2}} . \exp [- \frac{1}{2} {(x_{t} - μ_{t})}^{T} {(Σ)}^{- 1} (x_{t} - μ_{t})]

其中，r表示红色分量，g表示绿色分量，b表示蓝色分量，红、绿、蓝分量相互独立；σ表示高斯分布中对应颜色分量的标准差；K个高斯分布按照权重值从大到小排序。

3、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的背景差分，是指：对图像帧中每个像素值X_t与它对应的混合高斯模型进行匹配计算，如果像素值X_t与K个混合高斯分布中的第i个高斯分布的均值的距离小于2.5倍该高斯分布的标准差，则认为该像素值与这个高斯分布匹配。

4、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的更新混合多高斯背景模型，是指：更新像素值对应的K个混合高斯分布的均值μ，协方差矩阵∑和权重w，其中：

均均值μ，协方差矩阵∑更新规则为：

①当该像素值匹配至少一个高斯分布时：对于不匹配的高斯分布，均值和协方差矩阵保持不变，对于匹配的高斯分布的均值和协方差按下式更新：

μ_i，t＝(1-ρ)·μ_i，t-1+ρ·x_t

Σ_{i, t} = (1 - ρ) \cdot Σ_{i, t - 1} + ρ \cdot diag [{(x_{t} - μ_{i, t})}^{T} (x_{t} - μ_{i, t})]

其中，ρ为高斯分布的更新率，ρ取值为，其中sum为历史匹配该高斯分布的图像帧数累积之和；

②当该像素值不匹配任何一个对应的混合高斯分布时，对权中最小的高斯分布，即最不可能代表背景的高斯分布重新赋值，即

j＝arg_i min{w_i，t-1}

w_j，t-1＝0，u_j，t＝x_t，

Σ_{j, t} = σ_{0}^{2} \cdot I

其中，j表示最不可能代表背景的那个高斯分布，σ₀表示初始化的各颜色分量的标准差，I表示一个3×3的单位矩阵；

权重w的更新规则为：

①对于匹配的高斯分布，权重更新为：

w_i，t＝w_i，t-1+α(1-w_i，t-1)其中α为权重的更新率；

②对于不匹配的高斯分布，权重更新为：

w_i，t＝(1-α)w_i，t-1其中α为权重的更新率。

5、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的通过腐蚀计算降低分辨率级别，是指：设定分辨率降低率为n，原二值化差分图像的连续的每一个n×n的像素点集合归一化为降低分辨率后的新图像的一个像素点，通过降低分辨率，图像大小减小为原来的

所谓的腐蚀计算指通过统计二值图像中每个n×n的矩阵区域中像素点值为1的个数，如果超过阈值M个，0.5·n²≤M≤n²，则降低分辨率后对应的像素值为1，否则为0。

6、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的运动人像区域进行色彩特征提取，是指：对运动人像区域的像素各种颜色特征进行统计，并将统计结果进行归一化，以此代表该运动人像目标的色彩特征，颜色特征即红、绿、蓝三色分量构成的颜色表述，将每色分量值0-255平均映射到10个子区间，则每个像素值的颜色共有10×10×10＝1000种可能具体表述，统计结果归一化公式为：

h_{t} (c_{i}) = \frac{H_{t} (c_{i})}{| I |}

7、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的与前一刻的主讲教师的区域色彩特征进行匹配，是指：将t时刻搜寻到的每个运动人像区域与t-1时刻的主讲教师区域的色彩特征进行比较，差异最小的运动人像区域为主讲教师的新区域，色彩特征比较公式为：

D (I_{j}, I') = \frac{Σ_{i = 1}^{1000} | h_{I} (c_{i}) - h_{I'} (c_{i}) |}{Σ_{i = 1}^{1000} | h_{I} (c_{i}) + h_{I'} (c_{i}) |}

8、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的更新主讲教师区域色彩特征，是指：在t-1时刻主讲教师的色彩特征的基础上结合t时刻的与主讲教师最匹配的运动人像的色彩特征重新定义主讲教师的色彩特征，具体更新方法为：

h_{t}^{new} (c_{i}) = α \cdot h_{t - 1} (c_{i}) + (1 - α) \cdot h_{t} (c_{i})

其中：表示跟踪目标区域的最新色彩特征；h_t-1表示t-1时刻跟踪目标区域的色彩特征；h_t表示t时刻的色彩特征；α为色彩特征的更新率，0<α≤1。

9、根据权利要求1所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的识别主讲教师所在位置，具体为：

当语音通道检测到语音信号时，得到结论：主讲教师现在所在位置为话筒所在区域；

当原始鼠标设备通道检测到原始鼠标设备信号时，得出结果：主讲教师现在所在位置为检测到的原始鼠标设备信号的对应原始鼠标设备所在的区域；

当视频图像运动人像检测通道检测到有运动人像时，如果运动人像有多个，通过色彩特征，找到与历史跟踪过程中的主讲教师最匹配的那个运动人像；如果之前没有主讲教师，则检测到的运动人像中随即选择一个认为最匹配，然后根据前一刻的主讲教师位置、语音通道结果和原始鼠标设备通道结果进行判断。

10、根据权利要求9所述的基于运动检测结合多通道融合的教师运动跟踪方法，其特征是，所述的根据前一刻的主讲教师位置、语音通道结果和原始鼠标设备通道结果进行判断，具体为：

当前一刻主讲教师位置在话筒区域或者原始鼠标设备区域，并且当前时刻检测到的运动人像中有人在该区域，则得出结果：主讲教师当前所在位置依旧为话筒区域或者原始鼠标设备区域；如果与主讲教师最匹配的运动人像在话筒区域或者原始鼠标设备区域，则认为该运动人像与主讲教师最匹配，否则，认为在话筒区域或者原始鼠标设备区域的运动人像与主讲教师最匹配；

当前一刻主讲教师位置在话筒区域或者原始鼠标设备区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前语音信号检测通道检测到话筒有声音或者当前原始鼠标设备信号检测通道检测到有鼠标操作，则得出结果：主讲教师当前所在位置依旧为话筒区域或者原始鼠标设备区域；

当前一刻主讲教师位置在话筒区域，原始鼠标设备区域，但是当前时刻检测到的运动人像中没人在该区域，如果当前原始鼠标设备信号检测通道也没有检测到鼠标操作，则得出结果：主讲教师当前所在位置为最匹配的运动人像所在位置；

当前一刻主讲教师位置在话筒，原始鼠标设备所在区域之外，则得出结果：主讲教师当前所在位置为最匹配的运动人像所在位置。