CN102298443B

CN102298443B - 结合视频通道的智能家居语音控制系统及其控制方法

Info

Publication number: CN102298443B
Application number: CN 201110174072
Authority: CN
Inventors: 徐向民; 梁卓锐; 王玥
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2011-06-24
Filing date: 2011-06-24
Publication date: 2013-09-25
Anticipated expiration: 2031-06-24
Also published as: CN102298443A

Abstract

本发明公开了结合视频通道的智能家居语音控制系统及其方法，系统包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。识别系统模块包括唇语部分和语音部分，所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块；所述语音部分包括依次连接的语音输入模块、语音识别模块。其能够通过检测控制手势、识别人脸和唇语信息，对已识别到的语音信息加以补充，从而提高控制指令的准确度，增加利用语音控制智能家居的可行性。本专利具有很强的抗干扰能力，可广泛应用于多种复杂环境模式，尤其适用于克服家庭环境中人多有噪音的情况下。

Description

结合视频通道的智能家居语音控制系统及其控制方法

技术领域

本发明涉及视频语音识别技术，尤其涉及结合视频通道的智能家居语音控制系统及其控制方法。

背景技术

目前，大部分复杂的家电都是通过遥控器的键盘输入方式进行遥控的，随着家居的智能化以及包含内容的多样化，为了优化操作方式、增强操作的舒适性，用户需要更加易于操作的遥控器。语言是人类最直接最方便的交流和表达方式，如果采用语音识别技术，可以将原来的被动静止结构转变为具有主动识别语音执行的智慧工具，从而满足人们日益增长的需求。

近年来，语音识别技术发展十分迅速，目前已出现了许多自动语音识别类的产品，例如IBM开发的ViaVoice语音系统等。但是这些系统仍然缺乏较强的抗干扰能力，原因是它只能单一地从语音信道中获取信息，当这些系统应用到真实环境中时，一旦有背景噪声或多人交叉说话，它们的性能将大大下降，并且这样的应用环境十分常见，如：办公室、汽车、工厂或机场等，就连家庭环境也是如此。

发明内容

为解决现有技术存在的缺点和不足，本发明提供结合视频通道的智能家居语音控制系统及其控制方法，相比现有技术所采用的控制方式，本发明抗干扰能力强，能够克服家庭环境中由于噪音干扰所带来的无法识别的技术问题。

本发明的目的通过下述技术方案实现：

结合视频通道的智能家居语音控制系统，包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。

所述识别系统模块包括唇语部分和语音部分，所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块；所述语音部分包括依次连接的语音输入模块、语音识别模块。

结合视频通道的智能家居语音控制系统的识别方法，可通过如下步骤实现：

(1)手势检测

手势检测模块采用haar小波变换，以及LBP特征提取，选取Adaboost分类器对固定手势进行检测，判断用户是否获得控制权；

(2)人脸检测

人脸检测模块采用haar小波变换，选取Adaboost分类器对人脸进行检测，判断操作空间内是否有人，如果检测到人脸，则同时开启识别系统模块的唇语和语音两部分；

(3)人脸跟踪与定位

人脸跟踪与定位模块结合人脸检测模块输出的参数，按照人脸的大小以及位置，调整摄像头焦距和光轴，使人脸图像足够清晰，同时控制人脸处于图像中央位置，使人脸至少占图像的三分之二面积以上；

(4)唇语视频输入

唇语视频输入模块将从人脸中提取出嘴唇部分，实现嘴唇的分割与模型建立，获得嘴唇运动序列；

(5)唇语识别

唇语识别模块将相应的嘴唇运动序列翻译成为一定语义的指令，其中包括唇部特征提取和模式识别；

(6)语音输入

语音输入模块通过语音接收设备，接收音频输入，系统采用麦克风将语音输入给计算机，声卡以一定频率机型数据采样，然后进行A/D转换；为减少不利影响，此模块将对输入的语音信号进行高频补偿。

(7)语音识别

语音识别模块将检测到的语音数据，翻译成对应的语义指令，包括语音特征提取和语音识别。

(8)指令判断

指令判断模块将语音识别模块的输出结果和唇语识别模块的输出结果进行匹配，通过概率分析，判断该指令是否有效，

指令集为C＝[c₁，c₂，...c_n]

唇语识别模块输出各指令概率为P＝[p₁，p₂，...p_n]，

语音识别模块输出各指令概率为Q＝[q₁，q₂，...q_n]，

则认为唇语和语音结合判断的指令概率D＝[d₁，d₂，...d_n]，其中

d_{i} = p_{i} q_{i} / Σ_{k = 1}^{n} p_{k} q_{k},

1≤i≤n

挑选最大概率d_imax，若d_imax大于阈值，则选择d_imax对应的指令c_i作为输出指令；若d_imax小于阈值，则认为该指令是无效指令，系统将返回至人脸检测模块重新开始。

(9)指令显示与确认

指令显示与确认模块将显示判断后的最终指令，供用户确认，确认方法仍为手势控制。

上述步骤(4)唇语视频输入具体如下：

(1)嘴唇分割使用改善的FCMS算法，将图像的颜色信息与空间信息结合起来，再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中，实现嘴唇的有效分割；

(2)在嘴唇模型建立方法上，采用14点主动形状模型。在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量；

上述步骤(5)唇语识别具体如下：

(1)唇部的形状特征提取，将选取14点ASM模型的长和宽，即6点和14点之间以及3点和10点之间的距离W和H作为特征，并在计算过程中引入两点间距离公式：

D = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}}

为消除由于说话人坐姿等带来的干扰因素，要对W，H进行归一化，特征向量记为f_WH＝{W，H}；另外几何特征提取将通过14点ASM模型进行曲线拟合，然后把说话人嘴唇划分为三段曲线，即1-6点和14点，6-10点，10-14点分别进行二次曲线拟合：

Y＝ax²+bx+c

曲线内核所得到参数a，b，c，经过归一化后可作为独立的特征向量，此特征向量可记为

f_cur＝{a₁，b₁，c₁，a₂，b₂，c₂，a₃，b₃，c₃}

其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征：

Vf＝f(n)-f(n-1)，结果记为Vf_WH，Vf_cur

V²f＝f(n)+f(n-2)-2f(n-1)，结果记为V²f_WH，V²f_cur

(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM，通过这种方式识别唇语。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后，指令集中的每个子集概率都会不一样，将所有子集对应的概率输入指令判断模块。

上述步骤(7)语音特征提取和语音识别具体如下：

(1)语音特征提取

使用线性预测倒谱系数来表征短时语音信号，由线性预测系数直接推导：

c_{m} = a_{m} + Σ_{k = 1}^{m - 1} \frac{k}{m} c_{k} a_{m - k} (1 \leq m \leq p)

c_{m} = Σ_{k = 1}^{m - 1} \frac{k}{m} c_{k} a_{m - k} (m > p)

(2)语音识别，使用动态时间规整方法和隐马尔科夫模型方法；

动态时间规整方法对参考语音模式和待测语音模式的时间轴进行非线性归一化变换，使其对齐从而进行模板匹配；隐马尔科夫模型方法包括：

1)HMM(即为隐马尔科夫模型方法)中的状态个数记为N；模型t时刻的状态记为q_t。

2)初始状态概率分布π＝[π_i]。

3)状态概率转移矩阵为A＝[a_ij]，其中a_ij，a_ij＝P(q_t+1＝S_i)，1≤i，j≤N表示从状态i转移到状态j的概率。

4)观察概率分布B＝[b_j(O_j)]，表示时刻t观察到状态i的概率；

只要合并不同HMM之间的引入状态和引出状态，即得到任意长度的音素序列或词序列的组合模型。预示对于每一帧特征矢量，组合HMM都会以一定的转移概率改变状态，而当前状态又以其观察概率产生这一帧特征矢量，这样就能计算某音素序列或词序列产生给定特征矢量的概率，实现语音识别，紧接着将识别的内容与事先设置好的指令集进行匹配，匹配后，指令集中的每个子集概率都会不一样，将所有子集对应的概率输入指令判断模块。

上述步骤(9)指令显示与确认具体如下：当检测到用户的手势，若表示确认该指令，指令将会输出到相应的设备中执行；当检测到用户的手势，若表示否定该指令，系统将返回至人脸检测模块重新开始。

与现有技术相比本发明的有益效果在于，在中远距离情况下，结合视频通道的智能家居语音控制系统，其能够通过检测控制手势、识别人脸和唇语信息，对已识别到的语音信息加以补充，从而提高控制指令的准确度，增加利用语音控制智能家居的可行性。本发明可稳定的应用于有噪音，以及中远距离等复杂情况。本发明技术手段简便易行，抗干扰能力强，克服了家庭环境中由于噪音干扰所带来的无法识别的技术问题。

附图说明

图1为本发明的系统结构及工作流程示意图；

图2为图1中指令判断模块的判断方法示意图；

图3(a)、(b)为本发明唇部视频输入步骤中嘴唇模型建立示意图；

图4本发明动态时间规整坐标示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步的详细描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明结合视频通道的智能家居语音控制系统，包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。所述识别系统模块包括唇语部分和语音部分，所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块；所述语音部分包括依次连接的语音输入模块、语音识别模块。

如图1所示，上述控制系统通过下述方法实现：

1、手势检测：手势检测模块采用haar小波变换，以及LBP特征提取，选取Adaboost分类器对固定手势进行检测，判断用户是否获得控制权。本发明中，如果检测到用户的手势为拳头，则表示获取控制权。

2、人脸检测：人脸检测模块采用haar小波变换，选取Adaboost分类器对人脸进行检测，判断操作空间内是否有人。如果检测到人脸，则同时开启唇语和语音两部分。

3、人脸跟踪与定位：人脸跟踪与定位模块将结合人脸检测模块输出的参数，按照人脸的大小以及位置，调整摄像头焦距和光轴，使人脸图像足够清晰，同时控制人脸处于图像中央位置，使人脸至少占图像的三分之二面积以上。

4、唇部视频输入：唇部视频输入模块将从人脸中提取出嘴唇部分，实现嘴唇的分割与模型建立，从而获得嘴唇运动序列。

(1)嘴唇分割使用改善的FCMS算法，将图像的颜色信息与空间信息结合起来，再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中，实现嘴唇的有效分割。

(2)如图3a、b所示，在嘴唇模型建立方法上，本发明将采用14点主动形状模型。在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量。

5、唇语识别：唇语识别模块通过模式识别技术，将相应的嘴唇运动序列翻译成为一定语义的指令，其中包括唇部特征提取和模式识别。

(1)唇部的形状特征提取将选取上图14点ASM模型的长和宽，即6点和14点之间以及3点和10点之间的距离W和H作为特征，并在计算过程中引入两点间距离公式：

D = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}}

为消除由于说话人坐姿等带来的干扰因素，要对W，H进行归一化，特征向量可记为f_WH＝{W，H}；另外几何特征提取将通过14点ASM模型进行曲线拟合，然后把说话人嘴唇划分为三段曲线，即1-6点和14点，6-10点，10-14点分别进行二次曲线拟合：

Y＝ax²+bx+c

f_cur＝{a₁，b₁，c₁，a₂，b₂，c₂，a₃，b₃，c₃}

Vf＝f(n)-f(n-1)，结果记为Vf_WH，Vf_cur

V²f＝f(n)+f(n-2)-2f(n-1)，结果记为V²f_WH，V²f_cur

6、语音输入模块：该模块通过拾音器等接收设备，接收音频输入。系统采用麦克风将语音输入给计算机，声卡以一定频率机型数据采样，然后进行A/D转换。为减少不利影响，此模块将对输入的语音信号进行高频补偿。

7、语音识别模块：该模块通过语音模式识别技术，将检测到的语音数据，翻译成对应的语义指令，包括语音特征提取和语音识别，如下：

(1)语音特征提取方面，本发明使用线性预测倒谱系数(LPCC)来表征短时语音信号，可由线性预测系数(LPC)直接推导：

c_{m} = a_{m} + Σ_{k = 1}^{m - 1} \frac{k}{m} c_{k} a_{m - k} (1 \leq m \leq p)

c_{m} = Σ_{k = 1}^{m - 1} \frac{k}{m} c_{k} a_{m - k} (m > p)

(2)语音识别方面，本专利使用动态时间规整技术(DTW)和隐马尔科夫模型技术。

DTW算法主要用于孤立词语识别中，通过该技术对参考语音模式和待测语音模式的时间轴进行非线性归一化变换，使其对齐从而进行模板匹配。如图4所示。

而隐马尔科夫模型技术(HMM)包括：

1)HMM中的状态个数记为N；模型t时刻的状态记为q_t。

2)初始状态概率分布π＝[π_i]。

4)观察概率分布B＝[b_j(O_j)]，表示时刻t观察到状态i的概率。

只要合并不同HMM之间的引入状态和引出状态，就可以得到任意长度的音素序列或词序列的组合模型。预示对于每一帧特征矢量，组合HMM都会以一定的转移概率改变状态，而当前状态又以其观察概率产生这一帧特征矢量。这样就可以计算某音素序列或词序列产生给定特征矢量的概率了，从而实现语音识别。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后，指令集中的每个子集概率都会不一样，将所有子集对应的概率输入指令判断模块。

8、指令判断：指令判断模块将语音识别的输出结果和唇语识别的输出结果进行匹配，通过概率分析，判断该指令是否有效。如图2所示。

指令集为C＝[c₁，c₂，...c_n ]

唇语识别模块输出各指令概率为P＝[p₁，p₂，...p_n]，

语音识别模块输出各指令概率为Q＝[q₁，q₂，...q_n ]，

则可以认为唇语和语音结合判断的指令概率D＝[d₁，d₂，...d_n]，其中

d_{i} = p_{i} q_{i} / Σ_{k = 1}^{n} p_{k} q_{k},

1≤i≤n

9、指令显示与确认：指令显示与确认模块将显示判断后的最终指令，供用户确认，确认方法仍为手势控制。本发明中，若检测到用户的手势为拳头，则表示确认该指令，指令将会输出到相应的设备中执行；若检测到用户的手势为手掌张开，则表示否定该指令，系统将返回至人脸检测模块重新开始。

本发明的实施过程中，有的环节需要用户进行手势控制以及使用唇语和语音输入。若在这些环节中，用户在指定时间内未进行任何操作，系统则返回至初始状态。

10、指令集：由于电视控制的指令较少，所以我们将在系统中提前录入指令集，里面包含电视控制过程中涉及到的所有指令。

如上所述便可较好的实现本发明。

Claims

1.结合视频通道的智能家居语音控制系统的识别方法，其特征在于如下步骤：

（1）手势检测

（2）人脸检测

（3）人脸跟踪与定位

（4）唇语视频输入

（5）唇语识别

（6）语音输入

语音输入模块通过语音接收设备，接收音频输入，系统采用麦克风将语音输入给计算机，声卡以一定频率机型数据采样，然后进行A/D转换；为减少不利影响，此模块将对输入的语音信号进行高频补偿；

（7）语音识别

语音识别模块将检测到的语音数据，翻译成对应的语义指令，包括语音特征提取和语音识别；

（8）指令判断

指令集为C=[c₁,c₂,...c_n]

唇语识别模块输出各指令概率为P=[p₁,p₂,...p_n]，

语音识别模块输出各指令概率为Q=[q₁,q₂,...q_n]，

则认为唇语和语音结合判断的指令概率D=[d₁,d₂,...d_n]，其中

d_{i} = p_{i} q_{i} / Σ_{k = 1}^{n} p_{k} q_{k}, 1 \leq i \leq n

挑选最大概率d_imax，若d_imax大于阈值，则选择d_imax对应的指令c_i作为输出指令；若d_imax小于阈值，则认为该指令是无效指令，系统将返回至人脸检测模块重新开始；

（9）指令显示与确认

2.根据权利要求1所述结合视频通道的智能家居语音控制系统的识别方法，其特征在于，所述步骤（4）唇语视频输入具体如下：

（1）嘴唇分割使用改善的FCMS算法，将图像的颜色信息与空间信息结合起来，再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中，实现嘴唇的有效分割；

（2）在嘴唇模型建立方法上，采用14点主动形状模型，在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量。

3.根据权利要求1所述结合视频通道的智能家居语音控制系统的识别方法，其特征在于，所述步骤（5）唇语识别具体如下：

（1）唇部的形状特征提取，将选取14点ASM模型的长和宽，即6点和14点之间以及3点和10点之间的距离W和H作为特征，并在计算过程中引入两点间距离公式：

D = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}}

为消除由于说话人坐姿等带来的干扰因素，要对W，H进行归一化，特征向量记为f_WH={W,H}；另外几何特征提取将通过14点ASM模型进行曲线拟合，然后把说话人嘴唇划分为三段曲线，即14-6点，6-10点，10-14点分别进行二次曲线拟合：

Y=ax²+bx+c

f_cur={a₁,b₁,c₁,a₂,b₂,c₂,a₃,b₃,c₃}

Vf=f(n)-f(n-1),结果记为Vf_WH，Vf_cur

V²f=f(n)+f(n+2)-2f(n-1)，结果记为V²f_WH,V²f_cur，

（2）模式识别部分将前述的各种特征组合作为输入向量输入HMM，通过这种方式识别唇语，紧接着将识别的内容与事先设置好的指令集进行匹配，匹配后，指令集中的每个子集概率都会不一样，将所有子集对应的概率输入指令判断模块。

4.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法，其特征在于，所述步骤（7）语音特征提取和语音识别具体如下：

（1）语音特征提取

c_{m} = α_{m} + Σ_{k = 1}^{m - 1} \frac{k}{m} c_{k} α_{m - k} (1 \leq m \leq p)

c_{m} = Σ_{k = 1}^{m - 1} \frac{k}{m} c_{k} a_{m - k} (m > p)

（2）语音识别，使用动态时间规整方法和隐马尔科夫模型方法；

1）HMM中的状态个数记为N；模型t时刻的状态记为q_t；

2）初始状态概率分布π=[π_i]；

3）状态概率转移矩阵为A=[a_ij]，其中a_ij，a_ij=P(q_t+1=S_i),1≤i,j≤N表示从状态i转移到状态j的概率；

4）观察概率分布B=[b_j(O_j)]，表示时刻t观察到状态i的概率；

只要合并不同HMM之间的引入状态和引出状态，即得到任意长度的音素序列或词序列的组合模型，预示对于每一帧特征矢量，组合HMM都会以一定的转移概率改变状态，而当前状态又以其观察概率产生这一帧特征矢量，这样就能计算某音素序列或词序列产生给定特征矢量的概率，实现语音识别，紧接着将识别的内容与事先设置好的指令集进行匹配，匹配后，指令集中的每个子集概率都会不一样，将所有子集对应的概率输入指令判断模块。

5.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法，其特征在于，所述步骤（9）指令显示与确认具体如下：当检测到用户的手势，若表示确认该指令，指令将会输出到相应的设备中执行；当检测到用户的手势，若表示否定该指令，系统将返回至人脸检测模块重新开始。

6.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法，其特征在于，所述智能家居语音控制系统，包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。

7.根据权利要求6所述的结合视频通道的智能家居语音控制系统的识别方法，其特征在于：所述识别系统模块包括唇语部分和语音部分，所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块；所述语音部分包括依次连接的语音输入模块、语音识别模块。