CN202801140U

CN202801140U - 一种窗帘的智能手势和语音控制系统

Info

Publication number: CN202801140U
Application number: CN201220445645.2U
Authority: CN
Inventors: 罗雅愉; 徐向民; 石嘉豪; 王羽
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2013-03-20
Anticipated expiration: 2022-08-31

Abstract

本实用新型公开一种窗帘的智能手势和语音控制系统。控制系统包括手势采集单元、语音采集单元、识别单元、外接设备单元。其中，手势采集单元是通过摄像头获取用户的手势动作，语音采集单元通过麦克风获取用户指令，在识别单元中分别对手势和语音进行识别判断后，根据识别后的信息流的时序关系，对两个通道信息进行整合。根据整合结果，可对窗帘进行操作。本实用新型中的手势控制和语音控制既可以独立使用也可以联合使用，让用户在智能家居中有更自然和谐的体验。本实用新型结合手势和语音同时控制窗帘，主要是为了减少现在家庭中手动开合窗帘所带来的麻烦，减少家庭中遥控器的数量，同时也可以方便家庭中老人小孩以及行动不便者对窗帘的使用。

Description

一种窗帘的智能手势和语音控制系统

技术领域

本实用新型涉及窗帘控制装置，具体涉及一种窗帘的智能手势和语音控制系统。

背景技术

窗帘是现代家居中必不可少的家居用品，随着生活水平的提高和智能家居的普及，人们希望窗帘也能成为智能家居人机交互的一部分，对窗帘控制智能化的要求也越来越高。目前，较新的控制窗帘的技术主要是红外遥控、亮度与温度控制、声控等，它们各自都存在缺点，实际操作起来不理想。经查询，专利公开号为CN2899646的具有红外线控制传动装置的智能窗帘，让使用者无法摆脱遥控器的束缚，且容易与家中其它众多遥控器混淆，专利公开号为CN201210241的带光敏电阻的光控智能窗帘和公开号为CN101976090A的智能窗帘，对安装环境的要求高，当其安装在一些长期环境不变的地方时无法发挥智能作用，专利公开号为CN202234681U的声控窗帘，根据现有的语音识别技术，该声控窗帘对使用者的普通话水平要求高，且不适用于有语言阻碍者的家庭使用。为了克服现有智能窗帘的不足，本实用新型提供一种使用手势和语音结合控制窗帘的装置。

实用新型内容

本实用新型的目的在于克服现有技术存在的上述不足，提供一种窗帘的智能手势和语音控制系统，具体技术方案如下。

一种窗帘的智能手势和语音控制系统，包括手势采集单元、语音采集单元、识别单元、外接设备单元；手势采集单元和语音采集单元并行接到识别单元，识别单元将输出控制信息给外接设备单元；所述图像采集单元主要由安装在窗帘上部的摄像头组成，摄像头采集窗帘前一定区域内用户的手势图像，并将采集到的图像传输到识别单元的手势控制接口；语音采集单元主要由分别安装在窗帘两侧的麦克风组成，通过麦克风采集用户发出的语音指令，并将采集到的语音指令传输到识别单元的语音控制接口。

上述的窗帘的智能手势和语音控制系统中，识别单元实现的功能包括手势识别、语音识别和多通道整合，其中，手势识别是对摄像头采集到的用户手势图像进行识别，语音识别是对麦克风采集的用户语音指令进行识别，多通道整合是对手势识别和语音识别的判断结果进行整合。

上述的窗帘的智能手势和语音控制系统中，外接设备单元包括控制器、驱动电机和显示器。

所述控制器，用于将多通道整合结果输出的用户指令转为硬件的中断指令，输出到驱动电机；

所述驱动电机，用于根据控制器传输的中断指令对窗帘卷轴进行驱动，窗帘卷轴带动窗帘上的滚轮实现对窗帘的拉伸控制；

所述的显示器，用于向用户显示任务的完成情况和窗帘的开闭状态以及窗帘的打开程度。

上述一种窗帘的智能手势和语音控制系统的控制方法，具体是：分别对采集到的手势图像和语音指令进行手势识别和语音识别，控制器根据手势识别过程或语音识别过程的判断结果独立地对窗帘进行控制或根据手势识别过程和语音识别过程的判断整合结果对窗帘进行控制；所述控制包括对窗帘的打开、闭合或指定打开程度的控制。

上述控制方法中，所述手势识别过程包括：

将采集的图像进行预处理，去除图像冗余信息，平滑和滤波；

对预处理后的图像进行检测，将检测到的手势区域和背景区域分离；

将分离后的手势图像提取手势的特征值；

对提取的特征值实现训练和分类识别，将特征值与手势数据库中的相应手势进行匹配，得到识别结果；

根据识别结果输出控制信息流。

上述控制方法中，所述语音识别过程包括：

采集大量的语音数据组成语料库；

对采集到不平稳的语音信号进行处理，使其变成简短而平稳的随机过程；

提取每一个简短信号的多维特征向量；

在对语料库中训练句子进行特征提取之后,就开始进行声学建模工作，即利用语音多维特征向量进行声学模型训练。

再在语法和语义的层面上结合语言的规则建立语言模型，即在给出固定的词序列的前提下，设定每一个词序列与其前面所有词序列的相关性，从而排除某些不期望的词序列，辅助声学模型构成完整的词网络，提高在模型库中搜索的效率；

在模型库中根据已经建立的词网络中找到最佳路径，得到识别结果；

根据识别结果输出控制信息流。

上述控制方法中，所述手势数据库是通过采集大量的手势正负样本进行特征值提取和分类训练后所建立的。

上述控制方法中，所述模型库是通过构建控制窗帘所需要的语料库，对语料库中的语音数据进行预处理和特征提取后，进行声学建模训练，再结合语法和语义组成的。

与现有技术相比，本实用新型具有如下优点和技术效果：

（1）本实用新型智能化程度高，与用户的交互方式自然，在使用本实用新型时，既无需用户亲自去拉动窗帘，也不需为窗帘添加一个实体遥控器，，用户只需要在窗帘面前一个可控范围内用手做出对应的手势，或者指着窗帘发出语音指令，即可以轻松控制窗帘。

（2）本实用新型兼顾多种特殊情况，对于行动不便者可以单独使用语音控制功能，而对于普通话障碍者可以单独使用手势控制功能，非常利于有老人、小孩或者残疾人的家庭。

（3）本实用新型可以让用户自由选择手势或者语音控制窗帘，控制方式简单、直接，使窗帘更加人性化，充分体现了现代智能家居的特点。

附图说明

图1为窗帘的智能手势和语音控制系统框架图。

图2为手势识别流程图。

图3为语音识别流程图。

图4为左—右隐马尔可夫模型。

图5为多通道整合图。

具体实施方式

以下结合附图对本实用新型的具体实施作进一步说明，但本实用新型的实施和保护不限于此。

本实用新型提供一种窗帘的智能手势和语音控制系统，包括：手势采集单元、语音采集单元、识别单元、外接设备单元。手势采集单元和语音采集单元并行接到识别单元，识别单元将输出控制信息给外接设备单元；所述图像采集单元主要由安装在窗帘上部的摄像头组成，摄像头采集窗帘前一定区域内用户的手势图像，并将采集到的图像传输到识别单元的手势控制接口；语音采集单元主要由分别安装在窗帘两侧的麦克风组成，通过麦克风采集用户发出的语音指令，并将采集到的语音指令传输到识别单元的语音控制接口。

如图1所示，手势采集单元和所述语音采集单元并行连接识别单元的图像和语音输入接口，所述识别单元连接外接设备单元。其中，手势识别用于对采集的有效用户手势图像进行实时跟踪手掌的移动情况，并对手势图像进行识别判断，语音识别用于接收用户发出的语音指令，对语音进行识别判断，分别将手势和语音的识别判断结果进行多通道整合，将整合后的信息分别传递给外接设备单元的控制器和显示器，再由控制器作用于驱动电机，使其对窗帘的卷轴进行启动、停止控制，并且将窗帘的状态及时反馈到显示器上。

如图2所示，手势识别的过程：图像预处理、手势检测和区域分割、特征提取、手势识别和结果输出。

在启动系统后，通过摄像头采集窗帘前用户的手势图像后进行A/D转换，将数据传输到识别单元的接口，

所采集的图像由于光照、环境原因，可能会存在噪点，为减小图像在区域分割时产生的误差，首先对采集的图像进行图像预处理，采用图像均值滤波对图像进行平滑滤波，以N×N（模板大小）均值滤波模板对图像中的每一个像素点的值f(i,j)进行处理，得到新的像素点值r(i,j)：

r (i, j) = \frac{Σ_{i = 1}^{N} Σ_{j = 1}^{N} f (i, j)}{N \times N}

手势检测和区域分割用于对所述的预处理后的图像检测是否存在手势，考虑到复杂背景和周围环境光线的变化，对采集的图像进立YCrCb颜色空间模型，基于肤色聚类特征和对光照的不敏感，将采集的三个通道彩色图像的数据利用肤色的特征信息，采用阈值设置的方法，分别根据三个通道值将背景和目标区域先后进行粗分割和细分割，得到二值化图像，实现复杂背景下的肤色分割。

特征提取即用于对所述的二值化后的手势图像采用梯度方向直方图（histograms of oriented gradient,HOG）方法提取手势特征，具体步骤如下：

（1）将二值化图像划分成一个个2×2的单元（cell）；

（2）分别在水平和垂直方向上，利用一维离散微分模板计算出每个cell的梯度；

（3）统计每一个cell的梯度直方图（即不同梯度的个数）；

（4）将若干个cell组成一个区间（block），一幅图像由若干个block构成；

（5）利用L2范数为因子在block中进行梯度归一化：

f = \frac{1}{\sqrt{{| | V | |}^{2} + e^{2}}}

其中：

||V||表示V的一阶范数， e 表示常数。

根据以上式子计算出每个手势图像的特征向量维数。

采用支持向量机（support vector machine,SVM）来进行机器训练学习，SVM的基本思想是将非线性变换转换为高维特征空间，在高维特征空间找到最优的超平面，从而可以实现对特征的非线性的分类。对机器采用大量样本训练的方法，每一个手势采集500张不同背景、光照、角度的图像分别选取特征值进行训练，提高系统对采集手势的适应能力，建立手势样本库。对采集的待测试图像提取特征值，将特征值与手势数据库中的相应手势进行匹配，识别出手势。

结果输出即用于根据识别结果输出统一的控制信息流格式：<ges，obj，ord，tim1>。

其中：

ges代表是否检测到手势

obj 为用户使用手势指定所需进行操作的对象

ord 为用户使用手势向对象下达的指令

tim1为手势动作的发生时刻

如图3所示，语音识别过程包括：预处理、特征提取、声学建模、语言建模、语音识别和结果输出。

首先将由麦克风采集到的语音信息传输到识别单元接口，对所采集到的语音信号进行预处理，预处理的过程包括：预加重、分帧加窗及端点检测，目的是使其变成简短而平稳的随机过程。

对预处理后的信号采用基于快速傅立叶变换的特征提取方法提取语音多维特征向量。

特征提取之后,就开始进行声学建模,即利用语音特征数据进行HMM模型训练。采用音素作为HMM建模的基本单元，每一个基本语音单元对应一个特定的隐式马尔可夫模型（HMM），这里选用状态数为5的典型的左—右隐马尔可夫模型，如图4所示，其中，状态1和状态5为非发射状态，状态2~4为发射状态。每个发射状态j具有观测概率分布b_j(O_t),决定在时刻t产生的概率O_t。状态i到状态j的转移概率为a_ij。采用连续密度隐马尔可夫模型(CDHMM)，所有的音素模型（以音素为基本单元的模型）均采用相同的拓扑结构。初始HMM原形的参数包括发射状态(2~4状态)的均值向量、方差向量以及模型状态转移矩阵。然后对模型参数采用嵌入式训练算法，在训练时,依次处理每个训练语音数据文件。利用音素抄本将抄本中音素模型序列连接起来,做成一个复合HMM模型。采用前向一后向算法和Baum一Welch训练算法重新估计模型参数,直到达到满意的收敛效果为止。

为了弥补声学模型对词的序列产生概率得分相似的不足，结合语法和语义，建立语言模型，考虑到控制窗帘所需的词不多，采用基于规则的语义模型，结合常用的控制指令的语法规则和语义规则来排除声学模型中不符合规则的序列组合。

语音识别即用于在对于已有的HMM模型库的前提下，利用运算量相对较小的深度优先算法在已经利用语言模型建立的网络中找到最佳路径。

HMM模型库的构建是由事先建立语料库，进行特征提取，以音素单元为基本语音单元组成序列后，分别为这些序列建立声学模型，结合语法和语义建立HMM模型库。

结果输出即用于根据识别结果输出统一的控制信息流格式：<spe，obj，ord，tim2，tim3>。

其中：

spe代表是否接收到语音

obj 为用户使用语音指定所需进行操作的对象

ord 为用户使用语音向对象下达的指令

tim2为语音的开始时刻

tim3为语音的结束时刻。

如图5所示，多通道整合部分的功能是将接收到的手势识别结果和语音识别结果输出控制信息流进行整合，首先判断用户是否有做出手势动作或者发出语音指令，若只有其一，则手势识别或语音识别为独立关系，可直接根据指令结果向控制器传输指令，不必整合。否则，再根据两个通道命令的在时序上是否满足互补关系，首先依据对多个用户体验和反馈的结果确定一个时间相关的阈值tim0，tim1、tim2和tim3之间关系，在满足如下情况：即|tim1-tim2|≤tim0或者|tim1-tim3|≤tim0时，两个通道的信息为互补关系，判断为可以整合，当整合的结果是一个完整的指令时，则可以控制电机驱动单元，驱动卷轴控制窗帘的开合。若指令在指定的时间相关阈值内没有被补充完整，显示器就会提示用户任务是否继续，若两个信息流的指令有冲突或者指令出错，则在显示器上向用户反馈指令出错。

比如说，用户需要打开窗纱，用户发出语音指令：“窗纱”，做出打开手势，语音识别单元对采集的语音进行预处理、特征提取后，在HMM模型库中寻找到匹配模型，输出信息流<有语音，窗纱，**，T2，T3>，同时，手势识别单元对采集的手势图像进行预处理、手势检测和区域分割、提取特征值后，在手势数据库中进行匹配，输出信息流<有手势，**，打开，T1>，两者再经过多通道整合单元后，若满足整合条件，则系统可识别为打开窗纱指令，从而驱动卷轴电机。用户也可以直接说：“打开窗纱”。在语音识别单元中，输出的信息流为<有语音，窗纱，打开，T2，T3>，而此时手势识别单元中输出的信息流为<无手势，**，**，T1>，整合的结果是语音直接控制窗帘。手势和语音识别的结合可以使用户在控制窗帘时灵活切换手势和语音。

以上仅为本实用新型的具体实施例，并不以此限定本实用新型的保护范围；在不违反本实用新型构思的基础上所作的任何替换与改进，均属本实用新型的保护范围。

Claims

1.一种窗帘的智能手势和语音控制系统，其特征在于，包括手势采集单元、语音采集单元、识别单元、外接设备单元；手势采集单元和语音采集单元并行接到识别单元，识别单元将输出控制信息给外接设备单元；所述图像采集单元主要由安装在窗帘上部的摄像头组成，摄像头采集窗帘前一定区域内用户的手势图像，并将采集到的图像传输到识别单元的手势控制接口；语音采集单元主要由分别安装在窗帘两侧的麦克风组成，通过麦克风采集用户发出的语音指令，并将采集到的语音指令传输到识别单元的语音控制接口。

2.如权利要求1所述的一种窗帘的智能手势和语音控制系统，其特征在于，外接设备单元包括控制器、驱动电机和显示器，