CN111901681B

CN111901681B - 一种基于人脸识别及手势识别的智能电视控制装置和方法

Info

Publication number: CN111901681B
Application number: CN202010369071.4A
Authority: CN
Inventors: 杭念之; 傅嘉晨; 罗蕴轩; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-04
Filing date: 2020-05-04
Publication date: 2022-09-30
Anticipated expiration: 2040-05-04
Also published as: CN111901681A

Abstract

本发明提供了一种基于人脸识别及手势识别的智能电视控制装置和方法，其装置包括树莓派及与其连接的识别模块、摄像头、显示屏及红外收发模块。其控制方法的主要内容包括：首先，用户录入人脸并设定身份，自定义电视控制与手势的对应关系；接着，进入正常使用后，树莓派通过采集用户面部信息完成用户身份确认，针对不同的用户开放不同的使用权限并调用自定义的手势控制方案，然后通过识别用户的手势图像并消抖确认后完成对电视的控制。其还提供了一种人脸识别算法和一种手势识别算法，用以实现识别功能。本发明具备识别用户身份以及自定义手势控制方案的功能，可以满足不同人群的操作需求。

Description

一种基于人脸识别及手势识别的智能电视控制装置和方法

技术领域

本发明涉及智能电视领域，具体涉及一种基于人脸识别及手势识别的智能电视控制装置和方法。

背景技术

自2016年3月谷歌旗下DeepMind公司团队研发的AlphaGo击败围棋世界冠军李世石后，人工智能进入了第三个发展高峰。

自人工智能火起来之后，各种各样的人工智能电视也相继进入人们的视野。国内海信、长虹、TCL、创维等传统彩电厂商以及小米、微鲸等互联网电视品牌都相继推出人工智能电视新品。但是这些人工智能电视对人工智能技术的应用都还处于初级阶段：或是在电视中应用语音交互技术，给电视加了一个声控功能；或是将家居电器的控制应用移植到电视上。相较于开发者所希望达成的人工智能电视的目标来说，还有很长的路要走。目前，对于电视人工智能化的研究，主要集中在对于功能的提升的和操作方式的改进上。就操作方式而言，电视正在完成由之前的复杂按键旋钮向仅有几个按键的遥控器以及语音、体感多元交互方向的跨越。

发明内容

为解决上述问题，本发明提供了一种电视机人脸、手势控制装置，其装置包括树莓派及与其连接的识别模块、摄像头、显示屏及红外收发模块，所述摄像头，用于拍摄当前用户的人脸及手势图像；所述识别模块，用于识别判断出当前用户的身份及操作指令；所述显示屏，用于提供人脸及手势录入的界面；所述树莓派，用于根据所述识别模块的判断结果对红外收发模块发出指令；所述红外收发模块，根据树莓派的指令对电视发出红外控制信号。

该方法的核心功能在于树莓派根据人脸确定用户的身份，对用户开放相应的权限及自定义的手势控制方案。用户可以个性化设定手势，不必遵循预设的操作规则。首先，用户录入人脸来确定身份，然后进入手势设定环节，录入不同的手势并对应不同的功能。在用户使用时，处理器将根据人脸识别结果，调出对应用户设定的手势映射方案，使得用户能根据各自的操作习惯来控制电视。该功能可以满足不同人群的操作需要：对于年轻人，可以设定更多手势从而实现复杂的功能；对于老年人，只需要设定少量手势从而实现基本操作；对于儿童，可以在家长的监督下，设定有限的手势从而实现有限的功能；对于陌生人，则是无法操作电视。

人脸识别算法如下：

首先进行人脸检测。建立人脸图像库，首先对图像进行二值化处理，使用方向梯度直方图算法提取面部图像特征。通过计算图像梯度，构建面部方向直方图，生成人脸面部特征。并将得到的面部特征和已知的经过方向梯度直方图算法提取的面部图像特征进行对比，相似度最高的部分即确定为为人脸部分，实现图片中的脸部分离。

使用面部特征点估计法，对已分离出的面部图像进行人脸对齐。对于每一张面部图像，找到68个面部特征点，包括每只眼睛的外部轮廓、每条眉毛的内部轮廓等等，从而确定眼睛和嘴巴的位置。对图像进行仿射变换，使眼睛和嘴巴尽量靠近图片中央。

对于上述得到的图片，进行面部编码。首先利用已建立的人脸图像库，构造三元损失函数，训练深度卷积神经网络。利用训练之后的神经网络处理待检测的用户面部图像，生成128个测量值，构成其面部特征表达，并将该特征面部表达与已知的面部图像特征进行对比，找到最为接近的面部图像。

训练支持向量机，对已建立的人脸图像库中的用户面部图像进行分类。运行分类器，寻找与待检测用户面部图像相匹配的面部图像，确定用户姓名，确认用户身份。

在用户使用时，若检测到的用户为陌生人，则其不具有操作电视权限；若检测到的用户为已知用户，则开启电视，通过手势识别算法实现下一步操作。特别地，若使用者为儿童，则会限制其使用时间，时间到时，智能电视自动关闭。

手势识别算法如下：

首先将图像从RGB颜色空间转化到YCbCr空间。在大量的统计数据的基础上，将皮肤信息映射到YCbCr空间，会在Cb－Cr二维空间中肤色像素点近似形成椭圆分布，通过判断坐标(Cb,Cr)是否在椭圆内(包括边界)，来判断其为皮肤的概率。坐标在一定范围内的待判像素即被认为是肤色。

根据上述得到的肤色判断结果，建立手势的二值化模型，将手势像素点置为白色，非手势像素点置为黑色，使用开运算去除二值化图像噪点。利用最大范围寻找图像中的手部图像，并对所有图像进行切割，使得图像行列像素数量一致。提取部分像素点，作为数据特征向量；提取手势图像标签，作为答案特征向量。

利用ANN人工神经网络的有教师学习法，对手势进行训练识别。该方法需要外界存在一个“教师”，对一组给定输入提供应有的输出结果(正确答案)。这组已知的输入输出数据被称为训练样本集。神经网络通过训练不断地调节权值，可以实现在预设误差条件下输入与输出的最佳逼近。在数据量足够的情况下，对每一个样本进行学习并根据判断结果对函数进行优化，对于之后输入的二值化模型能够较大概率的得到标准答案。特别的，ANN能够应对同一手势的不同状态，例如，若五指张开，手背朝着摄像头或手面朝着摄像头可能会出现两者被区分为不同手势的情况；而ANN经过有监督学习后，能够最终将这两者均判定为同种手势。

经模式匹配实现手势判断：对手势图像做同样的肤色提取和二值化处理，从而提取出手势特征参数，将手势特征参数输入至训练好的手势识别模型内进行运算，进而判断出用户的操作意向。

根据当前用户展示的不同手势，对电视施以不同的控制指令，如握拳则代表着菜单/确认功能，竖起大拇指朝上则代表着向上/向后调台功能等。

本发明的有益效果如下：

1)本发明通过识别用户面部图像进行用户身份识别和权限设置，实现电视操作私人化。针对不同的用户采用不同的电视机控制方式，使得不同用户可以在同一台智能电视机上拥有自己的私人定制服务，使得智能电视控制方式更为人性化。如儿童观看电视时长和内容均受限，有助于儿童在家长无暇陪伴时养成良好的娱乐及生活习惯；如老年人控制操作较为简单，充分考虑老人关节不够灵活，不便作出复杂动作的需求；

2)本发明通过采集手势信息进行用户操作指令识别，增强用户与电视之间的互动性，改进了智能电视的操作方式。手势指令符合操作习惯，上手门槛低，学习成本低。该控制方案可取代传统遥控器控制，避免遥控器丢失、没电等情况带来的问题；

3)本发明提供了一种与树莓派兼容性较高的人脸识别算法和一种新的手势识别算法，占据运行内存较小，且识别准确率较高、可操作性强。其中人脸识别算法可以在数据量较少的情况下对模型进行高精度训练，适用于移动设备的实时人脸识别。运行速度较快，运行时占据内存较小，充分保证了识别速度，避免了识别时树莓派出现死机或等待时间过长的情况，手势识别则通过对手势图像进行预处理和采用YCrCb颜色空间映射的方式，去除大量冗余项，兼顾了模型运行速度和准确率。

附图说明

图1为本发明提供的电视机人脸、手势控制装置的结构框图；

图2为图1装置中的识别模块的结构框图；

图3为手势识别算法的流程框图；

图4为人脸识别算法的流程框图；

图5为智能电视控制方法的流程框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：参见图1—图2，本发明提供了一种基于人脸识别及手势识别的智能电视控制装置，所述装置包括树莓派101及与其连接的识别模块102、摄像头103、显示屏104及红外收发模块105。所述摄像头103，用于拍摄当前用户的人脸及手势图像，将图像转换成数字信息；所述识别模块102，用于根据所述摄像头103提供的图像信息，识别判断出当前用户的身份及操作指令；所述显示屏104，用于提供人脸及手势录入的界面，用户可在该界面进行图像录入、功能设定等操作；所述树莓派101，用于根据所述识别模块102的判断结果对所述红外收发模块105发出指令；所述红外收发模块105，根据所述树莓派101的指令对电视发出红外控制信号。

实施例2：参见图3-图5，一种基于人脸识别及手势识别的智能电视控制方法，该方法包括以下几个步骤：

步骤1：建立用户人脸图像库，设置用户身份；

步骤1.1：用户通过摄像头录入各个角度的人脸图像；

步骤1.2：设定该人脸图像的身份，身份类型分为家长、老人、儿童，针对不同用户身份设置权限类型，家长拥有最高权限，可以对电视进行任意操作；老人默认使用简易模式；儿童的操作受到限制，例如观看时长有限、部分频道无法观看等，家长可对限制内容进行设置；

步骤1.3：树莓派将人脸图像库和用户身份进行对应编码；

步骤2：自定义手势与功能的对应关系，并建立手势图像库；

步骤2.1：用户选择将要设定的功能；

步骤2.2：用户通过摄像头录入实现该功能的手势直至采集足够的手势图像样本；

步骤2.3：重复步骤2.1和2.2直到所有需要的功能都设定完成；

步骤2.4：树莓派将手势图像库和对应功能进行编码；

以下是默认的手势及功能编码：

左手掌心向前并五指张开：编码为0，代表开机；

右手手掌心向前并五指张开：编码为1，代表关机；

握拳：编码为2，代表确认；

拇指向上：编码为3，代表调高音量；

拇指向下：编码为4，代表调低音量；

拇指向左：编码为5，代表调台，频道号加1；

拇指向右：编码为6，代表调台，频道号减1；

步骤3：拍摄当前用户人脸，调用所述人脸识别模块中的人脸识别算法判断用户身份，调取相应权限与控制方案；

步骤3:1：拍摄当前用户的人脸；

步骤3:2：调用人脸识别算法，确定用户身份，若用户不在人脸图像库中，则无法控制电视；若用户在人脸图像库中，则进行步骤3.3；

步骤3:3：根据识别得到的用户身份，调取该用户设置的个性化手势控制方案，并根据所述步骤1.2中的身份类型开放相应权限；

步骤4：拍摄当前用户手势，调用所述手势识别模块中的手势识别算法判断手势并输出相应操作指令；

步骤4.1：拍摄当前用户的手势；

步骤4.2：调用手势识别模块中的手势识别算法对每一帧中的手势进行判断；

步骤4.3：进行消抖处理，以十五帧为单位，五分之四及以上的手势识别结果为同一手势，且该手势在该用户的手势库中，则输出该手势对应的操作指令；否则认为该手势为无效手势，不进行输出，十五帧为默认设置，用户可以改变该参数，从而改变手势控制的灵敏度；

步骤5：树莓派依据上述操作指令，控制红外发射器发射相应的红外信号；

步骤5.1：:树莓派根据该用户自定义的手势及功能编码表，确定将要执行的操作；

步骤5.2：树莓派向红外收发器发送该操作对应的指令；

步骤5.3：红外发射器向电视发射相应的红外信号，完成操作；

参见图4，所述步骤3中人脸识别算法，该方法包括以下几个步骤：

步骤A1：人脸检测；

步骤A1.1：调用用户录入的人脸图像库；

步骤A1.2：使用方向梯度直方图算法提取面部图像特征；

步骤A1.2.1：对图像进行二值化处理；

步骤A1.2.2：计算图像梯度，将每张图像分割成96×96像素的方块，对于每个方块，计算主方向上的梯度；公式如下：

I_x和I_y分别表示水平和垂直方向上的梯度值，M(x,y)表示梯度的幅值

θ(x,y)表示梯度的方向；

步骤A1.2.3：构建方向直方图，用指向性最强的方向的梯度向量代替原来的方块，其指方向即为图像变暗的方向；

步骤A1.2.4：生成人脸面部特征，将各方块经处理得到的特征向量连接起来，生成人脸方向梯度直方图特征；

步骤A1.3将步骤A1.2中得到的人脸方向梯度直方图特征和已知的经过方向梯度直方图算法提取的面部图像特征进行对比，相似程度最高的部分即为人脸部分；

步骤A2：人脸对齐；

步骤A2.1：采用集成回归树算法提取面部特征点，在步骤A1.3得到中人脸部分图像上标注出68个主要特征点，找出眼睛和嘴巴所在位置。该算法学习每个关键点的局部二值特征，并将特征进行组合，使用线性回归检测关键点，将标注点的更新值存入回归树的叶子节点，通过不断学习，最终确定人脸关键点位置。

用公式表示为：

S^t+1＝S^t+1+r_t(I,S^t)

其中S表示特征点标注，t表示级联序号，r_t表示当前级的回归器，I表示图像；

步骤A2.2：通过仿射变换，对图像进行旋转和缩放，使得眼睛和嘴巴尽可能靠近中心；

步骤A3：脸部编码；

步骤A3.1：训练深度卷积神经网络；

步骤A3.1.1：选取3张不同的面部图像，构成三元组。分别为：一张已知用户面部训练图像，即原点；同一用户的另一张图像，即同类样本点；另一用户的图像，即异类样本点。

步骤A3.1.2：构造三元损失函数。为每一面部图像生成128个测量值，构成其嵌入。三张图象的嵌入分别记为

步骤A3.1.3：调整神经网络，使同一用户的不同照片的嵌入之间的距离尽可能小，不同用户的照片的嵌入之间的距离尽可能大，即使同类样本点在嵌入空间尽量接近，异类样本点在嵌入空间尽量远离。公式表达为：

τ为所有三元组构成的集合；

其中

表示平方欧式距离。

目标函数为：

其中

步骤A3.1.4：重复步骤A3.1.1、步骤A3.1.2、步骤A3.1.3，完善神经网络；

步骤A3.2：对面部图像进行编码和比对；

步骤A3.2.1：将待检测的面部图像放入神经卷积网络，生成128个测量值，构成其嵌入。

步骤A3.2.1：对比已知面部图像的嵌入，找到最为接近的面部图像；

步骤A4：确认用户姓名；

步骤A4.1：训练支持向量机分类器，对现有用户面部图像进行分类；

步骤A4.1.1：给定输入样本数据

其中

y_i∈{+1,-1},i＝1,2…m,惩罚参数C>0，支持向量机模型输出为参数ω，b及分类决策函数

步骤A4.1.2：构造约束优化问题；

C≥β_i≥0,i＝1,2…m

步骤A4.1.3：使用序列最小优化算法计算最优解β^*。

步骤A4.1.4：更新参数ω，b。

同时选择β^*的某个分量

步骤A4.1.5：构造最终分类器

步骤A4.2：运行分类器，寻找步骤A3中匹配到的面部图像的姓名，确认用户身份，将身份信息交由树莓派处理；

参见图3，所述步骤4中手势识别算法，该算法包括以下几个步骤：

步骤B1：调用用户录入的手势图像库；

步骤B2：对手势进行预处理；

步骤B2.1：将手势图像像素点的表示方式从RGB颜色空间转换到YCrCb颜色空间，具体转换公式如下：

Y’＝0.257*R′+0.504*G′+0.098*B′+16

Cb′＝-0.148*R′-0.291*G′+0.439*B′+128

Cr′＝0.439*R′-0.368*G′-0.071*B′+128

其中，Y’为颜色的亮度成分，Cb′、Cr′分别为蓝色和红色的浓度偏移量成分，R′、G′、B′则分别表示红色、绿色、蓝色；

步骤B2.2：基于YCrCb颜色空间，将符合肤色范围的点认作为肤色点，上述肤色范围如下：

133≤Cr≤173，77≤Cb≤127

其中，Cr、Cb分别表示像素中蓝色和红色的浓度偏移分量；

并根据肤色点与非肤色点对手势图像进行二值化处理，肤色点赋值为白色，非肤色点赋值为黑色，即做如下处理；

步骤B2.3：运用开运算去除手势二值图噪点；

步骤B2.4：利用最大范围寻找图像中的手部图像，并对所有图像进行切割，使得处理后图像行列像素数量与摄像头图像一致；

步骤B3：提取手势特征；

步骤B3.1：提取手势二值图的像素点，根据处理器内存不同，对原有图像进行不同程度的模糊处理，提取部分像素点作为数据特征向量；

步骤B3.2：提取手势图像标签，将标签转换为数值，作为答案特征向量；

步骤B3.3：将上述特征向量集合，共同组成特征矩阵；

步骤B4：基于人工神经网络有教师学习法进行训练，对被测手势进行预测，并定时输出手势识别结果；

步骤B4.1：初始化模型，对隐含层到输出层之间的权值矩阵用W表示并赋随机值，对输入层到隐含层之间的权值矩阵用V表示并赋随机值，将样本模式计数器p和训练次数计数器q置为1，将最大学习次数设为M，取误差函数

学习率η设为0～1内的小数，网络训练的预设精度E_min设为一个正的小数；

步骤B4.2：使用当前样本X(k)＝[x₁(k),x₂(k),…,x_n(k)]，d(k)＝[d₁(k),d₂(k),…,d_n(k)]，计算隐含层输出向量Y和输出层输出向量O中的各分量，计算公式如下：

其中j＝1,2,3…l，l为隐含层节点数

其中j＝1,2,3…m，m为输出层节点数

其中f(x)为激励函数，也可使用sigmoid函数代替；

步骤B4.3：计算出输出误差函数对输出层神经元的偏导，计算公式如下：

其中：

令：

δ_oj(k)＝(d_j(k)-o_j(k))f′(neto_j)

则：

步骤B4.4：调整、更新各层权值，计算公式如下：

Δw_j(k)＝ηδ_oj(k)y_j(k)

Δv_j(k)＝ηδ_yj(k)x_j(k)

步骤B4.5：计算全局误差，计算公式如下：

步骤B4.6：检查是否对所有样本完成一次轮训，若p<N，计数器p、q加一，返回步骤B4.2，否则进行步骤B4.7；

步骤B4.7：检查网络总误差是否达到精度要求；

选用E_RME作为网络总误差，若满足E_RME<E_min或q>M，则训练结束，存储模型，进入步骤B4.8，否则E置0，p置1，返回步骤B4.2；

步骤B4.8：调用上述模型对摄像头视频中被测手势进行预测，并得到相应的手势识别结果；

步骤B5：输出手势识别结果。

本发明中处理器与识别模块的功能均由树莓派实现，本领域一般技术人员在实施本发明时可以选择同类型的设备取代树莓派以实现同样的功能，本发明在此不做具体限定。

本发明通过采集图像信息来进行镜头前用户的人脸身份识别和手势指令识别，增加了用户与电视之间的互动性，改进了智能电视的操作方式，提升了智能电视的功能，为智能电视控制方式的多元化打下良好的基础，并同时为人脸识别和手势识别的发展做出了贡献。

Claims

1.基于人脸识别及手势识别的智能电视控制方法，其特征在于：该方法包括以下几个步骤：

步骤1：建立用户人脸图像库，设置用户身份；

步骤1.1：用户通过摄像头录入各个角度的人脸图像；

步骤1.2：设定该人脸图像的身份，身份类型分为家长、老人、儿童，针对不同用户身份设置权限类型，家长拥有最高权限，可以对电视进行任意操作；老人默认使用简易模式；儿童的操作受到限制，

步骤1.3：树莓派将人脸图像库和用户身份进行对应编码；

步骤2：自定义手势与功能的对应关系，并建立手势图像库；

步骤2.1：用户选择将要设定的功能；

步骤2.3：重复步骤2.1和2.2直到所有需要的功能都设定完成；

步骤2.4：树莓派将手势图像库和对应功能进行编码；

以下是默认的手势及功能编码：

左手掌心向前并五指张开：编码为0，代表开机；

右手手掌心向前并五指张开：编码为1，代表关机；

握拳：编码为2，代表确认；

拇指向上：编码为3，代表调高音量；

拇指向下：编码为4，代表调低音量；

拇指向左：编码为5，代表调台，频道号加1；

拇指向右：编码为6，代表调台，频道号减1；

步骤3:1：拍摄当前用户的人脸；

步骤4.1：拍摄当前用户的手势；

步骤4.3：进行消抖处理，以十五帧为单位，五分之四及以上的手势识别结果为同一手势，且该手势在该用户的手势库中，则输出该手势对应的操作指令；否则认为该手势为无效手势，不进行输出，十五帧为默认设置参数，用户可以改变该参数，从而改变手势控制的灵敏度；

步骤5.1：树莓派根据该用户自定义的手势及功能编码表，确定将要执行的操作；

步骤5.2：树莓派向红外收发器发送该操作对应的指令；

所述步骤4中手势识别算法，该算法包括以下几个步骤：

步骤B1：调用用户录入的手势图像库；

步骤B2：对手势进行预处理；

Y’＝0.257*R′+0.504*G′+0.098*B′+16

Cb′＝-0.148*R′-0.291*G′+0.439*B′+128

Cr′＝0.439*R′-0.368*G′-0.071*B′+128

133≤Cr≤173，77≤Cb≤127

其中，Cr、Cb分别表示像素中蓝色和红色的浓度偏移分量；

步骤B2.3：运用开运算去除手势二值图噪点；

步骤B3：提取手势特征；

步骤B3.3：将上述特征向量集合，共同组成特征矩阵；

步骤B4：基于人工神经网络进行训练，对被测手势进行预测，并定时输出手势识别结果；

步骤B4.2：使用当前样本X(k)＝[x₁(k)，x₂(k)，…，x_n(k)]，d(k)＝[d₁(k)，d₂(k)，…，d_n(k)]，计算隐含层输出向量Y和输出层输出向量O中的各分量，计算公式如下：

其中j＝1，2，3…l，l为隐含层节点数；

其中j＝1，2，3…m，m为输出层节点数

其中f(x)为激励函数，也可使用sigmoid函数代替；

其中：

令：

δ_oj(k)＝(d_j(k)-o_j(k))f′(neto_j)

则：

步骤B4.4：调整、更新各层权值，计算公式如下：

Δw_j(k)＝ηδ_oj(k)y_j(k)

Δv_j(k)＝ηδ_yj(k)x_j(k)

步骤B4.5：计算全局误差，计算公式如下：

步骤B4.6：检查是否对所有样本完成一次轮训，若p＜N，计数器p、q加一，返回步骤B4.2，否则进行步骤B4.7；

步骤B4.7：检查网络总误差是否达到精度要求；

选用E_RME作为网络总误差，若满足E_RME＜E_min或q＞M，则训练结束，存储模型，进入步骤B4.8，否则E置0，p置1，返回步骤B4.2；

步骤B5：输出手势识别结果。

2.一种基于人脸识别及手势识别的智能电视控制装置，其特征在于：所述控制装置包括树莓派(101)及与其连接的识别模块(102)、摄像头(103)、显示屏(104)及红外收发模块(105)；

其中控制装置用于实现权利要求1所述的基于人脸识别及手势识别的智能电视控制方法，所述摄像头(103)，用于拍摄当前用户的人脸及手势图像，将图像转换成数字信息；

所述识别模块(102)，用于根据所述摄像头(103)提供的图像信息，识别判断出当前用户的身份及操作指令；

所述显示屏(104)，用于提供人脸及手势录入的界面，用户可在该界面进行图像录入、功能设定等操作；

所述树莓派(101)，用于根据所述识别模块(102)的判断结果对所述红外收发模块(105)发出指令；本装置基于树莓派实现人脸识别及手势识别，并完成对智能电视的交互控制，树莓派是一款基于ARM的微型电脑主板，具有所有PC的基本功能，I/O接口等全部整合在一张比信用卡稍大的主板上；

所述红外收发模块(105)，根据所述树莓派(101)的指令对电视发出红外控制信号。