CN113311939A

CN113311939A - 基于手势识别的智能音箱控制系统

Info

Publication number: CN113311939A
Application number: CN202110353260.7A
Authority: CN
Inventors: 张翔平; 范洪辉; 吴涛; 周红燕; 黄宪振
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-08-27

Abstract

本发明提供了一种基于手势识别的智能音箱控制系统，其中，该基于手势识别的智能音箱控制系统包括：人机交互模块，人机交互模块用于与用户进行人机交互；数据采集模块，数据采集模块用于在人机交互过程中采集用户的手势信息；预处理模块，预处理模块用于对手势信息进行预处理，以获取目标检测信息；分析模块，分析模块用于根据目标检测模型对目标检测信息进行分析；生态管理模块，生态管理模块用于根据分析结果控制智能音箱进行行为匹配和资源整合。根据本发明的基于手势识别的智能音箱控制系统，采用手势识别的方式对智能音箱进行控制，提高了智能音箱的适用范围，能够满足多场景应用。

Description

基于手势识别的智能音箱控制系统

技术领域

本发明涉及计算机视觉和机器学习技术领域，具体涉及一种基于手势识别的智能音箱控制系统。

背景技术

随着互联网技术的迅猛发展以及人们生活水平的不断提高，人们对于音箱智能化的需求也越来越高。

相关技术中，智能音箱的人机交互方式匮乏，无法满足多场景应用，适用范围较窄。

发明内容

本发明为解决上述技术问题，提供了一种基于手势识别的智能音箱控制系统，采用手势识别的方式对智能音箱进行控制，提高了智能音箱的适用范围，能够满足多场景应用。

本发明采用的技术方案如下：

一种基于手势识别的智能音箱控制系统，包括：人机交互模块，所述人机交互模块用于与用户进行人机交互；数据采集模块，所述数据采集模块用于在人机交互过程中采集用户的手势信息；预处理模块，所述预处理模块用于对所述手势信息进行预处理，以获取目标检测信息；分析模块，所述分析模块用于根据目标检测模型对所述目标检测信息进行分析；生态管理模块，所述生态管理模块用于根据分析结果控制所述智能音箱进行行为匹配和资源整合。

所述预处理模块包括：第一处理单元，所述第一预处理单元用于利用 OpenCV对所述手势信息进行去噪处理，以生成第一检测信息；第一处理单元，所述第一处理单元用于利用OpenCV对所述手势信息进行去噪处理，以生成第一检测信息；第三处理单元，所述第三处理单元用于利用OpenCV对所述第二检测信息进行形态学处理以及轮廓处理，以生成所述目标检测信息。

所述数据采集模块还用于获取第一训练样本集；其中，所述基于手势识别的智能音箱控制系统还包括：标注模块，所述标注模块用于对所述第一训练样本集进行标注，以生成第二训练样本集；增广模块，所述增广模块用于对所述第二训练样本集进行增广处理，以获取目标训练样本集；训练模块，所述训练模块用于根据所述目标训练样本集对神经网络进行训练，以生成所述目标检测模型。

所述增广模块具体用于：对所述第二训练样本集进行旋转和/或镜像对称操作，以获取所述目标训练样本集。

本发明的有益效果：

本发明采用手势识别的方式对智能音箱进行控制，提高了智能音箱的适用范围，能够满足多场景应用。

附图说明

图1为本发明实施例的基于手势识别的智能音箱控制系统的方框示意图；

图2为本发明一个实施例的腐蚀运算过程的示意图；

图3为本发明一个实施例的膨胀运算过程的示意图；

图4为本发明一个实施例的基于手势识别的智能音箱控制系统的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据本发明实施例的基于手势识别的智能音箱控制系统的方框示意图。

如图1所示，本发明实施例的基于手势识别的智能音箱控制系统可包括：人机交互模块100、数据采集模块200、预处理模块300、分析模块400和生态管理模块500。

其中，人机交互模块100用于与用户进行人机交互；数据采集模块 200用于在人机交互过程中采集用户的手势信息；预处理模块300用于对手势信息进行预处理，以获取目标检测信息；分析模块400用于根据目标检测模型对目标检测信息进行分析；生态管理模块500用于根据分析结果控制智能音箱进行行为匹配和资源整合。

具体而言，可在智能音箱端设置人机交互模块100、数据采集模块 200和生态管理模块500，并在云端设置预处理模块300和分析模块400。

其中，可先通过人机交互模块100与用户进行人机交互，人机交互模块 100可包括音箱摄像装置(摄像头)，并通过数据采集模块200在人机交互过程中采集用户的手势信息，数据采集模块200可包括视频处理单元。具体地，可通过智能音箱上方的专用摄像头录制记录用户当前的手势，并通过视频处理单元对记录进行逐帧提取，并对有效的手势图像进行缓存，以生成手势信息，并将手势信息有序上传至云端。

进一步而言，可通过预处理模块300对手势信息进行预处理，以获取目标检测图像，此时，可通过分析模块400将目标检测图像输入目标检测模型，以根据目标检测模型对目标检测信息进行分析，并将分析结果反馈给智能音箱端，生态管理模块500可根据分析结果控制智能音箱进行行为匹配和资源整合。

由此，本发明的智能音箱能够采用手势识别的方式进行控制，从而有效地解决了传统智能音箱交互方式匮乏，无法满足多场景使用的技术问题。

根据本发明的一个实施例，预处理模块300可包括：第一处理单元、第二处理单元和第三处理单元。其中，第一处理单元用于利用OpenCV对手势信息进行去噪处理，以生成第一检测信息；第二处理单元用于利用 OpenCV对第一检测信息进行肤色检测以及二值化处理，以生成第二检测信息；第三处理单元用于利用OpenCV对第二检测信息进行形态学处理以及轮廓处理，以生成目标检测信息。

具体地，首先，可通过第一处理单元利用OpenCV对手势信息进行去噪处理，以生成第一检测信息。其中，可采用双边滤波器 (blur＝cv2.GaussianBlur)，在考虑图像的空间和灰度关系的基础上，控制空间高斯权重和灰度相似性高斯权重，使得采集到的手势边界不再模糊。

其次，可通过第二处理单元利用OpenCV对第一检测信息进行肤色检测以及二值化处理，以生成第二检测信息。其中，在OpenCV的肤色检测中采用YcRcB颜色空间的cr分量处理，一般的图像都是基于RGB空间的，在 RGB空间里手势采集受亮度影响相当大，所以肤色点很难从非肤色点中分离出来，也就是说在此空间经过处理后，肤色点是离散的点，中间嵌有很多非肤色，因此，将RGB转为YCrCb空间时，可以忽略Y(亮度)的影响，因为该空间受亮度影响较小，肤色会产生较好的类聚。由此，可将三维的空间转换为二维的CrCb，肤色点会形成一定得形状，根据经验某点的Cr和Cb值满足： 133≤Cr≤173、77≤Cb≤127，那么该点可被认为是肤色点，其他点可被认为是非肤色点。

需要说明的是，可采用OTSU算法进行肤色检测，其中，可假设存在阈值TH将图像所有像素分为两类C₁(小于TH)和C₂(大于TH)，则这两类像素各自的均值就为m₁、m₂，图像全局均值为m_G。同时像素被分为C₁和C₂类的概率分别为p₁、p₂。因此：

p₁*m₁+p₂*m₂＝m_G， (1)

p₁+p₂＝1， (2)

根据方差的概念，类间方差表达式为：

σ²＝p₁(m₁-m_G)²+p₂(m₂-m_G)², (3)

将公式(1)带入公式(3)可得：

σ²＝p₁p₂(m₁-m₂)² (4)

上式最大化的灰度级k就是OTSU阈值，其中遍历0～255个灰度级，可求出使公式(4)最大的值k。

然后，可通过第三处理单元利用OpenCV对第二检测信息进行形态学处理以及轮廓处理，以生成目标检测信息。其中，可对第二检测信息进行腐蚀和膨胀处理从而提取轮廓。

具体地，在进行腐蚀操作时，可设A为目标图像，B为结构元素，那么目标图像A被结构元素B腐蚀可定义为：

其中，y表示集合平移的位移量。

其中，如图2所示，目标图像A与结构元素B进行腐蚀运算的含义为：每当在目标图像A中找到一个与结构元素B相同的子图像时，就把该子图像中与B的原点位置对应的那个像素位置标注为1，目标图像A上标注出的所有这样的像素组成的集合，即为腐蚀运算的结果。也就是说，腐蚀运算的基本过程是：将结构元素B看作为一个卷积模板，每当结构元素平移到其原点位置与目标图像A中那些像素值为“1”的位置重合时，就判断被结构元素覆盖的子图像的其它像素的值是否都与结构元素相应位置的像素值相同；只有当其都相同时，就将结果图像中的那个与原点位置对应的像素位置的值置为“1”，否则置为0。

在进行膨胀操作时，可设A为目标图像，B为结构元素，那么目标图像A被结构元素B膨胀可定义为：

其中，y表示集合平移的位移量。

其中，如图3所示，目标图像A与结构元素B进行膨胀运算的含义为：先对结构元素B做关于其原点的反射得到反射集合

然后再在目标图像 A上将

平移y，则那些

平移后与目标图像A至少有1个非零公共元素相交时对应的

的原点位置所组成的集合，就是膨胀运算的结果。也就是说，膨胀运算的基本过程为：(1)求结构元素B关于其原点的反射集合

(2)每当结构元素

在目标图像A上平移后，结构元素

与其覆盖的子图像中至少有一个元素相交时,就将目标图像中与结构元素

的原点对应的那个位置的像素值置为“1”，否则置为0。

根据本发明的一个实施例，数据采集模块200还用于获取第一训练样本集；其中，如图4所示，基于手势识别的智能音箱控制系统还包括：标注模块600、增广模块700和训练模块800，标注模块600用于对第一训练样本集进行标注，以生成第二训练样本集；增广模块700用于对第二训练样本集进行增广处理，以获取目标训练样本集；训练模块800用于根据目标训练样本集对神经网络进行训练，以生成目标检测模型。

具体而言，在根据目标检测模型对目标检测信息进行分析之后，可先对神经网络进行训练，以生成目标检测模型。

首先，可通过数据采集模块200获取第一训练样本集，即通过数据采集模块200预先对采集到的用户的手势进行分析处理，以获取待训练的手势信息，即第一训练样本集，并通过标注模块600对第一训练样本集进行标注，以生成第二训练样本集。其中，可通过标注模块600利用OpenCV对第一训练样本集进行标注，以生成第二训练样本集。具体地，可通过标注模块 600生成一个截取窗口，该截取窗口将在待检测的图像中不断的滑动移动，截取窗口滑移的同时，就会计算出该区域的特征矩阵，标注模块600中分类器对该特征进行筛选，筛选完后判定该区域的状态并将其标记出来。举例而言，如表1所示：

表1

其中，当数据采集模块200将手势S6对应的图像传递至标注模块 600时，可识别并标注出该手势为状态一；当数据采集模块200将手势S2对应的图像传递至标注模块600时，可识别并标注出该手势为状态二；当数据采集模块200将手势S4对应的图像传递至标注模块600时，可识别并标注出该手势为状态三；当数据采集模块200将手势S3对应的图像传递至标注模块600时，可识别并标注出该手势为状态四；当数据采集模块200将手势 S5对应的图像传递至标注模块600时，可识别并标注出该手势为状态五；当数据采集模块200将手势S1对应的图像传递至标注模块600时，可识别并标注出该手势为状态六。

其次，可通过增广模块700对第二训练样本集进行增广处理，以获取目标训练样本集。

根据本发明的一个实施例，增广模块700具体用于：对第二训练样本集进行旋转和/或镜像对称操作，以获取目标训练样本集。

具体地，可先从手势图像上选定一个中心图像块和四个角落图像块，并从图像中的其他位置截取一定数量(i个)的随机图像块，即在一幅图像上选取5+i个固定图像块，然后可对所有图像块进行旋转操作(例如，步长为 90°的旋转操作)，或者对所有图像块进行特定方向(水平或垂直)的镜像对称操作，或者进行旋转和镜像对称操作，以扩大第二训练样本集的数量。由此，通过对采集的一部分手势图像进行随机变化操作，可以产生大量相似但不同的训练集样本，从而短时间扩大数据集的规模，增强系统的泛化能力，建立有效的手势训练集。

然后，通过训练模块800根据目标训练样本集对神经网络进行训练，以生成目标检测模型。具体地，可利用Tensorflow搭建神经网络训练，其中，卷积层在整个网络中用来提取样本的特征并进行处理，选择好卷积层对整个卷积神经网络识别的准确率有重要的影响。在选择卷积核的时候，一般采用“小卷积核，多卷积层数”的原则。因此，采用了5层卷积神经网络，卷积核依次为11×11、5×5、3×3、3×3、3×3，卷积核个数依次为96、256、 384、384、256个，第一、二、五层卷积之后分别进行最大值池化，池化核2×2，第五层池化结果作为输入进行两层全连接，结果输出至Softmax层，输出节点数量为手势图片的数量，每一维对应图片属于某个类别的概率。其中，输入：224×224大小的图片，3通道；第一层卷积：11×11大小的卷积核96个；第一层max-pooling：2×2的核；第二层卷积：5×5卷积核 256个；第二层max-pooling：2×2的核；第三层卷积：与上一层是全连接， 3×3的卷积核384个，分到两个GPU上个192个；第四层卷积：3×3的卷积核384个,与上一层连接没有经过池化层；第五层卷积：3×3的卷积核 256个；第五层max-pooling：2×2的核；第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入；第二层全连接：4096维；Softmax层：输出每一维对应图片属于某类别的概率。

需要说明的是，在通过训练样本集完成对目标检测模型的训练时，还可通过测试样本集对训练处的目标检测模型进行训练，以确保目标检测的准确性。

进一步而言，在目标检测模型训练完成后，可对目标检测信息进行分析，并将分析结果反馈给生态管理模块500。此时，生态管理模块500可根据分析结果控制所述智能音箱进行行为匹配和资源整合。举例而言，如表1所示，当系统识别手势S6(状态一)时，生态管理模块500可将当前资源进行“收藏当前媒体”的动作；当系统识别手势S2(状态二)时，生态管理模块 500可将当前资源进行“取消收藏当前媒体”的动作；当系统识别手势 S4(状态三)时，生态管理模块500可将当前资源进行“下一个媒体”的动作；当系统识别手势S3(状态四)时，生态管理模块500可将当前资源进行“上一个媒体”的动作；当系统识别手势S5(状态三)时，生态管理模块 500可将当前资源进行“提高当前媒体音量”的动作；当系统识别手势 S1(状态三)时，生态管理模块500可将当前资源进行“降低当前媒体音量”的动作。

综上所述，根据本发明实施例的基于手势识别的智能音箱控制系统，通过人机交互模块与用户进行人机交互，并通过数据采集模块在人机交互过程中采集用户的手势信息，以及通过预处理模块对所述手势信息进行预处理，以获取目标检测信息，并通过分析模块根据目标检测模型对所述目标检测信息进行分析，以及通过生态管理模块根据分析结果控制所述智能音箱进行行为匹配和资源整合。由此，采用手势识别的方式对智能音箱进行控制，提高了智能音箱的适用范围，能够满足多场景应用。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于手势识别的智能音箱控制系统，其特征在于，包括：

人机交互模块，所述人机交互模块用于与用户进行人机交互；

数据采集模块，所述数据采集模块用于在人机交互过程中采集用户的手势信息；

预处理模块，所述预处理模块用于对所述手势信息进行预处理，以获取目标检测信息；

分析模块，所述分析模块用于根据目标检测模型对所述目标检测信息进行分析；

生态管理模块，所述生态管理模块用于根据分析结果控制所述智能音箱进行行为匹配和资源整合。

2.根据权利要求1所述的基于手势识别的智能音箱控制系统，其特征在于，所述预处理模块包括：

第一处理单元，所述第一处理单元用于利用OpenCV对所述手势信息进行去噪处理，以生成第一检测信息；

第二处理单元，所述第二处理单元用于利用OpenCV对所述第一检测信息进行肤色检测以及二值化处理，以生成第二检测信息；

第三处理单元，所述第三处理单元用于利用OpenCV对所述第二检测信息进行形态学处理以及轮廓处理，以生成所述目标检测信息。

3.根据权利要求1所述的基于手势识别的智能音箱控制系统，其特征在于，

所述数据采集模块还用于获取第一训练样本集；其中，所述基于手势识别的智能音箱控制系统还包括：

标注模块，所述标注模块用于对所述第一训练样本集进行标注，以生成第二训练样本集；

增广模块，所述增广模块用于对所述第二训练样本集进行增广处理，以获取目标训练样本集；

训练模块，所述训练模块用于根据所述目标训练样本集对神经网络进行训练，以生成所述目标检测模型。

4.根据权利要求3所述的基于手势识别的智能音箱控制系统，其特征在于，所述增广模块具体用于：

对所述第二训练样本集进行旋转和/或镜像对称操作，以获取所述目标训练样本集。