CN113989834A

CN113989834A - 基于机器视觉的手势控制的智能魔镜

Info

Publication number: CN113989834A
Application number: CN202111210582.2A
Authority: CN
Inventors: 向毅; 蓝莎; 吕文琪; 黄永林; 朱敏
Original assignee: Chongqing University of Science and Technology
Current assignee: Chongqing University of Science and Technology
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-28

Abstract

本发明公开了一种基于机器视觉的手势控制的智能魔镜，包括外壳、主板以及微型高清摄像头；普通玻璃；电子成像屏幕；手部检测模型；OpenPose人体姿态识别模块。本发明解决传统镜子观看角度单一和试穿结果无法记录的问题，该“魔镜”能够扩大映像角度，看到更美丽更全面的自己，同时使人与镜子之间的交互能够更加智能化、自然化。

Description

基于机器视觉的手势控制的智能魔镜

技术领域

本发明涉及一种基于机器视觉的手势控制的智能魔镜。

背景技术

在日常生活中，我们每天打扮自己的时候，都会观察衣服，还有妆容和发型，特别是对于很多注重自身形象的人来说，镜子是一个不可或缺的物品。不仅仅是化妆的时候要使用，当你搭配衣服时，通常都会试试各种衣服自己穿在身上究竟是否合身，但是人试了半天、挑来挑去最终觉得不合适，就会觉得非常苦恼。通过镜子来参照一下，让使用者清楚得看到如何搭配衣服才能让自己看起来更有精神，更加得体。在当代社会交往和人际交流中，重视身体的美感是很重要的，所以人与镜子的智能交互性愈发重要，基于机器视觉的手势控制智能“魔镜”恰是符合这一潮流。

而传统的试衣镜具有以下缺点：一是使用者在照镜子时，观看角度单一，不能从正面多角度的看到试穿效果；二是功能单一，试穿结果无法记录，需要反复试穿进行对比，过程繁琐，浪费时间。

发明内容

为了解决上述问题，本发明提供一种解决传统镜子观看角度单一和试穿结果无法记录问题的基于机器视觉的手势控制的智能魔镜。

一种基于机器视觉的手势控制的智能魔镜，包括外壳、主板以及

微型高清摄像头，当多角度显示功能开启时，能够识别手势并实时呈现用户的非镜面角度成像；

普通玻璃，当背景为深色时，可清晰成像；当背景为白色时或无背景时，为透明玻璃二弱化成像，当多角度显示功能开启时，能够识别手势并实时呈现用户的非镜面角度成像；

电子成像屏幕，收集各个摄像头传递的实时数据，并显示成像；

手部检测模型，动作手势的识别；

OpenPose人体姿态识别模块，人体动作、手指运动等姿态的估计。

进一步的，OpenPose人体姿态识别模块先通过10层VGG19网络提取出输入的图片的特征，并将所获得的特征图放入两个卷积神经网络中进行计算，分别预测每个关键点的置信度和亲和度向量，得到包含置信度的热图和包含亲和字段的热图，通过OpenPose可以获得手部关键点，再根据关键点的运动轨迹发出控制信号，计算关键点的移动距离、角度和速度。

本发明的有益效果：

本发明解决传统镜子观看角度单一和试穿结果无法记录的问题，该“魔镜”能够扩大映像角度，看到更美丽更全面的自己，同时使人与镜子之间的交互能够更加智能化、自然化，给我们的生活带来更多的便利，给照镜的过程带来全新的感官体验。

附图说明

图1为本发明手势识别技术路线图；

图2为本发明基于OpenPose动作识别框架；

图3为手部关键点图；

图4为本发明基于OpenPose搭建运动识别框架。

具体实施方式

下面结合附图1-4对本发明做详细介绍：

本发明通过动作手势控制摄像头的移动，从而使使用者能够通过动作手势实现视角切换，延迟镜像的显示，回放试穿记录等功能。例如，向左/右凌空滑动实现查看不同角度的试穿效果；当想要通过照镜子查看身体背面试穿效果时，不再需要背对着镜子转过头看试衣效果，只需要动动手，即可通过多种方式让背面视窗效果呈现在“魔镜”上。还可以通过凌空向上/下滑动，选择记录最美角度

我们的项目，既立足于最新理论，也有着很强的应用背景。建立以用户为中心，使机器能够感知人体的语言符合自然交流模式的多种媒体、多种模式的人机交互方式提供用户方便、自然的人机交互界面，这种生动、直观符合人类习惯的人机交互方式将对产生实用性影响并具有不可估量的意义。

本发明分为硬件设计和软件设计两个模块，硬件设计部分主要包括：

外壳、主板以及微型高清摄像头：当多角度显示功能开启时，能够识别手势并实时呈现用户的非镜面角度成像。

普通玻璃：当背景为深色时，可清晰成像；当背景为白色时或无背景时，为透明玻璃二弱化成像。

电子成像屏幕：收集各个摄像头传递的实时数据，并显示成像。

软件部分：

基于YOLO v3搭建手部检测模型

Yolo v3是一种基于深度神经网络的对象识别和定位算法，yolo算法的核心是采用滑动窗口进行目标检测，能够实现手部检测模块功能，其最大的特点是：运行速度很快，可以用于实时时系统。对整张图片做卷积，不易对背景误判。泛化能力强，在做迁移时，模型鲁棒性高。比其它目标检测方法准确率高很多。

基于OpenPose搭建动作识别框架

OpenPose人体姿态识别是基于卷积神经网络和监督学习的开源库，可以实现人体动作、手指运动等姿态估计，具有极好的鲁棒性。通过OpenPose可以获得手部关键点，根据关键点的运动轨迹发出控制信号。计算关键点的移动距离、角度和速度，从而实现控制智能“魔镜”的各个功能。

对于软件设计，该动作手势识别技术路线如图1所示。

1.通过摄像头采集数据，制作数据集。

2.搭建基于YOLO v3的手部检测模型如下：

网络设计：

YOLO v3使用24个卷积层，2个全连接层，1x1降维层，3x3卷积层。其最大的特点是最后输出层用线性函数做激活函数，即可得到预测bounding box的位置(数值型)。

网络训练：

将在ImageNet上预训练我们的卷积层。使用其前20个卷积层，外加平均池化层和全连接层。

预训练网络中增加卷积层和连接层可以提高性能。

训练中将采用drop out和数据增强来防止过拟合。

网络预测：

该网格设计强化了边界框预测中的空间多样性。

采用NMS(非极大值抑制)算法，修正多重检测。一个目标能够很明显落在哪一个网格单元中，而网络只能为每个目标预测一个边界框。

构建基于OpenPose动作识别框架：如图2。

OpenPose人体姿态识别是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人，具有极好的鲁棒性。识别的思路基本是自上而下，即先判断出人体，再寻找属于该人体的部位，而OpenPose则采用了自底向上的方法，先将所有的关节点回归出来，再通过部分仿射场(Part Affine Field，PAF)划分给每个人。

Openpose算法的整体流程：先通过10层VGG19网络提取出输入的图片的特征，并将所获得的特征图放入两个卷积神经网络中进行计算，分别预测每个关键点的置信度和亲和度向量，得到包含置信度的热图和包含亲和字段的热图。通过OpenPose可以获得手部关键点，如图3所示，再根据关键点的运动轨迹发出控制信号。计算关键点的移动距离、角度和速度，从而实现控制智能“魔镜”的各个功能。

基于OpenPose搭建运动识别框架，结果如图4所示。

综上所述，通过Yolo v3和OpenPose技术实现动作手势识别功能集成在该硬件设备上，使该智能“魔镜”拥有人性化的人机交互，在照镜子时获得更加智能有趣的体验，清晰地观察到自己不同角度下的美。

Claims

1.一种基于机器视觉的手势控制的智能魔镜，其特征在于，包括外壳、主板以及

手部检测模型，动作手势的识别；

2.如权利要求1所述的基于机器视觉的手势控制的智能魔镜，其特征在于，OpenPose人体姿态识别模块先通过10层VGG19网络提取出输入的图片的特征，并将所获得的特征图放入两个卷积神经网络中进行计算，分别预测每个关键点的置信度和亲和度向量，得到包含置信度的热图和包含亲和字段的热图，通过OpenPose可以获得手部关键点，再根据关键点的运动轨迹发出控制信号，计算关键点的移动距离、角度和速度。