CN110345407B

CN110345407B - 一种基于深度学习的智能矫姿台灯及矫姿方法

Info

Publication number: CN110345407B
Application number: CN201910536384.1A
Authority: CN
Inventors: 林连南; 林会东; 周海颖; 秦华; 李克奉; 许文龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2022-01-18
Anticipated expiration: 2039-06-20
Also published as: CN110345407A

Abstract

本发明公开的一种基于深度学习的智能矫姿台灯，包括台灯本体，置于台灯本体内的ARM图像分析处理芯片、通信模块，设置于台灯本体上的数字摄像机、扬声器；其中，数字摄像机获取用户的坐姿图片，并将图片传入ARM图像分析处理芯片进行坐姿正误判断；ARM图像分析处理芯片通过通讯模块与智能手机控制终端进行通讯；当检测到用户坐姿错误时，扬声器发声提醒用户；所述智能手机控制终端用于与台灯进行数据传输、固件更新及控制，所述智能手机控制终端与云服务器进行通讯，云服务器用于分发更新台灯固件及数据备份。本发明通过深度学习技术和智能台灯达到判断坐姿正误的目的。

Description

一种基于深度学习的智能矫姿台灯及矫姿方法

技术领域

本发明涉及智能家居和人工智能领域，特别涉及一种基于深度学习的智能矫姿台灯及矫姿方法。

背景技术

通过研究分析发现，目前市面上已经有一些智能矫姿产品，主要以通过传感器来识别的硬件设备居多，也有少量以矫正坐姿为主要功能的软件产品，但是这些产品普遍识别的智能化不够高，远不能满足用户人群不断拓展的需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于深度学习的智能矫姿台灯，通过深度学习技术和智能台灯达到判断坐姿正误的目的。

本发明的另一目的在于提供一种基于深度学习的智能矫姿方法。

本发明的目的通过以下的技术方案实现：

一种基于深度学习的智能矫姿台灯，包括台灯本体，置于台灯本体内的ARM图像分析处理芯片、通信模块，设置于台灯本体上的数字摄像机、扬声器；其中，数字摄像机获取用户的坐姿图片，并将图片传入ARM图像分析处理芯片进行坐姿正误判断；ARM图像分析处理芯片通过通讯模块与智能手机控制终端进行通讯；当检测到用户坐姿错误时，扬声器发声提醒用户；所述智能手机控制终端用于与台灯进行数据传输、固件更新及控制，所述智能手机控制终端与云服务器进行通讯，云服务器用于分发更新台灯固件及数据备份。

所述通信模块包括蓝牙通信模块、WiFi通信模块。

本发明的另一目的通过以下的技术方案实现：

一种基于深度学习的智能矫姿方法，包括以下顺序的步骤：

步骤一，通过数字摄像头获取用户当前坐姿图片，转化其数据格式；

步骤二，将步骤一中转化数据格式的图片传入人体关键点检测神经网络模型进行关键点提取，获取人体关键点坐标组；

步骤三，将人体关键点坐标组传入坐姿分类器模型进行坐姿分类，获得所拍摄坐姿的正误及置信度；

步骤四，若识别为错误坐姿，通过扬声器提醒用户调整坐姿；若识别为正确坐姿，继续正常运行；

步骤五，进行坐姿识别结果和坐姿图片等数据的存储；

步骤六，每隔预设时间T，重新进行步骤一到五直到用户主动结束此次坐姿检测行为。

步骤一中，所述转化其数据格式，具体为：将摄像头获取的原始图片(Image)通过缩放操作(zoom)得到大小为ImageSize*ImageSize*3的正方形三通道RGB图像，其中ImageSize为图片的长度/宽度。

步骤二中，所述人体关键点检测神经网络模型是使用PoseNet模型实现，分为PartⅠ、PartⅡ两部分：

PartⅠ是使用MobileNet v1-100模型实现，MobileNet v1-100模型中，标准卷积层(Conv)和深度可分离卷积层(Conv dw)以交替结构出现，其中每个卷积层后都跟有一个BatchNorm层和一个ReLU层；

所述MobileNet v1-100模型输出一个关键点热力图和一个偏移向量；其中，关键点热力图是一个大小为Resolution*Resolution*17的张量，通过对其进行解码能够得到各采样点对应关键点的置信度得分，偏移向量是一个大小为Resolution*Resolution*34的张量，用于存储采样点对应关键点的x或y位置坐标的偏移量；

PartⅡ是一个算法,分为以下步骤：

第一，通过sigmoid函数解码关键点热力图，获取其中各采样点对应相应关键点的得分，Score＝HeatMap.sigmoid()；

第二，对第一步获得的关键点得分使用argmax函数分别找出17个关键点得分最高的采样点，获得这些采样点的坐标作为关键点热力图位置，其中17个关键点依次为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左脚踝、右脚踝，HeatMap Positions＝Score.argmax(x,y)；

第三，对于第二步中得到的关键点热力图位置，从偏移向量中获取各位置对应的偏移量Offsets：

Offsets＝[Offset1, Offset2,.. .,Offset11]^T

Offset(n)＝[Offset Vector.get(x,y,n),Offset Vector.get(x,y,17+n)]^T，其中n表示第n个关键点；

第四，将关键点热力图位置与偏移量结合得到准确的关键点坐标向量，KeyPointsVector1＝HeatMap Positions*OutputStride+Offsets；由于我们进行坐姿分类时，只用到与上半身相关的前11个关键点，因此我们去掉KeyPoints Vector1的后6行，输出只包含前11个关键点坐标的向量KeyPoints Vector人体关键点坐标组。

步骤二中，所述人体关键点检测神经网络模型，其训练过程如下：

将微软公开的MSCOCO数据集划分为训练集(66808张照片，共273469人)、验证集(4301张照片用作mini-val evaluation set)；我们使用tensorflow框架进行训练；

对于人体检测，我们使用共9块Tesla K40 GPU，动量大小为0.9的随机梯度下降优化方法，初始学习率设置为0.0003，每800000轮学习率除以10，共训练1000000轮；

对于姿态识别，即关键点检测，我们使用各自装有8块GPU的2台机器，共16块GPU，设置Batch size为24，学习率为0.005，并使用参数平均化方法，共训练800000轮。

步骤三中，所述坐姿分类器模型为ANN模型，其网络结构表的第1列表示网络模型的层数，第2列表示输入数据的维度，第3列表示输出数据的维度，第4列表示该层使用的激活函数类型。

步骤三中，所述坐姿分类器模型，其训练过程如下：

将人体关键点数据集划分为训练集(60％)、验证集(20％)、测试集(20％)，以16组数据作为mini-batch的大小，使用随机梯度下降优化方法对模型进行训练，共计50轮训练。

本发明与现有技术相比，具有如下优点和有益效果：

本发明将先进的AI图像识别技术融入于坐姿识别这一应用场景中，给用户带来全新的智能化体验。本发明的台灯，搭载了判断坐姿情况是否正确的深度学习模型，用户在使用过程中，台灯通过摄像头获取当前的坐姿图片，图片被传入预先训练好的模型中，由模型判断当前坐姿是否正确，返回坐姿结果，从而达到判断坐姿正误的目的。本发明可以帮助用户矫正坐姿，培养良好的坐姿习惯。

附图说明

图1为本发明所述基于深度学习的智能矫姿台灯的工作原理图。

图2为本发明所述基于深度学习的智能矫姿台灯的结构示意图。

图3为本发明所述基于深度学习的智能矫姿方法的流程图。

图4是图3中的AI模块的具体结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

所述通信模块包括蓝牙通信模块、WiFi通信模块。

一种基于深度学习的智能矫姿方法，包括以下顺序的步骤：

步骤五，进行坐姿识别结果和坐姿图片等数据的存储；

PartⅠ是使用MobileNet v1-100模型实现，卷积神经网络的结构如表1、表2所示:

表1

表2

MobileNet v1-100模型中，标准卷积层(Conv)和深度可分离卷积层(Conv dw)以交替结构出现，其中每个卷积层后都跟有一个BatchNorm层和一个ReLU层；

PartⅡ是一个算法,分为以下步骤：

Offsets＝[Offset1, Offset2,.. .,Offset11]^T

第四，将关键点热力图位置与偏移量结合得到准确的关键点坐标向量，KeyPointsVector1＝HeatMap Positions*OutputStride+Offsets；由于我们进行坐姿分类时，只用到与上半身相关的前11个关键点，因此我们去掉KeyPoints Vector1的后6行，输出只包含前11个关键点坐标的向量KeyPointsVector人体关键点坐标组。

步骤三中，所述坐姿分类器模型为ANN模型，其网络结构表的第1列表示网络模型的层数，第2列表示输入数据的维度，第3列表示输出数据的维度，第4列表示该层使用的激活函数类型。其网络结构表如表3所示。

表3

步骤三中，所述坐姿分类器模型，其训练过程如下：

进一步地：

如图1，一种基于深度学习的智能矫姿台灯，台灯101可与智能终端102通过无线通信方式104、105进行连接与通信。智能终端102可与云服务器103通过无线通信方式106、107进行连接与通信。其中，无线通信方式104、105、106、107可以是蓝牙、WiFi等技术。

云服务器103可通过无线通信方式107向智能终端102传输新版本的台灯固件，其中固件可包括新版本的模型、新增的功能等；智能终端102可通过无线通信方式104向台灯101传输之前从云服务器103接收的新版本固件(其中可包括新版本的模型、新增的功能等)，也可以对台灯进行开启或关闭的控制；台灯101可通过无线通信方式105向智能终端102传输坐姿识别结果、坐姿图片等数据；智能终端102可通过无线通信方式106向云服务器103传输用户信息和之前从台灯101接收的坐姿数据。

此外，智能终端102还可以用于记录和用户的实时与历史坐姿情况；云服务器103还可以用于数据备份。

图2是图1中台灯101的一个具体实例，台灯的主要功能部件如图2所示。201是台灯的开关，用于开启或关闭台灯。202是台灯的光源，用于为用户照明。203是数字摄像头，用于在使用时给用户拍摄照片。204是图像分析处理芯片(如ARM芯片等)，用于判断摄像头203采集的图片坐姿是否正确、暂时保存用户坐姿数据、将用户坐姿数据传给智能终端102。205是扬声器，用于在图像分析处理芯片204判断用户坐姿错误时给用户相应的语音提示。

如图3，用户手动通过开关201开启台灯或在移动终端选择开启台灯后，台灯光源202点亮。随后摄像头203拍照，实时获取用户的坐姿图片，并将其传入搭载了模型的ARM架构芯片204，模型的AI模块提取关键点，并对坐姿进行分类。若坐姿分类结果错误，则通过扬声器205进行语音交互提醒；若坐姿分类结果正确，台灯继续正常工作。坐姿分类结束后，台灯将坐姿数据保存在本地芯片204的存储模块中，与此同时，光源202一直点亮，而且每隔5s台灯重复上述摄像头203拍照，芯片204对坐姿图片进行分类，扬声器205语音交互，芯片204保存数据的流程，直至用户通过开关201手动关闭台灯或在智能手机终端选择关闭台灯。

图4是图3中的AI模块的具体结构图。模型处理的具体步骤如下：步骤一，将摄像头获取的图片通过一定比例缩放后获得的三通道RGB图像；步骤二，姿态网络部分I(PoseNetPart I)采用MobileNet v1-100模型，将步骤一中得到的图像传入姿态网络部分I中进行处理，可得到关键点热力图(HeatMap)与偏移向量(Offset Vector)的输出，其中关键点热力图代表图像上采样点上各类关键点的得分，偏移向量代表图像采样点映射至原图对应区域的偏移量；步骤三，将步骤二中的两个输出传入姿态网络部分II(PoseNet Part II)中，通过sigmoid函数和argmax函数从关键点热力图中提取关键点热力图位置，记为HeatMapPositions，并与偏移向量配合获得图片的关键点向量，记为KeyPoints Vector，其中提取单个关键点向量的公式为KeyPoints Vector＝HeatMap Positions*OutputStride(采样率)+Offset Vectors；步骤四，将步骤三中得到的KeyPoints Vector传入支持向量机(SVM)或多层神经网络分类器(ANN)后，得到坐姿结果分类(Category)以及对应的置信度(Confidence)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的智能矫姿台灯，其特征在于：包括台灯本体，置于台灯本体内的ARM图像分析处理芯片、通信模块，设置于台灯本体上的数字摄像机、扬声器；其中，数字摄像机获取用户的坐姿图片，并将图片传入ARM图像分析处理芯片进行坐姿正误判断，其中，通过人体关键点检测神经网络模型进行关键点提取，获取人体关键点坐标组，通过坐姿分类器模型进行坐姿分类，获得所拍摄坐姿的正误及置信度；ARM图像分析处理芯片通过通讯模块与智能手机控制终端进行通讯；当检测到用户坐姿错误时，扬声器发声提醒用户；所述智能手机控制终端用于与台灯进行数据传输、固件更新及控制，所述智能手机控制终端与云服务器进行通讯，云服务器用于分发更新台灯固件及数据备份；

其工作过程具体如下：

步骤二，将步骤一中转化数据格式的图片传入人体关键点检测神经网络模型进行关键点提取，获取人体关键点坐标组；步骤二中，所述人体关键点检测神经网络模型是使用PoseNet模型实现，分为PartⅠ、PartⅡ两部分：

其中，PartⅠ是使用MobileNet v1-100模型实现，MobileNet v1-100模型中，标准卷积层和深度可分离卷积层以交替结构出现，其中每个卷积层后都跟有一个BatchNorm层和一个ReLU层；

步骤五，进行坐姿识别结果和坐姿图片等数据的存储；

2.根据权利要求1所述基于深度学习的智能矫姿台灯，其特征在于：所述通信模块包括蓝牙通信模块、WiFi通信模块。

3.一种基于深度学习的智能矫姿方法，其特征在于，包括以下顺序的步骤：

PartⅠ是使用MobileNet v1-100模型实现，MobileNet v1-100模型中，标准卷积层和深度可分离卷积层以交替结构出现，其中每个卷积层后都跟有一个BatchNorm层和一个ReLU层；

PartⅡ是一个算法,分为以下步骤：

Offsets＝[Offset1,Offset2,...,Offset11]^T

第四，将关键点热力图位置与偏移量结合得到准确的关键点坐标向量，KeyPointsVector1＝HeatMap Positions*OutputStride+Offsets；去掉KeyPoints Vector1的后6行，输出只包含前11个关键点坐标的向量KeyPoints Vector人体关键点坐标组；

步骤五，进行坐姿识别结果和坐姿图片等数据的存储；

4.根据权利要求3所述基于深度学习的智能矫姿方法，其特征在于，步骤一中，所述转化其数据格式，具体为：将摄像头获取的原始图片通过缩放操作得到大小为ImageSize*ImageSize*3的正方形三通道RGB图像，其中ImageSize为图片的长度/宽度。

5.根据权利要求3所述基于深度学习的智能矫姿方法，其特征在于，步骤二中，所述人体关键点检测神经网络模型，其训练过程如下：

将微软公开的MSCOCO数据集划分为训练集、验证集；使用tensorflow框架进行训练；

对于人体检测，使用共9块Tesla K40 GPU，动量大小为0.9的随机梯度下降优化方法，初始学习率设置为0.0003，每800000轮学习率除以10，共训练1000000轮；

对于姿态识别，即关键点检测，使用各自装有8块GPU的2台机器，共16块GPU，设置Batchsize为24，学习率为0.005，并使用参数平均化方法，共训练800000轮。

6.根据权利要求3所述基于深度学习的智能矫姿方法，其特征在于，步骤三中，所述坐姿分类器模型为ANN模型，其网络结构表的第1列表示网络模型的层数，第2列表示输入数据的维度，第3列表示输出数据的维度，第4列表示该层使用的激活函数类型。

7.根据权利要求3所述基于深度学习的智能矫姿方法，其特征在于，步骤三中，所述坐姿分类器模型，其训练过程如下：

将人体关键点数据集划分为训练集、验证集、测试集，以16组数据作为mini-batch的大小，使用随机梯度下降优化方法对模型进行训练，共计50轮训练。