CN114582014A - 一种深度图像中人体坐姿识别的方法、装置及存储介质 - Google Patents

一种深度图像中人体坐姿识别的方法、装置及存储介质 Download PDF

Info

Publication number
CN114582014A
CN114582014A CN202210084883.3A CN202210084883A CN114582014A CN 114582014 A CN114582014 A CN 114582014A CN 202210084883 A CN202210084883 A CN 202210084883A CN 114582014 A CN114582014 A CN 114582014A
Authority
CN
China
Prior art keywords
sitting posture
depth image
sitting
head
slightly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210084883.3A
Other languages
English (en)
Inventor
王倩
刘敏
贺荣锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Shixi Technology Co Ltd
Original Assignee
Zhuhai Shixi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Shixi Technology Co Ltd filed Critical Zhuhai Shixi Technology Co Ltd
Priority to CN202210084883.3A priority Critical patent/CN114582014A/zh
Publication of CN114582014A publication Critical patent/CN114582014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种深度图像中人体坐姿识别的方法、装置及存储介质,用于利用深度图像基于残差网络搭建的坐姿分类模型以及交叉验证进行坐姿识别,在有效保护个人隐私的同时进一步提高了坐姿识别的准确度。本申请方法包括:获取人体坐姿的深度图像;对所述深度图像进行预处理;将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到所述深度图像的初始坐姿分类信息,所述坐姿分类模型的网络基于残差网络搭建而成;根据所述初始坐姿分类信息通过交叉验证得到所述深度图像的坐姿最终分类结果。

Description

一种深度图像中人体坐姿识别的方法、装置及存储介质
技术领域
本申请涉及图像处理领域,尤其涉及一种深度图像中人体坐姿识别的方法、装置及存储介质。
背景技术
不同的坐姿能够表达用户的不同状态,通过坐姿识别技术能够识别出人们的坐姿种类和坐姿状态,并反馈给用户,实现坐姿干预。
在现有技术中,能够实现坐姿识别的方法有很多,市面上更多的应用是采用压力传感器来进行坐姿识别,此外还有基于RGB彩色图像的坐姿识别,然而这些方法都有各自的优缺点。基于压力传感器的方法受限于设备,使用或者需要穿戴相应的设备等,具体使用起来很不方便。而针对RGB彩色图像的处理实现坐姿识别,对图片色彩信息要求较高,相机采集图片时受环境和光照等影响,这些都会影响到最终的识别率,导致识别率不高。另一方面,使用RGB彩色图像来实现坐姿识别不利于保护用户的个人隐私。
发明内容
本申请提供了一种深度图像中人体坐姿识别的方法、装置及存储介质,用于利用深度图像结合残差网络模型以及交叉验证进行坐姿识别,在有效保护个人隐私的同时进一步提高了坐姿识别的准确度。
本申请第一方面提供了一种深度图像中人体坐姿识别的方法,包括:
获取拍摄人体坐姿的深度图像;
对所述深度图像进行预处理;
将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到所述深度图像的初始坐姿分类信息,所述坐姿分类模型的网络基于残差网络搭建而成;
根据所述初始坐姿分类信息通过交叉验证得到所述深度图像的坐姿最终分类结果。
可选的,对所述深度图像进行预处理包括:
去除所述深度图像中的背景信息;
和/或,
提取所述深度图像中的人体轮廓区域信息;
和/或,
对所述深度图像进行数据增强。
可选的,在所述获取拍摄人体坐姿的深度图像之前,所述方法还包括:
获取坐姿识别的训练样本集,所述训练样本集中包含若干张坐姿样本图像与对应的标签信息,所述坐姿样本图像为深度图像,所述标签信息为坐姿的类别;
构建初始坐姿分类模型,所述初始坐姿分类模型的主体网络架构由残差网络构成;
从所述坐姿识别训练样本集中选取训练样本,并通过所述训练样本训练所述初始坐姿分类模型直至所述初始坐姿分类模型达到收敛,得到坐姿分类模型。
可选的,所述标签信息包括:
正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头、正坐-微右歪头、左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背中的至少一种。
可选的,所述方法还包括:
采用One-hot一位有效编码对所述标签信息进行编码。
可选的,所述方法还包括:
通过数据增强扩大所述坐姿识别训练样本集,所述数据增强包括对所述坐姿样本图像进行裁剪、放缩、标准化和/或修改亮度、对比度和饱和度。
可选的,在所述根据所述初始坐姿分类信息通过交叉验证得到所述深度图像的坐姿分类结果之后,所述方法还包括:
判断所述坐姿分类结果属于有益坐姿或无益坐姿,所述有益坐姿包括正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头和正坐-微右歪头,所述无益坐姿包括左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背;
当确定所述坐姿分类结果属于无益坐姿时,向用户发送坐姿纠正提示信息。
本申请第二方面提供了一种深度图像中人体坐姿识别的装置,包括:
获取单元,用于获取人体坐姿的深度图像;
预处理单元,用于对所述深度图像进行预处理;
输入单元,用于将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到所述深度图像的初始坐姿分类信息,所述坐姿分类模型的网络基于残差网络搭建而成;
验证单元,用于根据所述初始坐姿分类信息通过交叉验证得到所述深度图像的坐姿最终分类结果。
可选的,所述预处理单元具体用于:
去除所述深度图像中的背景信息;
和/或,
提取所述深度图像中的人体轮廓区域信息;
和/或,
对所述深度图像进行数据增强。
可选的,所述装置还包括训练单元;
所述训练单元具体用于:
获取坐姿识别的训练样本集,所述训练样本集中包含若干张坐姿样本图像与对应的标签信息,所述坐姿样本图像为深度图像,所述标签信息为坐姿的类别;
构建初始坐姿分类模型,所述初始坐姿分类模型的主体网络架构由残差网络构成;
从所述坐姿识别训练样本集中选取训练样本,并通过所述训练样本训练所述初始坐姿分类模型直至所述初始坐姿分类模型达到收敛,得到坐姿分类模型。
可选的,所述标签信息包括:
正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头、正坐-微右歪头、左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背中的至少一种。
可选的,所述训练单元具体还用于:
采用One-hot一位有效编码对所述标签信息进行编码。
可选的,所述训练单元具体还用于:
通过数据增强扩大所述坐姿识别训练样本集,所述数据增强包括对所述坐姿样本图像进行裁剪、放缩、标准化和/或修改亮度、对比度和饱和度。
可选的,所述装置还包括:
判断单元,用于判断所述坐姿分类结果属于有益坐姿或无益坐姿,所述有益坐姿包括正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头和正坐-微右歪头,所述无益坐姿包括左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背;
发送单元,用于当所述判断单元确定所述坐姿分类结果属于无益坐姿时,向用户发送坐姿纠正提示信息。
本申请第三方面提供了一种深度图像中人体坐姿识别的装置,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的深度图像中人体坐姿识别的方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的深度图像中人体坐姿识别的方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供的坐姿分类方法是采集用户人体坐姿的深度图像,再利用该深度图像进行坐姿分类,相较于RGB彩色图像,深度图像中没有色彩和内容细节,这样能够有效保护用户的个人隐私。另一方面,为了提高针对于深度图像中坐姿识别的准确度,本申请中通过对残差网络所搭建的模型进行训练得到坐姿分类模型,还加入了K-fold交叉验证,在多个表现较好的模型中对最终的坐姿分类结果进行投票选择,提高了坐姿识别的准确度,进一步提升用户体验。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的深度图像中人体坐姿识别的方法一个实施例流程示意图;
图2为本申请提供的深度图像中人体坐姿识别的方法中交叉验证的流程示意图;
图3为本申请提供的深度图像中人体坐姿识别的方法另一个实施例流程示意图;
图4为本申请提供的深度图像中人体坐姿识别的方法中同一坐姿类别的部分场景坐姿示意图;
图5为为本申请提供的深度图像中人体坐姿识别的方法中残差块示意图;
图6为本申请提供的深度图像中人体坐姿识别的装置一个实施例结构示意图;
图7为本申请提供的深度图像中人体坐姿识别的装置另一个实施例结构示意图;
图8为本申请提供的深度图像中人体坐姿识别的装置一个实施例结构示意图。
具体实施方式
本申请提供了一种深度图像中人体坐姿识别的方法、装置及存储介质,用于利用深度图像基于残差网络搭建的坐姿分类模型以及交叉验证进行坐姿识别,在有效保护个人隐私的同时进一步提高了坐姿识别的准确度。
需要说明的是,本申请提供的深度图像中人体坐姿识别的方法,可以应用于终端,还可以应用于服务器上,例如终端可以是智能台灯、智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述,本申请中以终端为执行主体进行举例说明。
请参阅图1,图1为本申请提供的深度图像中人体坐姿识别的方法的一个实施例,该方法包括:
101、获取拍摄人体坐姿的深度图像;
为了实现坐姿识别,终端先通过深度相机采集用户坐姿的深度图像,终端所获取的深度图像的分辨率具体不做限定。
在本实施例中,人体坐姿可以分为有益坐姿和无益坐姿两大类,其中有益坐姿又分为:正坐,正坐-微低头,正坐-微左转头,正坐-微右转头,正坐-微抬头,正坐-微左歪头,正坐-微右歪头;无益坐姿又分为:左歪头,右歪头,身体左倾,身体右倾,左手托腮,右手托腮,前倾(趴着),后仰,弯腰驼背,终端需要利用获取到的深度图像识别出用户当前的坐姿具体属于上述何种坐姿。
102、对深度图像进行预处理;
深度图像区别于RGB图像,深度图像没有色彩和细内容细节,但是深度图像能够反映图中每一个像素点的深度信息,通过对深度图像进行一定的预处理,能够得到图像中目标物体的显著图,方便后续的坐姿识别工作。
需要说明的是,该预处理的手段包括但不限于对深度图像进行数据增强以及去除背景等干扰项,通过该预处理可以使得进入分类模型之后的数据所包含的有用信息更显著,图片信息背景等干扰项减少,从而提高识别率。
103、将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到深度图像的初始坐姿分类信息,坐姿分类模型的网络基于残差网络搭建而成;
为了提高模型预测的准确度,本实施例中在将深度图像输入至坐姿分类模型时会采用测试时增强(test time augmentation,TTA)进行处理。具体是将深度图像处理为多个不同的版本,包括对深度图像进行不同区域裁剪和更改缩放程度等,然后将多个版本的深度图像分别输入至坐姿分类模型中,将模型输出的结果作为初始坐姿分类信息。
需要说明的是,该坐姿分类模型基于残差网络搭建,通过模型训练得到,该残差网络可以是ResNet34、ResNet50或ResNet101等,具体此处不做限定。该模型对于分类功能强大,由于残差网络采用非线性激活与线性激活交替灵活使用,兼顾非线性和线性信息的完整性,并且参数的优化收敛得快,特征复用加快模型的学习速度,符合对于坐姿识别的应用需求。
104、根据初始坐姿分类信息通过交叉验证得到深度图像的坐姿分类结果。
通过选择训练时表现较好的多个坐姿分类模型,将深度图像分别输入至多个坐姿分类模型中分别进行识别,对应就会得到多组初始坐姿分类信息,再在多组初始坐姿分类信息中进行投票式选择最终的坐姿分类结果,从而最终提高坐姿识别的准确度。
请参阅图2,图2为本实施例中进行坐姿识别的流程示意图,假设当前用户的坐姿为正坐,终端拍摄用户正坐的深度图像,对深度图像进行预处理,具体是对深度图像进行数据增强处理,然后再将预处理后的深度图像通过TTA处理送入坐姿分类模型中进行分类,假设将深度图像分别送入5个坐姿分类模型中,就会对应得到5组初始坐姿分类信息,即图中的分类结果1、2、3、4、5,其中分类结果1、2、4为正坐,3为正坐-微低头,5为正右,终端则通过交叉验证得出最终的坐姿分类结果为正坐,即在交叉验证的过程中采取少数服从多数原则。
在本实施例中,是采集用户人体坐姿的深度图像,再利用该深度图像进行坐姿分类,相较于RGB彩色图像,深度图像中没有色彩和内容细节,这样能够有效保护用户的个人隐私。另一方面,为了提高针对于深度图像中坐姿识别的准确度,本申请中通过对残差网络ResNet50进行训练得到坐姿分类模型,还加入了K-fold交叉验证,在多个表现较好的模型中对最终的坐姿分类结果进行投票选择,提高了坐姿识别的准确度,进一步提升用户体验。
下面对本申请提供的深度图像中人体坐姿识别的方法进行详细描述,请参阅图3,图3为本申请提供的深度图像中人体坐姿识别的方法的一个实施例,该方法包括:
301、获取坐姿识别的训练样本集,训练样本集中包含若干张坐姿样本图像与对应的标签信息,坐姿样本图像为深度图像,标签信息为坐姿的类别;
本实施例中,通过对残差网络搭建的模型进行训练得到坐姿分类模型,在进行模型训练之前,需要先获取数据集,即本申请中的坐姿识别训练样本集。在本实施例中将人体坐姿分为,有益坐姿和无益坐姿两大类,同时有益坐姿又分为:正坐,正坐-微低头,正坐-微左转头,正坐-微右转头,正坐-微抬头,正坐-微左歪头,正坐-微右歪头;无益坐姿分为:左歪头,右歪头,身体左倾,身体右倾,左手托腮,右手托腮,前倾(趴着),后仰,弯腰驼背。在制作数据集时根据该分类拍摄人体坐姿的深度图像,进行数据收集。
在一般情况下数据集的制作原则是数据量越大覆盖的范围越广越好,但实际过程中,由于可能存在不完美的样本,数据集的范围越大并不意味着训练结果越好,因此,可以考虑采用数据增强的方法来扩大数据集。但是对于图像分类任务来说,如果扩大的数据类型(图片内容)在实际应用中并不存在,会对实际应用带来负面影响。现有的数据增强方法有很多,例如裁剪、翻转和旋转、图像变换等,但有些方法并不适合用来做本实施例中的数据增强,例如水平翻转会导致左右判断的误导而降低识别的准确度。因此本实施例中对坐姿识别训练样本集进行数据增强的方式考虑裁剪、放缩、标准化、修改亮度以及对比度和饱和度等。
在一些具体的实施例中,采用深度相机对50位参与者进行拍摄取材,每类坐姿每个人拍摄50张具有轻微差异(如服饰、发型等)的深度图像,然后再进行数据增强,总共可以获得约40000张图片,从中随机抽取2/3图片作为训练集,剩下图片作为测试集。而在制作数据集时,同样可以利用深度信息去除图片背景,使得数据集中的数据所包含的有用信息更显著,图片信息背景等干扰项减少,从而提高模型的训练效果,提高模型的识别率。此外,在训练样本集中还可以随机抽取一定数量的图片作为验证集,验证集中的深度图像用于对坐姿分类模型的准确度进行验证,即根据验证集中的深度图像执行后续步骤305至307,以使得开发者能够观察到训练得到的坐姿分类模型的准确度,当模型准确度不满足要求时,可以重新对该坐姿分类模型进行训练。
进一步的,标记不同样本图像中的坐姿类别,在本实施例中同一个类别的坐姿包含多种场景,请参阅图4,图4为正坐的部分场景,将一些存在小角度的偏移的正坐都作为同一个类别。同理,其它类型的坐姿也包含多种场景,从而获得多样性较大的数据,为模型的泛化提供一定的基础,使得训练出的坐姿分类模型在实际应用中能适应更多的情况。
在一些具体的实施例中,可以采用One-hot一位有效编码对不同样本图像中的标签信息进行编码。One-hot一位有效编码是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效。对于坐姿的标签信息来说,有几类坐姿分类,就需要几个位数,并且将需要的坐姿位数设置为1,其余设置为0。
标签对应的坐姿如表1所示:
标签 One-hot编码举例(坐姿类别为10)
正坐 [1,0,0,0,0,0,0,0,0,0]
正坐--微低头 [0,1,0,0,0,0,0,0,0,0]
…… ……
左歪头 [0,0,0,0,0,0,0,0,0,1]
表1-标签和编码的对应情况举例
表1列举了标签信息的one-hot编码的情况,假设坐姿类别为10种,就需要长度为10的编码,第一类坐姿的第一位编码为1其它位编码为0,以此类推。
302、构建初始坐姿分类模型,初始坐姿分类模型的主体网络架构由残差网络构成;
本实施例中的初始坐姿分类模型主要应用了残差网络搭建深度网络,优选采用ResNet50进行搭建,即引入ResNet50作为坐姿分类模型的主要结构。具体的,在进行训练时,使用pandas读取训练文件,训练文件是保存样本图像路径和对应标签信息的csv文件,获得索引对应的样本图像文件之后对样本图像进行增强处理,返回样本图像文件和对应标签。再通过残差网络学习样本图片特征和对应的标签,从而获得一类标签下的图片的总体特征,实现分类任务。
其中,残差网络由多个残差块搭建而成,残差块如图5所示,x为输入信息,F(·)表示残差学习函数。用h(xn)表示恒等映射(Identity mapping),则h(xn)=xn,令y为残差块的输出,则yn=h(xn)+F(xn)。用F(·)表示ReLu激活函数,在残差块中,每个卷积层的参数在训练过程中得到更新,令W1,b1为第一层卷积的参数,W2,b2为第二层卷积的参数,则残差块函数可表示为:
y=h(x)+F(x,{W1,W2},{b1,b2})
F(·)=W2f(W1x+b1)+b2
令xn为第n个残差块的的输入,xn+1为其输出,则:
xn+1=h(xn)+F(xn,{W1,W2}n,{b1,b2}n)=xn+F(xn,{W1,W2}n,{b1,b2}n)
由此推导出:
Figure BDA0003487195150000101
利用链式法则,求反向传播的梯度来更新每一层卷积的参数W,b。
303、从坐姿识别训练样本集中选取训练样本,并通过训练样本训练初始坐姿分类模型直至初始坐姿分类模型达到收敛,得到坐姿分类模型;
在一些具体的实施方式中,在训练初始坐姿分类模型过程中采用one-hot对标签信息分配权值;使用CutMixCrossEntropyLoss交叉熵作为训练损失函数;同时使用AdamW优化器来优化模型;学习率初始值为10-4,并采用余弦退火来逐步降低学习率。
需要说明的是,使用交叉熵作为训练损失函数可以很好的实现多分类任务。交叉熵的原理是通过判定实际的输出与期望的输出的接近程度来识别一个类别,从而实现分类的任务。例如,以正坐-微抬头为一个类别,那么该类别所对应的输出节点的输出值为1,而其他节点的输出都为0,即数组[0,…,1,0,…0,0],正坐-微抬头的标签信息对应的数组也是这个数组的值,而这个结果是训练网络模型最期望输出的值,利用交叉熵作为损失函数来训练网络模型,使得实际输出的值不断的接近这个期望值,从而达到分类的目的。
在一些具体的实施例中,可以通过模型训练得到5个表现较好的坐姿分类模型,由此在后续步骤中根据5个模型分别输出的坐姿分类信息进行交叉验证,得到最终的坐姿分类结果。
304、获取拍摄人体坐姿的深度图像;
在本实施例中,步骤304与前述实施例步骤101类似,此处不再赘述。
305、对深度图像进行预处理;
深度图像区别于RGB图像,深度图像没有色彩和细内容细节,但是深度图像能够反映图中每一个像素点的深度信息,通过对深度图像进行一定的预处理,能够得到图像中目标物体的显著图,方便后续的坐姿识别工作。
需要说明的是,该预处理的手段包括但不限于对深度图像进行数据增强以及去除背景等干扰项,通过该预处理可以使得进入模型之后的数据所包含的有用信息更显著,图片信息背景等干扰项减少,从而提高识别率。
在一些具体的实施例中,终端可以利用深度图像的深度信息去除深度图像中的背景信息,或者根据深度信息提取深度图像中的人体轮廓信息,再对处理后的深度图像进行数据增强,数据增强的方式参考步骤301中的方式。
306、将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到深度图像的初始坐姿分类信息,坐姿分类模型通过对残差网络ResNet50训练得到;
307、根据初始坐姿分类信息通过交叉验证得到深度图像的坐姿分类结果;
在本实施例中,步骤306至307与前述实施例步骤103至步骤104类似,此处不再赘述。
308、判断坐姿分类结果属于有益坐姿或无益坐姿,若属于有益坐姿,则返回步骤304,若属于无益坐姿,则执行步骤309;
终端根据对深度图像进行识别得到的坐姿分类结果,确定当前用户的坐姿为有益坐姿还是无益坐姿。其中如果终端识别得到的坐姿分类结果为正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头、正坐-微右歪头中的任意一个,则当前用户的坐姿属于有益坐姿;而如果终端识别得到的坐姿分类结果为左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾(趴着)、后仰、弯腰驼背中的任意一个,则当前用户的坐姿属于无益坐姿。
309、当确定坐姿分类结果属于无益坐姿时,向用户发送坐姿纠正提示信息。
如果终端根据坐姿分类结果确定用户当前的坐姿属于无益坐姿,则可以向用户进行反馈,具体可以是通过语音或文字向用户发出坐姿纠正提示信息,以使得用户可以及时调整坐姿,有益于身体健康。
在本实施例中,采集用户人体坐姿的深度图像,再利用该深度图像进行坐姿分类,相较于RGB彩色图像,深度图像中没有色彩和内容细节,这样能够有效保护用户的个人隐私,并且可以利用深度图像中的深度信息快速去除背景等干扰项,帮助提高坐姿识别率。另一方面,为了提高针对于深度图像中坐姿识别的准确度,本申请中通过对残差网络ResNet50搭建的分类模型进行训练得到坐姿分类模型,还加入了K-fold交叉验证,在多个表现较好的模型中对最终的坐姿分类结果进行投票选择,提高了坐姿识别的准确度,进一步提升用户体验。
在本实施例模型训练的过程中,首先对坐姿分类做了详细规划制作数据集,有利于模型的训练和泛化,在实际应用中提高坐姿识别率。为了避免模型出现过拟合以及提高泛化能力,本实施例还有针对性的对数据做增广处理,使得模型对于同一类坐姿具有一定的容差,从而较好的适应不同场景和人物的坐姿识别情况。
在本实施例中,还可以将本实施例提供的深度图像中人体坐姿识别方法应用在台灯终端上,以使得台灯终端可以实时检测学生写作业时坐姿情况,从而判断学生坐姿属于有益坐姿或无益坐姿,当学生出现无益坐姿时及时地进行提醒,从而帮助不良坐姿的纠正,培养良好的坐姿习惯,保持身体健康。
请参阅图6,图6为本申请提供的深度图像中人体坐姿识别的装置一个实施例,该装置包括:
获取单元601,用于获取人体坐姿的深度图像;
预处理单元602,用于对深度图像进行预处理;
输入单元603,用于将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到深度图像的初始坐姿分类信息,坐姿分类模型的网络基于残差网络搭建而成;
验证单元604,用于根据初始坐姿分类信息通过交叉验证得到深度图像的坐姿最终分类结果。
在本实施例中,是采集用户人体坐姿的深度图像,再利用该深度图像进行坐姿分类,相较于RGB彩色图像,深度图像中没有色彩和内容细节,这样能够有效保护用户的个人隐私。另一方面,为了提高针对于深度图像中坐姿识别的准确度,本申请中通过对残差网络所搭建的模型进行训练得到坐姿分类模型,还加入了K-fold交叉验证,在多个表现较好的模型中对最终的坐姿分类结果进行投票选择,提高了坐姿识别的准确度,进一步提升用户体验。
下面对本申请提供的深度图像中人体坐姿识别的装置进行详细说明,请参阅图7,图7为本申请提供的深度图像中人体坐姿识别的装置另一个实施例,该装置包括:
获取单元701,用于获取人体坐姿的深度图像;
预处理单元702,用于对深度图像进行预处理;
输入单元703,用于将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到深度图像的初始坐姿分类信息,坐姿分类模型的网络基于残差网络搭建而成;
验证单元704,用于根据初始坐姿分类信息通过交叉验证得到深度图像的坐姿最终分类结果。
可选的,预处理单元702具体用于:
去除深度图像中的背景信息;
和/或,
提取深度图像中的人体轮廓区域信息;
和/或,
对深度图像进行数据增强。
可选的,装置还包括训练单元705;
训练单元705具体用于:
获取坐姿识别的训练样本集,训练样本集中包含若干张坐姿样本图像与对应的标签信息,坐姿样本图像为深度图像,标签信息为坐姿的类别;
构建初始坐姿分类模型,初始坐姿分类模型的主体网络架构由残差网络构成;
从坐姿识别训练样本集中选取训练样本,并通过训练样本训练初始坐姿分类模型直至初始坐姿分类模型达到收敛,得到坐姿分类模型。
可选的,标签信息包括:
正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头、正坐-微右歪头、左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背中的至少一种。
可选的,训练单元705具体还用于:
采用One-hot一位有效编码对标签信息进行编码。
可选的,训练单元705具体还用于:
通过数据增强扩大坐姿识别训练样本集,数据增强包括对坐姿样本图像进行裁剪、放缩、标准化和/或修改亮度、对比度和饱和度。
可选的,装置还包括:
判断单元706,用于判断坐姿分类结果属于有益坐姿或无益坐姿,有益坐姿包括正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头和正坐-微右歪头,无益坐姿包括左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背;
发送单元707,用于当判断单元确定坐姿分类结果属于无益坐姿时,向用户发送坐姿纠正提示信息。
本实施例装置中,各单元的功能与前述图3所示方法实施例中的步骤对应,此处不再赘述。
本申请还提供了一种深度图像中人体坐姿识别的装置,请参阅图8,图8为本申请提供的深度图像中人体坐姿识别的装置一个实施例,该装置包括:
处理器801、存储器802、输入输出单元803、总线804;
处理器801与存储器802、输入输出单元803以及总线804相连;
存储器802保存有程序,处理器801调用程序以执行如上任一深度图像中人体坐姿识别的方法。
本申请还涉及一种计算机可读存储介质,计算机可读存储介质上保存有程序,其特征在于,当程序在计算机上运行时,使得计算机执行如上任一深度图像中人体坐姿识别的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (11)

1.一种深度图像中人体坐姿识别的方法,其特征在于,所述方法包括:
获取拍摄人体坐姿的深度图像;
对所述深度图像进行预处理;
将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到所述深度图像的初始坐姿分类信息,所述坐姿分类模型的网络基于残差网络搭建而成;
根据所述初始坐姿分类信息通过交叉验证得到所述深度图像的坐姿最终分类结果。
2.根据权利要求1所述的方法,其特征在于,对所述深度图像进行预处理包括:
去除所述深度图像中的背景信息;
和/或,
提取所述深度图像中的人体轮廓区域信息;
和/或,
对所述深度图像进行数据增强。
3.根据权利要求1所述的方法,其特征在于,在所述获取拍摄人体坐姿的深度图像之前,所述方法还包括:
获取坐姿识别的训练样本集,所述训练样本集中包含若干张坐姿样本图像与对应的标签信息,所述坐姿样本图像为深度图像,所述标签信息为坐姿的类别;
构建初始坐姿分类模型,所述初始坐姿分类模型的主体网络架构由残差网络构成;
从所述坐姿识别训练样本集中选取训练样本,并通过所述训练样本训练所述初始坐姿分类模型直至所述初始坐姿分类模型达到收敛,得到坐姿分类模型。
4.根据权利要求3所述的方法,其特征在于,所述标签信息包括:
正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头、正坐-微右歪头、左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背中的至少一种。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
采用One-hot一位有效编码对所述标签信息进行编码。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过数据增强扩大所述坐姿识别训练样本集,所述数据增强包括对所述坐姿样本图像进行裁剪、放缩、标准化和/或修改亮度、对比度和饱和度。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述根据所述初始坐姿分类信息通过交叉验证得到所述深度图像的坐姿分类结果之后,所述方法还包括:
判断所述坐姿分类结果属于有益坐姿或无益坐姿,所述有益坐姿包括正坐、正坐-微低头、正坐-微左转头、正坐-微右转头、正坐-微抬头、正坐-微左歪头和正坐-微右歪头,所述无益坐姿包括左歪头、右歪头、身体左倾、身体右倾、左手托腮、右手托腮、前倾、后仰和弯腰驼背;
当确定所述坐姿分类结果属于无益坐姿时,向用户发送坐姿纠正提示信息。
8.一种深度图像中人体坐姿识别的装置,其特征在于,所述装置包括:
获取单元,用于获取人体坐姿的深度图像;
预处理单元,用于对所述深度图像进行预处理;
输入单元,用于将预处理后的深度图像输入至训练完成的坐姿分类模型中,得到所述深度图像的初始坐姿分类信息,所述坐姿分类模型的网络基于残差网络搭建而成;
验证单元,用于根据所述初始坐姿分类信息通过交叉验证得到所述深度图像的坐姿最终分类结果。
9.一种台灯,其特征在于,所述台灯执行如权利要求1至7中任一项所述方法。
10.一种深度图像中人体坐姿识别的装置,其特征在于,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至7中任一项所述方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至7中任一项所述方法。
CN202210084883.3A 2022-01-25 2022-01-25 一种深度图像中人体坐姿识别的方法、装置及存储介质 Pending CN114582014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210084883.3A CN114582014A (zh) 2022-01-25 2022-01-25 一种深度图像中人体坐姿识别的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210084883.3A CN114582014A (zh) 2022-01-25 2022-01-25 一种深度图像中人体坐姿识别的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114582014A true CN114582014A (zh) 2022-06-03

Family

ID=81769774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210084883.3A Pending CN114582014A (zh) 2022-01-25 2022-01-25 一种深度图像中人体坐姿识别的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114582014A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117850579A (zh) * 2023-09-06 2024-04-09 山东依鲁光电科技有限公司 一种基于人体姿态的无接触控制系统与方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325166A (zh) * 2020-02-26 2020-06-23 南京工业大学 基于投影重构和多输入多输出神经网络的坐姿识别方法
CN111967376A (zh) * 2020-08-14 2020-11-20 上海大学 基于神经网络的位姿识别与检测方法
CN112364712A (zh) * 2020-10-21 2021-02-12 厦门大学 一种基于人体姿态的坐姿识别方法、系统及计算机可读存储介质
CN112989961A (zh) * 2021-02-22 2021-06-18 广州铁路职业技术学院(广州铁路机械学校) 一种坐姿识别方法及台灯

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325166A (zh) * 2020-02-26 2020-06-23 南京工业大学 基于投影重构和多输入多输出神经网络的坐姿识别方法
CN111967376A (zh) * 2020-08-14 2020-11-20 上海大学 基于神经网络的位姿识别与检测方法
CN112364712A (zh) * 2020-10-21 2021-02-12 厦门大学 一种基于人体姿态的坐姿识别方法、系统及计算机可读存储介质
CN112989961A (zh) * 2021-02-22 2021-06-18 广州铁路职业技术学院(广州铁路机械学校) 一种坐姿识别方法及台灯

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彭宜: "基于残差网络和随机森林的音频识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
曾星 等: "基于深度传感器的坐姿检测系统", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117850579A (zh) * 2023-09-06 2024-04-09 山东依鲁光电科技有限公司 一种基于人体姿态的无接触控制系统与方法

Similar Documents

Publication Publication Date Title
CN108305240B (zh) 图像质量检测方法及装置
CN108629753A (zh) 一种基于循环神经网络的人脸图像恢复方法及装置
CN112508094A (zh) 垃圾图片的识别方法、装置及设备
CN109359550B (zh) 基于深度学习技术的满文文档印章提取与去除方法
CN109522883A (zh) 一种人脸检测方法、系统、装置及存储介质
CN115424088A (zh) 图像处理模型训练方法以及装置
CN110046574A (zh) 基于深度学习的安全帽佩戴识别方法及设备
CN109670491A (zh) 鉴别人脸图像的方法、装置、设备和存储介质
CN112633221B (zh) 一种人脸方向的检测方法及相关装置
CN109559362B (zh) 一种图像主体脸部替换方法及装置
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN113011253A (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN113780249A (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN110689039A (zh) 一种基于四通道卷积神经网络的树干纹理识别方法
CN113269136B (zh) 一种基于triplet loss的离线签名验证方法
CN115761356A (zh) 图像识别方法、装置、电子设备和存储介质
CN116229528A (zh) 一种活体掌静脉检测方法、装置、设备及存储介质
KR101961462B1 (ko) 객체 인식 방법 및 장치
CN109522865A (zh) 一种基于深度神经网络的特征加权融合人脸识别方法
CN114582014A (zh) 一种深度图像中人体坐姿识别的方法、装置及存储介质
CN114004974A (zh) 对弱光环境下拍摄的图像的优化方法及装置
CN113177556A (zh) 一种文本图像增强模型、训练方法、增强方法及电子设备
CN114663965B (zh) 一种基于双阶段交替学习的人证比对方法和装置
CN117456529A (zh) 一种基于泛化因果学习的街景语义分割方法及设备
CN112487232A (zh) 人脸检索方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Qian

Inventor after: Liu Min

Inventor after: He Rongfeng

Inventor before: Wang Qian

Inventor before: Liu Min

Inventor before: He Rongfeng

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220603