CN113705440B - 一种面向教育机器人视觉理解的头部姿态估计方法及系统 - Google Patents

一种面向教育机器人视觉理解的头部姿态估计方法及系统 Download PDF

Info

Publication number
CN113705440B
CN113705440B CN202110994920.XA CN202110994920A CN113705440B CN 113705440 B CN113705440 B CN 113705440B CN 202110994920 A CN202110994920 A CN 202110994920A CN 113705440 B CN113705440 B CN 113705440B
Authority
CN
China
Prior art keywords
layer
head
attention mechanism
graph convolution
educational robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110994920.XA
Other languages
English (en)
Other versions
CN113705440A (zh
Inventor
刘海
张昭理
时振武
童宇航
吴远芳
李林峰
赵万里
张胜强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202110994920.XA priority Critical patent/CN113705440B/zh
Publication of CN113705440A publication Critical patent/CN113705440A/zh
Application granted granted Critical
Publication of CN113705440B publication Critical patent/CN113705440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种面向教育机器人视觉理解的头部姿态估计方法及系统。该方法包括步骤:分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令。本发明可以使教育机器人准确理解学习者的意图,促进精准化教学和个性化学习。

Description

一种面向教育机器人视觉理解的头部姿态估计方法及系统
技术领域
本发明属于模式识别与信息处理技术领域,更具体地,涉及一种面向教育机器人视觉理解的头部姿态估计方法及系统。
背景技术
学习者头部姿态估计是课堂教学环境下人与机器人交互中的一种重要手段。它是机器人视觉中的一个关键问题,是基于图像的行为识别的基础技术。头部姿态估计可广泛用于辅助驾驶、虚拟现实、人机交互、残疾人辅助等。由于低年龄儿童语言系统尚未发育完全,对于情感的表达更多是用于肢体,尤其是点头、摇头、注视等。伴随着近年来教育机器人的发展,头部姿态估计用于教育机器人场景的越来越多。头部姿态估计的难点在于:①头部是一个类似刚体,除面部外没有更多的细节辅助信息;②不同性别、年龄、民族的头部信息差异大;③不同远近尺度的信息变化大;④易受到学习环境光照变化的影响等。
传统的头部姿态估计方法大多是基于2D图像的卷积神经网络模型。该模型方法的基本流程为:①通过2D训练图片进入2D卷积处理,通过不断训练来更新卷积内的参数;②通过卷积层后,进入最大池化层和全局归一化层;③得出3个欧拉角,计算预测值与真实值的损失,进行反向传播;
但是,该类传统方法的局限性体现在两方面。首先,训练的图像都是2D图像,缺少三维空间信息,不能准确捕获离教育机器人较远的学习者的图像信息。其次,传统头部姿态估计方法的另一个局限就是学习环境的光照变化,光照过强或过弱,都会导致头部细节的丢失,有时还会产生阴影。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种面向教育机器人视觉理解的头部姿态估计方法及系统,可以使教育机器人准确理解学习者的意图,促进精准化教学和个性化学习。
为实现上述目的,按照本发明的第一方面,提供了一种面向教育机器人视觉理解的头部姿态估计方法,包括步骤:
分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;
分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;
分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;
根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令。
优选的,所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络,所述第一分支包括3D图卷积神经网络和全连接层,所述第二分支包括Resnet网络和全连接层;
所述第一分支用于从输入的所述3D点云数据中提取第一特征向量;
所述第二分支用于从输入的所述红外图像数据中提取第二特征向量;
所述concat拼接层用于对所述第一特征向量和所述第二特征向量进行拼接;
所述分类网络用于根据拼接后的特征向量输出头部姿态识别结果。
优选的,所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制;
所述第一注意力机制用于接收所述3D点云数据,产生全局注意信息并输入给所述第一层3D图卷积;
所述第一层3D图卷积用于提取特征信息并输出给所述第二注意力机制;
所述第二注意力机制用于产生精细化注意信息并输出给所述第二层3D图卷积;
所述第二层3D图卷积用于进一步提取特征信息并输出给所述第三注意力机制。
优选的,其特征在于,所述第一注意力机制、所述第二注意力机制、所述第三注意力机制均为8头部注意力机制,所述第二注意力机制和所述第三注意力机制分别将参数乘以各自权重系数加到所述第一注意力机制上,来调整全局的注意信息,所述第一层3D图卷积、所述第二层3D图卷积的参数共享。
优选的,所述分类网络包括3个连续的全连接层,这3个全连接层相互间也有连接。
优选的,所述头部姿态识别模型的训练包括步骤:
构建训练样本集和测试样本集;
利用训练样本集对所述头部姿态识别模型进行训练,将训练样本的预测头部姿态欧拉角与真实头部姿态欧拉角通过MSE损失函数来计算损失,使用Nadam优化器进行梯度优化,初始学习率设置为0.01,在几个epoch训练轮次之后通过余弦退火算法来降低学习率,使网络学习得更稳定,直到损失值不再下降为止;
利用测试样本集对所述头部姿态识别模型进行微调学习,学习率设置为5e-6。
优选的,所述确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令,包括步骤:
若识别到当前时刻的头部姿态与上一时刻的头部姿态变化超过预设角度阈值,则视为学习者发出动作指令,进一步判断该动作指令是否为预设动作指令之一,若是则生成所述教育机器人的控制指令。
按照本发明的第二方面,提供了一种面向教育机器人视觉理解的头部姿态估计系统,包括:
获取模块,用于分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;
预处理模块,用于分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;
识别模块,用于分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;
控制模块,用于根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令。
总体而言,本发明与现有技术相比,具有有益效果:
(1)因此,本发明引入3D扫描仪作为传感器,获取结构光数据,通过采集深度信息,有效应对尺度变化的影响。结构光对人体头部进行重建模,可以获取更多头部细节信息,增加姿态估计的准确性。
(2)在教育机器人平台上构建的红外相机传感器,可不受可见光的光照变化影响,保留更多细节。
(3)在实际的家庭教育场景中,各种影响因素非常复杂,光照影响、人机相对位置、其余干扰遮挡、多个学生主体选择等,两种模态的信息经过三层密集连接融合,相互辅助,极大的提高的姿态的识别准确率,可以对教育机器人做出更准确的行为指令。
附图说明
图1是本发明实施例的面向教育机器人视觉理解的头部姿态估计方法的流程图;
图2是本发明实施例的教育机器人结构及应用示意图;
图3是本发明实施例的头部姿态识别模型的网络示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明实施例的是一种面向教育机器人视觉理解的头部姿态估计方法,包括步骤:
步骤1:分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据。
具体地,如图2所示,可以通过固定在教育机器人身上的3D扫描仪和红外摄像机来捕获两种模态的人体头部姿态信息。
可以预设视觉捕获间隔时间,每隔预设时间触发3D扫描仪和红外摄像机采集3D点云数据和红外图像数据。
步骤2:分别对不同时刻的3D点云数据和红外图像数据进行预处理。
对两种模态的数据进行预处理,并对其进行扭曲、加入噪点、降低分辨率等方法进行数据增强。
数据增强对于神经网络的训练有至关重要的作用。在模型训练阶段,本发明针对头部姿势估计问题,采用的数据增强方法是:通过旋转、平移、尺度变换等方式,对红外图片进行样本增强;通过增加干扰点来增3D点云数据信息。以此增强模型的鲁棒性,同时,这些操作也为模型训练提供了大量伪造样本。
步骤3:分别将预处理后的不同时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型(SIFnet),获取不同时刻的头部姿态识别结果。
根据同一时刻的3D点云数据和红外图像数据确定该时刻的头部姿态。将上一时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型,就可以得到上一时刻的头部姿态识别结果。再将当前时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型,就可以得到当前时刻的头部姿态识别结果。
如图3所示,优选的,头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的分类网络,第一分支包括3D图卷积神经网络和全连接层,第二分支包括Resnet网络和全连接层;
第一分支用于从输入的3D点云数据中提取第一特征向量;
第二分支用于从输入的红外图像数据中提取第二特征向量;
concat拼接层用于对第一特征向量和第二特征向量进行拼接;
回归网络用于根据拼接后的特征向量输出头部姿态识别结果。
优选的,3D图卷积神经网络包括第一注意力机制(注意力机制C)、第一层3D图卷积、第二注意力机制(注意力机制A)、第二层3D图卷积和第三注意力机制(注意力机制B);
第一注意力机制用于接收3D点云数据,产生全局注意信息并输入给第一层3D图卷积;
第一层3D图卷积用于提取特征信息并输出给第二注意力机制;
第二注意力机制用于产生精细化注意信息并输出给第二层3D图卷积;
第二层3D图卷积用于进一步提取特征信息并输出给第三注意力机制。
第一注意力机制、第二注意力机制、第三注意力机制均为8头部注意力机制,第二注意力机制和第三注意力机制分别将参数乘以各自权重系数加到第一注意力机制上,来调整全局的注意信息,第一层3D图卷积、第二层3D图卷积的参数共享。
优选的,分类网络包括3个连续的全连接层,这3个全连接层相互间也有连接。
优选的,头部姿态识别模型的训练包括步骤:
构建训练样本集和测试样本集;
利用训练样本集对头部姿态识别模型进行训练,将训练样本的预测头部姿态欧拉角与真实头部姿态欧拉角通过MSE损失函数来计算损失,使用Nadam优化器进行梯度优化,初始学习率设置为0.01,在几个epoch训练轮次之后通过余弦退火算法来降低学习率,使网络学习得更稳定,直到损失值不再下降为止;
利用测试样本集对头部姿态识别模型进行微调学习,学习率设置为5e-6。
在一个实施例中,将3D点云数据进入3D图卷积神经网络,依次进入注意力机制C,第一层3D图卷积,注意力机制A,第二层3D图卷积,注意力机制B。所有注意力机制均为8头,注意力机制A和B会分别将参数乘以0.3和0.5加到注意力机制C上,两层3D图卷积的参数共享,之后再经过一层全连接层,输出为1×1024的tensor。通过KNN算法,对3D点云数据进行聚类,得到粗粒度的五官位置,以此作为初始权重附加给图神经网络。图神经网络的各个节点包括但不限于眉毛、眼睛、鼻子、嘴、耳朵。通过Resnet预训练网络对红外光图片进行特征提取,该模型有50层结构,输入为3×224×224的tensor,经过50层卷积块后,输出尺寸为2048×7×7的tensor,之后再经过一层全连接层,输出为1×1024的tensor。将两个tensor通过Pytorch框架中的concat函数进行拼接,输出为1×2048的tensor。然后,进行3个全连接层,经过第一层后,参数会加到第二层和第三层;经过第二层后,参数会加到第三层,实现三层的密集连接,最终输入3个欧拉角。具体训练步骤如下:
步骤(1):对3D点云信息进行3D图卷积处理,进入2次3D图卷积和3次注意力机制网络,作为神经网络的第一条分支;
步骤(2):将红外光图像送入Resnet50预训练网络,输出尺寸为7×7像素大小的特征图,作为神经网络的第二条分支;
步骤(3):将第一条网络分支和第二条网络分支进入2个不同的全连接层处理,变成1×n和1×m两个tensor;
步骤(4):将2个tensor用concat函数进行拼接;
步骤(5):将步骤4输出的tensor进入3个连续的全连接层,这3个全连接层之间也有相互连接;
步骤(6):通过最后的全连接层,输入头部姿态的三个欧拉角。
结构光信息提取的原理如下:
固定在教育机器人身上的3D扫描仪将扫描头部来获取头部的3D点云数据,然后进入两层3D图卷积层和三层注意力机制进行处理。注意力机制A和B通过注意不同的头部姿态细节,然后按权重α=0.5和β=0.3的配比附加到全局注意力机制C上,以获取更加精准的头部姿态注意力信息。其表示为:
Ac=Ac+αAa+βAb (公式1)
3D图卷积层的初始化:通过KNN聚类算法,获取粗粒度的眉毛、眼睛、鼻子、嘴、耳朵的各部分中心点,赋予较高权重,其余节点赋予较低权重。
将Rn M表示为图节点pn的接受场,M是其大小。N表示基于距离的pn的M个最近邻。
N(pn,M)=||pm-pn|| (公式3)
支持核心ks和它周围所有的临近节点pm的相似余弦表示为:
其中f(pm)为pm的D维特征向量,ω(ks)为ks的D维特征向量,sim为相似余弦符号。
点pn的接受场Rn M和第S个卷积核K的卷积操作表示为:
红外光信息提取的原理如下:
通过固定在教育机器人身上的红外光摄像机来捕获人体头部的红外信息。而后,进入预训练过的Resnet50网络,提取出该模态下头部姿态的主要信息。
模态拼接的原理如下:
将两种模态数据进行粗粒度特征提取后,分别进入两个不同的全连接层。然后,采取concat函数将两种tensor进行拼接。
密集连接的原理如下:
将拼接好的tensor进入密集连接层处理。密集连接层由三个连续的全连接层组成,三个全连接层之间也两两相互连接。最终输出当前头部姿态的3个欧拉角。
其中,Oj τ是全连接层的第j个神经元,w和b是全连接层的第j个神经元与上一层隐含层的连接参数;SELU是激活单元,其计算公式如下:
其中α和λ均为阈值系数。
步骤4:根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据动作指令生成教育机器人的控制指令。
预测对比:每15帧给出一个头部姿态识别输出值,将当前网络的输出值和上一时刻的输出值做减法,得出当前时刻的姿态变化。
指令反馈:当学生某个角度的姿态变化大于5度时,视为产生姿态变化。教育机器人根据该系统得出的用户交互指令,按预先设定做出反馈。例如:学生面部正对教育机器人3秒以上,视为唤醒机器人;学生左右摇头,视为否认选项;教育机器人播放有节奏的音乐,学生随音乐点头,判断学生节奏感等等。
本发明实施例的一种面向教育机器人视觉理解的头部姿态估计系统,包括:
获取模块,用于分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;
预处理模块,用于分别对不同时刻的3D点云数据和红外图像数据进行预处理;
识别模块,用于分别将预处理后的不同时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;
控制模块,用于根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据动作指令生成教育机器人的控制指令。
优选的,头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络,第一分支包括3D图卷积神经网络和全连接层,第二分支包括Resnet网络和全连接层;
第一分支用于从输入的3D点云数据中提取第一特征向量;
第二分支用于从输入的红外图像数据中提取第二特征向量;
concat拼接层用于对第一特征向量和第二特征向量进行拼接;
回归网络用于根据拼接后的特征向量输出头部姿态识别结果。
优选的,3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制;
第一注意力机制用于接收3D点云数据,产生全局注意信息并输入给第一层3D图卷积;
第一层3D图卷积用于提取特征信息并输出给第二注意力机制;
第二注意力机制用于产生精细化注意信息并输出给第二层3D图卷积;第二层3D图卷积用于进一步提取特征信息并输出给第三注意力机制系统的实现原理、技术效果与上述方法类似,此处不再赘述。
必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,包括步骤:
分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;
分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;
分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;
根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令;
所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络,所述第一分支包括3D图卷积神经网络和全连接层,所述第二分支包括Resnet网络和全连接层;
所述第一分支用于从输入的所述3D点云数据中提取第一特征向量;
所述第二分支用于从输入的所述红外图像数据中提取第二特征向量;
所述concat拼接层用于对所述第一特征向量和所述第二特征向量进行拼接;
所述回归网络用于根据拼接后的特征向量输出头部姿态识别结果。
2.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制;
所述第一注意力机制用于接收所述3D点云数据,产生全局注意信息并输入给所述第一层3D图卷积;
所述第一层3D图卷积用于提取特征信息并输出给所述第二注意力机制;
所述第二注意力机制用于产生精细化注意信息并输出给所述第二层3D图卷积;
所述第二层3D图卷积用于进一步提取特征信息并输出给所述第三注意力机制。
3.如权利要求2所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述第一注意力机制、所述第二注意力机制、所述第三注意力机制均为8头部注意力机制,所述第二注意力机制和所述第三注意力机制分别将参数乘以各自权重系数加到所述第一注意力机制上,来调整全局的注意信息,所述第一层3D图卷积、所述第二层3D图卷积的参数共享。
4.如权利要求2所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述回归网络包括3个连续的全连接层,这3个全连接层相互间也有连接。
5.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述头部姿态识别模型的训练包括步骤:
构建训练样本集和测试样本集;
利用训练样本集对所述头部姿态识别模型进行训练,将训练样本的预测头部姿态欧拉角与真实头部姿态欧拉角通过MSE损失函数来计算损失,使用Nadam优化器进行梯度优化,初始学习率设置为0.01,在几个epoch训练轮次之后通过余弦退火算法来降低学习率,使网络学习得更稳定,直到损失值不再下降为止;
利用测试样本集对所述头部姿态识别模型进行微调学习,学习率设置为5e-6。
6.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法,其特征在于,所述确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令,包括步骤:
若识别到当前时刻的头部姿态与上一时刻的头部姿态变化超过预设角度阈值,则视为学习者发出动作指令,进一步判断该动作指令是否为预设动作指令之一,若是则生成所述教育机器人的控制指令。
7.一种面向教育机器人视觉理解的头部姿态估计系统,其特征在于,包括:
获取模块,用于分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据;
预处理模块,用于分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理;
识别模块,用于分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型,获取不同时刻的头部姿态识别结果;
控制模块,用于根据不同时刻的头部姿态识别结果的变化,确定学习者的动作指令,根据所述动作指令生成所述教育机器人的控制指令;
所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络,所述第一分支包括3D图卷积神经网络和全连接层,所述第二分支包括Resnet网络和全连接层;
所述第一分支用于从输入的所述3D点云数据中提取第一特征向量;
所述第二分支用于从输入的所述红外图像数据中提取第二特征向量;
所述concat拼接层用于对所述第一特征向量和所述第二特征向量进行拼接;
所述回归网络用于根据拼接后的特征向量输出头部姿态识别结果。
8.如权利要求7所述的一种面向教育机器人视觉理解的头部姿态估计系统,其特征在于,所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制;
所述第一注意力机制用于接收所述3D点云数据,产生全局注意信息并输入给所述第一层3D图卷积;
所述第一层3D图卷积用于提取特征信息并输出给所述第二注意力机制;
所述第二注意力机制用于产生精细化注意信息并输出给所述第二层3D图卷积;
所述第二层3D图卷积用于进一步提取特征信息并输出给所述第三注意力机制。
CN202110994920.XA 2021-08-27 2021-08-27 一种面向教育机器人视觉理解的头部姿态估计方法及系统 Active CN113705440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110994920.XA CN113705440B (zh) 2021-08-27 2021-08-27 一种面向教育机器人视觉理解的头部姿态估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110994920.XA CN113705440B (zh) 2021-08-27 2021-08-27 一种面向教育机器人视觉理解的头部姿态估计方法及系统

Publications (2)

Publication Number Publication Date
CN113705440A CN113705440A (zh) 2021-11-26
CN113705440B true CN113705440B (zh) 2023-09-01

Family

ID=78655884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110994920.XA Active CN113705440B (zh) 2021-08-27 2021-08-27 一种面向教育机器人视觉理解的头部姿态估计方法及系统

Country Status (1)

Country Link
CN (1) CN113705440B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760809A (zh) * 2014-12-19 2016-07-13 联想(北京)有限公司 用于头部姿态估计的方法和设备
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN107909061A (zh) * 2017-12-07 2018-04-13 电子科技大学 一种基于不完备特征的头部姿态跟踪装置及方法
WO2018185104A1 (fr) * 2017-04-06 2018-10-11 B<>Com Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes
CN111414798A (zh) * 2019-02-03 2020-07-14 沈阳工业大学 基于rgb-d图像的头部姿态检测方法及系统
CN111444367A (zh) * 2020-03-24 2020-07-24 哈尔滨工程大学 一种基于全局与局部注意力机制的图像标题生成方法
CN112101219A (zh) * 2020-09-15 2020-12-18 济南大学 一种面向老年陪护机器人的意图理解方法和系统
CN112132058A (zh) * 2020-09-25 2020-12-25 山东大学 一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质
CN112149563A (zh) * 2020-09-23 2020-12-29 中科人工智能创新技术研究院(青岛)有限公司 一种注意力机制人体图像关键点姿态估计方法及系统
CN112289003A (zh) * 2020-10-23 2021-01-29 江铃汽车股份有限公司 疲劳驾驶不端驾驶行为监测方法及主动安全驾驶监控系统
CN112668480A (zh) * 2020-12-29 2021-04-16 上海高德威智能交通系统有限公司 头部姿态角检测方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760809A (zh) * 2014-12-19 2016-07-13 联想(北京)有限公司 用于头部姿态估计的方法和设备
WO2018185104A1 (fr) * 2017-04-06 2018-10-11 B<>Com Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN107909061A (zh) * 2017-12-07 2018-04-13 电子科技大学 一种基于不完备特征的头部姿态跟踪装置及方法
CN111414798A (zh) * 2019-02-03 2020-07-14 沈阳工业大学 基于rgb-d图像的头部姿态检测方法及系统
CN111444367A (zh) * 2020-03-24 2020-07-24 哈尔滨工程大学 一种基于全局与局部注意力机制的图像标题生成方法
CN112101219A (zh) * 2020-09-15 2020-12-18 济南大学 一种面向老年陪护机器人的意图理解方法和系统
CN112149563A (zh) * 2020-09-23 2020-12-29 中科人工智能创新技术研究院(青岛)有限公司 一种注意力机制人体图像关键点姿态估计方法及系统
CN112132058A (zh) * 2020-09-25 2020-12-25 山东大学 一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质
CN112289003A (zh) * 2020-10-23 2021-01-29 江铃汽车股份有限公司 疲劳驾驶不端驾驶行为监测方法及主动安全驾驶监控系统
CN112668480A (zh) * 2020-12-29 2021-04-16 上海高德威智能交通系统有限公司 头部姿态角检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Driver-car natural interaction method based on head-eye behaviors;Haojie Li;<2019 11th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC)>;全文 *

Also Published As

Publication number Publication date
CN113705440A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
He Research of a sign language translation system based on deep learning
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
Yu et al. A video, text, and speech-driven realistic 3-D virtual head for human–machine interface
WO2023284435A1 (zh) 生成动画的方法及装置
Botzheim et al. Human gesture recognition for robot partners by spiking neural network and classification learning
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
CN110473284A (zh) 一种基于深度学习的运动物体三维模型重建方法
CN112116589B (zh) 虚拟形象的评测方法、装置、设备及计算机可读存储介质
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
Lee et al. Visual thinking of neural networks: Interactive text to image synthesis
Zheng et al. Materobot: Material recognition in wearable robotics for people with visual impairments
CN113705440B (zh) 一种面向教育机器人视觉理解的头部姿态估计方法及系统
Wang et al. RNN-based human motion prediction via differential sequence representation
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Sasaki et al. Adaptive drawing behavior by visuomotor learning using recurrent neural networks
Zhu A face recognition system using ACO-BPNN model for optimizing the teaching management system
Ko et al. End-to-end learning of social behaviors for humanoid robots
CN110675311A (zh) 一种素描序约束下的素描生成的方法、装置及存储介质
Mocanu et al. Human activity recognition with convolution neural network using tiago robot
Dalla Libera et al. A new paradigm of humanoid robot motion programming based on touch interpretation
Sasaki et al. End-to-end visuomotor learning of drawing sequences using recurrent neural networks
CN111611852A (zh) 一种表情识别模型的训练方法、装置及设备
Truong et al. A Vision-based Hand-sign Language Teaching System using Deep Neural Network: Methodology and Experiments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant