CN108363978B - 采用深度学习和ukf的基于肢体语言的情感感知方法 - Google Patents

采用深度学习和ukf的基于肢体语言的情感感知方法 Download PDF

Info

Publication number
CN108363978B
CN108363978B CN201810144385.7A CN201810144385A CN108363978B CN 108363978 B CN108363978 B CN 108363978B CN 201810144385 A CN201810144385 A CN 201810144385A CN 108363978 B CN108363978 B CN 108363978B
Authority
CN
China
Prior art keywords
matrix
output
input
emotion
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810144385.7A
Other languages
English (en)
Other versions
CN108363978A (zh
Inventor
杜广龙
张爱玲
张博
刘彩冰
张平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810144385.7A priority Critical patent/CN108363978B/zh
Publication of CN108363978A publication Critical patent/CN108363978A/zh
Application granted granted Critical
Publication of CN108363978B publication Critical patent/CN108363978B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种采用深度学习和UKF的基于肢体语言的情感感知方法,包括以下步骤:采用Kinect监视进入Kinect工作区的人,然后实时计算人的骨骼点;使用无迹卡尔曼滤波估计骨架点的位置,计算由于跟踪误差和设备的噪声产生的测量误差;对静态的身体动作采用卷积神经网络的方法,对动态的身体动作采用双向长短期记忆条件随机域分析;将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别,识别八种情绪。基于肢体语言的情感感知具有以下优点:首先,肢体语言可以更容易地被传感器捕获;其次,基于情绪感知的身体语言噪音相对较小;第三,肢体语言较少欺骗性;第四,肢体动作的捕捉不会影响或干扰参与者的动作。

Description

采用深度学习和UKF的基于肢体语言的情感感知方法
技术领域
本发明涉及工业机器人示教技术领域,具体涉及一种采用深度学习和UKF的基于肢体语言的情感感知方法。
背景技术
如今,机器人总是用来代替人类完成重复的危险工作。随着计算机技术的进一步发展,情绪感知已成为机器人的新要求。人类希望机器人能够在交互过程中感知人类的情感并做出相应的反应。当人们互相交流时,他们通过观察语速、面部表情等多方面的细节来了解对方的情绪状态。传感器技术和深层学习算法的发展使得基于信息融合的情感感知成为可能。
情感感知的方法有:情绪感知的心电图(ECG)、面部表情、声音、文字和手势。心电图包含可靠的情绪信息。心电图方法被证明是有效的情绪感知。然而,这种方法需要特殊的装置,需要与人体直接接触。面部表情是传达情感的较明显的特征。通过面部表情,情绪可以得到一般性。但是如果人们的情绪不在脸上表现出来,这种方法是没有用的。在说话的过程中,声调和速度也能反映说话人的情感。此功能也用于情绪感知。当人们阅读时,文本也能表达作者的情感,因此本发明也是情感感知的途径之一。文本是书面交流中传达情感的一种有效方式,但人们并不经常使用文本进行面对面的交流。做手势也是表达情感的一种方式。例如通过全身运动来识别情绪的系统,识别和表达情绪。或者从手势中自动获取情感。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,结合肢体语言进行情绪感知的优势,提供一种采用深度学习和UKF的基于肢体语言的情感感知方法,该方法采用肢体语言进行情绪感知,使用肢体语言的情绪感知有以下好处:首先,肢体语言可以更容易地被传感器捕获,因为肢体运动往往更大;其次,基于情绪感知的身体语言噪音相对较小,考虑到面部表情,发音可能会影响面部表情,分析人的内在情感时,应消除发音的影响;第三,肢体语言较少欺骗性,如果你是一个职业演员,面部表情,声音可以控制,但总的来说,肢体语言更难控制;第四,肢体动作的捕捉不会影响或干扰参与者的动作,像演讲和面部表情这样的方法需要参与者故意表演。然而,捕捉肢体语言允许参与者做他们的日常工作,这是更现实的。
本发明的目的可以通过采取如下技术方案达到:
一种采用深度学习和UKF的基于肢体语言的情感感知方法,包括以下步骤:
S1、采用Kinect监视进入Kinect工作区的人,然后实时计算人的骨骼点;
S2、使用无迹卡尔曼滤波估计骨架点的位置,计算由于跟踪误差和设备噪声产生的测量误差;
S3、对静态的身体动作采用卷积神经网络的方法,将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别,识别人的情绪种类;
S4、对动态的身体动作采用双向长短期记忆条件随机域分析将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别,识别人的情绪种类。
进一步地,所述的情绪种类包括:愤怒、激动、焦虑、痛苦、抑郁、无助、怀疑、愤慨。
进一步地,所述的步骤S1中使用一个嵌入在Kinect中的应用程序接口来进行人体定位和跟踪,当人体进入机器人工作空间时,根据三维数据的特征检测人体,利用应用程序接口计算人体骨骼,从Kinect得到15个骨骼关节点,其中,15个骨骼关节点坐标称为Kinect协调。
进一步地,所述的步骤S1中采用卡尔曼滤波方法结合无迹变换来估计状态,无迹变换通过使用一组ε来确定任意随机变量的均值和方差,非线性跟踪系统可以表示如下:
Figure GDA0003333112170000031
其中xk是时刻k的状态,F是状态更新函数,H是观察函数,uk是过程噪声,nk是观测噪声,其中,卡尔曼滤波方法结合无迹变换通过以下过程实现:
S11、初始化状态:
Figure GDA0003333112170000032
S12、建立扩展矩阵:
Figure GDA0003333112170000033
上标
Figure GDA0003333112170000035
在应用状态转换函数后表示一个值;
S13、时间更新:
Figure GDA0003333112170000034
χk|k-1=f(χk-1)是应用于ε点χk-1的状态转换函数,生成一组新的ε点χk|k-1,估计的状态
Figure GDA0003333112170000041
和估计的协方差Pk|k-1是由χk|k-1给出的,
Figure GDA0003333112170000042
Qk表示系统噪声方差,假设观测函数yk|k-1=h(χk|k-1)生成第三组ε点,估计观测状态yk|k-1和估计观测协方差
Figure GDA0003333112170000043
为yk|k-1的加权样本统计量,
Figure GDA0003333112170000044
其中Rk是观测噪声方差;
S14、测量更新:
Figure GDA0003333112170000045
其中
Figure GDA0003333112170000046
是样本的χk|k-1和yk|k-1的协方差矩阵,Kk的互相关是卡尔曼增益,估计的状态和协方差如下:
Figure GDA0003333112170000047
进一步地,所述的步骤S2具体如下:
将骨架点从1到15进行编号,并规定除了数字1,其他点有父节点,让Pi,k,Pi+1,k成为点i,i+1在时间k相对于坐标Kinect的位置,Pi,k是Pi+1,k的父节点,t是采样间隔,其中,在时间k+1时,Pi+1的位置是:
Figure GDA0003333112170000048
其中T是平移矩阵,R是旋转矩阵。如果Pi,k+1可以计算点i在时间k+1的取值,那么可以计算点i+1在时间k+1的取值;
如果可以估计第一点在时间k+1的取值P1,k+1,则其他点在时间k+1的取值可以由公式(9)计算,因此,UKF的状态定义为
xk=[P1,k,v1,k,p2,k2,k,...,pi,ki,k,...,P15,k15,k] (10)
其中v1,k=[vx,vy,vz]是第一点的速度P1,k,θi,k是Pi,k+1相对于Pi+1,k+1的旋转角,
将x0轴的旋转φi,k定义为时间k中Pi的滚转,关于y0轴的旋转Γi,k作为俯仰和旋转ψi,k关于z0轴作为偏航,然后θi,k=[φi,ki,ki,k];
根据有限转动的欧拉定理,从欧拉角到四元数的转换是:
Figure GDA0003333112170000051
四个欧拉参数的约数为:
0qi,k 2+1qi,k 2+2qi,k 2+3qi,k 2=1 (12)
其中0qi,k是标量,(1qi,k2qi,k3qi,k)是向量,因此,从父帧到子帧的方向余弦矩阵R(θi,k)被表示为:
Figure GDA0003333112170000052
下标i表示点数,但不表示父-子关系,P1,k+1计算为
P1,k+1=P1,k+v1,k·t (14)
状态更新功能定义为公式(9)和公式(14),由于坐标X0Y0Z0的点的位置用Kinect测量,那么观测函数可以设置为
H=[1,0,1,0,...,1,0] (15)。
进一步地,所述的步骤S3具体如下:
提供多个局部滤波器卷积层形成多个输出矩阵,每个输出矩阵的大小N-m+1,形成数据表示形式的操作过程如下:
Figure GDA0003333112170000061
其中
Figure GDA0003333112170000062
l代表l卷积层,i代表权值为i卷积输出矩阵的值,j代表相应输出矩阵的数目,从左到右对应于0到N,N是指输出矩阵的卷积数,f是非线性函数;
在第一个过滤层的作用下,第一个输入层是输入项的输出矩阵,计算其第一个位置的结果
Figure GDA0003333112170000063
在平均汇聚层的作用下,其输入来自上层的卷积层,输出结果被用作下一卷积的输入层,平均水池用于通过局部均值来减小尺寸,
Figure GDA0003333112170000064
其中
Figure GDA0003333112170000065
表示池化后的局部对的输出项,其通过上层的大小的局部小矩阵获得,均值池过程是通过1/n的方阵和n*n的方阵的卷积函数来实现的。
进一步地,所述的步骤S3中在对输入卷积神经网络进行训练和测试之前,输入数据需要先进行预处理,数据采集处理将大小限制为4×4矩阵,骨架点的数量为15,每个骨架点与p=(px,py,pz)的坐标数据的维度为3,其中px表示x方向上的骨架点,py表示y方向上的骨架点,pz表示z方向上的骨架点。
进一步地,非线性函数f使用sigmoid函数。
进一步地,所述的步骤S4具体如下:
采用递归神经网络技术将连续N个收集动作的相应骨架点序列编码为矢量,并记录为hN,初始骨架点向量记录为h0
然后,递归神经网络将h0与第二骨架点向量组合以生成新的向量h1,然后h1继续与下一个骨架点矢量结合生成h2,依此类推,直到矢量hN,在获得矢量后,采用双向长短期记忆网络条件随机场算法来识别相关动作序列所代表的情绪;
当前输出是针对视频序列,当前输入以及之前的状态确定的,在更一般的情况下,假设一个给定的输入序列由下面的等式表示:x={x1,x2,...,xt,...,xT}在这个等式中,t代表第t帧,帧之和是T,得到下面的公式:
ht=σh(Wxhxt+Whhht-1+bh) (19)
其中ht表示隐藏层在第t帧的输出,Whh表示从输入层到隐藏层的权重矩阵,bh是来自隐藏层的权重矩阵,并且表示隐藏层的偏差,σh代表激活功能,最后,做出如下的表述:
yt=σy(Whoht+bo) (20)
其中yt是t-th序列的预测标签,Who是从隐藏层到输出的权重矩阵,bo是输出的偏差,σy是激活函数;
除了外部递归神经网络周期之外,LSTM环路网络还具有内部“LSTM单元”周期,环路网络本身的重量或相关的时间常数由在时间t时的第i个单元的忘记门
Figure GDA0003333112170000071
控制,:
Figure GDA0003333112170000072
其中xt是当前输入矢量,ht是由LSTM单元输出的当前隐藏层矢量,
Figure GDA0003333112170000073
Figure GDA0003333112170000074
分别是偏差、输入权重和遗忘门的循环权重,因此,LSTM单元的内部状态更新如下,其中有一个条件自环权重
Figure GDA0003333112170000075
Figure GDA0003333112170000076
其中bi、Ui,j和Wi,j分别是LSTM单元中遗忘门的偏置、输入权重和循环权重,外部输入门单元
Figure GDA0003333112170000077
等同于遗忘门,如下所示:
Figure GDA0003333112170000078
LSTM单元的输出
Figure GDA0003333112170000079
由输出门
Figure GDA00033331121700000710
来关闭:
Figure GDA00033331121700000711
其中bo、Uo和Wo分别是偏差、输入权重和遗忘门的循环权重,在这些变体中,选择使用单元状态
Figure GDA0003333112170000081
作为附加输入及其权重,并进入单元i的三个门;
假设LSTM中的当前帧前帧受下一帧,采用Bi-LSTM模型,该模型第一层是前向LSTM,第二层是后向LSTM,最终的输出计算按照下面的公式计算:
Figure GDA0003333112170000082
yt=σ(ht) (26)
其中
Figure GDA0003333112170000083
表示以x1到xT的序列作为输入的前向LSTM层的输出,
Figure GDA0003333112170000084
表示从xT到x1的序列的后向LSTM的输出,α和β指示前向LSTM和后向LSTM(α+β=1)的重要性,ht代表两个Softmax函数的元素和,yt是预测标签;
采用线性条件随机场,如果x=(x1,x2,...xn)表示观察到的输入数据序列,则y=(y1,y2,...,yn)表示状态序列。在给定输入序列的情况下,线性链的CRF模型定义状态序列的联合条件概率:
Figure GDA0003333112170000085
其中x表示数据序列,y表示标签序列,以y|s是与S中的顶点相关联的y个分量的集合;
假设特征fk和gk是给定和固定的,对于观察序列x中的每个位置i,将该|y|×|y|矩阵定义为随机变量Mi(x)=[Mi(y',y|x)]
Figure GDA0003333112170000086
其中ei是yi的边,vi是yi的顶点,,然后归一化分区函数Zθ(x)作为矩阵的(start,stop)乘积的输入:
Zθ(x)=(M1(x)M2(x)...Mn+1(x))start,stop (29)
使用这个符号,写入标签y序列的条件概率
Figure GDA0003333112170000091
其中y0=start同时yn+1=stop。
本发明相对于现有技术具有如下的优点及效果:
1)肢体语言可以更容易地被传感器捕获;
2)基于情绪感知的身体语言噪音相对较小;
3)肢体语言较少欺骗性;
4)肢体动作的捕捉不会影响或干扰参与者的动作。
附图说明
图1是本发明中采用深度学习和UKF的基于肢体语言的情感感知方法的工作流程图;
图2是人体的15个关节点图;
图3是从i到i+1的点的状态图;
图4是Bi-LSTM-CRF算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
目前情感感知的方法有:情绪感知的心电图(ECG)、面部表情、声音、文字和手势。心电图包含可靠的情绪信息。心电图方法被证明是有效的情绪感知。然而,这种方法需要特殊的装置,需要与人体直接接触。面部表情是传达情感的较明显的特征。通过面部表情,情绪可以得到一般性。但是如果人们的情绪不在脸上表现出来,这种方法是没有用的。在说话的过程中,声调和速度也能反映说话人的情感。此功能也用于情绪感知。当人们阅读时,文本也能表达作者的情感,因此本发明也是情感感知的途径之一。文本是书面交流中传达情感的一种有效方式,但人们并不经常使用文本进行面对面的交流。做手势也是表达情感的一种方式。例如通过全身运动来识别情绪的系统,识别和表达情绪。或者从手势中自动获取情感。本发明基于此提出了一种采用深度学习和UKF的基于肢体语言的情感感知方法,下面对其进行详细说明。
一种采用深度学习和UKF的基于肢体语言的情感感知方法主要通过一台Kinect装置捕捉动作和一台麦克风捕捉声音。具体步骤如下:
步骤S1、采用Kinect监视进入Kinect工作区的人,然后实时计算人的骨骼点。
使用一个嵌入在Kinect中的应用程序接口(API)来进行人体定位和跟踪。当人体进入机器人工作空间时,可以根据三维数据的特征检测人体,利用应用程序接口(API)计算人体骨骼。从Kinect可以得到骨骼关节点。图2展示了RGB图像中的15个骨架关节。从上到下,从左到右排列15个关节点。15个骨骼关节点坐标称为Kinect协调。
由于骨架的位置信号是随时间变化的,当遇到遮挡时它们是不明确的,所以需要自适应滤波器。
无迹变换通过使用一组ε来确定任意随机变量的均值和方差。无迹变换可以应用于卡尔曼滤波来估计状态。一般的非线性跟踪系统可以表示如下。
Figure GDA0003333112170000101
其中xk是时刻k的状态,F是状态更新函数,H是观察函数。uk是过程噪声,nk是观测噪声。卡尔曼滤波方法结合了无迹变换,通过以下过程实现。
(1)初始化状态:
Figure GDA0003333112170000111
(2)建立扩展矩阵:
Figure GDA0003333112170000112
上标
Figure GDA0003333112170000119
在应用状态转换函数后表示一个值。
(3)时间更新:
Figure GDA0003333112170000113
χk|k-1=f(χk-1)是应用于ε点χk-1的状态转换函数,生成一组新的ε点χk|k-1。估计的状态
Figure GDA0003333112170000114
和估计的协方差Pk|k-1是由χk|k-1给出的
Figure GDA0003333112170000115
Qk表示系统噪声方差。假设观测函数yk|k-1=h(χk|k-1)生成第三组ε点,估计观测状态yk|k-1和估计观测协方差
Figure GDA0003333112170000116
为yk|k-1的加权样本统计量。
Figure GDA0003333112170000117
其中Rk是观测噪声方差。
(4)测量更新:
Figure GDA0003333112170000118
其中
Figure GDA0003333112170000121
是样本的χk|k-1和yk|k-1的协方差矩阵,Kk的互相关是卡尔曼增益。
估计的状态和协方差如下:
Figure GDA0003333112170000122
步骤S2、使用无迹卡尔曼滤波(UKF)估计骨架点的位置,从而计算由于跟踪误差和设备的噪声产生的测量误差;
在步骤S1中,可以发现15个骨架点。在本步骤S2中,使用UKF估计骨架点。骨架点已编号从1到15。除了数字1,其他点有父节点(例如:点3的父节点是点2;点6的父节点是点2)。让Pi,k,Pi+1,k成为点i,i+1在时间k相对于坐标Kinect的位置,Pi,k是Pi+1,k的父节点。t是采样间隔。图3展示了在时间k和k+1时的位置Pi,Pi+1。其中,在时间k+1时,Pi+1的位置是:
Figure GDA0003333112170000123
其中T是平移矩阵,R是旋转矩阵。如果Pi,k+1可以计算在时间k+1,那么Pi+1,k+1可以计算。事实上,除了第一点外所有的点都有父点。如果可以估计第一点P1,k+1,则其他点可以由公式(9)计算。因此,UKF的状态可以定义为
xk=[P1,k,v1,k,p2,k2,k,...,pi,ki,k,...,P15,k15,k] (10)
其中v1,k=[vx,vy,vz]是第一点P1,k的速度,θi,k是Pi,k+1相对于Pi+1,k+1的旋转角。
将x0轴的旋转φi,k定义为时间k中Pi的滚转,关于y0轴的旋转Γi,k作为俯仰和旋转ψi,k关于z0轴作为偏航,然后θi,k=[φi,ki,ki,k]。根据有限转动的欧拉定理,从欧拉角到四元数的转换是:
Figure GDA0003333112170000124
四个欧拉参数的约数为:
0qi,k 2+1qi,k 2+2qi,k 2+3qi,k 2=1 (12)
其中0qi,k是标量,(1qi,k2qi,k3qi,k)是向量。因此,从父帧到子帧的方向余弦矩阵R(θi,k)被表示为:
Figure GDA0003333112170000131
下标i表示点数,但不表示父-子关系。可以了解父-子关系。P1,k+1可以计算为
P1,k+1=P1,k+v1,k·t (14)
状态更新功能可以定义为EQ(9)和公式(14)。由于坐标X0Y0Z0的点的位置可以用Kinect测量,那么观测函数可以设置为
H=[1,0,1,0,...,1,0] (15)。
步骤S3、对静态的身体动作采用卷积神经网络(CNN)的方法,将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别,识别八种情绪。
卷积神经网络(CNN)是一种深层学习网络,包括卷积层和池层。网络首先执行卷积过程,然后进行池过程。卷积过程的输出项作为池层的输入,再利用池层的结果作为下一个卷积层的输入等等。
从对生物视觉细胞局部感知的理解出发,卷积神经网络利用部分滤波器进行卷积,即输入项的局部子矩阵和局部滤波器用于内积运算,输出结果是卷积输出矩阵的相应值。为了形成一个更好的数据表示形式,提供多个局部滤波器卷积层形成多个输出矩阵,和每个输出矩阵的大小(N-m+1),详细的操作过程如下:
Figure GDA0003333112170000132
其中
Figure GDA0003333112170000133
l代表l卷积层,i代表权值为i卷积输出矩阵的值,j代表相应输出矩阵的数目。从左到右对应于0到N,N是指输出矩阵的卷积数。f是非线性函数,这里使用sigmoid函数。在第一个过滤层的作用下,第一个输入层是输入项的输出矩阵,计算其第一个位置的结果
Figure GDA0003333112170000141
CNN的合并层是一个进一步减小矩阵的维度,不破坏数据的内在联系的过程。池层可以用平均值来构造,也可以用最大值的方法构造。在这个实验中,使用了平均值结构,所以实验池也可以被称为平均池层。平均汇聚层的输入来自上层的卷积层,输出结果被用作下一卷积的输入层。平均水池用于通过局部均值来减小尺寸。
Figure GDA0003333112170000142
其中
Figure GDA0003333112170000143
表示池化后的局部对的输出项,其通过上层的大小的局部小矩阵获得。本实验中使用的均值池过程是通过1/n的方阵和n*n的方阵的卷积函数来实现的。
该方法使用Kinect实时检测人体骨骼,并通过骨架数据计算出人体的行为特征。在对输入卷积神经网络进行训练和测试之前,输入数据需要先进行预处理。数据采集处理将大小限制为4×4矩阵,骨架点的数量为15,每个骨架点与p=(px,py,pz)的坐标数据的维度为3,其中px表示x方向上的骨架点,py表示y方向上的骨架点,pz表示z方向上的骨架点。
在卷积神经网络的数据处理之后,数据被输入到Softmax分类器以分离数据。Softmax分类器是要映射到相应情感标签的信号。在训练中,信号通过卷积神经网络数据处理得到分类结果,并将标签数据与相应的计算出的相对误差进行比较。然后经过一定次数的训练,可以不断修改卷积窗卷积神经网络的权值,使得相对误差减小,最终趋于收敛。然后输入测试设置为测试网络分类。
步骤S4、对动态的身体动作采用双向长短期记忆条件随机域(Bi-LSTM-CRF)分析将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别,识别八种情绪。
本实施例采用递归神经网络(RNN)技术将连续动作(N个收集动作)的相应骨架点序列编码为矢量,并记录为hN。初始骨架点向量记录为h0。然后,RNN将h0与第二骨架点向量组合以生成新的向量h1。然后h1继续与下一个骨架点矢量结合生成h2,依此类推,直到矢量hN。在获得矢量后,本实施例采用双向长短期记忆网络条件随机场算法(Bi-LSTM-CRF)来识别相关动作序列所代表的情绪。
对于时间序列模型,递归神经网络的特点可以使模型更加方便。当前输出是针对视频序列,当前输入以及之前的状态确定的。在更一般的情况下,假设一个给定的输入序列由下面的等式表示:x={x1,x2,...,xt,...,xT}在这个等式中,t代表第t帧,帧之和是T。所以可以得到下面的公式:
ht=σh(Wxhxt+Whhht-1+bh) (19)
其中ht表示隐藏层在t,Wxh时的输出,Whh表示从输入层到隐藏层的权重矩阵,bh是来自隐藏层的权重矩阵,并且表示隐藏层的偏差,σh代表激活功能。最后,可以做出如下的表述:
yt=σy(Whoht+bo) (20)
其中yt是t-th序列的预测标签,Who是从隐藏层到输出的权重矩阵,bo是输出的偏差,σy是激活函数。
除了外部RNN周期之外,LSTM环路网络还具有内部“LSTM单元”周期(自循环)。因此,LSTM不会简单地将非线性元素应用于输入和循环单元格的转换。然而,环本身的重量(或相关的时间常数)由忘记门fi (t)(时间t和单元i)控制,并且权重由S形单元设置为0和1:
Figure GDA0003333112170000151
其中xt是当前输入矢量,ht是由LSTM单元输出的当前隐藏层矢量,
Figure GDA0003333112170000152
Figure GDA0003333112170000153
分别是偏差、输入权重和遗忘门的循环权重。因此,LSTM单元的内部状态更新如下,其中有一个条件自环权重
Figure GDA0003333112170000161
Figure GDA0003333112170000162
其中bi、Ui,j和Wi,j分别是LSTM单元中遗忘门的偏置、输入权重和循环权重。外部输入门单元
Figure GDA0003333112170000163
类似于遗忘门(使用sigmoid获得0和1之间的值),但具有其自己的参数。
Figure GDA0003333112170000164
LSTM单元的输出
Figure GDA0003333112170000165
也可以由输出门
Figure GDA0003333112170000166
(使用sigmoid单元作为门控制)来关闭:
Figure GDA0003333112170000167
其中bo、Uo和Wo分别是偏差、输入权重和遗忘门的循环权重。在这些变体中,可以选择使用单元状态
Figure GDA0003333112170000168
作为附加输入(及其权重),并进入单元i的三个门。这将需要三个附加参数,如果想了解更多关于LSTM的信息。
尽管LSTM可以捕获长期的序列信息,但它只考虑一个方向。这意味着LSTM中的当前帧只受当前状态的影响。希望加强这种双边关系。这意味着在处理当前帧时也考虑下一帧。Bi-LSTM适用于这种情况。Bi-LSTM模型如图4所示。第一层是前向LSTM,第二层是后向LSTM。最终的输出计算可以按照下面的公式计算:
Figure GDA0003333112170000169
yt=σ(ht) (26)
其中
Figure GDA00033331121700001610
表示以x1到xT的序列作为输入的前向LSTM层的输出,
Figure GDA00033331121700001611
表示从xT到x1的序列的后向LSTM的输出,α和β指示前向LSTM和后向LSTM(α+β=1)的重要性,ht代表两个Softmax函数的元素和,yt是预测标签。由于Bi-LSTM可以捕获更多的结构信息,所以它比单向LSTM具有更好的性能。
由Lafferty等人在2001年提出的条件随机场(CRF)。它结合最大熵模型和隐马尔可夫模型的特点,是一个无向图模型。近年来,在分割,标注和命名实体识别等任务中取得了较好的效果。条件随机场是一个典型的判别模型。它的联合概率可以写成一个多重潜在函数的形式。最常用的线性随机条件随机场是线性条件随机场。如果x=(x1,x2,...xn)表示观察到的输入数据序列,则y=(y1,y2,...,yn)表示状态序列。在给定输入序列的情况下,线性链的CRF模型定义状态序列的联合条件概率:
Figure GDA0003333112170000171
其中x表示数据序列,y表示标签序列,以y|s是与S中的顶点相关联的y个分量的集合。
假设特征fk和gk是给定和固定的。例如,如果单词gk是大写字母并且标签xi是“专有名词”,则布尔顶点特征可以是真的。对于观察序列x中的每个位置i,将该|y|×|y|矩阵定义为随机变量Mi(x)=[Mi(y',y|x)]
Figure GDA0003333112170000172
其中ei是yi的边,vi是yi的顶点,。然后归一化(分区函数)Zθ(x)是这些矩阵的(start,stop)乘积的输入:
Zθ(x)=(M1(x)M2(x)...Mn+1(x))start,stop (29)
使用这个符号,写入标签y序列的条件概率
Figure GDA0003333112170000173
其中y0=start同时yn+1=stop。
在本实施例中,使用Bi-LSTM-CRF分别分析了15个骨架点的运动序列。如图4所示,通过RNN提取一个骨架点的运动序列,然后利用Bi-LSTM对特征进行处理。输出结果由CRF优化。CRF更关注整个句子的局部特征的线性加权组合(通过特征模板扫描整个序列)。关键是CRF的模型是p(y|x,w),优化是一个y=(y1,y2,...,yn)的序列,而不是一个y_t在某个时刻,发现一个最高概率y=(y1,y2,...,yn)的序列使得y=(y1,y2,...,yn|x,w)是最高的。它计算一个联合概率。它优化了整个序列(最终目标),而不是每次最好的拼接。最后将CRF的输出结果融合到Softmax中得到最终的分类结果。
虽然不同的人生气的表现不同,比如有的人生气时跺脚,有些人生气敲桌子,但捕捉某人情绪的方法是通过对15个骨架点的分析。只要他的情绪表现在某个身体部位,本实施例方法就可以捕捉和分析他的情绪。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种采用深度学习和UKF的基于肢体语言的情感感知方法,其特征在于,包括以下步骤:
S1、采用Kinect监视进入Kinect工作区的人,然后实时计算人的骨骼点;
S2、使用无迹卡尔曼滤波估计骨架点的位置,计算由于跟踪误差和设备噪声产生的测量误差;
S3、对静态的身体动作采用卷积神经网络的方法,将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别,识别人的情绪种类;
S4、对动态的身体动作采用双向长短期记忆条件随机域分析将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别,识别人的情绪种类;
其中,所述的步骤S1中使用一个嵌入在Kinect中的应用程序接口来进行人体定位和跟踪,当人体进入机器人工作空间时,根据三维数据的特征检测人体,利用应用程序接口计算人体骨骼,从Kinect得到15个骨骼关节点,其中,15个骨骼关节点坐标称为Kinect协调;
其中,所述的步骤S1中采用卡尔曼滤波方法结合无迹变换来估计状态,无迹变换通过使用一组ε来确定任意随机变量的均值和方差,非线性跟踪系统表示如下:
Figure FDA0003479268670000011
其中xk是时刻k的状态,F是状态更新函数,H是观察函数,uk是过程噪声,nk是观测噪声,其中,卡尔曼滤波方法结合无迹变换通过以下过程实现:
S11、初始化状态:
Figure FDA0003479268670000021
S12、建立扩展矩阵:
Figure FDA0003479268670000022
上标
Figure FDA00034792686700000210
在应用状态转换函数后表示一个值;
S13、时间更新:
Figure FDA0003479268670000023
χk|k-1=f(χk-1)是应用于ε点χk-1的状态转换函数,生成一组新的ε点χk|k-1,估计的状态
Figure FDA0003479268670000024
和估计的协方差Pk|k-1是由χk|k-1给出的,
Figure FDA0003479268670000025
Qk表示系统噪声方差,假设观测函数yk|k-1=h(χk|k-1)生成第三组ε点,估计观测状态yk|k-1和估计观测协方差
Figure FDA0003479268670000026
为yk|k-1的加权样本统计量,
Figure FDA0003479268670000027
其中Rk是观测噪声方差;
S14、测量更新:
Figure FDA0003479268670000028
其中
Figure FDA0003479268670000029
是样本的χk|k-1和yk|k-1的协方差矩阵,Kk的互相关是卡尔曼增益,估计的状态和协方差如下:
Figure FDA0003479268670000031
2.根据权利要求1所述的采用深度学习和UKF的基于肢体语言的情感感知方法,其特征在于,所述的情绪种类包括:愤怒、激动、焦虑、痛苦、抑郁、无助、怀疑、愤慨。
3.根据权利要求1所述的采用深度学习和UKF的基于肢体语言的情感感知方法,其特征在于,所述的步骤S2具体如下:
将骨架点从1到15进行编号,并规定除了数字1,其他点有父节点,设Pi,k,Pi+1,k为点i,i+1在时间k相对于坐标Kinect的位置,Pi,k是Pi+1,k的父节点,t是采样间隔,其中,在时间k+1时,Pi+1的位置是:
Figure FDA0003479268670000032
其中T是平移矩阵,R是旋转矩阵,如果Pi,k+1可以计算点i在时间k+1的取值,那么可以计算点i+1在时间k+1的取值;
如果可以估计第一点在时间k+1的取值P1,k+1,则其他点在时间k+1的取值可以由公式(9)计算,因此,UKF的状态定义为
xk=[P1,k,v1,k,p2,k2,k,...,pi,ki,k,...,P15,k15,k] (10)
其中v1,k=[vx,vy,vz]是第一点P1,k的速度,θi,k是Pi,k+1相对于Pi+1,k+1的旋转角,
将Pi在时间k关于x0轴的旋转定义为φi,k,关于y0轴的旋转定义为Γi,k,关于z0轴的旋转定义为ψi,k,然后记θi,k=[φi,ki,ki,k];
根据有限转动的欧拉定理,从欧拉角到四元数的转换是:
Figure FDA0003479268670000033
四个欧拉参数的约数为:
0qi,k 2+1qi,k 2+2qi,k 2+3qi,k 2=1 (12)
其中0qi,k是标量,(1qi,k2qi,k3qi,k)是向量,因此,从父帧到子帧的方向余弦矩阵R(θi,k)被表示为:
Figure FDA0003479268670000041
下标i表示点数,但不表示父-子关系,P1,k+1计算为
P1,k+1=P1,k+v1,k·t (14)
状态更新功能定义为公式(9)和公式(14),由于坐标X0Y0Z0的点的位置用Kinect测量,那么观测函数设置为
H=[1,0,1,0,...,1,0] (15)。
4.根据权利要求3所述的采用深度学习和UKF的基于肢体语言的情感感知方法,其特征在于,所述的步骤S3具体如下:
提供多个局部滤波器卷积层形成多个输出矩阵,每个输出矩阵的大小N′-m+1,形成数据表示形式的操作过程如下:
Figure FDA0003479268670000042
其中l代表l卷积层,i代表权值为i卷积输出矩阵的值,j代表相应输出矩阵的数目,从左到右对应于0到N′,N′是指输出矩阵的卷积数,f是非线性函数;
在第一个过滤层的作用下,第一个输入层是输入项的输出矩阵,计算其第一个位置的结果
Figure FDA0003479268670000043
在平均汇聚层的作用下,其输入来自上层的卷积层,输出结果被用作下一卷积的输入层,平均水池用于通过局部均值来减小尺寸,
Figure DEST_PATH_IMAGE002
其中
Figure FDA0003479268670000052
表示池化后的局部对的输出项,其通过上层的大小的局部小矩阵获得,均值池过程是通过1/n的方阵和n*n的方阵的卷积函数来实现的。
5.根据权利要求4所述的采用深度学习和UKF的基于肢体语言的情感感知方法,其特征在于,所述的步骤S3中在对输入卷积神经网络进行训练和测试之前,输入数据需要先进行预处理,数据采集处理将大小限制为4×4矩阵,骨架点的数量为15,每个骨架点与p=(px,py,pz)的坐标数据的维度为3,其中px表示x方向上的骨架点,py表示y方向上的骨架点,pz表示z方向上的骨架点。
6.根据权利要求4所述的采用深度学习和UKF的基于肢体语言的情感感知方法,其特征在于,非线性函数f使用sigmoid函数。
7.根据权利要求4所述的采用深度学习和UKF的基于肢体语言的情感感知方法,其特征在于,所述的步骤S4具体如下:
采用递归神经网络技术将连续N个收集动作的相应骨架点序列编码为矢量,并记录为hN,初始骨架点向量记录为h0
然后,递归神经网络将h0与第二骨架点向量组合以生成新的向量h1,然后h1继续与下一个骨架点矢量结合生成h2,依此类推,直到矢量hN,在获得矢量后,采用双向长短期记忆网络条件随机场算法来识别相关动作序列所代表的情绪;
当前输出是针对视频序列,当前输入以及之前的状态确定的,在更一般的情况下,假设一个给定的输入序列由下面的等式表示:x={x1,x2,...,xt,...,xT}在这个等式中,t代表第t帧,帧之和是T,得到下面的公式:
ht=σh(Wxhxt+Whhht-1+bh) (19)
其中ht表示隐藏层在第t帧的输出,Whh表示从输入层到隐藏层的权重矩阵,bh是来自隐藏层的权重矩阵,并且表示隐藏层的偏差,σh代表激活功能,最后,做出如下的表述:
yt=σy(Whoht+bo) (20)
其中yt是t-th序列的预测标签,Who是从隐藏层到输出的权重矩阵,bo是输出的偏差,σy是激活函数;
除了外部递归神经网络周期之外,LSTM环路网络还具有内部“LSTM单元”周期,环路网络本身的重量或相关的时间常数由在时间t时的第i个单元的忘记门fi (t)控制,并且权重由S形单元设置为0和1:
Figure FDA0003479268670000061
其中xt是当前输入矢量,ht是由LSTM单元输出的当前隐藏层矢量,
Figure FDA0003479268670000062
Figure FDA0003479268670000063
分别是偏差、输入权重和遗忘门的循环权重,因此,LSTM单元的内部状态更新如下,其中有一个条件自环权重fi (t)
Figure FDA0003479268670000064
其中bi、Ui,j和Wi,j分别是LSTM单元中遗忘门的偏置、输入权重和循环权重,外部输入门单元
Figure FDA0003479268670000065
等同于遗忘门,如下所示:
Figure FDA0003479268670000066
LSTM单元的输出
Figure FDA0003479268670000067
由输出门
Figure FDA0003479268670000068
来关闭:
Figure FDA0003479268670000069
其中bo、Uo和Wo分别是偏差、输入权重和遗忘门的循环权重,在这些变体中,选择使用单元状态
Figure FDA00034792686700000610
作为附加输入及其权重,并进入单元i的三个门;
假设LSTM单元中的下一帧为当前帧,采用Bi-LSTM模型,该模型第一层是前向LSTM,第二层是后向LSTM,最终的输出计算按照下面的公式计算:
Figure FDA0003479268670000071
yt=σ(ht) (26)
其中
Figure FDA0003479268670000072
表示以x1到xT的序列作为输入的前向LSTM的输出,
Figure FDA0003479268670000073
表示从xT到x1的序列的后向LSTM的输出,α和β表示前向LSTM和后向LSTM的重要性,α+β=1,ht代表两个Softmax函数的元素和,yt是预测标签;
采用线性条件随机场,如果x=(x1,x2,...xn)表示观察到的输入数据序列,则y=(y1,y2,...,yn)表示状态序列,在给定输入序列的情况下,线性链的CRF模型定义状态序列的联合条件概率:
Figure FDA0003479268670000074
其中x表示数据序列,y表示标签序列,y|s是与S中的顶点相关联的y个分量的集合;
假设特征fk和gk是给定和固定的,对于观察序列x中的每个位置i,将|y|×|y|矩阵定义为随机变量Mi(x)=[Mi(y',y|x)]
Figure FDA0003479268670000075
其中ei是yi的边,vi是yi的顶点,然后归一化分区函数Zθ(x)作为矩阵的(start,stop)乘积的输入:
Zθ(x)=(M1(x)M2(x)...Mn+1(x))start,stop (29)
使用这个符号,写入标签y序列的条件概率
Figure FDA0003479268670000076
其中y0=start同时yn+1=stop。
CN201810144385.7A 2018-02-12 2018-02-12 采用深度学习和ukf的基于肢体语言的情感感知方法 Expired - Fee Related CN108363978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810144385.7A CN108363978B (zh) 2018-02-12 2018-02-12 采用深度学习和ukf的基于肢体语言的情感感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810144385.7A CN108363978B (zh) 2018-02-12 2018-02-12 采用深度学习和ukf的基于肢体语言的情感感知方法

Publications (2)

Publication Number Publication Date
CN108363978A CN108363978A (zh) 2018-08-03
CN108363978B true CN108363978B (zh) 2022-04-22

Family

ID=63006021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810144385.7A Expired - Fee Related CN108363978B (zh) 2018-02-12 2018-02-12 采用深度学习和ukf的基于肢体语言的情感感知方法

Country Status (1)

Country Link
CN (1) CN108363978B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034090A (zh) * 2018-08-07 2018-12-18 南通大学 一种基于肢体动作的情感识别系统及方法
CN109325103B (zh) * 2018-10-19 2020-12-04 北京大学 一种序列学习的动态标识符表示方法、装置及系统
CN109559332B (zh) * 2018-10-31 2021-06-18 浙江工业大学 一种结合双向LSTM和Itracker的视线跟踪方法
CN109522945B (zh) * 2018-10-31 2020-09-25 中国科学院深圳先进技术研究院 一种群体情感识别方法、装置、智能设备及存储介质
CN109350051B (zh) * 2018-11-28 2023-12-29 华南理工大学 用于精神状态评估与调节的头部可穿戴设备及其工作方法
CN109871893B (zh) * 2019-02-18 2020-10-16 清华大学 基于循环时域保持生成的行为预测方法和装置
CN109946731B (zh) * 2019-03-06 2022-06-10 东南大学 一种基于模糊自适应无迹卡尔曼滤波的车辆高可靠融合定位方法
CN109993068B (zh) * 2019-03-11 2023-07-21 华南理工大学 一种基于心率和面部特征的非接触式的人类情感识别方法
CN110210037B (zh) * 2019-06-12 2020-04-07 四川大学 面向循证医学领域的类别检测方法
CN110490901A (zh) * 2019-07-15 2019-11-22 武汉大学 抗姿态变化的行人检测跟踪方法
CN111079599B (zh) * 2019-12-06 2022-04-05 浙江工业大学 基于多特征融合cnn-blstm的人体复杂行为识别方法
CN111597881B (zh) * 2020-04-03 2022-04-05 浙江工业大学 基于数据分离多尺度特征结合的人体复杂行为识别方法
CN111597342B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种多任务意图分类方法、装置、设备及存储介质
CN111967354B (zh) * 2020-07-31 2023-07-21 华南理工大学 基于肢体和微表情的多模态特征的抑郁倾向识别方法
CN112101095B (zh) * 2020-08-02 2023-08-29 华南理工大学 基于语言和肢体特征的自杀和暴力倾向情感识别方法
CN112149613B (zh) * 2020-10-12 2024-01-05 萱闱(北京)生物科技有限公司 一种基于改进lstm模型的动作预估评定方法
CN113283978B (zh) * 2021-05-06 2024-05-10 北京思图场景数据科技服务有限公司 基于生物基础与行为特征及业务特征的金融风险评估方法
CN113486867B (zh) * 2021-09-07 2021-12-14 北京世纪好未来教育科技有限公司 人脸微表情识别方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708582A (zh) * 2012-05-08 2012-10-03 电子科技大学 一种面向异构拓扑的角色运动重定向方法
CN104778661A (zh) * 2014-01-10 2015-07-15 北京三星通信技术研究有限公司 在姿态估计中使用的骨架平滑方法和设备
CN105335696A (zh) * 2015-08-26 2016-02-17 湖南信息职业技术学院 一种基于3d异常步态行为检测识别的智能助老机器人及实现方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN107168538A (zh) * 2017-06-12 2017-09-15 华侨大学 一种基于肢体动作进行情感运算的3d校园导览方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652992B2 (en) * 2012-10-09 2017-05-16 Kc Holdings I Personalized avatar responsive to user physical state and context
US20170374498A1 (en) * 2016-04-29 2017-12-28 Shani Markus Generic software-based perception recorder, visualizer, and emotions data analyzer

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708582A (zh) * 2012-05-08 2012-10-03 电子科技大学 一种面向异构拓扑的角色运动重定向方法
CN104778661A (zh) * 2014-01-10 2015-07-15 北京三星通信技术研究有限公司 在姿态估计中使用的骨架平滑方法和设备
CN105335696A (zh) * 2015-08-26 2016-02-17 湖南信息职业技术学院 一种基于3d异常步态行为检测识别的智能助老机器人及实现方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN107168538A (zh) * 2017-06-12 2017-09-15 华侨大学 一种基于肢体动作进行情感运算的3d校园导览方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Markerless Kinect-Based Hand Tracking for Robot Teleoperation;Guanglong Du et al;《International Journal of Advanced Robotic Systems》;20121231;第9卷(第36期);1-10 *

Also Published As

Publication number Publication date
CN108363978A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363978B (zh) 采用深度学习和ukf的基于肢体语言的情感感知方法
Qi et al. Multi-sensor guided hand gesture recognition for a teleoperated robot using a recurrent neural network
Park et al. A depth camera-based human activity recognition via deep learning recurrent neural network for health and social care services
Calinon et al. Learning of gestures by imitation in a humanoid robot
De et al. Recognition of human behavior for assisted living using dictionary learning approach
Jain et al. Deep neural learning techniques with long short-term memory for gesture recognition
Fang et al. Gait neural network for human-exoskeleton interaction
CN112418166B (zh) 一种基于多模态信息的情感分布学习方法
CN111523559A (zh) 一种基于多特征融合的异常行为检测方法
Chen et al. Real-time multi-modal human–robot collaboration using gestures and speech
How et al. Behavior recognition for humanoid robots using long short-term memory
Prakash et al. A novel convolutional neural network with gated recurrent unit for automated speech emotion recognition and classification
Sharma et al. Trbaggboost: An ensemble-based transfer learning method applied to Indian Sign Language recognition
CN111709284A (zh) 基于cnn-lstm的舞蹈情感识别方法
Palmeri et al. Sign languages recognition based on neural network architecture
Vaijayanthi et al. Human Emotion Recognition from Body Posture with Machine Learning Techniques
Sekar et al. Semantic-based visual emotion recognition in videos-a transfer learning approach
Mithil et al. An interactive voice controlled humanoid smart home prototype using concepts of natural language processing and machine learning
CN112101094B (zh) 一种基于肢体语言的自杀风险评估方法
Lee et al. Facial feature extraction using an active appearance model on the iPhone
Prasath Design of an integrated learning approach to assist real-time deaf application using voice recognition system
Krishnan et al. Gesture recognizer and communicator using flex sensors and accelerometer with logistic regression
Senanayaka et al. Continuous American Sign Language Recognition Using Computer Vision And Deep Learning Technologies
Pradeep et al. Advancement Of Sign Language Recognition Through Technology Using Python And OpenCV
Hisham et al. ESMAANI: A Static and Dynamic Arabic Sign Language Recognition System Based on Machine and Deep Learning Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220422