CN110929762A - 一种基于深度学习的肢体语言检测与行为分析方法及系统 - Google Patents

一种基于深度学习的肢体语言检测与行为分析方法及系统 Download PDF

Info

Publication number
CN110929762A
CN110929762A CN201911048238.0A CN201911048238A CN110929762A CN 110929762 A CN110929762 A CN 110929762A CN 201911048238 A CN201911048238 A CN 201911048238A CN 110929762 A CN110929762 A CN 110929762A
Authority
CN
China
Prior art keywords
layer
training
data
image
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911048238.0A
Other languages
English (en)
Other versions
CN110929762B (zh
Inventor
唐云飞
辛淼
程健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences
Institute of Automation of Chinese Academy of Science
Original Assignee
Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences, Institute of Automation of Chinese Academy of Science filed Critical Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences
Priority to CN201911048238.0A priority Critical patent/CN110929762B/zh
Publication of CN110929762A publication Critical patent/CN110929762A/zh
Application granted granted Critical
Publication of CN110929762B publication Critical patent/CN110929762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于深度学习的肢体语言检测与行为分析方法及系统。通过对目标的行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集。后使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型,其次使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。上述过程使得本发明拥有较强的主动学习能力,并不断优化数据库,使得准确率能够随着识别次数的增加不断提升。

Description

一种基于深度学习的肢体语言检测与行为分析方法及系统
技术领域
本发明涉及一种基于深度学习的肢体语言检测与行为分析方法,属于生物肢体语言检测与行为分析领域。
背景技术
现代社会经济飞速发展带来的不仅是生活水平的提高,还有人与人之间沟通的减少以及家庭问题的激增进而引发离婚率逐年攀升,这些问题背后隐藏了一个日益激化的矛盾,即高速经济增长下,个人的情感诉求得不到满足的问题逐渐影响着整个社会,家庭的和谐。因此,如果可以通过技术手段及时准确地发现伴侣或孩子或者同伴(不限于人) 的异常行为,判断其情绪状态,获得其情感或物质诉求,在生活中辅助交际,势必能增加人与人之间的了解,甚至如果你的同伴是一只宠物,那么也可以通过这种技术来理解它的行为,甚至此技术可用于案件侦破,辅助测谎等。
传统的肢体语言检测通常停留在特征识别的表象阶段,通常需要对象做出明显符合数据库的特征动作才能判断准确,当对象的动作微小或与数据库不明显时,系统无法准确识别,也无法对未能识别的特征进行自我学习优化,导致上述肢体语言检测具有较大的局限性。
发明内容
发明目的:提供一种基于深度学习的肢体语言检测与行为分析方法,以解决现有技术存在的上述不足。进一步目的是提供一种实现上述方法的系统。
技术方案:一种基于深度学习的肢体语言检测与行为分析方法,包括以下步骤:
步骤1、制作训练集:对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集;
步骤2、肢体语言检测及行为分析:通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务;
步骤3、行为应对指导:抓取网络数据,在前一步检测结果的基础上,根据网络上的最优方案给予指导意见。
在进一步的实施例中,所述步骤1进一步包括:
步骤1-1、对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;
步骤1-2、使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型;
步骤1-3、使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。
在进一步的实施例中,所述步骤1-1进一步包括:
提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
Figure BDA0002254655340000021
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,1],R(ω)表示期望风险。
在进一步的实施例中,所述步骤1-2进一步包括:
将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLc,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLc、锐化图像YLR以0.8:0.9:1.1的比率混合形成多通道图像Ym
将图片和视频帧数据通过卷积运算分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
Figure BDA0002254655340000031
式中,Fc2表示第一层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子,其余符号含义同上;
构造超分辨重构模型,采用均方误差作为损失函数:
Figure BDA0002254655340000062
式中,
Figure BDA0002254655340000038
表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数。
在进一步的实施例中,所述步骤1-3进一步包括:
使用LSTM结构输出序列S:
Figure BDA0002254655340000033
式中,A表示状态转移概率矩阵,
Figure BDA0002254655340000039
表示A从状态yi转移到状态yi+1所需要的状态转移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h(t)表示深度神经网络上一层时刻t输入数据时的隐藏状态;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
Figure BDA0002254655340000034
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差,
Figure BDA0002254655340000035
表示学习率;
对能量函数进行激活概率计算:
Figure BDA0002254655340000036
Figure BDA0002254655340000037
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
Figure BDA0002254655340000041
式中,
Figure BDA0002254655340000042
表示模型的期望,
Figure BDA0002254655340000043
表示数据的期望。
在进一步的实施例中,所述步骤2进一步包括:
通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的模型比对,对每个像素点上使用差分算子为(-1,0,1)在垂直和水平放行进行运算,计算其梯度值和梯度方向:
梯度方向:
Figure BDA0002254655340000044
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度,
Figure BDA0002254655340000045
表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
Figure BDA0002254655340000046
式中,f(x+1,y)表示y方向不变,x方向累加一个像素点的图像函数,f(x,y+1)表示x方向不变,y方向累加一个像素点的图像函数,其它含义同上。
在进一步的实施例中,所述步骤3进一步包括:
将步骤2中的结果与步骤1中训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将该输出序列记录在数据集中并做好标记。
一种基于深度学习的肢体语言检测与行为分析方法,包括以下模块:
用于对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集的数据获取模块;
通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务的数据实时检测模块;
使用CNN训练图片及视频帧数据、使用LSTM训练语音数据,最后将两个模型进行集成训练的结果反馈模块;
抓取网络数据,在CNN训练和LSTM训练的基础上,根据网络上的最优方案给予指导意见的指导意见模块。
在进一步的实施例中,所述数据获取模块进一步对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型;使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力;提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
Figure BDA0002254655340000051
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,1],R(ω)表示期望风险;
所述数据实时检测模块进一步通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的模型比对,对每个像素点上使用差分算子为(-1,0,1) 在垂直和水平放行进行运算,计算其梯度值和梯度方向:
梯度方向:
Figure BDA0002254655340000052
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度,
Figure BDA0002254655340000053
表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
Figure BDA0002254655340000054
式中,f(x+1,y)表示y方向不变,x方向累加一个像素点的图像函数,f(x,y+1)表示x方向不变,y方向累加一个像素点的图像函数,其它含义同上;
所述结果反馈模块进一步使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型:
将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLc,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLc、锐化图像YLR以0.8:0.9:1.1的比率混合形成多通道图像Ym
将图片和视频帧数据通过卷积运算分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
Figure BDA0002254655340000061
式中,Fc2表示第一层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子,其余符号含义同上;
构造超分辨重构模型,采用均方误差作为损失函数:
Figure BDA0002254655340000062
式中,
Figure BDA0002254655340000063
表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数;
使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力:
使用LSTM结构输出序列S:
Figure BDA0002254655340000064
式中,A表示状态转移概率矩阵,
Figure BDA0002254655340000065
表示A从状态yi转移到状态yi+1所需要的状态转移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h(t)表示深度神经网络上一层时刻t输入数据时的隐藏状态;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
Figure BDA0002254655340000071
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差,
Figure BDA0002254655340000072
表示学习率;
对能量函数进行激活概率计算:
Figure BDA0002254655340000073
Figure BDA0002254655340000074
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
Figure BDA0002254655340000075
式中,
Figure BDA0002254655340000076
表示模型的期望,
Figure BDA0002254655340000077
表示数据的期望;
所述指导意见模块进一步将结果反馈模块的结果与训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将该输出序列记录在数据集中并做好标记。
有益效果:本发明提出了一种基于深度学习的肢体语言检测与行为分析方法及系统。对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,尽量丰富数据集,予以标注后制作成训练集,标注时注意标签对数据的描述要到位,另外标签划分的合理性也十分重要。后使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型,其次使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。上述过程使得本发明拥有较强的主动学习能力,并不断优化数据库,使得准确率能够随着识别次数的增加不断提升。
附图说明
图1为本发明的流程图。
图2为本发明中丰富数据集的流程图。
图3为本发明中使用LSTM训练语音数据的流程图。
具体实施方式
申请人认为,传统的肢体语言检测通常停留在特征识别的表象阶段,通常需要对象做出明显符合数据库的特征动作才能判断准确,当对象的动作微小或与数据库不明显时,系统无法准确识别,也无法对未能识别的特征进行自我学习优化,导致上述肢体语言检测具有较大的局限性,故无法用于案件侦破,辅助测谎等特殊场景。
为此,本发明提出了一种基于深度学习的肢体语言检测与行为分析方法,对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,尽量丰富数据集,予以标注后制作成训练集,标注时注意标签对数据的描述要到位,另外标签划分的合理性也十分重要。后使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型,其次使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。
下面通过实施例,并结合相应附图,对本发明的技术方案做进一步说明。
一种基于深度学习的肢体语言检测与行为分析方法,主要包括制作训练集、肢体语言检测及行为分析、以及行为应对指导三个步骤。为实现上述步骤,本系统提供了以下模块:用于对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集的数据获取模块;通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务的数据实时检测模块;使用CNN训练图片及视频帧数据、使用LSTM训练语音数据,最后将两个模型进行集成训练的结果反馈模块;以及抓取网络数据,在CNN训练和LSTM训练的基础上,根据网络上的最优方案给予指导意见的指导意见模块。
首先由数据获取模块制作训练集,具体过程如下:数据获取模块对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集。更为具体的,首先对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
Figure BDA0002254655340000091
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,1],R(ω)表示期望风险。
随后,结果反馈模块使用CNN训练图片及视频帧数据、使用LSTM训练语音数据,最后将两个模型进行集成训练,具体过程如下:使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型;将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLc,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLc、锐化图像YLR以0.8:0.9:1.1的比率混合形成多通道图像Ym
将图片和视频帧数据通过卷积运算分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
Figure BDA0002254655340000092
式中,Fc2表示第一层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子,其余符号含义同上;
构造超分辨重构模型,采用均方误差作为损失函数:
Figure BDA0002254655340000101
式中,
Figure BDA0002254655340000102
表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数。
使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。使用LSTM结构输出序列S:
Figure BDA0002254655340000103
式中,A表示状态转移概率矩阵,
Figure BDA0002254655340000108
表示A从状态yi转移到状态yi+1所需要的状态转移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h(t)表示深度神经网络上一层时刻t输入数据时的隐藏状态;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
Figure BDA0002254655340000104
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差,
Figure BDA0002254655340000105
表示学习率;
对能量函数进行激活概率计算:
Figure BDA0002254655340000106
Figure BDA0002254655340000107
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
Figure BDA0002254655340000111
式中,
Figure BDA0002254655340000112
表示模型的期望,
Figure BDA0002254655340000113
表示数据的期望。
接着,实时检测模块对肢体语言进行检测,对行为进行分析,具体如下:通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务。通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的模型比对,对每个像素点上使用差分算子为(-1,0,1)在垂直和水平放行进行运算,计算其梯度值和梯度方向:
梯度方向:
Figure BDA0002254655340000114
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度,
Figure BDA0002254655340000115
表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
Figure BDA0002254655340000116
式中,f(x+1,y)表示y方向不变,x方向累加一个像素点的图像函数,f(x,y+1)表示x方向不变,y方向累加一个像素点的图像函数,其它含义同上。
最后由指导意见模块对行为应对进行指导:指导意见模块抓取网络数据,在前一步检测结果的基础上,根据网络上的最优方案给予指导意见,将结果反馈模块的结果与训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将该输出序列记录在数据集中并做好标记。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (9)

1.一种基于深度学习的肢体语言检测与行为分析方法,其特征是包括以下步骤:
步骤1、制作训练集:对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集;
步骤2、肢体语言检测及行为分析:通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务;
步骤3、行为应对指导:抓取网络数据,在前一步检测结果的基础上,根据网络上的最优方案给予指导意见。
2.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1进一步包括:
步骤1-1、对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;
步骤1-2、使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型;
步骤1-3、使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。
3.根据权利要求2所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-1进一步包括:
提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
Figure FDA0002254655330000011
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,1],R(ω)表示期望风险。
4.根据权利要求2所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-2进一步包括:
将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLC,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLC、锐化图像YLR以0.8∶0.9∶1.1的比率混合形成多通道图像Ym
将图片和视频帧数据通过卷积运算分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
Figure FDA0002254655330000021
式中,Fc2表示第一层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子,其余符号含义同上;
构造超分辨重构模型,采用均方误差作为损失函数:
Figure FDA0002254655330000022
式中,
Figure FDA0002254655330000023
表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数。
5.根据权利要求2所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-3进一步包括:
使用LSTM结构输出序列S:
Figure FDA0002254655330000024
式中,A表示状态转移概率矩阵,
Figure FDA0002254655330000025
表示A从状态yi转移到状态yi+1所需要的状态转移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h(t)表示深度神经网络上一层时刻t输入数据时的隐藏状态;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
Figure FDA0002254655330000031
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差,
Figure FDA0002254655330000032
表示学习率;
对能量函数进行激活概率计算:
Figure FDA0002254655330000033
Figure FDA0002254655330000034
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
Figure FDA0002254655330000035
式中,
Figure FDA0002254655330000036
表示模型的期望,
Figure FDA0002254655330000037
表示数据的期望。
6.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤2进一步包括:
通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的模型比对,对每个像素点上使用差分算子为(-1,0,1)在垂直和水平放行进行运算,计算其梯度值和梯度方向:
梯度方向:
Figure FDA0002254655330000038
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度,
Figure FDA0002254655330000039
表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
Figure FDA0002254655330000041
式中,f(x+1,y)表示y方向不变,x方向累加一个像素点的图像函数,f(x,y+1)表示x方向不变,y方向累加一个像素点的图像函数,其它含义同上。
7.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤3进一步包括:
将步骤2中的结果与步骤1中训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将该输出序列记录在数据集中并做好标记。
8.一种基于深度学习的肢体语言检测与行为分析方法,其特征是包括以下模块:
用于对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集的数据获取模块;
通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务的数据实时检测模块;
使用CNN训练图片及视频帧数据、使用LSTM训练语音数据,最后将两个模型进行集成训练的结果反馈模块;
抓取网络数据,在CNN训练和LSTM训练的基础上,根据网络上的最优方案给予指导意见的指导意见模块。
9.根据权利要求8所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于:
所述数据获取模块进一步对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型;使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力;提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
Figure FDA0002254655330000042
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,1],R(ω)表示期望风险;
所述数据实时检测模块进一步通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的模型比对,对每个像素点上使用差分算子为(-1,0,1)在垂直和水平放行进行运算,计算其梯度值和梯度方向:
梯度方向:
Figure FDA0002254655330000051
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度,
Figure FDA0002254655330000052
表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
Figure FDA0002254655330000053
式中,f(x+1,y)表示y方向不变,x方向累加一个像素点的图像函数,f(x,y+1)表示x方向不变,y方向累加一个像素点的图像函数,其它含义同上;
所述结果反馈模块进一步使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型:
将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLC,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLC、锐化图像YLR以0.8∶0.9∶1.1的比率混合形成多通道图像Ym
将图片和视频帧数据通过卷积运算分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
Figure FDA0002254655330000061
式中,Fc2表示第一层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子,其余符号含义同上;
构造超分辨重构模型,采用均方误差作为损失函数:
Figure FDA0002254655330000062
式中,
Figure FDA0002254655330000063
表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数;
使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力:
使用LSTM结构输出序列S:
Figure FDA0002254655330000064
式中,A表示状态转移概率矩阵,
Figure FDA0002254655330000065
表示A从状态yi转移到状态yi+1所需要的状态转移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h(t)表示深度神经网络上一层时刻t输入数据时的隐藏状态;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
Figure FDA0002254655330000066
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差,
Figure FDA0002254655330000067
表示学习率;
对能量函数进行激活概率计算:
Figure FDA0002254655330000068
Figure FDA0002254655330000071
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
Figure FDA0002254655330000072
式中,
Figure FDA0002254655330000073
表示模型的期望,
Figure FDA0002254655330000074
表示数据的期望;
所述指导意见模块进一步将结果反馈模块的结果与训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将该输出序列记录在数据集中并做好标记。
CN201911048238.0A 2019-10-30 2019-10-30 一种基于深度学习的肢体语言检测与行为分析方法及系统 Active CN110929762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911048238.0A CN110929762B (zh) 2019-10-30 2019-10-30 一种基于深度学习的肢体语言检测与行为分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911048238.0A CN110929762B (zh) 2019-10-30 2019-10-30 一种基于深度学习的肢体语言检测与行为分析方法及系统

Publications (2)

Publication Number Publication Date
CN110929762A true CN110929762A (zh) 2020-03-27
CN110929762B CN110929762B (zh) 2023-05-12

Family

ID=69850005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911048238.0A Active CN110929762B (zh) 2019-10-30 2019-10-30 一种基于深度学习的肢体语言检测与行为分析方法及系统

Country Status (1)

Country Link
CN (1) CN110929762B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460978A (zh) * 2020-03-30 2020-07-28 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于动作判定传感器和深度学习技术的幼儿行为监控系统及其判定方法
CN112329648A (zh) * 2020-11-09 2021-02-05 东北大学 基于面部表情交互的人际关系行为模式识别方法
CN112785506A (zh) * 2021-02-25 2021-05-11 北京中科深智科技有限公司 一种针对实时视频流的图像超分辨率重建方法、装置
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460978A (zh) * 2020-03-30 2020-07-28 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于动作判定传感器和深度学习技术的幼儿行为监控系统及其判定方法
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
CN112329648A (zh) * 2020-11-09 2021-02-05 东北大学 基于面部表情交互的人际关系行为模式识别方法
CN112329648B (zh) * 2020-11-09 2023-08-08 东北大学 基于面部表情交互的人际关系行为模式识别方法
CN112785506A (zh) * 2021-02-25 2021-05-11 北京中科深智科技有限公司 一种针对实时视频流的图像超分辨率重建方法、装置

Also Published As

Publication number Publication date
CN110929762B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN110516571B (zh) 基于光流注意力神经网络的跨库微表情识别方法及装置
CN110929762A (zh) 一种基于深度学习的肢体语言检测与行为分析方法及系统
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN108256482B (zh) 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN107967456A (zh) 一种基于人脸关键点的多神经网络级联识别人脸方法
CN109064454A (zh) 产品缺陷检测方法及系统
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN110427881B (zh) 基于人脸局部区域特征学习的跨库微表情识别方法及装置
CN114038037B (zh) 基于可分离残差注意力网络的表情标签修正和识别方法
CN112381788A (zh) 一种基于双分支匹配网络的零部件表面缺陷增量检测方法
CN113657168B (zh) 基于卷积神经网络的学生学习情绪的识别方法
CN111199202A (zh) 基于循环注意力网络的人体动作识别方法及识别装置
CN113283438A (zh) 基于多源显著性和时空榜样适配的弱监督视频目标分割方法
CN111723239A (zh) 一种基于多模态的视频标注方法
CN113392781A (zh) 一种基于图神经网络的视频情感语义分析方法
CN112668486A (zh) 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体
Takimoto et al. Image aesthetics assessment based on multi-stream CNN architecture and saliency features
CN113449671A (zh) 一种多尺度多特征融合的行人重识别方法及装置
CN114821742A (zh) 一种实时识别儿童或青少年面部表情的方法和装置
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
Unkule et al. CNN based Approach for Sign Recognition in the Indian Sign language
CN111160428A (zh) 基于cnn-svm算法蔬菜自动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 211000 floor 3, building 3, Qilin artificial intelligence Industrial Park, 266 Chuangyan Road, Nanjing, Jiangsu

Applicant after: Zhongke Nanjing artificial intelligence Innovation Research Institute

Applicant after: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Address before: 211000 3rd floor, building 3, 266 Chuangyan Road, Jiangning District, Nanjing City, Jiangsu Province

Applicant before: NANJING ARTIFICIAL INTELLIGENCE CHIP INNOVATION INSTITUTE, INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Applicant before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant