CN107886061B - 基于多模态深度玻尔兹曼机的人体行为识别方法及系统 - Google Patents
基于多模态深度玻尔兹曼机的人体行为识别方法及系统 Download PDFInfo
- Publication number
- CN107886061B CN107886061B CN201711061490.6A CN201711061490A CN107886061B CN 107886061 B CN107886061 B CN 107886061B CN 201711061490 A CN201711061490 A CN 201711061490A CN 107886061 B CN107886061 B CN 107886061B
- Authority
- CN
- China
- Prior art keywords
- data
- boltzmann machine
- visual
- depth
- wearable sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000006399 behavior Effects 0.000 claims abstract description 61
- 230000000007 visual effect Effects 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000013526 transfer learning Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 24
- 230000009471 action Effects 0.000 claims description 10
- 210000000707 wrist Anatomy 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态深度玻尔兹曼机的人体行为识别方法及系统,该方法包括步骤:1)获取视觉和可穿戴传感器的数据;2)建立视觉数据和可穿戴传感器多模态融合模型;3)利用深度神经网络进行异构迁移学习实现对缺失数据的重构;4)利用softmax回归模型分类器进行分类;5)根据用户个体特性对公共样本数据产生的深度网络模型进行自适应调整。本发明能提高在复杂场景及数据缺失情况下人体行为识别的准确率。
Description
技术领域
本发明涉及人工智能、行为识别技术领域,尤其是指一种基于多模态深度玻尔兹曼机的人体行为识别方法及系统。
背景技术
近年来,机器人产业呈爆发式的增长,机器人“全应用”时代正在来临。一方面,机器人出现在家庭和日常生活中,另一方面,随着工业机器人的发展,机器人广泛地应用于汽车制造业、金属制造业等各个行业中,实现人机协作。人体行为识别被广泛地应用于人机交互、人机协作等领域,机器人需要从各个抽象层来理解和识别人类的行为,其识别的准确性将对机器人技术的应用发展起到重大的作用。机器人对人的行为识别是机器人对人以及外界环境感知的一个十分重要的环节,如何降低场景多样性、背景复杂等噪声因素对识别效果的影响,一直是人体行为识别研究的热点。
目前,人体行为识别技术研究方面主要采用基于视觉和基于可穿戴传感器两种思路进行,但目前还面临如下问题:
1、复杂场景下机器人对人体行为识别的准确率需要提高:目前人体行为识别主要通过基于单一视觉、基于单一可穿戴传感器、基于视觉与可穿戴传感器传统的数据融合方法来实现的,这些方式都不能有效解决在复杂场景下人体行为识别准确率低的问题。
2、多模态数据发生缺失时对人体行为识别准确率的挑战性:目前研究少有涉及此问题,而在实际生活中,由于人的隐私和遮挡等原因,常会发生缺失视觉信号的情况,这会对机器人识别人行为的准确性造成较大的影响。
3、机器人在对人的行为识别时所面临人的共性与个性问题:目前研究少有涉及如何把人的个性化信息加入到共性模型中从而使模型具有个性化的特点,这也会影响机器人对人体行为的识别。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一个识别准确率较高及可用性较强的基于多模态深度玻尔兹曼机的人体行为识别方法及系统,旨在构建基于视觉和可穿戴传感器的多模态深度神经网络模型从而提高在复杂场景下行为识别的准确率;在多模态深度学习模型中采用深度玻尔兹曼机网络,从而减少缺失数据对行为识别准确度造成的影响;提出一种结合个性化特点调整网络结构建立自适应共性模型的方法,从而提高机器人对具体主人行为识别的准确率。
为实现上述目的,本发明所提出的技术方案如下:
基于多模态深度玻尔兹曼机的人体行为识别方法,包括以下步骤:
1)获取视觉和可穿戴传感器的数据;
2)建立视觉数据和可穿戴传感器多模态融合模型;
3)利用多模态深度玻尔兹曼机进行异构迁移学习实现对缺失数据的重构;
4)利用softmax回归模型分类器进行分类;
5)根据用户个体特性对公共样本数据产生的多模态深度玻尔兹曼机进行自适应调整。
在步骤1)中,获取视觉和可穿戴传感器数据,包括以下步骤:
1.1)使用视觉Kinect传感器最大的采集频率作为视觉和可穿戴传感器共同的采集频率;
1.2)采用Kinect视觉传感器作为视频输入特征,并安装于机器人上,通过USB接口把数据传送给笔记本电脑;
1.3)可穿戴传感器选择手腕的姿态和腰部的姿态数据作为输入特征,通过无线蓝牙通信把存储了一段时间的数据发送到笔记本电脑;
1.4)笔记本电脑对采集的数据进行预处理并把处理后的数据送到后台图形工作站进行深度学习。
在步骤2)中,建立视觉数据和可穿戴传感器多模态融合模型,包括以下步骤:
2.1)为视觉和可穿戴传感器每个采集时间窗口内的数据添加开始帧、结束帧和帧编号,然后根据帧编号提取数据作为深度神经网络输入;
2.2)采用一种动态可变采集窗口长度的方法,动态分割出每个动作周期作为滑动窗口的时间长度;
2.3)Kinect相机把一个采集时间窗口内所有像素点的颜色RGB和深度D信息构建成一个的视觉特征向量作为输入;
2.4)可穿戴传感器把一个采集时间窗口内的腕部和腰部6轴姿态传感器(3轴加速度及3轴角速度)数据共同构成可穿戴传感器特征向量作为输入;
2.5)深度学习直接对输入的数据进行训练得到特征。
在步骤3)中,利用多模态深度玻尔兹曼机进行异构迁移学习实现对缺失数据的重构,包括以下步骤:
3.1)分别构建视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机,传感器数据作为输入,采用深度为两层的深度玻尔兹曼机,可见层和隐藏层的神经元都是高斯单元,两层的深度玻尔兹曼机的能量函数为:
E(v,h(1),h(2),θ)=-vTW(1)h(1)-h(1)W(2)h(2)
其中,θ是RBM的参数{W,a,b},v表示可见单元,h(i)表示第i层隐藏单元,W为可见单元和隐藏单元之间的边的权重;
3.2)构建多模态深度玻尔兹曼机,使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机,该网络的联合概率分布为:
在步骤4)中,利用softmax回归模型分类器进行分类,包括以下步骤:
4.1)构建训练数据集,利用多模态公开数据集包括Berkeley多模态人体动作数据集,以及获得的实际数据集结合起来构成训练数据集;
4.2)在多模态深度玻尔兹曼机的最后一层添加一个softmax分类器,把最后一层的输出作为分类器的输入,通过训练分类器得到最终的分类模型;
4.3)使用步骤3)中融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机得到的共同特征作为输入,利用训练好的softmax分类器进行分类。
在步骤5)中,根据用户个体特性对公共样本数据产生的多模态深度玻尔兹曼机进行自适应调整,包括以下步骤:
5.1)在视觉输入特征层和可穿戴传感器输入特征层之前各加入一个隐藏层;
5.2)把个体用户利用多模态深度玻尔兹曼机进行行为识别得到的具有预设的可信度的数据作为有标注的样本数据;
5.3)通过有标注的样本数据并利用Mini-batch增量学习对公共样本数据产生的模型进行训练,选择所需Mini-batch的大小。
基于多模态深度玻尔兹曼机的人体行为识别系统,包括:
数据采集模块,用于采集机器人对人行为识别平台的原始数据流,包括视觉数据流和可穿戴传感器数据流;
数据预处理模块,用于对采集的原始数据进行滤波降噪、平滑处理、以及加窗处理;
深度学习模块,用于将预处理后的数据加入深度神经网络进行学习和融合,提取视觉和姿态传感器数据的共同特征;
模型训练模块,通过对训练数据集的学习和建模,得到训练后的多模态融合深度玻尔兹曼机人体行为识别模型;
行为识别模块,利用多模态融合深度玻尔兹曼机人体行为识别模型进行人体行为的识别分类。
优选的,所述数据采集模块具体采用Kinect传感器采集视觉数据流,采用2个6轴姿态传感器分别采集腰部和腕部的数据,使用Kinect传感器最大的采集频率作为共同的采集频率。
优选的,所述数据预处理模块使用一种动态可变的加窗方法,分割出每个动作行为的周期。
优选的,所述深度学习模块具体采用多模态深度玻尔兹曼机,使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机。
优选的,所述模型训练模块使用Berkeley多模态人体动作数据集等多模态公开数据集,以及获得的实际数据集结合起来构成训练数据集。
优选的,所述行为识别模块具体采用softmax回归模型作为分类器,添加于深度神经网络的最后一层。
本发明与现有技术相比,具有如下优点与有益效果:
1、基于视觉和可穿戴传感器的多模态深度玻尔兹曼机,使用基于全局特征的行为表征方法,把视觉传感器和可穿戴传感器的数据融合起来共同对人的行为特征进行识别,不仅不需要佩戴多个传感器,可以有效减少人体佩戴传感器对舒适度造成的影响,而且能够突破基于局部特征的行为表征方法不能识别复杂动作的局限性,可以有效提高在复杂场景下机器人对人的行为识别的准确率。
2、采用多模态深度玻尔兹曼机,能够对缺失的数据进行重构,可以有效减少数据缺失对行为识别准确度造成的影响。在视觉拍摄视角受影响、物体受遮挡、可穿戴设备受到外界电磁干扰等因素造成的有数据缺失的情况下,可以有效提高机器人对人行为识别的准确率。
3、提出一种结合个性化特点自动调整共性模型的方法,能够有效解决机器人在对人体行为识别时的共性和个性问题,使机器人对公共数据模型进行自动调整从而满足个体的个性特点,从而更好地理解人体行为,提高机器人对具体主人行为识别的准确率。
附图说明
图1是本发明基于多模态深度玻尔兹曼机的人体行为识别方法流程图。
图2是本发明机器人识别人体行为系统平台示意图。
图3是本发明基于视觉和可穿戴传感器的多模态深度玻尔兹曼机示意图。
图4是多模态深度玻尔兹曼机示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
参见图1所示,本实施例所提供的基于多模态深度玻尔兹曼机的人体行为识别方法,包括以下步骤:
1)建立机器人识别人体行为系统平台,获取视觉和可穿戴传感器的数据;
2)建立视觉数据和可穿戴传感器多模态融合模型,对视觉和可穿戴传感器信息进行融合;
3)利用多模态深度玻尔兹曼机进行异构迁移学习实现对缺失数据的重构;
4)利用softmax回归模型分类器进行人体行为分类;
5)根据用户个体特性对公共样本数据产生的多模态深度玻尔兹曼机进行自适应调整。
参见图2所示,在步骤1)中,所述的机器人识别人体行为系统平台,获取视觉和可穿戴传感器的数据,包括以下步骤:
1.1)机器人上安装的Kinect视觉传感器采集视频数据;
1.2)可穿戴传感器采用6轴姿态传感器(3轴加速度及3轴角速度),分别安装于智能手环和智能腰带中,选择人体手腕的姿态和腰部的姿态数据作为输入特征;
1.3)在本实施方式中,采用视觉Kinect传感器最大的采集频率作为视觉和可穿戴传感器共同的采集频率;
1.4)采集视觉数据后,Kinect视觉传感器通过USB接口把数据传送给笔记本电脑;
1.5)采集姿态传感器数据后,可穿戴传感器通过无线蓝牙通信把存储了一段时间的数据发送到笔记本电脑。
参见图3所示,在步骤2)中,所述的基于视觉和可穿戴传感器的多模态深度神经网络模型,构建多模态深度神经网络,包括以下步骤:
2.1)在本实施方式中,为方便融合两种传感器数据,采用的同步方法为给视觉和可穿戴传感器每个采集时间窗口内的数据添加开始帧、结束帧和帧编号;
2.2)根据帧编号提取数据作为深度神经网络输入,保证可穿戴传感器和视觉Kinect传感器时间的一致性;
2.3)在本实施方式中,采用一种动态可变的加窗方法,分离出每个动作周期,滑动窗口的长度为每个动作周期的时间长度,滑动步长为半个窗口长度;
2.4)在采集特征数据的同时,对视觉数据和可穿戴传感器数据进行分析,找到动作变化的关键点并在此作为采集窗口的起点和终点;
2.5)为不影响特征的采集过程,采集过程和分析过程并行化进行;
2.6)在一个采集时间窗口内,Kinect相机把所有像素点的颜色RGB和深度D信息构建成一个的视觉特征向量作为输入;
2.7)在一个采集时间窗口内,可穿戴传感器把腕部6轴姿态传感器(3轴加速度及3轴角速度)数据和腰部6轴姿态传感器(3轴加速度及3轴角速度)数据共同构成可穿戴传感器特征向量作为输入;
2.8)深度学习直接对输入的数据进行训练得到特征。
参见图4所示,在步骤3)中,所述的多模态深度玻尔兹曼机,对缺失数据重构的神经网络结构,包括以下步骤:
3.1)在本实施方式中,采用两层的深度玻尔兹曼机,其能量函数为:
E(v,h(1),h(2),θ)=-vTW(1)h(1)-h(1)W(2)h(2)
其中,θ是RBM的参数{W,a,b},v表示可见单元,h(i)表示第i层隐藏单元,W为可见单元和隐藏单元之间的边的权重;
3.2)构建视觉深度玻尔兹曼机,Kinect视觉传感器作为输入,采用深度为两层的深度玻尔兹曼机,可见层和隐藏层的神经元都是高斯单元;
3.3)构建可穿戴传感器深度玻尔兹曼机可穿戴传感器的数据作为输入,也采用深度为两层的深度玻尔兹曼机,可见层和隐藏层的神经元都是高斯单元;
3.4)在本实施方式中,构建由两个深度玻尔兹曼机构成的多模态深度玻尔兹曼机,在此结构中有一个共同的隐藏层联合这两个深度网络。假设一个深度网络的可见层为vm,另一个为vt,则该网络的联合概率分布为:
3.5)构建基于视觉和可穿戴传感器的多模态深度神经网络模型,由两个深度玻尔兹曼机构成的多模态深度玻尔兹曼机,有一个共同的隐藏层(共同表示特征层)融合视觉和可穿戴传感器这两个深度网络。
在步骤4)中,所述的利用softmax回归模型分类器进行人体行为分类,包括以下步骤:
4.1)构建训练数据集,利用Berkeley多模态人体动作数据集等多模态公开数据集,和本研究团队通过各种渠道获得的实际数据集结合起来构成训练数据集;
4.2)在多模态深度玻尔兹曼机的最后一层添加一个softmax分类器,把最后一层的输出作为分类器的输入,通过训练分类器得到最终的分类模型;
4.3)使用步骤3)中融合视觉深度玻尔兹曼机和可穿戴传感器玻尔兹曼机得到的共同特征作为输入,利用训练好的softmax分类器进行分类。
在步骤5)中,所述的个体特征对公共数据产生的多模态深度玻尔兹曼机进行自动调整,其分为改进网络结构和标注新样本进行训练的增量学习两种方式,实施步骤如下:
5.1)改进网络结构,扩展原有的神经网络结构,其具体步骤包括:
5.1.1)在视觉输入特征层和可穿戴传感器输入特征层之前各加入一个隐藏层;
5.1.2)当用户和机器人在一起时,重新进行无监督学习的训练;
5.1.3)在新的网络结构中训练出具有个体用户行为的内容;
5.2)标注新样本进行训练的增量学习,把个体用户利用多模态深度玻尔兹曼机进行行为识别得到的具有预设的可信度的数据作为有标注的样本数据,其具体步骤包括:
5.2.1)根据传感器本身特性确定采集的数据是否正常;
5.2.2)结合输出结果的Softmax分类模型综合计算得到可信度;
5.2.3)通过有标注的样本数据并利用Mini-batch增量学习对公共样本数据产生的模型进行训练,具体过程是:将全部样本分成几份,每一份更新一次参数,每份的样本量越多,模型训练的精度越高,但花费的时间越多,在精度与时间的权衡问题,合理选择Mini-batch的大小。
以下为本实施例所提供的一种基于多模态深度玻尔兹曼机的人体行为识别系统,包括:
数据采集模块:用于采集机器人对人行为识别平台的原始数据流,包括视觉数据流和可穿戴传感器数据流。在本实施方式中,采用Kinect传感器采集视频数据,采用2个6轴姿态传感器分别采集腰部和腕部的数据,使用Kinect传感器最大的采集频率作为共同的采集频率。
数据预处理模块:用于对采集的原始数据进行滤波降噪、平滑处理、以及加窗处理。在本实施方式中,采用一种动态的加窗方式,以每个人体行为的周期长度作为窗口长度,提取每个窗口内数据的特征矩阵作为输入。
深度学习模块:用于将预处理后的数据加入深度神经网络进行学习和融合,提取视觉和姿态传感器数据的共同特征。在本实施方式中,采用多模态深度玻尔兹曼机,使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机,从而对多传感器数据进行融合并训练提取共同特征。
模型训练模块:通过对训练数据集的学习和建模,得到训练后的多模态融合深度玻尔兹曼机人体行为识别模型。在本实施方式中,使用Berkeley多模态人体动作数据集等多模态公开数据集,和本研究团队通过各种渠道获得的实际数据集结合起来构成训练数据集。
行为识别模块:利用多模态融合深度玻尔兹曼机人体行为识别模型进行人体行为的识别分类。在本实施方式中,采用softmax回归模型作为分类器,添加于深度神经网络的最后一层。
在上述实施例中,所包括的各个模块只是按照本发明的功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可,并不用于限制本发明的保护范围。
综上所述,本发明所提供的基于多模态深度玻尔兹曼机的人体行为识别方法及系统,构建基于视觉和可穿戴传感器的多模态神经网络模型,能够提高在复杂场景下机器人对人的行为识别的准确率;在多模态深度学习模型中采用合适的深度神经网络结构,能够减少由于缺失数据对行为识别准确度造成的影响;提出一种结合个性化特点自动调整共性模型的方法,能够提高机器人对具体主人行为识别的准确率。本发明可用于人与机器人的协作,从而提高人机协作的成功率。此外,本发明提供的技术方法还可拓展到人体异常监测、视频监控、智能家居、身份鉴定以及运动分析等众多领域,具有广泛的研究意义,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (2)
1.基于多模态深度玻尔兹曼机的人体行为识别方法,其特征在于,包括以下步骤:
1)获取视觉和可穿戴传感器的数据;
2)建立视觉数据和可穿戴传感器多模态融合模型,包括以下步骤:
2.1)为视觉和可穿戴传感器每个采集时间窗口内的数据添加开始帧、结束帧和帧编号,然后根据帧编号提取数据作为深度神经网络输入;
2.2)采用一种动态可变采集窗口长度的方法,动态分割出每个动作周期作为滑动窗口的时间长度,滑动步长为半个窗口长度;
2.3)Kinect相机把一个采集时间窗口内所有像素点的颜色RGB和深度D信息构建成一个视觉特征向量作为输入;
2.4)可穿戴传感器把一个采集时间窗口内的腕部和腰部6轴姿态传感器数据共同构成可穿戴传感器特征向量作为输入;
2.5)深度学习直接对输入的数据进行训练得到特征;
3)利用多模态深度玻尔兹曼机进行异构迁移学习实现对缺失数据的重构,包括以下步骤:
3.1)分别构建视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机,传感器数据作为输入,采用深度为两层的深度玻尔兹曼机,可见层和隐藏层的神经元都是高斯单元,两层的深度玻尔兹曼机的能量函数为:
E(v,h(1),h(2),θ)=-vTW(1)h(1)-h(1)W(2)h(2)
其中,θ是RBM的参数{W,a,b},v表示可见单元,h(i)表示第i层隐藏单元,W为可见单元和隐藏单元之间的边的权重;
3.2)构建多模态深度玻尔兹曼机,使用一个共同的隐藏层融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机,该多模态深度玻尔兹曼机的联合概率分布为:
4)利用softmax分类器进行分类,包括以下步骤:
4.1)构建训练数据集,利用多模态公开数据集包括Berkeley多模态人体动作数据集,以及获得的实际数据集结合起来构成训练数据集;
4.2)在多模态深度玻尔兹曼机的最后一层添加一个softmax分类器,把最后一层的输出作为分类器的输入,通过训练分类器得到最终的分类模型;
4.3)使用步骤3)中融合视觉深度玻尔兹曼机和可穿戴传感器深度玻尔兹曼机得到的共同特征作为输入,利用训练好的softmax分类器进行分类;
5)根据用户个体特性对公共样本数据产生的多模态深度玻尔兹曼机进行自适应调整,包括以下步骤:
5.1)在视觉输入特征层和可穿戴传感器输入特征层之前各加入一个隐藏层;
5.2)把个体用户利用多模态深度玻尔兹曼机进行行为识别得到的具有预设的可信度的数据作为有标注的样本数据;
5.3)通过有标注的样本数据并利用Mini-batch增量学习对公共样本数据产生的多模态深度玻尔兹曼机进行训练,选择所需Mini-batch的大小。
2.根据权利要求1所述的基于多模态深度玻尔兹曼机的人体行为识别方法,其特征在于,在步骤1)中,获取视觉和可穿戴传感器数据,包括以下步骤:
1.1)使用视觉Kinect传感器最大的采集频率作为视觉和可穿戴传感器共同的采集频率;
1.2)采用Kinect视觉传感器作为视频输入特征,并安装于机器人上,通过USB接口把数据传送给笔记本电脑;
1.3)可穿戴传感器选择手腕的姿态和腰部的姿态数据作为输入特征,通过无线蓝牙通信把存储了一段时间的数据发送到笔记本电脑;
1.4)笔记本电脑对采集的数据进行预处理并把处理后的数据送到后台图形工作站进行深度学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711061490.6A CN107886061B (zh) | 2017-11-02 | 2017-11-02 | 基于多模态深度玻尔兹曼机的人体行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711061490.6A CN107886061B (zh) | 2017-11-02 | 2017-11-02 | 基于多模态深度玻尔兹曼机的人体行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107886061A CN107886061A (zh) | 2018-04-06 |
CN107886061B true CN107886061B (zh) | 2021-08-06 |
Family
ID=61783558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711061490.6A Expired - Fee Related CN107886061B (zh) | 2017-11-02 | 2017-11-02 | 基于多模态深度玻尔兹曼机的人体行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886061B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629380B (zh) * | 2018-05-11 | 2021-06-11 | 西北大学 | 一种基于迁移学习的跨场景无线信号感知方法 |
CN109063722B (zh) * | 2018-06-08 | 2021-06-29 | 中国科学院计算技术研究所 | 一种基于机会感知的行为识别方法和系统 |
CN108958482B (zh) * | 2018-06-28 | 2021-09-28 | 福州大学 | 一种基于卷积神经网络的相似性动作识别装置及方法 |
CN109241223B (zh) * | 2018-08-23 | 2022-06-28 | 中国电子科技集团公司电子科学研究院 | 行为行踪识别方法及系统 |
CN109190550A (zh) * | 2018-08-29 | 2019-01-11 | 沈阳康泰电子科技股份有限公司 | 联合微表情多输入信息的深度神经网络多源数据融合方法 |
CN110222730A (zh) * | 2019-05-16 | 2019-09-10 | 华南理工大学 | 基于惯性传感器的用户身份识别方法及识别模型构建方法 |
CN110222598B (zh) * | 2019-05-21 | 2022-09-27 | 平安科技(深圳)有限公司 | 一种视频行为识别方法、装置、存储介质和服务器 |
CN110458033B (zh) * | 2019-07-17 | 2023-01-03 | 哈尔滨工程大学 | 一种基于可穿戴位置传感器的人体行为序列识别方法 |
CN111216126B (zh) * | 2019-12-27 | 2021-08-31 | 广东省智能制造研究所 | 基于多模态感知的足式机器人运动行为识别方法及系统 |
CN111401440B (zh) * | 2020-03-13 | 2023-03-31 | 重庆第二师范学院 | 目标分类识别方法、装置、计算机设备及存储介质 |
CN111507281A (zh) * | 2020-04-21 | 2020-08-07 | 中山大学中山眼科中心 | 一种基于头部运动和注视行为数据的行为识别系统、装置和方法 |
CN111556453A (zh) * | 2020-04-27 | 2020-08-18 | 南京邮电大学 | 一种基于信道状态信息和BiLSTM的多场景室内动作识别方法 |
CN111680660B (zh) * | 2020-06-17 | 2023-03-24 | 郑州大学 | 基于多源异构数据流的人体行为检测方法 |
CN111861275B (zh) * | 2020-08-03 | 2024-04-02 | 河北冀联人力资源服务集团有限公司 | 家政工作模式的识别方法和装置 |
CN112215136B (zh) * | 2020-10-10 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种目标人物识别方法、装置、电子设备及存储介质 |
CN112380976A (zh) * | 2020-11-12 | 2021-02-19 | 华东师范大学 | 基于神经网络视觉触觉传感器融合的手势识别系统及方法 |
CN113657487A (zh) * | 2021-08-16 | 2021-11-16 | 深圳多模智能科技有限公司 | 一种基于增量学习的人体属性分类方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063720A (zh) * | 2014-07-03 | 2014-09-24 | 浙江大学 | 基于深度玻尔兹曼机的电商网站违禁商品图片检测方法 |
US9805255B2 (en) * | 2016-01-29 | 2017-10-31 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
CN106778880B (zh) * | 2016-12-23 | 2020-04-07 | 南开大学 | 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 |
-
2017
- 2017-11-02 CN CN201711061490.6A patent/CN107886061B/zh not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
Exploring Multimodal Video Representation for Action Recognition;Cheng Wang et al;《2016 international joint conference on neural networks(IJCNN)》;20161103;第1924-1931页 * |
基于多传感器信息融合的仿人机器人跌倒检测及控制;毕盛 等;《华南理工大学学报( 自然科学版)》;20170131;第45卷(第1期);第95-101页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107886061A (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107886061B (zh) | 基于多模态深度玻尔兹曼机的人体行为识别方法及系统 | |
Jalal et al. | A Triaxial acceleration-based human motion detection for ambient smart home system | |
Dang et al. | Sensor-based and vision-based human activity recognition: A comprehensive survey | |
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN107153871B (zh) | 基于卷积神经网络和手机传感器数据的跌倒检测方法 | |
Zhang et al. | EEG-based intention recognition from spatio-temporal representations via cascade and parallel convolutional recurrent neural networks | |
Ha et al. | Multi-modal convolutional neural networks for activity recognition | |
CN108764059B (zh) | 一种基于神经网络的人体行为识别方法及系统 | |
CN110610158A (zh) | 一种基于卷积和门控循环神经网络的人体姿态识别方法及系统 | |
Li et al. | AI-enabled emotion communication | |
CN111723662B (zh) | 一种基于卷积神经网络的人体姿态识别方法 | |
CN108073851A (zh) | 一种抓取手势识别的方法、装置及电子设备 | |
CN110059593B (zh) | 一种基于反馈卷积神经网络的面部表情识别方法 | |
CN112699265A (zh) | 图像处理方法及装置、处理器、存储介质 | |
CN111857334A (zh) | 人体手势字母的识别方法、装置、计算机设备及存储介质 | |
CN112069916B (zh) | 人脸美丽预测方法、装置、系统及可读存储介质 | |
CN113642432A (zh) | 基于协方差矩阵变换的卷积神经网络用于人体姿态识别方法 | |
CN111738178A (zh) | 一种基于深度学习的戴口罩人脸表情识别方法 | |
Raj et al. | Different techniques for human activity recognition | |
CN112370058A (zh) | 一种基于移动端对用户的情感进行识别与监测方法 | |
CN104850225A (zh) | 一种基于多层次融合的活动识别方法 | |
Zhang et al. | ECMER: Edge-cloud collaborative personalized multimodal emotion recognition framework in the Internet of vehicles | |
Usman et al. | Skeleton-based motion prediction: A survey | |
CN111967389B (zh) | 基于深度双路径学习网络的人脸属性识别方法及系统 | |
Yoon et al. | IMG2IMU: Applying Knowledge from Large-Scale Images to IMU Applications via Contrastive Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210806 |
|
CF01 | Termination of patent right due to non-payment of annual fee |