CN114863318A - 一种基于多模态数据融合的行为识别方法 - Google Patents

一种基于多模态数据融合的行为识别方法 Download PDF

Info

Publication number
CN114863318A
CN114863318A CN202210350834.XA CN202210350834A CN114863318A CN 114863318 A CN114863318 A CN 114863318A CN 202210350834 A CN202210350834 A CN 202210350834A CN 114863318 A CN114863318 A CN 114863318A
Authority
CN
China
Prior art keywords
depth
dmi
action
fusion
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210350834.XA
Other languages
English (en)
Inventor
吴谦涵
黄倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210350834.XA priority Critical patent/CN114863318A/zh
Publication of CN114863318A publication Critical patent/CN114863318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态数据融合的行为识别方法,该方法运用到深度视频与骨骼序列数据。针对深度视频数据,方法首先在视频序列上提取到DMI深度特征图;然后,将原有的深度动作序列按照帧数分为相同长度的2段子序列,在各子序列上分别提取子DMI深度特征图。将得到的两张子DMI特征图与DMI图像一起组成时空深度动作图,并使用HOG算法提取动作的深度特征。针对骨骼序列数据,使用基于时空图卷积网络模型改进的时空图卷积特征提取器,直接处理骨骼序列,提取动作的骨骼特征。在得到两种数据模态上的动作特征后,使用一种基于CCA改良的高可信均值样本融合算法,融合两类特征,获得融合特征。最后使用SVM对融合特征进行分类。本发明改进了现有的行为识别算法模型,克服了单模态数据与噪声样本对算法实验的影响,提高了行为识别算法在现有的公开数据集上的识别准确率。

Description

一种基于多模态数据融合的行为识别方法
技术领域
本专利申请涉及一种基于多模态数据融合的行为识别方法,属于计算机视觉领域。
背景技术
近年来人工智能快速发展,机器视觉,模式识别,自然语言处理等技术已经在社会发展的多个方面得到了广泛应用。其中涉及的领域有智能制造,自动驾驶,智能机器人等。机器视觉在人工智能中有着举足轻重的作用。机器视觉致力于使用计算机来达到生物视觉的作用,极大地促进者人工智能的发展。机器视觉是一项综合技术,包括计算机软件技术、传感器、光学成像、图像处理、视频处理、电光源照明等。计算机通过机器视觉实现了对周围环境的感知与理解。人体行为识别与研究是对机器视觉技术一项重要应用,通过分析各类传感器收集到的人体行为时各类信息,达到人体行为识别的目的。人体行为识别与研究在生活中有着广泛的应用,其中包括的主要应用领域有:
医疗辅助:人体行为识别在医疗辅助领域有着广泛的应用。人体的诸多疾病,例如帕金森症、老年痴呆等,在疾病确认、康复等阶段都需要对病人的肢体行为进行观察、识别与研究。传统人工行为观察方式,往往会受专业医护人员数量不足,观察时间受限等问题影响。采用机器视觉技术对患者行为识别与研究,不仅提高了识别精度,还大大节省了医疗资源。
视频监控:如今公共安全问题越来越多受到了社会的关注。公共场合中威胁公众安全的行为时有发生。在火车站、幼儿园等场合进行视频监控来识别入镜人员的行为能有效地实现犯罪及危险监控,实现监控智能化。除了公共场合,行为识别在室内监控中也有着广泛的应用。对于有老年人的家庭,通过安装家庭摄像头,可以实时监控老年人行为,自动判断老年人是否发生跌倒、发病等危险行为。在危险出现的第一时间通知子女并启动警报系统。
体感游戏:体感游戏是通过人体肢体动作来控制游戏进行,丰富和拓展了人机交互的方式,大大增强了游戏的真实性与娱乐性。体感游戏一般通过深度或彩色摄像机来采集游戏者的行为数据,通过分析行为数据来识别游戏者指令。2010年6月微软公司推出了体感游戏设备Kinect,并发布了多种基于Kinect的体感游戏。自从体感游戏的出现,游戏方式从双手操作变成了肢体行为操作。Kinect在人体深度数据的基础上进一步提取了人体骨骼数据,极大的简化了构建人体模型的复杂度。
运动分析:运动分析是利用摄像机采集人体运动信息,通过研究人体各个部位的位置、速度以及加速度来分析指导人体运动。运动分析常用于运动员的竞技动作分析,通过研究改善运动员的动作实现运动成绩的提高。
随着计算机视觉的不断发展,行为识别算法运用广泛。但由于单模态人体行为识别研究遇到瓶颈、噪声样本对实验造成副作用等问题,同时对行为识别的准确性要求较高。针对以上的问题,本发明设计了一种基于多模态数据融合的行为识别方法。
发明内容
本发明所要解决的技术问题是:提供一种基于多模态数据融合的行为识别方法,为多模态行为识别研究与克服噪声样本对实验产生的影响提供了一种高效可靠的解决方案。
本发明为解决上述技术问题采用以下技术方案:
一种基于多模态数据融合的行为识别方法,包括如下步骤:
步骤1,深度数据动作特征提取。针对深度视频类型数据,在视频序列上提取到DMI深度特征图;然后,将原有的深度动作序列按照帧数分为相同长度的2段子序列,在各子序列上分别提取子DMI深度特征图。将得到的两张子DMI特征图与DMI图像一起组成时空深度动作图,并使用HOG算法提取动作的深度特征。
步骤2,骨骼数据动作特征提取。针对骨骼序列数据,使用基于时空图卷积网络模型改进的时空图卷积特征提取器,直接处理骨骼序列,提取动作的骨骼特征。
步骤3,不同模态数据动作特征融合。在得到两种数据模态上的动作特征后,使用一种基于CCA改良的高可信均值样本融合算法,融合两类特征,获得融合特征。
步骤4,融合特征分类。使用SVM对融合特征进行分类,并计算识别的准确率。
作为本发明的一种优选方案,所述步骤1的提取时空深度动作图特征的具体过程为:
1.1在输入的深度视频上计算获得三视角的DMI深度特征图。公式如下所示:
DMIv=max(I(h,w)v)
其中,DMIv表示在v视角上的DMI特征图,视角分为f,s,d三种,分别对应前视角、侧视角与俯视角。(h,w)表示图像I上的坐标位置。max()表示求最大值。
1.2将原有的深度视频分为相同帧数的两段子视频序列,分别在子视频序列上计算三视角子DMI深度特征图。公式如下所示:
Figure BDA0003580134710000031
其中,DMIv表示在v视角上的DMI特征图,视角分为f,s,d三种,分别对应前视角、侧视角与俯视角。i表示子序段数的序号。(h,w)表示图像I上的坐标位置。t代表当前的段数。N代表原深度视频的总帧数。max()表示求最大值。
1.3将DMI深度特征图与子DMI深度特征图合为一个整体,称为时空深度动作图。一个动作样本使用一份时空深度动作图表示,一份时空深度动作图包含有9张灰度图。使用HOG算法对时空深度动作图提取动作的深度特征。
作为本发明的一种优选方案,所述步骤2使用时空图卷积特征提取器提取骨骼数据中的动作特征。时空图卷积特征提取器使用到了图卷积神经网络(GCN)。GCN的公式定义如下:
Figure BDA0003580134710000032
Λii=∑j(Aij+Iij)
其中,fout和fin分别表示图卷积过程的输入与输出,W表示权重矩阵。A是伴随矩阵,I是单位矩阵。
作为本发明的一种优选方案,所述步骤3中采用高可信均值样本融合算法,对步骤1与步骤2提取的两种动作特征进行融合。由于在样本空间中,噪声样本属于离群点,且一类动作中的噪声样本数量较少。因此,该算法使用四分位算法的思想,对于某一类的动作样本,首先剔除孤立的噪声样本,将剩下的样本称为高可信样本,并对高可信样本求取均值。使用均值表征该类动作。该算法公式如下:
Figure BDA0003580134710000041
Figure BDA0003580134710000042
其中,Csd表示深度模态与骨骼模态的协方差。Css与Css分别表示深度模态和骨骼模态上的方差。I是单位矩阵。W是权重矩阵。
作为本发明的一种优选方案,所述步骤4中,使用SVM对特征分类后准确率的计算。准确率的计算如下公式所示:
Figure BDA0003580134710000043
其中,N表示不同类别样本的数量和,M表示类别数,ri表示预测的结果中对于类别i预测准确的样本数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、采用的时空深度动作图,在原有的DMI深度特征图基础上,通过添加了一层新的子DMI深度特征图,为原DMI深度特征图添加了充足的时间信息;
2、采用时空图卷积特征提取器,使用图卷积的思想,使用较少的层数实现对骨骼数据特征的提取,相较于原有的骨骼网络,降低了时间的开销;
3、使用高可信均值样本融合算法,能够克服现实生活中产生的噪声样本对算法的影响,同时使用均值样本表征动作,简化了融合算法的时间复杂度。
附图说明
图1是本发明一种基于多模态数据融合的行为识别方法的流程图。
图2是本发明提取动作深度特征的流程图。
图3是本发明提取动作骨骼特征的流程图。
图4是本发明高可信均值样本融合算法流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
随着计算机视觉的不断发展,行为识别算法运用广泛。但由于单模态人体行为识别研究遇到瓶颈、噪声样本对实验造成副作用等问题,同时对行为识别的准确性要求较高。针对以上的问题,本发明设计了一种基于多模态数据融合的行为识别方法。
如图1所示,本发明一种基于多模态数据融合的行为识别方法,包括以下步骤:
1、深度数据动作特征提取。针对深度视频类型数据,在视频序列上提取到DMI深度特征图;然后,将原有的深度动作序列按照帧数分为相同长度的2段子序列,在各子序列上分别提取子DMI深度特征图。将得到的两张子DMI特征图与DMI图像一起组成时空深度动作图,并使用HOG算法提取动作的深度特征。
提取时空深度动作图特征具体过程为:
1.1在输入的深度视频上计算获得三视角的DMI深度特征图。公式如下所示:
DMIv=max(I(h,w)v)
其中,DMIv表示在v视角上的DMI特征图,视角分为f,s,d三种,分别对应前视角、侧视角与俯视角。(h,w)表示图像I上的坐标位置。max()表示求最大值。
1.2将原有的深度视频分为相同帧数的两段子视频序列,分别在子视频序列上计算三视角子DMI深度特征图。公式如下所示:
Figure BDA0003580134710000051
其中,DMIv表示在v视角上的DMI特征图,视角分为f,s,d三种,分别对应前视角、侧视角与俯视角。i表示子序段数的序号。(h,w)表示图像I上的坐标位置。t代表当前的段数。N代表原深度视频的总帧数。max()表示求最大值。
1.3将DMI深度特征图与子DMI深度特征图合为一个整体,称为时空深度动作图。一个动作样本使用一份时空深度动作图表示,一份时空深度动作图包含有9张灰度图。使用HOG算法对时空深度动作图提取动作的深度特征。
2、骨骼数据动作特征提取。针对骨骼序列数据,使用基于时空图卷积网络模型改进的时空图卷积特征提取器,直接处理骨骼序列,提取动作的骨骼特征。时空图卷积特征提取器使用到了图卷积神经网络(GCN)。GCN的公式定义如下:
Figure BDA0003580134710000061
Λii=∑j(Aij+Iij)
其中,fout和fin分别表示图卷积过程的输入与输出,W表示权重矩阵。A是伴随矩阵,I是单位矩阵。
3、不同模态数据动作特征融合。在得到两种数据模态上的动作特征后,使用一种基于CCA改良的高可信均值样本融合算法,融合两类特征,获得融合特征。由于在样本空间中,噪声样本属于离群点,且一类动作中的噪声样本数量较少。因此,该算法使用四分位算法的思想,对于某一类的动作样本,首先剔除孤立的噪声样本,将剩下的样本称为高可信样本,并对高可信样本求取均值。使用均值表征该类动作。该算法公式如下:
Figure BDA0003580134710000062
Figure BDA0003580134710000063
其中,Csd表示深度模态与骨骼模态的协方差。Css与Css分别表示深度模态和骨骼模态上的方差。I是单位矩阵。W是权重矩阵。
4、融合特征分类。使用SVM对融合特征进行分类,并计算识别的准确率。准确率的计算如下公式所示:
Figure BDA0003580134710000064
其中,N表示不同类别样本的数量和,M表示类别数,ri表示预测的结果中对于类别i预测准确的样本数。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围。

Claims (5)

1.一种基于多模态数据融合的行为识别方法,其特征在于,包括如下步骤:
步骤1,深度数据动作特征提取,针对深度视频类型数据,在视频序列上提取到DMI深度特征图;然后,将原有的深度动作序列按照帧数分为相同长度的2段子序列,在各子序列上分别提取子DMI深度特征图,将得到的两张子DMI特征图与DMI图像一起组成时空深度动作图,并使用HOG算法提取动作的深度特征,
步骤2,骨骼数据动作特征提取,针对骨骼序列数据,使用基于时空图卷积网络模型改进的时空图卷积特征提取器,直接处理骨骼序列,提取动作的骨骼特征,
步骤3,不同模态数据动作特征融合,在得到两种数据模态上的动作特征后,使用一种基于CCA改良的高可信均值样本融合算法,融合两类特征,获得融合特征,
步骤4,融合特征分类,使用SVM对融合特征进行分类,并计算识别的准确率。
2.根据权利要求1所述基于多模态数据融合的行为识别方法,其特征在于,所述步骤1的提取时空深度动作图特征具体过程为:
2.1在输入的深度视频上计算获得三视角的DMI深度特征图,公式如下所示:
DMIv=max(I(h,w)v)
其中,DMIv表示在v视角上的DMI特征图,视角分为f,s,d三种,分别对应前视角、侧视角与俯视角,(h,w)表示图像I上的坐标位置,max()表示求最大值,
2.2将原有的深度视频分为相同帧数的两段子视频序列,分别在子视频序列上计算三视角子DMI深度特征图,公式如下所示:
Figure FDA0003580134700000011
其中,DMIv表示在v视角上的DMI特征图,视角分为f,s,d三种,分别对应前视角、侧视角与俯视角,i表示子序段数的序号,(h,w)表示图像I上的坐标位置,t代表当前的段数,N代表原深度视频的总帧数,max()表示求最大值,
2.3将DMI深度特征图与子DMI深度特征图合为一个整体,称为时空深度动作图,一个动作样本使用一份时空深度动作图表示,一份时空深度动作图包含有9张灰度图,使用HOG算法对时空深度动作图提取动作的深度特征。
3.根据权利要求1所述基于多模态数据融合的行为识别方法,其特征在于,所述步骤2中针对骨骼序列,使用时空图卷积特征提取器提取动作的骨骼特征,时空图卷积特征提取器使用到了图卷积神经网络(GCN),GCN的公式定义如下:
Figure FDA0003580134700000021
Λii=∑j(Aij+Iij)
其中,fout和fin分别表示图卷积过程的输入与输出,W表示权重矩阵,A是伴随矩阵,I是单位矩阵。
4.根据权利要求1一种基于多模态数据融合的行为识别方法,其特征在于,所述步骤3中采用高可信均值样本融合算法,对步骤1与步骤2提取的两种动作特征进行融合,由于在样本空间中,噪声样本属于离群点,且一类动作中的噪声样本数量较少,因此,该算法使用四分位算法的思想,对于某一类的动作样本,首先剔除孤立的噪声样本,将剩下的样本称为高可信样本,并对高可信样本求取均值,使用均值表征该类动作,该算法公式如下:
Figure FDA0003580134700000022
Figure FDA0003580134700000023
其中,Csd表示深度模态与骨骼模态的协方差,Css与Css分别表示深度模态和骨骼模态上的方差,I是单位矩阵,W是权重矩阵。
5.根据权利要求1所述一种基于多模态数据融合的行为识别方法,其特征在于,所述步骤4中,使用SVM对特征分类后准确率的计算,准确率的计算如下公式所示:
Figure FDA0003580134700000024
其中,N表示不同类别样本的数量和,M表示类别数,ri表示预测的结果中对于类别i预测准确的样本数。
CN202210350834.XA 2022-04-02 2022-04-02 一种基于多模态数据融合的行为识别方法 Pending CN114863318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210350834.XA CN114863318A (zh) 2022-04-02 2022-04-02 一种基于多模态数据融合的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210350834.XA CN114863318A (zh) 2022-04-02 2022-04-02 一种基于多模态数据融合的行为识别方法

Publications (1)

Publication Number Publication Date
CN114863318A true CN114863318A (zh) 2022-08-05

Family

ID=82629158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210350834.XA Pending CN114863318A (zh) 2022-04-02 2022-04-02 一种基于多模态数据融合的行为识别方法

Country Status (1)

Country Link
CN (1) CN114863318A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116473514A (zh) * 2023-03-29 2023-07-25 西安电子科技大学广州研究院 基于足底压力的自适应有向时空图神经网络的帕金森疾病检测

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116473514A (zh) * 2023-03-29 2023-07-25 西安电子科技大学广州研究院 基于足底压力的自适应有向时空图神经网络的帕金森疾病检测
CN116473514B (zh) * 2023-03-29 2024-02-23 西安电子科技大学广州研究院 基于足底压力的自适应有向时空图神经网络的帕金森疾病检测方法

Similar Documents

Publication Publication Date Title
CN106951867B (zh) 基于卷积神经网络的人脸识别方法、装置、系统及设备
Wang et al. Fall detection based on dual-channel feature integration
US9002054B2 (en) Device, system and method for determining compliance with an instruction by a figure in an image
CN110135242B (zh) 基于低分辨率红外热成像深度感知的情绪识别装置及方法
CN110269587B (zh) 婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统
CN112085010A (zh) 一种基于图像识别的口罩检测和部署系统及方法
CN107590473B (zh) 一种人脸活体检测方法、介质和相关装置
CN109298785A (zh) 一种监测设备的人机联控系统及方法
Avola et al. Deep temporal analysis for non-acted body affect recognition
CN113011504B (zh) 基于视角权重和特征融合的虚拟现实场景情感识别方法
Bertoni et al. Perceiving humans: from monocular 3d localization to social distancing
CN111091044B (zh) 一种面向网约车的车内危险场景识别方法
CN113662664B (zh) 一种基于仪器追踪的外科手术质量客观自动化评估方法
CN113435236A (zh) 居家老人姿态检测方法、系统、存储介质、设备及应用
CN113743471A (zh) 一种驾驶评估方法及其系统
CN112990057A (zh) 一种人体姿态识别方法、装置及电子设备
CN112241689A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN114863318A (zh) 一种基于多模态数据融合的行为识别方法
CN114469076A (zh) 一种融合身份特征的独居老人跌倒识别方法及系统
Wang et al. Video anomaly detection method based on future frame prediction and attention mechanism
CN107967455A (zh) 一种智能人体多维自然特征大数据透明学习方法与系统
CN106454233A (zh) 人群聚集的智能监控方法和系统
Deng et al. Driving Visual Saliency Prediction of Dynamic Night Scenes via a Spatio-Temporal Dual-Encoder Network
CN115083229A (zh) 基于ai视觉识别的飞行训练设备智能识别与警示系统
Kawaguchi et al. Basic investigation of sign language motion classification by feature extraction using pre-trained network models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination