CN113869189A - 人体行为识别方法、系统、设备及介质 - Google Patents
人体行为识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113869189A CN113869189A CN202111126363.6A CN202111126363A CN113869189A CN 113869189 A CN113869189 A CN 113869189A CN 202111126363 A CN202111126363 A CN 202111126363A CN 113869189 A CN113869189 A CN 113869189A
- Authority
- CN
- China
- Prior art keywords
- fusion
- acceleration
- feature
- angular velocity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 114
- 230000004927 fusion Effects 0.000 claims abstract description 110
- 230000001133 acceleration Effects 0.000 claims abstract description 74
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 32
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 26
- 230000002902 bimodal effect Effects 0.000 claims abstract description 9
- 238000007499 fusion processing Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 101
- 238000000605 extraction Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人体行为识别方法、系统、设备及介质,属于数据检索领域,方法包括:捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;对加速度特征形成的循环矩阵和角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;对惯性传感器融合特征向量与视频特征进行基于塔克分解的双模态融合,得到融合行为特征;将融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。多角度、多视角分析人体行为识别任务,解决单一模态信息缺失的问题。
Description
技术领域
本发明属于数据检索领域,更具体地,涉及一种人体行为识别方法、系统、设备及介质。
背景技术
人体行为识别是人机交互领域的一项热点研究课题,旨在识别和理解人体各种行为表征或动作,通过机器学习算法从各种不同类型的数据源中挖掘和融合与人体行为相关的信息,返回识别后的行为类别,即“读懂人的行为”。人类日常行为活动复杂且多样化,微小的动作变化可能会产生完全不同的行为,且随着所处环境的变化而变化。因此,在行为识别相关应用研究中,研究者面临着许多挑战。
如何丰富原有传统识别方法的特征信息,如何有效解决严重损坏数据和噪声信号的问题,如何准确处理和鉴别复杂人体行为,日常行为识别应用中提出的这些技术难题使得相关研究人员开发出新型的模型和算法,充分利用跨学科交叉的技术与理论来获得与人体行为识别息息相关的运动信息,从而可以得到更有作用的线索来提高人体行为识别系统的准确率。
近年来,随着人体行为识别领域出现了众多的数据源,单独使用任何一种模态的数据在实际应用中都存在各种各样的局限性,都不足以提供足够的动作信息,难以实现鲁棒的行为表达,因此,人们很自然地会想到把多种模态数据的优势结合起来进行人体行为识别,如何实现高效的多模态异构信息融合成为当前的热点研究问题。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种识别方法、系统、设备及介质,其目的在于解决现有的传统多模态融合方法忽略了模态之间的交互,导致人体行为特征信息量不足,不能对多模态复杂关系建模的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于多模态异构信息融合的人体行为识别方法,包括:S1,捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取所述RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;S2,对所述加速度特征形成的循环矩阵和所述角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;S3,对所述惯性传感器融合特征向量与所述视频特征进行基于塔克分解的双模态融合,得到融合行为特征;S4,将所述融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。
更进一步地,所述S1中特征提取之前还包括:删除预设起始时间段内捕获的RGB视频序列、加速度信号和角速度信号,并对删除后的数据进行最小-最大归一化处理;对最小-最大归一化处理后动作长度小于目标尺寸的数据进行零填充。
更进一步地,所述S1中特征提取包括:利用深度三维卷积神经网络对所述RGB视频序列进行特征提取,得到所述视频特征;利用包含卷积神经网络和长短期记忆网络的ConvLSTM模型对所述加速度信号和角速度信号进行特征提取,得到所述加速度特征和角速度特征。
更进一步地,所述S2包括:将所述加速度特征逐次逐数据平移以生成多个加速度向量,将所述多个加速度向量组合形成加速度循环特征矩阵;将所述角速度特征形成的角速度特征向量与所述加速度循环特征矩阵相乘后进行归一化处理,得到交互特征向量;将所述加速度特征形成的加速度特征向量、所述角速度特征向量和所述交互特征向量进行级联融合,得到所述惯性传感器融合特征向量。
更进一步地,所述加速度循环特征矩阵为:
所述交互特征向量为:
所述惯性传感器融合特征向量为:
其中,A为所述加速度循环特征矩阵,AT为A的转置,a为所述加速度特征向量,g为所述角速度特征向量,ai为a中第i个元素,gi为g中第i个元素,i=1,2,3…,N,N为a和g的维数,f为所述交互特征向量,s为所述惯性传感器融合特征向量。
更进一步地,所述S3包括:对特征权重张量τ进行塔克分解,所述塔克分解为:
τ=((τc×1Ws)×2Wv)×3W0
对所述惯性传感器融合特征向量、所述视频特征形成的视频特征向量各自加一维1后降维,得到相应的低维稠密向量;
对所述低维稠密向量进行双模态融合,并向塔克分解得到的核心张量τc中引入结构化稀疏约束,得到所述融合行为特征:
y=zTW0
其中,×1为在第一维相乘,×2为在第二维相乘,×3为在第三维相乘;Ws为所述惯性传感器融合特征向量的低维映射权重矩阵,Wv为所述视频特征向量的低维映射权重矩阵,W0为融合行为特征向量的映射权重矩阵,用于控制特征向量的维度;y为所述融合行为特征,z为中间向量,s′为所述惯性传感器融合特征向量相应的低维稠密向量,v′为所述视频特征向量相应的低维稠密向量,zT、s′T、v′T分别为z、s′、v′的转置,z可分解为R个向量zr,R为使得分解有效的最小秩,zr为低秩分解的向量,Mr为第一秩分解因子,Nr为第二秩分解因子,为哈密顿积。
更进一步地,所述S4包括:将所述融合行为特征输入分类器中,依次通过dropout层和全连接层后,利用softmax函数在输出分类层中计算每个动作的得分,将得分最高的动作作为所述人体动作并输出。
按照本发明的另一个方面,提供了一种基于多模态异构信息融合的人体行为识别系统,包括:捕获及提取模块,用于捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取所述RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;第一融合模块,用于对所述加速度特征形成的循环矩阵和所述角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;第二融合模块,用于对所述惯性传感器融合特征向量与所述视频特征进行基于塔克分解的双模态融合,得到融合行为特征;识别模块,用于将所述融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。
按照本发明的另一个方面,提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如上所述的基于多模态异构信息融合的人体行为识别方法。
按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的基于多模态异构信息融合的人体行为识别方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)利用每个异构模态特征的特殊性,对提取的加速度特征、角速度特征和视频数据特征进行多模态分层特征融合,按照层次化的形式对惯性传感器和视频数据在特征层进行融合,分别进行传感器信号融合和异质信息内容融合,以获得更加全面的行为特征表示,让不同模态信息得到合理组织,对三模态特征实现更细致的融合,提高人体行为识别的精度;
(2)相较于传统基于级联和相加的特征融合方法而言,本发明实施例中基于多模态分层的特征融合方法,利用分层机制和塔克分解,保留了原始行为特征的语义信息,能更有效地计算多模态行为数据间的相关性,消除了不同模态之间的异质性的影响,具有更高的人体行为识别准确率;
(3)从多角度、多视角对人体行为识别进行了详细分析,解决了单一模态信息缺失的问题,利用惯性传感器和RGB视频取长补短的方式灵活地进行融合,与单独使用一种模态相比,本发明实施例中的基于多模态异构信息融合的人体行为识别方法能够保证人体行为识别系统的可行性、高效性和可靠性。
附图说明
图1为本发明实施例提供的基于多模态异构信息融合的人体行为识别方法的流程图;
图2为本发明实施例提供的基于多模态异构信息融合的人体行为识别系统的框图;
图3为本发明实施例提出的电子设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的基于多模态异构信息融合的人体行为识别方法的流程图。参阅图1,该基于多模态异构信息融合的人体行为识别方法包括操作S1-操作S4。
操作S1,捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征。
本实施例适用于惯性传感器和视频模态的人体行为识别,主要以加速度计、陀螺仪和RGB视频数据为例,提供加速度计数据a∈A、陀螺仪数据g∈G、RGB视频数据v∈V,目的是给出此时人体行为正在执行的最接近动作。训练过程中,目的在于学习一种模型,以使预测行为与正确行为action相匹配。若模型的整个参数集合表示为Θ,则预测输出可表示:
具体地,操作S1中,例如使用摄像机、加速度计和陀螺仪在同一个时间段内分别捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,形成包含三种异构类型数据的多模态异构信息。
捕获数据之后,特征提取之前,需要对捕获到的数据进行预处理操作。具体地,删除预设起始时间段内捕获的RGB视频序列、加速度信号和角速度信号,减少蓝牙通信延时带来的影响;对删除后的数据进行最小-最大归一化处理;对最小-最大归一化处理后动作长度小于目标尺寸的数据进行零填充。
根据本发明的实施例,操作S1中特征提取包括:利用深度三维卷积神经网络对RGB视频序列进行特征提取,得到视频特征;利用包含卷积神经网络和长短期记忆网络的ConvLSTM模型对加速度信号和角速度信号进行特征提取,得到加速度特征和角速度特征。
具体地,对于RGB视频序列,采用深度三维卷积神经网络来提取视频的特征向量。三维卷积神经网络在二维卷积的过程中加上了时间维度的信息进行卷积,通过三维卷积操作将时序行为数据相互重叠在一起,以完成视频的特征提取。通过控制各层次的维度,最终将RGB视频序列表示成特定维度的特征向量。三维卷积神经网络提取的时空特征中蕴含与视频中的人物、环境和行为有关的信息,从而使这些时空特征可以用于不同的工作,而不需要针对每个工作的具体模型进行调整。
对于加速度信号和角速度信号这类惯性传感器数据,采用基于深度学习的ConvLSTM特征提取方法。ConvLSTM方法融合了卷积神经网络(Convolutional NeuralNetworks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)两种方法,同时具备CNN处理行为特征和LSTM处理时间依赖性的优势。首先,利用一维卷积操作捕获卷积核窗口内的时间信号结构,通过卷积神经网络强大的特征提取能力获得惯性传感器信号本身的关键行为特征;然后,通过双层LSTM获取不同信号帧之间上下文关联的时域信息,利用门控机制选择性地保留输入的CNN提取特征中获得的行为信息,以更好地对惯性传感器信号特征进行时序激励,获得与行为识别相关的时空特征,实现空间-时间行为特征学习。
本实施例中,可以利用特征提取模块分别提取加速度计、陀螺仪和RGB视频的高层语义特征向量。对于加速度计子网络、陀螺仪子网络和RGB视频子网络而言,三者都采用了端到端的训练模式。
操作S2,对加速度特征形成的循环矩阵和角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量。
根据本发明的实施例,操作S2包括子操作S21和子操作S23。
在子操作S21中,将加速度特征逐次逐数据平移以生成多个加速度向量,将多个加速度向量组合形成加速度循环特征矩阵。
具体地,构建特征右循环矩阵,将加速度特征向量a每次平移一个元素生成多个向量,将这些向量组合成加速度循环特征矩阵A。同样地,也可以对角速度特征向量g构造角速度循环特征矩阵G。循环矩阵内包含的行为信息是由a和g决定。引入A是为了让特征向量a和g中各元素能够进行所有可能的交互。
形成的加速度循环特征矩阵为:
在子操作S22中,将角速度特征形成的角速度特征向量与加速度循环特征矩阵相乘后进行归一化处理,得到交互特征向量。
N阶循环矩阵A中的每一行是加速度特征向量a向右依序循环一个元素的结果,这样才能保证矩阵乘法后可以得到所有惯性传感器的特征交互,以充分融合两个特征向量。
将特征向量重塑为循环矩阵之后,角速度特征向量g和矩阵A相乘,可以挖掘加速度和角速度特征的关系。为了保证特征交互f和惯性传感器自身特征对行为识别有相同的作用,避免不同数值范围的影响,需要将融合后特征交互f进行归一化处理,交互特征向量f的计算公式为:
在子操作S23中,将加速度特征形成的加速度特征向量、角速度特征向量和交互特征向量进行级联融合,得到惯性传感器融合特征向量。
a和g的每个特征交叉项都在f中。进一步地,向交互特征向量f中引入加速度计和陀螺仪各自本身的一维行为特征,将a、g、f三个特征向量进行级联融合,获得最终的惯性传感器融合特征向量s:
其中,A为加速度循环特征矩阵,AT为A的转置,a为加速度特征向量,g为角速度特征向量,ai为a中第i个元素,gi为g中第i个元素,i=1,2,3…,N,N为a和g的维数。
基于此,最终的惯性传感器融合特征向量s的维数从二维张量融合方法的(N+1)2降为3N,特征维数得到控制。由于在循环矩阵乘法运算中没有引入新的参数,有效控制了融合模型的参数,降低了训练的难度。
操作S3,对惯性传感器融合特征向量与视频特征进行基于塔克分解的双模态融合,得到融合行为特征。
根据本发明的实施例,操作S3包括子操作S31-子操作S33。
在子操作S31中,对特征权重张量τ进行塔克分解。权重张量τ塔克分解的表达式为:
τ=((τc×1Ws)×2Wv)×3W0
其中,塔克分解是主成分分析的多线性形式,也称为高阶奇异值分解,每个张量都可以不唯一地表示为核心张量(主成分因子)和所有阶上的因子矩阵的乘积。使用塔克分解有两个优点:与需要评估秩的大小以逼近初始张量的CP分解相比,使用塔克分解能获得更精确的张量分解结果;此外,还可以通过调整核心张量维度来实现对每个模态特征向量进行融合特征选择的目的。
在子操作S32中,对惯性传感器融合特征向量s、视频特征形成的视频特征向量v各自加一维1后降维,得到相应的低维稠密向量s′和v′。
y=zTW0
z=(τc×1s′)×2v′
在子操作S33中,对低维稠密向量进行双模态融合,并向塔克分解得到的核心张量τc中引入结构化稀疏约束,得到融合行为特征y。为了进一步减少融合模型的计算复杂度,平衡交互融合建模的复杂性和表达性。根据核心张量τc的稀疏性,引入结构化稀疏约束,将权重核心张量τc分解为多个因子。秩约束在训练的过程中作为正则化器来防止过拟合,能够灵活的调整输入和数据的映射,最终得到的融合行为特征y为:
y=zTW0
其中,×1为在第一维相乘,×2为在第二维相乘,×3为在第三维相乘;Ws为惯性传感器融合特征向量的低维映射权重矩阵,Wv为视频特征向量的低维映射权重矩阵,W0为融合行为特征向量的映射权重矩阵,用于控制特征向量的维度;y为融合行为特征,z为中间向量,s′为惯性传感器融合特征向量相应的低维稠密向量,v′为视频特征向量相应的低维稠密向量,zT、s′T、v′T分别为z、s′、v′的转置,z可分解为R个向量zr,R为使得分解有效的最小秩,zr为低秩分解的向量,Mr为第一秩分解因子,Nr为第二秩分解因子,为哈密顿积。
在权重张量τ中引入秩约束可以将融合向量z分解为R个向量zr的求和。为了得到所有特征向量zr,将特征向量s和v投影在同一个空间中,并使用哈密顿积将其融合。
操作S4,将融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。
根据本发明的实施例,操作S4包括:将融合行为特征y输入分类器中,依次通过dropout层和全连接层后,利用softmax函数在输出分类层中计算每个动作的得分,将得分最高的动作作为人体动作并输出。
dropout层可以随机删除网络中的一部分节点,即向神经网络中引入部分噪声,但保留这些节点的权重,可以有效防止模型过拟合。全连接层将融合特征向量映射到具体的动作上,最后使用softmax函数从输出分类层中计算每个类别或动作的概率得分,然后对其进行排序,取排序靠前的数据为最终识别结果。
图2为本发明实施例提供的基于多模态异构信息融合的人体行为识别系统的框图。参阅图2,该基于多模态异构信息融合的人体行为识别系统200包括捕获及提取模块210、第一融合模块220、第二融合模块230以及识别模块240。
捕获及提取模块210例如执行操作S1,用于捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征。
第一融合模块220例如执行操作S2,用于对加速度特征形成的循环矩阵和角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量。
第二融合模块230例如执行操作S3,用于对惯性传感器融合特征向量与视频特征进行基于塔克分解的双模态融合,得到融合行为特征。
识别模块240例如执行操作S4,用于将融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。
基于多模态异构信息融合的人体行为识别系统200用于执行上述图1所示实施例中的基于多模态异构信息融合的人体行为识别方法。本实施例未尽之细节,请参阅前述图1所示实施例中的基于多模态异构信息融合的人体行为识别方法,此处不再赘述。
本公开的实施例还示出了一种电子设备,如图3所示,电子设备300包括处理器310、可读存储介质320。该电子设备300可以执行上面图1中描述的基于多模态异构信息融合的人体行为识别方法。
具体地,处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器310还可以包括用于缓存用途的板载存储器。处理器310可以是用于执行参考图1描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
可读存储介质320,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
可读存储介质320可以包括计算机程序321,该计算机程序321可以包括代码/计算机可执行指令,其在由处理器310执行时使得处理器310执行例如上面结合图1所描述的方法流程及其任何变形。
计算机程序321可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序321中的代码可以包括一个或多个程序模块,例如包括321A、模块321B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器310执行时,使得处理器310可以执行例如上面结合图1所描述的方法流程及其任何变形。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多模态异构信息融合的人体行为识别方法,其特征在于,包括:
S1,捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取所述RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;
S2,对所述加速度特征形成的循环矩阵和所述角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;
S3,对所述惯性传感器融合特征向量与所述视频特征进行基于塔克分解的双模态融合,得到融合行为特征;
S4,将所述融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。
2.如权利要求1所述的基于多模态异构信息融合的人体行为识别方法,其特征在于,所述S1中特征提取之前还包括:
删除预设起始时间段内捕获的RGB视频序列、加速度信号和角速度信号,并对删除后的数据进行最小-最大归一化处理;
对最小-最大归一化处理后动作长度小于目标尺寸的数据进行零填充。
3.如权利要求1或2所述的基于多模态异构信息融合的人体行为识别方法,其特征在于,所述S1中特征提取包括:
利用深度三维卷积神经网络对所述RGB视频序列进行特征提取,得到所述视频特征;
利用包含卷积神经网络和长短期记忆网络的ConvLSTM模型对所述加速度信号和角速度信号进行特征提取,得到所述加速度特征和角速度特征。
4.如权利要求1所述的基于多模态异构信息融合的人体行为识别方法,其特征在于,所述S2包括:
将所述加速度特征逐次逐数据平移以生成多个加速度向量,将所述多个加速度向量组合形成加速度循环特征矩阵;
将所述角速度特征形成的角速度特征向量与所述加速度循环特征矩阵相乘后进行归一化处理,得到交互特征向量;
将所述加速度特征形成的加速度特征向量、所述角速度特征向量和所述交互特征向量进行级联融合,得到所述惯性传感器融合特征向量。
6.如权利要求1所述的基于多模态异构信息融合的人体行为识别方法,其特征在于,所述S3包括:
对特征权重张量τ进行塔克分解,所述塔克分解为:
τ=((τc×1Ws)×2Wv)×3W0
对所述惯性传感器融合特征向量、所述视频特征形成的视频特征向量各自加一维1后降维,得到相应的低维稠密向量;
对所述低维稠密向量进行双模态融合,并向塔克分解得到的核心张量τc中引入结构化稀疏约束,得到所述融合行为特征:
y=zTW0
7.如权利要求1所述的基于多模态异构信息融合的人体行为识别方法,其特征在于,所述S4包括:
将所述融合行为特征输入分类器中,依次通过dropout层和全连接层后,利用softmax函数在输出分类层中计算每个动作的得分,将得分最高的动作作为所述人体动作并输出。
8.一种基于多模态异构信息融合的人体行为识别系统,其特征在于,包括:
捕获及提取模块,用于捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取所述RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;
第一融合模块,用于对所述加速度特征形成的循环矩阵和所述角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;
第二融合模块,用于对所述惯性传感器融合特征向量与所述视频特征进行基于塔克分解的双模态融合,得到融合行为特征;
识别模块,用于将所述融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项所述的基于多模态异构信息融合的人体行为识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的基于多模态异构信息融合的人体行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111126363.6A CN113869189B (zh) | 2021-09-24 | 2021-09-24 | 人体行为识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111126363.6A CN113869189B (zh) | 2021-09-24 | 2021-09-24 | 人体行为识别方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113869189A true CN113869189A (zh) | 2021-12-31 |
CN113869189B CN113869189B (zh) | 2024-08-09 |
Family
ID=78994366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111126363.6A Active CN113869189B (zh) | 2021-09-24 | 2021-09-24 | 人体行为识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869189B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821766A (zh) * | 2022-03-10 | 2022-07-29 | 电子科技大学 | 一种基于时空卷积和时间序列特征融合的行为识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010207488A (ja) * | 2009-03-12 | 2010-09-24 | Gifu Univ | 行動解析装置及びプログラム |
CN111931795A (zh) * | 2020-09-25 | 2020-11-13 | 湖南大学 | 基于子空间稀疏特征融合的多模态情感识别方法及系统 |
CN111967362A (zh) * | 2020-08-09 | 2020-11-20 | 电子科技大学 | 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法 |
-
2021
- 2021-09-24 CN CN202111126363.6A patent/CN113869189B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010207488A (ja) * | 2009-03-12 | 2010-09-24 | Gifu Univ | 行動解析装置及びプログラム |
CN111967362A (zh) * | 2020-08-09 | 2020-11-20 | 电子科技大学 | 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法 |
CN111931795A (zh) * | 2020-09-25 | 2020-11-13 | 湖南大学 | 基于子空间稀疏特征融合的多模态情感识别方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821766A (zh) * | 2022-03-10 | 2022-07-29 | 电子科技大学 | 一种基于时空卷积和时间序列特征融合的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113869189B (zh) | 2024-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569795B (zh) | 一种图像识别方法、装置以及相关设备 | |
US11314806B2 (en) | Method for making music recommendations and related computing device, and medium thereof | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
Singh et al. | A deeply coupled ConvNet for human activity recognition using dynamic and RGB images | |
EP3757905A1 (en) | Deep neural network training method and apparatus | |
US11126660B1 (en) | High dimensional time series forecasting | |
CN108090408A (zh) | 用于执行脸部表情识别和训练的方法和设备 | |
CN111797858A (zh) | 模型训练方法、行为预测方法、装置、存储介质及设备 | |
EP3757817A1 (en) | Electronic device and control method therefor | |
KR102637133B1 (ko) | 온-디바이스 활동 인식 | |
CN111368656A (zh) | 一种视频内容描述方法和视频内容描述装置 | |
Rozado et al. | Extending the bioinspired hierarchical temporal memory paradigm for sign language recognition | |
CN112182362A (zh) | 训练用于在线预测点击率的模型的方法、设备及推荐系统 | |
CN107111357A (zh) | 使用手势元素的手势识别 | |
CN113722583A (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
WO2021190433A1 (zh) | 更新物体识别模型的方法和装置 | |
KR20190053481A (ko) | 사용자 관심 정보 생성 장치 및 그 방법 | |
CN115937975A (zh) | 一种基于多模态序列融合的动作识别方法及系统 | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
CN115186133A (zh) | 视频生成方法、装置、电子设备及介质 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN111785372A (zh) | 基于关联规则的协同过滤疾病预测系统及其电子设备 | |
CN113869189B (zh) | 人体行为识别方法、系统、设备及介质 | |
KR102433071B1 (ko) | 통신 네트워크에서 센서 데이터를 처리하기 위한 프레임 워크 및 이의 운영 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |