CN116434335A - 动作序列识别和意图推断方法、装置、设备及存储介质 - Google Patents
动作序列识别和意图推断方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116434335A CN116434335A CN202310335615.9A CN202310335615A CN116434335A CN 116434335 A CN116434335 A CN 116434335A CN 202310335615 A CN202310335615 A CN 202310335615A CN 116434335 A CN116434335 A CN 116434335A
- Authority
- CN
- China
- Prior art keywords
- sequence
- action
- pseudo
- discrete
- skeleton
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 276
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000003062 neural network model Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000007499 fusion processing Methods 0.000 claims abstract description 26
- 230000033001 locomotion Effects 0.000 claims description 62
- 230000004927 fusion Effects 0.000 claims description 58
- 238000001514 detection method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 239000012634 fragment Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种动作序列识别和意图推断方法、装置、设备及存储介质,实现对动作序列的意图推断,进一步提升意图推断的有效性和适用性。动作序列识别和意图推断方法,包括:获取包含多个离散动作的动作序列,动作序列包括RGB图像序列、深度图像序列和骨架图像序列;根据RGB图像序列和深度图像序列生成伪视频图像,以及根据骨架图像序列生成伪骨架图像;将伪视频图像和伪骨架图像输入到语义特征提取神经网络模型,提取多个离散动作的高层语义特征;将伪骨架图像输入到关联特征提取神经网络模型,提取多个离散动作的逻辑关联特征;对高层语义特征和逻辑关联特征进行特征融合处理,得到动作序列的意图推断结果。
Description
技术领域
本申请属于动作识别技术领域,尤其涉及一种动作序列识别和意图推断方法、装置、设备及存储介质。
背景技术
人体动作识别作为人工智能的重要研究分支,结合机器视觉、动作分割和多任务学习等技术,可以实现复杂场景下的无扰式的行为者意图推断。在日常生活工作中,正确高效地对行为者的意图进行推断,可以极大的提高生活体验感和工作效率,例如,在对行为者的生活辅助过程中,可以对行为者的动作轨迹进行识别,并通过智能算法对行为者的意图进行推断,从而可以预测和辅助行为者完成目标动作。
一方面,人体动作的识别可以通过机器视觉和智能算法实现,但由于单一模态数据很容易受到光视角等背景噪声的影响而识别准确率不高,尤其是在一些光线不好的应用场景中更加难以准确识别行为者的动作;另一方面,目前的人体动作识别大多是针对离散动作的离散识别,难以实现行为者的一系列动作序列之后的意图推断。
发明内容
有鉴于此,本申请实施例提供了一种动作序列识别和意图推断方法、装置、设备及存储介质,以解决现有技术中难以实现行为者一系列的动作序列之后的意图推断的问题。
本申请实施例的第一方面提供了一种动作序列识别和意图推断方法,包括:
获取包含多个离散动作的动作序列,所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列;
根据所述RGB图像序列和所述深度图像序列生成伪视频图像,以及根据所述骨架图像序列生成伪骨架图像,其中,所述伪视频图像包含RGB图像序列和所述深度图像序列的特征,所述伪骨架图像包含所述伪骨架图像的特征;
将所述伪视频图像和所述伪骨架图像输入到语义特征提取神经网络模型,提取多个所述离散动作的高层语义特征;
将所述伪骨架图像输入到关联特征提取神经网络模型,提取多个所述离散动作的逻辑关联特征;
对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果。
在一种实施例中,所述对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果,包括:
对多个所述高层语义特征进行特征融合处理,并将特征融合后的所述高层语义特征输入到第一卷积神经网络模型中,得到第一融合特征;
将多个所述高层语义特征按所述动作序列的顺序依次输入到第二卷积神经网络模型,并与所述逻辑关联特征进行特征融合处理,得到第二融合特征;
对所述第一融合特征、所述第二融合特征和所述逻辑关联特征进行特征融合和正则化处理,得到所述动作序列的意图推断结果。
在一种实施例中,所述获取包含多个离散动作的动作序列,包括:
基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,获取包含多个所述离散动作的所述动作序列;
所述基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,包括:
在所述原始视频中确定滑动窗口的起始帧位置和滑动帧位置;
获取所述起始帧位置的所述离散动作的概率分布值,以及所述滑动帧位置对应的所述离散动作的概率分布值;
根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界;
根据所述动作边界将所述原始视频划分为多个所述离散动作。
在一种实施例中,所述根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界,包括:
计算所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值的差值PDDi;
根据所述差值PDDi,确定所述离散动作的动作边界,其中,
Wf()为滑动窗口,f为窗口大小,f小于或等于最小动作帧数,i为滑动窗口的起始帧位置,l为滑动帧步长,i+l为滑动窗口的滑动帧位置,PDW为滑动窗口的概率分布值,K为离散动作种类数,cn表示具体的离散动作类别,A(n)表示在滑动帧位置被识别为c的概率,PB(n)表示在起始帧位置被识别为c的概率。
在一种实施例中,所述根据所述骨架图像序列生成伪骨架图像,包括:
将所述骨架图像序列的关节点的坐标映射为矩阵;
根据所述矩阵中每个所述关节点的时间变化值,构建关节运动结构;
根据所述关节运动结构,构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动;
根据所述基于量级的第一关节运动和所述基于方向的第二关节运动,生成所述伪骨架图像。
在一种实施例中,所述关节运动结构Dc,为所述骨架图像序列中两帧图像之间的每个关节点的时间S的差值:
Dc,=Sc,-Sc
其中,C为关节点数量,t为动作序列帧数,d为两帧图像之间的距离;
所述根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动,包括:
根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于量级的第一关节运动Mc,:
根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于方向的第二关节运动θc,:
其中,x,y,z为关节点坐标。
在一种实施例中,在所述得到所述动作序列的意图推断结果之后,还包括:
获取多个所述离散动作的动作识别结果;
根据多个所述离散动作的动作识别结果和所述动作序列的意图推断结果,进行预警处理;
所述获取多个所述离散动作的动作识别结果,包括:
将所述伪视频图像输入到第三卷积神经网络模型中,得到第三融合特征;
将所述伪骨架图像输入到第四卷积神经网络模型中,得到骨架融合特征;
对所述骨架融合特征和所述第三融合特征进行特征融合处理,获取多个所述离散动作的动作识别结果。
本申请实施例的第二方面提供了一种动作序列识别和意图推断装置,包括:
序列获取模块,用于获取包含多个离散动作的动作序列,所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列;
图像生成模块,用于根据所述RGB图像序列和所述深度图像序列生成伪视频图像,以及根据所述骨架图像序列生成伪骨架图像,其中,所述伪视频图像包含所述RGB图像序列和所述深度图像序列的特征,所述伪骨架图像包含所述伪骨架图像的特征;
第一提取模块,将所述伪视频图像和所述伪骨架图像输入到第一特征提取神经网络模型中,提取多个所述离散动作的高层语义特征;
第二提取模块,用于将所述伪骨架图像输入到第二特征提取神经网络模型中,提取多个所述离散动作的逻辑关联特征;
特征融合模块,用于对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:通过获取包含多个离散动作的动作序列,动作序列包括RGB图像序列、深度图像序列和骨架图像序列三种模态数据,多模态数据为同一离散动作提供了丰富的时空信息特征,能够对同一离散动作的多模态一致互补信息进行充分特征融合学习,实现对离散动作的高效识别;根据RGB图像序列和深度图像序列生成伪视频图像,根据骨架图像序列生成伪骨架图像,伪视频图像保留了RGB图像序列和深度图像序列的特征信息,伪骨架图像保留了骨架图像序列的特征信息,再根据伪视频图像和伪骨架图像提取得到离散动作的高层语义特征和逻辑关联特征,充分考虑到融合不同离散动作之间的逻辑关联特征和高层语义特征,实现对动作序列的意图推断,进一步提升意图推断的有效性和适用性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的动作序列识别和意图推断方法的整体示意图;
图2是本申请实施例提供的一种动作序列识别和意图推断方法的实现流程示意图;
图3是本申请实施例提供的生成伪视频图像的示意图;
图4是本申请实施例提供的生成伪骨架图像的示意图;
图5是本申请实施例提供的动作序列的意图推断过程的示意图;
图6是本申请实施例提供的离散动作识别的示意图;
图7是本申请实施例提供的预警处理过程的示意图;
图8是本申请实施例提供的一种动作序列识别和意图推断装置的示意图;
图9是本申请实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
需说明的是,术语“上”、“下”、“左”、“右”等指示的方位或位置关系,仅是为了便于描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。术语“第一”、“第二”仅用于便于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明技术特征的数量。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
动作序列由一系列的离散动作组成,目前针对离散动作的识别方法有很多,但针对动作序列识别和意图推断的方法相对较少。在离散动作识别中,可以利用RGB信息、深度信息和骨架信息等模态数据进行识别,不同的模态数据可以表示不同的来源信息,在不同的应用场景中有不同的优势,但不同模态的缺点给动作识别方法带来了严峻挑战,而且动作识别还容易受到训练样本的数量和质量等因素的影响,且动作序列数据集样本的缺乏,使得动作序列的意图推断研究受到巨大阻扰。
为了提高动作识别的整体性能和动作序列的意图推断的有效性,本申请实施例提出了一种动作序列识别和意图推断方法、装置、设备及存储介质,通过获取包含多个离散动作的动作序列,动作序列包括RGB图像序列、深度图像序列和骨架图像序列三种模态数据,多模态数据为同一离散动作提供了丰富的时空信息特征,能够对同一离散动作的多模态一致互补信息进行充分特征嵌入学习,实现对离散动作的高效识别;根据RGB图像序列和深度图像序列生成伪视频图像,根据骨架图像序列生成伪骨架图像,伪视频图像保留了RGB图像序列和深度图像序列的特征信息,伪骨架图像保留了骨架图像序列的特征信息,再根据伪视频图像和伪骨架图像提取得到离散动作的高层语义特征和逻辑关联特征,充分考虑到融合不同离散动作之间的逻辑关联特征和高层语义特征,实现对动作序列的意图推断,进一步提升意图推断的有效性和适用性。与现有其它技术相比,本申请实施例设计了三种模态特征嵌入学习方法、离散动作识别和动作序列识别及意图理解方法,有利于为智能系统(比如机器人系统)提供集成化模块;通过对行为者动作序列的识别和意图推断,实现智能监控、人机交互等领域的算法补充。
本申请实施例提出一种动作序列识别和意图推断方法、装置、设备及存储介质,如图1所示,主要包括:对采集到的包含RGB视频、深度图像和骨架数据信息的原始视频进行动作分割,以得到RGB、深度图像和骨架数据模态一一对应的一系列动作数据,即分割为多个离散动作,每个离散动作包含对应的RGB图像序列、深度图像序列和骨架图像序列;然后,设计语义特征提取神经网络模型提取离散动作的高层语义特征,以及关联特征提取神经网络模型提取动作序列的逻辑关联特征,实现对动作序列的联合学习和意图推断;以及实现行为者意图理解和异常动作预警提醒。
具体地,如图2所示,本申请实施例的第一方面提供了一种动作序列识别和意图推断方法,包括以下步骤:
S101、获取包含多个离散动作的动作序列,所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列。
在本申请实施例中,离散动作是指人体或动物或机器人等行为者执行的单一动作,例如人体的起立、坐下、走到冰箱前和打开冰箱等动作,动作序列是指由多个离散动作组成的一系列动作,例如人体从“走到冰箱前”、“打开冰箱”、“拿出矿泉水”等一系列动作。其中,本申请实施例根据三种模态数据将动作序列分为三种序列,分别是RGB图像序列、深度图像序列和骨架图像序列,RGB图像序列包含像素特征,深度图像序列包含深度特征,骨架图像序列包含骨架特征,三种序列是一一对应的,即RGB图像序列的第一帧图像、深度图像序列的第一帧图像、与骨架图像序列的第一帧图像对应,RGB图像序列的第二帧图像、深度图像序列的第二帧图像、与骨架图像序列的第二帧图像对应,以此类推。
在一种实施方式中,所述获取包含多个离散动作的动作序列,包括:
基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,获取包含多个所述离散动作的所述动作序列;
所述基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,包括:
在所述原始视频中确定滑动窗口的起始帧位置和滑动帧位置;
获取所述起始帧位置的所述离散动作的概率分布值,以及所述滑动帧位置对应的所述离散动作的概率分布值;
根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界;
根据所述动作边界将所述原始视频划分为多个所述离散动作。
在实际生活中,由于摄像机采集到的原始视频并非是单一的离散动作,因此需要对原始视频进行动作分割处理,分割为多个有效的离散动作,获取包含多个离散动作的动作序列。目前基于视觉信息的动作分割方法主要有边界检测方法和滑动窗口方法,边界检测方法一般根据动作的速度、加速度或曲率的断点和极值来检测动作的边界,其缺点在于对运动误差比较敏感,边界检测不稳定,容易对长时间复杂性运动混淆;滑动窗口方法通过将视频划分为多个重叠的片段,在各个片段上依次计算,选取得分最高的片段作为动作位置,其缺点在于计算量较大。
本申请实施例在以上两种方法的基础上,提出一种概率分布差的动态间接检测方法对原始视频进行动作分割处理,分别通过计算滑动窗口中起始帧位置和滑动帧位置的离散动作的概率分布值,当滑动窗口滑动到离散动作的边界时,起始帧位置和滑动帧位置的概率分布值的差值会增大,从而可以确定出离散动作的边界,通过确定的边界将原始视频划分为多个有效的离散动作,并得到包含多个离散动作的动作序列,克服了目前已有动作分割方法中边界检测不稳定、以及计算量较大等问题。
在一种实施方式中,所述根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界,包括:
计算所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值的差值PDDi;
根据所述差值PDDi,确定所述离散动作的动作边界,其中,
Wf()为滑动窗口,f为窗口大小,f小于或等于最小动作帧数,i为滑动窗口的起始帧位置,l为滑动帧步长,i+l为滑动窗口的滑动帧位置,PDW为滑动窗口的概率分布值,K为离散动作种类数,cn表示具体的离散动作类别,PA(n)表示在滑动帧位置被识别为c的概率,PB(n)表示在起始帧位置被识别为c的概率。
具体地,概率分布值指的是离散动作在滑动窗口内出现的多种概率的分布情况,基于概率分布差的动态间接检测方法包括:首先,在原始视频中确定滑动窗口的起始帧位置i和滑动帧位置i+l;然后,将每个滑动窗口作为一个单独的视频片段,并计算离散动作的概率,根据离散动作在起始帧位置识别得到的概率和在滑动帧位置识别得到的概率,获取离散动作在每个滑动窗口的起始帧位置的概率分布值和在滑动帧位置的概率分布值/>最后,根据离散动作在起始帧位置的概率分布值/>和在滑动帧位置的概率分布值/>的差值PDDi,确定离散动作的动作边界,当滑动窗口滑动到动作边界时,动作识别的概率分布值的差值PDDi会增大,由此即可将原始视频划分为多个有效的离散动作。
S102、根据所述RGB图像序列和所述深度图像序列生成伪视频图像,以及根据所述骨架图像序列生成伪骨架图像,其中,伪视频图像包含所述RGB图像序列和所述深度图像序列的特征,所述伪骨架图像包含所述骨架图像序列的特征。
本申请实施例通过将原始视频划分为多个离散动作的动作序列,获取动作序列中的的RGB图像序列、深度图像序列和骨架图像序列三种模态数据,并根据RGB图像序列和深度图像序列生成伪视频图像,以及根据骨架图像序列生成伪骨架图像,伪视频图像包含了RGB图像序列和深度图像序列中各帧图像具有的时空特征信息,伪骨架图像包含了骨架图像序列中各帧图像具有的时空特征信息,后续能够通过提取伪视频图像和伪骨架图像中相应的特征来实现离散动作的多模态一致互补信息的充分特征融合学习,提升动作序列识别的高效性。
具体地,根据RGB图像序列和深度图像序列生成伪视频图像,可以对RGB图像序列和深度图像序列采用稀疏采样方法来降低计算量和去除帧间冗余的信息,实现在得到包含整个动作序列的RGB图像和深度图像的时空特征信息的同时,降低整体算法的计算量。
对于RGB图像序列,将其分为多个序列片段,例如可以分为三个序列片段,在每个序列片段中随机抽样出一帧图像组合成RGB图像片段;对于深度图像序列,同样将其分为多个序列片段,例如可以分为三个序列片段,在每个序列片段中随机抽样出一帧图像,得到相应的三张深度图像;然后,如图3所示,将一个RGB图像片段和三张深度图像输入到降维卷积模型中,降维卷积模型可以为1×1卷积降维神经网络模型,并经过正则化处理以及ReLU激活函数激活后,得到3通道或单通道的伪视频图像,得到的伪视频图像能够满足不同输入需求的深度神经网络模型,比如ResNet、BNInception、VGG等,生成的伪视频图像包含了RGB图像序列和深度图像序列丰富的时空特征信息。
在一种实施方式中,所述根据所述骨架图像序列生成伪骨架图像,包括:
将所述骨架图像序列对应的关节点坐标映射为矩阵;
根据所述矩阵中每个所述关节点的时间变化值,构建关节运动结构;
根据所述关节运动结构,构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动;
根据所述基于量级的第一关节运动和所述基于方向的第二关节运动,生成所述伪骨架图像。
具体地,基于量级的第一关节运动和基于方向的第二关节运动生成伪骨架图像,生成的伪骨架图像包含骨架图像序列具有的各帧骨架图像的时空特征信息。其中,对于输入的骨架图像序列,首先对每一帧骨架图像上的骨架关节采用深度优先的树形遍历顺序生成预定义的链式顺序,然后对骨架图像序列对应的关节点的坐标映射为一个可计算的矩阵L(L∈C×T×3,C为链上的关节点数量,T是骨架图像序列的总帧数,3是关节点坐标x,y,z的数量)。
如图4所示,将骨架图像序列映射为矩阵L之后,根据矩阵L的每一列的关节点的时间变化构建关节运动结构,并根据关节运动结构分别构建基于量级的第一关节运动和基于方向的第二关节运动,由此生成伪骨架图像。
在一种实施例中,所述关节运动结构Dc,为所述骨架图像序列中两帧图像之间的每个关节点的时间S的差值:
Dc,=Sc,-Sc
其中,C为关节点数量,t为动作序列的帧数,d为两帧图像之间的距离;
所述根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动,包括:
根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于量级的第一关节运动Mc,:
根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于方向的第二关节运动θc,:
其中,x,y,z为关节点坐标。
具体地,由于关节运动结构Dc,为骨架图像序列中两帧骨架图像之间的每个关节点的时间S的差值,矩阵L是骨架图像序列的关节点的坐标的映射,将矩阵L转化为基于关节运动结构Dc,的矩阵,形成一个C×T-d×3的矩阵,并分别建立基于量级的第一关节运动Mc,和基于方向的第二关节运动θc,t,其中Mc,的大小为C×T-d×1,θc,的大小为C×T-d×3(由3个堆叠的通道组成),最后用Mc,和θc,分别表示矩阵,将矩阵归一化为[0,1]并适当调整图像大小,即可得到伪骨架图像。
S103、将所述伪视频图像和所述伪骨架图像输入到语义特征提取神经网络模型,提取多个所述离散动作的高层语义特征。
S104、将所述伪骨架图像输入到关联特征提取神经网络模型,提取多个所述离散动作的逻辑关联特征。
S105、对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果。
在本申请实施例中,高层语义特征一般指神经网络模型学习完成后输出的能够表达出最接近人类理解的图像特征。将伪视频图像和伪骨架图像输入到已训练的语义特征提取神经网络模型中,提取多个离散动作的高层语义特征,其中,语义特征提取神经网络模型可以是多流神经网络模型。逻辑关联特征表达出动作序列中多个离散动作之间的逻辑关联关系,将伪骨架图像输入到关联特征提取神经网络模型中,提取离散动作之间的逻辑关联特征,其中,关联特征提取神经网络模型可以是多流神经网络模型。最后,通过对高层语义特征和逻辑关联特征进行特征融合处理,实现动作序列的意图推断,进一步提升意图推断的有效性和适用性。
在一种实施方式中,所述对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果,包括:
对多个所述高层语义特征进行特征融合处理,并将特征融合后的多个所述高层语义特征输入到第一卷积神经网络模型中,得到第一融合特征;
将多个所述高层语义特征按所述动作序列的顺序依次输入到第二卷积神经网络模型,并与所述逻辑关联特征进行特征融合处理,得到第二融合特征;
对所述第一融合特征、所述第二融合特征和所述逻辑关联特征进行特征融合和正则化处理,得到所述动作序列的意图推断结果。
如图5所示,图中的“☉”表示特征融合,本申请实施例在得到多个离散动作对应的高层语义特征后,可以通过点乘、加权相加或最大值等方法实现特征融合,并将融合后的高层语义特征输入到第一卷积神经网络模型中,输出得到第一融合特征,其中,第一神经网络模型可以是1×1卷积升维神经网络。
具体地,将多个离散动作对应的高层语义特征按照动作序列的顺序依次输入到第二卷积神经网络模型中,并与伪骨架图像输入关联特征提取神经网络模型中提取得到的逻辑关联特征进行特征融合处理,输出得到第二融合特征,其中,第二神经网络模型可以是三维卷积神经网络,关联特征提取神经网络模型可以是1×1卷积升维神经网络。最后,将第一融合特征、第二融合特征和逻辑关联特征分别进行特征融合和正则化处理来完成整体特征融合,最终实现动作序列的意图推断。
在一种实施例中,在所述得到所述动作序列的意图推断结果之后,还包括:
获取多个所述离散动作的动作识别结果;
根据多个所述离散动作的动作识别结果和所述动作序列的意图推断结果,进行预警处理;
所述获取多个所述离散动作的动作识别结果,包括:
将所述伪视频图像输入到第三卷积神经网络模型中,得到第三融合特征;
将所述伪骨架图像输入到第四卷积神经网络模型中,得到骨架融合特征;
对所述骨架融合特征和所述第三融合特征进行特征融合处理,获取多个所述离散动作的动作识别结果。
本申请实施例除了对动作序列进行意图推断外,还能实现对离散动作的识别,如图6所示,对单一离散动作进行识别的过程为:将伪视频图像输入到第三卷积神经网络模型中,输出得到第三融合特征,将伪骨架图像输入到第四卷积神经网络模型中,输出得到骨架融合特征,其中,第三卷积神经网络模型可以采用三维卷积神经网络,例如采用3D-Resnet等模块等,第四卷积神经网络模型可以采用1×1卷积升维神经网络,通过卷积升维神经网络可以实现骨架融合特征的维度提升,以匹配第三融合特征相应的三维卷积通道数。最后,对第三融合特征和骨架融合特征进行特征融合处理,实现离散动作的识别,避免因环境变化和视角改变等造成的识别性能下降。
如图7所示,通过对多个离散动作进行识别得到多个动作识别结果,将多个动作识别结果和动作序列意图推断结果进行“逻辑与”的计算,当离散识别到的任一动作有危险行为,或者对动作序列进行意图推断后存在较大风险时,能够及时进行异常动作的预警处理。
如图8所示,本申请实施例的第二方面提供了一种动作序列的识别和意图推断装置,包括以下模块:
序列获取模块801,用于获取包含多个离散动作的动作序列,所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列;
图像生成模块802,用于根据所述RGB图像序列和所述深度图像序列生成伪视频图像,以及根据所述骨架图像序列生成伪骨架图像,其中,伪视频图像包含所述RGB图像序列和所述深度图像序列的特征,所述伪骨架图像包含所述骨架图像序列的特征;
第一提取模块803,将所述伪视频图像和所述伪骨架图像输入到第一特征提取神经网络模型中,提取多个所述离散动作的高层语义特征;
第二提取模块804,用于将所述伪骨架图像输入到第二特征提取神经网络模型中,提取多个所述离散动作的逻辑关联特征;
特征融合模块805,用于对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果。
在一种实施方式中,所述对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果,包括:
对多个所述高层语义特征进行特征融合处理,并将特征融合后的所述高层语义特征输入到第一卷积神经网络模型中,得到第一融合特征;
将多个所述高层语义特征按所述动作序列的顺序依次输入到第二卷积神经网络模型,并与所述逻辑关联特征进行特征融合处理,得到第二融合特征;
对所述第一融合特征、所述第二融合特征和所述逻辑关联特征进行特征融合和正则化处理,得到所述动作序列的意图推断结果。
在一种实施方式中,所述获取包含多个离散动作的动作序列,包括:
基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,获取包含多个所述离散动作的所述动作序列;
所述基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,包括:
在所述原始视频中确定滑动窗口的起始帧位置和滑动帧位置;
获取所述起始帧位置的所述离散动作的概率分布值,以及所述滑动帧位置对应的所述离散动作的概率分布值;
根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界;
根据所述动作边界将所述原始视频划分为多个所述离散动作。
在一种实施方式中,所述根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界,包括:
计算所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值的差值PDDi;
根据所述差值PDDi,确定所述离散动作的动作边界,其中,
Wf()为滑动窗口,f为窗口大小,f小于或等于最小动作帧数,i为滑动窗口的起始帧位置,l为滑动帧步长,i+l为滑动窗口的滑动帧位置,PDw为滑动窗口的概率分布值,K为离散动作种类数,cn表示具体的离散动作类别,PA(n)表示在滑动帧位置被识别为c的概率,PB(n)表示在起始帧位置被识别为c的概率。
在一种实施方式中,所述根据所述骨架图像序列生成伪骨架图像,包括:
将所述骨架图像序列的关节点的坐标映射为矩阵;
根据所述矩阵中每个所述关节点的时间变化值,构建关节运动结构;
根据所述关节运动结构,构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动;
根据所述基于量级的第一关节运动和所述基于方向的第二关节运动,生成所述伪骨架图像。
在一种实施方式中,所述关节运动结构Dc,为所述骨架图像序列中两帧图像之间的每个关节点的时间S的差值:
Dc,=Sc,-Sc
其中,C为关节点数量,t为动作序列帧数,d为两帧图像之间的距离;
所述根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动,包括:
根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于量级的第一关节运动Mc,:
根据所述关节运动结构Dc,,构建所述骨架图像序列对应的基于方向的第二关节运动θc,:
其中,x,y,z为关节点坐标。
在一种实施方式中,在所述得到所述动作序列的意图推断结果之后,还包括:
获取多个所述离散动作的动作识别结果;
根据多个所述离散动作的动作识别结果和所述动作序列的意图推断结果,进行预警处理;
所述获取多个所述离散动作的动作识别结果,包括:
将所述伪视频图像输入到第三卷积神经网络模型中,得到第三融合特征;
将所述伪骨架图像输入到第四卷积神经网络模型中,得到骨架融合特征;
对所述骨架融合特征和所述第三融合特征进行特征融合处理,得到多个所述离散动作的动作识别结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请实施例第三方面提供的一种终端设备的示意图。如图9所示,该实施例的终端设备包括:处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92。所述处理器90执行所述计算机程序92时实现上述各个动作序列识别和意图推断方法实施例中的步骤。或者,所述处理器90执行所述计算机程序92时实现上述各装置实施例中各模块/单元的功能。
本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项动作序列识别和意图推断方法的步骤。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种动作序列识别和意图推断方法,其特征在于,包括:
获取包含多个离散动作的动作序列,所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列;
根据所述RGB图像序列和所述深度图像序列生成伪视频图像,以及根据所述骨架图像序列生成伪骨架图像,其中,所述伪视频图像包含所述RGB图像序列和所述深度图像序列的特征,所述伪骨架图像包含所述伪骨架图像的特征;
将所述伪视频图像和所述伪骨架图像输入到语义特征提取神经网络模型,提取多个所述离散动作的高层语义特征;
将所述伪骨架图像输入到关联特征提取神经网络模型,提取多个所述离散动作的逻辑关联特征;
对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果。
2.根据权利要求1所述的一种动作序列识别和意图推断方法,其特征在于,所述对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果,包括:
对多个所述高层语义特征进行特征融合处理,并将特征融合后的所述高层语义特征输入到第一卷积神经网络模型中,得到第一融合特征;
将多个所述高层语义特征按所述动作序列的顺序依次输入到第二卷积神经网络模型,并与所述逻辑关联特征进行特征融合处理,得到第二融合特征;
对所述第一融合特征、所述第二融合特征和所述逻辑关联特征进行特征融合和正则化处理,得到所述动作序列的意图推断结果。
3.根据权利要求1所述的一种动作序列识别和意图推断方法,其特征在于,所述获取包含多个离散动作的动作序列,包括:
基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,获取包含多个所述离散动作的所述动作序列;
所述基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理,包括:
在所述原始视频中确定滑动窗口的起始帧位置和滑动帧位置;
获取所述起始帧位置的所述离散动作的概率分布值,以及所述滑动帧位置对应的所述离散动作的概率分布值;
根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界;
根据所述动作边界将所述原始视频划分为多个所述离散动作。
4.根据权利要求3所述的一种动作序列识别和意图推断方法,其特征在于,所述根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值,确定所述离散动作的动作边界,包括:
计算所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值的差值PDDi;
根据所述差值PDDi,确定所述离散动作的动作边界,其中,
Wf()为滑动窗口,f为窗口大小,f小于或等于最小动作帧数,i为滑动窗口的起始帧位置,l为滑动帧步长,i+l为滑动窗口的滑动帧位置,PDW为滑动窗口的概率分布值,K为离散动作种类数,cn表示具体的离散动作类别,PA(n)表示在滑动帧位置被识别为c的概率,PB(n)表示在起始帧位置被识别为c的概率。
5.根据权利要求1所述的一种动作序列识别和意图推断方法,其特征在于,所述根据所述骨架图像序列生成伪骨架图像,包括:
将所述骨架图像序列的关节点的坐标映射为矩阵;
根据所述矩阵中每个所述关节点的时间变化值,构建关节运动结构;
根据所述关节运动结构,构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动;
根据所述基于量级的第一关节运动和所述基于方向的第二关节运动,生成所述伪骨架图像。
7.根据权利要求1所述的一种动作序列识别和意图推断方法,其特征在于,在所述得到所述动作序列的意图推断结果之后,还包括:
获取多个所述离散动作的动作识别结果;
根据多个所述离散动作的动作识别结果和所述动作序列的意图推断结果,进行预警处理;
所述获取多个所述离散动作的动作识别结果,包括:
将所述伪视频图像输入到第三卷积神经网络模型中,得到第三融合特征;
将所述伪骨架图像输入到第四卷积神经网络模型中,得到骨架融合特征;
对所述骨架融合特征和所述第三融合特征进行特征融合处理,获取多个所述离散动作的动作识别结果。
8.一种动作序列识别和意图推断装置,其特征在于,包括:
序列获取模块,用于获取包含多个离散动作的动作序列,所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列;
图像生成模块,用于根据所述RGB图像序列和所述深度图像序列生成伪视频图像,以及根据所述骨架图像序列生成伪骨架图像,其中,所述伪视频图像包含所述RGB图像序列和所述深度图像序列的特征,所述伪骨架图像包含所述伪骨架图像的特征;
第一提取模块,将所述伪视频图像和所述伪骨架图像输入到第一特征提取神经网络模型中,提取多个所述离散动作的高层语义特征;
第二提取模块,用于将所述伪骨架图像输入到第二特征提取神经网络模型中,提取多个所述离散动作的逻辑关联特征;
特征融合模块,用于对所述高层语义特征和所述逻辑关联特征进行特征融合处理,得到所述动作序列的意图推断结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310335615.9A CN116434335B (zh) | 2023-03-30 | 2023-03-30 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310335615.9A CN116434335B (zh) | 2023-03-30 | 2023-03-30 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116434335A true CN116434335A (zh) | 2023-07-14 |
CN116434335B CN116434335B (zh) | 2024-04-30 |
Family
ID=87090132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310335615.9A Active CN116434335B (zh) | 2023-03-30 | 2023-03-30 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434335B (zh) |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801924A (zh) * | 2012-07-20 | 2012-11-28 | 合肥工业大学 | 一种基于Kinect的电视节目主持互动系统 |
CN105320944A (zh) * | 2015-10-24 | 2016-02-10 | 西安电子科技大学 | 一种基于人体骨架运动信息的人体行为预测方法 |
CN109086659A (zh) * | 2018-06-13 | 2018-12-25 | 深圳市感动智能科技有限公司 | 一种基于多模道特征融合的人体行为识别方法和装置 |
CN110046558A (zh) * | 2019-03-28 | 2019-07-23 | 东南大学 | 一种用于机器人控制的手势识别方法 |
CN110096950A (zh) * | 2019-03-20 | 2019-08-06 | 西北大学 | 一种基于关键帧的多特征融合行为识别方法 |
CN110263720A (zh) * | 2019-06-21 | 2019-09-20 | 中国民航大学 | 基于深度图像和骨骼信息的动作识别方法 |
CN110490035A (zh) * | 2019-05-17 | 2019-11-22 | 上海交通大学 | 人体骨架动作识别方法、系统及介质 |
CN110532861A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
CN110610154A (zh) * | 2019-09-10 | 2019-12-24 | 北京迈格威科技有限公司 | 行为识别方法、装置、计算机设备和存储介质 |
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN112131908A (zh) * | 2019-06-24 | 2020-12-25 | 北京眼神智能科技有限公司 | 基于双流网络的动作识别方法、装置、存储介质及设备 |
US20210065391A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Pseudo rgb-d for self-improving monocular slam and depth prediction |
KR20210050787A (ko) * | 2019-10-29 | 2021-05-10 | 서울과학기술대학교 산학협력단 | 객체 동작 기반의 애니메이션을 생성하는 장치 및 방법 |
CN112906604A (zh) * | 2021-03-03 | 2021-06-04 | 安徽省科亿信息科技有限公司 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 |
US20210174074A1 (en) * | 2019-09-27 | 2021-06-10 | Beijing Sensetime Technology Development Co., Ltd. | Human detection method and apparatus, computer device and storage medium |
CN113536859A (zh) * | 2020-04-20 | 2021-10-22 | 中国移动通信有限公司研究院 | 行为识别模型训练方法、识别方法、装置及存储介质 |
WO2022000420A1 (zh) * | 2020-07-02 | 2022-01-06 | 浙江大学 | 人体动作识别方法、人体动作识别系统及设备 |
CN114332573A (zh) * | 2021-12-18 | 2022-04-12 | 中国科学院深圳先进技术研究院 | 基于注意力机制的多模态信息融合识别方法及系统 |
WO2022073282A1 (zh) * | 2020-10-10 | 2022-04-14 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN114613013A (zh) * | 2022-03-18 | 2022-06-10 | 长沙理工大学 | 一种基于骨骼节点的端到端人类行为识别方法与模型 |
CN115100740A (zh) * | 2022-06-15 | 2022-09-23 | 东莞理工学院 | 一种人体动作识别和意图理解方法、终端设备及存储介质 |
CN115588237A (zh) * | 2022-10-13 | 2023-01-10 | 中国科学技术大学 | 一种基于单目rgb图像的三维手部姿态估计方法 |
WO2023010758A1 (zh) * | 2021-08-04 | 2023-02-09 | 中国科学院深圳先进技术研究院 | 一种动作检测方法、装置、终端设备和存储介质 |
-
2023
- 2023-03-30 CN CN202310335615.9A patent/CN116434335B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801924A (zh) * | 2012-07-20 | 2012-11-28 | 合肥工业大学 | 一种基于Kinect的电视节目主持互动系统 |
CN105320944A (zh) * | 2015-10-24 | 2016-02-10 | 西安电子科技大学 | 一种基于人体骨架运动信息的人体行为预测方法 |
CN109086659A (zh) * | 2018-06-13 | 2018-12-25 | 深圳市感动智能科技有限公司 | 一种基于多模道特征融合的人体行为识别方法和装置 |
CN110096950A (zh) * | 2019-03-20 | 2019-08-06 | 西北大学 | 一种基于关键帧的多特征融合行为识别方法 |
CN110046558A (zh) * | 2019-03-28 | 2019-07-23 | 东南大学 | 一种用于机器人控制的手势识别方法 |
CN110490035A (zh) * | 2019-05-17 | 2019-11-22 | 上海交通大学 | 人体骨架动作识别方法、系统及介质 |
CN110263720A (zh) * | 2019-06-21 | 2019-09-20 | 中国民航大学 | 基于深度图像和骨骼信息的动作识别方法 |
CN112131908A (zh) * | 2019-06-24 | 2020-12-25 | 北京眼神智能科技有限公司 | 基于双流网络的动作识别方法、装置、存储介质及设备 |
CN110532861A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
US20210065391A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Pseudo rgb-d for self-improving monocular slam and depth prediction |
CN110610154A (zh) * | 2019-09-10 | 2019-12-24 | 北京迈格威科技有限公司 | 行为识别方法、装置、计算机设备和存储介质 |
US20210174074A1 (en) * | 2019-09-27 | 2021-06-10 | Beijing Sensetime Technology Development Co., Ltd. | Human detection method and apparatus, computer device and storage medium |
KR20210050787A (ko) * | 2019-10-29 | 2021-05-10 | 서울과학기술대학교 산학협력단 | 객체 동작 기반의 애니메이션을 생성하는 장치 및 방법 |
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN113536859A (zh) * | 2020-04-20 | 2021-10-22 | 中国移动通信有限公司研究院 | 行为识别模型训练方法、识别方法、装置及存储介质 |
WO2022000420A1 (zh) * | 2020-07-02 | 2022-01-06 | 浙江大学 | 人体动作识别方法、人体动作识别系统及设备 |
WO2022073282A1 (zh) * | 2020-10-10 | 2022-04-14 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112906604A (zh) * | 2021-03-03 | 2021-06-04 | 安徽省科亿信息科技有限公司 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 |
WO2023010758A1 (zh) * | 2021-08-04 | 2023-02-09 | 中国科学院深圳先进技术研究院 | 一种动作检测方法、装置、终端设备和存储介质 |
CN114332573A (zh) * | 2021-12-18 | 2022-04-12 | 中国科学院深圳先进技术研究院 | 基于注意力机制的多模态信息融合识别方法及系统 |
CN114613013A (zh) * | 2022-03-18 | 2022-06-10 | 长沙理工大学 | 一种基于骨骼节点的端到端人类行为识别方法与模型 |
CN115100740A (zh) * | 2022-06-15 | 2022-09-23 | 东莞理工学院 | 一种人体动作识别和意图理解方法、终端设备及存储介质 |
CN115588237A (zh) * | 2022-10-13 | 2023-01-10 | 中国科学技术大学 | 一种基于单目rgb图像的三维手部姿态估计方法 |
Non-Patent Citations (5)
Title |
---|
ZILIANG REN 等: "Convolutional non-local spatial-temporal learning for multi-modality action recognition", 《ELECTRONICS LETTERS》, vol. 58, no. 20, pages 765 - 767 * |
丁重阳;刘凯;李光;闫林;陈博洋;钟育民;: "基于时空权重姿态运动特征的人体骨架行为识别研究", 计算机学报, no. 01, pages 31 - 42 * |
王帅琛 等: "多模态数据的行为识别综述", 《中国图象图形学报》, vol. 27, no. 11, pages 3139 - 3159 * |
田曼;张艺;: "多模型融合动作识别研究", 电子测量技术, no. 20, 23 October 2018 (2018-10-23), pages 118 - 123 * |
田曼;张艺;: "多模型融合动作识别研究", 电子测量技术, no. 20, pages 118 - 123 * |
Also Published As
Publication number | Publication date |
---|---|
CN116434335B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rangesh et al. | Driver gaze estimation in the real world: Overcoming the eyeglass challenge | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN112597941A (zh) | 一种人脸识别方法、装置及电子设备 | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及系统 | |
Vu et al. | A deep neural network for real-time driver drowsiness detection | |
CN111428664B (zh) | 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法 | |
CN111696110A (zh) | 场景分割方法及系统 | |
CN113947702A (zh) | 一种基于情境感知的多模态情感识别方法和系统 | |
CN112487913A (zh) | 一种基于神经网络的标注方法、装置及电子设备 | |
Saif et al. | Robust drowsiness detection for vehicle driver using deep convolutional neural network | |
CN113705490A (zh) | 基于重构和预测的异常检测方法 | |
CN116434311A (zh) | 一种基于混合域一致性约束的面部表情识别方法及系统 | |
CN115861981A (zh) | 基于视频姿态不变性的驾驶员疲劳行为检测方法及系统 | |
CN112949451B (zh) | 通过模态感知特征学习的跨模态目标跟踪方法及系统 | |
CN116168443B (zh) | 一种基于信息差知识蒸馏的遮挡面部情绪识别方法 | |
CN113569758A (zh) | 基于动作三元组引导的时序动作定位方法、系统、设备及介质 | |
CN116434335B (zh) | 动作序列识别和意图推断方法、装置、设备及存储介质 | |
CN116895012A (zh) | 一种水下图像异常目标识别方法、系统和设备 | |
CN111898576B (zh) | 一种基于人体骨架时空关系的行为识别方法 | |
CN113420608A (zh) | 一种基于密集时空图卷积网络的人体异常行为识别方法 | |
CN113298017A (zh) | 一种针对视频行为检测的行为提议生成方法 | |
CN113408389A (zh) | 一种智能识别司机睡意动作的方法 | |
Zhou | Eye-Blink Detection under Low-Light Conditions Based on Zero-DCE | |
Goel et al. | A comparative study of various human activity recognition approaches | |
CN117197877B (zh) | 一种基于区域加权光流特征的微表情识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |