CN118155119A - 面向智能电梯乘客意图分析的视频分类方法及系统 - Google Patents

面向智能电梯乘客意图分析的视频分类方法及系统 Download PDF

Info

Publication number
CN118155119A
CN118155119A CN202410331109.7A CN202410331109A CN118155119A CN 118155119 A CN118155119 A CN 118155119A CN 202410331109 A CN202410331109 A CN 202410331109A CN 118155119 A CN118155119 A CN 118155119A
Authority
CN
China
Prior art keywords
video
module
aggregation
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410331109.7A
Other languages
English (en)
Inventor
徐本连
李馨雅
鲁明丽
沈忠伟
周旭
王超
杨勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University of Science and Technology
Original Assignee
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University of Science and Technology filed Critical Suzhou University of Science and Technology
Priority to CN202410331109.7A priority Critical patent/CN118155119A/zh
Publication of CN118155119A publication Critical patent/CN118155119A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了面向智能电梯乘客意图分析的视频分类方法及系统,属于计算机视觉领域。所述方法首先利用自监督模型生成像素级的对象的mask作为以对象为中心的表示,并通过对每个对象的mask进行位置编码获得对象的位置信息;将实例的外观信息和位置信息聚合后的特征在时间维度进行推理,理解不同对象之间的交互和关系,与采用视频编码器提取的RGB视频帧的语义特征进行融合,增强了基于对象的特征和整体视频语义之间的互补性和有效性,可以显著提高模型在行为识别任务中的准确性和鲁棒性,能够更好地适应电梯场景乘客意图识别,更加准确地识别和分析乘客是否有乘坐电梯的需求,提供更智能化的电梯系统。

Description

面向智能电梯乘客意图分析的视频分类方法及系统
技术领域
本发明涉及面向智能电梯乘客意图分析的视频分类方法及系统,属于计算机视觉领域。
背景技术
电梯乘客意图识别作为提高电梯服务质量和用户体验的关键技术之一,近年来得到了广泛关注。在电梯乘客意图识别中,需要对电梯乘客的出行需求进行准确地分析和判断,以便为电梯调度提供更加精准的指导。因此,需要对电梯乘客的行为进行分析和判断,以便识别出电梯乘客的出行意图。一方面,通过行为识别技术,可以从电梯乘客的行为特征中提取出有关其出行需求的信息,为电梯乘客意图识别提供数据支持,另一方面,通过行为识别技术,可以提高电梯乘客意图识别的准确性和实时性。
在计算机视觉和人工智能领域,动作识别是一种强有力的工具,用于识别视频中所展示的各种动作。近年来,深度学习技术在行为识别领域取得了显著进展。已经提出了许多强大基于外观的模型,它们主要提取整个场景的特征来理解动作,并没有明确地将对象识别为单个实体。现有方法在很大程度上依赖于视频帧的外观特征,这样容易引入归纳偏差。为了消除仅利用视频帧进行动作识别方法所带来的归纳偏差,需要从输入中提取区别于RGB外观的信息并综合利用。
近年来,一些研究提出了以对象为中心的方法来进行行为识别,并强调对对象、人类及其互动进行建模。这些方法的本质在于对活动对象的外观和空间位置变化进行建模,并将学习到的对象表示与视频级表示集成。然而,在面向高层写字楼、高层住宅及一些其他高层商用场所的电梯,捕捉乘客特定动作和交互的过程中,一些外部因素,如光照和遮挡,可能对行人意图识别的鲁棒性产生负面影响,为研究带来了一定挑战。
发明内容
本发明主要解决的技术问题是提升传统基于外观行为识别模型的精度和鲁棒性,尤其是在智能电梯门厅场景下,通过识别乘客的行为,进而对乘客意图的深入分析,能够更准确地理解乘客的行为和需求,实现电梯系统的个性化响应,提高电梯系统的响应效率。
与传统的静态图像不同,需要乘坐电梯的乘客意图通常表现为一系列阶段性行为,主要包括接近电梯和进入电梯两个阶段,因此需要更深入的场景理解和对视频中局部信息的敏感性。注重对整体和局部信息的充分利用。整体信息涉及对视频中乘客整体行为的把握,而局部信息则关注特定动作、交互或对象等局部元素的准确捕捉。为实现更全面的上下文理解,需要详细建模电梯门厅中具有乘梯倾向的行人之间的关系。大多数基于外观的传统行为识别方法通常是同时提取输入视频的时空特征来理解动作,这样不仅容易过于关注全局外观而忽视了动作本身的动态变化,而且缺乏明确的为对象之间的交互进行建模。
本发明的技术方案具体如下:
本发明的第一个目的在于提供一种面向意图分析的视频分类方法,包括:
步骤1:获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列;
步骤2:将所述RGB视频帧序列输入基于外观的视觉编码器,得到所述待分类视频的每个类别的得分;
步骤3:将所述RGB视频帧序列和视频中对象的类别标签输入对象mask生成网络,得到图片中每个对象对应的mask表示;
步骤4:对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;
步骤5:将每个对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹;
步骤6:对于每个对象的运动特征,采用Nonlocal模块对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;
步骤7:将加权聚合后的特征进行平均池化,并输入MLP网络,得到得每个类别的得分;
步骤8:将所述步骤2和步骤7得到的每个类别的得分进行加权融合,得到最终的分类结果。
可选的,所述步骤3中的对象mask生成网络为自监督模型。
可选的,所述自监督模型为Transformer的全局自注意机制。
可选的,所述步骤4包括:
步骤41:针对每个对象设计独立的位置编码,对于每个像素2D位置坐标(x,y)使用正弦函数和余弦函数将其编码成一个具有dmodel维的向量表示,具体的过程用以下公式表示:
其中,p代表输入的二维坐标点,i代表编码的维度,dmodel代表模型的输入维度,每个维度都按照不同的频率进行编码,以便捕捉不同位置之间的相对关系;
第i个维度的值为:
Vx,y,i=sin(x,2i),i为偶数
Vx,y,i=cos(y,(i-1)/2),i为奇数
步骤42:将所有的输入点映射为一个位置编码矩阵Z,其中每一行都对应着一个输入点的编码向量:
步骤43:将所述位置编码矩阵Z与词向量矩阵相加,得到一个增强了位置信息感知能力的输入矩阵,通过位置编码获得对象的聚合特征,所述聚合特征中包含对象的空间信息以及时间变化,表示为:
其中,N为对象个数,T为视频帧数量。
可选的,所述步骤2中基于外观的视觉编码器为TSM模块。
本发明的第二个目的在于提供一种面向意图分析的视频分类系统,包括:
视频帧序列获取模块,用于获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列;
基于外观的视频编码器模块,用于得到所述待分类视频的每个类别的得分;
对象mask生成网络模块,用于生成图片中每个对象对应的mask表示;
特征聚合模块,用于对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;
特征融合模块,用于将每个对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹;
Nonlocal模块,用于对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;
MLP网络模块,将加权聚合后的特征进行平均池化,并输入MLP网络,得到得每个类别的得分;
分类输出模块,用于将所述基于外观的视频编码器模块和MLP网络模块得到的每个类别的得分进行加权融合,得到最终的分类结果。
可选的,所述对象mask生成网络模块为自监督模型。
可选的,所述自监督模型为Transformer的全局自注意机制。
可选的,特征聚合模块的计算过程包括:
步骤41:针对每个对象设计独立的位置编码,对于每个像素2D位置坐标(x,y)使用正弦函数和余弦函数将其编码成一个具有dmodel维的向量表示,具体的过程用以下公式表示:
其中,p代表输入的二维坐标点,i代表编码的维度,dmodel代表模型的输入维度,每个维度都按照不同的频率进行编码,以便捕捉不同位置之间的相对关系;
第i个维度的值为:
Vx,y,i=sin(x,2i),i为偶数
Vx,y,i=cos(y,(i-1)/2),i为奇数
步骤42:将所有的输入点映射为一个位置编码矩阵Z,其中每一行都对应着一个输入点的编码向量:
步骤43:将所述位置编码矩阵Z与词向量矩阵相加,得到一个增强了位置信息感知能力的输入矩阵,通过位置编码获得对象的聚合特征,所述聚合特征中包含对象的空间信息以及时间变化,表示为:
其中,N为对象个数,T为视频帧数量。
可选的,所述基于外观的视觉编码器模块为TSM模块。
本发明的第三个目的在于提供一种电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如上述任一项所述的视频分类方法。
本发明的第四个目的在于提供一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述任一项所述的视频分类方法。
本发明有益效果是:
本发明的面向意图分析的视频分类方法,首先利用自监督模型生成像素级的对象的mask作为以对象为中心的表示,这些mask用于表示视频中的不同对象,并通过对每个对象的mask进行位置编码获得对象的位置信息。为了更好地建模对象之间的互动,本发明引入了一个时间模块,将实例的外观信息和位置信息聚合后的特征在时间维度进行推理,理解不同对象之间的交互和关系,在此基础上,与采用视频编码器提取的RGB视频帧的语义特征进行融合,增强了基于对象的特征和整体视频语义之间的互补性和有效性,可以显著提高模型在行为识别任务中的准确性和鲁棒性,能够更好地适应电梯场景乘客意图识别,更加准确地识别和分析乘客是否有乘坐电梯的需求,提供更智能化的电梯系统。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明面向智能电梯乘客意图分析的视频分类方法的网络框架图。
图2是对象的类别标签示意图。
图3是本发明智能电梯场景下行人mask的可视化图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
主要术语:
行为识别:是指通过对个人或物体在特定时间段内的动作、姿态、活动轨迹等进行分析和识别,从而实现对其身份、行为习惯、行为意图等信息的获取和判断的技术。
意图识别:是指通过分析人们的行为或动作以及在交流中表达的语言或其他形式的信息来确定他们所表达的意图或目的。
实施例一:
本实施例提供一种面向意图分析的视频分类方法,包括:
步骤1:获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列。
采用稀疏时间采样策略,将每个视频V均匀地划分为T个相等长度的片段,随后随机选择每个片段中的一帧来组成输入序列。
步骤2:将所述RGB视频帧序列输入基于外观的视觉编码器,得到所述待分类视频的每个类别的得分;
本实施例采用TSM(Temporal Shift Module)来提取整个视频的语义特征,具体过程如下:
对于每个片段中的图像序列,先通过普通的ResNet50网络提取出特征,得到一个大小为L×C的特征矩阵F,其中L表示该片段中包含的图像数量,C表示特征向量的维度;接着,对于每个特征矩阵F,通过TSM模块进行时间移位操作,这里的时间移位操作指的是将F沿着时间维度,将部分通道向前移动k个位置,则该特征向量的前k个位置将被填充为零,而原本位于末尾的C-k个位置的特征向量将会被移动到前面。
经过时间移位操作后,得到了一个新的特征矩阵F′,将F′中的每一列(即一个图像对应的特征向量)进行平均池化,得到一个大小为1×C的特征向量,将所有片段中得到的特征向量级联起来,得到整个视频的特征表示:
Yapp=G(V) (1)
Yapp表示每个动作类别的得分,G(·)表示TSM模块。
步骤3:将所述RGB视频帧序列和视频中对象的类别标签输入对象mask生成网络,得到图片中每个对象对应的mask表示;
场景中存在的对象及其相互作用在视频动作识别中起着关键作用,为了有效捕捉这些重要线索并解决上述提到的边界框带来的影响,对象mask生成网络获取每帧中对象的像素级表示,最大程度地利用了生成像素级对象mask的好处,有效减轻了与场景表示相关的偏差。本实施例采用了自监督模型“Transformer的全局自注意机制”来生成对象mask,该模型完全依赖文本监督进行自监督学习,将视频编码器相同策略提取的T帧以及对象类别标签作为输入。
通过计算输入视频帧的像素之间的相似性,将相似度高的像素点划分为一个小的区域,再计算每个小区域之间的相似性,将相似度高的小区域融合成为较大的区域,该区域可以是任意的形状,最终得到的视频帧中的不同区域对应了视频帧中不同的对象;接下来,计算每个区域的嵌入与数据集中所有语义类别的文本嵌入之间的相似性;然后,将每个输出区域分配给在嵌入空间中与图像-文本相似性最高的对象类别,并为每个对象生成一个mask表示,如图二所示。
具体而言,本实施例使用统一的句子模板“a photo of a{something}”来为视频中每个对象的类别标签选择更有可能描述图像中的对象的名词。在这个过程中,预设最多生成N(N>=4)个对象掩码。当场景中的对象少于N个时,将适当的维度填充为零。当场景中的对象超过N个时,根据其预测置信度分数选择其中的N个对象。
步骤4:对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;
时序模型是建模对象交互的关键要素,因为从对象mask生成网络获得的以对象为中心的表示是孤立的,这限制了对实例进行时序上的推理。
为了解决这个问题,本实施例通过对每个对象编码位置信息来实现,在这些具有位置编码的mask中执行时间推理,以了解给定动作的主体和客体之间的关系如何随时间变化。在每帧的N个对象中进行空间交互推理。首先,针对每个对象设计了一个独立的位置编码,对于每个像素2D位置坐标(x,y)使用正弦函数和余弦函数将其编码成一个具有dmodel维的向量表示。具体的过程可以用以下公式表示:
其中,p代表输入的二维坐标点,i代表编码的维度,dmodel代表模型的输入维度。10000是一个常数,用于控制不同位置之间的间隔大小。每个维度都按照不同的频率进行编码,以便捕捉不同位置之间的相对关系。
第i个维度的值为:
Vx,y,i=sin(x,2i),i为偶数 (4)
Vx,y,i=cos(y,(i-1)/2),i为奇数 (5)
最终,本实施例可以将所有的输入点映射为一个矩阵Z,其中每一行都对应着一个输入点的编码向量:
其中,表示第n个对象的位置编码向量。
接着,将这个位置编码矩阵与对应对象的特征相加,即可得到一个增强了位置信息感知能力的输入矩阵。通过位置编码,可以轻松获得对象的聚合特征,其中应包含对象的空间信息以及时间变化,所有对象的聚合特征可表示为:
步骤5:将所有对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹。
在每一帧中,给定对象的聚合特征X,随着时间的推移,进一步将每个对象聚合起来,以更好地理解视频中对象的时空动态特征,这种方法利用聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到第i个对象的时间特征表示(从第一帧到第T帧):
步骤6:对于每个对象的运动特征,采用Nonlocal模块对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;
Nonlocal模块主要通过以下步骤实现:输入特征-特征转换-相似性计算-加权聚合-特征整合,对每对轨迹特征之间的关系进行配对,然后对它们求平均。通过使用Nonlocal模块,可以有效地捕捉特征之间的长程依赖关系,从而更好地理解视频中对象的时空动态特征,并提供更全面的上下文信息。
本实施例中采用了五个Nonlocal模块,并将它们与卷积核相结合以进一步处理特征。将合并后的时间特征表示h输入到Nonlocal模块中,平均池化时空动态特征,再通过应用多层感知机(MLP)网络,得到最终的分类结果,这个过程可以表示如下:
其中,T(·)表示Nonlocal模块,Ti表示第i个对象的时空动态特征,Yobj表示每个动作类别的得分。
步骤7:将步骤2和步骤6得到的每个类别的得分进行相加,得到最终的分类结果可表示为:
Y=Yapp+Yobj (11)
通过利用从对象mask生成网络中提取的以对象为中心的特征,明确地从中捕获对象交互的语义。这样能够更好地捕捉到视频中不同对象之间的交互关系,并提供更加丰富的特征表示,以帮助传统的基于外观的行为识别方法更好地理解和分类视频内容,本实施例提供的方法,可以很轻松的与任何视频级的外观表示进行融合,以更加明确地建模实例之间(主体和客体)的关系转变。
实施例二:
本实施例提供一种面向意图分析的视频分类系统,包括:
视频帧序列获取模块,用于获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列;
基于外观的视频编码器模块,用于得到所述待分类视频的每个类别的得分;
对象mask生成网络模块,用于生成图片中每个对象对应的mask表示;
特征聚合模块,用于对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;
特征融合模块,用于将每个对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹;
Nonlocal模块,用于对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;
MLP网络模块,将加权聚合后的特征进行平均池化,并输入MLP网络,得到得每个类别的得分;
分类输出模块,用于将所述基于外观的视频编码器模块和MLP网络模块得到的每个类别的得分进行加权融合,得到最终的分类结果。
实施例三:
如图1所示,将一组RGB视频帧和视频中对象的类别标签作为模型的输入,经过Masking Model生成图片中每个对象对应的mask表示,其中,默认视频帧的数量为8帧,每个帧都被调整为224×224的分辨率,每个动作所涉及的对象不超过4个(不足4个的用0补全)。对象的类别标签是通过人工标注的方式获取的,在数据集的采集过程中,会将视频中出现的对象所属的类别作他的标签,例如,将“person”作为行人的类别标签。生成的mask表示也在图1中表示。
将对每个对象的mask编码位置信息,获得具有位置信息的对象的聚合特征。
将每个对象的聚合特征作为Feature Fusion模块的输入,该模块利用聚合特征的位置编码直接连接不同时间点上同一对象的特征,可以得到每个对象在8帧视频帧中的运动轨迹。
对于每个对象的运动特征,采用Nonlocal模块对不同对象的位置特征与所有其他对象位置特征进行相似性计算,相似性计算得到的相似度矩阵将用于对特征进行加权聚合。每个位置特征将通过加权和的方式与其他位置特征进行聚合,其中权重由相似度决定。这样可以捕捉到全局上下文信息,将远处的依赖关系引入到当前位置。
加权聚合后的特征将与输入特征进行融合,以生成最终的输出特征,具体包括:
经过平均池化和MLP网络得到每个类别的得分;与此同时,将相同的RGB视频帧作为现有基于外观的视觉编码器的输入,得到每个类别的得分;最后,将两个类别得分进行加权融合,得到最终的分类结果。
在实验中,使用基于ResNet50的TSM网络作为视觉编码器,其权重是在Kinetics400数据集上进行预训练后初始化的。值得注意的是,许多复杂的网络架构可用于的视觉编码器组件,例如I3D、VideoSwinTransformer等。
实验结果在公开的Something-Else数据集上进行验证,Something-Else数据集是Something-Something-V2数据集的扩展,旨在进行组合式动作识别。组合动作识别旨在将人的每个动作分解为一个或多个动词、主体和对象的组合,确保训练和测试集之间的动作元素不重叠,注重强调它们之间的独立性和可组合性。它还旨在通过将人与物体的交互与其背景和外观偏差分离开来,从而理解它们之间的关系。通过实现这一目标,机器可以获得有助于更好地推广到新环境的洞察力。该数据集包含174个动作类别和112,795个视频,分为54,919个用于训练和57,876个用于测试,都采用了组合设置。在这个任务中,存在两组不相交的名词(物体){A,B}和两组不相交的动词(动作){1,2}。在训练过程中,模型可以观察到来自一组中的名词和动词的组合,而在测试过程中则使用不同的组合。具体而言,在训练过程中,模型可以观察到来自{1A+2B}的对象,而在测试过程中则使用来自{1B+2A}的对象。该设置旨在测试过程中识别新的动词-名词组合。性能评估遵循标准的分类设置,其中包括top-1和top-5精度等指标。
采用本发明提供的技术,具有以下特点:
(1)本发明提出一个通过融合利用自监督模型生成mask作为实例表示的对象之间的交互特征和直接利用视频编码器获取整个视频的完整语义特征的双路径网络框架。
(2)本发明使用自监督模型为对象生成mask,作为一种以对象为中心的表示方法。所提出的技术对实例的描述是像素级别的,即使在复杂的场景中,对象可以被清楚的识别,从而提供更加准确的形状与位置信息。
(3)在Something-Else数据集上的实验结果表明,与基于外观的模型相比,所提出的网络框架在组合动作识别方面取得了显著的性能提升。
表1模型组件性能比较
验证了不同路径对于动作识别的有效性,结果如表1所示。选择基于ResNet50的TSM模型作为视觉编码器,并使用Kinetics400数据集上预训练的权重进行初始化。可以观察到,对象交互路径分别实现了13.9%和38.5%的top-1和top-5精度。然而,当与外观特征融合后,准确性显著提高,相比基于外观的TSM模型(T=8),top-1和top-5精度分别提升了12.6%和7.8%,轻松超越基线。这证明了对象交互特征和外观特征之间具有很高的互补性,强调了它们融合的必要性。
在图3中展示了在电梯场景下的可视化结果。在不需要微调的情况下直接迁移到智能电梯场景中,生成行人的mask表示,通过利用对象级特征信息中的附加线索,能够识别出行人随时间变化的运行轨迹。根据每个行人的运动轨迹及其外观特征观察到不同行人之间的互动和关系,获取更加全面的上下文线索,预测出电梯轿厢外的行人是否有乘坐电梯的需求,以便于实现电梯系统的个性化响应,提高电梯系统的响应效率。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向意图分析的视频分类方法,其特征在于,所述方法包括:
步骤1:获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列;
步骤2:将所述RGB视频帧序列输入基于外观的视觉编码器,得到所述待分类视频的每个类别的得分;
步骤3:将所述RGB视频帧序列和视频中对象的类别标签输入对象mask生成网络,得到图片中每个对象对应的mask表示;
步骤4:对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;
步骤5:将每个对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹;
步骤6:对于每个对象的运动特征,采用Nonlocal模块对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;
步骤7:将加权聚合后的特征进行平均池化,并输入MLP网络,得到得每个类别的得分;
步骤8:将所述步骤2和步骤7得到的每个类别的得分进行加权融合,得到最终的分类结果。
2.根据权利要求1所述的视频分类方法,其特征在于,所述步骤3中的对象mask生成网络为自监督模型。
3.根据权利要求1所述的视频分类方法,其特征在于,所述步骤4包括:
步骤41:针对每个对象设计独立的位置编码,对于每个像素2D位置坐标(x,y)使用正弦函数和余弦函数将其编码成一个具有dmodel维的向量表示,具体的过程用以下公式表示:
其中,p代表输入的二维坐标点,i代表编码的维度,dmodel代表模型的输入维度,每个维度都按照不同的频率进行编码,以便捕捉不同位置之间的相对关系;
第i个维度的值为:
Vx,y,i=sin(x,2i),i为偶数
Vx,y,i=cos(y,(i-1)/2),i为奇数
步骤42:将所有的输入点映射为一个位置编码矩阵Z,其中每一行都对应着一个输入点的编码向量:
步骤43:将所述位置编码矩阵Z与词向量矩阵相加,得到一个增强了位置信息感知能力的输入矩阵,通过位置编码获得对象的聚合特征,所述聚合特征中包含对象的空间信息以及时间变化,表示为:
其中,N为对象个数,T为视频帧数量。
4.根据权利要求1所述的视频分类方法,其特征在于,所述步骤2中基于外观的视觉编码器为TSM模块。
5.一种面向意图分析的视频分类系统,其特征在于,所述系统包括:
视频帧序列获取模块,用于获取待分类视频,并将所述待分类视频均匀地划分为多个片段,随机选择每个片段中的一帧来组成输入的RGB视频帧序列;
基于外观的视频编码器模块,用于得到所述待分类视频的每个类别的得分;
对象mask生成网络模块,用于生成图片中每个对象对应的mask表示;
特征聚合模块,用于对每个对象的mask编码位置信息,获得具有位置信息的对象聚合特征;
特征融合模块,用于将每个对象的聚合特征进行特征融合,利用所述聚合特征的位置编码直接连接不同时间点上同一对象的特征,得到每个对象在视频帧序列中的运动轨迹;
Nonlocal模块,用于对不同对象的位置特征与所有其他对象位置特征进行相似性计算,得到相似度矩阵,基于所述相似度矩阵,将每个位置特征与其他位置特征进行加权聚合;
MLP网络模块,将加权聚合后的特征进行平均池化,并输入MLP网络,得到得每个类别的得分;
分类输出模块,用于将所述基于外观的视频编码器模块和MLP网络模块得到的每个类别的得分进行加权融合,得到最终的分类结果。
6.根据权利要求5所述的视频分类系统,其特征在于,所述对象mask生成网络模块为Transformer的全局自注意机制。
7.根据权利要求5所述的视频分类系统,其特征在于,所述特征聚合模块的计算过程包括:
步骤41:针对每个对象设计独立的位置编码,对于每个像素2D位置坐标(x,y)使用正弦函数和余弦函数将其编码成一个具有dmodel维的向量表示,具体的过程用以下公式表示:
其中,p代表输入的二维坐标点,i代表编码的维度,dmodel代表模型的输入维度,每个维度都按照不同的频率进行编码,以便捕捉不同位置之间的相对关系;
第i个维度的值为:
Vx,y,i=sin(x,2i),i为偶数
Vx,y,i=cos(y,(i-1)/2),i为奇数
步骤42:将所有的输入点映射为一个位置编码矩阵Z,其中每一行都对应着一个输入点的编码向量:
步骤43:将所述位置编码矩阵Z与词向量矩阵相加,得到一个增强了位置信息感知能力的输入矩阵,通过位置编码获得对象的聚合特征,所述聚合特征中包含对象的空间信息以及时间变化,表示为:
其中,N为对象个数,T为视频帧数量。
8.根据权利要求5所述的视频分类系统,其特征在于,所述基于外观的视觉编码器模块为TSM模块。
9.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1至4任一项所述的视频分类方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至4任一项所述的视频分类方法。
CN202410331109.7A 2024-03-22 2024-03-22 面向智能电梯乘客意图分析的视频分类方法及系统 Pending CN118155119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410331109.7A CN118155119A (zh) 2024-03-22 2024-03-22 面向智能电梯乘客意图分析的视频分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410331109.7A CN118155119A (zh) 2024-03-22 2024-03-22 面向智能电梯乘客意图分析的视频分类方法及系统

Publications (1)

Publication Number Publication Date
CN118155119A true CN118155119A (zh) 2024-06-07

Family

ID=91290048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410331109.7A Pending CN118155119A (zh) 2024-03-22 2024-03-22 面向智能电梯乘客意图分析的视频分类方法及系统

Country Status (1)

Country Link
CN (1) CN118155119A (zh)

Similar Documents

Publication Publication Date Title
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN106960206B (zh) 字符识别方法和字符识别系统
Huang et al. Location-aware graph convolutional networks for video question answering
Goh et al. Micro-expression recognition: an updated review of current trends, challenges and solutions
Chen et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition
Wang et al. Spatial–temporal pooling for action recognition in videos
Areeb et al. Helping hearing-impaired in emergency situations: A deep learning-based approach
CN112990122B (zh) 一种基于视频基础单元分析的复杂行为识别方法
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
Koli et al. Human action recognition using deep neural networks
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles
CN117392578A (zh) 基于两阶段时空注意力的动作检测方法及系统
Wang et al. Spike-Event Object Detection for Neuromorphic Vision
CN117011932A (zh) 一种奔跑行为检测方法、电子设备及存储介质
Sha et al. An improved two-stream CNN method for abnormal behavior detection
CN118155119A (zh) 面向智能电梯乘客意图分析的视频分类方法及系统
CN114511877A (zh) 一种行为识别方法、装置、存储介质及终端
Nekkanti et al. Breaking Down Communication Barriers: Real-Time Sign Language Recognition Using CNN & Flask-Based API
Cheng et al. Weighted multiple instance-based deep correlation filter for video tracking processing
Rawat et al. Indian sign language recognition system for interrogative words using deep learning
Kaushik et al. A Survey of Approaches for Sign Language Recognition System
HJ et al. Face and facial expression recognition using local directional feature structure
Zhao et al. MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition
Li et al. Late feature supplement network for early action prediction

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination