CN116884094A - 基于视角和行为解耦的多视角行为识别方法及系统 - Google Patents
基于视角和行为解耦的多视角行为识别方法及系统 Download PDFInfo
- Publication number
- CN116884094A CN116884094A CN202311149653.1A CN202311149653A CN116884094A CN 116884094 A CN116884094 A CN 116884094A CN 202311149653 A CN202311149653 A CN 202311149653A CN 116884094 A CN116884094 A CN 116884094A
- Authority
- CN
- China
- Prior art keywords
- view
- behavior
- features
- global
- invariant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000007 visual effect Effects 0.000 claims abstract description 36
- 230000000452 restraining effect Effects 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 198
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000012886 linear function Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/814—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level using belief theory, e.g. Dempster-Shafer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/11—Technique with transformation invariance effect
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视角和行为解耦的多视角行为识别方法及系统,所述方法包括:对相同行为的不同视角视频进行特征提取,得到不同视角的局部特征;分析每个视角的证据分布,计算每个视角的权重,融合所有视角的局部特征,得到全局特征;利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征;基于全局行为不变特征进行行为识别,并利用损失函数分别对特定视角特征和行为不变特征进行约束。本发明利用证据分布重新分配不同视角的权重得到全局特征,并与每个视角解耦得到行为不变特征和特定视角特征,融合得到全局行为不变特征进行行为识别,可以提高识别精度。
Description
技术领域
本发明属于城市监控视频分析技术领域,尤其涉及一种基于视角和行为解耦的多视角行为识别方法及系统。
背景技术
研究高效的视频图像分析技术来满足从大规模视频监控数据中提取异常行为的信息,可以节省成本,具有重大意义。传统的肉眼监视容易遗漏潜在危险信息,无法同时对复杂环境下的多个路线视频信息进行过滤并分类,效率不高,而且伴随着人为主观因素的影响,导致无法达到满意的效果,严重费时费力。因此,研究多视角行为识别在重大活动安防等工作中具有重大的意义和实用价值。
行为识别指在各种监控环境的视频中,通过分类算法计算所捕捉到的监控视频片段类别属于哪一类别的任务。该任务目前主要的问题在于类间差异较小的行为类别的近似样本区分问题和不同摄像头视角下的视角变换问题。现有的跨视角动作识别大致可分为两类:1)利用额外的模态信息来增强视角特征,比如Shruti Vyas等提出的Multi-viewaction recognition using cross-view video prediction(跨视角预测的多视角行为识别方法)。2)一些研究人员倾向于提出视角不变特征,比如Linguo Li等提出的D humanaction representation learning via cross-view consistency pursuit(基于跨视角一致性的人类行为特征学习方法)。如今利用深度学习网络通过输入的视频进行特征提取,从而实现多视角下的行为识别是专家学者的研究热点内容。
公开号为CN109977787A的发明专利公开了一种多视角的人体行为识别方法,其通过视角自适应变换模型,将稀疏表示从稀疏空间变换到新的共用空间,在一定程度上可以保障同一个动作在不同视角下的特征相似性。但是不同视角携带的有效行为信息是不同的,对全局行为的影响也是不同的,现有的行为识别方法均忽略了这一信息,影响行为识别准确度。
发明内容
有鉴于此,本发明提出了基于视角和行为解耦的多视角行为识别方法及系统,用于解决行为识别方法准确率不佳的问题。
本发明第一方面,公开一种基于视角和行为解耦的多视角行为识别方法,所述方法包括:
对相同行为的不同视角视频进行特征提取,得到相同行为在不同视角的局部特征;
分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征;
利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征;
基于全局行为不变特征进行行为识别,并利用损失函数分别对特定视角特征和行为不变特征进行约束。
在以上技术方案的基础上,优选的,所述分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征具体包括:
设计证据分布模型,计算相同行为在不同视角的预测分数;
根据预测分数建立高斯分布模型;
基于贝叶斯概率论,根据高斯分布模型计算每个视角行为分类的证据分布;
根据每个视角行为分类的证据分布计算每个视角的证据总和;
根据每个视角的证据总和计算每个视角的权重;
基于每个视角的权重对各个视角的局部特征进行加权求和,得到全局特征。
在以上技术方案的基础上,优选的,所述证据分布模型的表达式为:
其中,为第i个视角的局部特征,/>表示线性函数,ReLU(·)为修正线性单元,/>为第i个视角的预测分数。
在以上技术方案的基础上,优选的,所述根据高斯分布模型计算每个视角行为分类的证据分布的表达式为:
其中,为第i个视角下第k个行为类别的证据分布,/>表示伽马函数,m为证据分布参数,/>为第i个视角的预测分数,/>为高斯分布,分别为高斯分布模型的均值和方差。
在以上技术方案的基础上,优选的,所述根据每个视角的证据总和计算每个视角的权重具体包括:
根据每个视角的证据总和计算每个视角的不确定性:
其中,为第i个视角的证据总和,/>,K为行为类别总数;
根据每个视角的不确定性计算每个视角的权重:
其中,为第i个视角的权重,n表示n个不同视角。
在以上技术方案的基础上,优选的,所述利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征具体包括:
根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图;
将每个视角的局部特征分别与行为相关图做矩阵乘法得到每个视角的行为不变特征;
将行为相关图取逆并与每个视角的局部特征分别做矩阵乘法得到每个视角的特定视角特征;
根据每个视角的权重,对每个视角的行为不变特征进行加权求和,得到全局行为不变特征。
在以上技术方案的基础上,优选的,所述根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图具体包括:
将全局特征G和每个视角的局部特征X i 级联后进行卷积操作,使用空间注意力机制捕获关键的行为信息点,并将关键行为信息点合成每个视角对应的行为相关图M i ;
计算行为相关图M i 的表达式为:
其中表示空间注意力机制下分类的特征权重,sig(·)表示sigmoid激活函数,BR(·)表示3D卷积网络中的BN层和ReLU层,/>表示对x i 和G进行级联操作。
本发明第二方面,公开一种基于视角和行为解耦的多视角行为识别系统,所述系统包括:
对相同行为的不同视角视频进行特征提取,得到相同行为在不同视角的局部特征;
分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征;
利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征;
基于全局行为不变特征进行行为识别,并利用损失函数分别对特定视角特征和行为不变特征进行约束。
本发明第三方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的方法。
本发明第四方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如本发明第一方面所述的方法。
本发明相对于现有技术具有以下有益效果:
1)本发明充分利用多视角行为识别中行为与视角之间的关系,利用证据分布重新分配不同视角的权重,结合该行为的全局特征引导解耦,最大限度地利用常见的视觉信息在每个视角的约束下得到行为不变特征和特定视角的特征,最后结合鲁棒的多视角行为特征和行为与视角之间的关系信息来解决行为识别中的不同样本下类别分类不准确的问题,提高识别精度。
2)本发明根据证据分布模型对不同的视角动态分配不同权重,可以有效权衡不同视角携带的行为信息量,更符合实际情况,同时根据权重综合考虑全局特征,可以提高多视角行为特征提取的准确度。
3)本发明通过将全局特征与单个视角特征结合,加入空间注意力机制,计算行为相关特征图,并根据行为相关特征图解耦特定视角的特征和行为不变特征,通过利用视角间和视角内的相关性积极干预整个解耦过程,在解开不同视角特征同时考虑全局行为特征和视角之间的潜在联系,使行为特征更具有好的表征能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于视角和行为解耦的多视角行为识别方法流程图;
图2为本发明的基于视角和行为解耦的多视角行为识别方法系统结构图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,本发明提出一种基于视角和行为解耦的多视角行为识别方法,所述方法包括:
S1、对相同行为的不同视角视频进行特征提取,得到相同行为在不同视角的局部特征。
设由n个视角下的摄像头组成的摄像机网络采集相同行为的不同视角样本视频,根据输入的不同视角,构建多流同构特征提取网络,分别提取相同行为的不同视角视频的局部特征,形成行为特征/>。
S2、分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征。
步骤S2具体包括如下分步骤:
S21、设计证据分布模型,计算相同行为在不同视角的预测分数;
根据相同行为的不同视角特征,设计证据分布模型以分配不同视角的权重,所述证据分布模型的表达式为:
其中,为第i个视角的局部特征,/>表示线性函数,ReLU(·)为修正线性单元,/>为第i个视角的预测分数。
S22、根据预测分数建立高斯分布模型。
对于每个视角的预测分数,该预测分数/>服从一个高斯分布。并且通过在/>上放置一个先验分布来建模高斯分布模型,其中/>和/>分别表示预测分数高斯分布的均值和方差。
S23、基于贝叶斯概率论,根据高斯分布模型计算每个视角行为分类的证据分布。
根据贝叶斯概率论,模型证据是指从输入中收集到的支持分类的指标,一般来说,模型证据不能直接评估,因为计算它涉及到对潜在模型参数的依赖。为了解决这个问题,本发明定义预测分数y i 为观察的似然值,在高斯似然函数上放置一个逆伽马函数,计算证据分布。
根据高斯分布模型计算每个视角行为分类的证据分布的表达式为:
其中,为第i个视角下第k个行为类别的证据分布,/>表示伽马函数,/>为第i个视角的预测分数,/>为高斯分布,/>分别为高斯分布模型的均值和方差。
S24、根据每个视角行为分类的证据分布计算每个视角的证据总和。
证据分布的平均值可以直观地解释为通过预测分数观测估计的均值,而其方差是通过预测分数/>和偏差平方和/>的观测估计的。
本发明将每个视角的证据分布的总和定义为所有该视角行为分类的证据总和。
其中,为第i个视角的证据总和,K为行为类别总数。
S25、根据每个视角的证据总和计算每个视角的不确定性。
对于K分类问题,根据证据总和为每个类标签分配一个信念质量,并为每个视角分配一个总体的不确定性分数:
其中,为第i个视角的不确定性,观察到的证据总和/>越多,总的不确定性就越小。
S26、根据每个视角的不确定性计算每个视角的权重。
视角权重是指在多视角特征融合中,不同视角所占的比例。本发明将所有视角的不确定性分数取反后相加,并将每个视角的不确定性分数与之相除得到每个视角的权重:
其中,为第i个视角的权重,n表示n个不同视角。
S27、基于每个视角的权重对各个视角的局部特征进行加权求和,得到全局特征。
全局特征是指一个行为类别的所有视角特征融合得到的特征,全局特征包含完整的特征信息。
本发明将每个视角的局部特征按权重值/>累加得到全局特征/>:
S3、利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征。
步骤S3具体包括如下分步骤:
S31、根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图。
行为相关图是特征图中包含行为信息的部分。
本发明将全局特征G和每个视角的局部特征x i 级联后进行卷积操作,使用空间注意力机制捕获关键的行为信息点,并将关键行为信息点合成每个视角对应的行为相关图M i 。
计算行为相关图M i 的表达式为:
其中表示空间注意力机制下分类的特征权重,sig(·)表示sigmoid激活函数,BR(·)表示3D卷积网络中的BN层和ReLU层,/>表示对x i 和G进行级联操作。
S32、将每个视角的局部特征分别与行为相关图做矩阵乘法得到每个视角的行为不变特征。
行为不变特征是指每个视角的行为信息特征,本发明将每个视角的局部特征分别与行为相关图M i 做矩阵乘法得到每个视角的行为不变特征,
其中表示矩阵乘法。
S33、将行为相关图取逆并与每个视角的局部特征分别做矩阵乘法得到每个视角的特定视角特征。
特定视角特征是指包含视角信息的特征,本发明将行为相关图取逆并与每个视角的特征分别做矩阵乘法得到每个视角的特定视角特征,该特征包含视角信息。
S34、根据每个视角的权重,对每个视角的行为不变特征进行加权求和,得到全局行为不变特征。
全局行为不变特征是指将所有视角的行为不变特征根据不同权重融合,得到的包含完整的行为信息的特征。对每个视角的行为不变特征进行加权求和,得到全局行为不变特征。
其中代表第i个视角的权重,v表示v个不同视角。
S4、基于全局行为不变特征进行行为识别,并利用损失函数分别对特定视角特征和行为不变特征进行约束。
本实施例中,使用分类交叉熵损失对行为特征进行约束。另外,本发明使用Jensen-Shannon(JS)损失/>作为视角约束方法,该方法使视角特定特征包含更多的视角信息然后约束视角解耦方法。最后,将所有的损失进行加权得到本发明的总损失函数L:
本发明充分利用多视角行为识别中行为与视角之间的关系,利用证据分布重新分配权重得到不同视角的排列,结合该行为的全局特征引导解耦,解开同一行为在不同视角上的潜在联系,最大限度地利用常见的视觉信息在每个视角的约束下得到行为不变特征和特定视角的特征。最后结合鲁棒的多视角行为特征和行为与视角之间的关系信息来解决行为识别中的不同样本下类别分类不准确的问题。
与上述方法实施例相对应,本发明还提出一种基于视角和行为解耦的多视角行为识别系统,如图2所示为系统结构示意图,所述系统包括:
特征提取模块:用于对相同行为的不同视角视频进行特征提取,得到相同行为在不同视角的局部特征;
证据分布模块:用于分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征;
特征解耦模块:用于利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征;基于全局行为不变特征进行行为识别,并利用损失函数分别对特定视角特征和行为不变特征进行约束。
以上系统实施例和方法实施例是一一对应的,系统实施例简述之处请参阅方法实施例即可。
下面通过实验实例来验证本发明所提出的方法的有效性。
对于系统实施例中的特征解耦模块FDM及证据分布模块EDM的实验结果如下。
表1与表2分别列出了在N-UCLA数据集与NTU RGB+D数据集上基于解耦学习和证据分布分配方法的CS、CV指标,可以更明显展示出网络各个模块对特征分类的影响。
表1 几种模型在N-UCLA数据集上的准确率对比
表2 几种模型在NTU RGB+D数据集上的准确率对比
表1中的TSN是将整个视频分成几个片段,每个片段中随机选择一个视频帧,并通过网络进行转发。网络为来自所有段的输入帧共享权值并聚合来自采样视频帧的信息。FDM+EDM融合框架与之相比,在N-UCLA数据集上的CS和CV指标分别提升了7.1%和5.1%,在NTU-RGB+D数据集上的CS和CV指标上分别提升了8.7%和5.9%。因此可知,将不同视角的特征进行动态权重分配,并将每个视角特征的行为信息与视角信息解开,可以提高多视角行为识别的准确度。VIFL-SAM和CVAM均采用了学习视角不变特征的方法,试图通过保留视角不变特征来实现多视角行为识别的准确识别,虽然CVAM方法较TSN方法有一些提升,但是他忽略了视角特征对于行为特征的影响。FDM+EDM融合框架与VIFL-SAM相比,在N-UCLA数据集上的CS和CV指标分别提升了9.3%和13.1%,与CVAM相比,在NTU-RGB+D数据集上的CS和CV指标上分别提升了6.9%和4.3%。这证明了视角对于行为存在很大的影响。在对视角特征进行约束后,可以限制视角特征学习行为信息,同时可以保证行为特征学习到完整的行为信息。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的方法。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括:U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于视角和行为解耦的多视角行为识别方法,其特征在于,所述方法包括:
对相同行为的不同视角视频进行特征提取,得到相同行为在不同视角的局部特征;
分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征;
利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征;
基于全局行为不变特征进行行为识别,并利用损失函数分别对特定视角特征和行为不变特征进行约束。
2.根据权利要求1所述的基于视角和行为解耦的多视角行为识别方法,其特征在于,所述分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征具体包括:
设计证据分布模型,计算相同行为在不同视角的预测分数;
根据预测分数建立高斯分布模型;
基于贝叶斯概率论,根据高斯分布模型计算每个视角行为分类的证据分布;
根据每个视角行为分类的证据分布计算每个视角的证据总和;
根据每个视角的证据总和计算每个视角的权重;
基于每个视角的权重对各个视角的局部特征进行加权求和,得到全局特征。
3.根据权利要求2所述的基于视角和行为解耦的多视角行为识别方法,其特征在于,所述证据分布模型的表达式为:
;
其中,为第i个视角的局部特征,/>表示线性函数,ReLU(·)为修正线性单元,/>为第i个视角的预测分数。
4.根据权利要求2所述的基于视角和行为解耦的多视角行为识别方法,其特征在于,所述根据高斯分布模型计算每个视角行为分类的证据分布的表达式为:
;
其中,为第i个视角下第k个行为类别的证据分布,/>(·)表示伽马函数,/>为第i个视角的预测分数,/>,/>为高斯分布,/>分别为高斯分布模型的均值和方差。
5.根据权利要求4所述的基于视角和行为解耦的多视角行为识别方法,其特征在于,所述根据每个视角的证据总和计算每个视角的权重具体包括:
根据每个视角的证据总和计算每个视角的不确定性:
;
其中,为第i个视角的不确定性,/>为第i个视角的证据总和,/>,K为行为类别总数;
根据每个视角的不确定性计算每个视角的权重:
;
其中,为第i个视角的权重,i=1,2,...,n,n表示n个不同视角。
6.根据权利要求5所述的基于视角和行为解耦的多视角行为识别方法,其特征在于,所述利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征具体包括:
根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图;
将每个视角的局部特征分别与行为相关图做矩阵乘法得到每个视角的行为不变特征;
将行为相关图取逆并与每个视角的局部特征分别做矩阵乘法得到每个视角的特定视角特征;
根据每个视角的权重,对每个视角的行为不变特征进行加权求和,得到全局行为不变特征。
7.根据权利要求6所述的基于视角和行为解耦的多视角行为识别方法,其特征在于,所述根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图具体包括:
将全局特征G和每个视角的局部特征x i 级联后进行卷积操作,使用空间注意力机制捕获关键的行为信息点,并将关键行为信息点合成每个视角对应的行为相关图M i ;
计算行为相关图M i 的表达式为:
;
其中表示空间注意力机制下分类的特征权重,sig(·)表示sigmoid激活函数,BR(·)表示3D卷积网络中的BN层和ReLU层,/>表示对x i 和G进行级联操作。
8.一种基于视角和行为解耦的多视角行为识别系统,其特征在于,所述系统包括:
对相同行为的不同视角视频进行特征提取,得到相同行为在不同视角的局部特征;
分析每个视角的证据分布,计算每个视角的权重,根据每个视角的权重融合所有视角的局部特征,得到全局特征;
利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征,将各个视角的行为不变特征融合,得到全局行为不变特征;
基于全局行为不变特征进行行为识别,并利用损失函数分别对特定视角特征和行为不变特征进行约束。
9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311149653.1A CN116884094B (zh) | 2023-09-07 | 2023-09-07 | 基于视角和行为解耦的多视角行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311149653.1A CN116884094B (zh) | 2023-09-07 | 2023-09-07 | 基于视角和行为解耦的多视角行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116884094A true CN116884094A (zh) | 2023-10-13 |
CN116884094B CN116884094B (zh) | 2023-12-12 |
Family
ID=88272157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311149653.1A Active CN116884094B (zh) | 2023-09-07 | 2023-09-07 | 基于视角和行为解耦的多视角行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884094B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010083562A1 (en) * | 2009-01-22 | 2010-07-29 | National Ict Australia Limited | Activity detection |
CN104268586A (zh) * | 2014-10-17 | 2015-01-07 | 北京邮电大学 | 一种多视角动作识别方法 |
US20200125877A1 (en) * | 2018-10-22 | 2020-04-23 | Future Health Works Ltd. | Computer based object detection within a video or image |
CN114372523A (zh) * | 2021-12-31 | 2022-04-19 | 北京航空航天大学 | 一种基于证据深度学习的双目匹配不确定性估计方法 |
CN114492620A (zh) * | 2022-01-24 | 2022-05-13 | 西安电子科技大学 | 基于证据深度学习的可信多视角分类方法 |
CN114596467A (zh) * | 2022-03-10 | 2022-06-07 | 山东大学 | 基于证据深度学习的多模态影像分类方法 |
CN114821022A (zh) * | 2022-06-27 | 2022-07-29 | 中国电子科技集团公司第二十八研究所 | 融合主观逻辑和不确定性分布建模的可信目标检测方法 |
CN115294406A (zh) * | 2022-09-30 | 2022-11-04 | 华东交通大学 | 基于属性的多模态可解释分类的方法与系统 |
CN115439936A (zh) * | 2022-09-15 | 2022-12-06 | 中国科学院合肥物质科学研究院 | 一种基于多视角的行为识别方法及其应用 |
CN115661500A (zh) * | 2022-12-27 | 2023-01-31 | 南京邮电大学 | 基于二阶分布及不确定性感知聚类融合的目标检测方法 |
CN116092185A (zh) * | 2022-12-22 | 2023-05-09 | 山东大学 | 基于多视角特征交互融合的深度视频行为识别方法及系统 |
-
2023
- 2023-09-07 CN CN202311149653.1A patent/CN116884094B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010083562A1 (en) * | 2009-01-22 | 2010-07-29 | National Ict Australia Limited | Activity detection |
CN104268586A (zh) * | 2014-10-17 | 2015-01-07 | 北京邮电大学 | 一种多视角动作识别方法 |
US20200125877A1 (en) * | 2018-10-22 | 2020-04-23 | Future Health Works Ltd. | Computer based object detection within a video or image |
CN114372523A (zh) * | 2021-12-31 | 2022-04-19 | 北京航空航天大学 | 一种基于证据深度学习的双目匹配不确定性估计方法 |
CN114492620A (zh) * | 2022-01-24 | 2022-05-13 | 西安电子科技大学 | 基于证据深度学习的可信多视角分类方法 |
CN114596467A (zh) * | 2022-03-10 | 2022-06-07 | 山东大学 | 基于证据深度学习的多模态影像分类方法 |
CN114821022A (zh) * | 2022-06-27 | 2022-07-29 | 中国电子科技集团公司第二十八研究所 | 融合主观逻辑和不确定性分布建模的可信目标检测方法 |
CN115439936A (zh) * | 2022-09-15 | 2022-12-06 | 中国科学院合肥物质科学研究院 | 一种基于多视角的行为识别方法及其应用 |
CN115294406A (zh) * | 2022-09-30 | 2022-11-04 | 华东交通大学 | 基于属性的多模态可解释分类的方法与系统 |
CN116092185A (zh) * | 2022-12-22 | 2023-05-09 | 山东大学 | 基于多视角特征交互融合的深度视频行为识别方法及系统 |
CN115661500A (zh) * | 2022-12-27 | 2023-01-31 | 南京邮电大学 | 基于二阶分布及不确定性感知聚类融合的目标检测方法 |
Non-Patent Citations (3)
Title |
---|
HUAN MA 等: "Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions", 《35TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2021)》, pages 1 - 13 * |
XIAN ZHONG 等: "VCD: VIEW-CONSTRAINT DISENTANGLEMENT FOR ACTION RECOGNITION", 《2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, pages 1 - 5 * |
李岩: "基于群和隐空间的深度学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 140 - 1 * |
Also Published As
Publication number | Publication date |
---|---|
CN116884094B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929622B (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
Liu et al. | Beyond the parts: Learning multi-view cross-part correlation for vehicle re-identification | |
CN104424634B (zh) | 对象跟踪方法和装置 | |
CN114842559B (zh) | 基于多模态时间感知和注意力的视频交互动作检测方法 | |
Bhuiyan et al. | Video analytics using deep learning for crowd analysis: a review | |
Zhao et al. | Double attention for multi-label image classification | |
Lu et al. | Deep Learning based Multi-Label Image Classification of Protest Activities | |
Liu et al. | Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching | |
Xu et al. | Video unsupervised domain adaptation with deep learning: A comprehensive survey | |
Acosta et al. | City safety perception model based on visual content of street images | |
Zhai et al. | GAN-BiLSTM network for field-road classification on imbalanced GNSS recordings | |
CN116884094B (zh) | 基于视角和行为解耦的多视角行为识别方法及系统 | |
CN117671353A (zh) | 动作抖动与骨架噪声抑制的多尺度时空交互骨架动作分类方法、系统、设备及介质 | |
CN113221951B (zh) | 一种基于时域注意力池化网络的动图分类方法及装置 | |
CN114973107A (zh) | 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 | |
CN114596435A (zh) | 语义分割标签的生成方法、装置、设备及存储介质 | |
Xiong et al. | Domain adaptation of object detector using scissor-like networks | |
Xu et al. | Unsupervised Cross-domain Pulmonary Nodule Detection without Source Data | |
CN116958720A (zh) | 目标检测模型的训练方法、目标检测方法、装置及设备 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 | |
CN113763313A (zh) | 文本图像的质量检测方法、装置、介质及电子设备 | |
CN116091984B (zh) | 视频目标分割方法、装置、电子设备及存储介质 | |
CN116612341B (zh) | 用于对象计数的图像处理方法、装置、设备及存储介质 | |
Khedgaonkar et al. | Video Crawling Using Deep Learning | |
Shah et al. | Taming Crowded Visual Scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |