CN116884094A

CN116884094A - 基于视角和行为解耦的多视角行为识别方法及系统

Info

Publication number: CN116884094A
Application number: CN202311149653.1A
Authority: CN
Inventors: 钟忺; 周卓; 巫世峰; 刘文璇; 黄文心; 钟珞; 张晨
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-10-13
Anticipated expiration: 2043-09-07
Also published as: CN116884094B

Abstract

本发明公开了一种基于视角和行为解耦的多视角行为识别方法及系统，所述方法包括：对相同行为的不同视角视频进行特征提取，得到不同视角的局部特征；分析每个视角的证据分布，计算每个视角的权重，融合所有视角的局部特征，得到全局特征；利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征，将各个视角的行为不变特征融合，得到全局行为不变特征；基于全局行为不变特征进行行为识别，并利用损失函数分别对特定视角特征和行为不变特征进行约束。本发明利用证据分布重新分配不同视角的权重得到全局特征，并与每个视角解耦得到行为不变特征和特定视角特征，融合得到全局行为不变特征进行行为识别，可以提高识别精度。

Description

基于视角和行为解耦的多视角行为识别方法及系统

技术领域

本发明属于城市监控视频分析技术领域，尤其涉及一种基于视角和行为解耦的多视角行为识别方法及系统。

背景技术

研究高效的视频图像分析技术来满足从大规模视频监控数据中提取异常行为的信息，可以节省成本，具有重大意义。传统的肉眼监视容易遗漏潜在危险信息，无法同时对复杂环境下的多个路线视频信息进行过滤并分类，效率不高，而且伴随着人为主观因素的影响，导致无法达到满意的效果，严重费时费力。因此，研究多视角行为识别在重大活动安防等工作中具有重大的意义和实用价值。

行为识别指在各种监控环境的视频中，通过分类算法计算所捕捉到的监控视频片段类别属于哪一类别的任务。该任务目前主要的问题在于类间差异较小的行为类别的近似样本区分问题和不同摄像头视角下的视角变换问题。现有的跨视角动作识别大致可分为两类：1）利用额外的模态信息来增强视角特征，比如Shruti Vyas等提出的Multi-viewaction recognition using cross-view video prediction（跨视角预测的多视角行为识别方法）。2）一些研究人员倾向于提出视角不变特征，比如Linguo Li等提出的D humanaction representation learning via cross-view consistency pursuit（基于跨视角一致性的人类行为特征学习方法）。如今利用深度学习网络通过输入的视频进行特征提取，从而实现多视角下的行为识别是专家学者的研究热点内容。

公开号为CN109977787A的发明专利公开了一种多视角的人体行为识别方法，其通过视角自适应变换模型，将稀疏表示从稀疏空间变换到新的共用空间，在一定程度上可以保障同一个动作在不同视角下的特征相似性。但是不同视角携带的有效行为信息是不同的，对全局行为的影响也是不同的，现有的行为识别方法均忽略了这一信息，影响行为识别准确度。

发明内容

有鉴于此，本发明提出了基于视角和行为解耦的多视角行为识别方法及系统，用于解决行为识别方法准确率不佳的问题。

本发明第一方面，公开一种基于视角和行为解耦的多视角行为识别方法，所述方法包括：

对相同行为的不同视角视频进行特征提取，得到相同行为在不同视角的局部特征；

分析每个视角的证据分布，计算每个视角的权重，根据每个视角的权重融合所有视角的局部特征，得到全局特征；

利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征，将各个视角的行为不变特征融合，得到全局行为不变特征；

基于全局行为不变特征进行行为识别，并利用损失函数分别对特定视角特征和行为不变特征进行约束。

在以上技术方案的基础上，优选的，所述分析每个视角的证据分布，计算每个视角的权重，根据每个视角的权重融合所有视角的局部特征，得到全局特征具体包括：

设计证据分布模型，计算相同行为在不同视角的预测分数；

根据预测分数建立高斯分布模型；

基于贝叶斯概率论，根据高斯分布模型计算每个视角行为分类的证据分布；

根据每个视角行为分类的证据分布计算每个视角的证据总和；

根据每个视角的证据总和计算每个视角的权重；

基于每个视角的权重对各个视角的局部特征进行加权求和，得到全局特征。

在以上技术方案的基础上，优选的，所述证据分布模型的表达式为：

其中，为第i个视角的局部特征，/>表示线性函数，ReLU(·)为修正线性单元，/>为第i个视角的预测分数。

在以上技术方案的基础上，优选的，所述根据高斯分布模型计算每个视角行为分类的证据分布的表达式为：

其中，为第i个视角下第k个行为类别的证据分布，/>表示伽马函数，m为证据分布参数，/>为第i个视角的预测分数，/>为高斯分布，分别为高斯分布模型的均值和方差。

在以上技术方案的基础上，优选的，所述根据每个视角的证据总和计算每个视角的权重具体包括：

根据每个视角的证据总和计算每个视角的不确定性：

其中，为第i个视角的证据总和，/>，K为行为类别总数；

根据每个视角的不确定性计算每个视角的权重：

其中，为第i个视角的权重，n表示n个不同视角。

在以上技术方案的基础上，优选的，所述利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征，将各个视角的行为不变特征融合，得到全局行为不变特征具体包括：

根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图；

将每个视角的局部特征分别与行为相关图做矩阵乘法得到每个视角的行为不变特征；

将行为相关图取逆并与每个视角的局部特征分别做矩阵乘法得到每个视角的特定视角特征；

根据每个视角的权重，对每个视角的行为不变特征进行加权求和，得到全局行为不变特征。

在以上技术方案的基础上，优选的，所述根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图具体包括：

将全局特征G和每个视角的局部特征X _i级联后进行卷积操作，使用空间注意力机制捕获关键的行为信息点，并将关键行为信息点合成每个视角对应的行为相关图M _i；

计算行为相关图M _i的表达式为：

其中表示空间注意力机制下分类的特征权重，sig(·)表示sigmoid激活函数，BR(·)表示3D卷积网络中的BN层和ReLU层，/>表示对x _i和G进行级联操作。

本发明第二方面，公开一种基于视角和行为解耦的多视角行为识别系统，所述系统包括：

本发明第三方面，公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现如本发明第一方面所述的方法。

本发明第四方面，公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如本发明第一方面所述的方法。

本发明相对于现有技术具有以下有益效果：

1）本发明充分利用多视角行为识别中行为与视角之间的关系，利用证据分布重新分配不同视角的权重，结合该行为的全局特征引导解耦，最大限度地利用常见的视觉信息在每个视角的约束下得到行为不变特征和特定视角的特征，最后结合鲁棒的多视角行为特征和行为与视角之间的关系信息来解决行为识别中的不同样本下类别分类不准确的问题，提高识别精度。

2）本发明根据证据分布模型对不同的视角动态分配不同权重，可以有效权衡不同视角携带的行为信息量，更符合实际情况，同时根据权重综合考虑全局特征，可以提高多视角行为特征提取的准确度。

3）本发明通过将全局特征与单个视角特征结合，加入空间注意力机制，计算行为相关特征图，并根据行为相关特征图解耦特定视角的特征和行为不变特征，通过利用视角间和视角内的相关性积极干预整个解耦过程，在解开不同视角特征同时考虑全局行为特征和视角之间的潜在联系，使行为特征更具有好的表征能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于视角和行为解耦的多视角行为识别方法流程图；

图2为本发明的基于视角和行为解耦的多视角行为识别方法系统结构图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1，本发明提出一种基于视角和行为解耦的多视角行为识别方法，所述方法包括：

S1、对相同行为的不同视角视频进行特征提取，得到相同行为在不同视角的局部特征。

设由n个视角下的摄像头组成的摄像机网络采集相同行为的不同视角样本视频，根据输入的不同视角，构建多流同构特征提取网络，分别提取相同行为的不同视角视频的局部特征，形成行为特征/>。

S2、分析每个视角的证据分布，计算每个视角的权重，根据每个视角的权重融合所有视角的局部特征，得到全局特征。

步骤S2具体包括如下分步骤：

S21、设计证据分布模型，计算相同行为在不同视角的预测分数；

根据相同行为的不同视角特征，设计证据分布模型以分配不同视角的权重，所述证据分布模型的表达式为：

S22、根据预测分数建立高斯分布模型。

对于每个视角的预测分数，该预测分数/>服从一个高斯分布。并且通过在/>上放置一个先验分布来建模高斯分布模型，其中/>和/>分别表示预测分数高斯分布的均值和方差。

S23、基于贝叶斯概率论，根据高斯分布模型计算每个视角行为分类的证据分布。

根据贝叶斯概率论，模型证据是指从输入中收集到的支持分类的指标，一般来说，模型证据不能直接评估，因为计算它涉及到对潜在模型参数的依赖。为了解决这个问题，本发明定义预测分数y _i为观察的似然值，在高斯似然函数上放置一个逆伽马函数，计算证据分布。

根据高斯分布模型计算每个视角行为分类的证据分布的表达式为：

其中，为第i个视角下第k个行为类别的证据分布，/>表示伽马函数，/>为第i个视角的预测分数，/>为高斯分布，/>分别为高斯分布模型的均值和方差。

S24、根据每个视角行为分类的证据分布计算每个视角的证据总和。

证据分布的平均值可以直观地解释为通过预测分数观测估计的均值，而其方差是通过预测分数/>和偏差平方和/>的观测估计的。

本发明将每个视角的证据分布的总和定义为所有该视角行为分类的证据总和。

其中，为第i个视角的证据总和，K为行为类别总数。

S25、根据每个视角的证据总和计算每个视角的不确定性。

对于K分类问题，根据证据总和为每个类标签分配一个信念质量，并为每个视角分配一个总体的不确定性分数：

其中，为第i个视角的不确定性，观察到的证据总和/>越多，总的不确定性就越小。

S26、根据每个视角的不确定性计算每个视角的权重。

视角权重是指在多视角特征融合中，不同视角所占的比例。本发明将所有视角的不确定性分数取反后相加，并将每个视角的不确定性分数与之相除得到每个视角的权重：

其中，为第i个视角的权重，n表示n个不同视角。

S27、基于每个视角的权重对各个视角的局部特征进行加权求和，得到全局特征。

全局特征是指一个行为类别的所有视角特征融合得到的特征，全局特征包含完整的特征信息。

本发明将每个视角的局部特征按权重值/>累加得到全局特征/>：

S3、利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征，将各个视角的行为不变特征融合，得到全局行为不变特征。

步骤S3具体包括如下分步骤：

S31、根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图。

行为相关图是特征图中包含行为信息的部分。

本发明将全局特征G和每个视角的局部特征x _i级联后进行卷积操作，使用空间注意力机制捕获关键的行为信息点，并将关键行为信息点合成每个视角对应的行为相关图M _i。

计算行为相关图M _i的表达式为：

S32、将每个视角的局部特征分别与行为相关图做矩阵乘法得到每个视角的行为不变特征。

行为不变特征是指每个视角的行为信息特征，本发明将每个视角的局部特征分别与行为相关图M _i做矩阵乘法得到每个视角的行为不变特征，

其中表示矩阵乘法。

S33、将行为相关图取逆并与每个视角的局部特征分别做矩阵乘法得到每个视角的特定视角特征。

特定视角特征是指包含视角信息的特征，本发明将行为相关图取逆并与每个视角的特征分别做矩阵乘法得到每个视角的特定视角特征，该特征包含视角信息。

S34、根据每个视角的权重，对每个视角的行为不变特征进行加权求和，得到全局行为不变特征。

全局行为不变特征是指将所有视角的行为不变特征根据不同权重融合，得到的包含完整的行为信息的特征。对每个视角的行为不变特征进行加权求和，得到全局行为不变特征。

其中代表第i个视角的权重，v表示v个不同视角。

S4、基于全局行为不变特征进行行为识别，并利用损失函数分别对特定视角特征和行为不变特征进行约束。

本实施例中，使用分类交叉熵损失对行为特征进行约束。另外，本发明使用Jensen-Shannon（JS）损失/>作为视角约束方法，该方法使视角特定特征包含更多的视角信息然后约束视角解耦方法。最后，将所有的损失进行加权得到本发明的总损失函数L：

本发明充分利用多视角行为识别中行为与视角之间的关系，利用证据分布重新分配权重得到不同视角的排列，结合该行为的全局特征引导解耦，解开同一行为在不同视角上的潜在联系，最大限度地利用常见的视觉信息在每个视角的约束下得到行为不变特征和特定视角的特征。最后结合鲁棒的多视角行为特征和行为与视角之间的关系信息来解决行为识别中的不同样本下类别分类不准确的问题。

与上述方法实施例相对应，本发明还提出一种基于视角和行为解耦的多视角行为识别系统，如图2所示为系统结构示意图，所述系统包括：

特征提取模块：用于对相同行为的不同视角视频进行特征提取，得到相同行为在不同视角的局部特征；

证据分布模块：用于分析每个视角的证据分布，计算每个视角的权重，根据每个视角的权重融合所有视角的局部特征，得到全局特征；

特征解耦模块：用于利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征，将各个视角的行为不变特征融合，得到全局行为不变特征；基于全局行为不变特征进行行为识别，并利用损失函数分别对特定视角特征和行为不变特征进行约束。

以上系统实施例和方法实施例是一一对应的，系统实施例简述之处请参阅方法实施例即可。

下面通过实验实例来验证本发明所提出的方法的有效性。

对于系统实施例中的特征解耦模块FDM及证据分布模块EDM的实验结果如下。

表1与表2分别列出了在N-UCLA数据集与NTU RGB+D数据集上基于解耦学习和证据分布分配方法的CS、CV指标，可以更明显展示出网络各个模块对特征分类的影响。

表1 几种模型在N-UCLA数据集上的准确率对比

表2 几种模型在NTU RGB+D数据集上的准确率对比

表1中的TSN是将整个视频分成几个片段，每个片段中随机选择一个视频帧，并通过网络进行转发。网络为来自所有段的输入帧共享权值并聚合来自采样视频帧的信息。FDM+EDM融合框架与之相比，在N-UCLA数据集上的CS和CV指标分别提升了7.1%和5.1%，在NTU-RGB+D数据集上的CS和CV指标上分别提升了8.7%和5.9%。因此可知，将不同视角的特征进行动态权重分配，并将每个视角特征的行为信息与视角信息解开，可以提高多视角行为识别的准确度。VIFL-SAM和CVAM均采用了学习视角不变特征的方法，试图通过保留视角不变特征来实现多视角行为识别的准确识别，虽然CVAM方法较TSN方法有一些提升，但是他忽略了视角特征对于行为特征的影响。FDM+EDM融合框架与VIFL-SAM相比，在N-UCLA数据集上的CS和CV指标分别提升了9.3%和13.1%，与CVAM相比，在NTU-RGB+D数据集上的CS和CV指标上分别提升了6.9%和4.3%。这证明了视角对于行为存在很大的影响。在对视角特征进行约束后，可以限制视角特征学习行为信息，同时可以保证行为特征学习到完整的行为信息。

本发明还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明前述的方法。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视角和行为解耦的多视角行为识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于视角和行为解耦的多视角行为识别方法，其特征在于，所述分析每个视角的证据分布，计算每个视角的权重，根据每个视角的权重融合所有视角的局部特征，得到全局特征具体包括：

设计证据分布模型，计算相同行为在不同视角的预测分数；

根据预测分数建立高斯分布模型；

根据每个视角的证据总和计算每个视角的权重；

3.根据权利要求2所述的基于视角和行为解耦的多视角行为识别方法，其特征在于，所述证据分布模型的表达式为：

；

4.根据权利要求2所述的基于视角和行为解耦的多视角行为识别方法，其特征在于，所述根据高斯分布模型计算每个视角行为分类的证据分布的表达式为：

；

其中，为第i个视角下第k个行为类别的证据分布，/>(·)表示伽马函数，/>为第i个视角的预测分数，/>，/>为高斯分布，/>分别为高斯分布模型的均值和方差。

5.根据权利要求4所述的基于视角和行为解耦的多视角行为识别方法，其特征在于，所述根据每个视角的证据总和计算每个视角的权重具体包括：

根据每个视角的证据总和计算每个视角的不确定性：

；

其中，为第i个视角的不确定性，/>为第i个视角的证据总和，/>，K为行为类别总数；

根据每个视角的不确定性计算每个视角的权重：

；

其中，为第i个视角的权重，i=1,2,...,n，n表示n个不同视角。

6.根据权利要求5所述的基于视角和行为解耦的多视角行为识别方法，其特征在于，所述利用全局特征和每个视角的局部特征解耦出每个视角的特定视角特征和行为不变特征，将各个视角的行为不变特征融合，得到全局行为不变特征具体包括：

7.根据权利要求6所述的基于视角和行为解耦的多视角行为识别方法，其特征在于，所述根据全局特征和每个视角的局部特征计算每个视角对应的行为相关图具体包括：

计算行为相关图M _i的表达式为：

；

8.一种基于视角和行为解耦的多视角行为识别系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、通信接口和总线；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现如权利要求1~7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如权利要求1~7任一项所述的方法。