CN116152717A

CN116152717A - 联合生成判别特征的开放行为识别方法、设备及存储介质

Info

Publication number: CN116152717A
Application number: CN202310170158.2A
Authority: CN
Inventors: 张鸿杰; 王利民; 王亚立; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-23

Abstract

本申请提供一种联合生成判别特征的开放行为识别方法、设备及存储介质，该方法包括：获取待识别视频；采用开放行为识别模型计算待识别视频的不确定性分数和分类分数；若不确定性分数大于阈值，则待识别视频被分类为未知类，若不确定性分数小于或等于阈值，则根据分类分数确定待识别视频的分类标签。该方案不仅可以识别训练过程中出现的类别，还可以将没有出现过的未知类数据识别成未知类。

Description

联合生成判别特征的开放行为识别方法、设备及存储介质

技术领域

本发明属于计算机视觉技术领域，特别涉及一种联合生成判别特征的开放行为识别方法、设备及存储介质。

背景技术

视频行为识别是视频理解中的重要关键任务。现有视频行为识别方法大多数是在闭集假设下提出的，即只能识别来自已知类别的数据。其中，已知类表示训练过程中出现过的类别。然而，在真实应用场景中，视频行为识别系统往往会遇到训练过程中没有出现过的类别，这些没有见过的类别统称为未知类。现有视频行为系统会将这些未知类数据识别成某一个已知类，造成实际应用中的安全问题。因此，这就要求视频行为识别方法不仅要能准确分类训练过程中出现过的已知类，还要能识别训练过程中没有出现过的未知类。

目前相关的视频行为方法主要基于深度证据学习来解决视频行为识别的开放问题。通过利用深度证据学习将视频行为识别的开放问题转换成不确定性估计问题。深度证据学习利用深度神经网络来预测类别概率的狄利克雷分布，这可以看作是一个证据收集过程。学习到的证据有助于量化各种人类行为的预测不确定性，从而使来自未知类的行为产生高度不确定性。这样每个行为数据都会有一个不确定值，当该不确定值高于阈值时，则被识别成未知类，低于阈值时，则识别为某个已知类。该阈值理论上是训练数据中最大不确定值。

发明内容

本说明书实施例的目的是提供一种联合生成判别特征的开放行为识别方法、设备及存储介质。

为解决上述技术问题，本申请实施例通过以下方式实现的：

第一方面，本申请提供一种联合生成判别特征的开放行为识别方法，该方法包括：

获取待识别视频；

采用开放行为识别模型计算待识别视频的不确定性分数和分类分数；

若不确定性分数大于阈值，则待识别视频被分类为未知类，若不确定性分数小于或等于阈值，则根据分类分数确定待识别视频的分类标签。

在其中一个实施例中，开放行为识别模型包括视频特征编码器、生成模型和分类网络；

采用开放行为识别模型计算待识别视频的不确定性分数，包括：

采用视频特征编码器提取待识别视频的特征向量；

采用生成模型生成特征向量对应的生成特征向量；

将特征向量和对应的生成特征向量串联拼接，生成联合生成判别特征；

联合生成判别特征输入分类网络，得到待识别视频的不确定性分数和分类分数。

在其中一个实施例中，训练开放行为识别模型时，对视频特征编码器、生成模型和分类网络进行端到端深度证据学习。

在其中一个实施例中，联合生成模型的损失函数

和分类网络的损失函数/>

以端到端的方式训练视频特征编码器、生成模型和分类网络的损失函数：

其中，N为每次迭代训练时视频的个数。

在其中一个实施例中，分类网络的损失函数

为：

其中，t_ij表示视频x_i的类别标签y_i的01二进制形式，α_ij＝e_ij+1，e_ij为分类网络C的非负输出,

K为训练集中已知类的数目。

在其中一个实施例中，每个视频x_i的分类分数为：α_ij/S_i，每个视频x_i的不确定性分数为u_i＝K/S_i。

在其中一个实施例中，阈值根据训练时不确定分数确定。

在其中一个实施例中，阈值τ为：

其中，u_i为训练时每个视频x_i的不确定性分数，X表示整个训练集，s为自由参数，用于提供边距松弛。

第二方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的联合生成判别特征的开放行为识别方法。

第三方面，本申请提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的联合生成判别特征的开放行为识别方法。

由以上本说明书实施例提供的技术方案可见，该方案：可以解决视频行为识别任务中的开放问题，不仅可以识别训练过程中出现的类别，还可以将没有出现过的未知类数据识别成未知类。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的联合生成判别特征的开放行为识别方法的流程示意图；

图2为本申请提供的联合生成判别特征的开放行为识别方法的又一流程示意图；

图3为本申请提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在不背离本申请的范围或精神的情况下，可对本申请说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

现有技术深度证据学习是基于已知类的判别特征学习的，而已知类的判别特征并不包含未知类的信息，因此不适合直接用该特征来解决视频行为识别任务中的开放问题。

基于上述缺陷，本申请提供一种联合生成判别特征的开放行为识别方法，该方法的联合生成判别特征通过生成模型的输入和输出特征产生，并基于该特征进行深度证据学习，该特征包含更多的未知类知识，更适合解决视频行为识别任务中的开放问题。

下面结合附图和实施例对本发明进一步详细说明。

参照图1和图2，其示出了适用于本申请实施例提供的联合生成判别特征的开放行为识别方法的流程示意图。

如图1所示，联合生成判别特征的开放行为识别方法，可以包括：

S110、获取待识别视频。

具体的，待识别视频可以为实时采集的视频，也可以为从已知数据集中获取的视频，在此不做限制。

S120、采用开放行为识别模型计算待识别视频的不确定性分数和分类分数。

如图2所示，开放行为识别模型包括视频特征编码器、生成模型和分类网络。

S120具体可以包括：

采用视频特征编码器提取待识别视频的特征向量；

采用生成模型生成特征向量对应的生成特征向量；

其中，视频特征编码器E用于将原始视频投影到特征空间，即从原始视频空间到特征空间，可以降低分类和生成的复杂度。可以理解的，对视频进行行为识别时，原始视频为待识别视频，在训练开放行为识别模型时，原始视频为训练集中视频，在测试开放行为识别模型时，原始视频为测试集中视频。

本申请中视频特征编码器E选取目前较为流行的视频行为识别深度学习方法，包括但不限于I3D、TSM、SlowFast、TPN以及ViT等。视频特征编码器用于对每个输入视频x_i提取一个具有高层次语义信息的768维的特征向量z_i＝E(x_i)，其中x_i表示输入的第i个视频，E表示视频特征编码器。

生成模型G用于生成已知类的特征空间，本申请中生成模型选取目前较为流行的生成网络模型，包括但不限于自编码器(AutoEncoder)、变分自编码器(VAE)以及流模型(Flow)等。对每个输入特征向量z_i生成一个对应的相同维度大小的生成特征向量

其中，G表示生成模型。

为了引入生成模型的输入与输出之间的差异性，本申请将生成模型的输入特征z_i和输出特征

串联拼接，得到联合生成判别特征/>

维度大小为1536。

分类网络C用于对输入的联合生成判别特征进行K分类，其中，K为训练集中已知类的数目，用来对训练过程中出现过的已知类样本进行分类。

本申请的分类网络C选择三层的线性全连接网络，层数分别为1536、768、K，输出用激活函数Relu，分类网络的结构包括但不限于此结构。输入为联合生成判别特征

输出为待识别视频的分类分数和不确定性分数。

一个实施例中，训练开放行为识别模型时，对视频特征编码器、生成模型和分类网络进行端到端深度证据学习。

具体的，联合生成模型的损失函数

和分类网络的损失函数/>

其中，N为每次迭代训练时视频的个数。

其中，以自编码器为例，生成模型G的损失函数

为：

基于深度证据学习计算分类网络C的损失函数

为：

每个视频x_i的分类分数为α_ij/S_i，不确定性分数为u_i＝K/S_i。

本实施例通过生成模型的输入输出特征之间的差异来帮助识别未知类。这里的生成模型是在已知类特征上训练的，且可以是任意深度生成方法。当未知类输入生成模型时，由于生成模型是在已知类上训练的，因此其输出也应该更像已知类，这就导致生成模型的输入与输出之间存在差异，而这种差异可以作为一种重要的知识来帮助识别未知类。

并且本申请基于特征空间上训练生成模型，而不是原始视频数据，可以很大程度上降低计算复杂度。

另外，本申请以端到端的方式训练整个开放行为识别模型，能够进一步提升最终的开放识别性能。

S130、若不确定性分数大于阈值，则待识别视频被分类为未知类，若不确定性分数小于或等于阈值，则根据分类分数确定待识别视频的分类标签。

其中，阈值τ根据训练时不确定分数确定，用来区分已知类和未知类。阈值的大小理论上选取训练数据不确定分数的最大值，具体为：

根据上述确定的阈值识别待识别视频是否属于未知类，若不确定性分数大于阈值，则待识别视频被分类为第K+1类，即未知类，若不确定性分数小于或等于阈值，将从分类模型中分配适当的已知类标签给该待识别视频。公式表示如下：

式中，pred(x_i)表示视频x_i的最终分类标签。

本申请提供的联合生成判别特征的开放行为识别方法，可以解决视频行为识别任务中的开放问题，不仅可以识别训练过程中出现的类别，还可以将没有出现过的未知类数据识别成未知类。

本申请提供的联合生成判别特征的开放行为识别方法，经试验论证，在两个开放行为识别场景UCF101-HMDB51和UCF101-MiTV2上都比现有技术方法提升3％-4％。

图3为本发明实施例提供的一种电子设备的结构示意图。如图3所示，示出了适于用来实现本申请实施例的电子设备300的结构示意图。

如图3所示，电子设备300包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有设备300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口306。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述联合生成判别特征的开放行为识别方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

作为另一方面，本申请还提供了一种存储介质，该存储介质可以是上述实施例中前述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的联合生成判别特征的开放行为识别方法。

存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。