CN117853967A

CN117853967A - 行为识别方法、装置、电子设备及存储介质

Info

Publication number: CN117853967A
Application number: CN202311682497.5A
Authority: CN
Inventors: 王亚立; 许清林; 乔宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS; Shanghai AI Innovation Center
Current assignee: Shenzhen Institute of Advanced Technology of CAS; Shanghai AI Innovation Center
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-04-09

Abstract

本申请实施例提供了一种行为识别方法、装置、电子设备及存储介质，涉及行为识别技术领域。其中，该行为识别方法包括：获取待识别视频及对应的视频标签；对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成所述待识别视频对应的至少一个拓展文本；根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量；将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果；所述行为识别结果用于指示所述待识别视频中行为的类别。本申请实施例解决了相关技术中视频行为识别鲁棒性差，准确度低的问题。

Description

行为识别方法、装置、电子设备及存储介质

技术领域

本申请涉及行为识别技术领域，具体而言，本申请涉及一种行为识别方法、装置、电子设备及存储介质。

背景技术

行为识别是视频理解的重要问题。然而，目前现有技术中对图像进行行为识别时，使用基于领域对抗或特征对齐映射的方法，以期将两个领域的数据映射到相同的特征空间中，通过将图片-文本的多模态与训练模型迁移到视频领域进行行为识别。然而，在开放域场景下进行行为识别时，由于领域差异过大，且只使用简单的标签文本进行对应，不能充分体现视觉信息，导致视频行为识别准确度低，鲁棒性差。

由此可知，现有技术中视频行为识别鲁棒性差，准确度低的问题亟需解决。

发明内容

本申请各实施例提供了一种行为识别方法、装置、电子设备及存储介质，可以解决相关技术中存在的行为识别鲁棒性差，准确度低的问题。所述技术方案如下：

根据本申请实施例的一个方面，一种行为识别方法，包括：获取待识别视频及对应的视频标签；对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成所述待识别视频对应的至少一个拓展文本；所述拓展文本用于辅助理解所述待识别视频所在的领域场景；根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量；所述第一预测向量对应于所述视频标签，各所述第二预测向量分别对应于各拓展文本；将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果；所述行为识别结果用于指示所述待识别视频中行为的类别。

根据本实施例的一个方面，一种行为识别装置，包括：标签获取模块，用于获取待识别视频及对应的视频标签；拓展模块，用于对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成所述待识别视频对应的至少一个拓展文本；所述拓展文本用于辅助理解所述待识别视频所在的领域场景；预测模块，用于根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量；所述第一预测向量对应于所述视频标签，各所述第二预测向量分别对应于各拓展文本；融合模块，用于将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果；所述行为识别结果用于指示所述待识别视频中行为的类别。

在一示例性实施例中，所述预测模块，包括：特征提取单元，用于分别对所述待识别视频、以及对应的视频标签和各拓展文本进行特征提取，获得对应所述待识别视频的视频特征、对应视频标签的视频标签特征和分别对应各拓展文本的多个拓展文本特征；第一计算单元，用于对所述视频特征和视频标签特征进行相似度计算，获得第一预测向量；所述第一预测向量用于指示所述待识别视频中行为基于所述视频标签预测得到的类别及其分数；第二计算单元，用于对所述视频特征和多个拓展文本特征分别进行相似度计算，获得多个第二预测向量；所述第二预测向量用于指示所述待识别视频中行为基于所述拓展文本预测得到的类别及其分数。

在一示例性实施例中，所述特征提取单元，包括：文本编码子单元，用于将所述视频标签和各所述拓展文本输入文本编码器，得到对应的视频标签特征和各拓展文本特征；视觉编码子单元，用于将所述待识别视频输入视觉编码器，得到对应的视频特征。

在一示例性实施例中，所述融合模块，包括：加权单元，用于将所述第二预测向量与所述第一预测向量进行加权计算，得到所述行为识别结果。

在一示例性实施例中，所述装置还包括：筛选模块，用于基于各所述第二预测向量指示的所述待识别视频中行为的类别及其分数，对各所述第二预测向量进行筛选。

在一示例性实施例中，所述拓展性描述是调用大语言模型实现的，所述大语言模型是经过训练、且具有基于所述视频标签描述所述待识别视频所在的领域场景的能力的机器学习模型。

在一示例性实施例中，所述类别预测是调用行为识别模型实现的，所述行为识别模型是经过训练、且具有对所述待识别视频中的行为进行分类的能力的机器学习模型。

根据本申请实施例的一个方面，一种电子设备，包括：至少一个处理器、至少一个存储器、以及至少一条通信总线，其中，所述存储器上存储有计算机程序，所述处理器通过所述通信总线读取所述存储器中的所述计算机程序；所述计算机程序被所述处理器执行时实现如上所述的行为识别方法。

根据本申请实施例的一个方面，一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上所述的行为识别方法。

根据本申请实施例的一个方面，一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序存储在存储介质中，计算机设备的处理器从存储介质读取计算机程序，处理器执行计算机程序，使得计算机设备执行时实现如上所述的行为识别方法。

本申请提供的技术方案带来的有益效果是：

在上述技术方案中，获取待识别视频及对应的视频标签；对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成所述待识别视频对应的至少一个拓展文本；根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量；将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果。

也就是说，通过对视频标签进行拓展性描述，增加视频标签细粒度描述的拓展文本，以进行类别预测和行为识别，在自适应领域对视频进行行为识别，引入多模态预训练模型，提升行为识别在领域自适应场景下的性能，从而能够有效地解决相关技术中存在的视频行为识别鲁棒性差，准确度低的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1是根据本申请所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种行为识别方法的流程图；

图3是图2对应实施例中步骤250在一个实施例的流程图；

图4是图3对应实施例中步骤251在一个实施例的流程图；

图5是图2对应实施例中步骤270在一个实施例的流程图；

图6是根据一示例性实施例示出行为识别的具体实现示意图；

图7是根据一示例性实施例示出的一种行为识别装置的结构框图；

图8是根据一示例性实施例示出的一种电子设备的硬件结构图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面是对本申请涉及的几个名词进行的介绍和解释：

行为识别：对视频中任务的行为进行分类的任务。

大语言模型：指的是一类在自然语言处理领域中占据主导地位的先进模型。这些模型被设计用于理解和生成人类语言，其规模庞大，可以学习和理解大量的语言知识。这些模型的工作基于深度学习技术，其中神经网络被训练来处理和理解文本数据。

开放世界：开放世界和正常的学术数据集的差异主要体现在其数据是来自于真实世界的，而不是在实验室的环境下进行采集的，其具有两个特定：1.来自于真实世界，可能存在数据域差异过大的情况，例如黑暗或者低分辨率的环境下，由于其数据与预训练数据直接存在一定的差距，使用预训练得到的模型进行微调可能并不能取得很好的效果；2.同时在真实世界的场景下，数据并不是十分的充足。

领域自适应：模型从一个领域(数据的来源分布)适应到另一个领域的过程。

如前所述，目前的行为识别方案的缺点是现有技术中对图像进行行为识别时，使用基于领域对抗或特征对齐映射的方法，以期将两个领域的数据映射到相同的特征空间中，通过将图片-文本的多模态与训练模型迁移到视频领域进行行为识别。然而，在开放域场景下进行行为识别时，由于领域差异过大，且只使用简单的标签文本进行对应，不能充分体现视觉信息，导致视频行为识别准确度低，鲁棒性差。

由此可知，相关技术中仍存在行为识别成本较高的缺陷。

为此，本申请提供的行为识别方法，能够有效地降低行为识别成本，相应地，该行为识别方法适用于行为识别装置、该行为识别装置可部署于配置冯诺依曼体系结构的计算机设备，例如，该计算机设备可以是台式电脑、笔记本电脑、服务器等等。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参阅图1，图1为一种行为识别方法所涉及的一种实施环境的示意图。需要说明的是，该种实施环境只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。

该实施环境包括采集端110和服务端130。

具体地，采集端110，也可以认为是图像采集设备，包括但不限于摄像头、相机、摄录机等具有拍摄功能的电子设备。例如，采集端110为相机。

服务端130，该服务端130可以是台式电脑、笔记本电脑、服务器等等电子设备，还可以是由多台服务器构成的计算机集群，甚至是由多台服务器构成的云计算中心。其中，服务端130用于提供后台服务，例如，后台服务包括但不限于行为识别服务等等。

服务端130与采集端110之间通过有线或者无线等方式预先建立网络通信连接，并通过该网络通信连接实现服务端130与采集端110之间的数据传输。传输的数据包括但不限于：待识别图像等等。

在一应用场景中，通过采集端110与服务端130的交互，采集端110针对目标对象拍摄并采集得到待识别图像，并将该待识别图像上传至服务端130，以请求服务端130提供行为识别服务。

对于服务端130而言，在接收到采集端110上传的目标对象的待识别图像之后，便调用行为识别服务，对目标对象的待识别图像进行行为识别，获取待识别图像的行为识别结果，以此来解决相关技术中存在的视频行为识别鲁棒性差，准确度低的问题。

请参阅图2，本申请实施例提供了一种行为识别方法，该方法适用于电子设备，例如，该电子设备可以是台式电脑、笔记本电脑、服务器等。

在下述方法实施例中，为了便于描述，以该方法各步骤的执行主体为计算机设备为例进行说明，但是并非对此构成具体限定。

如图2所示，该方法可以包括以下步骤：

步骤210，获取待识别视频及对应的视频标签。

其中，视频标签为待识别视频的文字描述，例如，当待识别视频内容为喝水动作视频时，视频标签可以为“喝水”。

步骤230，对待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成待识别视频对应的至少一个拓展文本。

其中，拓展文本用于辅助理解待识别视频所在的领域场景。拓展文本一般是通过输入大语言模型进行拓展，例如，将“喝水”标签输入大语言模型进行拓展，生成更为细粒度的标签，如“用手举起水杯”等具有领域上下文的描述。

需要注意的是，发明人注意到，在现有技术中视频标签是不具有领域上下文的简单文本信息，因此在进行多领域的视频行为识别时，简单的视频标签不能充分体现视觉信息，在进行视频标签和视频中视觉信息的匹配时，难以准确度匹配。因此通过使用更为细粒度的、具有领域上下文的拓展下标签进行行为识别，可以获取待识别视频中更多视觉信息，从而可以提高行为识别的准确度。

在一些实施例中，拓展性描述是调用大语言模型实现的，大语言模型是经过训练、且具有基于视频标签描述待识别视频所在的领域场景的能力的机器学习模型，如chatgpt。

步骤250，根据待识别视频、以及对应的视频标签和至少一个拓展文本，对待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量。

其中，第一预测向量对应于视频标签，各第二预测向量分别对应于各拓展文本。

例如，根据待识别视频对应的一个视频标签生成五个对应的拓展文本，根据视频标签可以生成1×11的第一预测向量和1×55的第二预测向量。

步骤270，将第一预测向量和各第二预测向量进行融合，生成待识别视频的行为识别结果。

其中，行为识别结果用于指示待识别视频中行为的类别。根据第一预测向量和第二预测向量融合形成的行为识别结果，可以综合视频标签的信息和拓展文本的信息，指示待识别视频中行为的类别，使得行为识别更准确。

通过上述过程，对视频标签进行拓展生成拓展文本，增加生成行为识别结果的依据，使得识别过程中的文本信息和视频的视觉信息可以匹配对齐，增加行为识别的准确度。

请参阅图3，在一示例性实施例中，步骤250可以包括以下步骤：

步骤251，分别对待识别视频、以及对应的视频标签和各拓展文本进行特征提取，获得对应待识别视频的视频特征、对应视频标签的视频标签特征和分别对应各拓展文本的多个拓展文本特征。

具体而言，如图4所示，步骤251可以包括以下步骤：

步骤2511，视频标签和各拓展文本输入文本编码器，得到对应的视频标签特征和各拓展文本特征。

其中，通过文本编码器获得的视频标签特征和拓展文本特征具有对应的关系。

例如，将11个视频标签输入文本编码器进行特征提取，获得11×512维度的视频标签特征，将对应该11个视频标签的55个拓展文本输入文本编码器，进行特征提取，获得55×512维度的拓展文本标签，其中每个视频标签对应5个拓展文本。

步骤2513，将待识别视频输入视觉编码器，得到对应的视频特征。

通过视觉编码器对待识别视频进行特征提取，获得视频特征。例如，将一个视频输入视觉编码器，生成1×512维度的视频特征。

需要说明的是，特征可以通过其他编码器进行，此处不限制编码器类型。

步骤253，对视频特征和视频标签特征进行相似度计算，获得第一预测向量。

第一预测向量用于指示待识别视频中行为基于视频标签预测得到的类别及其分数。

步骤255，对视频特征和多个拓展文本特征分别进行相似度计算，获得多个第二预测向量。

第二预测向量用于指示待识别视频中行为基于拓展文本预测得到的类别及其分数。

在一种可能的实现方式，通过计算余弦相似度获取第一预测向量和第二预测向量，其中通过余弦相似度计算判断视频特征和文本特征的相似度，视频特征和视频标签特征之间的相似度，进而生成第一预测向量和第二预测向量。

例如，对具有对应关系的1×512维度的视频特征，11×512维度的视频标签特征，55×512维度的拓展文本标签进行余弦相似度计算，获取1x11的第一预测向量以及1x55的第二预测向量。

在上述实施例的作用下，实现了特征提取，以此唯一准确地标识待识别视频、视频标签和各拓展文本，并以此作为后续行为类别预测的依据，有利于实现准确地行为分类。

请参阅图5所示，在一示例性实施例中，步骤270包括以下步骤：

步骤271，基于各第二预测向量指示的待识别视频中行为的类别及其分数，对各第二预测向量进行筛选。

在一种可能的实现方式，通过第二预测向量的向量值进行筛选。例如，获取对应一个视频标签的1x55的第二预测向量，并计算第二预测向量的5个向量值，将其中向量值最大的第二预测向量保留，其他第二预测向量筛除，获得1×11的第二预测向量。

步骤273，将各第二预测向量与第一预测向量进行加权计算，得到行为识别结果。

在一种可能的实现方式，类别预测是调用行为识别模型实现的，行为识别模型是经过训练、且具有对待识别视频中的行为进行分类的能力的机器学习模型。其中，行为识别模型可以进行领域自适应。

例如，确定用于训练的源域和行为识别模型需要应用的目标域，从源域中获取已标注的训练数据，从目标域获取未标注的训练数据，通过训练数据对机器学习模型进行训练，直至获取行为识别模型，同时在使用未标注的训练数据对行为识别模型进行训练之后，不再使用已标注的训练数据，从而通过从源域和目标域的训练数据学到的知识来提高模型在目标域上的性能，从而实现行为识别模型的无源域适应。

同时，也可以存在多个源域和一个目标域，在训练过程中通过合并多个源域的信息进行训练，来提高模型在目标域上的性能，实现行为识别模型的多源域适应。

通过行为识别模型的领域自适应，行为识别模型得以在无监督的情况下从源域迁移到目标领域，从而提高行为识别的准确度和鲁棒性。

通过上述过程，根据第一预测向量和第二预测向量生成行为识别结果，通过对齐匹配第一预测向量和第二预测向量，获取更多的文本信息，实现准确的行为识别。

图6是一应用场景中一种行为识别方法的具体实现示意图。该应用场景中，

通过将视频标签输入chatgpt，并询问“请你描述下在这样的环境下(黑暗场景、低分辨率场景)，xx(例如喝水、走路)的行为”。获取chatgpt生成的对应各视频标签的拓展文本，将视频标签和拓展文本输入文本编码器，获取视频标签特征和拓展文本特征，将待识别视频输入视觉编码器，得到对应的视频特征。

将视频特征(1x512的维度)、文本特征(11x512的维度)和扩展文本特征(55x512维度)进行余弦相似度计算，将相似度计算的结果作为视频和文本相似度的评价准则。得到1x11的第一预测向量以及1x55的第二预测向量。

选取第二预测向量中每个类别的最大值，和第一预测向量按照预定的权重进行相加得到最后的预测值，生成行为识别结果。通过行为识别模型的领域自适应，行为识别模型得以在无监督的情况下从源域迁移到目标领域，从而提高行为识别的准确度和鲁棒性。

在本应用场景中，对视频标签进行拓展生成拓展文本，增加生成行为识别结果的依据，使得识别过程中的文本信息和视频的视觉信息可以匹配对齐，增加行为识别的准确度。

此外，本方法的行为识别结果和其他模型方法的准确度对比如下表所示：

表1全监督黑暗场景下行为识别Tiny-VIRIT数据集实验结果

表1中展示了本方法与ActionCLIP，X-CLIP，FrozenCLIP模型在全监督黑暗场景下的准确度对比，可以看出本方法的准确度为百分之71.86，高于其他模型。

表2全监督低分辨率场景下行为识别Tiny-VIRIT数据集实验结果

表2中展示了本方法与ActionCLIP，X-CLIP，FrozenCLIP模型在全监督低分辨率场景下的准确度对比，可以看出本方法的准确度为百分之80.23，高于其他模型。

表3无源领域自适应场景下Daily-DA数据集实验结果

表4多源领域自适应场景下Daily-DA数据集实验结果

表3和表4中展示了本方法与TRN，DANN，MK-MMD，TA3N，SFDA，SHOT，SHOT++，MA，BAIT，CPGA，ATCoN，ActionCLIP方法在无源领域和多源领域自适应场景下Daily-DA数据集全监督低分辨率场景下的领域自适应对比，可以看出本方法的在无源领域和多源领域自适应场景下的领域自适应效果优于其他方法。

下述为本申请装置实施例，可以用于执行本申请所涉及的行为识别方法。对于本申请装置实施例中未披露的细节，请参照本申请所涉及的行为识别方法的方法实施例。

请参阅图7，本申请实施例中提供了一种行为识别装置700，包括但不限于：标签获取模块710，拓展模块730，预测模块750，融合模块770。

其中，

标签获取模块710，用于获取待识别视频及对应的视频标签；

拓展模块730，用于对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成所述待识别视频对应的至少一个拓展文本；所述拓展文本用于辅助理解所述待识别视频所在的领域场景；

预测模块750，用于根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量；所述第一预测向量对应于所述视频标签，各所述第二预测向量分别对应于各拓展文本；

融合模块770，用于将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果；所述行为识别结果用于指示所述待识别视频中行为的类别。

需要说明的是，上述实施例所提供的行为识别装置在进行行为识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即行为识别装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的行为识别装置与行为识别方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图8，本申请实施例中提供了一种电子设备4000，该电子设备4000可以包括：台式电脑、笔记本电脑等。

在图8中，该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。

其中，处理器4001和存储器4003相连，如通过通信总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该计算机设备与其他计算机设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信总线4002可包括一通路，在上述组件之间传送信息。通信总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003上存储有计算机程序，处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。

该计算机程序被处理器4001执行时实现上述各实施例中的行为识别方法。

此外，本申请实施例中提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的行为识别方法。

本申请实施例中提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述各实施例中的行为识别方法。

与相关技术相比，本发明通过对视频标签进行拓展生成拓展文本，增加生成行为识别结果的依据，使得识别过程中的文本信息和视频的视觉信息可以匹配对齐，增加行为识别的准确度。通过上述过程，根据第一预测向量和第二预测向量生成行为识别结果，通过对齐匹配第一预测向量和第二预测向量，获取更多的文本信息，实现准确的行为识别。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

获取待识别视频及对应的视频标签；

对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成所述待识别视频对应的至少一个拓展文本；所述拓展文本用于辅助理解所述待识别视频所在的领域场景；

根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量；所述第一预测向量对应于所述视频标签，各所述第二预测向量分别对应于各拓展文本；

将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果；所述行为识别结果用于指示所述待识别视频中行为的类别。

2.如权利要求1所述的方法，其特征在于，所述根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量，包括：

分别对所述待识别视频、以及对应的视频标签和各拓展文本进行特征提取，获得对应所述待识别视频的视频特征、对应视频标签的视频标签特征和分别对应各拓展文本的多个拓展文本特征；

对所述视频特征和视频标签特征进行相似度计算，获得第一预测向量；所述第一预测向量用于指示所述待识别视频中行为基于所述视频标签预测得到的类别及其分数；

对所述视频特征和多个拓展文本特征分别进行相似度计算，获得多个第二预测向量；所述第二预测向量用于指示所述待识别视频中行为基于所述拓展文本预测得到的类别及其分数。

3.如权利要求2所述的方法，其特征在于，所述分别对所述待识别视频、以及对应的视频标签和各拓展文本进行特征提取，获得对应所述待识别视频的视频特征、对应视频标签的视频标签特征和分别对应各拓展文本的多个拓展文本特征，包括：

将所述视频标签和各所述拓展文本输入文本编码器，得到对应的视频标签特征和各拓展文本特征；

将所述待识别视频输入视觉编码器，得到对应的视频特征。

4.如权利要求1所述的方法，其特征在于，所述将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果，包括：

将各所述第二预测向量与所述第一预测向量进行加权计算，得到所述行为识别结果。

5.如权利要求4所述的方法，其特征在于，所述将各所述第二预测向量与所述第一预测向量进行加权计算，得到所述行为识别结果之前，所述将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果，还包括：

基于各所述第二预测向量指示的所述待识别视频中行为的类别及其分数，对各所述第二预测向量进行筛选，使得筛选后的所述第二预测向量与所述第一预测向量进行加权计算得到所述行为识别结果。

6.如权利要求1至5任一项所述的方法，其特征在于，所述拓展性描述是调用大语言模型实现的，所述大语言模型是经过训练、且具有基于所述视频标签描述所述待识别视频所在的领域场景的能力的机器学习模型。

7.如权利要求1至5任一项所述的方法，其特征在于，所述类别预测是调用行为识别模型实现的，所述行为识别模型是经过训练、且具有对所述待识别视频中的行为进行分类的能力的机器学习模型。

8.一种行为识别装置，其特征在于，包括：

标签获取模块，用于获取待识别视频及对应的视频标签；

拓展模块，用于对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述，生成所述待识别视频对应的至少一个拓展文本；所述拓展文本用于辅助理解所述待识别视频所在的领域场景；

预测模块，用于根据所述待识别视频、以及对应的视频标签和至少一个拓展文本，对所述待识别视频中的行为进行类别预测，得到第一预测向量和至少一个第二预测向量；所述第一预测向量对应于所述视频标签，各所述第二预测向量分别对应于各拓展文本；

融合模块，用于将所述第一预测向量和各所述第二预测向量进行融合，生成所述待识别视频的行为识别结果；所述行为识别结果用于指示所述待识别视频中行为的类别。

9.一种电子设备，其特征在于，包括：至少一个处理器以及至少一个存储器，其中，

所述存储器上存储有计算机可读指令；

所述计算机可读指令被一个或多个所述处理器执行，使得电子设备实现如权利要求1至7中任一项所述的行为识别方法。

10.一种存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行，以实现如权利要求1至7中任一项所述的行为识别方法。