CN109600627B

CN109600627B - 一种视频识别方法和装置

Info

Publication number: CN109600627B
Application number: CN201811513752.2A
Authority: CN
Inventors: 石海超; 李长升; 段立新; 栾琛琳; 夏虎
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2021-12-24
Anticipated expiration: 2038-12-11
Also published as: CN109600627A

Abstract

本申请提供了一种视频识别方法和装置，该方法包括：将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，其中，所述第一内容与所述第二内容属于同一类别；基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数；基于所述第一参数，确定所述第一内容在所述第一视频中的位置。

Description

一种视频识别方法和装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种视频识别方法和装置。

背景技术

目前，随着视频数据的爆炸性增长，针对海量视频数据进行处理并提取视频内容中的有效信息成为目前的研究热点。视频识别能够利用视频信息(如:视觉信息、听觉信息、动作信息等)对视频进行处理和分析，判断、识别或定位出视频中出现的内容(如：动作、事件等)，进而在海量视频数据中获取有效信息。视频识别的应用非常广泛，例如：进行智能监控、视频数据管理等。视频内容的定位属于视频识别的范畴，能够识别视频所包含的内容所处的位置(即时间点或时间段)。

由于视频中的内容(如：体育运动等)往往比较复杂，定位视频中不同内容所出的位置更为复杂，现有的处理模型的准确度难以满足应用的需要，为了满足准确度，通常需要人工查看视频，将视频中包含动作的视频片段进行标注，以完成视频内容的定位。但是，在实际应用中，无论是现有处理模型的训练、识别定位，还是通过手动标注的方式，都存在效率比较低，消耗时间长的问题，导致付出的代价比较大，难以满足大规模视频数据识别的需要。

发明内容

有鉴于此，本申请的目的在于提供一种视频识别方法和装置，用于解决现有技术中对视频中内容定位的准确率低、效率低的问题。

第一方面，本申请实施例提供了一种视频识别方法，该方法包括：

将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，其中，所述第一内容与所述第二内容属于同一类别；

基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数；

基于所述第一参数，确定所述第一内容在所述第一视频中的位置。

可选地，所述第一特征信息由所述第一视频的视频帧特征信息和视频光流特征信息计算得到。

可选地，所述第一模型包括第一神经网络模型以及第一自注意力机制模型，以及所述第一参数为所述第一自注意力机制模型的权重向量；和/或，所述第二模型包括第二神经网络模型以及第二自注意力机制模型。

可选地，所述方法还包括：

基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第二参数，所述第二参数为所述第一神经网络模型中的模型参数。

可选地，所述将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，包括：

由所述第一神经网络模型对所述第一特征信息进行连接处理后，基于所述第一自注意力机制模型，计算得到所述第三特征信息；和/或

所述将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，包括：

由所述第二神经网络模型对所述第二特征信息进行连接处理后，基于所述第二自注意力机制模型，计算得到所述第四特征信息。

可选地，所述基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数，包括：

计算所述第三特征信息与所述第四特征信息之间的距离，以及基于所述第三特征信息对所述第一视频进行分类，计算分类损失，通过最小化所述距离和/或所述分类损失，更新所述第一模型中的所述第一参数；和/或，

所述基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第二参数，包括：

通过最小化所述距离和/或所述分类损失，计算或更新所述第一模型中的所述第二参数。

可选地，所述基于所述第一参数，确定所述第一内容在所述第一视频中的位置，包括：

使用所述第一模型计算所述第一视频的最终分类结果；

基于所述第一参数和所述最终分类结果，确定所述第一内容在所述第一视频中的时间区间。

可选地，所述第一参数的维度与所述第一视频的视频帧对应。

可选地，所述第一内容和所述第二内容均为行为内容。

第二方面，本申请实施例提供了一种视频识别装置，该装置包括：

第一计算模块，用于将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，其中，所述第一内容与所述第二内容属于同一类别；

第二计算模块，用于基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数；

确定模块，用于基于所述第一参数，确定所述第一内容在所述第一视频中的位置。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

本申请实施例提供的视频识别方法，将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，使用第二视频对第一视频进行监督训练，从而使得计算或更新的第一模型中的第一参数的准确度更高，这样，在通过第一参数确定第一内容在第一视频中的位置时的准确度更高，同时，降低了人力成本，提高了对视频中动作内容进行定位的效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种视频识别方法的流程示意图；

图2为本申请实施例提供的一种视频帧图像的示意图；

图3为本申请实施例提供的一种视频光流图像的示意图；

图4为本申请实施例提供的一种视频识别装置的结构示意图；

图5为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种视频识别方法，如图1所示，应用于视频内容定位系统中，该视频识别系统包括终端设备，如：计算机、笔记本电脑、平板电脑、移动电话、便携设备、车载设备等，也包括网络系统，如：视听服务系统、大屏幕系统、客户端/服务器系统(C/S)、浏览器/服务器系统、云计算系统，等等。此处并不限制视频识别系统的类型和架构。该方法包括以下步骤：

S101，将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，其中，所述第一内容与所述第二内容属于同一类别；

这里，第一内容和第二内容所属的同一类别包括但不限于动作类别，第一内容和第二内容均为行为内容，其中，行为内容包括运动内容、舞蹈内容等，本申请对此不予限制；此处，第一视频即为待识别的视频，一般包括有多个第一内容，不同的第一内容对应的动作类别可以相同，也可以不同，第二视频中可以仅包含一个第二内容，且第二视频包含的第二内容的动作类别是已知的，如：第二视频包含投篮动作，即属于投篮动作视频类别。可以知道，第二视频是指已经完成识别、标注的视频，其输入到第一模型中的数量可以是一个，也可以是多个，当输入多个时，每个第二视频分别对应一个动作，如：第1个第二视频是跑步动作视频，第2个第二视频是投篮动作视频，等等，此处并不限制第二视频的数量。

具体而言，第一特征信息可以由第一视频的视频帧特征信息和视频光流特征信息计算得到，同样，第二特征信息可以由第二视频的视频帧特征信息和视频光流特征信息计算得到。

例如：在得到第一视频和第二视频后，针对第一视频，对第一视频进行切帧处理，如，按照帧率为5帧/秒对第一视频进行切帧，得到多个视频帧图像(其中单帧的画面可参考图2)，从每个视频帧图像中提取视频光流，得到每个视频帧图像对应的视频光流图像(其中单帧的画面可参考图3)，分别每个视频帧图像和视频光流图像进行裁剪处理，并对视频帧图像中的像素点的像素值和视频光流图像中的像素点的像素值进行归一化处理，对各视频帧图像和视频光流图像进行特征提取，得到每帧视频帧图像对应的视频特征信息和视频光流图像对应的视频光流特征信息，将得到的第一视频中每帧视频帧图像对应的视频特征信息和视频光流图像对应的视频光流特征信息作为第一视频的第一特征信息。

同样，针对第二视频，对第二视频进行切帧处理，如，按照帧率为5帧/秒对第二视频进行切帧，得到多个视频帧图像，从每个视频帧图像中提取视频光流，得到每个视频帧图像对应的视频光流图像，分别每个视频帧图像和视频光流图像进行裁剪处理，并对视频帧图像中的像素点的像素值和视频光流图像中的像素点的像素值进行归一化处理，对各视频帧图像和视频光流图像进行处理，得到每帧视频帧图像对应的视频特征信息和视频光流图像对应的视频光流特征信息，将得到的第二视频中每帧视频帧图像对应的视频特征信息和视频光流图像对应的视频光流特征信息作为第二视频的第一特征信息。

如，以第一视频为例进行说明，若将第一视频切割为1000帧视频帧图像，对应有1000帧视频光流图像(如果光流图像帧数不足，可以采用本领域熟知的方法补足1000帧)，分别对视频帧图像和视频光流图像进行归一化处理、中心裁剪处理，在处理后的视频帧图像和视频光流图像中进行特征提取，得到每帧视频帧图像对应的视频帧特征信息，和每个视频光流图像对应的视频光流特征信息，将得到的1000个视频帧特征信息和1000个视频光流特征信息作为第一视频的第一特征信息。第二视频的第一特征信息的提取过程与上述过程相似，此处不再进行过多说明。

具体而言，第一模型包括第一神经网络模型以及第一自注意力机制模型，第一参数为第一自注意力机制模型的权重向量；第二模型包括第二神经网络模型以及第二自注意力机制模型。其中，第一神经网络模型和第二神经网络模型均可以包括但不限于卷积神经网络模型、循环神经网络模型等，优选地，第一神经网络模型为卷积神经网络模型，第二神经网络模型为卷积神经网络模型，神经网络模型在现有技术中已有详细的介绍，此处不再进行过多说明。

第一自注意力机制模型和第二自注意力机制模型均包括两个全连接层，如：tanh激活函数层和softmax层，第一自注意力机制模型的权重向量的维度与第一视频的视频帧对应，第一自注意力机制模型的权重表征当前维度对应的图像中动作信息所占的比重，比重越大，表征当前维度的图像中具有动作的概率越大。在具体实施中，第一自注意力机制模型的权重向量的维度的数量与第一视频的视频帧的数目相同，如，第一视频的视频帧的数目为1000帧，则自注意力机制模型的权重向量的维度也为1000维度。

在计算得到第三特征信息时，具体包括以下步骤：

在计算得到第四特征信息时，具体包括以下步骤：

这里，对特征信息进行连接处理的方法可以是但不限于concat连接方法，此处不做过多介绍。

在具体实施中，将第一视频中每个视频帧图像对应的第一特征信息(视频帧特征信息)和每个视频光流图像对应的第一特征信息(视频光流特征信息)输入到第一神经网络模型，第一神经网络模型根据每帧视频帧图像对应的第一特征信息计算该帧视频帧图像对应的视频帧均值，以及根据每帧视频光流图像对应的视频光流特征信息计算该帧视频光流图像的视频光流均值，分别为视频帧图像和视频光流图像设置权重，计算每个视频帧均值与对应权重的乘积和每个视频光流均值与对应权重的乘积的和值，将所有的和值连接起来形成第一视频对应的中间特征信息(该特征信息的维度与视频的帧数相同)，将得到第一视频对应的中间特征信息输入到第一自注意力机制模型进行训练，得到第三特征信息。

将第二视频中每个视频帧图像对应的第二特征信息(视频帧特征信息)和每个视频光流图像对应的第二特征信息(视频光流特征信息)输入到第二神经网络模型，第二神经网络模型根据每帧视频帧图像对应的第二特征信息计算该帧视频帧图像对应的视频帧均值，以及根据每帧视频光流图像对应的第二特征信息计算该帧视频光流图像的视频光流均值，分别为视频帧图像和视频光流图像设置权重，计算每个视频帧均值与对应权重的乘积和每个视频光流均值与对应权重的乘积的和值，将所有的和值连接起来形成第二视频对应的中间特征信息(该特征信息的维度与视频的帧数相同)，将得到第二视频对应的中间特征信息输入到第二自注意力机制模型进行训练，得到第四特征信息。

在具体实施中，可以同时对第一视频和第二视频进行处理得到对应的第三特征信息和第四特征信息，或者，仅对第一视频进行处理得到第三特征信息，或者，仅对第二视频进行处理得到第四特征信息，可根据实际情况确定。

S102，基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数；

为了使得第一模型中第一自注意力机制模型中的第一参数的准确度更高，在得到第三特征信息和第四特征信息后，基于第三特征信息和/或第四特征信息，计算或更新第一模型中的第二参数，第二参数为所述第一神经网络模型中的模型参数，即对第一神经网络模型的参数进行训练。

在基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数时，具体包括以下步骤：

计算第三特征信息与第四特征信息之间的距离，以及基于所述第三特征信息对所述第一视频进行分类，计算分类损失，通过最小化所述距离和/或所述分类损失，更新所述第一模型中的所述第一参数；和/或，

这里，距离可以是通过最大平均差异(Maximum Mean Discrepancy，MMD)算法得到的，该距离表征第一视频和第二视频在高维空间的距离，距离越近说明第一视频与第二视频的相似度越高；分类损失用于调整第一视频进行分类的分类器的参数，分类损失越小，表征分类器的参数的准确度越高。

在具体实施中，在将第一视频的第一特征信息和第二视频的第二特征信息输入到第一模型对第一模型进行训练，在对第一模型进行训练过程中，在得到第一模型输出的第三特征信息和第四特征信息后，基于第一视频的第三特征信息和第二视频的第四特征信息进行处理，以实现迁移学习，即，将第三特征信息和第四特征信息通过高斯函数映射到高维空间，计算第一视频和第二视频之间的距离，并使得该距离最小(包含同一动作的第一视频和第二视频之间的差异最小)调整第一模型中的第一参数和第二参数，以达到更好的迁移效果，并将第三特征信息输入到分类对所述第一视频进行分类，得到第一视频的分类损失，使得分类损失和距离最小化调整第一模型的第一参数和第二参数，最终得到第一模型中第一卷积神经网络模型的第二参数和第一自注意力机制模型的第一参数，经过反复迭代调整得到参数的准确度更高，进而在进行动作定位时提高动作定位的准确度。其中，在调整第一参数和第二参数时，可以分类损失最小和距离最小结合调整参数，或者，仅以距离最小调整参数，或者，仅以分类损失最小调整参数。

对于每一个第二视频而言，第二视频包含的动作类别都是精确标注和定位的，可以为第一视频中动作识别和动作的发生时间区间的定位提供指导性的信息。因此，本申请对第二视频进行特征迁移，利用第二视频已知的位置信息和动作类别信息，提高对第一视频动作行为分类和检测的能力。在进行特征迁移时，计算第一视频和各第二视频之间的分布距离，利用最大平均差异(Maximum Mean Discrepancy，MMD)进行度量，将第一视频的第三特征信息和各第二视频的第四特征信息通过高斯核函数映射到高维空间，再使用MMD计算第一视频和第二视频在高维空间中的距离，并使得该距离最小，以便使得包含同一动作的第一视频和第二视频之间的差异最小，达到比较好的迁移效果，进一步提高动作行为识别的准确率。

S103，基于所述第一参数，确定所述第一内容在所述第一视频中的位置。

在基于所述第一参数，确定所述第一内容在所述第一视频中的位置时，包括：

使用所述第一模型计算所述第一视频的最终分类结果；

这里，最终分类结果为分类器对第一视频中进行分类得到的动作对应的分数，该分数属于0到1之间，该分数表征动作在第一视频中发生的概率，分数越到，表征相应动作发生的概率越大。

在具体实施中，将第一视频的第三特征信息输入到第一模型中的分类器中，得到第一视频的最终分类结果，计算第一参数中每一维度的数值分别与最终分类结果的乘积结果，选择乘积结果中的最大值得到第一参数中该维度的描述值，获取第一参数中该维度对应的描述值的最终分类结果，根据大于设定阈值的描述值对应的维度，以及对应的分类结果，得到第一视频中动作发生的时间区间。

例如，对第一视频的最终分类结果包括跑步和投篮，跑步对应的分数(或概率)为x1，投篮对应的分数(或概率)为x2，第一参数(自注意力机制模型的权重向量)的维度为1000维(与视频帧的数目相同)，权重向量为{q1，q2，q3……q1000}，针对权重中的每一维度的权重，分别计算该权重与跑步的分数、投篮的分数(或概率)的乘积，将表征最大值的乘积作为该维度的权重对应的描述值，最终得到的第一参数中每一维度对应的描述值向量为{q1x1，q2x1，q3x2……q1000x2}，其中，大于设定阈值的描述值对应第一参数中的维度30-60、维度200-350，维度30-60对应的描述值是通过计算权重与跑步的分数(或概率)得到的，则确定维度30-60为动作跑步，而维度200-350中200-270对应的描述值是通过计算权重与投篮的分数(或概率)得到的，而271-350对应的描述值是通过计算权重与跑步的分数(或概率)得到的，则确定200-270为动作投篮，271-350为动作跑步，由于第一参数的维度的数目与视频帧的数目相同，视频帧的帧率为5帧/秒，因此，跑步动作的发生区间为6秒-12秒、54.2秒-70秒，投篮动作的发生区间为40秒-54秒。

本申请实施例提供了一种视频识别装置，如图4所示，该装置包括：

第一计算模块41，用于将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，其中，所述第一内容与所述第二内容属于同一类别；

第二计算模块42，用于基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数；

确定模块43，用于基于所述第一参数，确定所述第一内容在所述第一视频中的位置。

可选地，所述第二计算模块42还用于：

可选地，所述第一计算模块41具体用于：

可选地，所述第二计算模块42具体用于：

可选地，所述确定模块43具体用于：

使用所述第一模型计算所述第一视频的最终分类结果；

可选地，所述第一内容和所述第二内容均为行为内容。

对应于图1中的视频识别方法，本申请实施例还提供了一种计算机设备，如图5所示，该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述视频识别方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述视频识别方法，用于解决现有技术中对视频中动作定位的准确率低的问题，本申请将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，使用第二视频对第一视频进行监督训练，从而使得计算或更新的第一模型中的第一参数的准确度更高，这样，在通过第一参数确定第一内容在第一视频中的位置时的准确度更高，同时，降低了人力成本，提高了对视频中行为内容进行定位的效率。

对应于图1中的视频识别方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述视频识别方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述视频识别方法，用于解决现有技术中对视频中动作定位的准确率低的问题，本申请将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，使用第二视频对第一视频进行监督训练，从而使得计算或更新的第一模型中的第一参数的准确度更高，这样，在通过第一参数确定第一内容在第一视频中的位置时的准确度更高，同时，降低了人力成本，提高了对视频中行为内容进行定位的效率。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频识别方法，其特征在于，该方法包括：

将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，其中，所述第一内容与所述第二内容属于同一类别；所述第一模型包括第一神经网络模型以及第一自注意力机制模型，和/或，所述第二模型包括第二神经网络模型以及第二自注意力机制模型；

基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数；所述第一参数为所述第一自注意力机制模型的权重向量；

基于所述第一参数，确定所述第一内容在所述第一视频中的位置；

所述方法还包括：基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第二参数，所述第二参数为所述第一神经网络模型中的模型参数；

所述基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数，包括：计算所述第三特征信息与所述第四特征信息之间的距离，以及基于所述第三特征信息对所述第一视频进行分类，计算分类损失，通过最小化所述距离和/或所述分类损失，更新所述第一模型中的所述第一参数；和/或，

所述基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第二参数，包括：通过最小化所述距离和/或所述分类损失，计算或更新所述第一模型中的所述第二参数。

2.如权利要求1所述的方法，其特征在于，所述第一特征信息由所述第一视频的视频帧特征信息和视频光流特征信息计算得到。

3.如权利要求1所述的方法，其特征在于，所述将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述第一参数，确定所述第一内容在所述第一视频中的位置，包括：

使用所述第一模型计算所述第一视频的最终分类结果；

5.如权利要求1所述的方法，其特征在于，所述第一自注意力机制模型的权重向量的维度与所述第一视频的视频帧的数量对应。

6.如权利要求1-5任一所述的方法，其特征在于，所述第一内容和所述第二内容均为行为内容。

7.一种视频识别装置，其特征在于，该装置包括：

第一计算模块，用于将包含第一内容的第一视频的第一特征信息输入到第一模型，计算得到第三特征信息，以及将包含第二内容的第二视频的第二特征信息输入到第二模型，计算得到第四特征信息，其中，所述第一内容与所述第二内容属于同一类别；所述第一模型包括第一神经网络模型以及第一自注意力机制模型，和/或，所述第二模型包括第二神经网络模型以及第二自注意力机制模型；

第二计算模块，用于基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第一参数；所述第一参数为所述第一自注意力机制模型的权重向量；

确定模块，用于基于所述第一参数，确定所述第一内容在所述第一视频中的位置；

所述第二计算模块，还用于基于第三特征信息和/或第四特征信息，计算或更新所述第一模型中的第二参数，所述第二参数为所述第一神经网络模型中的模型参数；

所述第二计算模块，具体用于计算所述第三特征信息与所述第四特征信息之间的距离，以及基于所述第三特征信息对所述第一视频进行分类，计算分类损失，通过最小化所述距离和/或所述分类损失，更新所述第一模型中的所述第一参数；和/或，通过最小化所述距离和/或所述分类损失，计算或更新所述第一模型中的所述第二参数。