CN112749660A

CN112749660A - 一种视频内容描述信息的生成方法和设备

Info

Publication number: CN112749660A
Application number: CN202110044445.XA
Authority: CN
Inventors: 陈南希; 刘李黎; 张睿芃; 李燕北; 王俊翰; 张晓林
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-05-04
Anticipated expiration: 2041-01-13

Abstract

本申请涉及一种视频内容描述信息的生成方法和设备，该方法包括：获取目标视频的图像序列；将图像序列划分为多个子图像序列；多个子图像序列中任意连续两个子图像序列对应不同的场景；针对多个子图像序列中每个子图像序列：根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息；根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测，得到对应的动态事件描述信息；根据静态场景描述信息和动态事件描述信息，确定当前子图像序列对应的内容描述信息。如此，不仅可以降低视频理解的难度，还可以减少冗余信息提取，从而可以提高计算效率。

Description

一种视频内容描述信息的生成方法和设备

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种视频内容描述信息的生成方法和设备。

背景技术

在互联网、大数据稳定发展的时代背景下，多媒体信息的需求量呈现爆发式增长，传统的信息处理技术已无法应对多媒体数据在标注、描述等任务上的需求。用自然语言对视频、图像等进行描述，对于人类来说非常简单，但对机器来说却是一项很难的任务。

目前使用卷积神经网络处理二维图片数据的研究已经很多了，但是对于视频数据的处理方法还处于有待提高的阶段。

现有的视频理解方法中，基于视频数据帧级别特征序列，提取出自然语言对应的全局词性序列特征，然后生成准确的自然语言描述，但是该方式没有排除同一场景中连续帧间的重复信息，冗余度高；又例如还有的现有技术中，对视频图像序列进行关键帧筛选，再将筛选的关键帧送入至视频帧描述网络中生成描述文本，但是该方法没有考虑同一场景中的连续视频帧之间的关联性，以及跨场景之间的信息差异，不适合对有场景变化的视频进行理解，如非固定摄像头视频、以及类似影视作品等多场景剪辑拼接过的视频等。

发明内容

本申请实施例提供了一种视频内容描述信息的生成方法和设备，不仅可以降低视频理解的难度，还可以减少冗余信息提取，从而可以提高计算效率。

一方面，本申请实施例提供了一种视频内容描述信息的生成方法，包括：

获取目标视频的图像序列；

将图像序列划分为多个子图像序列；多个子图像序列中任意连续两个子图像序列对应不同的场景；

针对多个子图像序列中每个子图像序列：根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息；根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测，得到对应的动态事件描述信息；根据静态场景描述信息和动态事件描述信息，确定当前子图像序列对应的内容描述信息。

可选的，将图像序列划分为多个子图像序列，包括：

确定图像序列的每帧图像中前景和/或后景的占比值；

根据每帧图像中前景和/或后景的占比值，确定图像序列中发生场景切换的图像帧；

基于发生场景切换的图像帧，将图像序列划分为多个子图像序列。

可选的，根据每帧图像中前景和/或后景的占比值，确定图像序列中发生场景切换的图像帧，包括：

若当前帧图像中前景和/或后景的占比值大于或者等于第一预设占比值，且当前帧图像的前一帧图像中前景和/或后景的占比值小于第二预设占比值，则将当前帧图像确定为发生场景切换的图像帧；其中，第一预设占比值大于第二预设占比值。

可选的，将图像序列划分为多个子图像序列，包括：

对图像序列中每帧图像进行边缘检测，确定每帧图像对应的特性信息；

根据每帧图像对应的特性信息，确定图像序列中发生场景切换的图像帧；

可选的，根据每帧图像对应的特性信息，确定图像序列中发生场景切换的图像帧，包括：

若当前帧图像对应的特征信息与前一帧图像对应的特征信息之间的相似程度值小于预设值，且前一帧图像对应的特征信息与前前一帧图像对应的特征信息之间的相似程度值大于等于预设值，则将当前帧图像确定为发生场景切换的图像帧。

可选的，基于发生场景切换的图像帧，将图像序列划分为多个子图像序列，包括：

将发生场景切换的图像帧确定为当前子图像序列的首帧图像；

将前一帧图像确定为前一个子图像序列的尾帧图像。

可选的，已训练的第一检测模型为第一RelDN模型；

根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息，包括：

将当前子图像序列的首帧图像作为第一RelDN模型的输入，输出对应的静态场景描述信息；静态场景描述信息包括至少两个对象以及两个对象之间的静态关系。

可选的，已训练的第二检测模型为基于预设数据集训练得到的第二RelDN模型；

根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测，得到对应的动态事件描述信息，包括：

将当前子图像序列中除首帧图像之外的图像作为第二RelDN模型的输入，输出对应的动态事件描述信息；动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。

可选的，已训练的第二检测模型为基于预设数据集训练得到的Motif模型；

将当前子图像序列中除首帧图像之外的图像作为Motif模型的输入，输出对应的动态事件描述信息；动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。

另一方面，本申请实施例提供了一种设备，设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行上述的视频内容描述信息的生成方法。

本申请实施例提供的一种视频内容描述信息的生成方法和设备具有如下有益效果：

通过获取目标视频的图像序列；将图像序列划分为多个子图像序列；多个子图像序列中任意连续两个子图像序列对应不同的场景；针对多个子图像序列中每个子图像序列：根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息；根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测，得到对应的动态事件描述信息；根据静态场景描述信息和动态事件描述信息，确定当前子图像序列对应的内容描述信息。如此，不仅可以降低视频理解的难度，还可以减少冗余信息提取，从而可以提高计算效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频内容描述信息的生成方法的流程示意图；

图2～图4是本申请实施例提供的一种检测过程的示意图；

图5是本申请实施例提供的一种视频内容描述信息的生成方法的服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提出了一种视频内容描述信息的生成方法，可以帮助计算机以结构化的形式更加全面和快捷的理解视频内容，并且可以依据构建的视频描述信息为进一步的推理和决策做铺垫。

以下介绍本申请一种视频内容描述信息的生成方法的具体实施例，图1是本申请实施例提供的一种视频内容描述信息的生成方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，该方法可以包括：

S101：获取目标视频的图像序列。

S103：将图像序列划分为多个子图像序列；多个子图像序列中任意连续两个子图像序列对应不同的场景。

本申请实施例中，先对涉及到的目标视频、图像序列以及场景等概念进行介绍：首先，目标视频为本申请需要对其进行内容描述的对象，在视觉上连续的视频是由一幅幅静止的图像不断地放映到屏幕或者显示器上形成的，目标视频的图像序列便是由这一幅幅静止的图像组成的；一个目标视频可以由多个场景拼接而成，一些简单的视频中也可以只包含一个场景，场景由若干帧时间上连续的图像组成。

本申请实施例中，获取待描述的目标视频的图像序列之后，将该图像序列划分为多个子图像序列，多个子图像序列中每个子图像序列对应一个场景，并保证多个子图像序列中任意连续两个子图像序列对应的是不同的场景；因此，本申请实施例的视频内容描述信息的生成方法不仅适用于简单的单场景的视频理解，也能够适应多场景变化的情况。

一种可选的实施方式中，步骤S103具体可以包括：确定图像序列的每帧图像中前景和/或后景的占比值；根据每帧图像中前景和/或后景的占比值，确定图像序列中发生场景切换的图像帧；基于发生场景切换的图像帧，将图像序列划分为多个子图像序列。

对应的，上述根据每帧图像中前景和/或后景的占比值，确定图像序列中发生场景切换的图像帧，具体可以包括：若当前帧图像中前景和/或后景的占比值大于或者等于第一预设占比值，且当前帧图像的前一帧图像中前景和/或后景的占比值小于第二预设占比值，则将当前帧图像确定为发生场景切换的图像帧；其中，第一预设占比值大于第二预设占比值。

具体的，可以利用opencv中的前/后景分割器(Geometric Multigid，GMG)，对每帧图像进行前后景分析，从中分割出前景和/或后景，并确定出每帧图像中前景和/或后景的占比值；以确定每帧图像中前景的占比值为例，假设第一预设占比值为0.8，第二预设占比值为0.6，依次对图像序列中每帧图像进行前景分割，例如，第1帧图像中前景的占比值为0.7，第2帧图像中占比值为0.5，第3帧图像为当前帧图像，当前帧图像中前景的占比值为0.9，由于当前帧(第3帧)图像中前景的占比值大于第一预设占比值0.8，且第2帧图像中前景的占比值小于第二预设占比值0.6，则将当前帧(第3帧)图像确定为发生场景切换的图像帧。

另一种可选的实施方式中，步骤S103具体可以包括：对图像序列中每帧图像进行边缘检测，确定每帧图像对应的特性信息；根据每帧图像对应的特性信息，确定图像序列中发生场景切换的图像帧；基于发生场景切换的图像帧，将图像序列划分为多个子图像序列。

对应的，上述据每帧图像对应的特性信息，确定图像序列中发生场景切换的图像帧，具体可以包括：

具体的，边缘检测是图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的点，因此，上述每帧图像对应的特性信息可以指其周围像素灰度急剧变化的像素的集合，一般在同一个场景中，相邻的图像帧是相似的，对应的像素的集合的位置不会发生太大的变化；因而，该可选的实施方式中，可以利用这种特性对每帧图像进行边缘检测，计算相邻图像帧之间的特性信息的相似程度，通过设置调节预设值，即变化率阈值，确定出发生场景切换的图像帧。

一种可选的基于发生场景切换的图像帧，将图像序列划分为多个子图像序列的实施方式中，包括：将发生场景切换的图像帧确定为当前子图像序列的首帧图像；将前一帧图像确定为前一个子图像序列的尾帧图像。例如，上文的例子中，第3帧图像为当前子图像序列的首帧图像，第2帧图像为前一个子图像序列的尾帧图像，第1帧图像与第2帧图像组成前一个子图像序列，即第一个子图像序列。

S1051：针对多个子图像序列中每个子图像序列：根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息。

S1052：根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测，得到对应的动态事件描述信息。

S1053：根据静态场景描述信息和动态事件描述信息，确定当前子图像序列对应的内容描述信息。

本申请实施例中，将图像序列划分为多个子图像序列之后，根据已训练的第一检测模型，对多个子图像序列中每个子图像序列的首帧图像进行检测，得到对应的静态场景描述信息，根据已训练的第二检测模型，对每个子图像序列中除首帧图像之外的图像进行检测，得到对应的动态事件描述信息，最后，基于静态场景描述信息和动态事件描述信息，确定每个子图像序列对应的内容描述信息，综合得到目标视频的整体内容描述信息。

一种可选的实施方式中，已训练的第一检测模型为第一RelDN(关系检测网络)模型，用来检测每个子图像序列的首帧图像中的静态场景信息，使用的backbone网络可以是ResNeXt-101-64x4d-FPN；上述步骤S1051具体可以包括：将当前子图像序列的首帧图像作为第一RelDN模型的输入，输出对应的静态场景描述信息；静态场景描述信息包括至少两个对象以及两个对象之间的静态关系。

一种可选的实施方式中，已训练的第二检测模型为基于预设数据集训练得到的第二RelDN模型，用来检测每个子图像序列的非首帧图像中的动态事件；上述步骤S1052具体可以包括：将当前子图像序列中除首帧图像之外的图像作为第二RelDN模型的输入，输出对应的动态事件描述信息；动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。

具体的，上述预设数据集可以以vg150数据集为基础，按照一定的标准筛选数据，做成新的数据集vg-event；具体方法如下：从vg150数据集中的50个谓语词提取16个谓语词，做成数据集vg-event，16个谓语词是"carrying","covered in","covering","eating","flying in","holding","looking at","parked on","playing","riding","says","sitting on","using","walking in","walking on","watching"。在训练第二RelDN模型时，更改RelDN网络类别输入参数从50变成16，使用vg-event数据集，如此获得训练后的第二RelDN模型用来作为动态事件检测。

具体的，如图2所示，使用第一RelDN模型检测当前子图像序列的首帧图像，首先会识别出图像中包括window、building、bike、wheel、tire等对象，最终输出对应的静态场景描述信息包括<building,has,window>、<building,has,window>、<bike,has,wheel>、<bike,has,wheel>、<bike,has,tire>。需要说明的是，展示时没有区分bike的前后wheel，因此结果中包含两个<bike,has,wheel>，building的window同理；图像中能够检测出很多对象，此处不一一赘述，例如还包括road，对应的还能得到bike on the road类似的信息；如图3所示，使用第二RelDN模型检测当前子图像序列的非首帧图像，会识别出图像中包括man、bike等对象，最终输出对应的动态事件描述信息包括<man,riding,bike>。最后，综合静态场景描述信息以及动态事件描述信息可以得到当前子图像序列的内容描述信息为Manriding bike on the road where building has window in the afternoon；其中，inthe afternoon可以根据目标视频的时间戳信息确定。

另一种可选的实施方式中，已训练的第二检测模型为基于预设数据集训练得到的Motif模型；Motif模型可以参考R.Zellers，M.Yatskar，S.Thomson，Y.Choi等人于2018年6月在IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)上发布的论文“Neural Motifs:Scene Graph Parsing with Global Context”中的提出的MOTIFNET-模型；上述步骤S1051具体可以包括：将当前子图像序列中除首帧图像之外的图像作为Motif模型的输入，输出对应的动态事件描述信息；动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。同样的，基于前文做成的新的数据集vg-event重新对网络进行训练，得到新的Motif模型，第一检测模型可以直接采用原数据集进行训练得到，如图4所示，最终综合静态场景描述信息和动态事件描述信息得到的内容描述信息可以是Man riding on a bicycle on the road in the afternoon。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图5是本申请实施例提供的一种视频内容描述信息的生成方法的服务器的硬件结构框图。如图5所示，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)510(处理器510可以包括但不限于微处理器NCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器530，一个或一个以上存储应用程序523或数据522的存储介质520(例如一个或一个以上海量存储设备)。其中，存储器530和存储介质520可以是短暂存储或持久存储。存储在存储介质520的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器510可以设置为与存储介质520通信，在服务器500上执行存储介质520中的一系列指令操作。服务器500还可以包括一个或一个以上电源560，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口540，和/或，一个或一个以上操作系统521，例如Windows，Mac OS，Unix,Linux，FreeBSD等等。

输入输出接口540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器500的通信供应商提供的无线网络。在一个实例中，输入输出接口540包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口540可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器500还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种视频内容描述信息的生成方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述视频内容描述信息的生成方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的一种视频内容描述信息的生成方法和设备的实施例可见，本申请中通过获取目标视频的图像序列；将图像序列划分为多个子图像序列；多个子图像序列中任意连续两个子图像序列对应不同的场景；针对多个子图像序列中每个子图像序列：根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息；根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测，得到对应的动态事件描述信息；根据静态场景描述信息和动态事件描述信息，确定当前子图像序列对应的内容描述信息。如此，不仅可以降低视频理解的难度，还可以减少冗余信息提取，从而可以提高计算效率。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频内容描述信息的生成方法，其特征在于，包括：

获取目标视频的图像序列；

将所述图像序列划分为多个子图像序列；所述多个子图像序列中任意连续两个子图像序列对应不同的场景；

针对所述多个子图像序列中每个子图像序列：根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息；根据已训练的第二检测模型对所述当前子图像序列中除所述首帧图像之外的图像进行检测，得到对应的动态事件描述信息；根据所述静态场景描述信息和所述动态事件描述信息，确定所述当前子图像序列对应的内容描述信息。

2.根据权利要求1所述的方法，其特征在于，所述将所述图像序列划分为多个子图像序列，包括：

确定所述图像序列的每帧图像中前景和/或后景的占比值；

根据所述每帧图像中前景和/或后景的占比值，确定所述图像序列中发生场景切换的图像帧；

基于所述发生场景切换的图像帧，将所述图像序列划分为多个子图像序列。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每帧图像中前景和/或后景的占比值，确定所述图像序列中发生场景切换的图像帧，包括：

若当前帧图像中前景和/或后景的占比值大于或者等于第一预设占比值，且所述当前帧图像的前一帧图像中前景和/或后景的占比值小于第二预设占比值，则将所述当前帧图像确定为所述发生场景切换的图像帧；其中，所述第一预设占比值大于所述第二预设占比值。

4.根据权利要求1所述的方法，其特征在于，所述将所述图像序列划分为多个子图像序列，包括：

对所述图像序列中每帧图像进行边缘检测，确定所述每帧图像对应的特性信息；

根据所述每帧图像对应的特性信息，确定所述图像序列中发生场景切换的图像帧；

5.根据权利要求4所述的方法，其特征在于，所述根据所述每帧图像对应的特性信息，确定所述图像序列中发生场景切换的图像帧，包括：

若当前帧图像对应的特征信息与前一帧图像对应的特征信息之间的相似程度值小于预设值，且所述前一帧图像对应的特征信息与前前一帧图像对应的特征信息之间的相似程度值大于等于所述预设值，则将所述当前帧图像确定为所述发生场景切换的图像帧。

6.根据权利要求3或5所述的方法，其特征在于，所述基于所述发生场景切换的图像帧，将所述图像序列划分为多个子图像序列，包括：

将所述发生场景切换的图像帧确定为当前子图像序列的首帧图像；

将所述前一帧图像确定为前一个子图像序列的尾帧图像。

7.根据权利要求1所述的方法，其特征在于，所述已训练的第一检测模型为第一RelDN模型；

所述根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测，得到对应的静态场景描述信息，包括：

将所述当前子图像序列的首帧图像作为所述第一RelDN模型的输入，输出对应的静态场景描述信息；所述静态场景描述信息包括至少两个对象以及两个对象之间的静态关系。

8.根据权利要求1所述的方法，其特征在于，所述已训练的第二检测模型为基于预设数据集训练得到的第二RelDN模型；

所述根据已训练的第二检测模型对所述当前子图像序列中除所述首帧图像之外的图像进行检测，得到对应的动态事件描述信息，包括：

将所述当前子图像序列中除所述首帧图像之外的图像作为所述第二RelDN模型的输入，输出对应的动态事件描述信息；所述动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。

9.根据权利要求1所述的方法，其特征在于，所述已训练的第二检测模型为基于预设数据集训练得到的Motif模型；

将所述当前子图像序列中除所述首帧图像之外的图像作为所述Motif模型的输入，输出对应的动态事件描述信息；所述动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。

10.一种设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-9任一项所述的视频内容描述信息的生成方法。