CN114661953B

CN114661953B - 视频描述生成方法、装置、设备以及存储介质

Info

Publication number: CN114661953B
Application number: CN202210271140.7A
Authority: CN
Inventors: 汪琦; 冯知凡; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2023-05-16
Anticipated expiration: 2042-03-18
Also published as: CN114661953A

Abstract

本公开提供了视频描述生成方法、装置、设备以及存储介质，涉及人工智能领域，尤其涉及知识图谱、深度学习、计算机视觉、视频处理等技术领域。具体实现方案为：获取待处理的目标视频，通过提取目标视频的视觉特征，并根据目标视频的视觉特征获取目标视频的知识增强特征，再将目标视频的视觉特征以及知识增强特征作为视频描述生成模型的输入，获取模型输出的目标视频对应的视频描述文本。其中，目标视频的知识增强特征包括目标视频的事件特征以及目标视频中目标对象之间的关系特征的至少一项。上述过程引入知识增强特征，可提升模型对视频语义的深层理解，从而生成高质量的视频描述文本。

Description

视频描述生成方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能领域的知识图谱、深度学习、计算机视觉、视频处理等技术领域，尤其涉及一种视频描述生成方法、装置、设备以及存储介质。

背景技术

视频描述生成(video captioning)是利用机器学习技术，将视频生成对应的自然语言语句，其广泛适用于人机交互场景，如帮助视力受损人员进行视频内容的描述、视频标题或摘要生成等。

相关技术中，视频描述生成大多是基于序列到序列(sequence to sequence)的生成方法，其主要做法是采用编码器-解码器(encoder-decode)框架，通过编码器编码视频，再通过解码器生成文本序列。然而，相关技术对视频的特征分析不够全面，进而影响视频描述的质量。

发明内容

本公开提供了一种视频描述生成方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种视频描述生成方法，包括：

获取待处理的目标视频，所述目标视频包括多个目标对象；

提取所述目标视频的视觉特征；

根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项；

将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型，得到所述目标视频对应的视频描述文本。

根据本公开的第二方面，提供了一种视频描述生成装置，包括：

获取模块，用于获取待处理的目标视频，所述目标视频包括多个目标对象；

特征提取模块，用于提取所述目标视频的视觉特征；

特征分析模块，用于根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项；

处理模块，用于将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型，得到所述目标视频对应的视频描述文本。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

根据本公开的技术可提高视频描述文本的质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种视频描述生成框架的示意图；

图2为本公开实施例提供的一种应用场景的示意图；

图3为本公开实施例提供的一种视频描述生成方法的流程示意图；

图4为本公开实施例提供的一种视频描述生成方法的流程示意图；

图5为本公开实施例提供的视频描述生成模型的结构示意图；

图6为本公开实施例提供的一种视频描述生成方法的流程示意图；

图7为本公开实施例提供的一种视频描述生成方法的流程示意图；

图8为本公开实施例提供的一种视频描述生成装置的结构示意图；

图9为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

视频描述生成在生活中具有广泛的应用价值。在互联网领域，视频描述生成技术具有视频搜索、视频摘要、问答系统等应用。在安防领域，视频描述生成技术具有异常事件识别、人车分析等应用。在机器人领域，视频描述生成技术具有导航、定位、抓取等应用。在扶残助残方面，视频描述生成技术对盲人提供视频导航，如将电影或短视频描述给盲人等应用。

目前，现有的视频描述生成主要有以下方法：

第一，基于模板的方法。基于模板的视频描述生成技术，是较早期的视频处理方法，其方法流程是先预测出句子中的重点组件，如句子中的主谓宾，然后通过模板将它们组合起来，生成视频描述语句。随着技术的进步，也有将模板与深度学习结合起来的技术应用，基于模板和语言模型去规范化句子的生成。

第二，基于序列到序列的生成方法，该方法是目前比较主流的视频描述生成方法，其主要做法是采用编码器-解码器框架，通过编码器编码视频，再通过解码器生成文本序列。

第三，一些其他方法。近年来，基于生成对抗网络(GAN)和增强学习(Reinforcement Learning)的方法也被广泛应用于各类任务中。自然，在视频描述生成任务上也有相关工作。不过，总体来看以特殊设计的GAN或者RL为创新点的工作在视频描述生成任务上所占比例不是太大，主要原因可能是GAN和RL在其他任务上体现出的固有问题，例如RL的训练难。

上述第一种方案需要消耗大量的人力成本，效率低，生成的描述语句僵化。上述第二种方案通过序列到序列的模型没有显式的规范化，生成的描述语句有一定的语法错误或逻辑错误。上述第三种方案训练困难，整体的可操作性不强。

综上所述，以上三种方案，存在结果不可控、生成描述语句太泛或过于抽象等问题，无法从视频语义理解角度阐述视频内容。

针对上述问题，本公开提供一种视频描述生成方法，在基础的视频描述生成模型的输入端增加至少一项知识增强特征的序列表示，使得视频描述生成模型能够捕获更加细节的特征数据，从而提高模型输出的视频描述文本的质量。其中，知识增强特征包括视频中目标对象之间的关系特征，和/或，视频中正在发生的事件特征。在实现层面，通过增设对象编辑器(object encoder)获取视频中目标对象之间的关系特征，通过引入事件知识图谱(也称为多模态事件知识图谱)，对视频检测结果进行事件特征编码，将新增的知识增强特征以及视频的视觉特征一同输入视频描述生成模型，经模型编码和解码操作后，获取视频对应的描述语句。

为了便于理解本公开提供的技术方案，首先结合图1对本公开实施例的视频描述生成框架进行说明。

图1为本公开实施例提供的一种视频描述生成框架的示意图。如图1所示，该视频描述生成框架包括特征提取(feature extracter)模块、事件检测(event detection)模块、对象编码(object encoder)模块以及视频描述生成模块。其中，特征提取模块分别与事件检测模块以及对象编码模块连接，视频描述生成模块分别与特征提取模块、事件检测模块以及对象编码模块连接。视频描述生成模块的输入包括三路，分别为特征提取模块输出的视觉特征，事件检测模块输出的事件特征以及对象编码模块输出的对象关系特征。

在本公开实施例中，视频描述生成模块包括编码器和解码器两部分。其中，编码器用于对不同的输入特征进行特征编码，生成固定长度的序列表示，解码器用于基于不同输入特征对应的序列表示进行解码处理，生成视频描述文本序列。

在本公开实施例中，特征提取模块用于提取视频中的视觉特征，包括例如外观特征、动作属性的特征以及目标对象的特征等。事件检测模块基于特征提取模块的特征数据进行事件检测，结合事件知识图谱，获取视频中的事件特征。对象编辑模块基于特征提取模块的特征数据进行对象关系的分析，获取视频中目标对象之间的关系特征。

基于上述处理架构，可实现对多路特征数据的分析处理，从而充分理解视频的语义表达，提高生成的视频描述文本的质量，且描述内容在可控的事件范围内。

在本公开实施例中，上述的视频描述生成框架可以布局在服务器。服务器可以为普通服务器或者云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器，对此本公开实施例不做任何限制。

在本公开实施例中，事件知识图谱可以视为多种事件的集合。事件知识图谱包括多种事件、每种事件对应的属性信息以及每种事件对应的向量表示。每种事件对应的属性信息包括事件的属性以及每种属性对应的属性值，每种事件对应的向量表示是每种事件对应的属性信息的矢量表示。

示例性的，事件“弹钢琴”对应的属性例如包括执行人、被执行对象、附加对象、地点，各属性对应的属性值分别为钢琴师、钢琴、钢琴座椅、室内。事件“做饭”对应的属性例如包括执行人、被执行对象、地点，各属性对应的属性值分别为厨师、炒锅、厨房。应理解，在构建上述事件知识图谱时，同一事件可根据实际场景设置多种属性信息，生成多种向量表示，以提升事件检测效果。

事件知识图谱可以有多种形式，例如，可以采用图的形式，或者可以采用表的形式，或者，还可以采用其他表示形式，本实施例对此不作限定。

图2为本公开实施例提供的一种应用场景的示意图。如图2所示，该场景包括视频服务器以及客户端，其中视频服务器配置图1所示的视频描述生成框架，用于对来自客户端的待处理视频进行分析处理，获取视频描述文本。本实施例的客户端包括但不限于：智能手机、笔记本电脑、台式电脑、车载设备、智能穿戴设备等。

一种可能的场景中，用户通过智能手机在短视频平台上传视频，短视频平台对用户上传视频进行分析处理，生成该视频对应的描述文本，将该描述文本作为视频简介。除此之外，还可用于生成如视频剧集简介、视频评论、视频标题、视频讲故事等。

一种可能的场景中，车载设备获取实时拍摄的车辆周围环境的视频，将视频上传至云端服务器。云端服务器对该视频进行分析处理，生成视频描述文本。车载设备获取视频描述文本后，控制车载扬声器播报该视频描述文本，实现辅助驾驶。

一种可能的场景中，视障人士通过人机交互设备获取视频内容，或基于视频内容聊天，属于人机交互场景的视频问答应用。

一种可能的场景中，用户通过上传视频，获取该视频的描述文本，基于该描述文本在视频库中检索与其相关的视频数据，属于搜索场景的应用。

一种可能的场景中，用户通过上传视频，获取该视频的描述文本，该描述文本可以是将视频动作转换为描述说明，如组装家具、煮咖啡或更换漏气轮胎的操作描述。

一种可能的场景中，监控设备获取监控视频，获取监控视频中目标对象的行为分析结果，将行为分析结果作为视频的描述文本，如个性化教育中的学生行为分析，电梯安防监控中的乘梯人员行为分析。

本公开提供一种视频描述生成方法、装置、设备以及存储介质，应用于人工智能领域中的视频处理等技术领域，用以提高视频描述的质量。

下面结合几个具体的实施例对视频描述生成过程进行详细描述。

图3为本公开实施例提供的一种视频描述生成方法的流程示意图。本实施例的方法适用于图2所示的视频服务器或任意可执行该方法的装置。如图3所示，本实施例的方法包括：

步骤301、获取待处理的目标视频，目标视频包括多个目标对象。

本实施例中，目标视频中的目标对象主要指目标视频中的前景对象，包括但不限于：人物、动物、物品等对象。

目标视频可以是用户录制的视频，例如物品分享视频、物品使用操作视频等，也可以是影视作品视频，还可以是监控视频，例如车载设备录制的道路情况的视频，对此本实施例不作任何限定。

步骤302、提取目标视频的视觉特征。

本实施例对视觉特征的提取方式不作限定，下面以三种可能的实现方式为例进行说明。

一种可能的实现方式中，可以通过二维卷积神经网络提取目标视频中每帧图像的视觉特征。其中，二维卷积神经网络(2D-CNN)常用在计算机视觉、图像处理领域，如在视频处理中，对每帧图像分别利用神经网络来进行识别，不考虑时间维度的信息。

一种可能的实现方式中，可以通过三维卷积神经网络(3D-CNN，如C3D network结构)提取目标视频中每帧图像的视觉特征。三维卷积神经网络是在二维神经网络的基础上，在输入中增加时间维度，即连续帧，神经网络可以同时提取时间和空间特征，进行行为/动作识别、视频处理。例如，对三幅连续帧采用三维卷积核进行卷积，可以理解为用3个不同的二维卷积核卷积三张图，并将卷积结果相加，通过这种处理，网络就提取了时间之间的某种相关性。

一种可能的实现方式中，可以通过目标检测算法提取目标视频中每帧图像中目标对象所在图像块的视觉特征。其中目标检测算法包括基于深度学习的目标检测算法，如two-stage算法、one-stage算法，具体实现原理属于现有技术，本实施例不具体展开。

举例而言，假设目标视频包括目标人物A、B以及餐盘，提取的目标视频的视觉特征包括以下至少一项：目标视频中每帧图像整体的视觉特征，每帧图像中目标人物A所在图像块的视觉特征，每帧图像中目标人物B所在图像块的视觉特征，每帧图像中餐盘所在图像块的视觉特征。

步骤303、根据目标视频的视觉特征获取目标视频的知识增强特征，知识增强特征包括目标视频的事件特征以及目标视频中目标对象之间的关系特征的至少一项。

本实施例中，目标视频的知识增强特征可以理解为目标视频中更加细节的语义特征。知识增强特征中的目标对象之间的关系特征，用于表征目标视频中目标对象之间的关系，例如视频中两个目标人物之间的关系包括师生关系、家属关系、朋友关系、合作关系等。知识增强特征中的事件特征，用于指示目标视频正在发生的事件类型，事件类型包括例如教学场景事件、工作场景事件或生活场景事件等，还可以根据不同场景设置更加细粒度的事件类型，对此本实施例不作限定。

可选的，在一些实施例中，知识增强特征中的目标对象之间的关系特征包括以下至少一项：目标视频中单帧图像目标对象之间的关系特征；帧间图像目标对象之间的关系特征。

示例性的，单帧图像中包括人物A和B，单帧图像目标对象之间的关系特征包括人物A和B之间的关系特征。

示例性的，假设目标视频包括多帧图像，如图像帧1、2、3，每帧图像均包括人物A和B。帧间图像目标对象之间的关系特征包括：图像帧1中人物A和图像帧2中人物B之间的关系特征，图像帧1中人物B和图像帧2中人物A之间的关系特征，图像帧2中人物A和图像帧3中人物B之间的关系特征，以及图像帧2中人物B和图像帧3中人物A之间的关系特征。

步骤304、将目标视频的视觉特征以及知识增强特征输入视频描述生成模型，得到目标视频对应的视频描述文本。

一种可能的实现方式中，将目标视频的视觉特征以及事件特征的两路特征的向量表示，输入视频描述生成模型，得到目标视频对应的视频描述文本。该方式通过增加对目标视频的事件特征的分析，提升视频描述文本的质量，使得描述结果在可控的事件范围内。

一种可能的实现方式中，将目标视频的视觉特征以及目标视频中目标对象之间的关系特征的两路特征的向量表示，输入视频描述生成模型，得到目标视频对应的视频描述文本。该方式通过增加对目标视频中对象关系的分析，提升视频描述文本的质量，使得描述结果更准确。

一种可能的实现方式中，将目标视频的视觉特征、事件特征以及目标视频中目标对象之间的关系特征的三路特征的向量表示，输入视频描述生成模型，得到目标视频对应的视频描述文本。该方式的有益效果参见前两种方式的有益效果。

本实施例中，视频描述生成模型可采用现有的transformer模型，transformer模型引入注意力机制，注意力机制具有更好的记忆力，能够记住更长距离的信息，并且支持并行化计算，提高计算效率。通过对目标视频的视觉特征进行分析处理，可获取目标视频的知识增强特征，随后将目标视频的视觉特征以及知识增强特征的向量表示作为transformer模型的输入，经transformer模型对多路特征数据的信息整合，得到目标视频对应的视频描述文本，可提升视频描述文本的质量以及生成文本的效率。

本实施例示出的视频描述生成方法，包括：获取待处理的目标视频，通过提取目标视频的视觉特征，并根据目标视频的视觉特征获取目标视频的知识增强特征，再将目标视频的视觉特征以及知识增强特征作为视频描述生成模型的输入，获取模型输出的目标视频对应的视频描述文本。其中，目标视频的知识增强特征包括目标视频的事件特征以及目标视频中目标对象之间的关系特征的至少一项。上述过程引入知识增强特征，可提升模型对视频语义的深层理解，从而生成高质量的视频描述文本。

在上述实施例的基础上，下面结合几个具体的实施例，对视频描述生成模型的处理过程进行详细说明。

图4为本公开实施例提供的一种视频描述生成方法的流程示意图。本实施例的方法同样适用于图2所示的视频服务器或任意可执行该方法的装置，如图4所示，本实施例的方法包括：

步骤401、获取待处理的目标视频。

步骤402、提取目标视频的视觉特征，视觉特征包括外观特征、动作特征以及对象特征。

本实施例中，目标视频的视觉特征包括目标视频中每帧图像的外观特征、动作特征以及对象特征。

其中，每帧图像的外观特征包括每帧图像红绿蓝三通道的颜色特征(RGB特征)、纹理特征以及形状特征等。目标视频的第i帧图像的外观特征可表示为Fⁱ＝{f_i}，目标视频的外观特征可表示为F＝{f₁，...，f_L}，其中L表示目标视频的帧数。

作为一种示例，提取目标视频中每帧图像的外观特征，包括：采用二维卷积神经网络提取目标视频中每帧图像的外观特征。

其中，每帧图像的动作特征用于指示每帧图像中目标对象的动作属性。目标视频的第i帧图像的动作特征可表示为Mⁱ＝{m_i}，目标视频的动作特征可表示为M＝{m₁，...，m_L}，其中L表示目标视频的帧数。

作为一种示例，提取目标视频中每帧图像的动作特征，包括：采用三维卷积神经网络提取目标视频中每帧图像的动作特征。

其中，每帧图像的对象特征包括每帧图像中目标对象所在图像块(region ofinterest，ROI)的视觉特征，例如目标对象所在图像块的外观特征等。目标视频的第i帧图像的对象特征可表示为

其中

表示第i帧图像中第k个目标对象的对象特征，目标视频的对象特征可表示为R＝{R¹，...，R^L}，其中L表示目标视频的帧数。

作为一种示例，提取目标视频中每帧图像的对象特征，包括：采用目标检测算法提取目标视频中每帧图像的目标对象的对象特征。

步骤403、将目标视频的外观特征以及动作特征进行拼接，得到拼接后的特征。

步骤404、根据拼接后的特征，获取目标视频的事件特征。

作为一种示例，可通过如下方式获取目标视频的事件特征：

步骤4041、将拼接后的特征输入事件检测模型，得到目标视频对应的事件类型。

本实施例中，事件检测模型可采用图卷积神经网络GNN训练得到。GNN在社交网络、知识图、推荐系统等领域得到广泛应用，GNN可实现对图节点之间依赖关系建模，通过学习每个节点的向量表示，获得图的事件表示(事件类型)。

步骤4042、根据预先构建的事件知识图谱以及目标视频对应的事件类型，获取目标视频对应的事件类型的向量表示。

其中，事件知识图谱包括多种事件类型的向量表示。

本实施例中，将拼接后的特征输入事件检测模型，得到目标视频对应的事件类型的初始向量表示，从事件知识图谱中获取与目标视频对应的事件类型的初始向量表示的匹配度(相似度)最高的目标向量表示，将该目标向量表示作为目标视频对应的事件类型的向量表示(即事件特征的向量表示)。目标视频的第i帧图像的事件特征可表示为Eⁱ＝{e_i}。

应理解，事件知识图谱中每种事件类型的向量表示为预先设定的基准向量表示，若目标视频对应的事件类型的初始向量表示与事件知识图谱中某一基准向量表示的相似度大于预设阈值，即可确定目标视频对应的事件类型为该基准向量表示对应的事件类型。

在实际应用中，可根据应用场景的需求，预设一定数量的标准事件类型的向量表示。

本实施例通过引入事件知识图谱的事件知识，可学习目标视频的事件类型，进而提升视频描述生成的合理性。

步骤405、根据目标视频中每帧图像的对象特征，获取目标视频中目标对象之间的关系特征。

本实施例中，目标视频中目标对象之间的关系特征包括以下至少一项：目标视频中每帧图像的目标对象之间的关系特征，目标视频中帧间图像的目标对象之间的关系特征。

本实施例对目标视频中目标对象之间的关系特征的提取方式不作限定，下面以两种可能的实现方式为例进行说明。

一种可能的实现方式中，将目标视频中每帧图像的对象特征输入预设的对象关系编码器，获取目标视频中每帧图像中目标对象之间的关系特征。

作为一种示例，对象关系编码器可通过Scaled dot-product方式获取目标视频中每帧图像中目标对象之间的关系特征。具体的，对象关系编码器可通过如下几个公式计算关系特征(为矩阵形式)：

ψ(R)＝R·W_j+b_j

其中，

K×d表示具有d维特征的K个目标对象；

表示K个目标对象之间的关系系数矩阵；d维特征是指目标对象的d维对象特征；W_i、W_j、b_i、b_j均为可学习参数；dim表示维度。

一种可能的实现方式中，将目标视频中每帧图像的对象特征输入预设的对象关系编码器，获取目标视频中每帧图像中目标对象之间的关系特征；根据目标视频中每帧图像中目标对象之间的关系特征，以及目标视频中每帧图像的对象特征，获取目标视频中帧间图像目标对象之间的关系特征。

作为一种示例，根据目标视频中每帧图像中目标对象之间的关系特征，以及目标视频中每帧图像的对象特征，获取目标视频中帧间图像目标对象之间的关系特征，包括：将目标视频中每帧图像中目标对象之间的关系特征，以及目标视频中每帧图像的对象特征输入图卷积网络GCN，获取目标视频中帧间图像目标对象之间的关系特征。

其中，图卷积网络的核心公式可表示为：

其中，

表示具有帧间图像目标对象之间交互消息的增强对象特征(即帧间图像中目标对象之间的关系特征)，

为可学习参数。

需要说明的是，本实施例中，对步骤203至步骤204，与步骤205的执行顺序不作限定，可以同时执行，也可以顺序执行。

步骤406、将拼接后的特征、事件特征以及关系特征同时输入视频描述生成模型，获得目标视频对应的视频描述文本。

作为一种示例，将拼接后的特征、事件特征以及关系特征的向量表示同时输入视频描述生成模型的编码模块进行编码处理，再通过视频描述生成模型的解码模块进行解码处理，获得目标视频对应的视频描述文本。

可选的，视频描述生成模型可以是transformer模型，还可以是符合编码器-解码器(encoder-decoder)架构的其他模型，对此本实施例不作限定。

图5为本公开实施例提供的视频描述生成模型的结构示意图。如图5所示，本实施例的视频描述生成模型为transformer模型，包括编码模块和解码模块。编码模块通常包括多个编码单元，解码模块通常也包括多个解码单元。编码模块中，每个编码单元的输入是前一个编码单元的输出。解码模块中，每个解码单元的输入包括其前一个编码单元的输出以及编码模块的总输出。

本实施例示出的视频描述生成方法，包括：获取待处理的目标视频，通过提取目标视频的视觉特征，其中视觉特征包括外观特征、动作特征以及对象特征。首先将目标视频的外观特征以及动作特征进行拼接，得到拼接后的特征，根据拼接后的特征获取目标视频的事件特征，与此同时，根据目标视频的对象特征获取目标视频中目标对象之间的关系特征。再将拼接后的特征、事件特征以及关系特征作为视频描述生成模型的输入，获取模型输出的目标视频对应的视频描述文本。上述过程能够捕获目标视频中更加细节的关系特征以及事件特征，可提升模型对视频语义的深层理解，从而生成高质量的视频描述文本。

图6为本公开实施例提供的一种视频描述生成方法的流程示意图。本实施例的方法同样适用于图2所示的视频服务器或任意可执行该方法的装置，如图6所示，本实施例的方法包括：

步骤601、获取待处理的目标视频。

步骤602、提取目标视频的外观特征以及动作特征。

步骤603、将目标视频的外观特征以及动作特征进行拼接，得到拼接后的特征。

步骤604、根据拼接后的特征，获取目标视频的事件特征。

需要说明的是，本实施例的步骤601至步骤604的具体实现可参照图4所示实施例的步骤401至步骤404，此处不再赘述。

步骤605、将拼接后的特征以及事件特征同时输入视频描述生成模型，获得目标视频对应的视频描述文本。

与图4所示实施例的步骤406不同的是，本实施例中视频描述生成模型的输入特征为两路特征，即拼接后的特征以及事件特征。其中，事件特征是基于预先构建的事件知识图谱确定的一种知识增强特征，能够为模型分析提供更加细节的特征数据。

本实施例示出的视频描述生成方法，在获取待处理的目标视频后，首先提取目标视频的视觉特征，视觉特征包括外观特征以及动作特征。随后将目标视频的外观特征以及动作特征进行拼接后，得到拼接后的特征。最后将拼接后的特征以及事件特征作为视频描述生成模型的输入，获取模型输出的目标视频对应的视频描述文本。上述过程能够捕获目标视频中更加细节的事件特征，可提升模型对视频事件的描述能力，从而生成高质量的视频描述文本。

图7为本公开实施例提供的一种视频描述生成方法的流程示意图。本实施例的方法同样适用于图2所示的视频服务器或任意可执行该方法的装置，如图7所示，本实施例的方法包括：

步骤701、获取待处理的目标视频。

步骤702、提取目标视频的外观特征、动作特征以及对象特征。

步骤703、将目标视频的外观特征以及动作特征进行拼接，得到拼接后的特征。

步骤704、根据目标视频中每帧图像的对象特征，获取目标视频中目标对象之间的关系特征。

需要说明的是，本实施例的步骤704的具体实现可参照图4所示实施例的步骤405，此处不再赘述。本实施例的步骤703与步骤704的执行顺序不作限定，可以同时执行，也可以顺序执行。

步骤705、将拼接后的特征以及关系特征同时输入视频描述生成模型，获得目标视频对应的视频描述文本。

与图4所示实施例的步骤406不同的是，本实施例中视频描述生成模型的输入特征为两路特征，即拼接后的特征以及关系特征。其中，关系特征包括每帧图像中目标对象之间的关系特征，以及帧间图像中目标对象之间的关系特征的至少一项。关系特征能够为模型分析提供更加细节的特征数据。

本实施例示出的视频描述生成方法，在获取待处理的目标视频后，首先提取目标视频的视觉特征，视觉特征包括外观特征、动作特征以及对象特征。随后将目标视频的外观特征以及动作特征进行拼接后，得到拼接后的特征，与此同时，可根据目标视频的对象特征获取目标视频中目标对象之间的关系特征。最后将拼接后的特征以及关系特征作为视频描述生成模型的输入，获取模型输出的目标视频对应的视频描述文本。上述过程能够捕获目标视频中更加细节的关系特征，可提升模型对视频中目标对象间的描述能力，从而生成高质量的视频描述文本。

图8为本公开实施例提供的一种视频描述生成装置的结构示意图。本实施例提供的视频描述生成装置可集成于图2中的视频服务器，使得视频服务器具有视频描述功能。

如图8所示，本实施例提供的视频描述生成装置800包括：获取模块801，特征提取模块802，特征分析模块803以及处理模块804。

获取模块801，用于获取待处理的目标视频，所述目标视频包括多个目标对象；

特征提取模块802，用于提取所述目标视频的视觉特征；

特征分析模块803，用于根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项；

处理模块804，用于将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型，得到所述目标视频对应的视频描述文本。

本实施例的一个可选实施例中，所述视觉特征包括外观特征、动作特征以及对象特征的至少一项；所述特征提取模块802，包括：

第一特征提取单元，用于采用二维卷积神经网络提取所述目标视频中每帧图像的外观特征；和/或

第二特征提取单元，用于采用三维卷积神经网络提取所述目标视频中每帧图像的动作特征，所述动作特征用于指示目标对象的动作属性；和/或

第三特征提取单元，用于采用目标检测算法提取所述目标视频中每帧图像的目标对象的对象特征。

本实施例的一个可选实施例中，所述特征分析模块803，包括：第一特征分析单元，用于根据所述目标视频的外观特征以及动作特征，获取所述目标视频的事件特征。

本实施例的一个可选实施例中，所述第一特征分析单元，包括：

事件确定子单元，用于将所述目标视频的外观特征以及动作特征进行拼接，得到拼接后的特征；将所述拼接后的特征输入事件检测模型，得到所述目标视频对应的事件类型；

事件特征获取子单元，用于根据预先构建的事件知识图谱以及所述目标视频对应的事件类型，获取所述目标视频对应的事件类型的向量表示；所述事件知识图谱包括多种事件类型的向量表示。

本实施例的一个可选实施例中，所述特征分析模块803，包括：第二特征分析单元，用于根据所述目标视频中每帧图像的对象特征，获取所述目标视频中目标对象之间的关系特征。

本实施例的一个可选实施例中，所述目标对象之间的关系特征包括单帧图像中目标对象之间的关系特征以及帧间图像目标对象之间的关系特征的至少一项。

本实施例的一个可选实施例中，所述第二特征分析单元，包括：

第一关系特征获取子单元，用于将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器，获取所述目标视频中每帧图像中目标对象之间的关系特征。

第一关系特征获取子单元，用于将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器，获取所述目标视频中每帧图像中目标对象之间的关系特征；

第二关系特征获取子单元，用于根据所述目标视频中每帧图像中目标对象之间的关系特征，以及所述目标视频中每帧图像的对象特征，获取所述目标视频中帧间图像目标对象之间的关系特征。

本实施例的一个可选实施例中，所述第二关系特征获取子单元，具体用于将所述目标视频中每帧图像的目标对象之间的关系特征，以及所述目标视频中每帧图像的对象特征输入图卷积网络，获取所述目标视频中帧间图像目标对象之间的关系特征。

本实施例的一个可选实施例中，所述处理模块804，包括：

第一处理单元，用于将所述目标视频的所述视觉特征中的外观特征以及动作特征进行拼接，得到拼接后的特征；

第二处理单元，用于将所述拼接后的特征、所述事件特征以及所述关系特征同时输入所述视频描述生成模型的编码模块进行编码处理，再通过所述视频描述生成模型的解码模块进行解码处理，获得所述目标视频对应的视频描述文本。

本实施例提供的视频描述生成装置，可用于执行上述任意方法实施例中的视频描述生成方法，其实现原理和技术效果类似，此处不做作赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图9示出了可以用来实施本公开实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如知识库处理方法、事件处理方法。例如，在一些实施例中，知识库处理方法、事件处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的知识库处理方法、事件处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行知识库处理方法、事件处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频描述生成方法，包括：

获取待处理的目标视频，所述目标视频包括多个目标对象；

提取所述目标视频的视觉特征；

根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征；

将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型，得到所述目标视频对应的视频描述文本；

所述将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型，得到所述目标视频对应的视频描述文本，包括：

将所述目标视频的所述视觉特征中的外观特征以及动作特征进行拼接，得到拼接后的特征；

将所述拼接后的特征、所述事件特征以及所述关系特征同时输入所述视频描述生成模型的编码模块进行编码处理，再通过所述视频描述生成模型的解码模块进行解码处理，获得所述目标视频对应的视频描述文本。

2.根据权利要求1所述的方法，其中，所述视觉特征包括外观特征、动作特征以及对象特征的至少一项；所述提取所述目标视频的视觉特征，包括：

采用二维卷积神经网络提取所述目标视频中每帧图像的外观特征；和/或

采用三维卷积神经网络提取所述目标视频中每帧图像的动作特征，所述动作特征用于指示目标对象的动作属性；和/或

采用目标检测算法提取所述目标视频中每帧图像的目标对象的对象特征。

3.根据权利要求1或2所述的方法，其中，所述根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，包括：

根据所述目标视频的外观特征以及动作特征，获取所述目标视频的事件特征。

4.根据权利要求3所述的方法，其中，所述根据所述目标视频的外观特征以及动作特征，获取所述目标视频的事件特征，包括：

将所述目标视频的外观特征以及动作特征进行拼接，得到拼接后的特征；

将所述拼接后的特征输入事件检测模型，得到所述目标视频对应的事件类型；

根据预先构建的事件知识图谱以及所述目标视频对应的事件类型，获取所述目标视频对应的事件类型的向量表示；所述事件知识图谱包括多种事件类型的向量表示。

5.根据权利要求1或2所述的方法，其中，所述根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，包括：

根据所述目标视频中每帧图像的对象特征，获取所述目标视频中目标对象之间的关系特征。

6.根据权利要求1所述的方法，其中，所述目标对象之间的关系特征包括单帧图像中目标对象之间的关系特征以及帧间图像目标对象之间的关系特征的至少一项。

7.根据权利要求5所述的方法，其中，所述根据所述目标视频中每帧图像的对象特征，获取所述目标视频中目标对象之间的关系特征，包括：

将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器，获取所述目标视频中每帧图像中目标对象之间的关系特征。

8.根据权利要求5所述的方法，其中，所述根据所述目标视频中每帧图像的对象特征，获取所述目标视频中目标对象之间的关系特征，包括：

将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器，获取所述目标视频中每帧图像中目标对象之间的关系特征；

根据所述目标视频中每帧图像中目标对象之间的关系特征，以及所述目标视频中每帧图像的对象特征，获取所述目标视频中帧间图像目标对象之间的关系特征。

9.根据权利要求8所述的方法，其中，所述根据所述目标视频中每帧图像中目标对象之间的关系特征，以及所述目标视频中每帧图像的对象特征，获取所述目标视频中帧间图像目标对象之间的关系特征，包括：

将所述目标视频中每帧图像的目标对象之间的关系特征，以及所述目标视频中每帧图像的对象特征输入图卷积网络，获取所述目标视频中帧间图像目标对象之间的关系特征。

10.一种视频描述生成装置，包括：

特征提取模块，用于提取所述目标视频的视觉特征；

特征分析模块，用于根据所述目标视频的视觉特征获取所述目标视频的知识增强特征，所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征；

处理模块，用于将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型，得到所述目标视频对应的视频描述文本；

其中，所述处理模块，包括：

11.根据权利要求10所述的装置，其中，所述视觉特征包括外观特征、动作特征以及对象特征的至少一项；所述特征提取模块，包括：

12.根据权利要求10或11所述的装置，其中，所述特征分析模块，包括：第一特征分析单元，用于根据所述目标视频的外观特征以及动作特征，获取所述目标视频的事件特征。

13.根据权利要求12所述的装置，其中，所述第一特征分析单元，包括：

14.根据权利要求10或11所述的装置，其中，所述特征分析模块，包括：第二特征分析单元，用于根据所述目标视频中每帧图像的对象特征，获取所述目标视频中目标对象之间的关系特征。

15.根据权利要求10所述的装置，其中，所述目标对象之间的关系特征包括单帧图像中目标对象之间的关系特征以及帧间图像目标对象之间的关系特征的至少一项。

16.根据权利要求14所述的装置，其中，所述第二特征分析单元，包括：

17.根据权利要求14所述的装置，其中，所述第二特征分析单元，包括：

18.根据权利要求17所述的装置，其中，所述第二关系特征获取子单元，具体用于将所述目标视频中每帧图像的目标对象之间的关系特征，以及所述目标视频中每帧图像的对象特征输入图卷积网络，获取所述目标视频中帧间图像目标对象之间的关系特征。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。