CN115937738A

CN115937738A - 视频标注模型的训练方法、装置、设备及存储介质

Info

Publication number: CN115937738A
Application number: CN202211438101.8A
Authority: CN
Inventors: 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-04-07

Abstract

本申请公开了一种视频标注模型的训练方法、装置、设备及存储介质，属于计算机视觉技术领域。所述方法包括：获取视频数据，在所述视频数据中提取关键帧；对所述关键帧进行特征提取，得到所述关键帧在不同模态下的特征数据；基于所述关键帧在不同模态下的特征数据，构建不同模态对应的子图；基于图神经网络，对所述不同模态对应的子图执行聚合操作，得到目标图；基于所述目标图，获取所述图神经网络对所述关键帧进行视频标注的预测标注结果；基于所述预测标注结果和所述关键帧的实际标注结果，训练所述图神经网络直至收敛，得到所述视频标注模型。本申请基于训练好的视频标注模型能够精准对视频进行多模态标注，能够提升视频标注质量。

Description

视频标注模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉领域，特别涉及一种视频标注模型的训练方法、装置、设备及存储介质。

背景技术

时下计算机视觉技术已经应用到众多领域，比如执法部门使用的执法记录仪便是一种基于计算机视觉技术的电子产品。

详细来说，执法记录仪是根据执法部门的实际需要，集实时视音频摄录、拍照、定位、人脸及车牌识别、人脸及车牌对比等功能于一体的便携式设备。由于执法记录仪能够实时记录执法过程，因此被广泛应用于交警执法、消防检查、烟草执法等场景。在实际应用过程中，执法记录仪通过视频标注模型对已采集视频进行标注，以便于执法人员根据视频标注结果进行事件回溯和取证。其中，视频标注是指为视频添加标签的过程。

其中，视频标注质量也即视频标注结果是否精准有效，对执法过程至关重要，因为会严重影响执法效率和执法准确性。为此，如何训练视频标注模型以实现精准有效的视频标注，便成为了本领域技术人员关注的一个焦点。

发明内容

本申请实施例提供了一种视频标注模型的训练方法、装置、设备及存储介质，能够基于训练好的视频标注模型实现精准对视频进行多模态标注，显著提升了视频标注质量。所述技术方案如下：

一方面，提供了一种视频标注模型的训练方法，所述方法包括：

获取视频数据，在所述视频数据中提取关键帧；

对所述关键帧进行特征提取，得到所述关键帧在不同模态下的特征数据；

基于所述关键帧在不同模态下的特征数据，构建不同模态对应的子图；

基于图神经网络，对所述不同模态对应的子图执行聚合操作，得到目标图；

基于所述目标图，获取所述图神经网络对所述关键帧进行视频标注的预测标注结果；

基于所述预测标注结果和所述关键帧的实际标注结果，训练所述图神经网络直至收敛，得到所述视频标注模型。

在一些实施例中，所述对所述关键帧进行特征提取，得到所述关键帧在不同模态下的特征数据，包括以下至少两种：

对所述关键帧进行图像特征提取，得到所述关键帧的图像特征；

对所述关键帧进行文本特征提取，得到所述关键帧中非数字文本的文本特征；

对所述关键帧进行数字特征提取，得到所述关键帧中数字文本的数字特征。

在一些实施例中，所述基于所述关键帧在不同模态下的特征数据，构建不同模态对应的子图，包括：

以所述图像特征作为节点，生成图像特征子图；其中，所述图像特征子图的各条边用于表示不同图像特征之间的关系；

以所述文本特征作为节点，生成文本特征子图；其中，所述文本特征子图的各条边用于表示不同文本特征之间的关系；

以所述数字特征作为节点，生成数字特征子图；其中，所述数字特征子图的各条边用于表示不同数字特征之间的关系；

相应地，所述对所述不同模态对应的子图执行聚合操作，包括：

对所述图像特征子图、所述文本特征子图和所述数字特征子图执行聚合操作，得到所述目标图。

在一些实施例中，所述对所述图像特征子图、所述文本特征子图和所述数字特征子图执行聚合操作，得到所述目标图，包括：

基于注意力机制，在所述图像特征子图和所述文本特征子图之间执行聚合操作，以及在所述文本特征子图内部执行聚合操作；

基于注意力机制，在聚合后的文本特征子图和所述数字特征子图之间执行聚合操作，得到所述目标图。

在一些实施例中，对于任意两种模态，所述两种模态对应的子图的聚合过程，包括：

对于第一子图中的第j个节点，基于所述第二子图中与所述第j个节点相邻的多个邻居节点的注意力分数，进行节点聚合，得到所述第j个节点更新后的特征向量；其中，j为正整数；所述注意力分数用于表示所述第j个节点与所述邻居节点之间边的权重；所述第一子图与所述两种模态中的第一模态对应；所述第二子图与所述两种模态中的第二模态对应；或者，

对于所述第二子图中的第i个节点，基于所述第一子图中与所述第i个节点相邻的多个邻居节点的注意力分数，进行节点聚合，得到所述第i个节点更新后的特征向量；其中，i为正整数；所述注意力分数用于表示所述第i个节点与所述邻居节点之间边的权重。

在一些实施例中，所述基于所述预测标注结果和所述关键帧的实际标注结果，训练所述图神经网络直至收敛，得到所述视频标注模型，包括：

构建目标损失函数；

基于所述目标损失函数，获取所述预测标注结果与所述实际标注结果之间的误差值；

将所述误差值由所述图神经网络的输出层向隐藏层进行反向传播，直至所述图神经网络的输入层；

在反向传播过程中，根据所述误差值调整所述图神经网络的网络参数，直至所述图神经网络收敛，得到所述视频标注模型。

在一些实施例中，所述在所述视频数据中提取关键帧，包括：

对所述视频数据进行特征提取；

基于提取到的特征数据，获取所述视频数据的帧间相似度；

基于所述帧间相似度，采用第一聚类方式对所述视频数据包括的视频帧进行聚类，得到初始聚类结果；

将所述初始聚类结果中的聚类中心作为第二聚类方式的初始聚类中心，采用所述第二聚类方式对所述初始聚类结果进行优化，得到目标聚类结果；

确定所述目标聚类结果中各个类的聚类中心，将所述各个类中与所述聚类中心距离最近的视频帧作为所述关键帧。

另一方面，提供了一种视频标注模型的训练装置，所述装置包括：

第一提取模块，被配置为获取视频数据，在所述视频数据中提取关键帧；

第二提取模块，被配置为对所述关键帧进行特征提取，得到所述关键帧在不同模态下的特征数据；

获取模块，被配置为基于所述关键帧在不同模态下的特征数据，构建不同模态对应的子图；基于图神经网络，对所述不同模态对应的子图执行聚合操作，得到目标图；基于所述目标图，获取所述图神经网络对所述关键帧进行视频标注的预测标注结果；

训练模块，被配置为基于所述预测标注结果和所述关键帧的实际标注结果，训练所述图神经网络直至收敛，得到所述视频标注模型。

在一些实施例中，所述第二提取模块，被配置为：对所述关键帧进行图像特征提取，得到所述关键帧的图像特征；对所述关键帧进行文本特征提取，得到所述关键帧中非数字文本的文本特征；对所述关键帧进行数字特征提取，得到所述关键帧中数字文本的数字特征。

在一些实施例中，所述获取模块，被配置为：

在一些实施例中，所述获取模块，被配置为：基于注意力机制，在所述图像特征子图和所述文本特征子图之间执行聚合操作，以及在所述文本特征子图内部执行聚合操作；基于注意力机制，在聚合后的文本特征子图和所述数字特征子图之间执行聚合操作，得到所述目标图。

在一些实施例中，对于任意两种模态，所述获取模块执行所述两种模态对应的子图的聚合过程，包括：

在一些实施例中，所述训练模块，被配置为：构建目标损失函数；基于所述目标损失函数，获取所述预测标注结果与所述实际标注结果之间的误差值；将所述误差值由所述图神经网络的输出层向隐藏层进行反向传播，直至所述图神经网络的输入层；在反向传播过程中，根据所述误差值调整所述图神经网络的网络参数，直至所述图神经网络收敛，得到所述视频标注模型。

在一些实施例中，所述第一提取模块，被配置为：

对所述视频数据进行特征提取；

基于提取到的特征数据，获取所述视频数据的帧间相似度；

另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现上述的视频标注模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的视频标注模型的训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的视频标注模型的训练方法。

本申请实施例提供了一种新的视频标注模型训练方案，该方案基于训练好的视频标注模型能够实现对视频进行多模态标注。详细来说，模型训练过程具体为在视频数据中提取关键帧；之后，对提取到的关键帧进行特征提取，得到上述关键帧在不同模态下的特征数据；接下来，基于上述关键帧在不同模态下的特征数据构建目标图，并基于目标图获取图神经网络对上述关键帧进行视频标注的预测标注结果；最终，基于上述预测标注结果和上述关键帧的实际标注结果，训练图神经网络直至收敛，得到视频标注模型。由于模型训练过程中引入了不同层次的多模态特征，因此基于训练好的视频标注模型能够精准对视频进行多模态标注，比如可以有效地标注视频中的人物、非数字文本和数字文本，显著提升了视频标注质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频标注模型的训练方法涉及的实施环境的示意图；

图2是本申请实施例提供的一种视频标注模型的训练方法流程图；

图3是本申请实施例提供的一种关键帧提取的示意图；

图4是本申请实施例提供的一种图结构的构建示意图；

图5是本申请实施例提供的一种视频标注模型的训练装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。

这些术语只是用于将一个元素与另一个元素区别开。例如，在不脱离各种示例的范围的情况下，第一元素能够被称为第二元素，并且类似地，第二元素也能够被称为第一元素。第一元素和第二元素都可以是元素，并且在某些情况下，可以是单独且不同的元素。

其中，至少一个是指一个或一个以上，例如，至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而多个是指两个或者两个以上，例如，多个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

图1是本申请实施例提供的一种视频标注模型的训练方法涉及的实施环境的示意图。

参见图1，该实施环境包括：模型训练设备101和视频标注设备102。示例性地，视频标注设备在本申请实施例中指代执法记录仪。

其中，模型训练设备101用于进行视频标注模型训练，即执行本申请实施例提供的视频标注模型的训练方法；视频标注设备102用于基于训练好的视频标注模型进行视频标注。

模型训练设备101和视频标注设备102是具有机器学习能力的计算机设备。在一些可能的实现方式中，模型训练设备101和视频标注设备102可以是同一个设备，或者，模型训练设备101和视频标注设备102也可以是不同的设备。示例性地，当模型训练设备101和视频标注设备102是不同的设备时，模型训练设备101可以是个人电脑、服务器等固定式计算机设备，视频标注设备102 可以是移动式计算机设备，比如智能穿戴设备，本申请在此不做限制。另外，当模型训练设备101和视频标注设备102是同一个设备时，模型训练设备101 和视频标注设备102可以是智能穿戴设备，本申请在此同样不做限制。

下面介绍本申请实施例提供的视频标注模型的训练方法的应用场景。

一、执法场景

执法记录仪作为一种智能穿戴设备常被配备给基层日常执法使用，因此执法记录仪不但数量众多，而且记录的视频数据量巨大。在实际应用中，执法记录仪记录的视频数据会因为环境、使用者等原因而存在质量问题，比如抖动严重等，进而难以实现人工准确对视频数据进行分析和处理。在这种情形下，如何实现执法记录仪自动对记录的视频数据进行分析和处理，便成为了时下亟需解决的问题。

由于单模态技术通常存在非普遍性、缺乏传感器数据等问题，因此本申请实施例提供的视频标注模型的训练方法会探索不同粒度的多模态结构，即会选择性地融合不同细节层次的多模态特征。换言之，多模态技术从不同的多个层次来描述对象，内容互补或互斥，通过采用有效的融合方案，结合从不同层次获得的特征数据，从而提高视频标注的准确性。其中，每一种信息的来源或形式，均可被称为一种模态。例如，人类有触觉、听觉、视觉和嗅觉；而信息的媒介有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。在本文中模态是指信息的媒介，比如语音、视频、文字等。每种模态的信息在信号采集、预处理、特征提取、结果判断等各个层次都有可能融合。本申请实施例可以实现不同粒度的多模态融合。

另外，由于多模态数据的异构性质，因此有效地融合来自多种模态(例如视频和文本)的数据具有挑战性。其中，多模态数据的异构性质，是指每种模态数据的表达方式、信息纬度、格式长短和存储方式等存在不同，体现了数据之间的异质性。

综上所述，本申请实施例提供了基于视频标注模型(也称多模态图神经网络)的多模态视频标注，旨在有效地标注视频中的人物、文字和数字，同时基于注意机制和多模态融合技术能够更好地定位图像区域。

其中，多模态图神经网络是指结合多模态信息和图神经网络的一个简便统称。另外，上述人物、文字和数字指的是视频场景中的人物、可识别的文字和数字，比如高速公路的道路指示牌和限速标志等。而注意机制是在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。注意机制帮助模型选择有效、适当规模的特征，进而使得模型可以有效、高效地完成任务。比如我们基于逐步回归分析方法对原始特征集进行筛选，得到一个高质量的特征子集，接下来便可以让下游模型聚焦于和所执行的任务关系最密切的特征。

二、其他场景

比如涉及自动驾驶或辅助驾驶等的交通场景，或者，涉及视频监控的安防场景，本申请在此不做限制。

图2是本申请实施例提供的一种视频标注模型的训练方法的流程图。该方法的执行主体为计算机设备，比如图1中的模型训练设备。参见图2，本申请实施例提供的方法流程包括：

201、计算机设备获取视频数据，在获取到的视频数据中提取关键帧。

在本申请实施例中，上述视频数据为用于模型训练的样本视频数据。示例性地，上述样本视频数据为执法记录仪采集的原始视频数据。

在一些实施例中，本申请实施例利用一种改进的基于视频聚类的关键帧提取算法，在上述视频数据中提取关键帧。简单来说，该种关键帧提取算法首先对视频帧进行特征提取；之后，依据帧间相似度对视频帧进行初始聚类，得到初始聚类结果；然后，再使用K-means算法对初始聚类结果进行优化，得到改进后的聚类结果。

详细来说，在上述视频数据中提取关键帧，包括但不限于如下方式：

对上述视频数据进行特征提取；基于提取到的特征数据，获取上述视频数据的帧间相似度；基于获取到的帧间相似度，采用第一聚类方式对上述视频数据包括的视频帧进行聚类，得到初始聚类结果；之后，将初始聚类结果中的聚类中心作为第二聚类方式的初始聚类中心，采用第二聚类方式对初始聚类结果进行优化，得到目标聚类结果；然后，确定目标聚类结果中各个类的聚类中心，并将各个类中与聚类中心距离最近的视频帧作为关键帧。

其中，上述第一聚类方式即为基于视频聚类的关键帧提取算法，上述第二聚类方式即为K-means算法。示例性地，提取的视频帧的特征由视频帧中每个图像块的信息熵组成，本申请在此不作限定。

另外，提取到的视频帧的数量通常为多个；在完成关键帧提取后，便进入对关键帧进行特征提取的步骤，详见下述步骤202。

202、计算机设备对提取到的关键帧进行特征提取，得到提取到的关键帧在不同模态下的特征数据。

示例性地，上述不同模态涉及图像、文本(非数字文本)和数字中的至少两种。比如，在本申请实施例中，上述不同模态包括图像、文本(非数字文本) 和数字。另外，上述不同模态还可以再包括音频，本申请在此不作限定。

以上述不同模态包括图像、文本(非数字文本)和数字为例，对提取到的关键帧进行特征提取，得到提取到的关键帧在不同模态下的特征数据，包括：

2021、对提取到的关键帧进行图像特征提取，得到提取到的关键帧的图像特征。

示例性地，本申请实施例通过图2所示的一种基于FCN(Fully ConvolutionalNetworks，全卷积网络))的语义分割模型Mask-RCNN提取有效的图像特征。其中，Mask-RCNN用于语义级别的图像分割，有别于像素级别的图像特征提取。

在一些实施例中，上述提取的图像特征为Mask-RCNN的FCN前面一层的输出，本申请在此不作限定。另外，图2中的W*H指代输入的视频帧的尺寸， W*H*C是指输出的图像特征为三维矩阵，其中，C为通道数。

2022、对提取到的关键帧进行文本特征提取，得到提取到的关键帧中非数字文本的文本特征。

示例性地，本申请实施例通过一种基于CNN(Convolutional Neural Network，卷积神经网络)+RNN(Recurrent Neural Network，循环神经网络)的神经网络模型提取有效的文本特征。

详细来说，在视频帧中定位文本框后，利用CNN对视频帧进行校正。即， CNN在这里更多的是起到校正文本框位置的作用。其中，CNN的输出为视频帧的每个对应区域在x方向和y方向(即2个输出映射)上应移动的像素数，以拉直文本。接下来，利用基于注意力机制的RNN来解码文本。示例性地，在解码文本过程中可以通过一种称为分部拾取的正则化方法来减少噪声影响。其中，分部拾取是指将注意力评分函数的输出结果输入到softmax函数中进行运算，得到与键配对的值的概率分布(即注意力权重)。之后随机融合邻近输入的注意力权重。换言之，分部拾取由随机混合邻近输入的注意力权重的分数组成。

2023、对提取到的关键帧进行数字特征提取，得到提取到的关键帧中数字文本的数字特征。

示例性地，本申请实施例通过一种基于k-NN(k-Nearest Neighbor，k-邻近) 算法的模型提取有效的数字特征。其中，k-NN是一种分类算法，该算法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

需要说明的是，上述图像特征、上述文本特征和上述数字特征的特征维度可能不同。比如，上述图像特征表示为v＝[v1,……,vn]，上述文本特征表示为u＝ [u1,……,um]，上述数字特征表示为w＝[w1,……,wg]，且n、m和g的取值不同；其中，n、m和g的取值均为正整数。

203、计算机设备基于提取到的关键帧在不同模态下的特征数据，构建不同模态对应的子图；基于图神经网络，对不同模态对应的子图执行聚合操作，得到目标图；基于目标图，获取图神经网络对提取到的关键帧进行视频标注的预测标注结果。

其中，图结构由节点和边组成，节点可以是某种类型的数据，在本申请实施例中，节点指代上述提取的图像特征、数字特征或文本特征。

在一些实施例中，图神经网络以消息传播的方式来迭代更新图中节点的节点表示，停止迭代更新后便完成节点聚合，得到目标图；其中，目标图中各节点的节点表示作为最终的节点表示，通过输入分类器完成对关键帧的视频标注；至此，图神经网络便输出了对关键帧进行视频标注的预测标注结果。

如图4所示，本申请实施例会以上述图像特征作为节点，生成一个图像特征子图；其中，该图像特征子图的各条边用于表示不同图像特征之间的关系；以上述文本特征作为节点，生成一个文本特征子图；其中，该文本特征子图的各条边用于表示不同文本特征之间的关系；以上述数字特征作为节点，生成一个数字特征子图；其中，该数字特征子图的各条边用于表示不同数字特征之间的关系。

换言之，一共生成三个子图，之后再基于图神经网络的将这三个子图进行聚合，这个聚合后的图结构在本申请实施例中被称为目标图。即，通过对图像特征子图、文本特征子图和数字特征子图执行聚合操作，得到目标图。需要说明的是，这里的聚合是指控制节点的节点表示如何由其相邻节点的节点表示计算得到，以捕获图的特定模式。在本申请实施例中，通过聚合操作可以显式捕获不同类型的多模态上下文，以更新节点表示。

在一些实施例中，如图4所示，对图像特征子图、文本特征子图和数字特征子图执行聚合操作，得到目标图，包括但不限于如下方式：基于注意力机制，在图像特征子图和文本特征子图之间执行聚合操作，以及在文本特征子图内部执行聚合操作；基于注意力机制，在聚合后的文本特征子图和数字特征子图之间执行聚合操作，得到目标图。即，先进行图像文本聚合，再进行文本文本聚合，最后进行文本数字聚合。

在另一些实施例中，对于任意两种模态，这两种模态对应的子图的聚合过程，可以采取如下方式：

对于第一子图中的第j个节点，基于第二子图中与第j个节点相邻的多个邻居节点的注意力分数，进行节点聚合，得到第j个节点更新后的特征向量；其中，j为正整数；此处的注意力分数用于表示第j个节点与邻居节点之间边的权重；

在本申请实施例中，第一子图与这两种模态中的第一模态对应；第二子图与两种模态中的第二模态对应。

或者，对于第二子图中的第i个节点，基于第一子图中与第i个节点相邻的多个邻居节点的注意力分数，进行节点聚合，得到第i个节点更新后的特征向量；其中，i为正整数；此处的注意力分数用于表示第i个节点与邻居节点之间边的权重。

示例性地，以图像和文本两个模态为例，聚合过程可以描述为通过获取图像特征和文本特征的注意力分数，利用图像上下文来细化文本特征节点，或者，利用文本上下文来细化图像特征节点。

204、计算机设备基于预测标注结果和提取到的关键帧的实际标注结果，训练图神经网络直至收敛，得到视频标注模型。

在本申请实施例中，可以采取如下方式进行模型训练：

构建目标损失函数；基于目标损失函数，获取关键帧的预测标注结果与实际标注结果之间的误差值；将误差值由图神经网络的输出层向隐藏层进行反向传播，直至图神经网络的输入层；在反向传播过程中，根据误差值调整图神经网络的网络参数，直至图神经网络收敛，得到用于多模态视频标注的视频标注模型。换言之，在模型训练过程中根据损失函数判断图神经网络是否收敛；如果收敛，则停止训练；如果未收敛，则继续提高图神经网络的准确度。

示例性地，上述目标损失函数为下述的二元交叉熵损失函数，本申请在此不作限定。

其中，N指代标签类别数，y_i是二元标签，取值0或1，p(y_i)是输出属于标签y_i的概率。

本申请实施例提供了一种新的视频标注模型训练方案，该方案基于训练好的视频标注模型能够实现对视频进行多模态标注。详细来说，该方案会探索不同粒度的多模态结构，即会选择性地融合不同细节层次的多模态特征，另外还通过引入注意力机制来指导多模态融合。换言之，通过采用注意力机制和多模态融合技术，能够结合从不同层次获得的特征数据，因此基于训练好的视频标注模型能够更好地定位图像区域并精准对视频进行多模态标注，显著提升了视频标注质量。

图5是本申请实施例提供的一种视频标注模型的训练装置的结构示意图。参见图5，该装置包括：

第一提取模块501，被配置为获取视频数据，在所述视频数据中提取关键帧；

第二提取模块502，被配置为对所述关键帧进行特征提取，得到所述关键帧在不同模态下的特征数据；

获取模块503，被配置为基于所述关键帧在不同模态下的特征数据，构建不同模态对应的子图；基于图神经网络，对所述不同模态对应的子图执行聚合操作，得到目标图；基于所述目标图，获取所述图神经网络对所述关键帧进行视频标注的预测标注结果；

训练模块504，被配置为基于所述预测标注结果和所述关键帧的实际标注结果，训练所述图神经网络直至收敛，得到所述视频标注模型。

在一些实施例中，所述获取模块，被配置为：

在一些实施例中，所述第一提取模块，被配置为：

对所述视频数据进行特征提取；

基于提取到的特征数据，获取所述视频数据的帧间相似度；

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的视频标注模型的训练装置在进行视频标注模型的训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频标注模型的训练装置与视频标注模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本申请一个示例性实施例提供的计算机设备600的结构框图。该计算机设备600可以是便携式移动终端。

通常，计算机设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA (Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601 可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器601所执行以实现本申请中方法实施例提供的视频标注模型的训练方法。

在一些实施例中，计算机设备600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件 606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络 (2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在计算机设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在计算机设备600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在计算机设备 600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及 VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607 还可以包括耳机插孔。

定位组件608用于定位计算机设备600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件608可以是基于美国的 GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为计算机设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以计算机设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611 还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测计算机设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对计算机设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在计算机设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在计算机设备600的侧边框时，可以检测用户对计算机设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614 采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在计算机设备600的正面、背面或侧面。当计算机设备600上设置有物理按键或厂商Logo时，指纹传感器614 可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在计算机设备600的前面板。接近传感器616用于采集用户与计算机设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备600 的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由计算机设备中的处理器执行以完成上述实施例中的视频标注模型的训练方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory， RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述视频标注模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频标注模型的训练方法，其特征在于，所述方法包括：

获取视频数据，在所述视频数据中提取关键帧；

2.根据权利要求1所述的方法，其特征在于，所述对所述关键帧进行特征提取，得到所述关键帧在不同模态下的特征数据，包括以下至少两种：

3.根据权利要求2所述的方法，其特征在于，所述基于所述关键帧在不同模态下的特征数据，构建不同模态对应的子图，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述图像特征子图、所述文本特征子图和所述数字特征子图执行聚合操作，得到所述目标图，包括：

5.根据权利要求4所述的方法，其特征在于，对于任意两种模态，所述两种模态对应的子图的聚合过程，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述预测标注结果和所述关键帧的实际标注结果，训练所述图神经网络直至收敛，得到所述视频标注模型，包括：

构建目标损失函数；

7.根据权利要求1至6中任一项权利要求所述的方法，其特征在于，所述在所述视频数据中提取关键帧，包括：

对所述视频数据进行特征提取；

基于提取到的特征数据，获取所述视频数据的帧间相似度；

8.一种视频标注模型的训练装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至7中任一项权利要求所述的视频标注模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至7中任一项权利要求所述的视频标注模型的训练方法。

11.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述计算机设备执行如权利要求1至7中任一项权利要求所述的视频标注模型的训练方法。