CN114707022B

CN114707022B - 视频问答数据集标注方法、装置、存储介质及电子设备

Info

Publication number: CN114707022B
Application number: CN202210605506.XA
Authority: CN
Inventors: 肖俊; 王书舒; 吴超; 王朝; 张志猛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-06
Anticipated expiration: 2042-05-31
Also published as: CN114707022A

Abstract

本发明公开了一种视频问答数据集标注方法、装置、存储介质及电子设备，属于计算机视觉领域。本发明通过人工智能网络构建辅助标注技术来提高标注效率，先使用视频问答模型先针对样本输出预测的内容定位和问句答案，将将预测结果提供给人工进行校对，人工校对后再最终产生标注结果，从而一定程度缩小人工查找视频问句答案范围。在本发明中，初步的标注信息可由神经网络模型自动生成，人工仅需要对模型生成的自动进行校核调整即可，若存在错误可进行修正，由此大大提高了视频问答数据集的标注效率，也避免了直接采用模型预测时的标注质量问题。

Description

视频问答数据集标注方法、装置、存储介质及电子设备

技术领域

本发明属于计算机视觉领域，具体涉及一种视频问答数据集标注方法、装置、存储介质及电子设备。

背景技术

随着多媒体数据的产生和收集速度越来越快，基于内容的视频理解研究正迅猛发展，视频问答就是其中的一项典型技术。视频问答是指根据输入的视频（包含字幕）和针对视频的问句，解析出问句答案和问句发生的时间片段（起始时刻、终止时刻）。

视频问答模型需要依赖高质量的标注数据进行训练，而当前视频问答数据集存在样本偏少、质量不高的缺陷，因此需要进一步对视频问答数据进行标注进而构建高质量的视频问答数据集。但是传统的标注方式耗时长、效率低，亟需提供一种智能的辅助标注技术来提高视频问答数据集的标注质量和效率，从而提升模型性能。

发明内容

本发明的目的在于解决现有技术中视频问答数据集标注方式耗时长、效率低的缺陷，并提供一种视频问答数据集标注方法、装置、存储介质及电子设备，一起降低视频问答数据集的标注难度，提高标注质量和效率。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种视频问答数据集标注方法，其包括：

S1、获取待标注样本，所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述；

S2、针对所述标注样本，首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征，通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征，通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征；再将所述第一特征、第二特征和第三特征进行特征融合，得到融合特征；最后将所述融合特征通过解码器进行解码，预测得到所述问句描述对应的答案，同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻；

S3、将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端，并根据人工校对端返回的校对结果生成最终标注结果，并与所述待标注样本关联后加入视频问答数据集中。

作为上述第一方面的优选，所述视频特征提取网络采用C3D网络，所述第一词嵌入模型和第二词嵌入模型均采用Glove模型。

作为上述第一方面的优选，所述第一编码器、第二编码器和第三编码器均为双向长短期记忆网络。

作为上述第一方面的优选，所述第一特征、第二特征和第三特征进行特征融合时，首先将三个特征进行拼接，然后将拼接特征通过多层感知机进行融合，得到所述融合特征。

作为上述第一方面的优选，所述解码器包括长短期记忆网络和Softmax层，所述融合特征先输入长短期记忆网络中提取上下文特征，长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。

作为上述第一方面的优选，所述回归层中，先将所述融合特征压平形成一维向量，再将所述一维向量通过全连接操作进行回归，得到包含所述视频中答案所在的起始时间预测值和终止时间预测值。

作为上述第一方面的优选，所述人工校对端通过UI界面显示当前待标注样本以及初始标注信息，同时在UI界面上提供对初始标注信息进行修改的功能组件；若所述初始标注信息在人工校对端被修改，则将修改后的标注信息作为所述最终标注结果，否则将初始标注信息作为所述最终标注结果。

第二方面，本发明提供了一种视频问答数据集标注装置，其包括：

样本获取模块，用于获取待标注样本，所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述；

标注信息预测模块，用于针对所述标注样本，首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征，通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征，通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征；再将所述第一特征、第二特征和第三特征进行特征融合，得到融合特征；最后将所述融合特征通过解码器进行解码，预测得到所述问句描述对应的答案，同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻；

人工优化模块，用于将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端，并根据人工校对端返回的校对结果生成最终标注结果，并与所述待标注样本关联后加入视频问答数据集中。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述第一方面任一方案所述的视频问答数据集标注方法。

第四方面，本发明提供了一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如上述第一方面任一方案所述的视频问答数据集标注方法。

本发明相对于现有技术而言，具有以下有益效果：

为了解决传统的标注方式耗时长、效率低的问题，本发明采用一种视频问答数据集标注方法。该方法通过人工智能网络构建辅助标注技术来提高标注效率，先使用视频问答模型先针对样本输出预测的内容定位和问句答案，将将预测结果提供给人工进行校对，人工校对后再最终产生标注结果，从而一定程度缩小人工查找视频问句答案范围。在本发明中，初步的标注信息可由神经网络模型自动生成，人工仅需要对模型生成的自动进行校核调整即可，若存在错误可进行修正，由此大大提高了视频问答数据集的标注效率，也避免了直接采用模型预测时的标注质量问题。

附图说明

图1为本发明的视频问答数据集标注方法的步骤示意图；

图2为C3D网络结构示意图；

图3为BiLSTM网络结构示意图；

图4为本发明一实施例中的辅助视频问答数据集标注流程图；

图5为本发明的视频问答数据集标注装置的系统结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

如图1所示，在本发明的一个较佳实施例中，提供了一种视频问答数据集标注方法，其具体包括S1~S3步骤。下面分别对S1~S3步骤的具体实现形式进行详细展开描述。

S1、获取待标注样本，所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述。

需要说明的是，此处的待标注样本可以由用户逐个指定输入，也可以按未标注的视频问答样本数据集形式进行输入，然后逐个从数据集中进行样本抽取以便于生成标注信息。因此，待标注样本的具体获取形式不限，对此可不作限定。

S2、针对所述标注样本，首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征，通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征，通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征；再将所述第一特征、第二特征和第三特征进行特征融合，得到融合特征；最后将所述融合特征通过解码器进行解码，预测得到所述问句描述对应的答案，同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻。

需要说明的是，在上述步骤中，视频特征提取网络、词嵌入模型、编码器的具体形式不限，以能够从视频、视频字幕、问句描述中抽取有效特征为准。

作为本发明实施例的一种优选方式，上述视频特征提取网络采用C3D网络，C3D网络是一种可用于视频识别的3D卷积网络，其具体结构和原理属于现有技术。如图2所示，C3D的基本网络结构基于3D卷积，其包含有8个卷积层（卷积核:3*3*3，步长:1*1*1）分别记为Conv1a、Conv2a、Conv3a、Conv3b、Conv4a、Conv4b、Conv5a、Conv5b，以及5个池化层（卷积核:2*2*2，步长: 2*2*2，除了第一个卷积核:1*2*2，步长: 1*2*2），分别记为Pool1、Pool2、Pool3、Pool4、Pool5，2个全连接层（维度4096），分别记为fc6和fc7，和1个softmax分类层，是常用的视频特征提取网络结构。采用C3D网络对视频进行特征提取时，一般需要将视频进行分段，每一段为一个clip，然后送入视频特征提取网络进行视频特征的提取。

作为本发明实施例的一种优选方式，上述第一词嵌入模型和第二词嵌入模型均采用Glove模型。相比于Skip-Gram、CWOB模型等词嵌入模型而言，Glove模型融合了矩阵分解(Latent Semantic Analysis ,LSA)的全局统计信息和局部上下文窗口（Local contextwindow）的优势，可以加快模型的训练速度，又可以控制词的相对权重。

作为本发明实施例的一种优选方式，上述第一编码器、第二编码器和第三编码器均为双向长短期记忆网络（Bi-directional Long Short-Term Memory ，BiLSTM）。BiLSTM具体结构和原理属于现有技术。如图3所示，展示了BiLSTM的网络结构示意，其中X ₁ ,X ₂ ,…, X _T代表输入序列，

和

分别表示前向和后向的T个隐藏状态，O ₁ ,O ₂ ,…,O _T代表输出序列，BiLSTM能够更好的提取序列中的上下文关系。

作为本发明实施例的一种优选方式，上述第一特征、第二特征和第三特征进行特征融合时，首先将三个特征进行拼接，然后将拼接特征通过多层感知机（MLP）进行融合，得到相应的融合特征。

作为本发明实施例的一种优选方式，上述解码器包括长短期记忆网络和Softmax层，其中融合特征先输入长短期记忆网络中提取上下文特征，长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。

作为本发明实施例的一种优选方式，上述回归层中，先将上述融合特征压平形成一维向量，再将上述一维向量通过全连接操作进行回归，得到包含视频中答案所在的起始时间预测值和终止时间预测值。

解码器包括长短期记忆网络和Softmax层，所述融合特征先输入长短期记忆网络中提取上下文特征，长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。

由此，基于上述各优选方式，本发明中针对一个标注样本的标注信息生成流程如图4所示。该流程中，通过编码器-解码器（Encoder-Decoder）结构来实现视频问答数据集的标注生成，以便于为人工标注提供辅助。在该流程中，其标注信息的生成过程可表示如下：

首先，对于视频采用C3D网络对其中的视频片段进行特征提取，使用C3D网络提取到的视频特征可表示为V ^img∈R ^n_img×d_img，n_img代表视频的总clip数，^d_img代表C3D输出维度。同时，对于文本类型的视频字幕和问句描述使用Glove模型进行特征提取，使用Glove提取到的视频字幕和问句描述的特征分别表示为V ^sub∈R ^n_sub×d_emb和V ^q∈R ^n_q×d_emb，其中n_sub和n_q分别代表视频字幕和问句描述的长度，d_emb代表词嵌入维度。

然后，将提取到的三类特征分别输入三个

编码器进行进一步的特征提取，得到：H ^img =BiLSTM(V ^img )，H ^sub =BiLSTM(V ^sub )，H ^q =BiLSTM(V ^q )，得到的视频特征、字幕特征、问句特征分别表示为：H ^img ∈R ^n_img×2d，H ^sub ∈R ^n_sub×2d，H ^q ∈R ^n_q×2d，其中d代表BiLSTM的隐藏层维度。

最后，将三种特征进行拼接，得到拼接特征F ^fusion1 = H ^img ||H ^sub ||H ^q，F ^fusion1 ∈R ⁽ⁿ ^{_img+n_sub+n_q)×2d}，再通过MLP层进行融合得到F ^fusion2 =MLP(F ^fusion1 )，F ^fusion2∈R ^n_o×2d，n_o为MLP层的输出维度。将最终的融合特征F ^fusion2分别送入LSTM解码器和全连接层进行解码。该解码过程分为答案预测和内容定位两个任务：对于答案预测任务，令LSTM的输出层接softmax层预测答案中的单词直至停止符，从而实现答案预测；对于内容定位任务，先将F ^fusion2进行压平再进行回归预测，令F ^fusion3 =Flatten(F ^fusion2 )，F ^fusion3∈R ^2n_o*d，定义回归任务Y= F ^fusion3 *W+b，其中Y∈R ²，W为全连接层权重，b为全连接层偏置，预测问答所对应的视频内容的起始时刻和终止时刻, 完成起止时刻预测。

需要说明的是，人工校对端的具体形式不限，只要能够为校对人员提供审核标注信息以及在标注信息错误时对其进行修改的功能即可。

作为本发明实施例的一种优选方式，人工校对端通过UI界面显示当前待标注样本以及初始标注信息，同时在UI界面上提供对初始标注信息进行修改的功能组件。若所述初始标注信息在人工校对端被修改，则将修改后的标注信息作为所述最终标注结果，否则将初始标注信息作为所述最终标注结果。

在一个较佳实施例中，各功能组件可以用按钮的形式设置于UI界面上并进行标识。优选的，UI界面上除了显示当前待标注样本以及初始标注信息的区域之外，可以进一步设置加载待标注的视频问答数据集样本的按钮，同时设置确认初始标注信息或者修改初始标注信息的按钮。在人工审核时，当前待标注样本中的视频、视频字幕以及针对视频的问句描述均显示在UI界面上，同时初始标注信息中的答案以及对应的内容定位也均显示在UI界面上，审核人员仅需对初始标注信息进行正误判断，若存在偏差或者错误，则通过修改按钮对其进行调整后再通过确认按钮进行确认，若不存在偏差或者错误，则直接通过确认按钮进行确认。确认后，将人工审核端所做的修改作为校对结果进行返回，以便于生成最终标注结果。若初始标注信息在人工校对端被修改，则将修改后的标注信息作为最终标注结果，否则直接将初始标注信息作为标注信息。

另外，当一次性加载一系列的样本时，可以进一步在UI界面上设置切换下一个样本的按钮，当完成一个样本的校对后，可通过切换按钮切换至下一个样本，继续对其进行审核。

进一步的，人工校对端的具体载体形式不限，可以是本地服务器，也可以是云平台，也可以搭载于移动终端中，对此不作限制，只要能够满足性能上的实现要求即可。上述S1~S3步骤可在相应的运行平台上通过编写软件程序的方式实现，而上述执行S1~S3步骤的运行平台与人工校对端所在的平台可以是相同的，也可以是不同的。

基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的视频问答数据集标注方法对应的视频问答数据集标注装置。如图5所示，在该视频问答数据集标注装置中包括三个基本的模块，分别为：

样本获取模块，用于获取待标注样本，所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述。

标注信息预测模块，用于针对所述标注样本，首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征，通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征，通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征；再将所述第一特征、第二特征和第三特征进行特征融合，得到融合特征；最后将所述融合特征通过解码器进行解码，预测得到所述问句描述对应的答案，同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻。

由于本发明实施例中的视频问答数据集标注装置解决问题的原理与本发明上述实施例的视频问答数据集标注方法相似，因此该实施例中装置的各模块具体实现形式未尽之处亦可可以参见上述方法的具体实现形式，重复之处不再赘述。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的视频问答数据集标注方法对应的一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如前所述的视频问答数据集标注方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

由此，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的视频问答数据集标注方法对应的一种计算机可读存储介质，该所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如前所述的视频问答数据集标注方法。

具体而言，在上述两个实施例的计算机可读存储介质中，存储的计算机程序被处理器执行，可执行下列S1~S3的步骤：

可以理解的是，上述存储介质、存储器可以采用随机存取存储器(Random AccessMemory，RAM)，也可以采用非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的装置和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种视频问答数据集标注方法，其特征在于，包括：

S2、针对所述待标注样本，首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征，通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征，通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征；再将所述第一特征、第二特征和第三特征进行特征融合，得到融合特征；最后将所述融合特征通过解码器进行解码，预测得到所述问句描述对应的答案，同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻；

2.如权利要求1所述的视频问答数据集标注方法，其特征在于，所述视频特征提取网络采用C3D网络，所述第一词嵌入模型和第二词嵌入模型均采用Glove模型。

3.如权利要求1所述的视频问答数据集标注方法，其特征在于，所述第一编码器、第二编码器和第三编码器均为双向长短期记忆网络。

4.如权利要求1所述的视频问答数据集标注方法，其特征在于，所述第一特征、第二特征和第三特征进行特征融合时，首先将三个特征进行拼接，然后将拼接特征通过多层感知机进行融合，得到所述融合特征。

5.如权利要求1所述的视频问答数据集标注方法，其特征在于，所述解码器包括长短期记忆网络和Softmax层，所述融合特征先输入长短期记忆网络中提取上下文特征，长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。

6.如权利要求1所述的视频问答数据集标注方法，其特征在于，所述回归层中，先将所述融合特征压平形成一维向量，再将所述一维向量通过全连接操作进行回归，得到包含所述视频中答案所在的起始时间预测值和终止时间预测值。

7.如权利要求1所述的视频问答数据集标注方法，其特征在于，所述人工校对端通过UI界面显示当前待标注样本以及初始标注信息，同时在UI界面上提供对初始标注信息进行修改的功能组件；若所述初始标注信息在人工校对端被修改，则将修改后的标注信息作为所述最终标注结果，否则将初始标注信息作为所述最终标注结果。

8.一种视频问答数据集标注装置，其特征在于，包括：

标注信息预测模块，用于针对所述待标注样本，首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征，通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征，通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征；再将所述第一特征、第二特征和第三特征进行特征融合，得到融合特征；最后将所述融合特征通过解码器进行解码，预测得到所述问句描述对应的答案，同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻；

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1~7任一所述的视频问答数据集标注方法。

10.一种计算机电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1~7任一所述的视频问答数据集标注方法。