CN114707022B - 视频问答数据集标注方法、装置、存储介质及电子设备 - Google Patents

视频问答数据集标注方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114707022B
CN114707022B CN202210605506.XA CN202210605506A CN114707022B CN 114707022 B CN114707022 B CN 114707022B CN 202210605506 A CN202210605506 A CN 202210605506A CN 114707022 B CN114707022 B CN 114707022B
Authority
CN
China
Prior art keywords
video
question
answer
labeling
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210605506.XA
Other languages
English (en)
Other versions
CN114707022A (zh
Inventor
肖俊
王书舒
吴超
王朝
张志猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210605506.XA priority Critical patent/CN114707022B/zh
Publication of CN114707022A publication Critical patent/CN114707022A/zh
Application granted granted Critical
Publication of CN114707022B publication Critical patent/CN114707022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种视频问答数据集标注方法、装置、存储介质及电子设备,属于计算机视觉领域。本发明通过人工智能网络构建辅助标注技术来提高标注效率,先使用视频问答模型先针对样本输出预测的内容定位和问句答案,将将预测结果提供给人工进行校对,人工校对后再最终产生标注结果,从而一定程度缩小人工查找视频问句答案范围。在本发明中,初步的标注信息可由神经网络模型自动生成,人工仅需要对模型生成的自动进行校核调整即可,若存在错误可进行修正,由此大大提高了视频问答数据集的标注效率,也避免了直接采用模型预测时的标注质量问题。

Description

视频问答数据集标注方法、装置、存储介质及电子设备
技术领域
本发明属于计算机视觉领域,具体涉及一种视频问答数据集标注方法、装置、存储介质及电子设备。
背景技术
随着多媒体数据的产生和收集速度越来越快,基于内容的视频理解研究正迅猛发展,视频问答就是其中的一项典型技术。视频问答是指根据输入的视频(包含字幕)和针对视频的问句,解析出问句答案和问句发生的时间片段(起始时刻、终止时刻)。
视频问答模型需要依赖高质量的标注数据进行训练,而当前视频问答数据集存在样本偏少、质量不高的缺陷,因此需要进一步对视频问答数据进行标注进而构建高质量的视频问答数据集。但是传统的标注方式耗时长、效率低,亟需提供一种智能的辅助标注技术来提高视频问答数据集的标注质量和效率,从而提升模型性能。
发明内容
本发明的目的在于解决现有技术中视频问答数据集标注方式耗时长、效率低的缺陷,并提供一种视频问答数据集标注方法、装置、存储介质及电子设备,一起降低视频问答数据集的标注难度,提高标注质量和效率。
本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种视频问答数据集标注方法,其包括:
S1、获取待标注样本,所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述;
S2、针对所述标注样本,首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征,通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征,通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征;再将所述第一特征、第二特征和第三特征进行特征融合,得到融合特征;最后将所述融合特征通过解码器进行解码,预测得到所述问句描述对应的答案,同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻;
S3、将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入视频问答数据集中。
作为上述第一方面的优选,所述视频特征提取网络采用C3D网络,所述第一词嵌入模型和第二词嵌入模型均采用Glove模型。
作为上述第一方面的优选,所述第一编码器、第二编码器和第三编码器均为双向长短期记忆网络。
作为上述第一方面的优选,所述第一特征、第二特征和第三特征进行特征融合时,首先将三个特征进行拼接,然后将拼接特征通过多层感知机进行融合,得到所述融合特征。
作为上述第一方面的优选,所述解码器包括长短期记忆网络和Softmax层,所述融合特征先输入长短期记忆网络中提取上下文特征,长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。
作为上述第一方面的优选,所述回归层中,先将所述融合特征压平形成一维向量,再将所述一维向量通过全连接操作进行回归,得到包含所述视频中答案所在的起始时间预测值和终止时间预测值。
作为上述第一方面的优选,所述人工校对端通过UI界面显示当前待标注样本以及初始标注信息,同时在UI界面上提供对初始标注信息进行修改的功能组件;若所述初始标注信息在人工校对端被修改,则将修改后的标注信息作为所述最终标注结果,否则将初始标注信息作为所述最终标注结果。
第二方面,本发明提供了一种视频问答数据集标注装置,其包括:
样本获取模块,用于获取待标注样本,所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述;
标注信息预测模块,用于针对所述标注样本,首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征,通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征,通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征;再将所述第一特征、第二特征和第三特征进行特征融合,得到融合特征;最后将所述融合特征通过解码器进行解码,预测得到所述问句描述对应的答案,同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻;
人工优化模块,用于将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入视频问答数据集中。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述第一方面任一方案所述的视频问答数据集标注方法。
第四方面,本发明提供了一种计算机电子设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如上述第一方面任一方案所述的视频问答数据集标注方法。
本发明相对于现有技术而言,具有以下有益效果:
为了解决传统的标注方式耗时长、效率低的问题,本发明采用一种视频问答数据集标注方法。该方法通过人工智能网络构建辅助标注技术来提高标注效率,先使用视频问答模型先针对样本输出预测的内容定位和问句答案,将将预测结果提供给人工进行校对,人工校对后再最终产生标注结果,从而一定程度缩小人工查找视频问句答案范围。在本发明中,初步的标注信息可由神经网络模型自动生成,人工仅需要对模型生成的自动进行校核调整即可,若存在错误可进行修正,由此大大提高了视频问答数据集的标注效率,也避免了直接采用模型预测时的标注质量问题。
附图说明
图1为本发明的视频问答数据集标注方法的步骤示意图;
图2为C3D网络结构示意图;
图3为BiLSTM网络结构示意图;
图4为本发明一实施例中的辅助视频问答数据集标注流程图;
图5为本发明的视频问答数据集标注装置的系统结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
如图1所示,在本发明的一个较佳实施例中,提供了一种视频问答数据集标注方法,其具体包括S1~S3步骤。下面分别对S1~S3步骤的具体实现形式进行详细展开描述。
S1、获取待标注样本,所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述。
需要说明的是,此处的待标注样本可以由用户逐个指定输入,也可以按未标注的视频问答样本数据集形式进行输入,然后逐个从数据集中进行样本抽取以便于生成标注信息。因此,待标注样本的具体获取形式不限,对此可不作限定。
S2、针对所述标注样本,首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征,通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征,通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征;再将所述第一特征、第二特征和第三特征进行特征融合,得到融合特征;最后将所述融合特征通过解码器进行解码,预测得到所述问句描述对应的答案,同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻。
需要说明的是,在上述步骤中,视频特征提取网络、词嵌入模型、编码器的具体形式不限,以能够从视频、视频字幕、问句描述中抽取有效特征为准。
作为本发明实施例的一种优选方式,上述视频特征提取网络采用C3D网络,C3D网络是一种可用于视频识别的3D卷积网络,其具体结构和原理属于现有技术。如图2所示,C3D的基本网络结构基于3D卷积,其包含有8个卷积层(卷积核:3*3*3,步长:1*1*1) 分别记为Conv1a、Conv2a、Conv3a、Conv3b、Conv4a、Conv4b、Conv5a、Conv5b,以及5个池化层(卷积核:2*2*2,步长: 2*2*2,除了第一个卷积核:1*2*2,步长: 1*2*2),分别记为Pool1、Pool2、Pool3、Pool4、Pool5,2个全连接层(维度4096),分别记为fc6和fc7,和1个softmax分类层,是常用的视频特征提取网络结构。采用C3D网络对视频进行特征提取时,一般需要将视频进行分段,每一段为一个clip,然后送入视频特征提取网络进行视频特征的提取。
作为本发明实施例的一种优选方式,上述第一词嵌入模型和第二词嵌入模型均采用Glove模型。相比于Skip-Gram、CWOB模型等词嵌入模型而言,Glove模型融合了矩阵分解(Latent Semantic Analysis ,LSA)的全局统计信息和局部上下文窗口(Local contextwindow)的优势,可以加快模型的训练速度,又可以控制词的相对权重。
作为本发明实施例的一种优选方式,上述第一编码器、第二编码器和第三编码器均为双向长短期记忆网络(Bi-directional Long Short-Term Memory ,BiLSTM)。BiLSTM具体结构和原理属于现有技术。如图3所示,展示了BiLSTM的网络结构示意,其中X 1 ,X 2 ,…, X T 代表输入序列,
Figure DEST_PATH_IMAGE001
Figure 860851DEST_PATH_IMAGE002
分别表示前向和后向的T个隐藏状态,O 1 ,O 2 ,…,O T 代表输出序列,BiLSTM能够更好的提取序列中的上下文关系。
作为本发明实施例的一种优选方式,上述第一特征、第二特征和第三特征进行特征融合时,首先将三个特征进行拼接,然后将拼接特征通过多层感知机(MLP)进行融合,得到相应的融合特征。
作为本发明实施例的一种优选方式,上述解码器包括长短期记忆网络和Softmax层,其中融合特征先输入长短期记忆网络中提取上下文特征,长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。
作为本发明实施例的一种优选方式,上述回归层中,先将上述融合特征压平形成一维向量,再将上述一维向量通过全连接操作进行回归,得到包含视频中答案所在的起始时间预测值和终止时间预测值。
解码器包括长短期记忆网络和Softmax层,所述融合特征先输入长短期记忆网络中提取上下文特征,长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。
由此,基于上述各优选方式,本发明中针对一个标注样本的标注信息生成流程如图4所示。该流程中,通过编码器-解码器(Encoder-Decoder)结构来实现视频问答数据集的标注生成,以便于为人工标注提供辅助。在该流程中,其标注信息的生成过程可表示如下:
首先,对于视频采用C3D网络对其中的视频片段进行特征提取,使用C3D网络提取到的视频特征可表示为V img R n_img×d_img n_img代表视频的总clip数, d_img 代表C3D输出维度。同时,对于文本类型的视频字幕和问句描述使用Glove模型进行特征提取,使用Glove提取到的视频字幕和问句描述的特征分别表示为V sub R n_sub×d_emb V q R n_q×d_emb ,其中n_subn_q分别代表视频字幕和问句描述的长度,d_emb代表词嵌入维度。
然后,将提取到的三类特征分别输入三个
Figure DEST_PATH_IMAGE003
编码器进行进一步的特征提取,得到:H img =BiLSTM(V img )H sub =BiLSTM(V sub )H q =BiLSTM(V q ),得到的视频特征、字幕特征、问句特征分别表示为:H img ∈R n_img×2d H sub ∈R n_sub×2d H q ∈R n_q×2d ,其中d代表BiLSTM的隐藏层维度。
最后,将三种特征进行拼接,得到拼接特征F fusion1 = H img ||H sub ||H q F fusion1 ∈R (n _img+n_sub+n_q)×2d ,再通过MLP层进行融合得到F fusion2 =MLP(F fusion1 )F fusion2 R n_o×2d n_o为MLP层的输出维度。将最终的融合特征F fusion2 分别送入LSTM解码器和全连接层进行解码。该解码过程分为答案预测和内容定位两个任务:对于答案预测任务,令LSTM的输出层接softmax层预测答案中的单词直至停止符,从而实现答案预测;对于内容定位任务,先将F fusion2 进行压平再进行回归预测,令F fusion3 =Flatten(F fusion2 )F fusion3 R 2n_o*d ,定义回归任务Y= F fusion3 *W+b,其中YR 2 W为全连接层权重,b为全连接层偏置,预测问答所对应的视频内容的起始时刻和终止时刻, 完成起止时刻预测。
S3、将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入视频问答数据集中。
需要说明的是,人工校对端的具体形式不限,只要能够为校对人员提供审核标注信息以及在标注信息错误时对其进行修改的功能即可。
作为本发明实施例的一种优选方式,人工校对端通过UI界面显示当前待标注样本以及初始标注信息,同时在UI界面上提供对初始标注信息进行修改的功能组件。若所述初始标注信息在人工校对端被修改,则将修改后的标注信息作为所述最终标注结果,否则将初始标注信息作为所述最终标注结果。
在一个较佳实施例中,各功能组件可以用按钮的形式设置于UI界面上并进行标识。优选的,UI界面上除了显示当前待标注样本以及初始标注信息的区域之外,可以进一步设置加载待标注的视频问答数据集样本的按钮,同时设置确认初始标注信息或者修改初始标注信息的按钮。在人工审核时,当前待标注样本中的视频、视频字幕以及针对视频的问句描述均显示在UI界面上,同时初始标注信息中的答案以及对应的内容定位也均显示在UI界面上,审核人员仅需对初始标注信息进行正误判断,若存在偏差或者错误,则通过修改按钮对其进行调整后再通过确认按钮进行确认,若不存在偏差或者错误,则直接通过确认按钮进行确认。确认后,将人工审核端所做的修改作为校对结果进行返回,以便于生成最终标注结果。若初始标注信息在人工校对端被修改,则将修改后的标注信息作为最终标注结果,否则直接将初始标注信息作为标注信息。
另外,当一次性加载一系列的样本时,可以进一步在UI界面上设置切换下一个样本的按钮,当完成一个样本的校对后,可通过切换按钮切换至下一个样本,继续对其进行审核。
进一步的,人工校对端的具体载体形式不限,可以是本地服务器,也可以是云平台,也可以搭载于移动终端中,对此不作限制,只要能够满足性能上的实现要求即可。上述S1~S3步骤可在相应的运行平台上通过编写软件程序的方式实现,而上述执行S1~S3步骤的运行平台与人工校对端所在的平台可以是相同的,也可以是不同的。
基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的视频问答数据集标注方法对应的视频问答数据集标注装置。如图5所示,在该视频问答数据集标注装置中包括三个基本的模块,分别为:
样本获取模块,用于获取待标注样本,所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述。
标注信息预测模块,用于针对所述标注样本,首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征,通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征,通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征;再将所述第一特征、第二特征和第三特征进行特征融合,得到融合特征;最后将所述融合特征通过解码器进行解码,预测得到所述问句描述对应的答案,同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻。
人工优化模块,用于将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入视频问答数据集中。
由于本发明实施例中的视频问答数据集标注装置解决问题的原理与本发明上述实施例的视频问答数据集标注方法相似,因此该实施例中装置的各模块具体实现形式未尽之处亦可可以参见上述方法的具体实现形式,重复之处不再赘述。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的视频问答数据集标注方法对应的一种计算机电子设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如前所述的视频问答数据集标注方法。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
由此,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的视频问答数据集标注方法对应的一种计算机可读存储介质,该所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如前所述的视频问答数据集标注方法。
具体而言,在上述两个实施例的计算机可读存储介质中,存储的计算机程序被处理器执行,可执行下列S1~S3的步骤:
S1、获取待标注样本,所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述;
S2、针对所述标注样本,首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征,通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征,通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征;再将所述第一特征、第二特征和第三特征进行特征融合,得到融合特征;最后将所述融合特征通过解码器进行解码,预测得到所述问句描述对应的答案,同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻;
S3、将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入视频问答数据集中。
可以理解的是,上述存储介质、存储器可以采用随机存取存储器(Random AccessMemory,RAM),也可以采用非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
另外需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的各实施例中,所述的装置和方法中对于步骤或者模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或步骤可以结合或者可以集成到一起,一个模块或者步骤亦可进行拆分。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种视频问答数据集标注方法,其特征在于,包括:
S1、获取待标注样本,所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述;
S2、针对所述待标注样本,首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征,通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征,通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征;再将所述第一特征、第二特征和第三特征进行特征融合,得到融合特征;最后将所述融合特征通过解码器进行解码,预测得到所述问句描述对应的答案,同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻;
S3、将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入视频问答数据集中。
2.如权利要求1所述的视频问答数据集标注方法,其特征在于,所述视频特征提取网络采用C3D网络,所述第一词嵌入模型和第二词嵌入模型均采用Glove模型。
3.如权利要求1所述的视频问答数据集标注方法,其特征在于,所述第一编码器、第二编码器和第三编码器均为双向长短期记忆网络。
4.如权利要求1所述的视频问答数据集标注方法,其特征在于,所述第一特征、第二特征和第三特征进行特征融合时,首先将三个特征进行拼接,然后将拼接特征通过多层感知机进行融合,得到所述融合特征。
5.如权利要求1所述的视频问答数据集标注方法,其特征在于,所述解码器包括长短期记忆网络和Softmax层,所述融合特征先输入长短期记忆网络中提取上下文特征,长短期记忆网络的输出通过Softmax层对构成答案的单词进行预测。
6.如权利要求1所述的视频问答数据集标注方法,其特征在于,所述回归层中,先将所述融合特征压平形成一维向量,再将所述一维向量通过全连接操作进行回归,得到包含所述视频中答案所在的起始时间预测值和终止时间预测值。
7.如权利要求1所述的视频问答数据集标注方法,其特征在于,所述人工校对端通过UI界面显示当前待标注样本以及初始标注信息,同时在UI界面上提供对初始标注信息进行修改的功能组件;若所述初始标注信息在人工校对端被修改,则将修改后的标注信息作为所述最终标注结果,否则将初始标注信息作为所述最终标注结果。
8.一种视频问答数据集标注装置,其特征在于,包括:
样本获取模块,用于获取待标注样本,所述待标注样本包括对应的视频和视频字幕以及针对视频的问句描述;
标注信息预测模块,用于针对所述待标注样本,首先通过视频特征提取网络从视频中抽取视频特征并通过第一编码器生成第一特征,通过第一词嵌入模型从视频字幕中提取字幕特征并通过第二编码器生成第二特征,通过第二词嵌入模型从问句描述中提取问句特征并通过第三编码器生成第三特征;再将所述第一特征、第二特征和第三特征进行特征融合,得到融合特征;最后将所述融合特征通过解码器进行解码,预测得到所述问句描述对应的答案,同时将所述融合特征通过回归层预测得到所述视频中答案所在的起止时刻;
人工优化模块,用于将所述答案以及所述答案在所述视频中的起止时刻作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入视频问答数据集中。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~7任一所述的视频问答数据集标注方法。
10.一种计算机电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~7任一所述的视频问答数据集标注方法。
CN202210605506.XA 2022-05-31 2022-05-31 视频问答数据集标注方法、装置、存储介质及电子设备 Active CN114707022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210605506.XA CN114707022B (zh) 2022-05-31 2022-05-31 视频问答数据集标注方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210605506.XA CN114707022B (zh) 2022-05-31 2022-05-31 视频问答数据集标注方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114707022A CN114707022A (zh) 2022-07-05
CN114707022B true CN114707022B (zh) 2022-09-06

Family

ID=82177250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210605506.XA Active CN114707022B (zh) 2022-05-31 2022-05-31 视频问答数据集标注方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114707022B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
WO2022033252A1 (zh) * 2020-08-14 2022-02-17 支付宝(杭州)信息技术有限公司 视频匹配方法、基于区块链的侵权存证方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3896581A1 (en) * 2020-04-14 2021-10-20 Naver Corporation Learning to rank with cross-modal graph convolutions
CN111652202B (zh) * 2020-08-10 2020-12-01 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
CN112036276B (zh) * 2020-08-19 2023-04-07 北京航空航天大学 一种人工智能视频问答方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022033252A1 (zh) * 2020-08-14 2022-02-17 支付宝(杭州)信息技术有限公司 视频匹配方法、基于区块链的侵权存证方法和装置
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Rethinking Multi-Modal Alignment in VideoQuestion";Shaoning Xiao 等;《arxiv》;20220425;第1-9页 *
基于C3D和视觉元素的视频描述;肖焕侯等;《华南理工大学学报(自然科学版)》;20180815(第08期);94-101 *
孙广路 等." 针对长视频问答的深度记忆融合模型".《哈尔滨理工大学学报》.2021,第1-8+172页. *

Also Published As

Publication number Publication date
CN114707022A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
WO2021036699A1 (zh) 视频帧的信息标注方法、装置、设备及存储介质
US20210133438A1 (en) Enhanced supervised form understanding
CN112948708B (zh) 一种短视频推荐方法
KR20190116199A (ko) 영상 데이터 처리 방법, 장치 및 판독 가능 저장 매체
CN113411517B (zh) 视频模板的生成方法、装置、电子设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN112052332A (zh) 检索方法、装置、电子设备及可读存储介质
CN114882874A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN112434746B (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN113569068B (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN114707022B (zh) 视频问答数据集标注方法、装置、存储介质及电子设备
CN117131222A (zh) 基于开放世界大模型的半自动化标注方法和装置
CN112784156A (zh) 基于意图识别的搜索反馈方法、系统、设备及存储介质
US20230316082A1 (en) Deterministic training of machine learning models
CN117058463A (zh) 一种基于yolo算法的图像自动标注方法及装置
CN116978028A (zh) 视频处理方法、装置、电子设备及存储介质
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN114332729B (zh) 一种视频场景检测标注方法及系统
CN115757871A (zh) 视频标注方法、装置、设备、介质及产品
CN115278300A (zh) 视频处理方法、装置、电子设备、存储介质和程序产品
Christel Automated metadata in multimedia information systems
CN114979705A (zh) 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法
Xue et al. A multi-modal fusion framework for continuous sign language recognition based on multi-layer self-attention mechanism
CN112784106A (zh) 内容数据的处理方法、报告数据的处理方法、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant