CN110377792B - 基于跨模型交互网络实现问题-视频片段抽取任务的方法 - Google Patents

基于跨模型交互网络实现问题-视频片段抽取任务的方法 Download PDF

Info

Publication number
CN110377792B
CN110377792B CN201910516683.9A CN201910516683A CN110377792B CN 110377792 B CN110377792 B CN 110377792B CN 201910516683 A CN201910516683 A CN 201910516683A CN 110377792 B CN110377792 B CN 110377792B
Authority
CN
China
Prior art keywords
video
semantic
frame
representing
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910516683.9A
Other languages
English (en)
Other versions
CN110377792A (zh
Inventor
赵洲
孟令涛
张竹
陈漠沙
仇伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910516683.9A priority Critical patent/CN110377792B/zh
Publication of CN110377792A publication Critical patent/CN110377792A/zh
Application granted granted Critical
Publication of CN110377792B publication Critical patent/CN110377792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。主要包括如下步骤:1)针对问题语句与视频帧,利用语义图像卷积网络、多头自注意力模块、与多步骤跨模型交互模块获取视频帧的跨模型语义表达。2)对获得的视频帧的跨模型语义表达,计算损失函数并训练模型,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。相比于一般的视频片段抽取解决方案,本发明对多种有效信息进行综合利用。本发明在以问题为基础的视频片段抽取任务中所取得的效果相比于传统的方法更好。

Description

基于跨模型交互网络实现问题-视频片段抽取任务的方法
技术领域
本发明涉及以问题为基础的视频片段抽取任务,尤其涉及一种基于跨模型交互网络实现问题-视频片段抽取任务的方法。
背景技术
当下,视频片段抽取任务成为一项重要的服务,但是目前已有该项服务的效果并不是很好。
现有的技术主要是仅仅关注视频片段抽取任务中的一个方面,例如只关注问题描述学习、视频内容建模、跨模型表达混合,这样便忽略了对多种有效信息的综合利用,来提高视频片段抽取的精确性。为了克服该缺陷,本方法将使用跨模型交互网络解决以问题为基础的视频片段抽取任务。
本发明将利用一个语义图像卷积网络抓取提问中的语法结构,获得提问的语义表达,利用多头自注意力模块获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达,利用多步跨模型交互来获取视频与提问内容之间的联系。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中只关注视频片段抽取任务中的一个方面,忽略了对于多种有效信息的综合利用的问题,本发明提供一种基于跨模型交互网络实现问题-视频片段抽取任务的方法。本发明所采用的具体技术方案是:
基于跨模型交互网络实现问题-视频片段抽取任务的方法,包括如下步骤:
1、针对问题语句,利用语义图像卷积网络获取问题语句的语义表达;
2、针对视频,获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达;
3、利用步骤1获取的问题语句的语义表达与步骤2获取的自注意力视频语义表达,获取视频帧的跨模型语义表达;
4、利用步骤3获得的视频帧的跨模型语义表达,计算得到跨模型交互网络的损失函数;
5、利用步骤4获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。
进一步的,所述的步骤1具体为:
针对问题语句,利用提前训练好的Glove word2vec模型获取问题语句的单词表达q=(q1,q2,...qi,...qm),其中qi代表问题语句中第i个单词的Glove特征表达向量;将问题语句的单词表达q=(q1,q2,...qi,...qm)输入到双向GRU网络中,获取问题语句的上下文单词表达
Figure GDA0003146046260000021
其中
Figure GDA0003146046260000022
代表问题语句中第i个单词的上下文单词表达;
利用自然语言处理工具方法,获取问题语句中的语义依赖图θ=(ν,ε),其中ν代表语义依赖图中所有点的集合,每个语义依赖图中的点为问题语句的一个单词;ε代表语义依赖图中所有边的集合,每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系,及单词自身到自身的自循环依赖关系;
按照如下公式计算获得l层语义图像卷积网络的输出
Figure GDA0003146046260000023
作为问题语句的语义表达,
Figure GDA0003146046260000024
Figure GDA0003146046260000025
其中,
Figure GDA0003146046260000026
表示第l层语义图像卷积网络输出中第i个单词对应的输出,
Figure GDA0003146046260000027
代表可训练的变换矩阵,dir(i,j)代表(i,j)边的指向方向,
Figure GDA0003146046260000028
代表可训练的偏置向量,lab(i,j)代表(i,j)边的标签,N(i)代表所有与点i有依赖关系的点的集合,ReLU(·)代表ReLU运算,gk代表第k层语义图像卷积网络的中间输出,k=(1,2,...,l)。
进一步的,所述的步骤2具体为:
针对视频,利用提前训练好的3维卷积网络,获取视频帧特征V=(v1,v2,...vi,...,vn),其中vi代表视频中第i帧的特征;利用如下公式计算得到自注意力视频表达
Figure GDA0003146046260000029
Vs=MultiHead(V,V,V)+V
MultiHead(V,V,V)=WOConcat(head1,head2,...,headH)
headi=Attention(Wi 1V,Wi 2V,Wi 3V)
Figure GDA00031460462600000210
其中,WO、Wi 1、Wi 2、Wi 3为可训练的线性映射矩阵,Softmax(·)代表softmax运算,dk代表矩阵Wi 1、Wi 2、Wi 3的行数;
将自注意力视频表达
Figure GDA0003146046260000031
输入到双向GRU网络中,获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达
Figure GDA0003146046260000032
进一步的,所述的步骤3具体为:
利用步骤1获取的问题语句的语义表达
Figure GDA0003146046260000033
与步骤2获取的自注意力视频语义表达
Figure GDA0003146046260000034
按照如下公式计算得到视频问题注意力矩阵M,
Figure GDA0003146046260000035
其中Mij代表矩阵M中的第i行第j列元素,W1 m
Figure GDA00031460462600000322
为可训练的参数矩阵,bm为可训练的偏置向量,wT为行向量,tanh(·)代表双曲正切函数计算;
利用得到的视频问题注意力矩阵M与问题语句的语义表达
Figure GDA0003146046260000036
按照如下公式计算得到视频帧的聚合问题表达
Figure GDA0003146046260000037
Figure GDA0003146046260000038
Figure GDA0003146046260000039
其中,Mij代表矩阵M中的第i行第j列元素,exp(·)代表以自然常数e为底的指数函数计算,
Figure GDA00031460462600000310
代表视频第i帧的聚合问题表达;
利用得到的视频帧的聚合问题表达
Figure GDA00031460462600000311
与自注意力视频语义表达
Figure GDA00031460462600000312
按照如下公式计算得到过滤后的视频帧的聚合问题表达
Figure GDA00031460462600000313
与过滤后的自注意力视频语义表达
Figure GDA00031460462600000314
Figure GDA00031460462600000315
Figure GDA00031460462600000316
Figure GDA00031460462600000317
Figure GDA00031460462600000318
其中,Wv、Ws代表可训练的参数矩阵,bv、bs代表可训练的偏置向量,σ(·)代表sigmoid函数计算,
Figure GDA00031460462600000319
代表元素级别的相乘计算,
Figure GDA00031460462600000320
代表过滤后的视频第i帧的聚合问题表达,
Figure GDA00031460462600000321
代表过滤后的自注意力视频第i帧的语义表达;
利用得到的过滤后的视频帧的聚合问题表达
Figure GDA0003146046260000041
与过滤后的自注意力视频语义表达
Figure GDA0003146046260000042
按照如下公式计算得到视频帧的跨模型语义表达f=(f1,f2,...fi,...fn),
Figure GDA0003146046260000043
其中,pf代表可训练的参数向量,Wvf、Wsf代表可训练的参数矩阵,bf代表可训练的偏置向量,σ(·)代表sigmoid函数计算,fi代表视频第i帧的跨模型语义表达。
进一步的,所述的步骤4具体为:
将步骤3获得的视频帧的跨模型语义表达f=(f1,f2,...fi,...fn)输入到双向GRU中,获得视频帧的最终语义表达
Figure GDA0003146046260000044
对视频每个帧,利用可变长度窗口预定义一组预定义候选片段集合
Figure GDA0003146046260000045
其中Ci代表视频第i帧的预定义候选片段集合,
Figure GDA0003146046260000046
代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界,wj代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度,k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目;利用得到的视频帧的最终语义表达
Figure GDA0003146046260000047
按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数,
Figure GDA00031460462600000413
其中,csi为k维向量,csi代表视频第i帧的k个预定义候选片段对应的置信度分数,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,Wc代表可训练的参数矩阵,bc代表可训练的偏置向量,σ(·)代表sigmoid函数计算;
利用得到的视频帧的最终语义表达
Figure GDA0003146046260000048
按照如下公式计算得到视频每个帧所有预定义候选片段的预测偏离值,
Figure GDA0003146046260000049
其中,
Figure GDA00031460462600000410
为2k维向量,
Figure GDA00031460462600000411
代表视频第i帧的k个预定义候选片段对应的预测偏离值,
Figure GDA00031460462600000412
代表视频第i帧第j个预定义候选片段对应的起点预测偏离值与终点预测偏离值,Wo代表可训练的参数矩阵,bo代表可训练的偏置向量;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段,计算与目标片段(s,e)的IoU值,对IoU值小于边界值λ的预定义候选片段,将其IoU值设为0;利用得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,按照如下公式计算校准损失函数Lalign
Figure GDA0003146046260000051
Lij=(1-IoUij)·log(1-csij)+IoUij·log(csij)
其中,IoUij代表视频第i帧第j个预定义候选片段与相应目标片段的IoU值,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,log(·)代表以自然常数e为底的对数函数计算;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,取出其中IoU值大于边界值γ的预定义候选片段,构成集合Ch;利用集合Ch中所有预定义候选片段的开始边界
Figure GDA0003146046260000052
与结束边界
Figure GDA0003146046260000053
及相应目标片段的开始边界s与结束边界e,结合得到的视频每个帧所有预定义候选片段的预测偏离值,按照如下公式计算得到回归损失函数Lreg
Figure GDA0003146046260000054
Figure GDA0003146046260000055
Figure GDA0003146046260000056
其中,N代表集合Ch中所有预定义候选片段的数目,R(·)代表平滑L1计算,δs代表集合Ch中第i个预定义候选片段的起点实际偏离值,δe代表集合Ch中第i个预定义候选片段的终点实际偏离值,
Figure GDA0003146046260000057
代表集合Ch中第i个片段的起点预测偏离值,
Figure GDA0003146046260000058
代表集合Ch中第i个片段的终点预测偏离值,i=(1,2,...,N);
利用得到的校准损失函数Lalign与回归损失函数Lreg,按照如下公式计算得到跨模型交互网络的损失函数L,
L=Lalign+α·Lreg
其中,α代表平衡校准损失函数Lalign与回归损失函数Lreg的超参数。
进一步的,所述的步骤5具体为:
利用步骤4获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,获得训练后的跨模型交互网络;利用训练后的跨模型交互网络,输入视频与问题,获得视频中所有预定义候选片段的置信度分数,将置信度分数最高的视频片段抽取出来,作为对视频进行以问题为基础的片段抽取的结果。
本发明的有益效果为:
(1)本发明对以问题为基础的视频片段抽取任务,综合考虑到了多种相关因素,包括自然语言形式问题语句的语义结构、视频内容的长范围语义依赖、多模型有效结合;
(2)本发明利用语义图像卷积网络提取自然语言形式问题语句的语义结构,从而得到了自然语言形式问题语句更有效的语义表达,同时本发明利用多头自注意力模块获取了包含视频内容中的长范围语义依赖信息的自注意力视频语义表达。在获取问题语句的语义表达与自注意力视频语义表达的基础上,本发明设计了一种多步骤跨模型交互模块获取视频帧的跨模型语义表达,之后利用获取的视频帧的跨模型语义表达,计算模型损失函数,并利用损失函数进行模型训练。利用训练后的模型对视频进行以问题为基础的片段抽取;
(3)本发明可以更有效地提取出视频中与问题语句相关的片段;在ActivityCaption数据集与TACoS数据集上进行实验,实验发现,本发明可以取得较好的效果。
附图说明
图1是本发明使用的用来解决以问题为基础的视频片段抽取任务的跨模型交互网络模型示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,图1中a)代表利用语义图像卷积网络获取问题语句的语义表达,图1中b)代表利用多头自注意力模块获取自注意力视频语义表达;图中c)代表利用多步骤跨模型交互模块获取视频帧的跨模型语义表达;图1中d)代表利用片段提取模块获取视频片段。
本发明一种基于跨模型交互网络实现问题-视频片段抽取任务的方法包括如下步骤:
步骤一,针对问题语句,利用语义图像卷积网络获取问题语句的语义表达。
针对问题语句,利用提前训练好的Glove word2vec模型获取问题语句的单词表达q=(q1,q2,...qi,...qm),其中qi代表问题语句中第i个单词的Glove特征表达向量;将问题语句的单词表达q=(q1,q2,...qi,...qm)输入到双向GRU网络中,获取问题语句的上下文单词表达
Figure GDA0003146046260000061
其中
Figure GDA0003146046260000062
代表问题语句中第i个单词的上下文单词表达;
利用自然语言处理工具方法,获取问题语句中的语义依赖图θ=(ν,ε),其中ν代表语义依赖图中所有点的集合,每个语义依赖图中的点为问题语句的一个单词;ε代表语义依赖图中所有边的集合,每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系,及单词自身到自身的自循环依赖关系;
按照如下公式计算获得l层语义图像卷积网络的输出
Figure GDA0003146046260000071
Figure GDA0003146046260000072
作为问题语句的语义表达,
Figure GDA0003146046260000073
Figure GDA0003146046260000074
其中,
Figure GDA0003146046260000075
表示第l层语义图像卷积网络输出中第i个单词对应的输出,
Figure GDA0003146046260000076
代表可训练的变换矩阵,dir(i,j)代表(i,j)边的指向方向,
Figure GDA0003146046260000077
代表可训练的偏置向量,lab(i,j)代表(i,j)边的标签,N(i)代表所有与点i有依赖关系的点的集合,ReLU(·)代表ReLU运算,gk代表第k层语义图像卷积网络的中间输出,k=(1,2,...,l)。
步骤二,针对视频,获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达,其具体步骤为:
针对视频,利用提前训练好的3维卷积网络,获取视频帧特征V=(v1,v2,...vi,...,vn),其中vi代表视频中第i帧的特征;利用如下公式计算得到自注意力视频表达
Figure GDA0003146046260000078
Vs=MultiHead(V,V,V)+V
MultiHead(V,V,V)=WOConcat(head1,head2,...,headH)
headi=Attention(Wi 1V,Wi 2V,Wi 3V)
Figure GDA0003146046260000079
其中,WO、Wi 1、Wi 2、Wi 3为可训练的线性映射矩阵,Softmax(·)代表softmax运算,dk代表矩阵Wi 1、Wi 2、Wi 3的行数;
将自注意力视频表达
Figure GDA00031460462600000710
输入到双向GRU网络中,获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达
Figure GDA00031460462600000711
上述步骤可以合成一个多头自注意力模块,针对视频,利用多头自注意力模块可以直接获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达。
步骤三,利用步骤一获取的问题语句的语义表达与步骤二获取的自注意力视频语义表达,设计一种多步骤跨模型交互模块用来获取视频帧的跨模型语义表达,所述多步骤跨模型交互模块的设计包括以下步骤:
利用步骤一获取的问题语句的语义表达
Figure GDA0003146046260000081
与步骤二获取的自注意力视频语义表达
Figure GDA0003146046260000082
按照如下公式计算得到视频问题注意力矩阵M,
Figure GDA0003146046260000083
其中Mij代表矩阵M中的第i行第j列元素,W1 m
Figure GDA00031460462600000821
为可训练的参数矩阵,bm为可训练的偏置向量,wT为行向量,tanh(·)代表双曲正切函数计算;
利用得到的视频问题注意力矩阵M与问题语句的语义表达
Figure GDA0003146046260000084
按照如下公式计算得到视频帧的聚合问题表达
Figure GDA0003146046260000085
Figure GDA0003146046260000086
Figure GDA0003146046260000087
其中,Mij代表矩阵M中的第i行第j列元素,exp(·)代表以自然常数e为底的指数函数计算,
Figure GDA0003146046260000088
代表视频第i帧的聚合问题表达;
利用得到的视频帧的聚合问题表达
Figure GDA0003146046260000089
与自注意力视频语义表达
Figure GDA00031460462600000810
按照如下公式计算得到过滤后的视频帧的聚合问题表达
Figure GDA00031460462600000811
与过滤后的自注意力视频语义表达
Figure GDA00031460462600000812
Figure GDA00031460462600000813
Figure GDA00031460462600000814
Figure GDA00031460462600000815
Figure GDA00031460462600000816
其中,Wv、Ws代表可训练的参数矩阵,bv、bs代表可训练的偏置向量,σ(·)代表sigmoid函数计算,
Figure GDA00031460462600000817
代表元素级别的相乘计算,
Figure GDA00031460462600000818
代表过滤后的视频第i帧的聚合问题表达,
Figure GDA00031460462600000819
代表过滤后的自注意力视频第i帧的语义表达;
利用得到的过滤后的视频帧的聚合问题表达
Figure GDA00031460462600000820
与过滤后的自注意力视频语义表达
Figure GDA0003146046260000091
按照如下公式计算得到视频帧的跨模型语义表达f=(f1,f2,...fi,...fn),
Figure GDA0003146046260000092
其中,pf代表可训练的参数向量,Wvf、Wsf代表可训练的参数矩阵,bf代表可训练的偏置向量,σ(·)代表sigmoid函数计算,fi代表视频第i帧的跨模型语义表达。
步骤四,将步骤三获得的视频帧的跨模型语义表达f=(f1,f2,...fi,...fn)输入到双向GRU中,获得视频帧的最终语义表达
Figure GDA0003146046260000093
对视频每个帧,利用可变长度窗口预定义一组预定义候选片段集合
Figure GDA0003146046260000094
其中Ci代表视频第i帧的预定义候选片段集合,
Figure GDA0003146046260000095
代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界,wj代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度,k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目;利用得到的视频帧的最终语义表达
Figure GDA0003146046260000096
按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数,
Figure GDA0003146046260000097
其中,csi为k维向量,csi代表视频第i帧的k个预定义候选片段对应的置信度分数,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,Wc代表可训练的参数矩阵,bc代表可训练的偏置向量,σ(·)代表sigmoid函数计算;
利用得到的视频帧的最终语义表达
Figure GDA0003146046260000098
按照如下公式计算得到视频每个帧所有预定义候选片段的预测偏离值,
Figure GDA0003146046260000099
其中,
Figure GDA00031460462600000910
为2k维向量,
Figure GDA00031460462600000911
代表视频第i帧的k个预定义候选片段对应的预测偏离值,
Figure GDA00031460462600000912
代表视频第i帧第j个预定义候选片段对应的起点预测偏离值与终点预测偏离值,Wo代表可训练的参数矩阵,bo代表可训练的偏置向量;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段,计算与目标片段(s,e)的IoU值,对IoU值小于边界值λ的预定义候选片段,将其IoU值设为0;利用得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,按照如下公式计算校准损失函数Lalign
Figure GDA0003146046260000101
Lij=(1-IoUij)·log(1-csij)+IoUij·log(csij)
其中,IoUij代表视频第i帧第j个预定义候选片段与相应目标片段的IoU值,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,log(·)代表以自然常数e为底的对数函数计算;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,取出其中IoU值大于边界值γ的预定义候选片段,构成集合Ch;利用集合Ch中所有预定义候选片段的开始边界
Figure GDA0003146046260000102
与结束边界
Figure GDA0003146046260000103
及相应目标片段的开始边界s与结束边界e,结合得到的视频每个帧所有预定义候选片段的预测偏离值,按照如下公式计算得到回归损失函数Lreg
Figure GDA0003146046260000104
Figure GDA0003146046260000105
Figure GDA0003146046260000106
其中,N代表集合Ch中所有预定义候选片段的数目,R(·)代表平滑L1计算,δs代表集合Ch中第i个预定义候选片段的起点实际偏离值,δe代表集合Ch中第i个预定义候选片段的终点实际偏离值,
Figure GDA0003146046260000107
代表集合Ch中第i个预定义候选片段的起点预测偏离值,
Figure GDA0003146046260000108
代表集合Ch中第i个预定义候选片段的终点预测偏离值,i=(1,2,...,N);
利用得到的校准损失函数Lalign与回归损失函数Lreg,按照如下公式计算得到跨模型交互网络的损失函数L,
L=Lalign+α·Lreg
其中,α代表平衡校准损失函数Lalign与回归损失函数Lreg的超参数。
步骤五,利用步骤四获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,获得训练后的跨模型交互网络。利用训练后的跨模型交互网络,输入视频与问题,获得视频中所有预定义候选片段的置信度分数,将置信度分数最高的视频片段抽取出来,作为对视频进行以问题为基础的片段抽取的结果。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityCaption数据集与TACoS数据集上进行实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了R@1IoU=0.3,R@1IoU=0.5,R@1IoU=0.7,R@5IoU=0.3,R@5IoU=0.5,R@5IoU=0.7六种评价标准来对于本发明的效果进行评价,这六种评价标准分别反映了在IoU取0.3、0.5、0.7时,若分别选择最佳1个、最佳5个预定义候选片段,则有多少百分比的大于设定的IoU值的候选片段被挑出。按照具体实施方式中描述的步骤,所得的实验结果如表1与表2所示,本方法表示为CMIN。
表1为本发明在ActivityCaption数据集上针对R@1IoU=0.3,R@1IoU=0.5,R@1IoU=0.7,R@5IoU=0.3,R@5IoU=0.5,R@5IoU=0.7六种评价标准的测试结果。表2为本发明在TACoS数据集上针对R@1IoU=0.3,R@1IoU=0.5,R@1IoU=0.7,R@5IoU=0.3,R@5IoU=0.5,R@5IoU=0.7六种评价标准的测试结果。
表1与表2的测试结果反映出,本发明可以有效地解决以问题为基础的视频片段抽取任务,抽取出符合要求的视频片段。
表1
Figure GDA0003146046260000111
表2
Figure GDA0003146046260000112

Claims (5)

1.一种基于跨模型交互网络实现问题-视频片段抽取任务的方法,其特征在于包括如下步骤:
1)针对问题语句,利用语义图像卷积网络获取问题语句的语义表达;
2)针对视频,获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达;所述的步骤1)具体为:
针对问题语句,利用提前训练好的Glove word2vec模型获取问题语句的单词表达q=(q1,q2,...qi,...qm),其中qi代表问题语句中第i个单词的Glove特征表达向量;将问题语句的单词表达q=(q1,q2,...qi,...qm)输入到双向GRU网络中,获取问题语句的上下文单词表达
Figure FDA0003146046250000011
其中
Figure FDA0003146046250000012
代表问题语句中第i个单词的上下文单词表达;
利用自然语言处理工具方法,获取问题语句中的语义依赖图θ=(ν,ε),其中ν代表语义依赖图中所有点的集合,每个语义依赖图中的点为问题语句的一个单词;ε代表语义依赖图中所有边的集合,每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系,及单词自身到自身的自循环依赖关系;
按照如下公式计算获得l层语义图像卷积网络的输出
Figure FDA0003146046250000013
作为问题语句的语义表达,
Figure FDA0003146046250000014
Figure FDA0003146046250000015
其中,
Figure FDA0003146046250000016
表示第l层语义图像卷积网络输出中第i个单词对应的输出,
Figure FDA0003146046250000017
代表可训练的变换矩阵,dir(i,j)代表(i,j)边的指向方向,
Figure FDA0003146046250000018
代表可训练的偏置向量,lab(i,j)代表(i,j)边的标签,N(i)代表所有与点i有依赖关系的点的集合,ReLU(·)代表ReLU运算,gk代表第k层语义图像卷积网络的中间输出,k=(1,2,...,l);
3)利用步骤1)获取的问题语句的语义表达与步骤2)获取的自注意力视频语义表达,获取视频帧的跨模型语义表达;
4)利用步骤3)获得的视频帧的跨模型语义表达,计算得到跨模型交互网络的损失函数;
5)利用步骤4)获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。
2.根据权利要求1所述基于跨模型交互网络实现问题-视频片段抽取任务的方法,其特征在于所述的步骤2)具体为:
针对视频,利用提前训练好的3维卷积网络,获取视频帧特征V=(v1,v2,...vi,...,vn),其中vi代表视频中第i帧的特征;利用如下公式计算得到自注意力视频表达
Figure FDA0003146046250000021
Vs=MultiHead(V,V,V)+V
MultiHead(V,V,V)=WOConcat(head1,head2,...,headH)
headi=Attention(Wi 1V,Wi 2V,Wi 3V)
Figure FDA0003146046250000022
其中,WO、Wi 1、Wi 2、Wi 3为可训练的线性映射矩阵,Softmax(·)代表softmax运算,dk代表矩阵Wi 1、Wi 2、Wi 3的行数;
将自注意力视频表达
Figure FDA0003146046250000023
输入到双向GRU网络中,获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达
Figure FDA0003146046250000024
3.根据权利要求1所述基于跨模型交互网络实现问题-视频片段抽取任务的方法,其特征在于所述的步骤3)具体为:
利用步骤1)获取的问题语句的语义表达
Figure FDA0003146046250000025
与步骤2)获取的自注意力视频语义表达
Figure FDA0003146046250000026
按照如下公式计算得到视频问题注意力矩阵M,
Figure FDA0003146046250000027
其中Mij代表矩阵M中的第i行第j列元素,W1 m
Figure FDA00031460462500000212
为可训练的参数矩阵,bm为可训练的偏置向量,wT为行向量,tanh(·)代表双曲正切函数计算;
利用得到的视频问题注意力矩阵M与问题语句的语义表达
Figure FDA0003146046250000028
按照如下公式计算得到视频帧的聚合问题表达
Figure FDA0003146046250000029
Figure FDA00031460462500000210
Figure FDA00031460462500000211
其中,Mij代表矩阵M中的第i行第j列元素,exp(·)代表以自然常数e为底的指数函数计算,
Figure FDA0003146046250000031
代表视频第i帧的聚合问题表达;
利用得到的视频帧的聚合问题表达
Figure FDA0003146046250000032
与自注意力视频语义表达
Figure FDA0003146046250000033
按照如下公式计算得到过滤后的视频帧的聚合问题表达
Figure FDA0003146046250000034
与过滤后的自注意力视频语义表达
Figure FDA0003146046250000035
Figure FDA0003146046250000036
Figure FDA0003146046250000037
Figure FDA0003146046250000038
Figure FDA0003146046250000039
其中,Wv、Ws代表可训练的参数矩阵,bv、bs代表可训练的偏置向量,σ(·)代表sigmoid函数计算,
Figure FDA00031460462500000310
代表元素级别的相乘计算,
Figure FDA00031460462500000311
代表过滤后的视频第i帧的聚合问题表达,
Figure FDA00031460462500000312
代表过滤后的自注意力视频第i帧的语义表达;
利用得到的过滤后的视频帧的聚合问题表达
Figure FDA00031460462500000313
与过滤后的自注意力视频语义表达
Figure FDA00031460462500000314
按照如下公式计算得到视频帧的跨模型语义表达f=(f1,f2,...fi,...fn),
Figure FDA00031460462500000315
其中,pf代表可训练的参数向量,Wvf、Wsf代表可训练的参数矩阵,bf代表可训练的偏置向量,σ(·)代表sigmoid函数计算,fi代表视频第i帧的跨模型语义表达。
4.根据权利要求1所述基于跨模型交互网络实现问题-视频片段抽取任务的方法,其特征在于所述的步骤4)具体为:
将步骤3)获得的视频帧的跨模型语义表达f=(f1,f2,...fi,...fn)输入到双向GRU中,获得视频帧的最终语义表达
Figure FDA00031460462500000316
对视频每个帧,利用可变长度窗口预定义一组预定义候选片段集合
Figure FDA00031460462500000317
其中Ci代表视频第i帧的预定义候选片段集合,
Figure FDA00031460462500000318
代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界,wj代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度,k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目;利用得到的视频帧的最终语义表达
Figure FDA00031460462500000319
按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数,
Figure FDA0003146046250000041
其中,csi为k维向量,csi代表视频第i帧的k个预定义候选片段对应的置信度分数,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,Wc代表可训练的参数矩阵,bc代表可训练的偏置向量,σ(·)代表sigmoid函数计算;
利用得到的视频帧的最终语义表达
Figure FDA0003146046250000042
按照如下公式计算得到视频每个帧所有预定义候选片段的预测偏离值,
Figure FDA0003146046250000043
其中,
Figure FDA0003146046250000044
为2k维向量,
Figure FDA0003146046250000045
代表视频第i帧的k个预定义候选片段对应的预测偏离值,
Figure FDA0003146046250000046
代表视频第i帧第j个预定义候选片段对应的起点预测偏离值与终点预测偏离值,Wo代表可训练的参数矩阵,bo代表可训练的偏置向量;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段,计算与目标片段(s,e)的IoU值,对IoU值小于边界值λ的预定义候选片段,将其IoU值设为0;利用得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,按照如下公式计算校准损失函数Lalign
Figure FDA0003146046250000047
Lij=(1-IoUij)·log(1-csij)+IoUij·log(csij)
其中,IoUij代表视频第i帧第j个预定义候选片段与相应目标片段的IoU值,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,log(·)代表以自然常数e为底的对数函数计算;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,取出其中IoU值大于边界值γ的预定义候选片段,构成集合Ch;利用集合Ch中所有预定义候选片段的开始边界
Figure FDA0003146046250000048
与结束边界
Figure FDA0003146046250000049
及相应目标片段的开始边界s与结束边界e,结合得到的视频每个帧所有预定义候选片段的预测偏离值,按照如下公式计算得到回归损失函数Lreg
Figure FDA00031460462500000410
Figure FDA00031460462500000411
Figure FDA0003146046250000051
其中,N代表集合Ch中所有预定义候选片段的数目,R(·)代表平滑L1计算,δs代表集合Ch中第i个预定义候选片段的起点实际偏离值,δe代表集合Ch中第i个预定义候选片段的终点实际偏离值,
Figure FDA0003146046250000052
代表集合Ch中第i个片段的起点预测偏离值,
Figure FDA0003146046250000053
代表集合Ch中第i个片段的终点预测偏离值,i=(1,2,...,N);
利用得到的校准损失函数Lalign与回归损失函数Lreg,按照如下公式计算得到跨模型交互网络的损失函数L:
L=Lalign+α·Lreg
其中,α代表平衡校准损失函数Lalign与回归损失函数Lreg的超参数。
5.根据权利要求1所述基于跨模型交互网络实现问题-视频片段抽取任务的方法,其特征在于所述的步骤5)具体为:
利用步骤4)获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,获得训练后的跨模型交互网络;利用训练后的跨模型交互网络,输入视频与问题,获得视频中所有预定义候选片段的置信度分数,将置信度分数最高的视频片段抽取出来,作为对视频进行以问题为基础的片段抽取的结果。
CN201910516683.9A 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法 Active CN110377792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910516683.9A CN110377792B (zh) 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910516683.9A CN110377792B (zh) 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法

Publications (2)

Publication Number Publication Date
CN110377792A CN110377792A (zh) 2019-10-25
CN110377792B true CN110377792B (zh) 2021-09-21

Family

ID=68250351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910516683.9A Active CN110377792B (zh) 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法

Country Status (1)

Country Link
CN (1) CN110377792B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198966B (zh) * 2019-12-22 2023-09-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111414845B (zh) * 2020-03-18 2023-06-16 浙江大学 基于空间-时间图推理网络的多形态语句视频定位方法
CN112488063B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN113590821B (zh) * 2021-07-26 2023-04-14 北方工业大学 一种隐含语篇关系的分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN109815927A (zh) * 2019-01-30 2019-05-28 杭州一知智能科技有限公司 利用对抗双向交互网络解决视频时间文本定位任务的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756233B2 (en) * 2010-04-16 2014-06-17 Video Semantics Semantic segmentation and tagging engine

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN109815927A (zh) * 2019-01-30 2019-05-28 杭州一知智能科技有限公司 利用对抗双向交互网络解决视频时间文本定位任务的方法

Also Published As

Publication number Publication date
CN110377792A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110377792B (zh) 基于跨模型交互网络实现问题-视频片段抽取任务的方法
CN111538908B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN111259625B (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN107808129B (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN111831789B (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN109241995B (zh) 一种基于改进型ArcFace损失函数的图像识别方法
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN109213853B (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN113920516B (zh) 一种基于孪生神经网络的书法字骨架匹配方法及系统
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN113449776A (zh) 基于深度学习的中草药识别方法、装置及存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114547267A (zh) 智能问答模型的生成方法、装置、计算设备和存储介质
CN109947923A (zh) 一种基于词向量的初等数学题型自动提取方法及系统
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN116450877A (zh) 一种基于语义选择与层次对齐的图像文本匹配方法
CN110032948B (zh) 一种基于交互时序信息的草图手势识别方法
CN109815927B (zh) 利用对抗双向交互网络解决视频时间文本定位任务的方法
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN109857886B (zh) 一种基于极小极大值博弈理论视图逼近的三维模型检索方法
CN115376195B (zh) 训练多尺度网络模型的方法及人脸关键点检测方法
CN103927540B (zh) 一种基于生物视觉分层模型的不变特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant