CN111008302B - 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 - Google Patents

一种利用基于图论的多重交互网络机制解决视频问答问题的方法 Download PDF

Info

Publication number
CN111008302B
CN111008302B CN201911127485.XA CN201911127485A CN111008302B CN 111008302 B CN111008302 B CN 111008302B CN 201911127485 A CN201911127485 A CN 201911127485A CN 111008302 B CN111008302 B CN 111008302B
Authority
CN
China
Prior art keywords
video
expression
ith
graph
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911127485.XA
Other languages
English (en)
Other versions
CN111008302A (zh
Inventor
赵洲
卢航
顾茅
陈默沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911127485.XA priority Critical patent/CN111008302B/zh
Publication of CN111008302A publication Critical patent/CN111008302A/zh
Application granted granted Critical
Publication of CN111008302B publication Critical patent/CN111008302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/787Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种利用基于图论的多重交互网络机制解决视频问答问题的方法。步骤:1)针对视频,利用ResNet网络得到帧级别的视频表达。2)利用MaskR‑CNN网络得到物体的存在和位置特征。3)利用GloVe网络提取问题单词级信息。4)利用基于图论的GNN网络构图,引入消息机制对图迭代,最终得到物体存在和物体间联系特征表达。5)引入多重交互,利用前馈神经网络学习得到与问题相关的物体存在和物体间动态联系的特征表达以及视频帧级和片段级表达。6)针对不同类型的问题答案模块会采用不同的策略。本发明利用上述机制得到物体间的时空依赖关系和动态语义交互信息,在视频理解上达到更深刻的效果,继而给出更精准的答案。

Description

一种利用基于图论的多重交互网络机制解决视频问答问题的 方法
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用基于图论的多重交互网络机制解决视频问答问题的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要解决的是关于静态图像相关的问答问题。虽然目前的技术针对于静态图像问答,可以取得很好的表现结果,但是这样的方法缺少对于视频中的时间动态信息的建模,所以不能很好地拓展到视频问答任务上面。
针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本方法将使用基于图论的多重交互机制来聚焦于视频与所问问题相关的目标帧,并且学习与问题相关的有效的视频表达。同时,使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。
本方法将利用残差神经网络得到视频帧级别的表达,同时针对这组视频,用 MaskR-CNN神经网络得到物体存在和物体位置的特征表达。另外,用GloVe神经网络得到问题单词级别的特征信息。之后利用图神经网络对这组视频进行构图,并引入消息传输机制迭代更新图的特征表达。之后利用多重交互网络分三个通道分别学习到与问题相关的视频帧级别和段级别的表达以及与问题相关的物体的运动信息。最后利用学习到的这些特征信息,结合不同类型问题的特点,用不同的回归函学习出答案来解决视频问答问题。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频中的时间动态信息的建模的问题,且针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本发明提供一种利用基于图论的多重交互网络机制解决视频问答问题的方法,本发明所采用的具体技术方案是:
1)对于输入的视频及自然语言问题语句,训练出图神经网络和多重交互网络来获取问题相关的物体存在特征表达、物体间动态联系的特征表达、以及与问题相关的帧级和片段级视频表达,得到针对不同问题的预测答案;
1.1)针对一段视频,采用残差神经网络提取视频的帧级表达;
1.2)采用Mask R-CNN神经网络,提取视频中物体存在特征表达和物体空间位置特征表达;
1.3)针对自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达;
1.4)利用步骤1.2)得到的物体存在特征表达和物体空间位置特征表达,通过图神经网络进行建图,并引入消息传输机制,对图进行迭代更新,获得最终的物体存在特征表达;
1.5)利用步骤1.1)获得的视频的帧级表达、步骤1.2)获得的物体空间位置特征表达、步骤1.3)获得的自然语言问题语句的单词级别的嵌入表达和步骤 1.4)获得的最终的物体存在特征表达,引入多重交互网络,利用预训练的交互网络和前馈神经网络,分三个通道得到与问题相关的物体存在特征表达、物体间动态联系的特征表达以及与问题相关的视频帧级和片段级视频表达;
1.6)针对不同的问题形式,采用不同的回归函数和损失函数,得到针对问题的预测答案;
2)将步骤1)获得的针对不同问题的预测答案与真实的答案进行比较,更新图神经网络和多重交互网络的参数,得到最终的图神经网络和多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的最终的图神经网络和多层注意力网络,得到所预测的答案。
进一步的,所述的步骤1.1)具体为:
对于一段视频,将视频输入到预训练的残差神经网络,输出视频的帧级表达φ={Ii},i=1,2,3,…,其中Ii表示视频第i帧的特征表达,T表示视频的帧数。
进一步的,所述的步骤1.2)具体为:
对于一段视频,将视频输入到预训练的Mask R-CNN卷积神经网络,输出视频中的物体存在特征表达
Figure GDA0003471747580000021
和物体空间位置特征表达
Figure GDA0003471747580000022
其中
Figure GDA0003471747580000023
Figure GDA0003471747580000024
分别表示视频中第t帧第i个物体的存在特征表达和空间位置特征表达;所述空间位置特征表达
Figure GDA0003471747580000031
是一个四维坐标,表示为
Figure GDA0003471747580000032
其中
Figure GDA0003471747580000033
Figure GDA0003471747580000034
分别表示视频中第t帧第i个物体的边界框中心点的横坐标和纵坐标,
Figure GDA0003471747580000035
Figure GDA0003471747580000036
分别表示视频中第t帧第i个物体的边界框的宽度和高度。
进一步的,所述的步骤1.3)具体为:
对于自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达Q={q1,q2,…,q|Q|};其中qi表示自然语言问题语句中的第i个单词的嵌入特征表达,|Q|表示自然语言问题语句中的单词的数量。
进一步的,所述的步骤1.4)具体为:
1.4.1)对于步骤1.2)获得的视频中物体存在特征表达
Figure GDA0003471747580000037
按照如下公式获得视频中第t帧第i个物体的隐藏状态表达:
Figure GDA0003471747580000038
其中
Figure GDA0003471747580000039
表示第t帧第i个物体的隐藏状态;
将不同帧中被检测到的所有物体重新进行排序,不同帧中的同一物体算不同物体,只使用下角标i表示不同帧中被检测到的第i个物体,简称视频中第i个物体;
进一步得到视频中物体的隐藏状态表达HV
HV={hv}v∈V={h1,…,hi,…h|V|}
其中,hi表示视频中第i个物体的隐藏状态表达,V表示被检测到的所有物体的个数;
1.4.2)对于步骤1.2)获得的视频中物体空间位置特征表达,计算两两物体之间的相对位置向量:定义任意视频中两个物体的空间位置特征表达lm和ln,根据如下公式得到四个维度上的物体相对位置向量(Xmn,Ymn,Wmn,Hmn)T
Figure GDA00034717475800000310
Figure GDA00034717475800000311
对于上述四个维度相对位置向量(Xmn,Ymn,Wmn,Hmn)T,利用位置编码,将 (Xmn,Ymn,Wmn,Hmn)T通过不同频率的正弦、余弦函数嵌入到高维,然后再将四个高维向量拼接成单个向量,得到视频中第m个物体和第n个物体之间的特征向量lrmn
计算视频中第m个物体和第n个物体的空间位置联系LRmn
LRmn=max{0,Wr·lrmn}
其中,Wr为参数矩阵,运用线性整流函数作为神经元的激活函数;
视频中所有物体之间的空间位置联系两两对应,得到视频中物体空间位置的隐藏状态表达He
Figure GDA0003471747580000041
Figure GDA0003471747580000042
其中
Figure GDA0003471747580000043
表示视频中第i个物体和第j个物体空间位置的隐藏状态;
1.4.3)步骤1.4.1)和步骤1.4.2)得到的HV、He对应初始化的图,将HV和He输入到图神经网络中,分两步采用消息传输机制对图点和边的隐藏状态进行多次迭代更新:
第一步,只考虑连接同一帧图像中物体的交互型边;按照如下公式,计算视频中第i个物体和第j个物体的连接分数:
Figure GDA0003471747580000044
其中Ws,Wt,Wst分别是第i个物体,第j个物体,ij之间交互型边的学习权重, vo是学习向量,σ是一个非线性函数,
Figure GDA0003471747580000045
表示第l-1次迭代第i个物体的隐藏状态,
Figure GDA0003471747580000046
表示第l-1次迭代第i个物体和第j个物体的边的隐藏状态,
Figure GDA0003471747580000047
表示第l次迭代第i个物体和第j个物体之间的连接分数;利用softmax函数,得到连接分数
Figure GDA0003471747580000048
的激活值,即标准值:
Figure GDA0003471747580000049
其中,
Figure GDA00034717475800000410
表示第l次迭代第i个物体和第j个物体的连接分数的标准值,Vsj表示指向第j个物体的物体集合;
对于上述标准值
Figure GDA00034717475800000411
根据如下公式得到从第i个物体到第j个物体的传输信息
Figure GDA00034717475800000412
Figure GDA00034717475800000413
根据如下公式更新图的隐藏状态向量:
Figure GDA0003471747580000051
Figure GDA0003471747580000052
其中,
Figure GDA0003471747580000053
表示第l次迭代更新的第j个物体的隐藏状态,
Figure GDA0003471747580000054
表示第l次迭代更新的第i个物体和第j个物体之间边的隐藏状态;
第二步,考虑轨迹型边;按照如下公式,计算没有注意力机制下,从第i个物体到第j个物体的轨迹型边上的传输信息
Figure GDA0003471747580000055
Figure GDA0003471747580000056
其中W′s、W′st是学习权重;
根据如下公式更新图的隐藏状态向量:
Figure GDA0003471747580000057
Figure GDA0003471747580000058
其中λij是一个二进制标量,当且仅当第i个物体和第j个物体之间存在轨迹型边时取1,否则取0;
经过L次循环更新,得到更新图的隐藏状态向量
Figure GDA0003471747580000059
Figure GDA00034717475800000510
即得到了最终更新后的视频中物体的隐藏状态表达
Figure GDA00034717475800000511
和更新后的视频中物体空间位置的隐藏状态表达
Figure GDA00034717475800000512
最终的物体存在特征表达H表示为:
Figure GDA00034717475800000513
进一步的,步骤1.5)所述的多重交互网络具体如下,假定多头线性层的头数为1:
第一步,对两个输入序列做线性映射,得到两个输入矩阵 Q=(q1,q2,…,qi)和V=(v1,v2,…,vj),其中Q是lq×dk维的实矩阵,V是lv×dk维的实矩阵。
第二步,构建张量K来表示两个输入矩阵的每列之间的相互作用,张量K的每列Kij计算方式如下:
Figure GDA00034717475800000514
其中Kij是一个dk维的实列向量,qi和vj也是dk维的实列向量,
Figure GDA00034717475800000515
是按元素乘法;
第三步,对张量K利用一个卷积核窗面积为sq×sv的卷积层,此时,张量K被分为不同的子张量K′,这些子张量是sq×sv×dk维的实矩阵,表示段问题和段视频之间的按元素交互特征,随着卷积核窗的移动,得到不同的按段交互的表达,构成张量P;
第四步,用一个去卷积层将张量P恢复成原始lq×lv×dk维的张量M,其中张量M包含了按段交互的信息;
第五步,将张量K和张量M压缩到dk维,分别得到lq×lv维的按元素的权重矩阵WE和lq×lv维的按段的权重矩阵WS
第六步,利用softmax函数得到按元素和按段的交互信息,即多重注意力机制的最终输出:
O=softmax(WE+WS)V or
O=softmax((WE+WS)⊙WR)V
其中,O是一个lq×dk维的实矩阵,WR是可选的外部矩阵;
此外,步骤1.5)中提到的多重交互网络三个通道的Q和V分别为视频的帧级表达和物体空间位置特征表达,自然语言问题单词级别的嵌入表达和物体空间位置特征表达,最终的物体存在特征表达和通道2输出的特征矩阵;通道1第一个交互单元输出的特征矩阵与通道2输出的特征矩阵作为通道1第二个交互单元的输入。
进一步的,所述的步骤1.6)具体为:
针对多选类型的问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出每个选项的分数:
Figure GDA0003471747580000061
其中WS是训练权重;使用正确答案的分数sp和错误答案的分数sn之间的合页损失函数max{0,1+sn-sp}来优化模型;
针对开放性数字题,利用下列公式得到输出的答案:
Figure GDA0003471747580000062
其中,Wn是训练权重,b是偏置,Round是取整函数,同时利用正确数字和预测数字之间的
Figure GDA0003471747580000063
损失函数来优化模型;
针对开放单词题,利用线性层将输出维度转换成答案词汇维度,利用softmax 函数计算出答案分布:
Figure GDA0003471747580000071
其中,Wn是训练权重,b是偏置,同时利用正确单词和预测单词之间的交叉熵损失函数来优化模型。
本发明具备的有益效果是:
1)本发明提出了一种全新的视频问答模型——基于图论的多重交互网络,相较于传统GNN神经网络边的权重是预先设定的,本发明的模型可以根据视频的前后连续性动态地调整边权,因此本发明的模型能抓取更深层次的有连贯性的语义信息;
2)本发明设计了一种全新的注意力机制——多重交互网络。有一些问题的答案往往包含在多帧图片中,因此在设定注意力的时候本发明不是仅仅选取单帧,还选取了多帧的视频段。因此,本发明的模型在回答一些需要观察物体前后变化等此类问题时效果较传统模型更优;
3)本发明在更新图的时候用到了消息传输机制。两种类型的边——交互边和轨迹边协同合作,不仅可以获取物体间空间关系还可以获取他们之间相互的语义关系,从而抓取更多重要的细节信息;
4)本发明的答案模块,会根据不同的问题形式,采用不同的策略来得到效果最优的答案。
附图说明
图1是本发明所使用的对于视频问答问题的基于图论的多重交互网络的整体示意图;
图2是视频编码器的结构;
图3是消息传输机制对图进行迭代更新的示意图;
图4是多重交互机制的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明的一种利用基于图论的多重交互网络机制解决视频问答问题的方法包括如下步骤:
步骤一、对于输入的视频及自然语言问题语句,训练出图神经网络和多重交互网络来获取问题相关的物体存在特征表达、物体间动态联系的特征表达、以及与问题相关的帧级和片段级视频表达,得到针对不同问题的预测答案;
1、对于一段视频,将视频输入到预训练的残差神经网络,输出视频的帧级表达φ={Ii},i=1,2,3,…,其中Ii表示视频第i帧的特征表达,T表示视频的帧数。
2、对于一段视频,将视频输入到预训练的Mask R-CNN卷积神经网络,输出视频中的物体存在特征表达
Figure GDA0003471747580000081
和物体空间位置特征表达
Figure GDA0003471747580000082
其中
Figure GDA0003471747580000083
Figure GDA0003471747580000084
分别表示视频中第t帧第i个物体的存在特征表达和空间位置特征表达;所述空间位置特征表达
Figure GDA0003471747580000085
是一个四维坐标,表示为
Figure GDA0003471747580000086
其中
Figure GDA0003471747580000087
Figure GDA0003471747580000088
分别表示视频中第t帧第i个物体的边界框中心点的横坐标和纵坐标,
Figure GDA0003471747580000089
Figure GDA00034717475800000810
分别表示视频中第t帧第i个物体的边界框的宽度和高度。
3、对于自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达Q={q1,q2,…,q|Q|};其中qi表示自然语言问题语句中的第i个单词的嵌入特征表达,|Q|表示自然语言问题语句中的单词的数量。
4、按照如下公式获得视频中第t帧第i个物体的隐藏状态表达:
Figure GDA00034717475800000811
其中
Figure GDA00034717475800000812
表示第t帧第i个物体的隐藏状态;
将不同帧中被检测到的所有物体重新进行排序,不同帧中的同一物体算不同物体,只使用下角标i表示不同帧中被检测到的第i个物体,简称视频中第i个物体;
作为本发明的优选实施方式,选择名为图神经网络并引入消息传输机制来学习物体级别的动态信息。该网络的点隐藏状态初始化HV(视频中物体的隐藏状态表达)为:
HV={hv}v∈V={h1,…,hi,…h|V|}
其中,hi表示视频中第i个物体的隐藏状态表达,V表示被检测到的所有物体的个数;
计算两两物体之间的相对位置向量:定义任意视频中两个物体的空间位置特征表达lm和ln,根据如下公式得到四个维度上的物体相对位置向量 (Xmn,Ymn,Wmn,Hmn)T,即得到网络的边隐藏状态初始化为:
Figure GDA00034717475800000813
Figure GDA0003471747580000091
对于上述四个维度相对位置向量(Xmn,Ymn,Wmn,Hmn)T,利用位置编码,将 (Xmn,Ymn,Wmn,Hmn)T通过不同频率的正弦、余弦函数嵌入到高维,然后再将四个高维向量拼接成单个向量,得到视频中第m个物体和第n个物体之间的特征向量lrmn
计算视频中第m个物体和第n个物体的空间位置联系LRmn
LRmn=max{0,Wr·lrmn}
其中,Wr为参数矩阵,运用线性整流函数作为神经元的激活函数;
视频中所有物体之间的空间位置联系两两对应,得到视频中物体空间位置的隐藏状态表达He
Figure GDA0003471747580000092
Figure GDA0003471747580000093
其中
Figure GDA0003471747580000094
表示视频中第i个物体和第j个物体空间位置的隐藏状态;
将HV和He输入到图神经网络中,分两步采用消息传输机制对图点和边的隐藏状态进行多次迭代更新,对该图的点边隐藏状态更新流程如图3所示:
第一步,只考虑连接同一帧图像中物体的交互型边;按照如下公式,计算视频中第i个物体和第j个物体的连接分数:
Figure GDA0003471747580000095
其中Ws,Wt,Wst分别是第i个物体,第j个物体,ij之间交互型边的学习权重, vo是学习向量,σ是一个非线性函数,
Figure GDA0003471747580000096
表示第l-1次迭代第i个物体的隐藏状态,
Figure GDA0003471747580000097
表示第l-1次迭代第i个物体和第j个物体的边的隐藏状态,
Figure GDA0003471747580000098
表示第l次迭代第i个物体和第j个物体之间的连接分数;利用softmax函数,得到连接分数
Figure GDA0003471747580000099
的激活值,即标准值:
Figure GDA00034717475800000910
其中,
Figure GDA00034717475800000911
表示第l次迭代第i个物体和第j个物体的连接分数的标准值,Vsj表示指向第j个物体的物体集合;
对于上述标准值
Figure GDA0003471747580000101
根据如下公式得到从第i个物体到第j个物体的传输信息
Figure GDA0003471747580000102
Figure GDA0003471747580000103
根据如下公式更新图的隐藏状态向量:
Figure GDA0003471747580000104
Figure GDA0003471747580000105
其中,
Figure GDA0003471747580000106
表示第l次迭代更新的第j个物体的隐藏状态,
Figure GDA0003471747580000107
表示第l次迭代更新的第i个物体和第j个物体之间边的隐藏状态;
第二步,考虑轨迹型边;按照如下公式,计算没有注意力机制下,从第i个物体到第j个物体的轨迹型边上的传输信息
Figure GDA0003471747580000108
Figure GDA0003471747580000109
其中W′s、W′st是学习权重;
根据如下公式更新图的隐藏状态向量:
Figure GDA00034717475800001010
其中λij是一个二进制标量,当且仅当第i个物体和第j个物体之间存在轨迹型边时取1,否则取0;
经过L次循环更新,得到更新图的隐藏状态向量
Figure GDA00034717475800001011
Figure GDA00034717475800001012
即得到了最终更新后的视频中物体的隐藏状态表达
Figure GDA00034717475800001013
和更新后的视频中物体空间位置的隐藏状态表达
Figure GDA00034717475800001014
最终的物体存在特征表达H表示为:
Figure GDA00034717475800001015
5、引入多重注意力机制,训练的交互网络和前馈神经网络。
作为本发明的优选实施方式,多重注意力机制具体步骤如图2所示,为了方便假定多头线性层的头数为1:
对两个输入序列做线性映射,得到两个输入矩阵Q=(q1,q2,…,qi)和V= (v1,v2,…,vj)。其中Q是lq×dk维的实矩阵,V是lv×dk维的实矩阵。
根据以下公式构建一个张量:
Figure GDA0003471747580000111
其中Kij是一个dk维的实列向量,qi和vj也是dk维的实列向量,
Figure GDA0003471747580000112
是按元素乘法。
对上面得到的张量K,将它压缩到dk维,得到一个lq×lv维的权重矩阵WE
针对上述权重矩阵WE和输入矩阵V,利用softmax函数得到最终的输出:
O=softmax(WE)V
其中O是一个lq×dk维的实矩阵。
考虑本专利提到的多重交互网络机制。与上述多头注意力网络相比,引入了两个额外的步骤来抓取按段的交互信息。
第一步,对张量K利用一个卷积核窗面积为sq×sv的卷积层。此时,张量K被分为不同的子张量K′。这些子张量是sq×sv×dk维的实矩阵,并且可以被看作是段问题和段视频之间的按元素交互特征。随着卷积核窗的移动,就可以得到不同的按段交互的表达,这些表达构成了张量P。
第二步,用一个去卷积层将张量P恢复成原始lq×lv×dk维的张量M,其中张量M就包含了按段交互的信息。对张量K和M进行前面提到的压缩,就可以得到按元素的权重矩阵WE和按段的权重矩阵WS。对这两个权重矩阵利用softmax 函数得到按元素和按段的交互信息:
O=softmax(WE+WS)V or
O=softmax((WE+WS)⊙WR)V
其中,O是一个lq×dk维的实矩阵,WR是可选的外部矩阵;
如图4所示,三个通道的Q和V分别为视频的帧级表达和物体空间位置特征表达,自然语言问题单词级别的嵌入表达和物体空间位置特征表达,最终的物体存在特征表达和通道2输出的特征矩阵;通道1第一个交互单元输出的特征矩阵与通道2输出的特征矩阵作为通道1第二个交互单元的输入。
6、针对多选类型的问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出每个选项的分数:
Figure GDA0003471747580000113
其中WS是训练权重;使用正确答案的分数sp和错误答案的分数sn之间的合页损失函数max{0,1+sn-sp}来优化模型;
针对开放性数字题,利用下列公式得到输出的答案:
Figure GDA0003471747580000121
其中,Wn是训练权重,b是偏置,Round是取整函数,同时利用正确数字和预测数字之间的
Figure GDA0003471747580000125
损失函数来优化模型;
针对开放单词题,利用线性层将输出维度转换成答案词汇维度,利用softmax 函数计算出答案分布:
Figure GDA0003471747580000122
其中,Wn是训练权重,b是偏置,同时利用正确单词和预测单词之间的交叉熵损失函数来优化模型。
步骤二、针对不同问题的预测答案与真实的答案进行比较,更新图神经网络和多重交互网络的参数,得到最终的图神经网络和多层注意力网络。
步骤三、下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在著名的数据集TGIF-QA、MSVD-QA和MSRVTT-QA上面进行实验验证,表1-表3是本实施例在三个数据集上训练和测试的结果。
表1:TGIF-QA数据集中样本的统计数据
Figure GDA0003471747580000123
表2:MSVD-QA数据集中样本的统计数据
Figure GDA0003471747580000124
表3:MSRVTT-QA数据集中样本的统计数据
Figure GDA0003471747580000131
为了客观地评价本发明的算法的性能,本发明对不同类型的问题采用不同的评估机制。对于状态转换,重复行为,单帧图像问答,采用分类精确率(ACC) 来衡量准确度;对于重复计数,采用正确答案和预测答案之间的平均平方误差 (MSE)表示。
最终所得的实验结果如表4-表6所示:
表4:在TGIF-QA数据集与其他优秀算法的对比
Figure GDA0003471747580000132
表5:在MSVD-QA数据集与其他优秀算法的对比
Figure GDA0003471747580000141
表6:在MSRVTT-QA数据集与其他优秀算法的对比
Figure GDA0003471747580000142

Claims (6)

1.一种利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于包括如下步骤:
1)对于输入的视频及自然语言问题语句,训练出图神经网络和多重交互网络来获取问题相关的物体存在特征表达、物体间动态联系的特征表达、以及与问题相关的帧级和片段级视频表达,得到针对不同问题的预测答案;
1.1)针对一段视频,采用残差神经网络提取视频的帧级表达;
1.2)采用Mask R-CNN神经网络,提取视频中物体存在特征表达和物体空间位置特征表达;
1.3)针对自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达;
1.4)利用步骤1.2)得到的物体存在特征表达和物体空间位置特征表达,通过图神经网络进行建图,并引入消息传输机制,对图进行迭代更新,获得最终的物体存在特征表达;
1.5)利用步骤1.1)获得的视频的帧级表达、步骤1.2)获得的物体空间位置特征表达、步骤1.3)获得的自然语言问题语句的单词级别的嵌入表达和步骤1.4)获得的最终的物体存在特征表达,引入多重交互网络,利用预训练的交互网络和前馈神经网络,分三个通道得到与问题相关的物体存在特征表达、物体间动态联系的特征表达以及与问题相关的视频帧级和片段级视频表达;
步骤1.5)所述的多重交互网络具体如下,多头线性层的头数为1:
第一步,对两个输入序列做线性映射,得到两个输入矩阵Q=(q1,q2,...,qi)和V=(v1,v2,...,vj),其中Q是lq×dk维的实矩阵,V是lv×dk维的实矩阵;
第二步,构建张量K来表示两个输入矩阵的每列之间的相互作用,张量K的每列Kij计算方式如下:
Figure FDA0003471747570000011
其中Kij是一个dk维的实列向量,qi和vj也是dk维的实列向量,
Figure FDA0003471747570000012
是按元素乘法;
第三步,对张量K利用一个卷积核窗面积为sq×sv的卷积层,此时,张量K被分为不同的子张量K′,这些子张量是sq×sv×dk维的实矩阵,表示段问题和段视频之间的按元素交互特征,随着卷积核窗的移动,得到不同的按段交互的表达,构成张量P;
第四步,用一个去卷积层将张量P恢复成原始lq×lv×dk维的张量M,其中张量M包含了按段交互的信息;
第五步,将张量K和张量M压缩到dk维,分别得到lq×lv维的按元素的权重矩阵WE和lq×lv维的按段的权重矩阵WS
第六步,利用softmax函数得到按元素和按段的交互信息,即多重注意力机制的最终输出:
O=softmax(WE+WS)V or
O=softmax((WE+WS)⊙WR)V
其中,O是一个lq×dk维的实矩阵,WR是可选的外部矩阵;
此外,步骤1.5)中提到的多重交互网络三个通道的Q和V分别为视频的帧级表达和物体空间位置特征表达,自然语言问题单词级别的嵌入表达和物体空间位置特征表达,最终的物体存在特征表达和通道2输出的特征矩阵;通道1第一个交互单元输出的特征矩阵与通道2输出的特征矩阵作为通道1第二个交互单元的输入;
1.6)针对不同的问题形式,采用不同的回归函数和损失函数,得到针对问题的预测答案;
2)将步骤1)获得的针对不同问题的预测答案与真实的答案进行比较,更新图神经网络和多重交互网络的参数,得到最终的图神经网络和多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的最终的图神经网络和多层注意力网络,得到所预测的答案。
2.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.1)具体为:
对于一段视频,将视频输入到预训练的残差神经网络,输出视频的帧级表达φ={Ii},i=1,2,3,...,其中Ii表示视频第i帧的特征表达,T表示视频的帧数。
3.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.2)具体为:
对于一段视频,将视频输入到预训练的Mask R-CNN卷积神经网络,输出视频中的物体存在特征表达
Figure FDA0003471747570000021
和物体空间位置特征表达
Figure FDA0003471747570000031
其中
Figure FDA0003471747570000032
Figure FDA0003471747570000033
分别表示视频中第t帧第i个物体的存在特征表达和空间位置特征表达;所述空间位置特征表达
Figure FDA0003471747570000034
是一个四维坐标,表示为
Figure FDA0003471747570000035
其中
Figure FDA0003471747570000036
Figure FDA0003471747570000037
分别表示视频中第t帧第i个物体的边界框中心点的横坐标和纵坐标,
Figure FDA0003471747570000038
Figure FDA0003471747570000039
分别表示视频中第t帧第i个物体的边界框的宽度和高度。
4.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.3)具体为:
对于自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达Q={q1,q2,...,q|Q|};其中qi表示自然语言问题语句中的第i个单词的嵌入特征表达,|Q|表示自然语言问题语句中的单词的数量。
5.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.4)具体为:
1.4.1)对于步骤1.2)获得的视频中物体存在特征表达
Figure FDA00034717475700000310
按照如下公式获得视频中第t帧第i个物体的隐藏状态表达:
Figure FDA00034717475700000311
其中
Figure FDA00034717475700000312
表示第t帧第i个物体的隐藏状态;
将不同帧中被检测到的所有物体重新进行排序,不同帧中的同一物体算不同物体,只使用下角标i表示不同帧中被检测到的第i个物体,简称视频中第i个物体;
进一步得到视频中物体的隐藏状态表达HV
HV={hv}v∈V={h1,...,hi,...h|V|}
其中,hi表示视频中第i个物体的隐藏状态表达,V表示被检测到的所有物体的个数;
1.4.2)对于步骤1.2)获得的视频中物体空间位置特征表达,计算两两物体之间的相对位置向量:定义任意视频中两个物体的空间位置特征表达lm和ln,根据如下公式得到四个维度上的物体相对位置向量(Xmn,Ymn,Wmn,Hmn)T
Figure FDA00034717475700000313
Figure FDA00034717475700000314
对于上述四个维度相对位置向量(Xmn,Ymn,Wmn,Hmn)T,利用位置编码,将(Xmn,Ymn,Wmn,Hmn)T通过不同频率的正弦、余弦函数嵌入到高维,然后再将四个高维向量拼接成单个向量,得到视频中第m个物体和第n个物体之间的特征向量lrmn
计算视频中第m个物体和第n个物体的空间位置联系LRmn
LRmn=max{0,Wr·lrmn}
其中,Wr为参数矩阵,运用线性整流函数作为神经元的激活函数;
视频中所有物体之间的空间位置联系两两对应,得到视频中物体空间位置的隐藏状态表达He
Figure FDA0003471747570000041
Figure FDA0003471747570000042
其中
Figure FDA0003471747570000043
表示视频中第i个物体和第j个物体空间位置的隐藏状态;
1.4.3)步骤1.4.1)和步骤1.4.2)得到的HV、He对应初始化的图,将HV和He输入到图神经网络中,分两步采用消息传输机制对图点和边的隐藏状态进行多次迭代更新:
第一步,只考虑连接同一帧图像中物体的交互型边;按照如下公式,计算视频中第i个物体和第j个物体的连接分数:
Figure FDA0003471747570000044
其中Ws,Wt,Wst分别是第i个物体,第j个物体,ij之间交互型边的学习权重,vo是学习向量,σ是一个非线性函数,
Figure FDA0003471747570000045
表示第l-1次迭代第i个物体的隐藏状态,
Figure FDA0003471747570000046
表示第l-1次迭代第i个物体和第j个物体的边的隐藏状态,
Figure FDA0003471747570000047
表示第l次迭代第i个物体和第j个物体之间的连接分数;利用softmax函数,得到连接分数
Figure FDA0003471747570000048
的激活值,即标准值:
Figure FDA0003471747570000049
其中,
Figure FDA00034717475700000410
表示第l次迭代第i个物体和第j个物体的连接分数的标准值,Vsj表示指向第j个物体的物体集合;
对于上述标准值
Figure FDA00034717475700000411
根据如下公式得到从第i个物体到第j个物体的传输信息
Figure FDA0003471747570000051
Figure FDA0003471747570000052
根据如下公式更新图的隐藏状态向量:
Figure FDA0003471747570000053
Figure FDA0003471747570000054
其中,
Figure FDA0003471747570000055
表示第l次迭代更新的第j个物体的隐藏状态,
Figure FDA0003471747570000056
表示第l次迭代更新的第i个物体和第j个物体之间边的隐藏状态;
第二步,考虑轨迹型边;按照如下公式,计算没有注意力机制下,从第i个物体到第j个物体的轨迹型边上的传输信息
Figure FDA0003471747570000057
Figure FDA0003471747570000058
其中Ws′、W′st是学习权重;
根据如下公式更新图的隐藏状态向量:
Figure FDA0003471747570000059
Figure FDA00034717475700000510
其中λij是一个二进制标量,当且仅当第i个物体和第j个物体之间存在轨迹型边时取1,否则取0;
经过L次循环更新,得到更新图的隐藏状态向量
Figure FDA00034717475700000511
Figure FDA00034717475700000512
即得到了最终更新后的视频中物体的隐藏状态表达
Figure FDA00034717475700000513
和更新后的视频中物体空间位置的隐藏状态表达
Figure FDA00034717475700000514
最终的物体存在特征表达H表示为:
Figure FDA00034717475700000515
6.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.6)具体为:
针对多选类型的问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出每个选项的分数:
Figure FDA00034717475700000516
其中WS是训练权重;使用正确答案的分数sp和错误答案的分数sn之间的合页损失函数max{0,1+sn-sp}来优化模型;
针对开放性数字题,利用下列公式得到输出的答案:
Figure FDA0003471747570000061
其中,Wn是训练权重,b是偏置,Round是取整函数,同时利用正确数字和预测数字之间的
Figure FDA0003471747570000063
损失函数来优化模型;
针对开放单词题,利用线性层将输出维度转换成答案词汇维度,利用softmax函数计算出答案分布:
Figure FDA0003471747570000062
其中,Wn是训练权重,b是偏置,同时利用正确单词和预测单词之间的交叉熵损失函数来优化模型。
CN201911127485.XA 2019-11-18 2019-11-18 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 Active CN111008302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911127485.XA CN111008302B (zh) 2019-11-18 2019-11-18 一种利用基于图论的多重交互网络机制解决视频问答问题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911127485.XA CN111008302B (zh) 2019-11-18 2019-11-18 一种利用基于图论的多重交互网络机制解决视频问答问题的方法

Publications (2)

Publication Number Publication Date
CN111008302A CN111008302A (zh) 2020-04-14
CN111008302B true CN111008302B (zh) 2022-04-29

Family

ID=70111890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911127485.XA Active CN111008302B (zh) 2019-11-18 2019-11-18 一种利用基于图论的多重交互网络机制解决视频问答问题的方法

Country Status (1)

Country Link
CN (1) CN111008302B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652357B (zh) * 2020-08-10 2021-01-15 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN113609330B (zh) * 2021-07-15 2022-06-14 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113901302B (zh) * 2021-09-29 2022-09-27 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8902970B1 (en) * 2010-12-01 2014-12-02 Amazon Technologies, Inc. Altering streaming video encoding based on user attention

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的开放领域对话系统研究综述;陈晨等;《计算机学报》;20190731;第42卷(第7期);第1339-1466页 *

Also Published As

Publication number Publication date
CN111008302A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
Zellinger et al. Robust unsupervised domain adaptation for neural networks via moment alignment
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN111008302B (zh) 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
US11113598B2 (en) Dynamic memory network
US11610124B2 (en) Learning compressible features
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN108932705B (zh) 一种基于矩阵变量变分自编码器的图像处理方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN108921657B (zh) 一种基于知识增强记忆网络的序列推荐方法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN111985520B (zh) 一种基于图卷积神经网络的多模态分类方法
CN110188866B (zh) 一种基于注意力机制的特征提取方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110334196B (zh) 基于笔画和自注意力机制的神经网络中文问题生成系统
CN113177141A (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN106503659A (zh) 基于稀疏编码张量分解的动作识别方法
CN112488055A (zh) 一种基于渐进图注意力网络的视频问答方法
CN109840506B (zh) 利用结合关系互动的视频转换器解决视频问答任务的方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN109558882B (zh) 基于鲁棒局部低秩稀疏cnn特征的图像分类方法及装置
US20220012562A1 (en) Method and system for query training
CN112132075B (zh) 图文内容处理方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant