CN113609330B - 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 - Google Patents

一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 Download PDF

Info

Publication number
CN113609330B
CN113609330B CN202110907635.XA CN202110907635A CN113609330B CN 113609330 B CN113609330 B CN 113609330B CN 202110907635 A CN202110907635 A CN 202110907635A CN 113609330 B CN113609330 B CN 113609330B
Authority
CN
China
Prior art keywords
video
representation
question
feature representation
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110907635.XA
Other languages
English (en)
Other versions
CN113609330A (zh
Inventor
孙广路
梁丽丽
谭涛
于波
刘昕雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Publication of CN113609330A publication Critical patent/CN113609330A/zh
Application granted granted Critical
Publication of CN113609330B publication Critical patent/CN113609330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,获得问题语句的词嵌入表示;其次,获得问题导向的视频文本级别特征表示;再其次,获得问题导向的具有空间注意的视频帧级别特征表示;再其次,获得最终的问题导向的视频帧级别特征表示;再其次,获得问题导向的视频片段级别特征表示;最后,得到具有问题导向的视频特征表示,并生成答案。解决了现有技术中存在的答案推理准确性低的技术问题。本发明通过提取视频的细粒度区域特征,可以更好地理解视频信息,增加了视频问答问题的准确度,缩小了视频和问题之间的模态差异。

Description

一种基于文本注意力和细粒度信息的视频问答系统、方法、计 算机及存储介质
技术领域
本发明涉及一种视频问答方法,尤其涉及一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。
背景技术
近几年,随着计算机视觉与自然语言处理的发展,大量的视觉与语言研究课题得到了广泛的关注。视频问答是跨模态任务,它包括多种不同模态的数据信息,如视频模态、语音模态、文本模态。
视频问答的任务可以描述为,已知一段视频和与视频内容相关的自然语言描述的问题,通过获取他们的视觉信息和语义信息,对问题给出合适的答案的过程。当人们观看一段视频时,会通过视频帧展现的视觉信息来获取视频中出现的人物、物体、环境等,场景带来的视觉信息使人们对视频内容有了一个整体的了解。
传统的视频问答方法通常通过直接提取视频特征进行推理,而忽略了问题语句和视频的模态差异问题,因此在进行相似度计算后生成的视频特征表示并不是与问题最相关的;此外,大多数视频问答方法提取视频特征时,忽略了视频帧的区域细粒度特征,从而影响最终答案推理的准确性。
因此,如何实现答案推理的准确性显得尤为重要。本发明针对该问题,提出了一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明提供了一种基于文本注意力和细粒度信息的视频问答系统,包括,词嵌入获取模块、视频文本级别特征表示获取模块、视频帧级别特征表示获取模块、问题导向的视频帧级别特征表示获取模块、问题导向的视频特征表示获取模块、视频特征表示融合模块和生成答案获取模块;
所述词嵌入获取模块用于针对问题语句,获取问题语句的词嵌入表示;
所述视频文本级别特征表示获取模块用于将得到的问题语句的词嵌入表示,使用文本注意力机制为视频的每条文本描述生成一个注意力得分,以此为基础获得问题导向的视频文本级别特征表示;
所述视频帧级别特征表示获取模块用于提取视频每一帧中的区域特征,构成视频帧的区域特征集合,根据问题语句的词嵌入表示,使用空间注意力机制为每个区域特征生成一个注意力得分,以此为基础得到问题导向的具有空间注意的视频帧级别特征表示;
所述问题导向的视频帧级别特征表示获取模块用于根据具有空间注意的视频帧级别特征,获得最终的问题导向的视频帧级别特征表示;
所述问题导向的视频特征表示获取模块用于使用三维卷积神经网络C3D获取视频片段,获得问题导向的视频片段级别特征表示;
所述视频特征表示融合模块用于将视频文本级别特征表示、视频帧级别特征表示和视频片段级别特征表示进行特征融合,得到具有问题导向的视频特征表示;
所述答案获取模块用于使用softmax函数计算生成答案。
一种基于文本注意力和细粒度信息的视频问答方法,包括以下步骤:
S1、针对问题语句,获得问题语句的词嵌入表示;
S2、针对一段视频,为每一个视频生成M句的视频文本描述,根据步骤S1得到的问题语句的词嵌入表示,使用文本注意力机制为视频的每条文本描述生成一个注意力得分,以此为基础获得问题导向的视频文本级别特征表示;
S3、针对一段视频,提取视频每一帧中的区域特征,构成视频帧的区域特征集合,根据步骤S1得到的问题语句的词嵌入表示,使用空间注意力机制为每个区域特征生成一个注意力得分,以此为基础得到问题导向的具有空间注意的视频帧级别特征表示;
S4、对于步骤S3所得到的具有空间注意的视频帧级别特征,获得最终的问题导向的视频帧级别特征表示;
S5、使用三维卷积神经网络C3D获取视频片段,获得问题导向的视频片段级别特征表示;
S6、对步骤S2所获得的视频文本级别特征表示,步骤S3所获得的视频帧级别特征表示,步骤S5获得的视频片段级别特征表示进行特征融合,得到具有问题导向的视频特征表示,并生成答案。
优选的,步骤S1所述获得问题语句的词嵌入表示的方法具体是:针对一条问题语句,首先采用词向量编码网络Word2Wec获得问题语句中的每个单词的词嵌入向量表示,然后将每个词嵌入向量表示输入门控循环单元网络GRU中,获得问题的隐状态表示hq作为问题的词嵌入表示。
优选的,步骤S2所述获得问题导向的视频文本级别特征表示的具体方法是:首先使用一个预训练的词汇全卷积神经网络Lexical-FCN为每一个视频生成M句的文本描述s1,s2,...,sM来概括视频中不同区域的内容,其次,使用GRU模型对M句文本描述进行特征的编码表示,记为
Figure BDA0003202398560000031
其中
Figure BDA0003202398560000032
为第i时刻编码的文本描述的隐状态表示,i∈{1,2,...,M};
使用文本注意力机制来计算问题语句与每一句文本描述的相似度,生成每一句文本描述的权重,并进行加权融合得到问题导向的文本描述的文本特征表示,具体的计算过程如下:
a)计算文本特征
Figure BDA0003202398560000033
的注意力分数:
Figure BDA0003202398560000034
其中,hq为问题的词嵌入表示,上标T为矩阵的转置运算,Ws是用来计算文本注意力得分的参数矩阵;
b)对于每一个文本特征
Figure BDA0003202398560000035
使用softmax函数对权重进行数值转换,计算公式如下:
Figure BDA0003202398560000036
c)根据权重系数
Figure BDA0003202398560000037
Figure BDA0003202398560000038
进行加权求和得到问题导向的视频文本级别特征表示,计算公式如下:
Figure BDA0003202398560000039
优选的,步骤S3所述得到问题导向的具有空间注意的视频帧级别特征表示的具体的方法是:
使用预训练的视网膜网络RetinaNet提取每一个视频帧中的区域特征,记为:
Figure BDA00032023985600000310
其中K表示每一帧中区域特征的数量,
Figure BDA00032023985600000311
表示第i帧中的第j个区域特征,
Figure BDA00032023985600000312
表示提取的第i帧的视频帧级别特征,使用空间注意力机制为区域特征分配权重,并进行加权融合得到问题导向的区域特征表示,具体的计算过程如下:
a)计算区域特征
Figure BDA00032023985600000313
的注意力分数:
Figure BDA0003202398560000041
其中,hq为问题的词嵌入表示,W,Wq和Wo为参数矩阵,bo为偏置向量;
b)对于每一个区域特征
Figure BDA0003202398560000042
使用softmax函数对权重进行数值转换,计算公式如下:
Figure BDA0003202398560000043
c)根据权重系数
Figure BDA0003202398560000044
Figure BDA0003202398560000045
进行加权求和得到具有空间注意的视频帧级别特征,计算公式如下:
Figure BDA0003202398560000046
优选的,步骤S4所述获得最终的问题导向的视频帧级别特征表示的具体方法是:针对步骤S3计算得到的具有空间注意的视频帧级别特征表示
Figure BDA0003202398560000047
N表示帧的个数,使用GRU模型对其进行编码表示,记为:
Figure BDA0003202398560000048
Figure BDA0003202398560000049
表示第i时刻编码的视频帧的隐状态特征,使用时间注意力机制筛选冗余帧,通过为每一个视频帧特征分配权重,并根据权重结果进行加权求和,得到问题导向的视频帧特征表示,具体的计算过程如下:
a)计算所给视频帧特征
Figure BDA00032023985600000410
的注意力分数:
Figure BDA00032023985600000411
其中,hq为问题的词嵌入表示,W、Wq和Wf为参数矩阵,bf为偏置向量;
b)对于每一个视频帧特征
Figure BDA00032023985600000412
使用softmax函数对权重进行标准化,计算公式如下:
Figure BDA00032023985600000413
c)根据权重系数
Figure BDA00032023985600000414
Figure BDA00032023985600000415
进行加权求和得到最终问题导向的视频帧级别特征表示,计算公式如下:
Figure BDA0003202398560000051
优选的,步骤S5所述获得问题导向的视频片段级别特征表示的具体的方法是:
使用三维卷积神经网络C3D提取片段级别的视频特征表示,记为
Figure BDA0003202398560000052
Figure BDA0003202398560000053
表示第i个片段特征表示,并使用GRU模型对片段特征编码,记为
Figure BDA0003202398560000054
Figure BDA0003202398560000055
表示第i时刻编码的片段的隐状态特征表示,根据不同的视频片段与问题的相关性不同,使用时间注意力机制来计算每一个视频片段的权重,并根据计算结果进行特征的加权融合,得到问题导向的视频片段特征表示,具体的计算过程如下:
a)计算视频片段特征
Figure BDA0003202398560000056
的注意力分数:
Figure BDA0003202398560000057
其中,hq为问题的词嵌入表示,W、Wq和Wc为参数矩阵,bc为偏置向量;
b)对于每一个视频片段特征
Figure BDA0003202398560000058
使用softmax函数对权重进行标准化,计算公式如下:
Figure BDA0003202398560000059
c)根据权重系数
Figure BDA00032023985600000510
Figure BDA00032023985600000511
进行加权求和得到问题导向的视频片段级别的特征表示,计算公式如下:
Figure BDA00032023985600000512
优选的,步骤S6所述得到具有问题导向的视频特征表示,并生成答案的具体的方法是:
对得到的具有问题导向的视频文本级别特征表示
Figure BDA00032023985600000513
视频帧级别特征表示
Figure BDA00032023985600000514
视频片段级别特征表示
Figure BDA00032023985600000515
进行特征融合得到具有问题导向的视频特征表示,并使用softmax函数来计算答案集中单词的概率分布,最终答案预测的计算公式如下:
Figure BDA00032023985600000516
其中,[]表示向量的连接,Wa是一个参数矩阵,ba是一个偏置向量。
一种计算机,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现一种基于文本注意力和细粒度信息的视频问答方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种基于文本注意力和细粒度信息的视频问答方法。
本发明的有益效果如下:
(1)与现有技术相比,本发明通过为视频生成文本描述的方式,缩小了视频与问题之间的模态差异。
(2)通过提取视频的细粒度区域特征,可以更好地理解视频信息,增加了回答问题的准确度。
(3)通过对视频帧特征和视频片段特征引入时间注意力机制,获得与问题相关的视频帧和视频片段,排除了冗余信息,进一步增加了回答问题的准确度并提高了问题推理的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一所述视频问答系统的结构示意图;
图2为本发明实施例二所述视频问答方法流程示意图;
图3为本发明实施例二所述视频问答方法原理示意图;
图4为本发明视频问答方法的结果示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一:
参照图1说明本实施方式,本实施例的一种基于文本注意力和细粒度信息的视频问答系统,包括,词嵌入获取模块、视频文本级别特征表示获取模块、视频帧级别特征表示获取模块、问题导向的视频帧级别特征表示获取模块、问题导向的视频特征表示获取模块、视频特征表示融合模块和生成答案获取模块;
所述词嵌入获取模块用于针对问题语句,获取问题语句的词嵌入表示;
所述视频文本级别特征表示获取模块用于将得到的问题语句的词嵌入表示,使用文本注意力机制为视频的每条文本描述生成一个注意力得分,以此为基础获得问题导向的视频文本级别特征表示;
所述视频帧级别特征表示获取模块用于提取视频每一帧中的区域特征,构成视频帧的区域特征集合,根据问题语句的词嵌入表示,使用空间注意力机制为每个区域特征生成一个注意力得分,以此为基础得到问题导向的具有空间注意的视频帧级别特征表示;
所述问题导向的视频帧级别特征表示获取模块用于根据具有空间注意的视频帧级别特征,获得最终的问题导向的视频帧级别特征表示;
所述问题导向的视频特征表示获取模块用于使用三维卷积神经网络C3D获取视频片段,获得问题导向的视频片段级别特征表示;
所述视频特征表示融合模块用于将视频文本级别特征表示、视频帧级别特征表示和视频片段级别特征表示进行特征融合,得到具有问题导向的视频特征表示;
所述答案获取模块用于使用softmax函数计算生成答案。
实施例二:
参照图2至图4说明本实施方式,本实施例的一种基于文本注意力和细粒度信息的视频问答方法,包括以下步骤:
S1、针对问题语句,获得问题语句的词嵌入表示;
具体的,针对一条问题语句,采用词嵌入方式获得问题语句的词嵌入表示,首先采用词向量编码网络Word2Wec获得问题语句中的每个单词的词嵌入向量表示,然后将每个词嵌入向量表示输入门控循环单元网络GRU中,获得问题的隐状态表示hq作为问题的词嵌入表示。
S2、针对一段视频,为每一个视频生成M句的视频文本描述,根据步骤S1得到的问题语句的词嵌入表示,使用文本注意力机制为视频的每条文本描述生成一个注意力得分,以此为基础获得问题导向的视频文本级别特征表示;
具体的,针对一段视频,首先使用一个预训练的词汇全卷积神经网络Lexical-FCN为每一个视频生成M句的文本描述s1,s2,...,sM来概括视频中不同区域的内容,其次,使用GRU模型对M句文本描述进行特征的编码表示,记为
Figure BDA0003202398560000071
其中
Figure BDA0003202398560000072
为第i时刻编码的文本描述的隐状态表示,i∈{1,2,...,M};
使用文本注意力机制来计算问题语句与每一句文本描述的相似度,生成每一句文本描述的权重,并进行加权融合得到问题导向的文本描述的文本特征表示,具体的计算过程如下:
a)计算文本特征
Figure BDA0003202398560000073
的注意力分数:
Figure BDA0003202398560000074
其中,hq为问题的词嵌入表示,上标T为矩阵的转置运算,Ws是用来计算文本注意力得分的参数矩阵;
b)对于每一个文本特征
Figure BDA0003202398560000081
使用softmax函数对权重进行数值转换,计算公式如下:
Figure BDA0003202398560000082
c)根据权重系数
Figure BDA0003202398560000083
Figure BDA0003202398560000084
进行加权求和得到问题导向的视频文本级别特征表示,计算公式如下:
Figure BDA0003202398560000085
S3、针对一段视频,提取视频每一帧中的区域特征,构成视频帧的区域特征集合,根据步骤S1得到的问题语句的词嵌入表示,使用空间注意力机制为每个区域特征生成一个注意力得分,以此为基础得到问题导向的具有空间注意的视频帧级别特征表示;
具体的,针对一段视频,使用预训练的视网膜网络RetinaNet提取视频每一帧中的区域特征,构成视频帧的区域特征集合,根据步骤S1得到的问题语句的词嵌入表示,使用空间注意力机制为每个区域特征生成一个注意力得分,以此为基础得到问题导向的具有空间注意的视频帧级别特征表示;
具体的,使用预训练的视网膜网络RetinaNet提取每一个视频帧中的区域特征,记为:
Figure BDA0003202398560000086
其中K表示每一帧中区域特征的数量,
Figure BDA0003202398560000087
表示第i帧中的第j个区域特征,
Figure BDA0003202398560000088
表示提取的第i帧的视频帧级别特征,使用空间注意力机制为区域特征分配权重,并进行加权融合得到问题导向的区域特征表示,具体的计算过程如下:
a)计算区域特征
Figure BDA0003202398560000089
的注意力分数:
Figure BDA00032023985600000810
其中,hq为问题的词嵌入表示,W、Wq和Wo为参数矩阵,bo为偏置向量;
b)对于每一个区域特征
Figure BDA00032023985600000811
使用softmax函数对权重进行数值转换,计算公式如下:
Figure BDA00032023985600000812
c)根据权重系数
Figure BDA00032023985600000813
Figure BDA00032023985600000814
进行加权求和得到具有空间注意的视频帧级别特征,计算公式如下:
Figure BDA0003202398560000091
S4、对于步骤S3所得到的具有空间注意的视频帧级别特征,获得最终的问题导向的视频帧级别特征表示;
具体的,使用时间注意力机制,获得最终的问题导向的视频帧级别特征表示;
具体的,针对步骤S3计算得到的具有空间注意的视频帧级别特征表示
Figure BDA0003202398560000092
N表示帧的个数,使用GRU模型对其进行编码表示,记为:
Figure BDA0003202398560000093
Figure BDA0003202398560000094
表示第i时刻编码的视频帧的隐状态特征,使用时间注意力机制筛选冗余帧,通过为每一个视频帧特征分配权重,并根据权重结果进行加权求和,得到问题导向的视频帧特征表示,具体的计算过程如下:
a)计算视频帧特征
Figure BDA0003202398560000095
的注意力分数:
Figure BDA0003202398560000096
其中,hq为问题的词嵌入表示,W,Wq和Wf为参数矩阵,bf为偏置向量;
b)对于每一个视频帧特征
Figure BDA0003202398560000097
使用softmax函数对权重进行标准化,计算公式如下:
Figure BDA0003202398560000098
c)根据权重系数
Figure BDA0003202398560000099
Figure BDA00032023985600000910
进行加权求和得到最终问题导向的视频帧级别特征表示,计算公式如下:
Figure BDA00032023985600000911
S5、使用三维卷积神经网络C3D获取视频片段,获得问题导向的视频片段级别特征表示;
具体的,使用三维卷积神经网络C3D获取视频片段,使用时间注意力机制获得问题导向的视频片段级别特征表示;
具体的,使用三维卷积神经网络C3D提取片段级别的视频特征表示,记为
Figure BDA0003202398560000101
Figure BDA0003202398560000102
表示第i个片段特征表示,并使用GRU模型对片段特征编码,记为
Figure BDA0003202398560000103
Figure BDA0003202398560000104
表示第i时刻编码的片段的隐状态特征表示,根据不同的视频片段与问题的相关性不同,使用时间注意力机制来计算每一个视频片段的权重,并根据计算结果进行特征的加权融合,得到问题导向的视频片段特征表示,具体的计算过程如下:
a)计算视频片段特征
Figure BDA0003202398560000105
的注意力分数:
Figure BDA0003202398560000106
其中,hq为问题的词嵌入表示,W,Wq和Wc为参数矩阵,bc为偏置向量;
b)对于每一个视频片段特征
Figure BDA0003202398560000107
使用softmax函数对权重进行标准化,计算公式如下:
Figure BDA0003202398560000108
c)根据权重系数
Figure BDA0003202398560000109
Figure BDA00032023985600001010
进行加权求和得到问题导向的视频片段级别的特征表示,计算公式如下:
Figure BDA00032023985600001011
S6、对步骤S2所获得的视频文本级别特征表示,步骤S3所获得的视频帧级别特征表示,步骤S5获得的视频片段级别特征表示进行特征融合,得到具有问题导向的视频特征表示,并生成答案。
具体的,使用Softmax函数来计算答案集中单词的概率分布。
具体的,对得到的具有问题导向的视频文本级别特征表示
Figure BDA00032023985600001012
视频帧级别特征表示
Figure BDA00032023985600001013
视频片段级别特征表示
Figure BDA00032023985600001014
进行特征融合得到具有问题导向的视频特征表示,并使用softmax函数来计算答案集中单词的概率分布,最终答案预测的计算公式如下:
Figure BDA00032023985600001015
其中,[]表示向量的连接,Wa是一个参数矩阵,ba是一个偏置向量。
对本发明提出的方法进行实验分析:
在视频问答数据集ActivityNet-QA上对本专利所提方法进行实验分析;
ActivityNet-QA源自于ActivityNet数据集,侧重于从用户产生的视频中识别出日常生活,高层次,面向目标的活动,包括了14429个视频剪辑,71961个自然语言描述和130161个问答对,视频的平均长度为180s,其中,问答对是根据给定问题模板由人工方式生成的,包括以下四种类型:Motion类型问题,问题需要针对粗略的时间行为进行理解;Spatial Relationship类型问题,主要是基于静态视频帧进行空间推理;TemporalRelationship类型问题,需要发现连续视频帧之间的关系;Free类型问题,包含两种及以上上述类型的组合,本发明根据答案属性将问题分为五类,分别是What、Who、How、Where和Other。
本发明将ActivityNet-QA数据集划分为75%的训练集,5%的验证集和20%的测试集,并对问答对中的答案进行单词统计,选择了词汇表中前1000个出现次数最多的单词作为答案集。
使用Word2Vec模型编码问题和答案,维度大小为300维,对于在词汇表中找不到的词,其词嵌入特征可以通过计算已有词嵌入特征的均值得到。
为了客观地评价本发明的性能,按实施方式中描述的步骤,测试了本发明在ActivityNet-QA数据集上的性能,所得的实验结果的准确率达到38.2%。
Figure BDA0003202398560000111
本发明的工作原理:
1)使用一个预训练的Lexical-FCN模型为每一个视频生成M句文本描述,并采用文本注意力机制为每条文本描述生成一个注意力得分,以此得到问题相关的文本级别特征。
2)提取视频中细粒度的区域特征,同时采用空间注意力机制对提取的区域特征打分,以此得到问题相关的帧级别特征。
3)使用时间注意力机制得到与问题最相关的帧和视频片段,并利用视频文本级别特征、帧级别特征和片段级别特征预测最终答案。
本发明缩小了视频和问题之间的模态差异,并充分利用视频的细粒度信息,可有效提高视频问答的准确率。
本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于文本注意力和细粒度信息的视频问答系统,其特征在于,包括,词嵌入获取模块、视频文本级别特征表示获取模块、视频帧级别特征表示获取模块、问题导向的视频帧级别特征表示获取模块、问题导向的视频特征表示获取模块、视频特征表示融合模块和生成答案获取模块;
所述词嵌入获取模块用于针对问题语句,获取问题语句的词嵌入表示;
所述视频文本级别特征表示获取模块用于将得到的问题语句的词嵌入表示,使用文本注意力机制为视频的每条文本描述生成一个注意力得分,以此为基础获得问题导向的视频文本级别特征表示,具体方法是,针对一段视频,为每一个视频生成M句的视频文本描述,根据得到的问题语句的词嵌入表示,使用文本注意力机制为视频的每条文本描述生成一个注意力得分,以此为基础获得问题导向的视频文本级别特征表示;
所述视频帧级别特征表示获取模块用于提取视频每一帧中的区域特征,构成视频帧的区域特征集合,根据问题语句的词嵌入表示,使用空间注意力机制为每个区域特征生成一个注意力得分,以此为基础得到问题导向的具有空间注意的视频帧级别特征表示;
所述问题导向的视频帧级别特征表示获取模块用于根据具有空间注意的视频帧级别特征,获得最终的问题导向的视频帧级别特征表示;
所述问题导向的视频特征表示获取模块用于使用三维卷积神经网络C3D获取视频片段,获得问题导向的视频片段级别特征表示;
所述视频特征表示融合模块用于将视频文本级别特征表示、视频帧级别特征表示和视频片段级别特征表示进行特征融合,得到具有问题导向的视频特征表示;
所述答案获取模块用于使用softmax函数计算生成答案。
2.一种基于文本注意力和细粒度信息的视频问答方法,其特征在于,包括以下步骤:
S1、针对问题语句,获得问题语句的词嵌入表示;
S2、针对一段视频,为每一个视频生成M句的视频文本描述,根据步骤S1得到的问题语句的词嵌入表示,使用文本注意力机制为视频的每条文本描述生成一个注意力得分,以此为基础获得问题导向的视频文本级别特征表示;
S3、针对一段视频,提取视频每一帧中的区域特征,构成视频帧的区域特征集合,根据步骤S1得到的问题语句的词嵌入表示,使用空间注意力机制为每个区域特征生成一个注意力得分,以此为基础得到问题导向的具有空间注意的视频帧级别特征表示;
S4、对于步骤S3所得到的具有空间注意的视频帧级别特征,获得最终的问题导向的视频帧级别特征表示;
S5、使用三维卷积神经网络C3D获取视频片段,获得问题导向的视频片段级别特征表示;
S6、对步骤S2所获得的视频文本级别特征表示,步骤S3所获得的视频帧级别特征表示,步骤S5获得的视频片段级别特征表示进行特征融合,得到具有问题导向的视频特征表示,并生成答案。
3.根据权利要求2所述的方法,其特征在于,步骤S1所述获得问题语句的词嵌入表示的方法具体是:针对一条问题语句,首先采用词向量编码网络Word2Wec获得问题语句中的每个单词的词嵌入向量表示,然后将每个词嵌入向量表示输入门控循环单元网络GRU中,获得问题的隐状态表示hq作为问题的词嵌入表示。
4.根据权利要求3所述的方法,其特征在于,步骤S2所述获得问题导向的视频文本级别特征表示的具体方法是:首先使用一个预训练的词汇全卷积神经网络Lexical-FCN为每一个视频生成M句的文本描述s1,s2,...,sM来概括视频中不同区域的内容,其次,使用GRU模型对M句文本描述进行特征的编码表示,记为
Figure FDA0003562626860000021
其中
Figure FDA0003562626860000022
为第i时刻编码的文本描述的隐状态表示,i∈{1,2,...,M};
使用文本注意力机制来计算问题语句与每一句文本描述的相似度,生成每一句文本描述的权重,并进行加权融合得到问题导向的文本描述的文本特征表示,具体的计算过程如下:
a)计算文本特征
Figure FDA0003562626860000023
的注意力分数:
Figure FDA0003562626860000024
其中,hq为问题的词嵌入表示,上标T为矩阵的转置运算,Ws是用来计算文本注意力得分的参数矩阵;
b)对于每一个文本特征
Figure FDA0003562626860000025
使用softmax函数对权重进行数值转换,计算公式如下:
Figure FDA0003562626860000026
c)根据权重系数
Figure FDA0003562626860000027
Figure FDA0003562626860000028
进行加权求和得到问题导向的视频文本级别特征表示,计算公式如下:
Figure FDA0003562626860000029
5.根据权利要求4所述的方法,其特征在于,步骤S3所述得到问题导向的具有空间注意的视频帧级别特征表示的具体方法是:
使用预训练的视网膜网络RetinaNet提取每一个视频帧中的区域特征,记为:
Figure FDA0003562626860000031
其中K表示每一帧中区域特征的数量,
Figure FDA0003562626860000032
表示第i帧中的第j个区域特征,
Figure FDA0003562626860000033
表示提取的第i帧的视频帧级别特征,使用空间注意力机制为区域特征分配权重,并进行加权融合得到问题导向的区域特征表示,具体的计算过程如下:
a)计算区域特征
Figure FDA0003562626860000034
的注意力分数:
Figure FDA0003562626860000035
其中,hq为问题的词嵌入表示,W、Wq和Wo为参数矩阵,bo为偏置向量;
b)对于每一个区域特征
Figure FDA0003562626860000036
使用softmax函数对权重进行数值转换,计算公式如下:
Figure FDA0003562626860000037
c)根据权重系数
Figure FDA0003562626860000038
Figure FDA0003562626860000039
进行加权求和得到具有空间注意的视频帧级别特征,计算公式如下:
Figure FDA00035626268600000310
6.根据权利要求5所述的方法,其特征在于,步骤S4所述获得最终的问题导向的视频帧级别特征表示的具体方法是:针对步骤S3计算得到的具有空间注意的视频帧级别特征表示
Figure FDA00035626268600000311
N表示帧的个数,使用GRU模型对其进行编码表示,记为:
Figure FDA00035626268600000312
Figure FDA00035626268600000313
表示第i时刻编码的视频帧的隐状态特征,使用时间注意力机制筛选冗余帧,通过为每一个视频帧特征分配权重,并根据权重结果进行加权求和,得到问题导向的视频帧特征表示,具体的计算过程如下:
a)计算所给视频帧特征
Figure FDA00035626268600000314
的注意力分数:
Figure FDA00035626268600000315
其中,hq为问题的词嵌入表示,W、Wq和Wf为参数矩阵,bf为偏置向量;
b)对于每一个视频帧级别特征
Figure FDA0003562626860000041
使用softmax函数对权重进行标准化,计算公式如下:
Figure FDA0003562626860000042
c)根据权重系数
Figure FDA0003562626860000043
Figure FDA0003562626860000044
进行加权求和得到最终问题导向的视频帧级别特征表示,计算公式如下:
Figure FDA0003562626860000045
7.根据权利要求6所述的方法,其特征在于,步骤S5所述获得问题导向的视频片段级别特征表示的具体的方法是:
使用三维卷积神经网络C3D提取片段级别的视频特征表示,记为
Figure FDA0003562626860000046
Figure FDA0003562626860000047
表示第i个片段特征表示,并使用GRU模型对片段特征编码,记为
Figure FDA0003562626860000048
Figure FDA0003562626860000049
表示第i时刻编码的片段的隐状态特征表示,根据不同的视频片段与问题的相关性不同,使用时间注意力机制来计算每一个视频片段的权重,并根据计算结果进行特征的加权融合,得到问题导向的视频片段特征表示,具体的计算过程如下:
a)计算视频片段特征
Figure FDA00035626268600000410
的注意力分数:
Figure FDA00035626268600000411
其中,hq为问题的词嵌入表示,W,Wq和Wc为参数矩阵,bc为偏置向量;
b)对于每一个视频片段特征
Figure FDA00035626268600000412
使用softmax函数对权重进行标准化,计算公式如下:
Figure FDA00035626268600000413
c)根据权重系数
Figure FDA00035626268600000414
Figure FDA00035626268600000415
进行加权求和得到问题导向的视频片段级别的特征表示,计算公式如下:
Figure FDA00035626268600000416
8.根据权利要求7所述的方法,其特征在于,步骤S6所述得到具有问题导向的视频特征表示,并生成答案的具体的方法是:
对得到的具有问题导向的视频文本级别特征表示
Figure FDA00035626268600000417
视频帧级别特征表示
Figure FDA00035626268600000418
视频片段级别特征表示
Figure FDA0003562626860000051
进行特征融合得到具有问题导向的视频特征表示,并使用softmax函数来计算答案集中单词的概率分布,最终答案预测的计算公式如下:
Figure FDA0003562626860000052
其中,[]表示向量的连接,Wa是一个参数矩阵,ba是一个偏置向量。
9.一种计算机,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求2至8任一项所述的一种基于文本注意力和细粒度信息的视频问答方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至8任一项所述的一种基于文本注意力和细粒度信息的视频问答方法。
CN202110907635.XA 2021-07-15 2021-08-09 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 Active CN113609330B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021108000067 2021-07-15
CN202110800006 2021-07-15

Publications (2)

Publication Number Publication Date
CN113609330A CN113609330A (zh) 2021-11-05
CN113609330B true CN113609330B (zh) 2022-06-14

Family

ID=78307616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110907635.XA Active CN113609330B (zh) 2021-07-15 2021-08-09 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN113609330B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758450B (zh) * 2023-05-15 2024-02-27 哈尔滨理工大学 一种基于时空图和相似图的协同注意力推理的视频问答方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080104526A (ko) * 2007-05-28 2008-12-03 주식회사 케이티프리텔 영상 메시지 서비스 시스템 및 방법과 이를 위한 장치
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110990628A (zh) * 2019-12-06 2020-04-10 浙江大学 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9974506B2 (en) * 2013-11-05 2018-05-22 International Business Machines Corporation Associating coronary angiography image annotations with syntax scores for assessment of coronary artery disease
US11379519B2 (en) * 2018-12-07 2022-07-05 Seoul National University R&Db Foundation Query response device and method
CN111008302B (zh) * 2019-11-18 2022-04-29 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080104526A (ko) * 2007-05-28 2008-12-03 주식회사 케이티프리텔 영상 메시지 서비스 시스템 및 방법과 이를 위한 장치
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110990628A (zh) * 2019-12-06 2020-04-10 浙江大学 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

Also Published As

Publication number Publication date
CN113609330A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN110232564A (zh) 一种基于多模态数据的交通事故法律自动决策方法
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN113609330B (zh) 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
CN112949293B (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN113590879B (zh) 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN115859112A (zh) 模型训练方法、识别方法、装置、处理设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113609355B (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN112651403B (zh) 基于语义嵌入的零样本视觉问答方法
CN117077672B (zh) 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法
CN116612365B (zh) 基于目标检测和自然语言处理的图像字幕生成方法
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN116612466B (zh) 基于人工智能的内容识别方法、装置、设备及介质
CN117932009A (zh) 基于ChatGLM模型的保险客服对话生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant