CN112860847B - 视频问答的交互方法及系统 - Google Patents

视频问答的交互方法及系统 Download PDF

Info

Publication number
CN112860847B
CN112860847B CN202110069976.4A CN202110069976A CN112860847B CN 112860847 B CN112860847 B CN 112860847B CN 202110069976 A CN202110069976 A CN 202110069976A CN 112860847 B CN112860847 B CN 112860847B
Authority
CN
China
Prior art keywords
visual
semantic
global
feature
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110069976.4A
Other languages
English (en)
Other versions
CN112860847A (zh
Inventor
刘静
王卫宁
刘飞
卢汉清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Zidong Taichu (Beijing) Technology Co.,Ltd.
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110069976.4A priority Critical patent/CN112860847B/zh
Publication of CN112860847A publication Critical patent/CN112860847A/zh
Application granted granted Critical
Publication of CN112860847B publication Critical patent/CN112860847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。

Description

视频问答的交互方法及系统
技术领域
本发明涉及计算机视觉和自然语言处理技术领域,特别涉及一种基于层级视觉-语义图记忆网络的视频问答的交互方法及系统。
背景技术
视频问答任务是一个跨越计算机视觉和自然语言处理领域的交叉学科。该任务旨在根据视频内容来回答相应的问题,涉及到许多计算机技术,包括视频目标识别、信息检索、关系推理等。这些都需要机器能够理解视频内容,因而视频理解是该任务的核心问题。视频问答在实际中有许多应用,比如自动救援搜索、辅助视觉障碍患者、智能家居管理等。
为了能更好的理解视频内容,机器必须理解视频帧中目标之间的关系以及视频帧之间的关系,因而关系的推理建模是视频理解的核心。目前的方法存在两个重要的缺陷:第一,这些现有方法要么只建模目标级别的关系,要么只建模视频帧级别的关系,没有去联合地建模这两类关系;第二,这些现有方法只考虑视觉关系的推理和建模,忽视了利用语义知识来建模语义关系。这些缺陷严重地限制了机器对视频的理解程度,从而影响问答的准确性。
发明内容
为了解决现有技术中的上述问题,即为了提高针对视频问题的答案的准确性,本发明的目的在于提供一种视频问答的交互方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种视频问答的交互方法,所述交互方法包括:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
可选地,所述从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中目标的第一视觉特征及第一语义特征,具体包括:
通过目标区域定位网络从原始视频的各帧图像中定位出目标区域;
针对每帧图像,从所述目标区域中提取目标的多个第一视觉特征;
根据各目标区域预测类别标签,得到语义标签;
通过词向量模型从所述语义标签中提取目标的多个第一语义特征;
利用词向量模型和循环神经网络,从问题文本中提取问题的文本特征。
可选地,所述根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征,具体包括:
根据所述文本特征及目标的第一视觉特征,建立目标级别的视觉关系网络;
基于所述目标级别的视觉关系网络,根据所述第一视觉特征,得到所述目标的第二视觉特征;
根据所述文本特征及目标的第一语义特征,建立目标级别的语义关系网络;
基于所述目标级别的语义关系网络,根据所述第一语义特征,得到所述目标的第二语义特征。
可选地,所述根据所述文本特征及目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示,具体包括:
将所述文本特征分别与各目标的第二视觉特征,进行特征融合,得到对应的目标特征;
通过注意力机制,计算各目标特征的注意力权重;
通过各注意力权重对每帧图像中的所有目标特征进行加权求和,得到该帧图像的第一全局视觉表示;
通过平均池化机制聚合每帧图像中目标的第二语义特征,得到该帧图像的第一全局语义表示。
可选地,所述根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示,具体包括:
根据所述文本特征及各帧图像的第一全局视觉表示,建立视频帧级别的视觉关系网络;
基于所述视频帧级别的视觉关系网络,根据各帧图像的第一全局视觉表示,得到各帧图像的第二全局视觉表示;
根据所述文本特征及各帧图像的第一全局语义表示,建立视频帧级别的语义关系网络;
基于所述视频帧级别的语义关系网络,根据各帧图像的第一全局语义表示,得到各帧图像的第二全局语义表示;
将各帧图像的第二全局语义表示映射至视觉空间,与对应的第二全局视觉表示相加,得到各帧图像的全局视觉表示。
可选地,所述根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示,具体包括:
将所述文本特征分别与各帧图像的全局视觉表示,进行特征融合,得到对应的全局视觉特征;
通过注意力机制,计算各全局视觉特征的注意力权重;
通过各注意力权重对原始视频中每帧图像的全局视觉特征进行加权求和,得到原始视频的全局视觉特征表示。
可选地,所述根据所述全局视觉特征表示及文本特征,得到所述问题文本对应的问题答案,具体包括:
根据所述文本特征,获取对应的历史候选答案;
将所述全局视觉特征表示及文本特征进行多模态融合,得到融合数据;
根据所述融合数据,确定各历史候选答案的得分,其中得分最高的历史候选答案为所述原始视频的问题答案。
为解决上述技术问题,本发明还提供了如下方案:
一种视频问答的交互系统,所述视频问答的交互系统包括:
特征提取单元,用于从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
第一确定单元,用于针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
第一融合单元,用于根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
第二确定单元,用于根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
第二融合单元,用于根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
第三融合单元,用于根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
为解决上述技术问题,本发明还提供了如下方案:
一种视频问答的交互系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过从原始视频中提取目标级别的第一视觉特征及第一语义特征,从问题文本中提取文本特征,根据第一视觉特征、第一语义特征及文本特征,得到视频帧级别的第一全局视觉表示及第一全局语义表示,可便于更好的理解视频内容,进一步确定原始视频的全局视觉特征表示,并根据文本特征,可得到所述原始视频的问题答案,提高答案预测的准确度。
附图说明
图1是本发明视频问答的交互方法的流程图;
图2是层级视觉-语义图记忆网络的流程图;
图3是第一视觉图记忆模块的示意图;
图4为第一语义图记忆模块的示意图;
图5为本发明视频问答的交互系统的模块结构示意图。
符号说明:
特征提取单元-1,第一确定单元-2,第一融合单元-3,第二确定单元-4,第二融合单元-5,第三融合单元-6。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种视频问答的交互方法,通过从原始视频中提取目标级别的第一视觉特征及第一语义特征,从问题文本中提取文本特征,根据第一视觉特征、第一语义特征及文本特征,得到视频帧级别的第一全局视觉表示及第一全局语义表示,可便于更好的理解视频内容,进一步确定原始视频的全局视觉特征表示,并根据文本特征,可得到所述原始视频的问题答案,提高答案预测的准确度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1和图2所示,本发明视频问答的交互方法包括:
步骤100:从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征。其中,所述原始视频包括多帧图像。
步骤200:针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征。
步骤300:根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示。
步骤400:根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示。
步骤500:根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示。
步骤600:根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
其中,在步骤100中,所述从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中目标的第一视觉特征及第一语义特征,具体包括:
步骤110:通过目标区域定位网络从原始视频的各帧图像中定位出目标区域;
步骤120:针对每帧图像,从所述目标区域中提取目标的多个第一视觉特征;
步骤130:根据各目标区域预测类别标签,得到语义标签;
步骤140:通过词向量模型从所述语义标签中提取目标的多个第一语义特征;
步骤150:利用词向量模型和循环神经网络,从问题文本中提取问题的文本特征。
在本实施例中,采用GloVe词向量模型和Bi-LSTM循环神经网络来从问题文本中提取文本特征;采用在Visual Genome数据集上预训练好的Faster R-CNN来从视频帧中同时提取目标的第一视觉特征和语义标签;进一步使用预训练的fastText模型来提取第一语义特征。
在步骤200中,所述根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征,具体包括:
步骤210:根据所述文本特征及目标的第一视觉特征,建立目标级别的视觉关系网络。
步骤220:基于所述目标级别的视觉关系网络,根据所述第一视觉特征,得到所述目标的第二视觉特征。
具体地,本发明通过第一视觉图记忆模块,利用目标的第一视觉特征来迭代更新,从而建模目标级别的视觉关系网络。
其中,第一视觉图记忆模块是在普通记忆网络(Memory Network)的基础上,将记忆单元组织成全连接图(Fully Connected Graph)的结构。如图3所示,第一视觉图记忆模块包括:图结构的记忆单元(又称为记忆节点)和可学习的读写控制器。
其中,记忆节点用来储存目标的第一视觉特征,读写控制器用来读取和写入(更新)记忆节点的内容。
步骤220具体包括以下步骤:
首先,初始化记忆节点和读写控制器的状态;通过目标的第一视觉特征来初始化记忆节点;通过文本特征来初始化读写控制器的状态。其次,读写控制器迭代地读取和更新记忆节点的内容。在每次迭代,读写控制器读取记忆节点的内容如下:
Figure BDA0002905662620000101
其中,h(k-1)表示读写控制器上一次迭代的状态,vi (k-1)表示第i个视觉图记忆节点在上一次迭代的状态,r(k)表示读写控制器读取的内容,Wr a,Ur a和Vr a表示可学习的权重参数,上标(k-1)和(k)表示迭代次数的索引。在读取记忆节点的内容后,读写控制器更新自身的状态如下:
Figure BDA0002905662620000102
其中,σ表示sigmoid函数,
Figure BDA0002905662620000103
表示Hadamard乘积,h(k)表示读写控制器更新后的状态,Wr h、Ur h、Wr g和Ur g表示可学习的权重参数。在读操作之后,读写控制器需要更新记忆节点的内容。首先,借助图结构,每个记忆节点收集来自其他相邻节点的信息:
Figure BDA0002905662620000111
其中,MLP表示多层感知机函数,由两个线性变换层加中间的ReLU函数组成;[;]表示特征拼接;ei,j (k)表示第i个和第j个节点之间连边的权重。
最后,记忆节点的内容被更新如下:
Figure BDA0002905662620000112
其中,vi (k)表示第i个视觉图记忆节点更新后的状态,即第二视觉特征。
步骤230根据所述文本特征及目标的第一语义特征,建立目标级别的语义关系网络。
步骤240:基于所述目标级别的语义关系网络,根据所述第一语义特征,得到所述目标的第二语义特征。
具体地,在本实施例中,通过第一语义图记忆模块,利用目标的语义标签信息来迭代更新,从而建模目标级别的语义关系。第一语义图记忆模块在视觉图记忆模块的基础上,增加了视觉到语义节点映射和语义到视觉节点映射机制。
如图4所示,所述第一语义图记忆模块包括:图结构的记忆节点、可学习的读写控制器、视觉到语义节点映射和语义到视觉节点映射机制。记忆节点用来储存目标的语义特征;读写控制器用来读取和更新记忆节点的内容;视觉到语义节点映射和语义到视觉节点映射机制用来交换视觉和语义信息,丰富彼此的特征表示。
步骤240具体包括以下步骤:
首先,初始化记忆节点和读写控制器的状态;通过目标的第一语义标签特征来初始化语义图记忆节点;通过文本特征来初始化读写控制器的状态。在做迭代的读写操作之前,使用视觉到语义节点映射机制引入视觉信息来丰富语义特征:
Figure BDA0002905662620000121
其中,Wi vs和Wp v表示可学习的权重参数,|S|表示语义图记忆节点的数量,|V|表示视觉图记忆节点的数量,vj (0)表示第j个视觉图记忆节点的状态;该过程将每个视觉图记忆节点的信息映射到第i个语义图记忆节点。使用fi vs和初始的语义图记忆节点si (0)进行特征拼接来更新第i个语义图记忆节点为:
Figure BDA0002905662620000122
其次,读写控制器迭代地读取和更新记忆节点的内容,具体操作与视觉图记忆模块一致,在此不再赘述。假定迭代次数为Ks,在经过Ks次迭代更新后,使用语义到视觉节点映射机制来交换语义信息到视觉空间:
Figure BDA0002905662620000123
其中,
Figure BDA0002905662620000131
表示在Ks次迭代后第j个语义图记忆节点的状态,vi (0)表示初始的第i个视觉图记忆节点的状态,Wi sv和Wp s表示可学习的权重参数。
最后,使用残差连接来更新第i个视觉图记忆节点表示(即第二语义特征):
Figure BDA0002905662620000132
进一步地,在步骤300中,所述根据所述文本特征及目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示,具体包括:
步骤310:将所述文本特征分别与各目标的第二视觉特征,进行特征融合,得到对应的目标特征;
步骤320:通过注意力机制(Attention Mechanism),计算各目标特征的注意力权重;
步骤330:通过各注意力权重对每帧图像中的所有目标特征进行加权求和,得到该帧图像的第一全局视觉表示;
步骤340:通过平均池化(Average Pooling)机制来聚合每帧图像中目标的第二语义特征,得到该帧图像的第一全局语义表示。
进一步地,在步骤400中,所述根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示,具体包括:
步骤410:根据所述文本特征及各帧图像的第一全局视觉表示,建立视频帧级别的视觉关系网络。
步骤420:基于所述视频帧级别的视觉关系网络,根据各帧图像的第一全局视觉表示,得到各帧图像的第二全局视觉表示。
本发明引入第二视觉图记忆模块,利用视频帧的第一全局视觉表示来迭代更新,从而建模视频帧级别的视觉关系网络;第二视觉图记忆模块的结构与计算过程和所述第一视觉图记忆模块一致;不同之处在于所述第二视觉图记忆模块的记忆节点用来储存视频帧的第一全局视觉表示。
步骤420具体包括以下步骤:
首先,初始化记忆节点和读写控制器的状态;通过各帧图像的第一全局视觉表示来初始化记忆节点;使用文本特征来初始化读写控制器的状态。然后读写控制器迭代地读取和更新记忆节点的内容。
步骤430:根据所述文本特征及各帧图像的第一全局语义表示,建立视频帧级别的语义关系网络。
步骤440:基于所述视频帧级别的语义关系网络,根据各帧图像的第一全局语义表示,得到各帧图像的第二全局语义表示。
步骤450:将各帧图像的第二全局语义表示映射至视觉空间,与对应的第二全局视觉表示相加,得到各帧图像的全局视觉表示。
在本实施例中,引入第二语义图记忆模块,利用视频帧的第一全局语义表示来迭代更新,从而建模视频帧级别的语义关系。第二语义图记忆模块的结构与计算过程和所述第一语义图记忆模块一致;不同之处在于该第二语义图记忆模块的记忆节点用来储存视频帧的第一全局语义表示。
步骤440具体包括:
首先,初始化记忆节点和读写控制器的状态;使用第一全局语义表示来初始化记忆节点;使用文本特征来初始化读写控制器的状态。在做迭代的读取操作之前,使用视觉到语义节点映射机制引入第二全局视觉表示来丰富语义特征:然后读写控制器迭代地读取和更新记忆节点的内容。
步骤450具体包括:使用第二全局语义表示到视觉节点映射机制将更新后的语义特征映射回视觉空间,与第二全局视觉表示相加得到最后的输出,即各帧图像的全局视觉表示。
在步骤500中,所述根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示,具体包括:
步骤510:将所述文本特征分别与各帧图像的全局视觉表示,进行特征融合,得到对应的全局视觉特征;
步骤520:通过注意力机制,计算各全局视觉特征的注意力权重;
步骤530:通过各注意力权重对原始视频中每帧图像的全局视觉特征进行加权求和,得到原始视频的全局视觉特征表示。
在步骤600中,所述根据所述全局视觉特征表示及文本特征,得到所述问题文本对应的问题答案,具体包括:
步骤610:根据所述文本特征,获取对应的历史候选答案;
步骤620:将所述全局视觉特征表示及文本特征进行多模态融合,得到融合数据;
步骤630:根据所述融合数据,确定各历史候选答案的得分,其中得分最高的历史候选答案为所述原始视频的问题答案。
优选地,本发明使用交叉熵损失函数来监督模型的训练,提高答案预测的准确度。
本发明公开了一种基于层级视觉-语义图记忆网络的视频问答的交互方法及系统;提出了有创新性的视觉图记忆模块和语义图记忆模块两个基本模块;所提出的图记忆模块是在普通的记忆网络的基础上改进而得到,将记忆节点组织成图结构,以便更好地建模关系。视觉图记忆模块利用视觉特征来编码有用的视觉知识和建模视觉关系;语义图记忆模块利用语义特征来编码有用的语义知识和建模语义关系;这些模块既被应用在目标级别,也被应用在视频帧级别,来联合地建模目标级别的视觉关系及语义关系和视频帧级别的视觉关系及语义关系。用这样方式,本发明能够克服现有方法的缺陷,显著地改进视频问答的精度,实现当前最好的性能。
进一步地,本发明还提供一种视频问答的交互系统,可提高针对视频问题的答案的准确性。
如图5所示,本发明视频问答的交互系统包括特征提取单元1、第一确定单元2、第一融合单元3、第二确定单元4、第二融合单元5及第三融合单元6。
具体地,所述特征提取单元1用于从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
所述第一确定单元2用于针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
所述第一融合单元3用于根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
所述第二确定单元4用于根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
所述第二融合单元5用于根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
所述第三融合单元6用于根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
此外,本发明还提供了如下方案:
一种视频问答的交互系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
此外,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
相对于现有技术,本发明视频问答的交互系统、计算机可读存储介质与上述视频问答的交互方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种视频问答的交互方法,其特征在于,所述交互方法包括:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
2.根据权利要求1所述的视频问答的交互方法,其特征在于,所述从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中目标的第一视觉特征及第一语义特征,具体包括:
通过目标区域定位网络从原始视频的各帧图像中定位出目标区域;
针对每帧图像,从所述目标区域中提取目标的多个第一视觉特征;
根据各目标区域预测类别标签,得到语义标签;
通过词向量模型从所述语义标签中提取目标的多个第一语义特征;
利用词向量模型和循环神经网络,从问题文本中提取问题的文本特征。
3.根据权利要求1所述的视频问答的交互方法,其特征在于,所述根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征,具体包括:
根据所述文本特征及目标的第一视觉特征,建立目标级别的视觉关系网络;
基于所述目标级别的视觉关系网络,根据所述第一视觉特征,得到所述目标的第二视觉特征;
根据所述文本特征及目标的第一语义特征,建立目标级别的语义关系网络;
基于所述目标级别的语义关系网络,根据所述第一语义特征,得到所述目标的第二语义特征。
4.根据权利要求1所述的视频问答的交互方法,其特征在于,所述根据所述文本特征及目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示,具体包括:
将所述文本特征分别与各目标的第二视觉特征,进行特征融合,得到对应的目标特征;
通过注意力机制,计算各目标特征的注意力权重;
通过各注意力权重对每帧图像中的所有目标特征进行加权求和,得到该帧图像的第一全局视觉表示;
通过平均池化机制聚合每帧图像中目标的第二语义特征,得到该帧图像的第一全局语义表示。
5.根据权利要求1所述的视频问答的交互方法,其特征在于,所述根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示,具体包括:
根据所述文本特征及各帧图像的第一全局视觉表示,建立视频帧级别的视觉关系网络;
基于所述视频帧级别的视觉关系网络,根据各帧图像的第一全局视觉表示,得到各帧图像的第二全局视觉表示;
根据所述文本特征及各帧图像的第一全局语义表示,建立视频帧级别的语义关系网络;
基于所述视频帧级别的语义关系网络,根据各帧图像的第一全局语义表示,得到各帧图像的第二全局语义表示;
将各帧图像的第二全局语义表示映射至视觉空间,与对应的第二全局视觉表示相加,得到各帧图像的全局视觉表示。
6.根据权利要求1所述的视频问答的交互方法,其特征在于,所述根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示,具体包括:
将所述文本特征分别与各帧图像的全局视觉表示,进行特征融合,得到对应的全局视觉特征;
通过注意力机制,计算各全局视觉特征的注意力权重;
通过各注意力权重对原始视频中每帧图像的全局视觉特征进行加权求和,得到原始视频的全局视觉特征表示。
7.根据权利要求1所述的视频问答的交互方法,其特征在于,所述根据所述全局视觉特征表示及文本特征,得到所述问题文本对应的问题答案,具体包括:
根据所述文本特征,获取对应的历史候选答案;
将所述全局视觉特征表示及文本特征进行多模态融合,得到融合数据;
根据所述融合数据,确定各历史候选答案的得分,其中得分最高的历史候选答案为所述原始视频的问题答案。
8.一种视频问答的交互系统,其特征在于,所述视频问答的交互系统包括:
特征提取单元,用于从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
第一确定单元,用于针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
第一融合单元,用于根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
第二确定单元,用于根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
第二融合单元,用于根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
第三融合单元,用于根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
9.一种视频问答的交互系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
从待处理的原始视频及与所述原始视频对应的问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;所述原始视频包括多帧图像;
针对每帧图像中的每一目标,根据所述文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;
根据所述文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;
根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;
根据所述文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;
根据所述全局视觉特征表示及文本特征,得到所述原始视频的问题答案。
CN202110069976.4A 2021-01-19 2021-01-19 视频问答的交互方法及系统 Active CN112860847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110069976.4A CN112860847B (zh) 2021-01-19 2021-01-19 视频问答的交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110069976.4A CN112860847B (zh) 2021-01-19 2021-01-19 视频问答的交互方法及系统

Publications (2)

Publication Number Publication Date
CN112860847A CN112860847A (zh) 2021-05-28
CN112860847B true CN112860847B (zh) 2022-08-19

Family

ID=76007372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110069976.4A Active CN112860847B (zh) 2021-01-19 2021-01-19 视频问答的交互方法及系统

Country Status (1)

Country Link
CN (1) CN112860847B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220859B (zh) * 2021-06-01 2024-05-10 平安科技(深圳)有限公司 基于图像的问答方法、装置、计算机设备及存储介质
CN113901302B (zh) * 2021-09-29 2022-09-27 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和介质
CN115688083B (zh) * 2022-12-29 2023-03-28 广东工业大学 图文型验证码的识别方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
CN111949824A (zh) * 2020-07-08 2020-11-17 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN111949824A (zh) * 2020-07-08 2020-11-17 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法

Also Published As

Publication number Publication date
CN112860847A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112860847B (zh) 视频问答的交互方法及系统
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN111695779B (zh) 一种知识追踪方法、装置及存储介质
CN112183577A (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
Sonkar et al. qdkt: Question-centric deep knowledge tracing
CN111652202B (zh) 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111046671A (zh) 基于图网络融入词典的中文命名实体识别方法
CN107544960B (zh) 一种基于变量绑定和关系激活的自动问答方法
CN112257966A (zh) 模型处理方法、装置、电子设备及存储介质
CN116136870A (zh) 基于增强实体表示的智能社交对话方法、对话系统
CN115238036A (zh) 一种基于图注意力网络和文本信息的认知诊断方法及装置
CN114529917A (zh) 一种零样本中文单字识别方法、系统、装置及存储介质
CN111666375B (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN113609355B (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN116611517A (zh) 融合图嵌入和注意力的知识追踪方法
CN112487811B (zh) 基于强化学习的级联信息提取系统及方法
CN112785039B (zh) 一种试题作答得分率的预测方法及相关装置
CN116012627A (zh) 一种基于超图聚类的因果时序双增强知识追踪方法
CN113239699B (zh) 一种融合多特征的深度知识追踪方法及系统
CN114971066A (zh) 融合遗忘因素和学习能力的知识追踪方法及系统
CN114936564A (zh) 一种基于对齐变分自编码的多语言语义匹配方法及系统
CN111061851B (zh) 基于给定事实的问句生成方法及系统
CN113987124A (zh) 深度知识追踪方法、系统及可存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240419

Address after: Room 524, Automation Building, No. 95 Zhongguancun East Road, Haidian District, Beijing, 100190

Patentee after: BEIJING ZHONGZI SCIENCE AND TECHNOLOGY BUSINESS INCUBATOR CO.,LTD.

Country or region after: China

Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District

Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240423

Address after: 200-19, 2nd Floor, Building B, Wanghai Building, No.10 West Third Ring Middle Road, Haidian District, Beijing, 100190

Patentee after: Zhongke Zidong Taichu (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: Room 524, Automation Building, No. 95 Zhongguancun East Road, Haidian District, Beijing, 100190

Patentee before: BEIJING ZHONGZI SCIENCE AND TECHNOLOGY BUSINESS INCUBATOR CO.,LTD.

Country or region before: China

TR01 Transfer of patent right