CN111680484A - 一种视觉常识推理问答题的答题模型生成方法和系统 - Google Patents

一种视觉常识推理问答题的答题模型生成方法和系统 Download PDF

Info

Publication number
CN111680484A
CN111680484A CN202010477048.7A CN202010477048A CN111680484A CN 111680484 A CN111680484 A CN 111680484A CN 202010477048 A CN202010477048 A CN 202010477048A CN 111680484 A CN111680484 A CN 111680484A
Authority
CN
China
Prior art keywords
response
vector
model
image
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010477048.7A
Other languages
English (en)
Other versions
CN111680484B (zh
Inventor
鉴萍
宋远生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010477048.7A priority Critical patent/CN111680484B/zh
Publication of CN111680484A publication Critical patent/CN111680484A/zh
Application granted granted Critical
Publication of CN111680484B publication Critical patent/CN111680484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种视觉常识推理问答题答题模型的生成方法和系统,该方法包括:S1、语料预处理,为询问和响应生成文本语义向量,为图像生成图像目标特征向量。S2、融合文本语义向量与图像目标特征向量。S3、响应建模,获得每个候选响应的向量表示ri。S4、将每个候选响应的向量表示关联比较,获得关联响应向量zi。S5、利用关联响应向量zi构建分类器及模型训练。通过本发明,生成的模型降低了对于视觉常识推理问答任务的复杂度,而且响应参考了其他的响应信息,使得机器更容易选择出最优的答案,极大提升了模型的准确度。

Description

一种视觉常识推理问答题的答题模型生成方法和系统
技术领域
本发明属于自然语言处理与计算机视觉的交叉技术应用领域,尤其涉及一种视觉常识推理问答题的答题模型生成方法和系统。
背景技术
图像理解是人类与生俱来的一种认知世界的能力,随着人工智能前沿技术的发展,越来越多的学者希望机器能够具备这样的图像理解能力。视觉常识推理问答作为一项测试机器多模态表示学习推理的任务,其能够很好的衡量和检验机器的图像理解水平,在图像检索、社交媒体、电子商务等领域有着广泛的潜在应用,所以对视觉常识推理问答的研究有着十分重大的意义。视觉常识推理问答与已有的视觉问答任务形式比较相似,输入都为一张图像以及与这张图像相关的自然语言描述的问题,需要机器正确地给出相应的答案。但是视觉常识推理问答中给出的图像和问题内容更加复杂抽象,需要机器充分地理解图像内容与文本语义,甚至需要更高阶的认知和关于世界的常识推理才能回答该问题。
如图1所示,视觉常识推理任务为:给定一张图像(image)以及一个问题(question),需要从4个候选答案(answer)中选出正确的一个,除了选出答案,还需要机器从给出的4个候选理由(rationale)中挑选出正确的理由来解释其选择的答案。Q代表问题,A0-3代表4个候选答案,R0-3代表4个候选理由。视觉常识推理任务(VCR任务)需要机器先选择出正确的答案,然后再选择出正确的理由。所以VCR总体任务(Q→AR)可以分解为答案选择(Q→A)和答案验证(QA→R)两个子任务。我们将这两个子任务统一在同一个模型框架中,不同的子任务使用不同的训练数据来训练模型,所以最终可以得到Q→A模型和QA→R模型两个模型。测试阶段我们利用Q→A模型选出答案,然后将问题和答案拼接起来输入到QA→R模型中选择出正确的理由。因为这两个子任务是在同一个模型框架中来做的,区别只是输入训练数据不同,为了叙述方便,在Q→A过程,我们将Q作为询问(query),A作为响应(response);QA→R将Q和A拼接起来作为询问(query),R作为响应(response)。
科研工作者针对先前的视觉问答任务已有充分的研究,基本的模型框架为:使用预训练好的卷积神经网络如ResNet提取图像特征向量,循环神经网络如LSTM提取问题文本语义特征向量,通过图像语义与问题文本语义的特征融合来实现两种特征语义间的交互,并最终提升模型对答案的推理能力。众所周知,人类之所以能够根据图像来回答相关问题,其不仅通过图像获取相关信息,还依赖于一些世界常识和知识。
然而,之前的视觉问答模型却忽略了这些至关重要的因素,没有充分利用这些知识来辅助机器完成推理问答过程。具体来说,视觉常识推理问答中存在下述问题:1)不能很好地表示图像特征和文本语义的问题;2)普通的深度学习方法没有考虑响应文本中蕴含的额外信息来辅助我们理解图像的问题;3)现有的方法并未考虑响应之间的关联和关系的问题。
发明内容
为了解决上述问题,本发明提供一种视觉常识推理问答题的答题模型生成方法和系统。
本发明的技术方案总体思想为:首先,利用预训练语言模型Bert-base获取每个询问和响应的文本语义特征向量,通过Resnet-50获取图像中的每个目标(object)特征向量。其次,由于文本的某些词还特别指代图像中的某个目标,所以将图像中的目标特征向量与相应的文本语义向量进行拼接,训练Bi-LSTM编码特征表示;然后利用双向线性注意力方法将询问语义特征和图像语义特征融合到响应特征中,获取包含图像和询问信息的响应特征表示;再次,利用Transformer对响应进行编码,之后对响应池化操作得到每个候选响应的向量表示,利用双向注意力方法对响应之间的关联进行建模,之后输入多层感知机进行分类,使用梯度下降方法更新参数,找到最优的模型。
根据本发明的一方面,提供一种视觉常识推理问答题的答题模型生成方法,所述方法包括:
S1、语料预处理,为询问和响应生成文本语义向量,为图像生成图像目标特征向量;
S2、融合文本语义向量与图像目标特征向量,生成响应向量Ri
S3、响应建模,获得每个响应的向量表示ri
S4、将每个响应的向量表示ri关联比较,获得关联响应向量zi
S5、利用关联响应向量zi构建分类器及模型训练。
较佳地,在步骤S1中,语料包含一幅图像、一个问题、若干候选答案和理由,其中,所述问题、候选答案和理由均由数字标签和语言文字混合描述,数字标签与图像中的目标对应,询问为所述问题或所述问题和答案的组合,响应为候选答案或理由。
较佳地,在步骤S1中,为询问和响应生成文本语义向量,为图像生成图像目标特征向量的步骤为:
将询问和响应输入到预训练模型Bert-base中,分别获取询问和响应的文本语义向量
Figure BDA0002516150730000031
Figure BDA0002516150730000032
将图像输入Resnet-50中获取图像目标的特征向量
Figure BDA0002516150730000033
较佳地,在步骤S2中,将图像目标特征向量与文本语义向量拼接得到询问向量和响应向量,利用Bi-LSTM将询问向量和响应向量编码为uq
Figure BDA0002516150730000034
利用双向线性注意力方法将询问向量uq和图像特征
Figure BDA0002516150730000035
融合到响应向量
Figure BDA0002516150730000036
中,然后通过非线性层得到响应向量Ri
较佳地,在步骤S3中,利用多层Transformer对得到的响应向量Ri特征编码,得到更高层的响应语义特征向量表示
Figure BDA0002516150730000037
Figure BDA0002516150730000038
池化操作得到每个选项响应的向量表示ri
较佳地,在步骤S4中,用双向线性注意力方法对响应向量ri进行比较,得到关联响应向量zi
优选的,在双向线性注意力方法中,将相似权重矩阵
Figure BDA0002516150730000039
中对角线位置的系数设置为负无穷,以防止响应向量之间进行自我比较。
较佳地,在步骤S5中,将关联响应向量zi输入多层感知机中,在全连接的网络之后接入softmax函数得到类别的概率分布,计算交叉熵作为损失函数,使用随机梯度下降法更新模型参数直到其收敛,最终得到答题模型。
根据本发明的另一方面,提供了一种视觉常识推理问答题的答题模型生成系统,所述系统包括预处理模块、特征融合模块、响应建模模块、响应关联比较模块和训练模块,其中,
所述预处理模块,用于预处理语料,并为询问和响应生成文本语义向量,为图像生成图像目标特征向量;
所述特征融合模块,用于融合文本语义向量与图像目标特征向量,生成响应向量Ri
所述响应建模模块,用于获得每个响应的向量表示ri
所述响应关联比较模块,用于关联比较每个响应的向量ri,获得关联响应向量zi
所述训练模块,用于利用关联响应向量zi构建分类器及模型训练。
较佳地,在所述预处理模块中,通过预训练模型Bert-base获取文本语义向量,通过Resnet-50获取图像目标特征向量;在特征融合模块中,通过Bi-LSTM和双向线性注意力方法生成响应向量Ri;在所述响应建模模块中,利用多层Transformer和池化操作得到每个选项响应的向量表示ri;在响应关联比较模块中,通过用双向线性注意力方法生成关联响应向量zi
本发明提供的视觉常识推理问答题的答题模型生成方法和系统,与现有方法相比,具有如下有益效果:
(1)通过充分运用包含在问题与响应文本中的信息和知识的确可以辅助机器理解图像语义,降低模型对于视觉常识推理问答任务的复杂度,能够帮助模型选择出正确的响应。
(2)对候选响应之间的关联进行建模可以获得更好的响应表示,这些响应参考了其他的响应信息,使得机器更容易选择出最优的答案,并最终极大提升模型的准确度。
(3)本发明能够有效提升机器视觉常识推理问答的精度,弥补了基于传统视觉问答方法导致的错误,给予用户提供快速准确的视觉常识推理问答结果,为进一步提高机器的图像理解力提供了很好的指导和参考。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为视觉常识推理任务示例图;
图2为本发明一个实施例的答题模型生成方法的流程示意图;
图3为本发明一个实施例的语料预处理和特征编码的流程示意图;
图4为本发明一个实施例的图像文本融合的流程示意图;
图5为本发明一个实施例的响应建模的流程示意图;
图6为本发明一个实施例的响应关联比较的流程示意图;
图7为本发明一个实施例的构建分离器和训练模型的流程示意图;
图8为本发明一个实施例的答题模型生成系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施方式对本发明作进一步说明。
本发明提供一种视觉常识推理问答题的答题模型生成方法,如图2所示,该方法包括如下步骤:
S1、语料预处理,并为询问和响应生成文本语义向量,为图像生成图像目标特征向量;
S2、融合文本语义向量与图像目标特征向量,生成响应向量Ri
S3、响应建模,获得每个候选响应的向量表示ri
S4、将每个候选响应的向量表示ri关联比较,获得关联响应向量zi
S5、利用关联响应向量zi构建分类器及模型训练。
在步骤S1中,如图1所示,语料包含一幅图像、一个问题、若干候选答案和/或候选理由。问题、候选答案和/或候选理由由数字标签和语言文字混合描述,数字标签会指代图像中的一些目标,可以将这些数字标签替换为相应的类名文字。
在一个实施例中,语料为VCR 1.0。2019年CVPR会议论文From Recognition toCognition:Visual Commonsense Reasoning首次提出了视觉常识推理任务,并引入了数据集VCR 1.0。该语料中的每个样例都如图1所示,包含一幅图像、一个问题、四个候选答案和四个候选理由。问题、答案和理由均由数字标签和语言文字混合描述,数字标签会指代图像中的一些目标,可以将这些数字标签替换为相应的类名文字。如上文所述,Q→A过程中将问题作为询问,候选答案作为响应,这是Q→A模型;也可以将问题和答案拼接在一起作为询问,候选理由作为响应,这是QA→R模型。无论是哪种模型,都是询问-响应模型。
将询问和响应输入到预训练模型Bert-base中,分别获取询问和第i个响应的文本语义向量
Figure BDA0002516150730000061
Figure BDA0002516150730000062
(例如,在上例中,i=1,2,3,4);将图像输入Resnet-50中获取图像目标的特征向量
Figure BDA0002516150730000063
Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练MaskedLanguage Model和预测下一句任务得到的模型。Resnet是深度残差网络(Deep residualnetwork)的缩写,它的提出是CNN图像史上的一件里程碑事件,并在ImageNet比赛分类任务上获得第一名,因为它简单与实用并存,之后很多方法都建立在Resnet的基础上完成的,图像检测、分割、识别等领域都纷纷使用Resnet。
在步骤S2中,如图3所示,获取询问和响应中图像目标,将该图像目标的特征向量与文本语义向量拼接得到询问向量
Figure BDA0002516150730000064
和响应向量
Figure BDA0002516150730000065
利用Bi-LSTM对询问向量和响应向量编码为uq
Figure BDA0002516150730000066
利用双向线性注意力方法将询问uq和图像特征
Figure BDA0002516150730000067
融合到每一个响应
Figure BDA0002516150730000068
中(其中i=1,2,3,4),拼接然后通过非线性层得到响应向量Ri
在步骤S3中,如图4所示,利用多层Transformer对得到的响应向量Ri特征编码,得到更高层的响应语义特征向量表示
Figure BDA0002516150730000069
在这个过程Transformer中多头注意力机制(MultiHead Attention)使得图像、询问和响应之间进行了更好的信息和知识交互,从而借助文本语义理解图像内容,因此此步骤能够充分借助蕴含在询问和响应文本中的信息和知识完成视觉推理问答;最后将编码后的响应向量池化操作得到每个响应的向量表示ri,ri为维度为1的向量的表示,包含了更高层的图像和文本语义。
在步骤S4中,如图5所示,利用双向注意力方法对响应向量ri之间的关联进行比较得到关联响应向量zi。利用线性注意力方法对响应ri之间的关联进行比较,使得模型在做选择时同时参考了其他候选响应的信息,同时为了避免选项进行自我比较,将相似权重矩阵
Figure BDA0002516150730000071
中对角线位置的系数设置为负无穷,这样经过softmax归一化操作之后对角线位置为0。通过响应之间的比较,模型可以获取更充分的证据来帮助模型的推理。
在步骤S5中,如图6所示,将得到的关联响应向量zi输入多层感知机中,在全连接的网络之后接入softmax函数得到类别的概率分布,计算交叉熵作为损失函数,使用随机梯度下降法更新模型参数直到其收敛,最终得到答题模型。
答题模型的使用方法为:输入图像、询问和候选的响应,模型就可以选择出其正确的响应。对于VCR 1.0语料集,最终得到Q→A模型和QA→R模型两个模型来分别预测出正确的答案answer和理由rationale,完成推理过程。
根据本发明的另一方面,提出一种视觉常识推理问答题答题模型的生成系统,如图8所示,包括预处理模块、特征融合模块、响应建模模块、响应关联比较模块和训练模块,其中,
预处理模块,用于预处理语料,并为询问和响应生成文本语义向量,为图像生成图像目标特征向量;
特征融合模块,用于融合文本语义向量与图像目标特征向量,生成响应向量Ri
响应建模模块,用于获得每个响应的向量表示ri
响应关联比较模块,用于关联比较每个响应的向量ri,获得关联响应向量zi
训练模块,用于利用关联响应向量zi构建分类器及模型训练。
在所述预处理模块中,语料包含一幅图像、一个问题、若干候选答案和/或候选理由。问题、候选答案和/或候选理由由数字标签和语言文字混合描述,数字标签会指代图像中的一些目标,可以将这些数字标签替换为相应的类名文字。
例如,语料为VCR 1.0。2019年CVPR会议论文From Recognition to Cognition:Visual Commonsense Reasoning首次提出了视觉常识推理任务,并引入了数据集VCR1.0。该语料中的每个样例都如图1所示,包含一幅图像、一个问题、四个候选答案和四个候选理由。问题、答案和理由均由数字标签和语言文字混合描述,数字标签会指代图像中的一些目标,可以将这些数字标签替换为相应的类名文字。如上文所述,Q→A过程中将问题作为询问,候选答案作为响应,这是Q→A模型;也可以将问题和答案拼接在一起作为询问,候选理由作为响应,这是QA→R模型。无论是哪种模型,都是询问-响应模型。
将询问和响应输入到预训练模型Bert-base中,分别获取询问和第i个响应的文本语义向量
Figure BDA0002516150730000081
Figure BDA0002516150730000082
(例如,在上例中,i=1,2,3,4);将图像输入Resnet-50中获取图像目标的特征向量
Figure BDA0002516150730000083
在特征融合模块中,获取询问和响应中图像目标,将该图像目标的特征向量与文本语义向量拼接得到询问向量
Figure BDA0002516150730000084
和响应向量
Figure BDA0002516150730000085
利用Bi-LSTM对询问向量和响应向量编码为uq
Figure BDA0002516150730000086
利用双向线性注意力方法将询问uq和图像特征
Figure BDA0002516150730000087
融合到每一个响应
Figure BDA0002516150730000088
中(其中i=1,2,3,4),拼接然后通过非线性层得到响应向量Ri
在响应建模模块中,利用多层Transformer对得到的响应向量Ri特征编码,得到更高层的响应语义特征向量表示
Figure BDA0002516150730000089
在这个过程Transformer中多头注意力机制(MultiHeadAttention)使得图像、询问和响应之间进行了更好的信息和知识交互,从而借助文本语义理解图像内容,因此此步骤能够充分借助蕴含在询问和响应文本中的信息和知识完成视觉推理问答;最后将编码后的响应向量池化操作得到每个响应的向量表示ri,ri为维度为1的向量的表示,包含了更高层的图像和文本语义。
在响应关联比较模块中,利用双向注意力方法对响应向量ri之间的关联进行比较得到关联响应向量zi。利用线性注意力方法对响应向量ri之间的关联进行比较,使得模型在做选择时同时参考了其他候选响应的信息,同时为了避免选项进行自我比较,将相似权重矩阵
Figure BDA00025161507300000810
中对角线位置的系数设置为负无穷,这样经过softmax归一化操作之后对角线位置为0。通过响应向量之间的比较,模型可以获取更充分的证据来帮助模型的推理。
在和训练模块中,将得到的关联响应向量zi输入多层感知机中,在全连接的网络之后接入softmax函数得到类别的概率分布,计算交叉熵作为损失函数,使用随机梯度下降法更新模型参数直到其收敛,最终得到答题模型。
实施例1
(1)语料预处理和特征编码。
本次实验使用的VCR1.0数据集主要格式为:movie为图像从哪部电影截取的画面;objects为图像中对应的目标;img_fn为存储图像的文件路径;metadata_fn为存储每个目标在图像中的坐标位置信息;question为问题,answer_choices分别为4个候选答案;rationale_choices为4个候选理由;answer_label和rationale_label为真实的候选答案和理由。
Figure BDA0002516150730000091
1)问题、答案、理由都是由图像标签和语言文字混合描述的。为了尽可能符合Bert-base文本输入形式,将其做如下处理:若图像标签指代为人,将其随机替换为中性人名;其他则换为相应的类别名称。以Q→A过程为例,问题为询问,答案为响应,将询问和响应拼接起来输入Bert-base获取语义向量。示例如:
[CLS]What is[1]thinking?[SEP][1]has never seen[6]up close before.[SEP]
以上示例中将[1]替换为人名Jackie,将[6]替换为类名bird。之后输入到Bert-base模型中,提取倒数第二层的隐层向量作为询问和响应的语义向量表示,获得询问表示
Figure BDA0002516150730000092
和响应表示
Figure BDA0002516150730000093
因为已有的研究证明该层表征文本语义效果最好。
2)利用已在ImageNet数据集上预训练过的ResNet-50来提取图像的目标向量
Figure BDA0002516150730000094
图像中的每个目标是用边界框确定的,在ResNet-50的最后一层利用RoiAlign方法获取每个图像目标的特征向量。并且图像目标特征向量从2176维映射为512维向量,在训练过程中我们固定Resnet-50的前三层参数,对模型后三层参数进行微调。
(2)文本语义与图像特征融合。
1)将文本中标签特指的图像目标向量与通过Bert得到的语义向量在最后的一个维度上进行拼接,得到询问的表示
Figure BDA0002516150730000101
Figure BDA0002516150730000102
指的是文本语义向量,
Figure BDA0002516150730000103
代表的是图像目标向量,同理可以得到第i个响应的表示
Figure BDA0002516150730000104
利用BiLSTM编码询问和响应,可以得到每个字符(token)级别的联合图像-文本特征向量表示。BiLSTM的单隐藏层设置为256维,dropout系数设置为0.3。LSTM的隐藏权重使用正交初始化的方式进行初始化。
Figure BDA0002516150730000105
Figure BDA0002516150730000106
2)采用经典的双向线性注意力方法将询问信息融合到响应中。利用下列公式,其中W可训练参数:
Figure BDA0002516150730000107
úq=softmax(S)uq
同理依照上述的方法可以获得包含图像信息的响应表示ó。将
Figure BDA0002516150730000108
úq、ó三者拼接在一起,送入非线性层。ReLU为relu激活函数。
Figure BDA0002516150730000109
Figure BDA00025161507300001010
(3)响应建模,具体步骤如下:
这里使用的主要算法是Transformer,其主要由MultiHeadAttention、LayerNorm、FFN构成。MultiHeadAttention指多头自注意力;LayerNorm是属于层归一化,广泛用于自然语言处理模型中;FFN为2层前馈神经网络。每层Transformer包含相同的模块。
Figure BDA00025161507300001011
Figure BDA00025161507300001012
Figure BDA00025161507300001013
Figure BDA00025161507300001014
具体地我们使用3层Transformer对包含了询问和图像信息的响应特征向量表示Ri进行编码处理。多头注意力大小为512,头数设置为8,因此每个头的维度为64。之后池化操作得到第i个响应的向量表示ri
Figure BDA00025161507300001015
Figure BDA0002516150730000111
α=softmax(a)
Figure BDA0002516150730000112
(4)响应关联比较,具体步骤如下。
利用线性注意力方法对响应ri之间的关联进行比较,使得模型在做选择时同时参考了其他候选响应的信息,同时为了避免选项进行自我比较,我们将相似权重矩阵
Figure BDA0002516150730000117
中对角线位置的系数设置为负无穷,这样经过softmax归一化操作之后对角线位置为0。
(5)分类。
将zi输入到多层感知机,对其进行分类。W为可训练参数矩阵,β为归一化系数,I为指示函数,取值为0或者1。
Figure BDA0002516150730000113
Figure BDA0002516150730000114
Figure BDA0002516150730000115
Figure BDA0002516150730000116
模型总共在VCR1.0训练数据集上训练20轮,批量大小设置为64,学习率初始化为0.0002,权重衰减因子为0.0001。如果模型在验证集上精度不再上升就停止训练,保存模型。
在已公开的视觉常识推理问答题VCR1.0数据集上实验结果证明,本发明生成的模型的Q→A正确率为66.9%和QA→R正确率为68.7%,总体的Q→AR正确率为46%,实验结果明显优于已有的模型。虽然目前视觉常识推理问答题的数据集只有英文版本,但可以推论我们的方法对于中文也是适用的。
答题模型的使用方法为:输入图像、询问和候选的响应,模型就可以选择出其正确的响应。对于VCR 1.0语料集,最终得到Q→A模型和QA→R模型两个模型来分别预测出正确的答案answer和理由rationale,完成推理过程。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (10)

1.一种视觉常识推理问答题答题模型的生成方法,其特征在于,所述方法包括:
S1、语料预处理,为询问和响应生成文本语义向量,为图像生成图像目标特征向量;
S2、融合文本语义向量与图像目标特征向量,生成响应向量Ri
S3、响应建模,获得每个响应的向量表示ri
S4、将每个响应的向量表示ri进行关联比较,获得关联响应向量zi
S5、利用关联响应向量zi构建分类器及模型训练。
2.根据权利要求1所述的生成方法,其特征在于,在步骤S1中,语料包含一幅图像、一个问题、若干候选答案和理由,其中,所述问题、候选答案和理由均由数字标签和语言文字混合描述,数字标签与图像中的目标对应,询问为所述问题或所述问题和答案的组合,响应为候选答案或理由。
3.根据权利要求1所述的生成方法,其特征在于,在步骤S1中,为询问和响应生成文本语义向量,为图像生成图像目标特征向量的步骤为:
将询问和响应输入到预训练模型Bert-base中,分别获取询问和响应的文本语义向量
Figure FDA0002516150720000011
Figure FDA0002516150720000012
将图像输入Resnet-50中获取图像目标的特征向量
Figure FDA0002516150720000013
4.根据权利要求1所述的生成方法,其特征在于,在步骤S2中,将图像目标特征向量与文本语义向量拼接得到询问向量和响应向量,利用Bi-LSTM将询问向量和响应向量编码为uq
Figure FDA0002516150720000014
利用双向线性注意力方法将询问uq和图像特征
Figure FDA0002516150720000015
融合到响应向量
Figure FDA0002516150720000016
中,然后通过非线性层得到响应向量Ri
5.根据权利要求1所述的生成方法,其特征在于,在步骤S3中,利用多层Transformer对响应向量Ri特征编码,得到更高层的响应语义特征向量表示
Figure FDA0002516150720000017
Figure FDA0002516150720000018
池化操作得到每个响应的向量表示ri
6.根据权利要求1所述的生成方法,其特征在于,在步骤S4中,用双向线性注意力方法对响应向量ri进行比较,得到关联响应向量zi
7.根据权利要求6所述的生成方法,其特征在于,在所述双向线性注意力方法中,将相似权重矩阵
Figure FDA0002516150720000019
中对角线位置的系数设置为负无穷,以防止响应之间进行自我比较。
8.根据权利要求1所述的生成方法,其特征在于,在步骤S5中,将关联响应向量zi输入多层感知机中,在全连接的网络之后接入softmax函数得到类别的概率分布,计算交叉熵作为损失函数,使用随机梯度下降法更新模型参数直到其收敛,最终得到答题模型。
9.一种视觉常识推理问答题答题模型的生成系统,其特征在于,所述系统包括预处理模块、特征融合模块、响应建模模块、响应关联比较模块和训练模块,其中,
所述预处理模块,用于预处理语料,并为询问和响应生成文本语义向量,为图像生成图像目标特征向量;
所述特征融合模块,用于融合文本语义向量与图像目标特征向量,生成响应向量Ri
所述响应建模模块,用于获得每个响应的向量表示ri
所述响应关联比较模块,用于关联比较每个响应的向量ri,获得关联响应向量zi
所述训练模块,用于利用关联响应向量zi构建分类器及模型训练。
10.根据权利要求9所述的生成系统,其特征在于,在所述预处理模块中,通过预训练模型Bert-base获取文本语义向量,通过Resnet-50获取图像目标特征向量;在特征融合模块中,通过Bi-LSTM和双向线性注意力方法生成响应向量Ri;在所述响应建模模块中,利用多层Transformer和池化操作得到每个选项响应的向量表示ri;在响应关联比较模块中,通过用双向线性注意力方法生成关联响应向量zi
CN202010477048.7A 2020-05-29 2020-05-29 一种视觉常识推理问答题的答题模型生成方法和系统 Active CN111680484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477048.7A CN111680484B (zh) 2020-05-29 2020-05-29 一种视觉常识推理问答题的答题模型生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477048.7A CN111680484B (zh) 2020-05-29 2020-05-29 一种视觉常识推理问答题的答题模型生成方法和系统

Publications (2)

Publication Number Publication Date
CN111680484A true CN111680484A (zh) 2020-09-18
CN111680484B CN111680484B (zh) 2023-04-07

Family

ID=72453876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477048.7A Active CN111680484B (zh) 2020-05-29 2020-05-29 一种视觉常识推理问答题的答题模型生成方法和系统

Country Status (1)

Country Link
CN (1) CN111680484B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033809A (zh) * 2021-04-16 2021-06-25 复旦大学 一种基于弱证据聚合的常识因果推理方法及系统
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113505246A (zh) * 2021-09-11 2021-10-15 腾讯科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN113590918A (zh) * 2021-07-12 2021-11-02 电子科技大学 基于课程式学习的社交媒体舆情热度监测的框架构建方法
CN113761153A (zh) * 2021-05-19 2021-12-07 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3376400A1 (en) * 2017-03-14 2018-09-19 Fujitsu Limited Dynamic context adjustment in language models
CN110889340A (zh) * 2019-11-12 2020-03-17 哈尔滨工程大学 一种基于迭代注意力机制的视觉问答模型
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3376400A1 (en) * 2017-03-14 2018-09-19 Fujitsu Limited Dynamic context adjustment in language models
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN110889340A (zh) * 2019-11-12 2020-03-17 哈尔滨工程大学 一种基于迭代注意力机制的视觉问答模型

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033809A (zh) * 2021-04-16 2021-06-25 复旦大学 一种基于弱证据聚合的常识因果推理方法及系统
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113239160B (zh) * 2021-04-29 2022-08-12 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113761153A (zh) * 2021-05-19 2021-12-07 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
CN113761153B (zh) * 2021-05-19 2023-10-24 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
CN113590918A (zh) * 2021-07-12 2021-11-02 电子科技大学 基于课程式学习的社交媒体舆情热度监测的框架构建方法
CN113505246A (zh) * 2021-09-11 2021-10-15 腾讯科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN116862000B (zh) * 2023-09-01 2024-01-23 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备

Also Published As

Publication number Publication date
CN111680484B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
Neculoiu et al. Learning text similarity with siamese recurrent networks
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN113704392A (zh) 文本中实体关系的抽取方法、装置、设备及存储介质
Puscasiu et al. Automated image captioning
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
Parvin et al. Transformer-based local-global guidance for image captioning
Nair et al. Knowledge graph based question answering system for remote school education
Zhang et al. Description-Enhanced Label Embedding Contrastive Learning for Text Classification
CN112463935B (zh) 一种带有强泛化知识选择的开放域对话生成方法及系统
CN112036189A (zh) 一种金文语义识别方法和系统
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备
Huang et al. Pqsct: Pseudo-siamese bert for concept tagging with both questions and solutions
CN115577072A (zh) 一种基于深度学习的短文本情感分析方法
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN113642630A (zh) 基于双路特征编码器的图像描述方法及系统
CN111680151A (zh) 一种基于层次化transformer的个性化商品评论摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant