CN111967272A - 基于语义对齐的视觉对话生成系统 - Google Patents

基于语义对齐的视觉对话生成系统 Download PDF

Info

Publication number
CN111967272A
CN111967272A CN202010577719.7A CN202010577719A CN111967272A CN 111967272 A CN111967272 A CN 111967272A CN 202010577719 A CN202010577719 A CN 202010577719A CN 111967272 A CN111967272 A CN 111967272A
Authority
CN
China
Prior art keywords
image
semantic alignment
visual
reply
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010577719.7A
Other languages
English (en)
Other versions
CN111967272B (zh
Inventor
孙晓
王佳敏
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010577719.7A priority Critical patent/CN111967272B/zh
Publication of CN111967272A publication Critical patent/CN111967272A/zh
Application granted granted Critical
Publication of CN111967272B publication Critical patent/CN111967272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于语义对齐的视觉对话生成系统。本发明对图像信息的提取从两个方面进行:分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示,同时通过dense caption获取局部密集图像描述,文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。同时从文本流畅度、文本连贯度和正确度来进行全面的约束,指导回复的生成。此外,本发明实施例提出采用关键词约束的方法来约束回复的正确性,进而丰富生成回答的表示形式。

Description

基于语义对齐的视觉对话生成系统
技术领域
本发明实施例涉及语言处理技术领域,具体涉及一种基于语义对齐的视觉对话生成系统。
背景技术
近年来,随着人工智能与机器人领域如火如荼的发展,视觉与语言的多模态语义理解在计算机视觉和自然语言处理领域得到了越来越多的关注和重视。人机交互不能只考虑单一模态,在现实生活中,人与人之间的交互往往不限制于单一的文本、视觉或听觉。具有多模态的自然交互方式不仅能够实现更加友好的机器与人类的交互界面,而且是实现强人工智能的必由之路。
通过分析视觉和语言来理解现实世界,是人工智能实现类人能力的首要任务,这促进了视觉对话研究的发展,即人与机器基于视觉内容进行多轮对话的交互。视觉对话的交互是多模态的,包括文本、视觉,不同模态都包含了丰富的信息,如何根据对话从视觉内容中获取正确、充足的信息,成为视觉对话中关键的挑战之一。因此,在视觉对话任务中,需要从图像中获取充足的信息,获取的图像信息要与对话中的文本信息进行正确的交互,这成为目前视觉对话任务的研究要点。
传统的视觉对话生成系统存在如下缺点:
1.无法获取充足、易与文本进行融合的图像特征
1)目前的视觉对话系统的关注点大多是在如何提取更丰富的图像信息,以及针对问题内容自适应地关注相关的图像区域。但是图像不仅包含实体信息,还有实体之间的位置关系、语义关系信息,目前常用的通过CNN、Faster-RCNN进行图像特征提取,并不能构建出完整的图像信息,通过构建场景图可以获取更丰富的图像信息,但是易出现误差传播。
2)目前通常将图像特征与问题、对话历史进行多模态之间信息融合。这种处理忽略了不同模态信息的表示本身就有差距,图像特征和语义信息在没有进行很好的对齐的前提下,能否根据提取到的图像特征真正的获取到充足的信息,去生成回复,仍然存疑。
2.过多依赖对话历史而非图像信息来生成回复。在视觉对话数据集VisDial中,大约80%的问题能够只根据图像生成回复,大约20%的问题需要获取对话历史后才能生成回复。因此,在视觉对话中,图像信息的获取和使用非常重要。然而,目前很多模型虽然尝试从图像中获取更多、更具有针对性的信息,却忽略了效果的提升是否是因为过多的加入历史信息而造成的干扰。
3.没有考虑生成式的视觉对话的文本质量。当前大部研究均构造判别模型(discriminative model),少部分构造生成模型(generative model),因此几乎没有对于生成式的视觉对话文本质量的关注,往往都是通过最大化与ground truth的回答之间的对数似然函数,忽视了对话本身需要关注的文本质量这一问题。
由上述分析可知,传统的视觉对话生成系统有待改进。
发明内容
本发明实施例提供了一种基于语义对齐的视觉对话生成系统,用以解决上述至少一个技术问题。
本发明实施例提供一种基于语义对齐的视觉对话生成系统,包括:编码器和解码器;
所述编码器用于:
通过Faster R-CNN的变体模型,提取给定图像的区域视觉特征;
通过概念提取器,获得从所述给定图像提取的文本单词构成的词向量;
采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征;
通过DenseCap模型,提取所述给定图像的使用文本表述的区域图像描述;
通过第一LSTM模型提取当前轮问题的特征,通过第二LSTM提取对话历史的特征,通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合,得到融合对话历史的当前轮问题的特征;
根据融合对话历史的当前轮问题的特征,通过注意力机制对所述基于语义对齐的全局图像特征和所述使用文本表述的区域图像描述分别进行引导,分别得到根据问题引导的基于语义对齐的全局图像特征和根据问题引导的使用文本表述的区域图像描述;
对所述根据问题引导的基于语义对齐的全局图像特征、所述根据问题引导的使用文本表述的区域图像描述、以及所述融合对话历史的当前轮问题的特征进行融合,得到最终的上下文向量;
使用LSTM模型构建所述生成式解码器,所述生成式解码器用于根据所述最终的上下文向量,生成回复。
可选地,所述编码器采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征,包括:
通过将所述给定图像的区域视觉特征Iv和从所述给定图像提取的文本单词构成的词向量Iw连接,计算相似度矩阵S,相似度矩阵S符合以下公式:
S=IvM(Iw)T
其中,
Figure BDA0002551855270000031
是可训练的参数矩阵,S中的元素Si,j表示第i个所述给定图像的区域视觉特征和第j个所述给定图像提取的文本单词的词向量的相似度;
通过column-wise的归一化,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,按照以下公式生成文本-图像的注意力权重Awv
Avw=softmax(ST)
其中,softmax(.)表示column-wise的归一化函数;
按照以下公式,得到基于语义对齐的全局图像特征
Figure BDA0002551855270000041
Figure BDA0002551855270000042
可选地,所述编码器通过第一LSTM模型提取当前轮问题的特征,通过第二LSTM提取对话历史的特征,通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合,得到融合对话历史的当前轮问题的特征,包括:
Figure BDA0002551855270000043
Figure BDA0002551855270000044
Figure BDA0002551855270000045
Figure BDA0002551855270000046
其中[;]代表连接,⊙代表元素点乘,每个单词通过预训练的GloVe语言模型进行词嵌入,Qt代表第t轮对话的问题,
Figure BDA0002551855270000047
表示第t轮对话的问题Qt经所述第一LSTM模型编码后得到的特征,
Figure BDA0002551855270000048
表示第t轮对话的对话历史Ht经所述第二LSTM模型编码后得到的特征,其中,对话历史中的多个问答对进行拼接后送入所述第二LSTM模型中进行编码,
Figure BDA0002551855270000049
是关于
Figure BDA00025518552700000410
Figure BDA00025518552700000411
的门控值的一个向量,
Figure BDA00025518552700000412
代表所述融合对话历史的当前轮问题的特征表示。
可选地,所述根据问题引导的基于语义对齐的全局图像特征
Figure BDA00025518552700000413
符合以下公式:
Figure BDA0002551855270000051
Figure BDA0002551855270000052
Figure BDA0002551855270000053
其中,Wq、Wv
Figure BDA0002551855270000054
均是可学习的参数,
Figure BDA0002551855270000055
为所述基于语义对齐的全局图像特征。
可选地,所述方法还包括:
获取密集图像描述,用Z={Z1,Z2,...Zk}来表示给定图像I的使用文本表述的局部图像描述,其中k是图像描述的数量,每个单词通过预训练的GloVe语言模型进行词嵌入;
所述根据问题引导的使用文本表述的局部图像描述Z′符合以下公式:
Figure BDA0002551855270000056
Figure BDA0002551855270000057
Figure BDA0002551855270000058
其中,Wq、Wv
Figure BDA0002551855270000059
均是可学习的参数,Z是从图像获取的前36条密集图像描述,
Figure BDA00025518552700000510
为所述融合对话历史的当前轮问题的特征表示。
可选地,所述最终的上下文向量符合以下公式:
Figure BDA00025518552700000511
其中,We是可学习的参数,[;;]代表连接,
Figure BDA00025518552700000512
为所述融合对话历史的当前轮问题的特征表示,
Figure BDA00025518552700000513
为所述根据问题引导的基于语义对齐的全局图像特征,Z′为所述根据问题引导的使用文本表述的局部图像描述。
可选地,所述基于语义对齐的视觉对话生成系统输出的回复满足三方面的约束:流畅度、连贯度和准确度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述生成式解码器:
L(θ)=-(lf+lc+lr)
其中,θ表示可训练的参数,lf表示所述基于语义对齐的视觉对话生成系统输出的回复的流畅度,lc表示所述基于语义对齐的视觉对话生成系统输出的回复的连贯度,lr表示所述基于语义对齐的视觉对话生成系统输出的回复的准确度。
可选地,所述基于语义对齐的视觉对话生成系统输出的回复的流畅度lf满足以下公式:
Figure BDA0002551855270000061
y表示所述基于语义对齐的视觉对话生成系统输出的回复,N代表y的长度,P代表预训练的N-Gram语言模型。
可选地,所述基于语义对齐的视觉对话生成系统输出的回复的连贯度lc满足以下公式:
Figure BDA0002551855270000062
其中,y表示所述基于语义对齐的视觉对话生成系统输出的回复,x代表给定问句,Pseq2seq(y|x)代表表示给定问句x时生成回复y的概率,
Figure BDA0002551855270000063
代表基于回复y生成问句x的概率,Pseq2seq
Figure BDA0002551855270000064
是两个预训练的Seq2Seq模型。
可选地,所述基于语义对齐的视觉对话生成系统输出的回复的准确度lr满足以下公式:
lr=logPkey
其中,Pkey表示回复关键词与所述基于语义对齐的视觉对话生成系统输出的回复的匹配概率。
本发明的有益效果如下:
1)本发明采用双通道同步获取全局、局部图像信息,得到具有丰富语义的图像信息。本发明对图像信息的提取从两个方面进行:分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示,同时通过dense caption获取局部密集图像描述,文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。
2)本发明克服原有技术获取的图像信息不好与文本进行融合的缺点。本发明对于图像信息的捕捉分为两部分:
使用变体Faster-RCNN模型获取区域图像特征,使用image caption模型中的单词检测部分作为概念提取器来获取文本单词,将这两者通过共注意力机制进行对齐操作,最终构建全局基于语义的图像表示。这种方法减少了由于不同模态之间的差距带来的信息不交融的问题,让模型不再简单地基于提取的图像特征进行多模态学习任务。对于局部的基于文本的图像描述,通过获取Dense Caption,将图像转换为一列针对局部图像的文本描述,方便与同为文本模态的问题、历史信息进行信息的融合、交互。
3)本发明克服传统视觉对话模型可解释性差的缺点。现有的神经网络模型大多采用将图像特征、问题和对话历史的文本表示进行融合后生成回复,生成回复过程中的信息获取过程往往具有较差的解释性或者说明。本发明构建了语义对齐的视觉特征表示,能很好的通过注意力机制,根据问题和历史信息来获取图像需要注意的区域,能够显示在生成回复的过程中注意的图像信息,可以很好的说明推理过程是否合理。
4)本发明克服原有技术生成的回答不能兼顾语法合理性的缺点。解决了易产生通用回答的弊病,也进一步加强了文本的流畅度,多元性。当前视觉对话的工作基本不考虑生成文本的质量,传统的视觉对话系统使用负最大似然函数将生成的回复和ground truth进行匹配约束,限制了生成回复的多样性,忽略了对话的质量,不能实现友好的人机交互。本发明从流畅度、连贯度和准确性三个方面综合考虑来构建损失函数,在考虑回复正确性的同时,从回复文本的流畅度和连贯度进行了约束,为了避免生成回复单一,我们采用关键词约束的方法来约束回复的正确性,这样能丰富生成回答的表示形式。
5)传统的视觉对话系统很大程度上依赖对话历史来进行回复的生成或者选择,更多情况下是利用了对话历史中存在的关键词提供的虚假线索,并没有真正实现从文本、图像两个方面进行交互的人工智能,亦或根据问题来对图像信息进行推理。本发明重点在于从图像中提取丰富、具有高级语义的信息,依赖对话历史完善问题的理解,这样最大程度上来利用图像信息进行回复的生成,做到真正的“看图交互”。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种基于语义对齐的视觉对话生成系统的示意图;
图2是本发明实施例中得到基于语义对齐的全局图像特征的示意图;
图3是本发明实施例中语义对齐的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
视觉对话生成任务定义如下:根据给定图像I,图像描述C和t-1轮的对话历史Ht={C,(Q1,A1),...,(Qt-1,At-1)},以及当前轮问题Q的信息,生成针对当前轮问题Q的回答A。
本发明实施例发现传统的视觉对话生成系统存在的问题至少包括:无法获取充足、易与文本进行融合的图像特征;过多依赖对话历史而非图像信息来生成回复;没有考虑生成式的视觉对话的文本质量。因此,本发明实施例对图像信息的提取从两个方面进行:分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示,同时通过dense caption获取局部密集图像描述,文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。同时从文本流畅度、文本连贯度和正确度来进行全面的约束,指导回复的生成。此外,本发明实施例提出采用关键词约束的方法来约束回复的正确性,进而丰富生成回答的表示形式。
基于此,本发明的一个实施例提供了一种基于语义对齐的视觉对话生成系统。参考图1,图1是本发明实施例提供的一种基于语义对齐的视觉对话生成系统的示意图。如图1所示,本发明实施例提供的一种基于语义对齐的视觉对话生成系统基于late fusion框架,包括:一个编码器和一个生成式解码器。
所述编码器用于:通过Faster R-CNN的变体模型,提取给定图像的区域视觉特征;通过概念提取器,获得从所述给定图像提取的文本单词构成的词向量;采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征。通过DenseCap模型,提取给定图像I的使用文本表述的区域的密集图像描述。具体说明如下:
为了获取表达更全面、基于语义的图像表示,编码器将从给定图像I中获取给定图像I的区域视觉特征,并获得从给定图像I提取的文本单词构成的词向量,然后对给定图像I的区域视觉特征和从给定图像I提取的文本单词构成的词向量进行语义对齐操作,获取基于语义对齐的全局图像特征。具体过程如下:
如图1所示,用于提取区域视觉特征的Faster R-CNN的变体模型和概念提取器的输入相同,均只有给定图像I。Faster R-CNN的变体模型的输出是给定图像I的区域视觉特征(region-based visual features)即,将给定图像I的一些重要的区域提取出来,每一个区域都有一个特征向量,概念提取器的输出是从给定图像I提取的文本单词,使用预训练语言模型将文本单词构建为词向量(textual concepts)。
在具体实施时,使用Faster R-CNN的变体模型提取基于区域的视觉特征,并在Visual Genome上进行预训练。用
Figure BDA0002551855270000101
表示给定图像I的区域视觉特征矩阵,其中,区域视觉特征的数量为n,区域视觉特征的维度为d。
概念提取器(concept extractor)使用Multiple Instance Learning在MSCOCOcaptioning数据集上预训练。使用概念提取器获得从给定图像I提取的文本单词,使用预训练语言模型将文本单词构建为词向量,。用
Figure BDA0002551855270000102
表示从给定图像I提取的文本单词构成的词向量矩阵,其中,m表示从给定图像I提取的文本单词构成的词向量使用的文本单词的数量,d表示从给定图像I提取的文本单词构成的词向量的维度。
为了获取基于语义的全局图像信息,减少不同模态融合带来的问题,本发明构建了co-attention机制,对给定图像I的区域视觉特征和从给定图像I提取的文本单词构成的词向量进行语义对齐操作,对齐操作见图2所示。语义对齐的具体示例可见图3。图3中,进行语义对齐的文本单词为:
[′clock′,′tower′,′large′,′building′,′clocks′,′top′,′it′,′roof′,′side′,′big′,′above′,′blue′,′has′,′white′,′mounted′,′sky′,′tall′,′that′,′time′,′structure′′attached′,′giant′,′red′,′below′,′sits′,′brick′,′very′,′wall′,′front′,′ceiling′,′there′,′s′,′house′,′center′,′huge′,′sitting′]}
编码器采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征,包括:
首先,通过将给定图像的区域视觉特征Iv和从所述给定图像提取的文本单词构成的词向量Iw连接,计算相似度矩阵s,相似度矩阵s符合以下公式:
S=IvM(Iw)T
其中,
Figure BDA0002551855270000111
是可训练的参数矩阵,s中的元素Si,j表示给定图像I的第i个的区域视觉特征和给定图像I提取的文本单词的词向量的相似度。
本发明中,“连接操作”代表两个向量的连接,连接可以按照行或列,在此不做具体限定。例如:维度为2×1的向量A和维度是3×1的向量B,对两个向量进行连接操作,得到的是维度为5×1的向量C(即,对两个向量按行拼接)。
然后,通过column-wise的归一化,对给定图像I的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,按照以下公式生成文本-图像的注意力权重Awv
Avw=softmax(ST)
其中,softmax(.)表示column-wise的归一化函数;
最后,按照以下公式,得到基于语义对齐的全局图像特征
Figure BDA0002551855270000112
Figure BDA0002551855270000113
采用co-attention机制,可以使得
Figure BDA0002551855270000123
的注意力由Iv和Iw共同引导,因此,这两个信息源可以相互促进,以获得更好的表示。
编码器还用于通过DenseCap模型,提取给定图像I的使用文本表述的局部的密集图像描述(Local textual image representation)。
在具体实施时,全局image caption(C)由数据集提供,有助于回答探索场景的问题。Image caption相对于图像特征的优势在于:caption是由具有高级语义的自然语言来表示的,可以直接为问题提供线索,避免了模态不同造成的差距问题。因此,除了数据集本身提供的C之外,本发明获取密集图像描述,用Z={Z1,Z2,...Zk}来表示给定图像I的使用文本表述的局部图像描述,其中k是图像描述的数量,每个单词通过预训练的GloVe语言模型进行词嵌入,Z是从图像获取的前36条密集图像描述(image caption)。
编码器还用于通过第一LSTM模型提取当前轮问题的特征,通过第二LSTM提取对话历史的特征,通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合,得到融合对话历史的当前轮问题的特征。
在具体实施时,视觉对话是多轮对话问题,对话历史Ht={C,(Q1,A1),...,(Qt-1,At-1)}中往往存在很多对当前轮问题Q的补充,例如:当前轮问题Q中的存在的代词,根据对话历史Ht={C,(Q1,A1),...,(Qt-1,At-1)}可以进行指代消解。
本发明使用LSTM模型(第一LSTM模型)来提取当前轮问题Q的问题特征,使用另一个LSTM模型(第二LSTM模型)来提取对话历史Ht={C,(Q1,A1),...,(Qt-1,At-1)}的特征。
从对话历史Ht={C,(Q1,A1),...,(Qt-1,At-1)}中选择与当前轮问题Q相关的信息,通过门控机制将信息融合到当前轮问题Q的表示中,得到融合对话历史的当前轮问题的特征
Figure BDA0002551855270000121
在对话中第t轮的公式表达如下:
Figure BDA0002551855270000122
Figure BDA0002551855270000131
Figure BDA0002551855270000132
Figure BDA0002551855270000133
其中[;]代表连接,⊙代表元素点乘,每个单词通过预训练的GloVe语言模型进行词嵌入,Qt代表第t轮对话的问题,
Figure BDA0002551855270000134
表示第t轮对话的问题Qt经所述第一LSTM模型编码后得到的特征,
Figure BDA0002551855270000135
表示第t轮对话的对话历史Ht经所述第二LSTM模型编码后得到的特征,其中,对话历史中的多个问答对进行拼接后送入所述第二LSTM模型中进行编码,
Figure BDA0002551855270000136
是关于
Figure BDA0002551855270000137
Figure BDA0002551855270000138
的门控值的一个向量,
Figure BDA0002551855270000139
代表所述融合对话历史的当前轮问题的特征表示。
编码器还用于根据融合对话历史的当前轮问题的特征,通过注意力机制对基于语义对齐的全局图像特征和所述使用文本表述的区域图像描述分别进行引导,分别得到根据问题引导的基于语义对齐的全局图像特征和根据问题引导的使用文本表述的区域图像描述。
在具体实施时,根据获取的
Figure BDA00025518552700001310
来引导从基于语义对齐的全局图像特征
Figure BDA00025518552700001311
和使用文本表述的局部图像描述Z中,获取与问题相关的图像信息。通过注意力机制来引导信息获取。
根据
Figure BDA00025518552700001312
来更新基于语义对齐的全局图像特征
Figure BDA00025518552700001313
的公式描述如下:
Figure BDA00025518552700001314
Figure BDA00025518552700001315
Figure BDA00025518552700001316
其中,Wq、Wv
Figure BDA00025518552700001317
均是可学习的参数,
Figure BDA00025518552700001318
为基于语义对齐的全局图像特征。
根据
Figure BDA00025518552700001319
来更新使用文本表述的局部图像描述Z的公式描述如下:
Figure BDA00025518552700001320
Figure BDA0002551855270000141
Figure BDA0002551855270000142
其中,Wq、Wv
Figure BDA0002551855270000143
均是可学习的参数,Z是从图像获取的前36条密集图像描述(imagecaption),
Figure BDA0002551855270000144
为所述融合对话历史的当前轮问题的特征表示。
编码器还用于对根据问题引导的基于语义对齐的全局图像特征
Figure BDA0002551855270000145
根据问题引导的使用文本表述的局部图像描述z′、以及融合对话历史的当前轮问题的特征
Figure BDA0002551855270000146
进行融合,得到最终的上下文向量et(即context vector)。编码器最终获取context vector,传给解码器。
其中,最终的上下文向量et符合以下公式:
Figure BDA0002551855270000147
其中,We是可学习的参数,[;;]代表连接,
Figure BDA0002551855270000148
为所述融合对话历史的当前轮问题的特征,
Figure BDA0002551855270000149
为所述根据问题引导的基于语义对齐的全局图像特征,Z′为所述根据问题引导的使用文本表述的局部图像描述。
使用LSTM模型构建生成式解码器,生成式解码器用于根据最终的上下文向量et,生成回复。具体地,可以使用一个LSTM模型作为生成式解码器。
在具体实施时,所述基于语义对齐的视觉对话生成系统输出的回复满足三方面的约束:流畅度、连贯度和准确度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述生成式解码器:
L(θ)=-(lf+lc+lr)
其中,θ表示可训练的参数,lf表示所述基于语义对齐的视觉对话生成系统输出的回复的流畅度,lc表示所述基于语义对齐的视觉对话生成系统输出的回复的连贯度,lr表示所述基于语义对齐的视觉对话生成系统输出的回复的准确度。
在具体实施时,所述基于语义对齐的视觉对话生成系统输出的回复的流畅度lf满足以下公式:
Figure BDA0002551855270000151
y表示所述基于语义对齐的视觉对话生成系统输出的回复,N代表y的长度,P代表预训练的N-Gram语言模型。
本发明考虑到过短的回复通常是无意义的回复,而过长的回复常存在冗余。所以在语言模型的基础上按回复的长度进行缩放,从而控制回复的长度。
在具体实施时,所述基于语义对齐的视觉对话生成系统输出的回复的连贯度lc满足以下公式:
Figure BDA0002551855270000152
其中,y表示所述基于语义对齐的视觉对话生成系统输出的回复,x代表给定问句,Pseq2seq(y|x)代表表示给定问句x时生成回复y的概率,
Figure BDA0002551855270000153
代表基于回复y生成问句x的概率,Pseq2seq
Figure BDA0002551855270000154
是两个预训练的Seq2Seq模型。
在具体实施时,所述基于语义对齐的视觉对话生成系统输出的回复的准确度lr满足以下公式:
lr=logPkey
其中,Pkey表示回复关键词与所述基于语义对齐的视觉对话生成系统输出的回复的匹配概率。
当前的视觉对话生成系统都是通过将生成回复和ground truth进行相似度对比来,使用负最大似然函数进行训练。然而,在对话中生成的回复可能是多样性的,不同的回答虽然表达形式不同,但并非是质量差。本发明考虑到为了同时保证回复的多样性和准确性,对于有正确答案的回复,我们提取了回复关键词,(例如,问句:图片中的男孩穿着什么颜色的上衣?回复:男孩穿着蓝色的上衣。我们可以提取出蓝色作为关键词,与视觉对话系统生成的回复进行匹配。)通过计算回复关键词和视觉对话系统生成回复的相似度,来约束回复正确率。
本发明的有益效果如下:
1)本发明采用双通道同步获取全局、局部图像信息,得到具有丰富语义的图像信息。本发明对图像信息的提取从两个方面进行:分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示,同时通过dense caption获取局部密集图像描述,文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。
2)本发明克服原有技术获取的图像信息不好与文本进行融合的缺点。本发明对于图像信息的捕捉分为两部分:
使用变体Faster-RCNN模型获取区域图像特征,使用image caption模型中的单词检测部分作为概念提取器来获取文本单词,将这两者通过共注意力机制进行对齐操作,最终构建全局基于语义的图像表示。这种方法减少了由于不同模态之间的差距带来的信息不交融的问题,让模型不再简单地基于提取的图像特征进行多模态学习任务。对于局部的基于文本的图像描述,通过获取Dense Caption,将图像转换为一列针对局部图像的文本描述,方便与同为文本模态的问题、历史信息进行信息的融合、交互。
3)本发明克服传统视觉对话模型可解释性差的缺点。现有的神经网络模型大多采用将图像特征、问题和对话历史的文本表示进行融合后生成回复,生成回复过程中的信息获取过程往往具有较差的解释性或者说明。本发明构建了语义对齐的视觉特征表示,能很好的通过注意力机制,根据问题和历史信息来获取图像需要注意的区域,能够显示在生成回复的过程中注意的图像信息,可以很好的说明推理过程是否合理。
4)本发明克服原有技术生成的回答不能兼顾语法合理性的缺点。解决了易产生通用回答的弊病,也进一步加强了文本的流畅度,多元性。当前视觉对话的工作基本不考虑生成文本的质量,传统的视觉对话系统使用负最大似然函数将生成的回复和ground truth进行匹配约束,限制了生成回复的多样性,忽略了对话的质量,不能实现友好的人机交互。本发明从流畅度、连贯度和准确性三个方面综合考虑来构建损失函数,在考虑回复正确性的同时,从回复文本的流畅度和连贯度进行了约束,为了避免生成回复单一,我们采用关键词约束的方法来约束回复的正确性,这样能丰富生成回答的表示形式。
5)传统的视觉对话系统很大程度上依赖对话历史来进行回复的生成或者选择,更多情况下是利用了对话历史中存在的关键词,并没有真正实现从文本、图像两个方面进行交互的人工智能,亦或根据问题来对图像信息进行推理。本发明重点在于从图像中提取丰富、具有高级语义的信息,依赖对话历史完善问题的理解,这样最大程度上来利用图像信息进行回复的生成,做到真正的“看图交互”。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。

Claims (10)

1.一种基于语义对齐的视觉对话生成系统,其特征在于,包括:编码器和生成式解码器;
所述编码器用于:
通过Faster R-CNN的变体模型,提取给定图像的区域视觉特征;
通过概念提取器,获得从所述给定图像提取的文本单词构成的词向量;
采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征;
通过DenseCap模型,提取所述给定图像的使用文本表述的区域图像描述;
通过第一LSTM模型提取当前轮问题的特征,通过第二LSTM提取对话历史的特征,通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合,得到融合对话历史的当前轮问题的特征;
根据融合对话历史的当前轮问题的特征,通过注意力机制对所述基于语义对齐的全局图像特征和所述使用文本表述的区域图像描述分别进行引导,分别得到根据问题引导的基于语义对齐的全局图像特征和根据问题引导的使用文本表述的区域图像描述;
对所述根据问题引导的基于语义对齐的全局图像特征、所述根据问题引导的使用文本表述的区域图像描述、以及所述融合对话历史的当前轮问题的特征进行融合,得到最终的上下文向量;
使用LSTM模型构建所述生成式解码器,所述生成式解码器用于根据所述最终的上下文向量,生成回复。
2.根据权利要求1所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述编码器采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征,包括:
通过将所述给定图像的区域视觉特征Iv和从所述给定图像提取的文本单词构成的词向量Iw连接,计算相似度矩阵S,相似度矩阵S符合以下公式:
S=IvM(Iw)T
其中,
Figure FDA0002551855260000021
是可训练的参数矩阵,s中的元素Si,j表示第i个所述给定图像的区域视觉特征和第j个所述给定图像提取的文本单词的词向量的相似度;
通过column-wise的归一化,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,按照以下公式生成文本-图像的注意力权重Awv
Avw=softmax(ST)
其中,softmax(.)表示column-wise的归一化函数;
按照以下公式,得到基于语义对齐的全局图像特征
Figure FDA0002551855260000022
Figure FDA0002551855260000023
3.根据权利要求1所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述编码器通过第一LSTM模型提取当前轮问题的特征,通过第二LSTM提取对话历史的特征,通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合,得到融合对话历史的当前轮问题的特征,包括:
Figure FDA0002551855260000024
Figure FDA0002551855260000025
Figure FDA0002551855260000026
Figure FDA0002551855260000027
其中[;]代表连接,⊙代表元素点乘,每个单词通过预训练的GloVe语言模型进行词嵌入,Qt代表第t轮对话的问题,
Figure FDA00025518552600000316
表示第t轮对话的问题Qt经所述第一LSTM模型编码后得到的特征,
Figure FDA00025518552600000317
表示第t轮对话的对话历史Ht经所述第二LSTM模型编码后得到的特征,其中,对话历史中的多个问答对进行拼接后送入所述第二LSTM模型中进行编码,
Figure FDA0002551855260000031
是关于
Figure FDA0002551855260000032
Figure FDA0002551855260000033
的门控值的一个向量,
Figure FDA0002551855260000034
代表所述融合对话历史的当前轮问题的特征。
4.根据权利要求3所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述根据问题引导的基于语义对齐的全局图像特征
Figure FDA0002551855260000035
符合以下公式:
Figure FDA0002551855260000036
Figure FDA0002551855260000037
Figure FDA0002551855260000038
其中,Wq、Wv
Figure FDA0002551855260000039
均是可学习的参数,
Figure FDA00025518552600000310
为所述基于语义对齐的全局图像特征。
5.根据权利要求3所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述方法还包括:
获取密集图像描述,用Z={Z1,Z2,...Zk}来表示给定图像I的使用文本表述的局部图像描述,其中k是图像描述的数量,使用预训练的GloVe语言模型进行词嵌入;
所述根据问题引导的使用文本表述的局部图像描述Z′符合以下公式:
Figure FDA00025518552600000311
Figure FDA00025518552600000312
Figure FDA00025518552600000313
其中,Wq、Wv
Figure FDA00025518552600000314
均是可学习的参数,Z是从图像获取的前36条密集图像描述,
Figure FDA00025518552600000315
为所述融合对话历史的当前轮问题的特征表示。
6.根据权利要求1所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述最终的上下文向量符合以下公式:
Figure FDA0002551855260000041
其中,We是可学习的参数,[;;]代表连接,
Figure FDA0002551855260000042
为所述融合对话历史的当前轮问题的特征表示,
Figure FDA0002551855260000043
为所述根据问题引导的基于语义对齐的全局图像特征,Z′为所述根据问题引导的使用文本表述的局部图像描述。
7.根据权利要求1所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述基于语义对齐的视觉对话生成系统输出的回复满足三方面的约束:流畅度、连贯度和准确度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述生成式解码器:
L(θ)=-(lf+lc+lr)
其中,θ表示可训练的参数,lf表示所述基于语义对齐的视觉对话生成系统输出的回复的流畅度,lc表示所述基于语义对齐的视觉对话生成系统输出的回复的连贯度,lr表示所述基于语义对齐的视觉对话生成系统输出的回复的准确度。
8.根据权利要求7所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述基于语义对齐的视觉对话生成系统输出的回复的流畅度lf满足以下公式:
Figure FDA0002551855260000044
y表示所述基于语义对齐的视觉对话生成系统输出的回复,N代表y的长度,P代表预训练的N-Gram语言模型。
9.根据权利要求7所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述基于语义对齐的视觉对话生成系统输出的回复的连贯度lc满足以下公式:
Figure FDA0002551855260000051
其中,y表示所述基于语义对齐的视觉对话生成系统输出的回复,x代表给定问句,Pseq2seq(y|x)代表表示给定问句x时生成回复y的概率,
Figure FDA0002551855260000052
代表基于回复y生成问句x的概率,Pseq2seq
Figure FDA0002551855260000053
是两个预训练的Seq2Seq模型。
10.根据权利要求7所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述基于语义对齐的视觉对话生成系统输出的回复的准确度lr满足以下公式:
lr=logPkey
其中,Pkey表示回复关键词与所述基于语义对齐的视觉对话生成系统输出的回复的匹配概率。
CN202010577719.7A 2020-06-23 2020-06-23 基于语义对齐的视觉对话生成系统 Active CN111967272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010577719.7A CN111967272B (zh) 2020-06-23 2020-06-23 基于语义对齐的视觉对话生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010577719.7A CN111967272B (zh) 2020-06-23 2020-06-23 基于语义对齐的视觉对话生成系统

Publications (2)

Publication Number Publication Date
CN111967272A true CN111967272A (zh) 2020-11-20
CN111967272B CN111967272B (zh) 2023-10-31

Family

ID=73362207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010577719.7A Active CN111967272B (zh) 2020-06-23 2020-06-23 基于语义对齐的视觉对话生成系统

Country Status (1)

Country Link
CN (1) CN111967272B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113435399A (zh) * 2021-07-14 2021-09-24 电子科技大学 一种基于多层次排序学习的多轮视觉对话方法
CN114299510A (zh) * 2022-03-08 2022-04-08 山东山大鸥玛软件股份有限公司 一种手写英文行识别系统
CN115293109A (zh) * 2022-08-03 2022-11-04 合肥工业大学 一种基于细粒度语义融合的文本图像生成方法及系统
CN116342332A (zh) * 2023-05-31 2023-06-27 合肥工业大学 基于互联网的辅助审判方法、装置、设备及存储介质
CN116486421A (zh) * 2023-04-28 2023-07-25 书行科技(北京)有限公司 图像翻译和检测方法、图像模型训练方法及相关产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318648A1 (en) * 2018-04-12 2019-10-17 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318648A1 (en) * 2018-04-12 2019-10-17 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周星光;靳华中;徐雨东;李晴晴;胡满;: "基于多尺度特征的图像描述生成模型", 湖北工业大学学报, no. 02 *
赵小虎;尹良飞;赵成龙;: "基于全局-局部特征和自适应注意力机制的图像语义描述算法", 浙江大学学报(工学版), no. 01 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113177115B (zh) * 2021-06-30 2021-10-26 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113435399A (zh) * 2021-07-14 2021-09-24 电子科技大学 一种基于多层次排序学习的多轮视觉对话方法
CN114299510A (zh) * 2022-03-08 2022-04-08 山东山大鸥玛软件股份有限公司 一种手写英文行识别系统
CN115293109A (zh) * 2022-08-03 2022-11-04 合肥工业大学 一种基于细粒度语义融合的文本图像生成方法及系统
CN115293109B (zh) * 2022-08-03 2024-03-19 合肥工业大学 一种基于细粒度语义融合的文本图像生成方法及系统
CN116486421A (zh) * 2023-04-28 2023-07-25 书行科技(北京)有限公司 图像翻译和检测方法、图像模型训练方法及相关产品
CN116486421B (zh) * 2023-04-28 2024-03-22 书行科技(北京)有限公司 一种图像翻译模型的训练方法及相关产品
CN116342332A (zh) * 2023-05-31 2023-06-27 合肥工业大学 基于互联网的辅助审判方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111967272B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
Wu et al. Multimodal large language models: A survey
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN111339281B (zh) 一种多视角融合的阅读理解选择题的答案选择方法
CN111581361A (zh) 一种意图识别方法及装置
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN114092707A (zh) 一种图像文本视觉问答方法、系统及存储介质
CN109712108B (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
Wu et al. Recall what you see continually using gridlstm in image captioning
CN110427605A (zh) 面向短文本理解的省略恢复方法
CN114372173A (zh) 一种基于Transformer架构的自然语言目标跟踪方法
CN111858882A (zh) 一种基于概念交互和关联语义的文本视觉问答系统及方法
CN113780059B (zh) 一种基于多特征点的连续手语识别方法
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN114996502A (zh) 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备
CN113537024A (zh) 多层时序注意力融合机制的弱监督神经网络手语识别方法
Yuan et al. Large scale sign language interpretation
CN116661603A (zh) 复杂人机交互场景下的多模态融合的用户意图识别方法
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN114663915A (zh) 基于Transformer模型的图像人-物交互定位方法及系统
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
CN114386515A (zh) 基于Transformer算法的单模态标签生成和多模态情感判别方法
CN112069781A (zh) 一种评语生成方法、装置、终端设备及存储介质
CN117292146A (zh) 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant