CN109902166A - 视觉问答模型、电子设备及存储介质 - Google Patents

视觉问答模型、电子设备及存储介质 Download PDF

Info

Publication number
CN109902166A
CN109902166A CN201910185125.9A CN201910185125A CN109902166A CN 109902166 A CN109902166 A CN 109902166A CN 201910185125 A CN201910185125 A CN 201910185125A CN 109902166 A CN109902166 A CN 109902166A
Authority
CN
China
Prior art keywords
text
term vector
model
vector
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910185125.9A
Other languages
English (en)
Inventor
黄剑辉
乔敏
黄苹苹
朱勇
吕雅娟
李盈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910185125.9A priority Critical patent/CN109902166A/zh
Publication of CN109902166A publication Critical patent/CN109902166A/zh
Priority to KR1020200000226A priority patent/KR102403108B1/ko
Priority to EP20150895.9A priority patent/EP3709207A1/en
Priority to US16/750,304 priority patent/US20200293921A1/en
Priority to JP2020041593A priority patent/JP2020149685A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种视觉问答模型、电子设备及存储介质,其中,所述视觉问答模型包括图像编码器和文本编码器;其中,所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量;所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。本发明实施例通过使用池化方式处理文本向量,确保在视觉问答模型预测准确率损失不大的前提下,有效的提升了模型训练效率,更有益于工程上的使用。

Description

视觉问答模型、电子设备及存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种视觉问答模型、电子设备及存储介质。
背景技术
视觉问答系统(Visual Question Answering以下简称VQA)是多模态融合的一种典型应用,例如,对于给定一张图,图中有一个穿红色衣服的击球手,如果提出相关的问题“what color shirt is the batter wearing?”,VQA模型需要结合图像信息和文本问题信息预测答案为“red”。这一过程主要涉及对图像和文本进行语义特征抽取,以及对抽取到的图像和文本两个模态的特征进行融合,因此VQA相关的模型的编码部分主要由文本编码器和图像编码器组成。
然而,由于需要同时涉及图像和文本编码器,VQA模型往往含有大量的需要训练的参数,这使得模型训练时间相当长。所以,如何在模型准确率损失不大的前提上,从工程上来精简模型,提高模型的训练效率成为目前亟需解决的技术问题。
发明内容
本发明实施例提供了一种视觉问答模型、电子设备及存储介质,以达到在视觉问答模型准确率损失不大的前提下,从工程上来精简模型,提高视觉问答模型的训练效率的目的。
第一方面,本发明实施例提供了一种视觉问答模型,包括图像编码器和文本编码器;
其中,所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量;
所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。包括:
第二方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器运行如本发明任一实施例所述的视觉问答模型。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时运行如本发明任一实施例所述的视觉问答模型。
本发明实施例提供的一种视觉问答模型、电子设备及存储介质,在视觉问答模型中,通过利用池化处理方式对文本向量进行编码,达到精简视觉问答模型的目的,而且通过池化处理这种简单的编码方式,减少了视觉问答模型中需要进行训练的参数的数量,有效的提升了视觉问答模型训练效率,更有益于工程上的使用。
附图说明
图1是本发明实施例一提供的一种视觉问答模型的结构示意图;
图2是本发明实施例二提供的另一种视觉问答模型的结构示意图;
图3是本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种视觉问答模型,本实施例通过精简视觉问答模型以提升视觉问答模型训练效率,该模型可以在电子设备上运行,例如由计算机终端或服务器运行。
如图1所示,本发明实施例中提供的视觉问答模型可以包括:
文本编码器,用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量。
其中,在对问题文本进行编码前,需要对问题文本进行预处理,示例性的,通过word2vec模型或glove模型对问题文本进行处理,得到该问题文本对应的词向量序列。而对问题文本进行编码,只需将该问题文本对应的词向量序列输入文本编码器,由文本编码器对问题文本的词向量序列做池化处理,即可提取问题文本的语义表征向量。在此需要说明的是,现有技术中通过LSTM(Long Short-Term Memory,长短期记忆网络)模型或Bi-LSTM(Bi-directional Long Short-Term Memory,双向LSTM)模型作为文本编码器。而本申请利用池化处理代替了LSTM模型或Bi-LSTM模型作为文本编码器,精简了视觉问答模型。
本实施例中,所述池化处理为最大化池化(maxPooling)处理,且所述最大化池化处理用如下公式表示:
f(w1,w2,……,wk)=max([w1,w2,……,wk],dim=1)
其中,f表示最大化池化处理函数;k为所述问题文本中所包含的词向量数目;wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量,i为[1,k]中的自然数;max([w1,w2,……,wk],dim=1)表示词向量w1,w2,……,wk中,每个词向量对应维度取最大,其中,dim=1是指维度,即表示对于给定的二维矩阵,按行取值。
示例性的,一个问题文本的词向量序列为通过上述公式对该词向量序列进行最大化池化处理后得到因此,即为该问题文本的语义表征向量。由此,通过最大化池化处理减少了视觉问答模型中需要进行训练的参数的数量,进而可提升视觉问答模型的训练效率。
此外,本发明实施例的视觉问答模型中的图像编码器,用于结合语义表征向量提取给定图像的图像特征。
由于图像中均包含背景和丰富的内容,因此为了确保机器更加关注与问题相关的图像内容进而提升问题回答的准确性,可采用视觉注意力机制(图1中的Attention),通过Attention机制,图像编码器可通过结合文本编码器获得的问题文本对应的语义表征向量,锁定与该语义表征向量最相关的图像内容,并提取该图像内容的图像特征,得到图像特征向量,其中,图像编码器可采用卷积神经网络模型,例如Faster RCNN模型。
进一步的,如图1所示,该视觉问答模型还包括特征融合器(fusion),用于对不同模态的特征进行融合,本实施例中,特征融合器用于将图像编码器输出的图像特征向量和文本编码器输出的语义表征向量进行融合,示例性的,可通过将图像特征向量和语义表征向量进行点乘运算的方式进行融合。
该视觉问答模型还包括分类器,所述分类器通过softmax函数(也称作归一化指数函数)对上述特征融合器输出的向量进行数值处理,得到不同答案之间的相对概率,并将相对概率最大值对应的答案输出。
针对上述视觉问答模型,在一种具体的实施方式中,以斯坦福人工智能实验室发布的数据集合Visual Genome作为训练样本数据和验证数据,且训练样本数据和验证数据可按2:1的比例随机划分,对该视觉问答模型进行训练与验证。该数据集合具体的数据统计如表1所示,每张图片含有一定数量的问题,并由人工标注给定答案。
表1
名称 数量
图片数 108077
问题数 1445322
利用上述数据对本实施例提供的视觉问答模型进行训练和验证,具体的,可以在P40集群上运行该视觉问答模型,其中P40集群环境配置、模型基本参数如表2所示。而为了进行比较,同时对现有技术中以LSTM或Bi-LSTM作为文本编码器的视觉问答模型进行训练和验证,结果见表3。
由表3列出的验证结果可知,本发明实施例采用最大化池化处理作为文本编码器的视觉问答模型,相比于现有的采用LSTM或Bi-LSTM作为文本编码器的视觉问答模型,预测准确率损失仅仅0.5%左右,但缩短模型运行时间最大缩短了3小时,使得训练效率大幅提升。
表2
表3
文本编码器 运行时间 预测精度
LSTM 7.5h 41.39%
Bi-LSTM 8.2h 41.36%
maxPooling 5.2h 40.84%
本发明实施例中,视觉问答模型中通过利用池化处理方式对文本向量进行编码,达到精简视觉问答模型的目的,而且通过池化处理这种简单的编码方式,实现了在视觉问答模型预测准确率损失不大的前提下,有效的提升了视觉问答模型训练效率,更有益于工程上的使用。
实施例二
图2是本实施例提供的另一种视觉问答模型的结构示意图。如图2所示,视觉问答模型包括:
文本编码器,用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量。
其中,所述池化处理为平均化池化处理,所述平均化池化处理(avgPooling)可用如下公式表示:
其中,p表示平均化池化处理函数;k为所述问题文本中所包含的词向量数目;wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量,i为[1,k]中的自然数;wi表示词向量w1,w2,……,wk中,每个词向量对应维度的数值之和。
示例性的,一个问题文本的词向量序列为通过上述公式对该词向量序列进行平均化池化处理后得到因此,即为该问题文本的语义表征向量。由此,通过平均化池化处理减少了视觉问答模型中需要进行训练的参数的数量,进而可提升视觉问答模型的训练效率。
此外,本发明实施例的视觉问答模型中的图像编码器,用于结合语义表征向量提取给定图像的图像特征。
进一步的,视觉问答模型还包括特征融合器和分类器,关于所述特征融合器和分类器详见上述实施例,在此不再赘述。
针对本实施例的视觉问答模型,通过上述实施例中的Visual Genome数据集合在上述实施例所述的P40集群上进行训练和验证,同时对现有技术中以LSTM或Bi-LSTM作为文本编码器的视觉问答模型进行训练验证,结果见表4。
表4
文本编码器 运行时间 预测精度
LSTM 7.5h 41.39%
Bi-LSTM 8.2h 41.36%
avgPooling 5.8h 40.96%
由表4可知,本发明实施例采用平均化池化处理作为文本编码器的视觉问答模型,相比于现有的采用LSTM或Bi-LSTM作为文本编码器的视觉问答模型,预测准确率损失0.4%左右,但缩短模型运行时间最大缩短了2.4小时,提升了训练效率。
本发明实施例中,视觉问答模型中通过利用平均化池化处理方式对文本向量进行编码,达到精简视觉问答模型的目的,而且通过平均化池化处理这种简单的编码方式,实现了在视觉问答模型预测准确率损失不大的前提下,有效的提升了视觉问答模型训练效率,更有益于工程上的使用。
实施例三
图3为本发明实施例三提供的电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图3显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理器16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如运行本发明实施提供的视觉问答模型,该视觉问答模型包括:
图像编码器和文本编码器;
其中,所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量;
所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。
实施例四
本发明实施例四中提供一种包含计算机可读的存储介质,存储本发明实施例提供的视觉问答模型,并由计算机处理器运行,其中,所述视觉问答模型包括:
图像编码器和文本编码器;
其中,所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量;
所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。
当然,本发明实施例中所提供的一种计算机可读存储介质还可以执行本发明任意实施例中所提供的视觉问答模型。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种视觉问答模型,其特征在于,所述视觉问答模型包括图像编码器和文本编码器;
其中,所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量;
所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。
2.根据权利要求1所述的模型,其特征在于,所述文本编码器具体用于:
通过对输入的问题文本的词向量序列做最大化池化处理,或平均化池化处理,以提取所述问题文本的语义表征向量。
3.根据权利要求2所述的模型,其特征在于,所述最大化池化处理用如下公式表示:
f(w1,w2,……,wk)=max([w1,w2,……,wk],dim=1)
其中,f表示最大化池化处理函数;k为所述问题文本中所包含的词向量数目;wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量,i为[1,k]中的自然数;max([w1,w2,……,wk],dim=1)表示词向量w1,w2,……,wk中,每个词向量对应维度取最大值。
4.根据权利要求2所述的模型,其特征在于,所述平均化池化处理用如下公式表示:
其中,p表示平均化池化处理函数;k为所述问题文本中所包含的词向量数目;wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量,i为[1,k]中的自然数;表示词向量w1,w2,……,wk中,每个词向量对应维度的数值之和。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器运行如权利要求1-4中任一所述的视觉问答模型。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时运行如权利要求1-4中任一所述的视觉问答模型。
CN201910185125.9A 2019-03-12 2019-03-12 视觉问答模型、电子设备及存储介质 Pending CN109902166A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910185125.9A CN109902166A (zh) 2019-03-12 2019-03-12 视觉问答模型、电子设备及存储介质
KR1020200000226A KR102403108B1 (ko) 2019-03-12 2020-01-02 시각적 질문응답 모델, 전자 기기 및 저장 매체
EP20150895.9A EP3709207A1 (en) 2019-03-12 2020-01-09 Visual question answering model, electronic device and storage medium
US16/750,304 US20200293921A1 (en) 2019-03-12 2020-01-23 Visual question answering model, electronic device and storage medium
JP2020041593A JP2020149685A (ja) 2019-03-12 2020-03-11 視覚的質問応答モデル、電子機器、および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910185125.9A CN109902166A (zh) 2019-03-12 2019-03-12 视觉问答模型、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN109902166A true CN109902166A (zh) 2019-06-18

Family

ID=66947100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910185125.9A Pending CN109902166A (zh) 2019-03-12 2019-03-12 视觉问答模型、电子设备及存储介质

Country Status (5)

Country Link
US (1) US20200293921A1 (zh)
EP (1) EP3709207A1 (zh)
JP (1) JP2020149685A (zh)
KR (1) KR102403108B1 (zh)
CN (1) CN109902166A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110348535A (zh) * 2019-07-17 2019-10-18 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
CN110851760A (zh) * 2019-11-12 2020-02-28 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN110852043A (zh) * 2019-11-19 2020-02-28 北京字节跳动网络技术有限公司 一种文本转写方法、装置、设备及存储介质
CN111898678A (zh) * 2020-07-30 2020-11-06 北京嘀嘀无限科技发展有限公司 一种对样本进行分类的方法及系统
CN111967487A (zh) * 2020-03-23 2020-11-20 同济大学 一种用于视觉问答模型训练的增量型数据增强方法及应用
CN112148836A (zh) * 2020-09-07 2020-12-29 北京字节跳动网络技术有限公司 多模态信息处理方法、装置、设备及存储介质
CN113033580A (zh) * 2021-03-31 2021-06-25 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113205507A (zh) * 2021-05-18 2021-08-03 合肥工业大学 一种视觉问答方法、系统及服务器
CN113849623A (zh) * 2021-10-12 2021-12-28 中国传媒大学 文本视觉问答方法和装置
CN115688083A (zh) * 2022-12-29 2023-02-03 广东工业大学 图文型验证码的识别方法、装置、设备及存储介质
WO2023024412A1 (zh) * 2021-08-25 2023-03-02 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备
CN115880506A (zh) * 2022-12-27 2023-03-31 北京百度网讯科技有限公司 图像生成方法、模型的训练方法、装置及电子设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11901047B2 (en) * 2020-10-28 2024-02-13 International Business Machines Corporation Medical visual question answering
US11783008B2 (en) * 2020-11-06 2023-10-10 Adobe Inc. Machine-learning tool for generating segmentation and topic metadata for documents
CN112651403B (zh) * 2020-12-02 2022-09-06 浙江大学 基于语义嵌入的零样本视觉问答方法
CN112559713B (zh) * 2020-12-24 2023-12-01 北京百度网讯科技有限公司 文本相关性判断方法及装置、模型、电子设备、可读介质
CN112685548B (zh) * 2020-12-31 2023-09-08 科大讯飞(北京)有限公司 问题回答方法以及电子设备、存储装置
CN112818889B (zh) * 2021-02-09 2024-05-28 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN112668671B (zh) * 2021-03-15 2021-12-24 北京百度网讯科技有限公司 预训练模型的获取方法和装置
CN113033579B (zh) * 2021-03-31 2023-03-21 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113360699B (zh) * 2021-06-30 2023-09-26 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113722458A (zh) * 2021-08-27 2021-11-30 海信电子科技(武汉)有限公司 视觉问答处理方法、设备、计算机可读介质和程序产品
CN114495130B (zh) * 2021-12-27 2023-03-24 北京百度网讯科技有限公司 基于跨模态信息的文档阅读理解模型训练方法及装置
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
CN114840656B (zh) * 2022-05-18 2024-03-01 北京百度网讯科技有限公司 一种视觉问答方法、装置、设备及存储介质
CN115618061B (zh) * 2022-11-29 2023-03-10 广东工业大学 一种语义对齐的视频问答方法
CN116257611B (zh) * 2023-01-13 2023-11-10 北京百度网讯科技有限公司 问答模型的训练方法、问答处理方法、装置及存储介质
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
WO2019035771A1 (en) * 2017-08-17 2019-02-21 National University Of Singapore METHODS AND SYSTEMS FOR DETECTING VISUAL RELATIONS IN A VIDEO

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
WO2019035771A1 (en) * 2017-08-17 2019-02-21 National University Of Singapore METHODS AND SYSTEMS FOR DETECTING VISUAL RELATIONS IN A VIDEO

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DINGHAN SHEN 等: "Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms", 《PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110348535A (zh) * 2019-07-17 2019-10-18 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110851760A (zh) * 2019-11-12 2020-02-28 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN110851760B (zh) * 2019-11-12 2022-12-27 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN110852043A (zh) * 2019-11-19 2020-02-28 北京字节跳动网络技术有限公司 一种文本转写方法、装置、设备及存储介质
CN110852043B (zh) * 2019-11-19 2023-05-23 北京字节跳动网络技术有限公司 一种文本转写方法、装置、设备及存储介质
CN111967487A (zh) * 2020-03-23 2020-11-20 同济大学 一种用于视觉问答模型训练的增量型数据增强方法及应用
CN111967487B (zh) * 2020-03-23 2022-09-20 同济大学 一种用于视觉问答模型训练的增量型数据增强方法及应用
CN111898678A (zh) * 2020-07-30 2020-11-06 北京嘀嘀无限科技发展有限公司 一种对样本进行分类的方法及系统
CN112148836A (zh) * 2020-09-07 2020-12-29 北京字节跳动网络技术有限公司 多模态信息处理方法、装置、设备及存储介质
CN113033580B (zh) * 2021-03-31 2024-02-02 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113033580A (zh) * 2021-03-31 2021-06-25 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113205507A (zh) * 2021-05-18 2021-08-03 合肥工业大学 一种视觉问答方法、系统及服务器
CN113205507B (zh) * 2021-05-18 2023-03-10 合肥工业大学 一种视觉问答方法、系统及服务器
WO2023024412A1 (zh) * 2021-08-25 2023-03-02 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113849623A (zh) * 2021-10-12 2021-12-28 中国传媒大学 文本视觉问答方法和装置
CN113849623B (zh) * 2021-10-12 2024-04-09 中国传媒大学 文本视觉问答方法和装置
CN115880506A (zh) * 2022-12-27 2023-03-31 北京百度网讯科技有限公司 图像生成方法、模型的训练方法、装置及电子设备
CN115880506B (zh) * 2022-12-27 2024-03-08 北京百度网讯科技有限公司 图像生成方法、模型的训练方法、装置及电子设备
CN115688083A (zh) * 2022-12-29 2023-02-03 广东工业大学 图文型验证码的识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR102403108B1 (ko) 2022-05-26
KR20200110154A (ko) 2020-09-23
EP3709207A1 (en) 2020-09-16
JP2020149685A (ja) 2020-09-17
US20200293921A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
CN109902166A (zh) 视觉问答模型、电子设备及存储介质
CN107291867B (zh) 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN109101545A (zh) 基于人机交互的自然语言处理方法、装置、设备和介质
CN108959257A (zh) 一种自然语言解析方法、装置、服务器及存储介质
CN103678269A (zh) 一种信息处理方法和装置
CN108363556A (zh) 一种基于语音与增强现实环境交互的方法和系统
CN111832449A (zh) 工程图纸的显示方法及相关装置
CN108415939B (zh) 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN107181879B (zh) 识别来电意图
CN110378396A (zh) 样本数据标注方法、装置、计算机设备及存储介质
CN107516526A (zh) 一种声源跟踪定位方法、装置、设备和计算机可读存储介质
CN109409241A (zh) 视频核验方法、装置、设备及可读存储介质
CN109710333A (zh) 寄宿应用的处理方法、设备及计算机可读存储介质
CN109918513A (zh) 图像处理方法、装置、服务器及存储介质
CN107506296A (zh) 一种输入法测试方法、装置、电子设备及存储介质
CN111291882A (zh) 一种模型转换的方法、装置、设备和计算机存储介质
CN113158656A (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN107301220A (zh) 数据驱动视图的方法、装置、设备及存储介质
CN116863419A (zh) 一种目标检测模型轻量化的方法、装置、电子设备及介质
CN107818538A (zh) 水印图像的处理方法、装置、设备及计算机可读存储介质
CN116863078A (zh) 三维人体模型重建方法、装置、电子设备和可读介质
CN108920715A (zh) 客服的智能化辅助方法、装置、服务器和存储介质
CN115719490A (zh) 一种电芯快速识别检测编码方法、装置、设备及存储介质
CN108919695A (zh) 一种电器设备模块的编码方法、装置、设备和存储介质
CN108984680A (zh) 一种信息推荐方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination