CN110929013A - 一种基于bottom-up attention和定位信息融合的图片问答实现方法 - Google Patents

一种基于bottom-up attention和定位信息融合的图片问答实现方法 Download PDF

Info

Publication number
CN110929013A
CN110929013A CN201911224396.7A CN201911224396A CN110929013A CN 110929013 A CN110929013 A CN 110929013A CN 201911224396 A CN201911224396 A CN 201911224396A CN 110929013 A CN110929013 A CN 110929013A
Authority
CN
China
Prior art keywords
features
picture
model
input
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911224396.7A
Other languages
English (en)
Inventor
田文洪
吝博强
高印权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongke Cluster Information Technology Co Ltd
Original Assignee
Chengdu Zhongke Cluster Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongke Cluster Information Technology Co Ltd filed Critical Chengdu Zhongke Cluster Information Technology Co Ltd
Priority to CN201911224396.7A priority Critical patent/CN110929013A/zh
Publication of CN110929013A publication Critical patent/CN110929013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Abstract

本发明提供了一种基于Bottom‑up attention和融合定位信息的图片问答系统的实现方法,包括:处理图片和语句数据集;使用Faster‑RCNN获取图片特征作为模型的图片输入,使用经过Glove编码的问题序列,作为模型的问题输入;使用卷积层计算图片的self‑attention结果作为图片特征,使用Bi‑LSTM循环神经网络将问题的编码序列作为输入得到问题的隐藏特征;本发明使用特征融合方法将图片特征,图片中物体的定位信息和问题特征融合为当前任务的特征。在基于图片的问答任务中达到了更高的准确率。解决了因为使用Bottom‑up attention导致丢失物体坐标信息的问题。

Description

一种基于bottom-up attention和定位信息融合的图片问答 实现方法
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于卷积神经网络和循环神经网络的基于图片的问答实现方法
背景技术
最近几年,基于深度学习的机器视觉和自然语言处理的研究方法被大量提出,相比之前使用手工提取图片与句子特征极大地提高了实现效率和系统性能。在机器视觉方面,通常使用卷积神经网络包括: AlexNet,Inception,Resnet提取图片的高维特征,用该特征作为图片的高维表示。在自然语言处理方面,通常使用循环神经网络,包括:长短时记忆网络(LSTM),门控循环网络(GRU),将文本的编码序列依次输入到循环神经网络,用网络的输出作为文本的高维表示。
机器视觉和自然语言处理长期以来都是人工智能的两大基础性研究领域。实现基于图片的问答系统,是人工智能中重要的研究课题之一,有助于推进人工智能更进一步发展,该课题同时涉及机器视觉与自然语言处理,在实现方面较单一系统更为复杂,需要使用特征融合方法将使用卷积神经网络提取的图片特征与使用循环神经网络提取的文本特征融合为单一的能表示当前任务的特征。
注意力机制(Attention Mechanism)帮助神经网络在特定上下文环境中,将注意力集中在某一块相关度最高的图片区域或文本片段。该技术首先被应用在自然语言处理汇中,现在已经被大量用于各种深度学习任务中。
发明内容
本发明要解决的技术问题是:提供一种使用bottom-up attention 同时融合目标定位信息的基于图片的英文问答系统算法,解决传统 bottom-up attention丢失定位信息的问题。
句子最大长度设定使用循环神经网络,例如LSTM或GRU提取问题的特征,需要确定时间戳的长度,参考通常情况下,英文问句的长度,本发明在系统实现时,使用的时间戳长度为12。
使用分词工具将问题分为单个的有序的单词,对划分的单词按照一下规定进行正则化:
1.对于使用连词符的单词,去掉连词符,拆为两个单词
2.对于使用缩写的单词,例如:what’s拆为what is
3.对于大写的单词,转为全小写
4.保留标点符号
本发明使用斯坦福大学的Glove编码对问题数据进行编码,选用的编码维度是300,对于没有对应编码的词,使用全零向量代替。
本发明将基于图片的问答视为一个分类问题,且认为答案存在重尾分布,本发明使用一个阈值将出现次数小于该阈值的答案过滤舍弃,保留出现次数大于该阈值的答案。
本发明使用经过Faster-RCNN提取的图片中的物体特征作为算法的图片输入特征,Faster-RCNN是一种目标检测算法,在基于图片的问答算法中帮助定位图片中的物体,相较于传统的attention机制,能够更好的保留图片中物体的完整性和统一性。
本发明使用双层单向LSTM作为提取文本特征的算法,将正则化之后编码的文本依次输入LSTM,得到文本的特征用于之后的特征融合。
传统的bottom-up attention只提取了图片中物体的特征,忽略了物体之间的方位信息,导致算法回答关于方位的问题准确率不高,算法是根据先验概率随机猜测的。本发明将物体的方位信息加入特征融合过程中,算法在关于方位问题的作答上有了较大进步。
本发明的前景是广阔的,本发明提高了基于图片的问答系统在回答关于方位的问题时的准确率,能够有效提高问答系统的性能。
附图说明
图1是本发明一种实施例的模型训练框架示意图
图2是本发明一种实施例的模型使用框架示意图
图3是本发明一种实施例的模型细节实现示意图
具体实施方式
本发明的具体实施分为算法模型的训练和算法模型的使用两个部分。下面根据附图和实施例,对本发明的具体实施方式做进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
基于图片的问答系统模型如图1所示。每一个训练样本包含一张图片和一个针对图片提出的问题,其中模块1提取图片的特征,模块 2提取问题文本的特征,模块3用于融合模块1与模块2分别输出的图片和文本特征,在融合过程中加入了输出当前任务的特征,再将融合特征输入到log_softmax函数中,得到当前任务的logits,并使用 Kullback-Leiblerdivergence(相对熵,KL散度)作为损失函数计算损失值,使用Adam算法作为模型训练时的优化算法,并使用学习率衰减方法辅助进行训练。
输入到模块1的图片的像素值由原始的(0,255)被归一化到 (0,1),归一化公式如下:
Xi=(Xi-Xmin)/(Xmax-Xmin)
将使用Glove编码的问题文本输入模块2,得到输出的问题文本特征,其公式如下:
ht=Bi-LSTM(ht-1,Xt)
在融合文本特征和图片特征的过程加入物体方位信息,有助于算法回答与方位有关的问题,融合公式如下:
Featurefusion=Conv(concat(Flocation,Fusion(Fimage,Fquestion)))
融合之后的任务特征使用KL散度作为损失函数,衡量预测值与真实值之间的偏差,其公式如下:
Figure RE-GDA0002354359310000041
该算法的设计旨在使用改进的特征融合和注意力机制提高基于图片的问答系统的性能。在使用时,将图片和对应的问题输入到完成训练的模型中可得到分类结果,即模型针对图片和问题的作答结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种基于自下而上的注意力机制(bottom-up attention)和加入定位信息的多模型线性融合技术的视觉问答模型(Visual Question Answer,VQA)。常见问题的答案存在重尾分布,因此本发明模型只提取出前3000个答案作为候选答案,并认为该任务是一个分类任务,上述VQA模型应该分为以下几个模块:
图片特征提取模块负责提取图片的特征,使用目标检测算法识别输入图片中的物体,将提取到的图片中物体的特征作为VQA模型的图片模块的输入特征,取代传统的将整张图片输入模型作为输入特征;
问题文本特征提取模块负责提取针对图片提出的问题的特征,将问题进行分词,使用Glove编码模型得到问题的编码,并在每个时间点向循环神经网络输入一个编码,将每个时间点循环神经网络的输出作为问题文本的特征;
基于物体定位信息的特征融合模块负责将使用目标检测算法提取的物体的位置信息与图片特征提取模块提取的图片特征和问题文本特征提取模块提取的问题特征融合为当前情景下的任务特征,并将融合得到的特征用作分类,得到问题的答案。
2.根据权利要求1所述的一种基于bottom-up attention与加入物体定位信息的多模型线性融合技术的VQA模型,其特征在于使用基于传统卷积神经网络的目标检测模型Faster-RCNN识别图片中的物体,取代完整的图片,并将检测到的物体的特征作为VQA模型的图片输入,相比与传统的基于图片的attention保证了物体特征的完整性和统一性,卷积是信号处理中常见的一种方法,深度学习的图像处理领域使用卷积核在图片的不同通道上滑动提取图片的高维特征。
3.根据权利要求1所述的问题文本特征提取模块,该模块由双向长短时记忆神经网络组成,该网络是循环神经网络的一种改进网络,通过使用输入门,输出门,遗忘门与隐藏状态有效的解决传统循环神经网络梯度消失和短时记忆问题,在LSTM中门是一个乘数因子,该乘数因子控制着数据流入,流出和以往的百分比,乘数因子是由输入数据通过全连接层得到的;
输入门决定当前状态下的输入百分比,如公式所示:
Figure RE-FDA0002354359300000021
输出门决定当前状态下的输出百分比,如公式所示:
Figure RE-FDA0002354359300000022
遗忘门控制上一个状态在当前状态下要保留百分比,控制LSTM单元的更新速度和记忆时长,如公式所示:
Figure RE-FDA0002354359300000023
当前LSTM单元的隐藏状态是由上一个时间戳的状态与当前的输入经过输入门加权之后的结果相加得到的,如公式所示:
Figure RE-FDA0002354359300000024
4.根据权利要求1所述的在VQA模型中需要将图片特征与问题特征融合,从而得到当前情景下的任务特征。因为在获取图片特征时使用bottom-up attention对图片中的物体进行提取,破坏了图片的完整性,物体之间的相对位置信息被忽略了,因此在特征融合过程中,本发明加入了物体之间的位置信息,从而有效提高了模型对于位置方面的问题的回答准确率。其中特征融合模块的结构示意图如图3所示。
其中特征一是图片特征,特征二是方位信息,特征三是问题特征,经过融合的特征四,包含了图片信息,问题信息和方位信息,用于对候选问题的分类。
CN201911224396.7A 2019-12-04 2019-12-04 一种基于bottom-up attention和定位信息融合的图片问答实现方法 Pending CN110929013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911224396.7A CN110929013A (zh) 2019-12-04 2019-12-04 一种基于bottom-up attention和定位信息融合的图片问答实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911224396.7A CN110929013A (zh) 2019-12-04 2019-12-04 一种基于bottom-up attention和定位信息融合的图片问答实现方法

Publications (1)

Publication Number Publication Date
CN110929013A true CN110929013A (zh) 2020-03-27

Family

ID=69857668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911224396.7A Pending CN110929013A (zh) 2019-12-04 2019-12-04 一种基于bottom-up attention和定位信息融合的图片问答实现方法

Country Status (1)

Country Link
CN (1) CN110929013A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN114944148A (zh) * 2022-07-09 2022-08-26 昆明理工大学 融合外部语言知识的流式越南语语音识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109785409A (zh) * 2018-12-29 2019-05-21 武汉大学 一种基于注意力机制的图像-文本数据融合方法和系统
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109785409A (zh) * 2018-12-29 2019-05-21 武汉大学 一种基于注意力机制的图像-文本数据融合方法和系统
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴黄子桑: "基于区域注意力机制的图像描述算法" *
田国会等: "基于自然语言表达的目标检测算法" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN114944148A (zh) * 2022-07-09 2022-08-26 昆明理工大学 融合外部语言知识的流式越南语语音识别方法
CN114944148B (zh) * 2022-07-09 2023-08-22 昆明理工大学 融合外部语言知识的流式越南语语音识别方法

Similar Documents

Publication Publication Date Title
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
WO2021212749A1 (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
CN106250915A (zh) 一种融合深度特征和语义邻域的自动图像标注方法
CN111062277B (zh) 基于单目视觉的手语-唇语转化方法
Qi et al. A generalized earley parser for human activity parsing and prediction
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN112036276A (zh) 一种人工智能视频问答方法
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
Asri et al. A real time Malaysian sign language detection algorithm based on YOLOv3
Gajurel et al. A fine-grained visual attention approach for fingerspelling recognition in the wild
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
Murali et al. Remote sensing image captioning via multilevel attention-based visual question answering
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
CN112200268A (zh) 一种基于编码器-解码器框架的图像描述方法
Wu et al. A text emotion analysis method using the dual-channel convolution neural network in social networks
Le et al. An Attention-Based Encoder–Decoder for Recognizing Japanese Historical Documents
Karim et al. Bangla Sign Language Recognition using YOLOv5
Hu et al. Mathematical formula detection in document images: A new dataset and a new approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200327