CN110929013A - 一种基于bottom-up attention和定位信息融合的图片问答实现方法 - Google Patents
一种基于bottom-up attention和定位信息融合的图片问答实现方法 Download PDFInfo
- Publication number
- CN110929013A CN110929013A CN201911224396.7A CN201911224396A CN110929013A CN 110929013 A CN110929013 A CN 110929013A CN 201911224396 A CN201911224396 A CN 201911224396A CN 110929013 A CN110929013 A CN 110929013A
- Authority
- CN
- China
- Prior art keywords
- features
- picture
- model
- input
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000000306 recurrent effect Effects 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 5
- 230000006403 short-term memory Effects 0.000 claims 2
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 230000008033 biological extinction Effects 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 claims 1
- 108091026890 Coding region Proteins 0.000 abstract description 2
- 238000007500 overflow downdraw method Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Abstract
本发明提供了一种基于Bottom‑up attention和融合定位信息的图片问答系统的实现方法,包括:处理图片和语句数据集;使用Faster‑RCNN获取图片特征作为模型的图片输入,使用经过Glove编码的问题序列,作为模型的问题输入;使用卷积层计算图片的self‑attention结果作为图片特征,使用Bi‑LSTM循环神经网络将问题的编码序列作为输入得到问题的隐藏特征;本发明使用特征融合方法将图片特征,图片中物体的定位信息和问题特征融合为当前任务的特征。在基于图片的问答任务中达到了更高的准确率。解决了因为使用Bottom‑up attention导致丢失物体坐标信息的问题。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于卷积神经网络和循环神经网络的基于图片的问答实现方法
背景技术
最近几年,基于深度学习的机器视觉和自然语言处理的研究方法被大量提出,相比之前使用手工提取图片与句子特征极大地提高了实现效率和系统性能。在机器视觉方面,通常使用卷积神经网络包括: AlexNet,Inception,Resnet提取图片的高维特征,用该特征作为图片的高维表示。在自然语言处理方面,通常使用循环神经网络,包括:长短时记忆网络(LSTM),门控循环网络(GRU),将文本的编码序列依次输入到循环神经网络,用网络的输出作为文本的高维表示。
机器视觉和自然语言处理长期以来都是人工智能的两大基础性研究领域。实现基于图片的问答系统,是人工智能中重要的研究课题之一,有助于推进人工智能更进一步发展,该课题同时涉及机器视觉与自然语言处理,在实现方面较单一系统更为复杂,需要使用特征融合方法将使用卷积神经网络提取的图片特征与使用循环神经网络提取的文本特征融合为单一的能表示当前任务的特征。
注意力机制(Attention Mechanism)帮助神经网络在特定上下文环境中,将注意力集中在某一块相关度最高的图片区域或文本片段。该技术首先被应用在自然语言处理汇中,现在已经被大量用于各种深度学习任务中。
发明内容
本发明要解决的技术问题是:提供一种使用bottom-up attention 同时融合目标定位信息的基于图片的英文问答系统算法,解决传统 bottom-up attention丢失定位信息的问题。
句子最大长度设定使用循环神经网络,例如LSTM或GRU提取问题的特征,需要确定时间戳的长度,参考通常情况下,英文问句的长度,本发明在系统实现时,使用的时间戳长度为12。
使用分词工具将问题分为单个的有序的单词,对划分的单词按照一下规定进行正则化:
1.对于使用连词符的单词,去掉连词符,拆为两个单词
2.对于使用缩写的单词,例如:what’s拆为what is
3.对于大写的单词,转为全小写
4.保留标点符号
本发明使用斯坦福大学的Glove编码对问题数据进行编码,选用的编码维度是300,对于没有对应编码的词,使用全零向量代替。
本发明将基于图片的问答视为一个分类问题,且认为答案存在重尾分布,本发明使用一个阈值将出现次数小于该阈值的答案过滤舍弃,保留出现次数大于该阈值的答案。
本发明使用经过Faster-RCNN提取的图片中的物体特征作为算法的图片输入特征,Faster-RCNN是一种目标检测算法,在基于图片的问答算法中帮助定位图片中的物体,相较于传统的attention机制,能够更好的保留图片中物体的完整性和统一性。
本发明使用双层单向LSTM作为提取文本特征的算法,将正则化之后编码的文本依次输入LSTM,得到文本的特征用于之后的特征融合。
传统的bottom-up attention只提取了图片中物体的特征,忽略了物体之间的方位信息,导致算法回答关于方位的问题准确率不高,算法是根据先验概率随机猜测的。本发明将物体的方位信息加入特征融合过程中,算法在关于方位问题的作答上有了较大进步。
本发明的前景是广阔的,本发明提高了基于图片的问答系统在回答关于方位的问题时的准确率,能够有效提高问答系统的性能。
附图说明
图1是本发明一种实施例的模型训练框架示意图
图2是本发明一种实施例的模型使用框架示意图
图3是本发明一种实施例的模型细节实现示意图
具体实施方式
本发明的具体实施分为算法模型的训练和算法模型的使用两个部分。下面根据附图和实施例,对本发明的具体实施方式做进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
基于图片的问答系统模型如图1所示。每一个训练样本包含一张图片和一个针对图片提出的问题,其中模块1提取图片的特征,模块 2提取问题文本的特征,模块3用于融合模块1与模块2分别输出的图片和文本特征,在融合过程中加入了输出当前任务的特征,再将融合特征输入到log_softmax函数中,得到当前任务的logits,并使用 Kullback-Leiblerdivergence(相对熵,KL散度)作为损失函数计算损失值,使用Adam算法作为模型训练时的优化算法,并使用学习率衰减方法辅助进行训练。
输入到模块1的图片的像素值由原始的(0,255)被归一化到 (0,1),归一化公式如下:
Xi=(Xi-Xmin)/(Xmax-Xmin)
将使用Glove编码的问题文本输入模块2,得到输出的问题文本特征,其公式如下:
ht=Bi-LSTM(ht-1,Xt)
在融合文本特征和图片特征的过程加入物体方位信息,有助于算法回答与方位有关的问题,融合公式如下:
Featurefusion=Conv(concat(Flocation,Fusion(Fimage,Fquestion)))
融合之后的任务特征使用KL散度作为损失函数,衡量预测值与真实值之间的偏差,其公式如下:
该算法的设计旨在使用改进的特征融合和注意力机制提高基于图片的问答系统的性能。在使用时,将图片和对应的问题输入到完成训练的模型中可得到分类结果,即模型针对图片和问题的作答结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于自下而上的注意力机制(bottom-up attention)和加入定位信息的多模型线性融合技术的视觉问答模型(Visual Question Answer,VQA)。常见问题的答案存在重尾分布,因此本发明模型只提取出前3000个答案作为候选答案,并认为该任务是一个分类任务,上述VQA模型应该分为以下几个模块:
图片特征提取模块负责提取图片的特征,使用目标检测算法识别输入图片中的物体,将提取到的图片中物体的特征作为VQA模型的图片模块的输入特征,取代传统的将整张图片输入模型作为输入特征;
问题文本特征提取模块负责提取针对图片提出的问题的特征,将问题进行分词,使用Glove编码模型得到问题的编码,并在每个时间点向循环神经网络输入一个编码,将每个时间点循环神经网络的输出作为问题文本的特征;
基于物体定位信息的特征融合模块负责将使用目标检测算法提取的物体的位置信息与图片特征提取模块提取的图片特征和问题文本特征提取模块提取的问题特征融合为当前情景下的任务特征,并将融合得到的特征用作分类,得到问题的答案。
2.根据权利要求1所述的一种基于bottom-up attention与加入物体定位信息的多模型线性融合技术的VQA模型,其特征在于使用基于传统卷积神经网络的目标检测模型Faster-RCNN识别图片中的物体,取代完整的图片,并将检测到的物体的特征作为VQA模型的图片输入,相比与传统的基于图片的attention保证了物体特征的完整性和统一性,卷积是信号处理中常见的一种方法,深度学习的图像处理领域使用卷积核在图片的不同通道上滑动提取图片的高维特征。
3.根据权利要求1所述的问题文本特征提取模块,该模块由双向长短时记忆神经网络组成,该网络是循环神经网络的一种改进网络,通过使用输入门,输出门,遗忘门与隐藏状态有效的解决传统循环神经网络梯度消失和短时记忆问题,在LSTM中门是一个乘数因子,该乘数因子控制着数据流入,流出和以往的百分比,乘数因子是由输入数据通过全连接层得到的;
输入门决定当前状态下的输入百分比,如公式所示:
输出门决定当前状态下的输出百分比,如公式所示:
遗忘门控制上一个状态在当前状态下要保留百分比,控制LSTM单元的更新速度和记忆时长,如公式所示:
当前LSTM单元的隐藏状态是由上一个时间戳的状态与当前的输入经过输入门加权之后的结果相加得到的,如公式所示:
4.根据权利要求1所述的在VQA模型中需要将图片特征与问题特征融合,从而得到当前情景下的任务特征。因为在获取图片特征时使用bottom-up attention对图片中的物体进行提取,破坏了图片的完整性,物体之间的相对位置信息被忽略了,因此在特征融合过程中,本发明加入了物体之间的位置信息,从而有效提高了模型对于位置方面的问题的回答准确率。其中特征融合模块的结构示意图如图3所示。
其中特征一是图片特征,特征二是方位信息,特征三是问题特征,经过融合的特征四,包含了图片信息,问题信息和方位信息,用于对候选问题的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911224396.7A CN110929013A (zh) | 2019-12-04 | 2019-12-04 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911224396.7A CN110929013A (zh) | 2019-12-04 | 2019-12-04 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929013A true CN110929013A (zh) | 2020-03-27 |
Family
ID=69857668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911224396.7A Pending CN110929013A (zh) | 2019-12-04 | 2019-12-04 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929013A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021232589A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN114944148A (zh) * | 2022-07-09 | 2022-08-26 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN109785409A (zh) * | 2018-12-29 | 2019-05-21 | 武汉大学 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
CN110163299A (zh) * | 2019-05-31 | 2019-08-23 | 合肥工业大学 | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
-
2019
- 2019-12-04 CN CN201911224396.7A patent/CN110929013A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN109785409A (zh) * | 2018-12-29 | 2019-05-21 | 武汉大学 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
CN110163299A (zh) * | 2019-05-31 | 2019-08-23 | 合肥工业大学 | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
Non-Patent Citations (2)
Title |
---|
吴黄子桑: "基于区域注意力机制的图像描述算法" * |
田国会等: "基于自然语言表达的目标检测算法" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021232589A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN114944148A (zh) * | 2022-07-09 | 2022-08-26 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
CN114944148B (zh) * | 2022-07-09 | 2023-08-22 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
WO2021212749A1 (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN106250915A (zh) | 一种融合深度特征和语义邻域的自动图像标注方法 | |
CN111062277B (zh) | 基于单目视觉的手语-唇语转化方法 | |
Qi et al. | A generalized earley parser for human activity parsing and prediction | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN111639186A (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
Asri et al. | A real time Malaysian sign language detection algorithm based on YOLOv3 | |
Gajurel et al. | A fine-grained visual attention approach for fingerspelling recognition in the wild | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
Murali et al. | Remote sensing image captioning via multilevel attention-based visual question answering | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
Mars et al. | Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds | |
CN112200268A (zh) | 一种基于编码器-解码器框架的图像描述方法 | |
Wu et al. | A text emotion analysis method using the dual-channel convolution neural network in social networks | |
Le et al. | An Attention-Based Encoder–Decoder for Recognizing Japanese Historical Documents | |
Karim et al. | Bangla Sign Language Recognition using YOLOv5 | |
Hu et al. | Mathematical formula detection in document images: A new dataset and a new approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200327 |