CN113139378B - 一种基于视觉嵌入和条件归一化的图像描述方法 - Google Patents
一种基于视觉嵌入和条件归一化的图像描述方法 Download PDFInfo
- Publication number
- CN113139378B CN113139378B CN202110292545.4A CN202110292545A CN113139378B CN 113139378 B CN113139378 B CN 113139378B CN 202110292545 A CN202110292545 A CN 202110292545A CN 113139378 B CN113139378 B CN 113139378B
- Authority
- CN
- China
- Prior art keywords
- image
- model
- vem
- conditional
- resnet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明公开了一种基于视觉嵌入和条件归一化的图像描述方法。本发明提出了一种基于transformer模型的网络,被称为V‑CLTM。在transformer模型的输入端,使用关键词嵌入模块(KEM)提取图像中的目标类别作为关键词,结合文本序列作为输入序列;使用视觉嵌入模块(VEM)用来提取图像特征,并将特征编码成transformer的归一化层能接受维度作为条件输入;同时,本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制,将条件归一化LN应用于transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。
Description
技术领域
本发明涉及图像字幕生成方法,具体来讲是一种基于视觉嵌入和条件归一化的图像描述方法,属于图像字幕生成技术领域。
背景技术
图像描述是计算机视觉和自然语言处理的综合性任务,这个任务是具有挑战性的。它要准确的找到图像中显著性的物体,物体的属性,物体之间的关系以及所处场景,并使用自然语言正确的进行描述。得益于深度学习的快速发展,图像描述任务取得了优秀的成果,在一些评价指标上甚至超过了人类。
近年来,transformer模型使用全注意力机制的结构代替了LSTM应用在翻译任务中。针对图像-文本,语音-文本等研究也越来越多,具体应用上包括了图像字幕,视频字幕,图像问答,视频问答等。相对于传统编码-解码过程,transformer模型在这些任务上的成果是优秀的。该模型的输入序列包括了来自文本的单词、图像的感兴趣区域以及消除不同模态数据的特定元素。在输入操作之前,通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是,最终任务需要的视觉信息和文本信息应该在模型学习整个过程起作用,而不是仅依靠输入序列的多模态融合信息。CBN(Conditional Batch Normalization)中认为语言能够更好的帮助图像模型更好的识别图像。CBN以LSTM提取的自然语言特征作为条件,预测BN(Batch Normalization)层参数的增量,使得不同的输入都有相对应的归一化参数。既然自然语言特征可以作为条件,用于预测BN参数的变化,那么图片的类别信息自然也可以作为条件来预测BN层的参数。受此启发,本发明认为图像作为条件能够帮助transformer模型更好的生成描述。在transformer模型中,LN(layer Normalization)层取代了BN层,因此需要将文本或图片信息嵌入到LN层中,通过这种操作使得transformer模型面对生成文本任务时,能更好的参考条件信息进行特征选择。另外,这种条件嵌入的方法需要为transformer提供合适的信息。因此,本发明在transformer编解码过程中选取了易于改变的LN层来接受参考条件。使用图像预训练模型提取图像信息,并将图像信息经过不同的编码过程编码为transformer能够接受的维度。
发明内容
本发明的目的是针对现有技术的不足,提供一种通过视觉嵌入来调节transformer模型训练过程中进行特征选择的有效机制,以解决视觉-语言模型在训练过程中,不能时刻借鉴图像信息的问题。具体来说,在transformer模型的输入端,构建关键词嵌入模块(KEM),KEM使用目标检测的方法对图像进行目标检测,将结果组合成序列,和训练集中图像字幕组合成最终序列组合,通过输入端进行输入。构建视觉嵌入模块(VEM)对图像特征进行提取,将图像进行编码,通过条件嵌入的方式进行输入。对于transformer中的LN层已经有现成的、无条件的g(gain)和(bias)b了,它们用于对特征施加增益和偏置操作,都是固定长度的向量。通过VEM对图像进行编码为g′,b′作为条件输入,g′,b′跟g,b具有相同的维度,然后将结果分别加到g和b上去。从含义上讲可以解释为:根据g′,b′的信息,transformer模型在针对图像字幕任务生成过程中,针对性学习和图像特征相关的信息,进而调节权重。结果表明,这种方法具有更好的鲁棒性和自适应能力。
本发明有益效果如下:
本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制,将条件归一化LN应用于transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。根据图像描述领域标准性能指标进行测试,其中评估指标包括:BLEU_1/BLEU_2/BLEU_3/BLEU_4/METOR/ROUGE_L/CIDEr/SPICE。在MSCOCO数据集上进行测试,测试结果分别为:82.9/63.3/47.4/37.9/28.9/56.5/127.2/22.5。在Visual Genome数据集上进行测试,测试结果分别为:44.2/29.2/20.1/19.5/21.8/45.3/185.9/38.9,两项测试结果均在领域内属于领先水平。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的KEM示意图;
图3是本发明的VEM示意图;
图4是本发明的条件归一化层示意图;
图5是本发明的整体结构示意图;
图6是本发明实施例图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1是本发明的整体实施方案流程图,一种基于视觉嵌入和条件归一化的图像字幕方法,包括以下步骤:
步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,将目标检测结果作为图像的关键词集合,将关键词集合和MSCOCO中图像的文本序列组成输入序列,构建关键词嵌入模块KEM(Keywords Embedding Module);
步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取,将所提取的特征进行编码,将编码结果通过条件嵌入的方式输入到预训练语言模型。该步骤中所提到的操作被称为视觉嵌入模块VEM(Visual Embedding Module);
步骤(3)使用transformer模型作为基干网络,LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过视觉嵌入网络VEM将图像编码为g′,b′;g′,b′跟g,b具有相同的维度,将VEM的编码结果g′,b′分别加到g和b上去,构建条件归一化层LN(layer Normalization);
步骤(4)将KEM和VEM的编码结果分别作为transformer模型的序列输入和条件嵌入,用条件归一化的LN替换transformer中所有的LN层,构建V-CLTM模型;
步骤(5)对V-CLTM模型在MSCOCO数据集上进行训练,挑选最优训练模型。将图片输入训练好的V-CLTM模型,输出对应的图像字幕;
进一步的,所述步骤(1)具体实现过程如下:
1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取。Faster RCNN能够获得目标类别以及相应目标在图像中的区域。为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,…,ws}。其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示。
W=Faster RCNN(I) (1)
1-2获取关键词集W后,将将W中的关键词和特殊字符组合成序列S。三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中,[CLS]放在第一个关键字之前,例如输入句子A,要在句子A之前加[CLS]标志;[SEP]用于分开两个输入句子,例如输入句子A和B,要在句子A后面且句子B前面增加[SEP]标志;[STOP]放在句子结束,表示句子结束,例如句子A,要在A后面加[STOP]标志。
进一步的,所述步骤(2)具体实现过程如下:
2-1基干网络使用在ImageNet上预训练的ResNet模型,获得对应图像I的图像特征Iresnet,其维度为2048维,如公式(2)所示。
Iresnet=ResNet(I) (2)
2-2将图像特征Iresnet经过两层512维的全连接操作以及两层ReLU激活函数,然后分别通过512维的全连接进行输出,它们的最终表达,如公式(3)(4)所示。
g′=fVEM(Iresnet) (3)
b′=fVEM(Iresnet) (4)
其中,fVEM代表图像特征Iresnet的编码过程。
2-3将步骤2-1、2-2所述流程构成VEM,参照图3。
进一步的,所述步骤(3)具体实现过程如下:
3-1计算特征x在LN层的归一化统计量均值μ和方差σ,特征x通过均值μ和方差σ,可以得到归一化后的特征值为x′,如公式(5)所示:
其中,ε是一个很小的小数,防止除0。3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息,在LN中这组参数叫做增益g和偏置b,LN的输出如公式(6)所示。
fLN(x′)=g☉x′+b (6)
合并公式(5),(6),LN层最终输出,如公式(7)所示。
3-3对于transformer来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量。VEN将图像特征编码到跟g和b一样的维度,然后将两个编码结果g′和b′分别加到g和b上去如公式(8)(9)所示。
其中,μ和σ是分别是均值和方差。
3-5将步骤3-1、3-2、3-3和3-4所述流程构成条件归一化的LN层,参照图4。
进一步的,所述步骤(4)具体实现过程如下:
4-1将KEM作为transformer模型输入,VEM的结果作为transformer模型的条件输入,将条件归一化LN层替换transformer的所有的LN层。
4-2将4-1中KEM、VEM以及加入条件归一化LN层的transformer模型,构建V-CLTM模型,整体模型参照图5。
进一步的,所述步骤(5)具体实现过程如下:
5-1在MSCOCO数据集上进行端到端的训练,epoch设置为10,学习率为0.00001,batch size为16,使用Adam优化器渐进式的调整学习率。在推理短语中,使用波束搜索,波束大小为3。利用标准的交叉熵损失来训练模型,公式(11)所示。
其中,y1:t为给定的真实字幕,θ为模型参数。
5-2将测试图像输入到V-CLTM模型中,获得图像字幕。
实施例1:
Claims (5)
1.一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于包括以下步骤:
步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,将目标检测结果作为图像的关键词集合,将关键词集合和MSCOCO中图像的文本序列组成输入序列,构建关键词嵌入模块KEM;
步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取,将所提取的特征进行编码,将编码结果通过条件嵌入的方式输入到预训练语言模型;该步骤中所提到的操作被称为视觉嵌入模块VEM;
步骤(3)使用transformer模型作为基干网络,LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过视觉嵌入网络VEM将图像编码为g′,b′;g′,b′跟g,b具有相同的维度,将VEM的编码结果g′,b′分别加到g和b上去,构建条件归一化层LN;
步骤(4)将KEM和VEM的编码结果分别作为transformer模型的序列输入和条件嵌入,用条件归一化的LN替换transformer中所有的LN层,构建V-CLTM模型;
步骤(5)对V-CLTM模型在MSCOCO数据集上进行训练,挑选最优训练模型;将图片输入训练好的V-CLTM模型,输出对应的图像字幕;
所述步骤(4)具体实现过程如下:
4-1将KEM作为transformer模型输入,VEM的结果作为transformer模型的条件输入,将条件归一化LN层替换transformer的所有的LN层;
4-2将4-1中KEM、VEM以及加入条件归一化LN层的transformer模型,构建V-CLTM模型。
2.根据权利要求1所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(1)具体实现过程如下:
1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取;Faster RCNN能够获得目标类别以及相应目标在图像中的区域;为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,...,ws};其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示;
W=Faster RCNN (I) (1)
1-2获取关键词集W后,将W中的关键词和特殊字符组合成序列S;三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中,[CLS]放在第一个关键字之前,[SEP]用于分开两个输入句子,[STOP]放在句子结束,表示句子结束;
3.根据权利要求2所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(2)具体实现过程如下:
2-1基干网络使用在ImageNet上预训练的ResNet模型,获得对应图像I的图像特征Iresnet,其维度为2048维,如公式(2)所示;
Iresnet=ResNet (I) (2)
2-2将图像特征Iresnet经过两层512维的全连接操作以及两层ReLU激活函数,然后分别通过512维的全连接进行输出,最终表达如公式(3)(4)所示;
g′=fVEM(Iresnet) (3)
b′=fVEM(Iresnet) (4)
其中,fVEM代表图像特征Iresnet的编码过程。
4.根据权利要求3所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(3)具体实现过程如下:
3-1计算特征x在LN层的归一化统计量均值μ和方差σ,特征x通过均值μ和方差σ,得到归一化后的特征值为x′,如公式(5)所示:
其中,ε是一个很小的小数,防止除0;
3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息,在LN中这组参数叫做增益g和偏置b,LN的输出如公式(6)所不;
fLN(x′)=g⊙x′+b (6)
合并公式(5),(6),LN层最终输出,如公式(7)所示;
3-3对于transformer来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量;VEN将图像特征编码到跟g和b一样的维度,然后将两个编码结果g′和b′分别加到g和b上去如公式(8)(9)所示;
其中,μ和σ是分别是均值和方差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292545.4A CN113139378B (zh) | 2021-03-18 | 2021-03-18 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292545.4A CN113139378B (zh) | 2021-03-18 | 2021-03-18 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139378A CN113139378A (zh) | 2021-07-20 |
CN113139378B true CN113139378B (zh) | 2022-02-18 |
Family
ID=76811544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110292545.4A Active CN113139378B (zh) | 2021-03-18 | 2021-03-18 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139378B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073748A (zh) * | 2011-03-08 | 2011-05-25 | 武汉大学 | 一种基于视觉关键词的遥感影像语义检索方法 |
CN108875910A (zh) * | 2018-05-23 | 2018-11-23 | 山东大学 | 基于注意力知识提取的服装搭配方法、系统及存储介质 |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
CN110516530A (zh) * | 2019-07-09 | 2019-11-29 | 杭州电子科技大学 | 一种基于非对齐多视图特征增强的图像描述方法 |
KR102054116B1 (ko) * | 2019-08-21 | 2019-12-09 | 정재원 | 맞춤형 무대 영상 제공 시스템 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
CN111859911A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 图像描述文本生成方法、装置、计算机设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7853558B2 (en) * | 2007-11-09 | 2010-12-14 | Vibrant Media, Inc. | Intelligent augmentation of media content |
CN102542067A (zh) * | 2012-01-06 | 2012-07-04 | 上海交通大学 | 基于尺度学习和关联标号传播的自动图像语义标注方法 |
TWI528309B (zh) * | 2013-11-20 | 2016-04-01 | 財團法人資訊工業策進會 | 適性廣告物件的顯示方法、行動裝置以及其產生系統 |
CN109215097A (zh) * | 2018-08-08 | 2019-01-15 | 深圳市唯特视科技有限公司 | 一种基于端到端联合学习的单个图像文本条件嵌入方法 |
CN111598964B (zh) * | 2020-05-15 | 2023-02-14 | 厦门大学 | 一种基于空间自适应网络的定量磁化率图像重建方法 |
-
2021
- 2021-03-18 CN CN202110292545.4A patent/CN113139378B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073748A (zh) * | 2011-03-08 | 2011-05-25 | 武汉大学 | 一种基于视觉关键词的遥感影像语义检索方法 |
CN108875910A (zh) * | 2018-05-23 | 2018-11-23 | 山东大学 | 基于注意力知识提取的服装搭配方法、系统及存储介质 |
CN110516530A (zh) * | 2019-07-09 | 2019-11-29 | 杭州电子科技大学 | 一种基于非对齐多视图特征增强的图像描述方法 |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
KR102054116B1 (ko) * | 2019-08-21 | 2019-12-09 | 정재원 | 맞춤형 무대 영상 제공 시스템 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
CN111859911A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 图像描述文本生成方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
Transformer-Encoder Detector Module: Using;Faisal Alamr 等;《2020 25th International Conference on Pattern Recognition》;20210131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113139378A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113139575B (zh) | 一种基于条件嵌入预训练语言模型的图像标题生成方法 | |
CN111444367B (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
JP2010250814A (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN116775922A (zh) | 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 | |
CN111666758A (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
EP4060548A1 (en) | Method and device for presenting prompt information and storage medium | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN113111663A (zh) | 一种融合关键信息的摘要生成方法 | |
CN116796251A (zh) | 一种基于图文多模态的不良网站分类方法、系统及设备 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
Lin et al. | Gloss-free end-to-end sign language translation | |
CN110750669B (zh) | 一种图像字幕生成的方法及系统 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
CN117453859A (zh) | 一种农业病虫害图文检索方法、系统及电子设备 | |
CN113139378B (zh) | 一种基于视觉嵌入和条件归一化的图像描述方法 | |
CN116204622A (zh) | 一种跨语言稠密检索中的查询表示增强方法 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
CN114241279A (zh) | 图文联合纠错方法、装置、存储介质及计算机设备 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN113822018A (zh) | 实体关系联合抽取方法 | |
CN113722536A (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 | |
CN115080705B (zh) | 基于双模型增强的垂直领域关系抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220824 Address after: Room 405, 6-8 Jiaogong Road, Xihu District, Hangzhou City, Zhejiang Province, 310013 Patentee after: Hangzhou Taoyi Data Technology Co.,Ltd. Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang Patentee before: HANGZHOU DIANZI University |
|
TR01 | Transfer of patent right |