CN113343966B - 一种红外与可见光图像文本描述生成方法 - Google Patents

一种红外与可见光图像文本描述生成方法 Download PDF

Info

Publication number
CN113343966B
CN113343966B CN202110501891.9A CN202110501891A CN113343966B CN 113343966 B CN113343966 B CN 113343966B CN 202110501891 A CN202110501891 A CN 202110501891A CN 113343966 B CN113343966 B CN 113343966B
Authority
CN
China
Prior art keywords
infrared
visible light
image
head
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110501891.9A
Other languages
English (en)
Other versions
CN113343966A (zh
Inventor
黄珺
马泳
马佳义
樊凡
王旭
张灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110501891.9A priority Critical patent/CN113343966B/zh
Publication of CN113343966A publication Critical patent/CN113343966A/zh
Application granted granted Critical
Publication of CN113343966B publication Critical patent/CN113343966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种红外与可见光图像文本描述生成方法,包括以下步骤:1)采集n对分辨率大小和场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本;2),构建红外与可见光图像文本描述生成网络,包括红外与可见光图像特征提取的编码模型、由前馈神经网络构成的特征融合模型,以及加性多头注意力机制的图像特征解码模型;3)训练文本描述生成网络;4)将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。本发明方法可有效利用红外图像和可见光图像提供的互补视觉特征,弥补了传统单光算法遗漏关键目标实体和场景描述不充分的不足。

Description

一种红外与可见光图像文本描述生成方法
技术领域
本发明属于计算机视觉领域,具体涉及一种红外与可见光图像文本描述生成方法。
背景技术
随着近年来人工智能领域中机器学习特别是深度学习技术的迅猛发展,计算机视觉作为一门研究如何更好地理解和分析图像的科学,在数据及算力的推动下也呈现出飞跃式的进步。例如在图像分类任务中,运行深度学习算法的机器的对物体种类识别的准确率已经超过人类;在目标检测与定位任务中,基于深度学习的算法已广泛应用于智能视频监控,机器人导航和基于内容的图像检索等领域。
图像描述生成任务的本质是完成场景信息从图像域到文本域的转换。目前图像描述生成领域中的研究都是围绕可见光图像展开的,然而单一光学谱段的成像设备可能在一些环境下无法完整的获取场景信息。例如,当关注的目标或场景缺乏良好的光线照射或者被遮挡时,普通的可见光相机将无法捕获到目标或相关场景的有用信息。尤其是在军事战场环境中,重要设施目标常常需要通过伪装式遮挡以躲避侦察,以及军事计划可能借助夜晚黑暗的保护开展行动。如果使用普通的可见光成像设备进行场景信息的采集,图像描述生成算法后续就无法生成正确的描述语句。为了在极端成像条件下也能够获取全面的场景信息,有必要结合使用工作在不同谱段的成像设备。例如在上述情景中,可以使用红外相机与可见光相机同时对场景成像。其中红外相机通过捕捉物体发出的热辐射信息并根据其强度大小进行成像,这样的特点使其具备全天候的工作能力而不受遮挡和光照条件变化的影响。因此研究多源传感器在图像描述生成任务中的应用也具有非常重要的意义。
发明内容
针对现有技术的不足,本发明提出一种红外与可见光图像文本描述生成方法。本方法建立了了一种联合红外可见光特征的双输入图像描述网络,能够有效地结合红外和可见光两个谱段的视觉特征信息。
本发明的技术方案包括以下步骤:
步骤1,建立数据集,采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本,所述描述文本由多个词组成,将所有描述文本中的词组成一个集合,这个集合称为“字典”;
步骤2,构建红外与可见光图像文本描述生成网络,包括以下子步骤:
步骤2.1,多源图像场景特征提取:建立红外与可见光图像特征提取的编码模型,用于提取数据集中每一对红外与可见光图像样本的深层语义特征vIR和vVIS
步骤2.2,场景特征信息融合:建立前馈神经网络构成的特征融合模型,用以融合红外与可见光图像包含的多源场景信息,获得融合语义特征vF
步骤2.3,建立加性多头注意力机制的图像特征解码模型,对融合语义特征vF进行处理,用于输出描述文本;
步骤3,利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络;
步骤4,将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。
进一步的,步骤1的具体实现包括如下子步骤:
步骤1.1,采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集SData,所述数据集包含红外图像集合
Figure BDA0003056711620000021
与可见光图像集合
Figure BDA0003056711620000022
两部分,
Figure BDA0003056711620000023
Figure BDA0003056711620000024
是数据集中的样本对,对应相同场景的红外与可见光图像;
步骤1.2:对所述数据集中的每个样本对
Figure BDA0003056711620000025
Figure BDA0003056711620000026
进行人工文本描述,生成a条不同的描述文本,a为自然数。
进一步的,步骤2.1的具体实现包括如下子步骤:
步骤2.1.1,建立红外与可见光图像描述生成网络的编码模型,用于提取图像特征映射,编码模型可表示为如下计算公式:
Figure BDA0003056711620000027
其中IIR和IVIS分别表示所述编码模型输入的红外与可见光图像对,EResNet表示ResNet-101网络剔除最后两层的剩余部分,
Figure BDA0003056711620000028
Figure BDA0003056711620000029
分别表示所述红外与可见光图像经过EResNet模型提取得到的红外与可见光图像特征映射;
步骤2.1.2,为了使编码模型能够适应不同尺寸的图像输入,添加自适应均值池化层对所述红外与可见光图像特征映射进行处理,得到图像的深层语义特征,其计算公式为:
Figure BDA0003056711620000031
其中,Pool表示自适应均值池化层,vIR∈RL×d×d和vVIS∈RL×d×d分别表示红外与可见光图像深层语义特征,L为特征的通道数,每个通道的空间分辨率为d×d。
进一步的,步骤2.2的具体实现包括如下子步骤:
步骤2.2.1,建立连接层,对红外与可见光图像深层语义特征vIR和vVIS沿特征的通道进行拼接,得到联合深层语义特征vC∈R2L×d×d
步骤2.2.2,建立线性层对所述联合深层语义特征进行处理,得到线性深层语义特征vL,vL∈R2L×d×d的计算公式如下:
vL=W1·vC+b1
其中,W1∈R2L×2L,b1∈R2L为训练参数;
步骤2.2.3,建立激活层,对所述线性深层语义特征进行非线性化,使得vL具有非线性特征,其表达公式如下:
vA=ReLU(vL)
其中,vA表示非线性深层语义特征,ReLU为线性整流函数;
步骤2.2.4,建立线性层对所述非线性深层语义特征进行处理,得到融合语义特征vF
vF=W2·vA+b2
其中,W2∈R2L×L,b2∈RL为训练参数。
进一步的,步骤2.3的具体实现包含如下子步骤:
步骤2.3.1,对融合语义特征vF进行均值池化,将每个通道的空间分辨率d×d降为1×1,得到均值vj
步骤2.3.2,加性多头注意力机制解码模型通过迭代的方式完成,记h和c为解码模型在迭代过程中的隐状态,h∈RD,c∈RD,D为解码模型的特征维度,在迭代时间步为t时,解码模型的隐状态为ht-1和ct-1
当迭代时间步t=0时,解码模型的初始隐状态为h-1和c-1,起始标记词w0为<start>,h-1由投影矩阵Wh、偏置向量bh对vj变换得到;c-1由投影矩阵Wc、偏置向量bc对vj变换得到,h-1和c-1的计算公式如下:
h-1=Wh·vj+bh
c-1=Wc·vj+bc
其中,Wh∈RL×D,Wc∈RL×D,bh∈RD,bc∈RD为训练参数;
步骤2.3.3,通过解码模型在迭代时间步t的隐状态ht-1和融合语义特征vF,进行加性多头注意力机制计算;加性多头注意力机制的计算过程包含如下子步骤:
步骤2.3.3.1:加性多头注意力机制中第i个头的权重αi的计算公式如下:
αi=softmax(ReLU(Wi q·ht-1+Wi k·vF))
其中
Figure BDA0003056711620000041
Figure BDA0003056711620000042
为投影矩阵,Ln为加性多头注意力特征维度与头数量的商;
步骤2.3.3.2:加性多头注意力机制中的第i个头headi的加权计算公式如下:
Figure BDA0003056711620000043
其中
Figure BDA0003056711620000044
为vF的转置矩阵;
步骤2.3.3.3:将多头head1,head2,...,headn的加权计算结果沿通道拼接后,经过投影矩阵WD变换得到加权图像特征向量vt A,其计算公式如下:
vt A=[head1,head2,...,headn]·WD
其中
Figure BDA0003056711620000045
为训练参数,LA为加性多头注意力机制的特征维度;
步骤2.3.4,解码模型采用融合加性多头注意力机制的LSTM进行迭代计算,其迭代计算公式如下:
ht,ct=LSTM([We·wt,vt A],ht-1,ct-1)
其中,We为词嵌入矩阵,
Figure BDA0003056711620000046
LE为词嵌入维度,SD为字典中词的数量,wt为迭代时间步t的输入单词,
Figure BDA0003056711620000047
步骤2.3.5,通过全连接层FC和softmax归一化后,解码模型输出字典中候选概率值最大的单词
Figure BDA0003056711620000051
其计算公式如下:
Figure BDA0003056711620000052
判断
Figure BDA0003056711620000053
是否为结束标记<end>,如果不是<end>,输出
Figure BDA0003056711620000054
并将其作为步骤2.3.4中迭代时间步t+1的输入单词wt+1继续迭代;否则结束迭代过程。
本发明与现有技术相比具有以下优点和有益效果:
(1)本发明设计了一种加性多头注意力机制,通过划分多个抽头的方式在不同特征子空间计算注意力权重,能够使网络模型学习通道维度下的不同的注意力权重分布模式,弥补了传统算法遗漏关键目标实体和场景描述不充分的不足。
(2)本发明设计了一种联合红外可见光特征的双输入图像描述网络,网络中设计的特征融合模型能够有效地结合红外和可见光两个谱段的视觉特征信息,在极端不利成像条件下单一谱段成像手段无法获取完整场景信息时,可以有效利用红外图像和可见光图像提供的互补视觉特征,生成符合场景语义的描述语句。
附图说明
图1为本发明的总体流程图;
图2为解码模型结构;
图3为特征融合模型结构;
图4为加性多头注意力机制网络流程图;
图5为目标图像1和生成文本;
图6为目标图像2和生成文本。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
为了更清楚的阐述本发明的目的、技术方案和有益效果,下面结合附图和实施例进一步说明。应当理解,本发明不应限于实施例公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
技术问题:本发明设计了一种红外与可见光图像文本描述生成方法,可有效利用红外图像和可见光图像提供的互补视觉特征,弥补了传统单光算法遗漏关键目标实体和场景描述不充分的不足。
本发明的技术方案包括以下步骤:
步骤1:建立数据集:采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本,所述描述文本由多个词组成,将所有描述文本中的词组成一个集合,这个集合我们称为“字典”。
进一步的,步骤1的具体实现包括如下子步骤:
步骤1.1:采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集SData,所述数据集包含红外图像集合
Figure BDA0003056711620000061
与可见光图像集合
Figure BDA0003056711620000062
两部分,
Figure BDA0003056711620000063
Figure BDA0003056711620000064
是数据集中的样本对,对应相同场景的红外与可见光图像。
步骤1.2:对所述数据集中的每个样本对
Figure BDA0003056711620000065
Figure BDA0003056711620000066
进行人工文本描述,生成a条不同的描述文本,a为自然数。
步骤2,构建红外与可见光图像文本描述生成网络,包括以下子步骤:
步骤2.1:多源图像场景特征提取:建立红外与可见光图像特征提取的编码模型,用于提取数据集中每一对红外与可见光图像样本的特征信息;
进一步的,步骤2.1的具体实现包括如下子步骤:
步骤2.1.1:建立红外与可见光图像描述生成网络的编码模型,用于提取图像特征映射,模型可表示为如下计算公式:
Figure BDA0003056711620000067
其中IIR和IVIS分别表示所述编码模型输入的红外与可见光图像对,EResNet表示ResNet-101网络剔除最后两层的剩余部分,
Figure BDA0003056711620000068
Figure BDA0003056711620000069
分别表示所述红外与可见光图像经过EResNet模型提取得到的红外与可见光图像特征映射;
步骤2.1.2:为了使编码模型能够适应不同尺寸的图像输入,添加自适应均值池化层对所述红外与可见光图像特征映射进行处理,得到图像的深层语义特征,其计算公式为:
Figure BDA00030567116200000610
其中,Pool表示自适应均值池化层,vIR∈RL×d×d和vVIS∈RL×d×d分别表示红外与可见光图像深层语义特征,L为特征的通道数,每个通道的空间分辨率为d×d。
步骤2.2:场景特征信息融合:建立前馈神经网络构成的特征融合模型,用以融合红外与可见光图像包含的多源场景信息;
进一步的,步骤2.2的具体实现包括如下子步骤:
步骤2.2.1:建立连接层,对所述红外与可见光图像深层语义特征vIR和vVIS沿特征的通道进行拼接,得到联合深层语义特征vC∈R2L×d×d
步骤2.2.2:建立线性层对所述联合深层语义特征进行处理,得到线性深层语义特征vL,vL∈R2L×d×d的计算公式如下:
vL=W1·vC+b1
其中,W1∈R2L×2L,b1∈R2L为训练参数。
步骤2.2.3:建立激活层,对所述线性深层语义特征进行非线性化,使得vL具有非线性特征,其表达公式如下:
vA=ReLU(vL)
其中,vA表示非线性深层语义特征,ReLU为线性整流函数。
步骤2.2.4:建立线性层对所述非线性深层语义特征进行处理,得到融合语义特征vF
vF=W2·vA+b2
其中,W2∈R2L×L,b2∈RL为训练参数。
步骤2.3:建立加性多头注意力机制的图像特征解码模型,用于输出描述文本;
进一步的,步骤2.3的具体实现包含如下子步骤:
步骤2.3.1:对所述融合语义特征vF进行均值池化,将每个通道的空间分辨率d×d降为1×1,得到均值vj
步骤2.3.2:加性多头注意力机制解码模型通过迭代的方式完成,记h和c为解码模型在迭代过程中的隐状态,h∈RD,c∈RD,D为解码模型的特征维度。在迭代时间步为t时,解码模型的隐状态为ht-1和ct-1
当迭代时间步t=0时,解码模型的初始隐状态为h-1和c-1,起始标记词w0为<start>。h-1由投影矩阵Wh、偏置向量bh对vj变换得到;c-1由投影矩阵Wc、偏置向量bc对vj变换得到。h-1和c-1的计算公式如下:
h-1=Wh·vj+bh
c-1=Wc·vj+bc
其中,Wh∈RL×D,Wc∈RL×D,bh∈RD,bc∈RD为训练参数。
步骤2.3.3:通过解码模型在迭代时间步t的隐状态ht-1和融合语义特征vF,进行加性多头注意力机制计算。加性多头注意力机制的计算过程包含如下子步骤:
步骤2.3.3.1:加性多头注意力机制中第i个头的权重αi的计算公式如下:
αi=softmax(ReLU(Wi q·ht-1+Wi k·vF))
其中
Figure BDA0003056711620000081
Figure BDA0003056711620000082
为投影矩阵,Ln为加性多头注意力特征维度与头数量的商。
步骤2.3.3.2:加性多头注意力机制中的第i个头headi的加权计算公式如下:
Figure BDA0003056711620000083
其中
Figure BDA0003056711620000084
为vF的转置矩阵。
步骤2.3.3.3:将多头head1,head2,...,headn的加权计算结果沿通道拼接后,经过投影矩阵WD变换得到加权图像特征向量vt A,其计算公式如下:
vt A=[head1,head2,...,headn]·WD
其中
Figure BDA0003056711620000085
为训练参数,LA为加性多头注意力机制的特征维度。
步骤2.3.4:解码模型采用融合加性多头注意力机制的LSTM进行迭代计算,其迭代计算公式如下:
ht,ct=LSTM([We·wt,vt A],ht-1,ct-1)
其中,We为词嵌入矩阵,
Figure BDA0003056711620000086
LE为词嵌入维度,SD为字典中词的数量,wt为迭代时间步t的输入单词,
Figure BDA0003056711620000087
步骤2.3.5:通过全连接层FC和softmax归一化后,解码模型输出字典中候选概率值最大的单词
Figure BDA0003056711620000091
其计算公式如下:
Figure BDA0003056711620000092
判断
Figure BDA0003056711620000093
是否为结束标记<end>,如果不是<end>,输出
Figure BDA0003056711620000094
并将其作为步骤2.3.4中迭代时间步t+1的输入单词wt+1继续迭代;否则结束迭代过程。
步骤3,利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络;
步骤4,将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围的。

Claims (4)

1.一种红外与可见光图像文本描述生成方法,其特征在于,包括如下步骤:
步骤1,建立数据集,采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本,所述描述文本由多个词组成,将所有描述文本中的词组成一个集合,这个集合称为“字典”;
步骤2,构建红外与可见光图像文本描述生成网络,包括以下子步骤:
步骤2.1,多源图像场景特征提取:建立红外与可见光图像特征提取的编码模型,用于提取数据集中每一对红外与可见光图像样本的深层语义特征vIR和vVIS
步骤2.2,场景特征信息融合:建立前馈神经网络构成的特征融合模型,用以融合红外与可见光图像包含的多源场景信息,获得融合语义特征vF
步骤2.3,建立加性多头注意力机制的图像特征解码模型,对融合语义特征vF进行处理,用于输出描述文本;
步骤2.3的具体实现包含如下子步骤:
步骤2.3.1,对融合语义特征vF进行均值池化,将每个通道的空间分辨率d×d降为1×1,得到均值vj
步骤2.3.2,加性多头注意力机制解码模型通过迭代的方式完成,记h和c为解码模型在迭代过程中的隐状态,h∈RD,c∈RD,D为解码模型的特征维度,在迭代时间步为t时,解码模型的隐状态为ht-1和ct-1
当迭代时间步t=0时,解码模型的初始隐状态为h-1和c-1,起始标记词w0为<start>,h-1由投影矩阵Wh、偏置向量bh对vj变换得到;c-1由投影矩阵Wc、偏置向量bc对vj变换得到,h-1和c-1的计算公式如下:
h-1=Wh·vj+bh
c-1=Wc·vj+bc
其中,Wh∈RL×D,Wc∈RL×D,bh∈RD,bc∈RD为训练参数,L为特征的通道数;
步骤2.3.3,通过解码模型在迭代时间步t的隐状态ht-1和融合语义特征vF,进行加性多头注意力机制计算;加性多头注意力机制的计算过程包含如下子步骤:
步骤2.3.3.1:加性多头注意力机制中第i个头的权重αi的计算公式如下:
αi=softmax(ReLU(Wi q·ht-1+Wi k·vF))
其中
Figure FDA0003537889980000021
Figure FDA0003537889980000022
为投影矩阵,Ln为加性多头注意力特征维度与头数量的商;
步骤2.3.3.2:加性多头注意力机制中的第i个头headi的加权计算公式如下:
Figure FDA0003537889980000023
其中
Figure FDA0003537889980000024
为vF的转置矩阵;
步骤2.3.3.3:将多头head1,head2,...,headn的加权计算结果沿通道拼接后,经过投影矩阵WD变换得到加权图像特征向量vt A,其计算公式如下:
vt A=[head1,head2,...,headn]·WD
其中
Figure FDA0003537889980000025
为训练参数,LA为加性多头注意力机制的特征维度;
步骤2.3.4,解码模型采用融合加性多头注意力机制的LSTM进行迭代计算,其迭代计算公式如下:
ht,ct=LSTM([We·wt,vt A],ht-1,ct-1)
其中,We为词嵌入矩阵,
Figure FDA0003537889980000026
LE为词嵌入维度,SD为字典中词的数量,wt为迭代时间步t的输入单词,
Figure FDA0003537889980000027
步骤2.3.5,通过全连接层FC和softmax归一化后,解码模型输出字典中候选概率值最大的单词
Figure FDA0003537889980000028
其计算公式如下:
Figure FDA0003537889980000029
判断
Figure FDA00035378899800000210
是否为结束标记<end>,如果不是<end>,输出
Figure FDA00035378899800000211
并将其作为步骤2.3.4中迭代时间步t+1的输入单词wt+1继续迭代;否则结束迭代过程;
步骤3,利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络;
步骤4,将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。
2.如权利要求1所述的一种红外与可见光图像文本描述生成方法,其特征在于:步骤1的具体实现包括如下子步骤:
步骤1.1,采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集SData,所述数据集包含红外图像集合
Figure FDA0003537889980000031
与可见光图像集合
Figure FDA0003537889980000032
两部分,
Figure FDA0003537889980000033
Figure FDA0003537889980000034
是数据集中的样本对,对应相同场景的红外与可见光图像;
步骤1.2:对所述数据集中的每个样本对
Figure FDA0003537889980000035
Figure FDA0003537889980000036
进行人工文本描述,生成a条不同的描述文本,a为自然数。
3.如权利要求1所述的一种红外与可见光图像文本描述生成方法,其特征在于:步骤2.1的具体实现包括如下子步骤:
步骤2.1.1,建立红外与可见光图像描述生成网络的编码模型,用于提取图像特征映射,编码模型可表示为如下计算公式:
Figure FDA0003537889980000037
其中IIR和IVIS分别表示所述编码模型输入的红外与可见光图像对,EResNet表示ResNet-101网络剔除最后两层的剩余部分,
Figure FDA0003537889980000038
Figure FDA0003537889980000039
分别表示所述红外与可见光图像经过EResNet模型提取得到的红外与可见光图像特征映射;
步骤2.1.2,为了使编码模型能够适应不同尺寸的图像输入,添加自适应均值池化层对所述红外与可见光图像特征映射进行处理,得到图像的深层语义特征,其计算公式为:
Figure FDA00035378899800000310
其中,Pool表示自适应均值池化层,vIR∈RL×d×d和vVIS∈RL×d×d分别表示红外与可见光图像深层语义特征,L为特征的通道数,每个通道的空间分辨率为d×d。
4.如权利要求1所述的一种红外与可见光图像文本描述生成方法,其特征在于:步骤2.2的具体实现包括如下子步骤:
步骤2.2.1,建立连接层,对红外与可见光图像深层语义特征vIR和vVIS沿特征的通道进行拼接,得到联合深层语义特征vC∈R2L×d×d,L为特征的通道数,每个通道的空间分辨率为d×d;
步骤2.2.2,建立线性层对所述联合深层语义特征进行处理,得到线性深层语义特征vL,vL∈R2L×d×d的计算公式如下:
vL=W1·vC+b1
其中,W1∈R2L×2L,b1∈R2L为训练参数;
步骤2.2.3,建立激活层,对所述线性深层语义特征进行非线性化,使得vL具有非线性特征,其表达公式如下:
vA=ReLU(vL)
其中,vA表示非线性深层语义特征,ReLU为线性整流函数;
步骤2.2.4,建立线性层对所述非线性深层语义特征进行处理,得到融合语义特征vF
vF=W2·vA+b2
其中,W2∈R2L×L,b2∈RL为训练参数。
CN202110501891.9A 2021-05-08 2021-05-08 一种红外与可见光图像文本描述生成方法 Active CN113343966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110501891.9A CN113343966B (zh) 2021-05-08 2021-05-08 一种红外与可见光图像文本描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110501891.9A CN113343966B (zh) 2021-05-08 2021-05-08 一种红外与可见光图像文本描述生成方法

Publications (2)

Publication Number Publication Date
CN113343966A CN113343966A (zh) 2021-09-03
CN113343966B true CN113343966B (zh) 2022-04-29

Family

ID=77470125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110501891.9A Active CN113343966B (zh) 2021-05-08 2021-05-08 一种红外与可见光图像文本描述生成方法

Country Status (1)

Country Link
CN (1) CN113343966B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503300B (zh) * 2023-06-25 2023-10-03 广东电网有限责任公司湛江供电局 一种电力设备的图像融合方法、系统、设备和介质
CN116935063B (zh) * 2023-07-24 2024-03-08 北京中科睿途科技有限公司 智能座舱环境下司机状态文本的生成方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118467A (zh) * 2018-08-31 2019-01-01 武汉大学 基于生成对抗网络的红外与可见光图像融合方法
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171361B2 (en) * 2010-04-23 2015-10-27 Flir Systems Ab Infrared resolution and contrast enhancement with fusion

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118467A (zh) * 2018-08-31 2019-01-01 武汉大学 基于生成对抗网络的红外与可见光图像融合方法
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法

Also Published As

Publication number Publication date
CN113343966A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
Li et al. Segmenting objects in day and night: Edge-conditioned CNN for thermal image semantic segmentation
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN105005772B (zh) 一种视频场景检测方法
Xiao et al. Heterogeneous knowledge distillation for simultaneous infrared-visible image fusion and super-resolution
CN113343966B (zh) 一种红外与可见光图像文本描述生成方法
CN111898736A (zh) 基于属性感知的高效行人重识别方法
Ma et al. A crossmodal multiscale fusion network for semantic segmentation of remote sensing data
CN112164067A (zh) 一种基于多模态子空间聚类的医学图像分割方法及装置
Zhao et al. Depth-distilled multi-focus image fusion
Zhang et al. Tell and guess: cooperative learning for natural image caption generation with hierarchical refined attention
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
Wan et al. AnswerNet: Learning to answer questions
Hong et al. USOD10K: a new benchmark dataset for underwater salient object detection
Wu et al. SRCANet: Stacked residual coordinate attention network for infrared ship detection
Qian et al. Circular lbp prior-based enhanced GAN for image style transfer
Fu et al. Learning heavily-degraded prior for underwater object detection
Huang et al. Exploiting probabilistic siamese visual tracking with a conditional variational autoencoder
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN114463235A (zh) 一种红外与可见光图像融合方法、装置及存储介质
Lu et al. Deep neural network for precision multi-band infrared image segmentation
Wang et al. Insulator defect detection based on improved you-only-look-once v4 in complex scenarios
Yang et al. Heterogeneous face detection based on multi‐task cascaded convolutional neural network
CN116543146B (zh) 一种基于窗口自注意与多尺度机制的图像密集描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant