CN113343966B

CN113343966B - 一种红外与可见光图像文本描述生成方法

Info

Publication number: CN113343966B
Application number: CN202110501891.9A
Authority: CN
Inventors: 黄珺; 马泳; 马佳义; 樊凡; 王旭; 张灿
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-04-29
Anticipated expiration: 2041-05-08
Also published as: CN113343966A

Abstract

本发明公开了一种红外与可见光图像文本描述生成方法，包括以下步骤：1)采集n对分辨率大小和场景相同的红外与可见光图像，构建成数据集，对数据集中的每个样本进行人工文本描述，生成多条不同的描述文本；2)，构建红外与可见光图像文本描述生成网络，包括红外与可见光图像特征提取的编码模型、由前馈神经网络构成的特征融合模型，以及加性多头注意力机制的图像特征解码模型；3)训练文本描述生成网络；4)将测试图像对输入到训练好的文本描述生成网络，输出其对应的描述文本。本发明方法可有效利用红外图像和可见光图像提供的互补视觉特征，弥补了传统单光算法遗漏关键目标实体和场景描述不充分的不足。

Description

一种红外与可见光图像文本描述生成方法

技术领域

本发明属于计算机视觉领域，具体涉及一种红外与可见光图像文本描述生成方法。

背景技术

随着近年来人工智能领域中机器学习特别是深度学习技术的迅猛发展，计算机视觉作为一门研究如何更好地理解和分析图像的科学，在数据及算力的推动下也呈现出飞跃式的进步。例如在图像分类任务中，运行深度学习算法的机器的对物体种类识别的准确率已经超过人类；在目标检测与定位任务中，基于深度学习的算法已广泛应用于智能视频监控，机器人导航和基于内容的图像检索等领域。

图像描述生成任务的本质是完成场景信息从图像域到文本域的转换。目前图像描述生成领域中的研究都是围绕可见光图像展开的，然而单一光学谱段的成像设备可能在一些环境下无法完整的获取场景信息。例如，当关注的目标或场景缺乏良好的光线照射或者被遮挡时，普通的可见光相机将无法捕获到目标或相关场景的有用信息。尤其是在军事战场环境中，重要设施目标常常需要通过伪装式遮挡以躲避侦察，以及军事计划可能借助夜晚黑暗的保护开展行动。如果使用普通的可见光成像设备进行场景信息的采集，图像描述生成算法后续就无法生成正确的描述语句。为了在极端成像条件下也能够获取全面的场景信息，有必要结合使用工作在不同谱段的成像设备。例如在上述情景中，可以使用红外相机与可见光相机同时对场景成像。其中红外相机通过捕捉物体发出的热辐射信息并根据其强度大小进行成像，这样的特点使其具备全天候的工作能力而不受遮挡和光照条件变化的影响。因此研究多源传感器在图像描述生成任务中的应用也具有非常重要的意义。

发明内容

针对现有技术的不足，本发明提出一种红外与可见光图像文本描述生成方法。本方法建立了了一种联合红外可见光特征的双输入图像描述网络，能够有效地结合红外和可见光两个谱段的视觉特征信息。

本发明的技术方案包括以下步骤：

步骤1，建立数据集，采集n对分辨率大小为H×W、场景相同的红外与可见光图像，构建成数据集，对数据集中的每个样本进行人工文本描述，生成多条不同的描述文本，所述描述文本由多个词组成，将所有描述文本中的词组成一个集合，这个集合称为“字典”；

步骤2，构建红外与可见光图像文本描述生成网络，包括以下子步骤：

步骤2.1，多源图像场景特征提取：建立红外与可见光图像特征提取的编码模型，用于提取数据集中每一对红外与可见光图像样本的深层语义特征v_IR和v_VIS；

步骤2.2，场景特征信息融合：建立前馈神经网络构成的特征融合模型，用以融合红外与可见光图像包含的多源场景信息，获得融合语义特征v_F；

步骤2.3，建立加性多头注意力机制的图像特征解码模型，对融合语义特征v_F进行处理，用于输出描述文本；

步骤3，利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络；

步骤4，将测试图像对输入到训练好的文本描述生成网络，输出其对应的描述文本。

进一步的，步骤1的具体实现包括如下子步骤：

步骤1.1，采集n对分辨率大小为H×W、场景相同的红外与可见光图像，构建成数据集S_Data，所述数据集包含红外图像集合

与可见光图像集合

两部分，

与

是数据集中的样本对，对应相同场景的红外与可见光图像；

步骤1.2：对所述数据集中的每个样本对

与

进行人工文本描述，生成a条不同的描述文本，a为自然数。

进一步的，步骤2.1的具体实现包括如下子步骤：

步骤2.1.1，建立红外与可见光图像描述生成网络的编码模型，用于提取图像特征映射，编码模型可表示为如下计算公式：

其中I_IR和I_VIS分别表示所述编码模型输入的红外与可见光图像对，EResNet表示ResNet-101网络剔除最后两层的剩余部分，

和

分别表示所述红外与可见光图像经过EResNet模型提取得到的红外与可见光图像特征映射；

步骤2.1.2，为了使编码模型能够适应不同尺寸的图像输入，添加自适应均值池化层对所述红外与可见光图像特征映射进行处理，得到图像的深层语义特征，其计算公式为：

其中，Pool表示自适应均值池化层，v_IR∈R^L×d×d和v_VIS∈R^L×d×d分别表示红外与可见光图像深层语义特征，L为特征的通道数，每个通道的空间分辨率为d×d。

进一步的，步骤2.2的具体实现包括如下子步骤：

步骤2.2.1，建立连接层，对红外与可见光图像深层语义特征v_IR和v_VIS沿特征的通道进行拼接，得到联合深层语义特征v_C∈R^2L×d×d；

步骤2.2.2，建立线性层对所述联合深层语义特征进行处理，得到线性深层语义特征v_L，v_L∈R^2L×d×d的计算公式如下：

v_L＝W₁·v_C+b₁

其中，W₁∈R^2L×2L，b₁∈R^2L为训练参数；

步骤2.2.3，建立激活层，对所述线性深层语义特征进行非线性化，使得v_L具有非线性特征，其表达公式如下：

v_A＝ReLU(v_L)

其中，v_A表示非线性深层语义特征，ReLU为线性整流函数；

步骤2.2.4，建立线性层对所述非线性深层语义特征进行处理，得到融合语义特征v_F：

v_F＝W₂·v_A+b₂

其中，W₂∈R^2L×L，b₂∈R^L为训练参数。

进一步的，步骤2.3的具体实现包含如下子步骤：

步骤2.3.1，对融合语义特征v_F进行均值池化，将每个通道的空间分辨率d×d降为1×1，得到均值v_j；

步骤2.3.2，加性多头注意力机制解码模型通过迭代的方式完成，记h和c为解码模型在迭代过程中的隐状态，h∈R^D，c∈R^D，D为解码模型的特征维度，在迭代时间步为t时，解码模型的隐状态为h_t-1和c_t-1；

当迭代时间步t＝0时，解码模型的初始隐状态为h_-1和c_-1，起始标记词w₀为<start>，h_-1由投影矩阵W_h、偏置向量b_h对v_j变换得到；c_-1由投影矩阵W_c、偏置向量b_c对v_j变换得到，h_-1和c_-1的计算公式如下：

h_-1＝W_h·v_j+b_h

c_-1＝W_c·v_j+b_c

其中，W_h∈R^L×D，W_c∈R^L×D，b_h∈R^D，b_c∈R^D为训练参数；

步骤2.3.3，通过解码模型在迭代时间步t的隐状态h_t-1和融合语义特征v_F，进行加性多头注意力机制计算；加性多头注意力机制的计算过程包含如下子步骤：

步骤2.3.3.1：加性多头注意力机制中第i个头的权重α_i的计算公式如下：

α_i＝softmax(ReLU(W_i ^q·h_t-1+W_i ^k·v_F))

其中

和

为投影矩阵，L_n为加性多头注意力特征维度与头数量的商；

步骤2.3.3.2：加性多头注意力机制中的第i个头head_i的加权计算公式如下：

其中

为v_F的转置矩阵；

步骤2.3.3.3：将多头head₁,head₂,...,head_n的加权计算结果沿通道拼接后，经过投影矩阵W_D变换得到加权图像特征向量v_t ^A，其计算公式如下：

v_t ^A＝[head₁,head₂,...,head_n]·W_D

其中

为训练参数，L_A为加性多头注意力机制的特征维度；

步骤2.3.4，解码模型采用融合加性多头注意力机制的LSTM进行迭代计算，其迭代计算公式如下：

h_t,c_t＝LSTM([W_e·w_t,v_t ^A],h_t-1,c_t-1)

其中，W_e为词嵌入矩阵，

L_E为词嵌入维度，S_D为字典中词的数量，w_t为迭代时间步t的输入单词，

步骤2.3.5，通过全连接层FC和softmax归一化后，解码模型输出字典中候选概率值最大的单词

其计算公式如下：

判断

是否为结束标记<end>，如果不是<end>，输出

并将其作为步骤2.3.4中迭代时间步t+1的输入单词w_t+1继续迭代；否则结束迭代过程。

本发明与现有技术相比具有以下优点和有益效果：

(1)本发明设计了一种加性多头注意力机制，通过划分多个抽头的方式在不同特征子空间计算注意力权重，能够使网络模型学习通道维度下的不同的注意力权重分布模式，弥补了传统算法遗漏关键目标实体和场景描述不充分的不足。

(2)本发明设计了一种联合红外可见光特征的双输入图像描述网络，网络中设计的特征融合模型能够有效地结合红外和可见光两个谱段的视觉特征信息，在极端不利成像条件下单一谱段成像手段无法获取完整场景信息时，可以有效利用红外图像和可见光图像提供的互补视觉特征，生成符合场景语义的描述语句。

附图说明

图1为本发明的总体流程图；

图2为解码模型结构；

图3为特征融合模型结构；

图4为加性多头注意力机制网络流程图；

图5为目标图像1和生成文本；

图6为目标图像2和生成文本。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

为了更清楚的阐述本发明的目的、技术方案和有益效果，下面结合附图和实施例进一步说明。应当理解，本发明不应限于实施例公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

技术问题：本发明设计了一种红外与可见光图像文本描述生成方法，可有效利用红外图像和可见光图像提供的互补视觉特征，弥补了传统单光算法遗漏关键目标实体和场景描述不充分的不足。

本发明的技术方案包括以下步骤：

步骤1：建立数据集：采集n对分辨率大小为H×W、场景相同的红外与可见光图像，构建成数据集，对数据集中的每个样本进行人工文本描述，生成多条不同的描述文本，所述描述文本由多个词组成，将所有描述文本中的词组成一个集合，这个集合我们称为“字典”。

进一步的，步骤1的具体实现包括如下子步骤：

步骤1.1：采集n对分辨率大小为H×W、场景相同的红外与可见光图像，构建成数据集S_Data，所述数据集包含红外图像集合

与可见光图像集合

两部分，

与

是数据集中的样本对，对应相同场景的红外与可见光图像。

步骤1.2：对所述数据集中的每个样本对

与

进行人工文本描述，生成a条不同的描述文本，a为自然数。

步骤2.1：多源图像场景特征提取：建立红外与可见光图像特征提取的编码模型，用于提取数据集中每一对红外与可见光图像样本的特征信息；

进一步的，步骤2.1的具体实现包括如下子步骤：

步骤2.1.1：建立红外与可见光图像描述生成网络的编码模型，用于提取图像特征映射，模型可表示为如下计算公式：

和

步骤2.1.2：为了使编码模型能够适应不同尺寸的图像输入，添加自适应均值池化层对所述红外与可见光图像特征映射进行处理，得到图像的深层语义特征，其计算公式为：

步骤2.2：场景特征信息融合：建立前馈神经网络构成的特征融合模型，用以融合红外与可见光图像包含的多源场景信息；

进一步的，步骤2.2的具体实现包括如下子步骤：

步骤2.2.1：建立连接层，对所述红外与可见光图像深层语义特征v_IR和v_VIS沿特征的通道进行拼接，得到联合深层语义特征v_C∈R^2L×d×d；

步骤2.2.2：建立线性层对所述联合深层语义特征进行处理，得到线性深层语义特征v_L，v_L∈R^2L×d×d的计算公式如下：

v_L＝W₁·v_C+b₁

其中，W₁∈R^2L×2L，b₁∈R^2L为训练参数。

步骤2.2.3：建立激活层，对所述线性深层语义特征进行非线性化，使得v_L具有非线性特征，其表达公式如下：

v_A＝ReLU(v_L)

其中，v_A表示非线性深层语义特征，ReLU为线性整流函数。

步骤2.2.4：建立线性层对所述非线性深层语义特征进行处理，得到融合语义特征v_F：

v_F＝W₂·v_A+b₂

其中，W₂∈R^2L×L，b₂∈R^L为训练参数。

步骤2.3：建立加性多头注意力机制的图像特征解码模型，用于输出描述文本；

进一步的，步骤2.3的具体实现包含如下子步骤：

步骤2.3.1：对所述融合语义特征v_F进行均值池化，将每个通道的空间分辨率d×d降为1×1，得到均值v_j。

步骤2.3.2：加性多头注意力机制解码模型通过迭代的方式完成，记h和c为解码模型在迭代过程中的隐状态，h∈R^D，c∈R^D，D为解码模型的特征维度。在迭代时间步为t时，解码模型的隐状态为h_t-1和c_t-1。

当迭代时间步t＝0时，解码模型的初始隐状态为h_-1和c_-1，起始标记词w₀为<start>。h_-1由投影矩阵W_h、偏置向量b_h对v_j变换得到；c_-1由投影矩阵W_c、偏置向量b_c对v_j变换得到。h_-1和c_-1的计算公式如下：

h_-1＝W_h·v_j+b_h

c_-1＝W_c·v_j+b_c

其中，W_h∈R^L×D，W_c∈R^L×D，b_h∈R^D，b_c∈R^D为训练参数。

步骤2.3.3：通过解码模型在迭代时间步t的隐状态h_t-1和融合语义特征v_F，进行加性多头注意力机制计算。加性多头注意力机制的计算过程包含如下子步骤：

α_i＝softmax(ReLU(W_i ^q·h_t-1+W_i ^k·v_F))

其中

和

为投影矩阵，L_n为加性多头注意力特征维度与头数量的商。

其中

为v_F的转置矩阵。

v_t ^A＝[head₁,head₂,...,head_n]·W_D

其中

为训练参数，L_A为加性多头注意力机制的特征维度。

步骤2.3.4：解码模型采用融合加性多头注意力机制的LSTM进行迭代计算，其迭代计算公式如下：

h_t,c_t＝LSTM([W_e·w_t,v_t ^A],h_t-1,c_t-1)

其中，W_e为词嵌入矩阵，

步骤2.3.5：通过全连接层FC和softmax归一化后，解码模型输出字典中候选概率值最大的单词

其计算公式如下：

判断

是否为结束标记<end>，如果不是<end>，输出

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围的。

Claims

1.一种红外与可见光图像文本描述生成方法，其特征在于，包括如下步骤：

步骤2.3的具体实现包含如下子步骤：

h_-1＝W_h·v_j+b_h

c_-1＝W_c·v_j+b_c

其中，W_h∈R^L×D，W_c∈R^L×D，b_h∈R^D，b_c∈R^D为训练参数，L为特征的通道数；

α_i＝softmax(ReLU(W_i ^q·h_t-1+W_i ^k·v_F))

其中

和

为投影矩阵，L_n为加性多头注意力特征维度与头数量的商；

其中

为v_F的转置矩阵；

v_t ^A＝[head₁,head₂,...,head_n]·W_D

其中

为训练参数，L_A为加性多头注意力机制的特征维度；

h_t,c_t＝LSTM([W_e·w_t,v_t ^A],h_t-1,c_t-1)

其中，W_e为词嵌入矩阵，

其计算公式如下：

判断

是否为结束标记<end>，如果不是<end>，输出

并将其作为步骤2.3.4中迭代时间步t+1的输入单词w_t+1继续迭代；否则结束迭代过程；

2.如权利要求1所述的一种红外与可见光图像文本描述生成方法，其特征在于：步骤1的具体实现包括如下子步骤：

与可见光图像集合

两部分，

与

是数据集中的样本对，对应相同场景的红外与可见光图像；

步骤1.2：对所述数据集中的每个样本对

与

进行人工文本描述，生成a条不同的描述文本，a为自然数。

3.如权利要求1所述的一种红外与可见光图像文本描述生成方法，其特征在于：步骤2.1的具体实现包括如下子步骤：

和

4.如权利要求1所述的一种红外与可见光图像文本描述生成方法，其特征在于：步骤2.2的具体实现包括如下子步骤：

步骤2.2.1，建立连接层，对红外与可见光图像深层语义特征v_IR和v_VIS沿特征的通道进行拼接，得到联合深层语义特征v_C∈R^2L×d×d，L为特征的通道数，每个通道的空间分辨率为d×d；

v_L＝W₁·v_C+b₁

其中，W₁∈R^2L×2L，b₁∈R^2L为训练参数；

v_A＝ReLU(v_L)

其中，v_A表示非线性深层语义特征，ReLU为线性整流函数；

v_F＝W₂·v_A+b₂

其中，W₂∈R^2L×L，b₂∈R^L为训练参数。