CN110516723A

CN110516723A - 一种基于深度张量融合的多模态地基云图识别方法

Info

Publication number: CN110516723A
Application number: CN201910754634.9A
Authority: CN
Inventors: 刘爽; 李梅; 张重
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-11-29
Anticipated expiration: 2039-08-15
Also published as: CN110516723B

Abstract

本发明实施例公开了一种基于深度张量融合的多模态地基云图识别方法，该方法包括：对输入地基云样本进行预处理，得到深度张量融合网络输入；将该输入转移到深度张量融合网络训练模型中，训练得到深度张量融合网络；提取每个输入地基云样本的融合特征表示；训练支持向量机分类器，得到地基云分类模型；获取测试输入地基云样本的融合特征表示，输入至地基云分类模型中得到分类结果。本发明具有联合学习地基云视觉信息与多模态信息的能力，能够在张量级别上融合视觉信息与多模态信息同时保持视觉信息的空间内容，充分利用视觉信息与多模态信息的互补信息，有效挖掘两者的相关性，提取更高辨别性的融合特征，提高地基云分类的正确率。

Description

一种基于深度张量融合的多模态地基云图识别方法

技术领域

本发明属于模式分类、气象科学、人工智能技术领域，具体涉及一种基于深度张量融合的多模态地基云图识别方法。

背景技术

地基云分类对于天气状况理解具有重要意义。传统地基云自动分类方法主要提取人为定义的地基云图特征，如纹理、结构、颜色特征等。然而，这些人为定义的特征很难应用于大规模数据库。

近年来，卷积神经网络(CNNs)在无线传感网络、计算机视觉、遥感等领域取得了显著成果。这些基于卷积神经网络的方法可以根据数据分布自主地学习特征，鉴于这一特点，研究者们也开始利用卷积神经网络对地基云进行自动分类。Ye等人利用Fisher向量编码从卷积神经网络的卷积层提取特征作为地基云图的特征表示。此外，他们从卷积神经网络的多个卷积层提取特征并选择出具有代表性的局部描述子，然后用Fisher向量对选择的局部描述子进行编码，并作为地基云图的特征表示。Shi等人将平均池化或最大池化作用于每个卷积激活图，然后提取基于卷积激活的特征并对地基云进行分类。Zhang等人提出显著二重激活聚集算法，该算法从浅层卷积层中提取显著向量，并从高层卷层中提取相应的权重。Li等人提出二重监督损失函数将不同网络的知识结合在一起，通过对难分类样本赋予较大的权重来提高地基云分类的准确率。

以上这些方法只利用云的视觉信息即地基云图进行分类，由于地基云图类内差别大类间差别小，分类难度大，而且云的形成是多种因素相互作用的结果。这些因素主要包括温度、湿度、气压、风速等，将这些因素称为多模态信息。云的形成与多模态信息具有较大相关性。例如，空气中的相对湿度增加至饱和时，云便开始形成。因此，多模态信息包含潜在的地基云信息，这些信息可以作为视觉信息的互补，即将视觉信息与多模态信息融合可以提高地基云分类的准确率。

由于地基云视觉信息的数学表示形式是三维阵列，而多模态信息的数学表示形式是向量，并且这两者包含的信息完全不相同，因此将它们融合起来具有一定的挑战。近年来，研究者们提出了一些融合视觉信息与多模态信息的方法进而探索异构信息之间的互补性。例如，Liu和Li用地基云图训练卷积神经网络并从卷积层中提出视觉特征，接着将视觉特征与多模态信息串联作为地基云的最终特征表示。Liu等人提出联合融合卷积神经网络来探索异构信息的相关性，该网络通过两个子网络分别学习地基云视觉信息与多模态信息并将信息通过联合融合层进行融合。Liu等人还提出多模态生成式对抗网络，该网络可同时产生地基云图与多模态信息，从而可以提高分类模型的泛化性能。以上这些融合方法有一个共同点，就是利用深度卷积神经网络将地基云的视觉信息与多模态信息转换为向量之后再进行融合。然而，将地基云的视觉信息表示为向量形式会造成空间信息的损失。因此，在向量级别上融合地基云的视觉信息与多模态信息很难显著提高地基云分类的准确率。但是，将地基云的视觉信息与多模态信息在张量级别上融合可以保持视觉信息的空间信息，并且能够充分学习两者之间的互补信息。

发明内容

本发明的目的是要解决地基云分类困难的问题，为此，本发明提供一种基于深度张量融合的多模态地基云图识别方法。

所述方法包括以下步骤：

步骤S1，对输入地基云样本进行预处理，得到深度张量融合网络输入，其中，所述输入地基云样本包括地基云图以及与所述地基云图相应的多模态信息，所述深度张量融合网络输入包括深度张量融合网络的视觉信息输入和深度张量融合网络的多模态信息输入；

步骤S2，将所述深度张量融合网络输入转移到深度张量融合网络训练模型中，训练得到深度张量融合网络；

步骤S3，基于所述深度张量融合网络，提取每个输入地基云样本的融合特征表示；

步骤S4，基于所述输入地基云样本的融合特征表示，训练支持向量机分类器，得到地基云分类模型；

步骤S5，获取测试输入地基云样本的融合特征表示，并将其输入至所述地基云分类模型中，得到测试输入地基云样本分类结果。

可选地，所述步骤S1包括：

步骤S11，对所述输入地基云样本中的地基云图进行预处理，得到所述深度张量融合网络的视觉信息输入；

步骤S12，对所述输入地基云样本中的多模态信息进行预处理，得到所述深度张量融合网络的多模态信息输入。

可选地，所述步骤S11包括：

步骤S111，将所述地基云图进行归一化，得到归一化图像；

步骤S112，对所述归一化图像进行水平翻转，得到水平翻转图像；

步骤S113，对所述水平翻转图像进行随机裁剪；

步骤S114，将经随机裁剪后的地基云图的每个RGB像素值减去预设RGB像素均值，得到所述深度张量融合网络的视觉信息输入。

可选地，所述步骤S12包括：

步骤S121，获取所述输入地基云样本中的多模态信息；

步骤S122，将所述多模态信息的值进行归一化，得到归一化多模态信息。

步骤S123，将所述归一化多模态信息进行扩充，得到深度张量融合网络的多模态信息输入。

可选地，所述步骤S2包括以下步骤：

步骤S21，构建深度张量融合网络，其中，所述深度张量融合网络包括视觉张量子网络、多模态张量子网络、张量融合层、平均池化层、全连接层和损失函数，其中，所述张量融合层与所述视觉张量子网络和多模态张量子网络连接，平均池化层和全连接层依次与所述张量融合层连接；

步骤S22，初始化所述视觉张量子网络、多模态张量子网络和全连接层的参数，得到深度张量融合网络训练模型；

步骤S23，将所述深度张量融合网络的视觉信息输入和深度张量融合网络的多模态信息输入分别批量输入至所述深度张量融合网络训练模型的视觉张量子网络和多模态张量子网络中进行联合训练，得到深度张量融合网络。

可选地，所述步骤S3包括以下步骤：

步骤S31，将所述深度张量融合网络的视觉信息输入和深度张量融合网络的多模态信息输入分别输入至训练好的深度张量融合网络的视觉张量子网络和多模态张量子网络中；

步骤S32，提取所述深度张量融合网络的平均池化层的输出作为所述输入地基云样本的融合特征表示。

可选地，所述步骤S4被实施为：

将每个训练地基云样本的融合特征表示与该样本所对应的标签分别输入到支持向量机分类器中，训练得到所述地基云分类模型。

可选地，所述支持向量机分类器为径向基核函数。

本发明的有益效果为：本发明通过深度张量融合网络学习地基云视觉和多模态信息，能够保留视觉信息的空间信息的目的，达到有效融合异构特征信息；通过张量级别融合地基云视觉信息和多模态信息，能够充分外挖掘它们之间的互补信息，提高地基云分类的正确率。

需要说明的是，本发明得到了国家自然科学基金项目No.61501327、No.61711530240，天津市自然科学基金重点项目No.17JCZDJC30600，天津师范大学“青年科研拔尖人才培育计划”No.135202RC1703，模式分类国家重点实验室开放课题基金No.201800002，天津高等学校创新团队基金项目和天津师范大学研究生科研实践项目No.YZ1260021938的资助。

附图说明

图1是根据本发明一实施例提出的一种基于深度张量融合的多模态地基云图识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例提出的一种基于深度张量融合的多模态地基云图识别方法的流程图，如图1所示，所述一种基于深度张量融合的多模态地基云图识别方法包括：

其中，所述对输入地基云样本进行预处理包括以下步骤：

其中，对所述输入地基云样本中的地基云图进行预处理包括以下步骤：

步骤S111，将所述地基云图进行归一化，得到归一化图像；

在本发明一实施例中，所述输入地基云样本中的地基云图原始大小为1024×1024，其中，两个1024分别表示地基云图的高度和宽度；归一化后的地基云图大小为252×252，其中，两个252分别表示归一化后的地基云图的高度和宽度。

其中，所述水平翻转指的是以图像的竖直中心为基准进行左右翻转。

步骤S113，对所述水平翻转图像进行随机裁剪；

其中，所述随机剪裁指的是在不超过图像大小的范围内进行随机窗口裁剪。

在本发明一实施例中，图像的大小为252×252，在不超过图像大小的范围内进行随机窗口裁剪，所述随机窗口的上边界和左边界在图像内，且距离图像的上边界和下边界均不得超过28个像素，得到的地基云图大小为224×224，其中，两个224分别表示经裁剪后地基云图的高度和宽度。

在本发明一实施例中，所述预设RGB像素均值可设为所述输入地基云样本中所有地基云图在RGB通道上的均值。其中，每个地基云图的大小均归一化至224×224。

其中，对所述输入地基云样本中的多模态信息进行预处理包括以下步骤：

步骤S121，获取所述输入地基云样本中的多模态信息；

在本发明一实施例中，所述多模态信息包括温度、湿度、气压和瞬时风速等信息。其中，温度的值域范围比如可以在-20—45，湿度的值域范围比如可以在0—100，气压的值域范围比如可以在850—1100，风速的范围比如可以在0—5。将每一个地基云样本的多模态信息以向量形式来表示，可表示为：

M＝[m₁ m₂ … m_p]^T

其中，M表示多模态信息向量，m_p表示第p个多模态信息，1<＝p<＝P，P表示多模态信息的数量。

在本发明一实施例中，使用4个多模态信息，即P为4，m₁,m₂,m₃,m₄分别表示温度、湿度、气压、瞬时风速，每个地基云样本的多模态信息是一个4×1的向量。

步骤S122，将所述多模态信息的值进行归一化，得到归一化多模态信息；

在本发明一实施例中，将这些地基云多模态信息的值采用线性归一化方法归一化到0—1范围内。

对所述归一化多模态信息的每一个元素复制Q次再进行向量组合，得到深度张量融合网络的多模态信息输入。

在本发明一实施例中，对归一化多模态信息的每一个元素复制4次，得到深度张量融合网络的多模态信息输入。其中，扩充后得到的多模态信息可以表示为：

其中，M'是一个矩阵，大小为4×4。

进一步地，所述步骤S2包括以下步骤：

在本发明一实施例中，所述视觉张量子网络是一个具有五层结构的残差网络，其第一个卷积层的卷积核大小为c₁×c₁，步长为s₁，卷积核组数量为n₁；第二至第五层是由数量不等的残差块组成，每个残差块由K层卷积层组成，每个残差块第k个卷积层的卷积核大小为c_k×c_k，步长为s_k，卷积核组数量为n_k，即对应存在n_k个卷积激活图，第一个卷积层后还连接有一个最大池化层，最大池化层的核大小为c×c，步长为s。

所述多模态张量子网络由两个反卷积层和一个卷积层组成，第一个反卷积层的反卷积核大小为d₁×d₁，第二个反卷积层的反卷积核大小为d₂×d₂，步长分别为s'₁和s'₂，反卷积核组数量分别为n'₁，n'₂；卷积层的卷积核大小为d×d，步长为s'，卷积核组数量为n'；对于所述多模态张量子网络每一层的输出，均设有一个批量归一化层和一个修正线性单元。

位于所述深度张量融合网络最后的全连接层的神经元数量为l。

在本发明一实施例中，所生成的深度张量融合网络中的第一个卷积层的卷积核大小为7×7，步长为2，卷积核组数量为64；第二至第五层分别由3、4、6、3个残差块组成，每个残差块由3层卷积层组成，每个残差块中的第一个和第三个卷积层的卷积核大小为1×1，第二个卷积层的卷积核大小为3×3，这三个卷积核的步长均为1；第二层残差块第一至第三层卷积层卷积核组数量分别为64、64和256；之后每层残差块第一至第三层卷积层卷积核组数量为前一层相应数量的2倍；最大池化层核大小为3×3，步长为2。多模态张量子网络的第一个反卷积层的反卷积核大小为3×3，步长为1，第二个反卷积层的反卷积核大小为2×2，步长为1，卷积层的卷积核大小为1×1，步长为1；第一个反卷积层和第二个反卷积层的反卷积核组数量分别为64和128，卷积层的卷积核组数量分为2048。最后一个全连接层的神经元数量为7。

在本发明一实施例中，所述修正线性单元可表示为：

其中，f(v)为经过修正线性单元作用后的输出值，v为神经元的输入值。

在本发明一实施例中，所述张量融合层的融合算法可以表示为：

T＝f(T_v,T_m)，

其中，T为融合后得到的每个输入地基云样本的一个融合张量表示，f为融合函数，T_v和T_m分别是视觉张量子网络输出的视觉张量和多模态张量子网络输出的多模态张量。

在本发明一实施例中，所述融合函数选为求和融合函数，即将提取的视觉张量T_v与多模态张量T_m按对应元素进行求和，得到输入地基云样本的一个融合张量表示，即融合函数f可表示为：

f(T_v,T_m)＝αT_v+βT_m，

其中，α，β表示平衡视觉张量T_v与多模态张量T_m重要性的参数。

在本发明一实施例中，α，β均设为0.5，T，T_v和T_m的维度均为2048×7×7。

在本发明一实施例中，所述损失函数作用在柔性最大函数上，柔性最大函数表达式为：

其中，N是云种类的数量，z_i为全连接层在第i个位置的神经元的输出值，z_j为全连接层在第j个位置的神经元的输出值。

损失函数是交叉熵函数，其表达式为：

其中，q_j是真实标签的概率，当j是真实标签时，q_j＝1，否则q_j＝0。

在本发明一实施例中，卷积层、反卷积层、批量归一化层和全连接层的参数包括权重和偏置，权重初始化服从标准正太分布，偏置全部初始化为零。

在本发明一实施例中，可将经步骤S114得到的深度张量融合网络的视觉信息输入和经步骤S123得到的深度张量融合网络的多模态信息输入批量输入至所述深度张量融合网络训练模型的视觉张量子网络和多模态张量子网络中进行训练。其中，可借助随机梯度下降法(SGD)来实现网络的训练。

其中，视觉信息与多模态信息是一一对应的关系。

进一步地，所述步骤S3包括以下步骤：

在本发明一实施例中，将经步骤S114得到的深度张量融合网络的视觉信息输入和经步骤S123得到的深度张量融合网络的多模态信息别输入至训练好的深度张量融合网络的视觉张量子网络和多模态张量子网络。

在本发明一实施例中，每一个输入地基云样本的融合特征表示是一个2048维的向量。

所述步骤S4具体为：

将根据步骤S3得到的每个训练地基云样本的融合特征表示与该样本所对应的标签分别输入到支持向量机分类器中，训练得到所述地基云分类模型。

在本发明一实施例中，所述支持向量机分类器为径向基核函数。

其中，所述测试输入地基云样本的融合特征表示可按照上述步骤得到。

在本发明一应用实例中，所使用的地基云图数据库是在不同的季节不同的时间下在中国拍摄的，所用摄像机是鱼眼镜头，具有广泛的视角。多模态信息是用手持气象站获得的，包含温度、湿度、气压、瞬时风速等信息。地基云图拍摄与多模态信息采集是同时进行的，因此，一幅图像对应多个多模态信息。通过从平均池化层提取融合特征表示，地基云样本的分类正确率为86.48％，由此可见本发明方法的有效性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于深度张量融合的多模态地基云图识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤S11包括：

步骤S111，将所述地基云图进行归一化，得到归一化图像；

步骤S113，对所述水平翻转图像进行随机裁剪；

4.根据权利要求2所述的方法，其特征在于，所述步骤S12包括：

步骤S121，获取所述输入地基云样本中的多模态信息；

5.根据权利要求1所述的方法，其特征在于，所述步骤S2包括以下步骤：

6.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

7.根据权利要求1所述的方法，其特征在于，所述步骤S4被实施为：

8.根据权利要求7所述的方法，其特征在于，所述支持向量机分类器为径向基核函数。