CN116824306B

CN116824306B - 基于多模态元数据的笔石化石图像识别模型的训练方法

Info

Publication number: CN116824306B
Application number: CN202311084198.1A
Authority: CN
Inventors: 牛志彬; 贾思源; 杜佳; 徐洪河; 李响
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-17
Anticipated expiration: 2043-08-28
Also published as: CN116824306A

Abstract

本发明提供了一种基于多模态元数据的笔石化石图像识别模型的训练方法。该方法包括：通过图像增强方法对训练样本集进行图像增强操作，得到图像增强集；利用笔石化石图像识别模型对图像增强集进行处理，得到图像嵌入向量集；利用位置信息嵌入网络对图像增强集进行处理，得到图像位置特征向量集；将图像嵌入向量集与图像位置特征向量集进行级联操作；利用笔石化石图像识别模型的分类器对图像级联向量集进行分类操作，得到图像级联向量集的预测标签；利用损失函数处理图像级联向量集的预测标签和真值标签以及训练样本集，根据损失值，对笔石化石识别模型和位置信息嵌入网络的参数进行更新；迭代进行上述操作，得到训练完成的笔石化石图像识别模型。

Description

基于多模态元数据的笔石化石图像识别模型的训练方法

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于多模态元数据的笔石化石图像识别模型的训练方法、笔石化石图像的识别方法、电子设备以及存储介质。

背景技术

笔石化石识别在古生物学界和石油、天然气工业中起着非常重要的作用。笔石是一种生活在3-5亿年前的已灭绝的浮游动物。开采页岩气不仅需要精准的钻井技术，更需要精准的页岩地层层位标定，而生物地层标定是最为快速、准确的方法。笔石类化石的分布已被证明与页岩气的分布有关，可以被用作生物地层标定，指导优质页岩气储层的勘探和开发。古生物学家在评估古生物多样性时需要自动化的化石识别作为辅助，而石油工业也需要这种技术来降低石油勘探的潜在成本，每天等待古生物学家的建议以保持钻井的运行，其费用可达数百万美元。目前，分类专家需要大量的培训才能有效地从笔石化石碎片中分辨出它们的形态和微观结构。

因此，开发可靠的自动化笔石化石识别是具有重要意义的。然而由于笔石受到到自然界侵蚀，其纹理与组织结构被严重破坏，存在缺失和不易分辨等问题。且样本分布不平衡，在物种层面上准确识别笔石化石图像存在巨大挑战。现有的基于深度卷积神经网络(Deep Convolutional Neural Network，DCNN)的图像识别方法在笔石化石图像识别上的效果并不佳。原因是这些模型的参数较多，适用于包含丰富的视觉线索的图像识别任务，因此在一些图像识别领域的经典数据集上表现良好。而笔石化石图像的形态单一，结构简单，图像中包含的可用于辅助识别的纹理信息较少，导致模型存在过度拟合。且笔石化石图像的识别符合细粒度图像识别任务的特征，即类间差异小和类内差异大。仅基于图像自身内容的自动识别无法取得很好的效果，因此，需要引入额外的信息来提升识别效果。

发明内容

鉴于上述问题，本发明提供了一种基于多模态元数据的笔石化石图像识别模型的训练方法，以期至少能够解决上述问题之一。

根据本发明的第一个方面，提供了一种基于多模态元数据的笔石化石图像识别模型的训练方法，其特征在于，包括：

通过多种自然图像增强方法对训练样本集进行图像增强操作，得到图像增强集，其中，训练样本集是从数据集中随机选取且带有真值标签的笔石化石图像集合；

利用笔石化石图像识别模型对图像增强集进行卷积、激活和池化操作，将得到的特征图集进行展平操作，并利用笔石化石图像识别模型的嵌入层对展平后的特征图集进行投影操作，得到图像嵌入向量集；

利用位置信息嵌入网络的多个残差模块对图像增强集进行多轮次的位置信息提取操作，得到图像位置特征向量集，并将图像嵌入向量集与图像位置特征向量集进行级联操作，得到图像级联向量集；

利用笔石化石图像识别模型的分类器对图像级联向量集进行分类操作，得到图像级联向量集的预测标签，其中，预测标签表示笔石化石图像的识别结果；

利用损失函数处理图像级联向量集的预测标签和真值标签以及训练样本集，得到损失值，并根据损失值，通过前向传导和反向传导对笔石化石识别模型和位置信息嵌入网络的参数进行更新；

迭代进行上述操作，直到满足预设条件，得到训练完成的笔石化石图像识别模型和训练完成的位置信息嵌入网络。

根据本发明的实施例，上述通过多种自然图像增强方法对训练样本集进行图像增强操作，得到图像增强集包括通过随机旋转和翻转的方法对训练样本集进行图像增强操作、通过色彩抖动的方法对训练样本集进行图像增强操作和/或通过添加高斯噪声的方法对训练样本集进行图像增强操作。

根据本发明的实施例，上述通过随机旋转和翻转的方法对训练样本集进行图像增强操作包括：

按照预设比例随机对训练样本集中的笔石化石图像进行选准或对训练样本集中的笔石化石图像进行水平翻转和垂直翻转；

其中，通过色彩抖动的方法对训练样本集进行图像增强操作包括：

按照预设调整因子对训练样本集中的笔石化石图像的亮度、对比度、饱和度和/色相进行随机调整；

其中，通过添加高斯噪声的方法对训练样本集进行图像增强操作包括：

将高斯分布所产生的随机噪声矩阵与训练样本集中的笔石化石图像按像素相加以得到增强后的笔石化石图像。

根据本发明的实施例，上述笔石化石图像识别模型基于任意类型的卷积神经网络进行构建；

其中，位置信息嵌入网络的残差块包括有ReLU的全连接层和Dropout层。

根据本发明的实施例，上述利用损失函数处理图像级联向量集的预测标签和真值标签以及训练样本集，得到损失值包括：

从图像级联向量集中随机选择一个图像级联向量，利用交叉熵损失函数处理被选中的图像级联向量的预测标签和真值标签，得到交叉熵损失值；

从训练样本集中随机选择一个笔石化石图像，并利用基于生物学分类层次树的层次约束损失函数计算被选中的笔石化石图像和被选中的图像级联向量相对应的笔石化石图像的层次损失值；

利用基于物种共现图的共现损失函数计算被选中的笔石化石图像和被选中的图像级联向量相对应的笔石化石图像的共现损失值；

将交叉熵损失值、层次损失值以及共现损失值按照预设超参数进行运算，得到损失值。

根据本发明的实施例，上述生物学分类层次树通过以下方式进行构建：

按照生物分类学规则，将数据集中笔石化石图像所表征的物种进行区分；

在两个笔石化石图像所表征的两个物种具有相同的种级标签的情况下，将两个物种的种级标签的真值赋为第一预设值；

在两个笔石化石图像所表征的两个物种具有相同的属级标签但种级标签不相同的情况下，将两个物种的属级标签的真值赋为第二预设值；

在两个笔石化石图像所表征的两个物种具有相同的科级标签但属级标签不相同的情况下，将两个物种的科级标签的真值赋为第三预设值，其中，第一预设值小于第三预设值，第三预设值小于第二预设值。

根据本发明的实施例，上述物种共现图通过以下方式进行构建：

根据数据集中笔石化石图像的经纬度信息和时间信息，构建数据集中笔石化石图像所表征的物种共现图；

其中，在物种共现图中，两个物种之间的连边表示两个物种存在地理位置上和/或时间上的重合；

其中，在物种共现图中，两个物种之间的连边权重表示两个物种在地理位置上和/或时间上重合的程度。

根据本发明的第二个方面，提供了一种笔石化石图像的识别方法，包括：

利用训练完成的笔石化石图像识别模型对笔石化石图像进行卷积、激活和池化操作，得到笔石化石图像的特征图，其中，训练完成的笔石化石图像识别模型根据基于多模态元数据的笔石化石图像识别模型的训练方法训练得到；

将笔石化石图像的特征图进行展平操作，并利用训练完成的笔石化石图像识别模型的嵌入层对笔石化石图像的特征图进行投影操作，得到笔石化石图像的得分向量；

利用训练完成的笔石化石图像识别模型的分类器对笔石化石图像的得分向量进行分类操作，得到笔石化石图像的识别结果。

根据本发明的第三个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行基于多模态元数据的笔石化石图像识别模型的训练方法和笔石化石图像的识别方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行基于多模态元数据的笔石化石图像识别模型的训练方法和笔石化石图像的识别方法。

本发明提供的上述基于多模态元数据的笔石化石图像识别模型的训练方法通过引入用于提取笔石化石图像位置信息特征的位置信息嵌入网络，将笔石化石图像的识别融合了地理位置信息，大幅度提升了笔石化石图像识别的性能和效率；同时通过损失函数更新笔石化石识别模型的参数，提升了训练完成的更新笔石化石识别模型的识别精度。

附图说明

图1是根据本发明实施例的基于多模态元数据的笔石化石图像识别模型的训练方法的流程图；

图2是根据本发明实施例获取损失值的流程图；

图3是根据本发明实施例的笔石化石图像识别模型的训练架构图；

图4是根据本发明实施例GPS信息嵌入网络结构示意图；

图5是根据本发明实施例的笔石化石图像的识别方法的流程图；

图6是根据本发明实施例的笔石化石图像的识别方法的测试示意图；

图7示意性示出了根据本发明实施例的适于实现基于多模态元数据的笔石化石图像识别模型的训练方法和笔石化石图像的识别方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

分类学层级是根据生物的进化关系，将生物分为不同层次类别的系统。可以通过在分类学层级中的位置来确定两个类别的从属关系，从而反映它们的相似程度。笔石化石数据集构建了一个目、科、属和种的四级分类层级，所有的样本均属于正笔石目（Graptoloidea），它由下一层次的对笔石科（Didymograptidae）、双头笔石科（Dicranograptidae）、双笔石科（Diplograptidae）等多个科构成，而每个科又由下一层级的多个属构成，且每个属也包含了下一层级的多个种。两个从属类别的相似性与它们在分类学层级中的最低共同祖先有关。最低共同祖先所处的层次越低，两个类别的形态特征越相似，从而更加易于区分。同时，笔石化石被发现的地点和生存的时代，也揭示了笔石物种存在的共现关系，即存在共现关系的两个物种，它们在地理位置分布和生存时代上均可能重合。一个笔石物种被发现，意味着与其存在共现关系的笔石物种同时也在该处被发现的概率变大。这些额外的、多模态的数据可以被用于提升笔石化石图像识别的精度。与传统的基于卷积神经网络的笔石化石图像识别方法相比，基于多模态数据的笔石化石图像识别更加准确。

本发明针对笔石化石图像识别问题，提供一种基于多模态元数据的笔石化石图像识别模型的训练方法用于获取训练完成的笔石化石图像识别模型，从而提高笔石化石图像的识别性能和准确度。本发明使用额外的多模态元数据信息，例如地理位置信息，与笔石图像自身信息相结合，使得训练得到的笔石化石图像识别模型能够自动、快速、准确地的进行识别。

图1是根据本发明实施例的基于多模态元数据的笔石化石图像识别模型的训练方法的流程图。

如图1所示，上述基于多模态元数据的笔石化石图像识别模型的训练方法包括操作S110~操作S160。

在操作S110，通过多种自然图像增强方法对训练样本集进行图像增强操作，得到图像增强集，其中，训练样本集是从数据集中随机选取且带有真值标签的笔石化石图像集合。

上述数据集中的笔石化石图像均采集自存放于某权威地质古生物研究所的化石标本，共40597张化石图像，包括20644张单反图像（每张图像的分辨率为4912×7360像素）和19953张显微镜图像（每张图像的分辨率为2720×2048像素）。对所有的采集图像进行了数据清洗，删除了其中5977张图像。被删除的图像符合质量过低（如聚焦不良，对比度过低等）、因保存不当而造成笔石对象严重变形，或纹理信息混乱、形态特征不清晰等。最终保留了34613张图像，覆盖了15个科、42个属和113个种。标注员使用图像标注工具对笔石图像进行像素级标注。最后根据标注结果对笔石图像进行像素级裁剪，在裁剪的过程中，根据笔石个体的分辨率大小对其进行适当比例的缩放，在保证形态不发生改变的前提下尽量使其位于图像的视觉中心。

首先，从数据集中获取每张图像的标本号；然后对于每个类别，随机挑选了若干个标本，使这些标本包含的图像总数占该类别图像总数的20%-30%，并将这些图像作为该类别的测试集。最后，其余标本的所有图像作为训练样本集，训练样本集占类别图像总数的70%-80%。

在操作S120，利用笔石化石图像识别模型对图像增强集进行卷积、激活和池化操作，将得到的特征图集进行展平操作，并利用笔石化石图像识别模型的嵌入层对展平后的特征图集进行投影操作，得到图像嵌入向量集。

在操作S130，利用位置信息嵌入网络的多个残差模块对图像增强集进行多轮次的位置信息提取操作，得到图像位置特征向量集，并将图像嵌入向量集与图像位置特征向量集进行级联操作，得到图像级联向量集。

上述位置信息嵌入网络可以是基于GPS、北斗或其他定位系统的嵌入网络。

在操作S140，利用笔石化石图像识别模型的分类器对图像级联向量集进行分类操作，得到图像级联向量集的预测标签，其中，预测标签表示笔石化石图像的识别结果。

在操作S150，利用损失函数处理图像级联向量集的预测标签和真值标签以及训练样本集，得到损失值，并根据损失值，通过前向传导和反向传导对笔石化石识别模型和位置信息嵌入网络的参数进行更新。

在操作S160，迭代进行上述操作，直到满足预设条件，得到训练完成的笔石化石图像识别模型和训练完成的位置信息嵌入网络。

迭代进行操作S110~操作S150，反复对笔石化石图像识别模型和位置信息嵌入网络进行优化，当训练样本数量或训练轮次达到预设值、损失值不再发生变化或在合理区间内来回震荡，则训练停止。

根据本发明的实施例，上述通过随机旋转和翻转的方法对训练样本集进行图像增强操作包括：按照预设比例随机对训练样本集中的笔石化石图像进行选准或对训练样本集中的笔石化石图像进行水平翻转和垂直翻转；其中，通过色彩抖动的方法对训练样本集进行图像增强操作包括：按照预设调整因子对训练样本集中的笔石化石图像的亮度、对比度、饱和度和/色相进行随机调整；其中，通过添加高斯噪声的方法对训练样本集进行图像增强操作包括：将高斯分布所产生的随机噪声矩阵与训练样本集中的笔石化石图像按像素相加以得到增强后的笔石化石图像。

对训练样本集的笔石化石图像进行图像增强，用于提高模型训练过程的鲁棒性和提升所训练模型的识别精度。

其中，对于随机旋转和翻转，本发明以一定的比例随机对原始图像进行水平翻转、垂直翻转或旋转，在提高图像数据多样性的同时，不会破坏图像的原始有效特征。

其中，对于色彩抖动，本发明通过设置调整因子，对原始图像进行随机的亮度、对比度、饱和度和色相的调整。

其中，对于高斯随机噪声，本发明采用的添加高斯随机噪声的方法是将高斯分布产生的随机噪声矩阵与原始图像样本按像素相加，得到数据增强后的图像。

由于笔石化石图像本身所包含的信息较少，因此需要考虑到添加过多的数据增强反而可能会引入有害噪声，会对识别结果造成负影响。因此本发明仅采用以上几种常见策略，对第一步中得到的训练集图像进行变换，实现对笔石化石训练数据集的图像增强。

根据本发明的实施例，上述笔石化石图像识别模型基于任意类型的卷积神经网络进行构建。

上述笔石化石图像识别模型可选择Res50作为图像主干识别网络。

位置信息嵌入网络的残差块包括有ReLU的全连接层和Dropout层。

图2是根据本发明实施例获取损失值的流程图。

如图2所示，上述利用损失函数处理图像级联向量集的预测标签和真值标签以及训练样本集，得到损失值包括操作S210~操作S240。

在操作S210，从图像级联向量集中随机选择一个图像级联向量，利用交叉熵损失函数处理被选中的图像级联向量的预测标签和真值标签，得到交叉熵损失值。

在操作S230，从训练样本集中随机选择一个笔石化石图像，并利用基于生物学分类层次树的层次约束损失函数计算被选中的笔石化石图像和被选中的图像级联向量相对应的笔石化石图像的层次损失值。

在操作S230，利用基于物种共现图的共现损失函数计算被选中的笔石化石图像和被选中的图像级联向量相对应的笔石化石图像的共现损失值。

在操作S240，将交叉熵损失值、层次损失值以及共现损失值按照预设超参数进行运算，得到损失值。

按照生物分类学规则，将数据集中笔石化石图像所表征的物种进行区分；在两个笔石化石图像所表征的两个物种具有相同的种级标签的情况下，将两个物种的种级标签的真值赋为第一预设值；在两个笔石化石图像所表征的两个物种具有相同的属级标签但种级标签不相同的情况下，将两个物种的属级标签的真值赋为第二预设值；在两个笔石化石图像所表征的两个物种具有相同的科级标签但属级标签不相同的情况下，将两个物种的科级标签的真值赋为第三预设值，其中，第一预设值小于第三预设值，第三预设值小于第二预设值。

将得到的经过级联的特征向量划分为组，对于每组图像，利用损失函数计算它们之间的相似性，作为对这组图像的约束值。

在计算层次约束损失过程中，首先构建生物学分类的层次树。根据生物分类学划分层次的方法，对于任两个物种，分配权重的规则如下：

首先，如果它们有相同的种级标签，它们的最低共同祖先是在物种层次，则赋值为0，含义是不需要对它们进行区分，以避免类间差异低的问题，因为它们已经来自同一物种。

其次，如果是属于同一属的不同物种，它们的最低共同祖先是在属级。则它们可能表现出类似的形态特征，但有不同的标签。模型可能会学习图像的某些特定特征进行识别，并产生过度拟合。因此在属级赋予较高的权重值。

最后，如果它们属于同一科但不同属，它们的最低共同祖先是在科级。则它们的特征相似性可能十分有限。因此为科级赋予较低的权重。

笔石化石图像识别的目的是在“种”这一层级将笔石物种区分开，因此在“种”这一层级分配最高的权重，“属”和“科”依次适当分配较少的权重，旨在计算层次约束损失时，着重区分同属不同种的这些笔石物种。层次约束损失函数如公式（1）所示：（1），

其中，表示层次约束损失，表示图像集，表示中的一个图像对，和分别表示来自类别和的两张图像。表示特征相似度（欧氏距离），表示通过神经网络得到的类别的图像特征，表示通过神经网络得到的类别的图像特征，表示权重值。

根据本发明的实施例，上述物种共现图通过以下方式进行构建：根据数据集中笔石化石图像的经纬度信息和时间信息，构建数据集中笔石化石图像所表征的物种共现图；其中，在物种共现图中，两个物种之间的连边表示两个物种存在地理位置上和/或时间上的重合；其中，在物种共现图中，两个物种之间的连边权重表示两个物种在地理位置上和/或时间上重合的程度。

计算共现损失。我们假设两个物种的共现取决于其地理位置和地层时代。共现意味着两个物种共享相同或相似的栖息地和生存时代。因此，一个笔石物种被发现，意味着与其存在共现关系的笔石物种同时也在该处被发现的概率变大。另一方面，如果两个物种的栖息地完全不同或相距很远，或者它们生活在不同的或时间相距久远的时期，它们的共现概率就很低。首先根据笔石物种被发现的地点的经纬度信息和其所处的时代，构建共现图。/>表示顶点集，每个顶点是一个物种，/>为边集。仅当两个笔石物种的发现地点中存在重合，且处于同一地质时代，才为这两个物种之间建立一条边/>。按照地理位置分布上的重合程度，为每条边分配相应的权重/>。如果两个笔石物种有很多相同的发现地点，那么为它们之间的边分配一个较高的权重值，因为这意味着它们很有可能在外观上也十分相似，旨在计算共现损失时着重区分。共现损失函数如公式（2）所示：

（2），

其中，表示共现损失，/>表示图像集，/>表示/>中的一个图像对，/>和/>分别表示来自类别/>和/>的两张图像。/>表示特征相似度（欧氏距离），/>表示边的权重值。如果物种类别/>和/>之间不存在共现关系，则/>。

在计算总损失函数过程中，将得到的关于所有输入图像的维图像嵌入划分为组。对于每组图像，利用交叉熵损失(CE-loss)来计算它们之间的相似性，作为对这组图像的约束值。将层次约束损失（HC-loss）和共现损失（CO-loss）与交叉熵损失(CE-loss)线性相加，得到总损失函数。最后的优化目标是最小化总损失函数。总损失函数如公式（3）所示：（3），

其中，表示总损失函数，/>表示交叉熵损失函数，/>是层次损失函数，/>是共现损失函数。/>和/>是两个超参数，用于调整层次约束损失和交叉熵损失在总损失函数中的作用占比。

为了更好地说明本发明提供的上述模型训练方法的有点，下面结合附图3和4具体实施方式（位置信息嵌入网络选择GPS作为定位系统），对上述模型训练方法做进一步详细地说明。

图3是根据本发明实施例的笔石化石图像识别模型的训练架构图。

图4是根据本发明实施例GPS信息嵌入网络结构示意图。

图3示意性示出了本发明实施例的笔石化石图像识别模型的训练架构图。利用深度卷积神经网络，设计一种基于多模态元数据的笔石化石图像识别模型的训练方法。该方法以笔石图像数据集为研究对象，通过图像识别主干网络（即笔石化石识别模型）得到图像特征信息，再通过GPS嵌入网络（即位置信息嵌入网络）提取到位置特征信息，并将图像特征信息和位置特征信息相结合。同时引入了层次约束损失（Hierarchical-Loss，HC-loss）和共现损失（Co-Occurrence-Loss，CO-loss），并将它们线性地添加到一个常用的分类损失函数中。与现有技术相比，这种方法引入了额外的多模态数据中包含的信息，能够有效提升笔石化石图像识别的准确性和泛化性。该方法可以很容易地与任何深度卷积神经网络的主干模型结合。

首先，以笔石化石图像作为输入图像x，训练图像分类主干网络，这里的主干网络可以是任何一个深度卷积神经网络。本发明使用Resnet50网络作为主干网络进行实验，通过一系列卷积、激活和池化操作来提取生成尺寸为C×H×W的特征图f_x，其中C、H和W是特征图的通道、高度和宽度。然后将特征图展平（flatten）为一个特征向量，并通过一个嵌入层（Embedding Layer）将其投影为一个维度为N的图像嵌入。其中N代表数据集的类别数量。这里获得的图像嵌入也被称为 logits，它表示深度卷积神经网络对输入图像x的预测得分向量。

具体操作时将训练所使用的图像输入到神经网络中，经过前向传导、反向传导后即更新一次网络的参数权重，经过多次迭代之后，即可得到训练好的深度卷积神经网络作为主干图像分类网络。

石化石图像的位置信息以全球定位系统（Global Positioning System，GPS）坐标来表示，即经纬度，是一个维度为2的向量。GPS信息嵌入网络的输入是经过归一化的GPS信息，通过具有残差结构的一系列全连接层，映射得到一个D维的位置特征向量，并将其与主干图像分类网络得到的图像特征向量级联。残差块由带有ReLU的全连接层和Dropout层组成。GPS信息嵌入网络的结构如图4所示。

图5是根据本发明实施例的笔石化石图像的识别方法的流程图。

如图5所示，上述笔石化石图像的识别方法包括操作S510~操作S530。

在操作S510，利用训练完成的笔石化石图像识别模型对笔石化石图像进行卷积、激活和池化操作，得到笔石化石图像的特征图，其中，训练完成的笔石化石图像识别模型根据基于多模态元数据的笔石化石图像识别模型的训练方法训练得到。

在操作S520，将笔石化石图像的特征图进行展平操作，并利用训练完成的笔石化石图像识别模型的嵌入层对笔石化石图像的特征图进行投影操作，得到笔石化石图像的得分向量。

在操作S530，利用训练完成的笔石化石图像识别模型的分类器对笔石化石图像的得分向量进行分类操作，得到笔石化石图像的识别结果。

本发明提供的笔石化石图像的识别方法，通过引入了GPS信息嵌入网络，用于提取位置信息特征，并与图像识别主干网络提取到的图像特征相结合。由于笔石化石图像数据自身包含信息较少的特点，仅使用图像特征是不够的。结合使用位置信息特征等元数据可以提升识别性能。

同时，由于在模型训练过程中，本发明在结合图像特征和位置信息特征的基础上，又扩充引入了层次约束损失和共现损失。层次约束损失和共现损失以正则化项的形式，与交叉熵损失函数线性加和，得到总损失函数。生物学分类上的层次关系是笔石物种自然存在的一种相关性，位置信息和所处的时代信息是笔石化石图像数据集带有的元数据，将这些多模态元数据加以利用，可以辅助提升笔石化石图像识别效果。

此外，本发明引入的新模块均可以很方便地和任何深度卷积神经网络主干模型相结合，并且均能够起到效果。

为了更好地说明本发明所提供的上述笔石化石图像的识别方法的优点，本发明结合附图6以及测试实验对上述识别方法做进一步详细地说明。

图6是根据本发明实施例的笔石化石图像的识别方法的测试示意图。

本发明对比了引入多模态元数据的笔石化石图像识别的效果和仅使用基线模型的笔石化石图像识别效果。下表是以Resnet50为图像识别主干网络的消融实验结果。图6显示了识别结果的ROC曲线对比。结果显示引入多模态元数据后，几乎每个部分都可以为识别效果带来提升，而本发明所提出的同时添加GPS信息嵌入网络、层次约束损失和共现损失的方法获得了最佳效果。如表1所示，Top-1准确率从62.78%提升到64.85%，Top-3准确率从78.40%提升到81.10%，Top-5准确率从83.46%提升至85.96%。

如图7所示，根据本发明实施例的电子设备700包括处理器701，其可以根据存储在只读存储器（ROM）702中的程序或者从存储部分708加载到随机访问存储器（RAM）703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有电子设备700操作所需的各种程序和数据。处理器 701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备700还可以包括输入/输出（I/O）接口705，输入/输出（I/O）接口705也连接至总线704。电子设备700还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态元数据的笔石化石图像识别模型的训练方法，其特征在于，包括：

通过多种自然图像增强方法对训练样本集进行图像增强操作，得到图像增强集，其中，所述训练样本集是从数据集中随机选取且带有真值标签的笔石化石图像集合；

利用笔石化石图像识别模型对所述图像增强集进行卷积、激活和池化操作，将得到的特征图集进行展平操作，并利用所述笔石化石图像识别模型的嵌入层对展平后的特征图集进行投影操作，得到图像嵌入向量集；

利用位置信息嵌入网络的多个残差模块对所述图像增强集进行多轮次的位置信息提取操作，得到图像位置特征向量集，并将所述图像嵌入向量集与所述图像位置特征向量集进行级联操作，得到图像级联向量集；

利用所述笔石化石图像识别模型的分类器对所述图像级联向量集进行分类操作，得到所述图像级联向量集的预测标签，其中，所述预测标签表示笔石化石图像的识别结果；

利用损失函数处理所述图像级联向量集的预测标签和真值标签以及所述训练样本集，得到损失值，并根据所述损失值，通过前向传导和反向传导对所述笔石化石图像识别模型和所述位置信息嵌入网络的参数进行更新；

迭代进行上述操作，直到满足预设条件，得到训练完成的笔石化石图像识别模型和训练完成的位置信息嵌入网络；

其中，利用损失函数处理所述图像级联向量集的预测标签和真值标签以及所述训练样本集，得到损失值包括：

从所述图像级联向量集中随机选择一个图像级联向量，利用交叉熵损失函数处理被选中的图像级联向量的预测标签和真值标签，得到交叉熵损失值；

从所述训练样本集中随机选择一个笔石化石图像，并利用基于生物学分类层次树的层次约束损失函数计算被选中的笔石化石图像和所述被选中的图像级联向量相对应的笔石化石图像的层次约束损失值；

利用基于物种共现图的共现损失函数计算所述被选中的笔石化石图像和所述被选中的图像级联向量相对应的笔石化石图像的共现损失值；

将所述交叉熵损失值、所述层次约束损失值以及所述共现损失值按照预设超参数进行运算，得到所述损失值。

2.根据权利要求1所述的方法，其特征在于，通过多种自然图像增强方法对训练样本集进行图像增强操作，得到图像增强集包括通过随机旋转和翻转的方法对所述训练样本集进行图像增强操作、通过色彩抖动的方法对所述训练样本集进行图像增强操作和/或通过添加高斯噪声的方法对所述训练样本集进行图像增强操作。

3.根据权利要求2所述的方法，其特征在于，通过随机旋转和翻转的方法对所述训练样本集进行图像增强操作包括：

按照预设比例随机对所述训练样本集中的笔石化石图像进行选准或对所述训练样本集中的笔石化石图像进行水平翻转和垂直翻转；

其中，通过色彩抖动的方法对所述训练样本集进行图像增强操作包括：

按照预设调整因子对所述训练样本集中的笔石化石图像的亮度、对比度、饱和度和/或色相进行随机调整；

其中，通过添加高斯噪声的方法对所述训练样本集进行图像增强操作包括：

将高斯分布所产生的随机噪声矩阵与所述训练样本集中的笔石化石图像按像素相加以得到增强后的笔石化石图像。

4.根据权利要求1所述的方法，其特征在于，所述笔石化石图像识别模型基于任意类型的卷积神经网络进行构建；

其中，所述位置信息嵌入网络的残差块包括有ReLU的全连接层和Dropout层。

5.根据权利要求1所述的方法，其特征在于，所述生物学分类层次树通过以下方式进行构建：

按照生物分类学规则，将所述数据集中笔石化石图像所表征的物种进行区分；

在两个所述笔石化石图像所表征的两个物种具有相同的种级标签的情况下，将所述两个物种的种级标签的真值赋为第一预设值；

在两个所述笔石化石图像所表征的两个物种具有相同的属级标签但种级标签不相同的情况下，将所述两个物种的属级标签的真值赋为第二预设值；

在两个所述笔石化石图像所表征的两个物种具有相同的科级标签但属级标签不相同的情况下，将所述两个物种的科级标签的真值赋为第三预设值，其中，所述第一预设值小于所述第三预设值，所述第三预设值小于所述第二预设值。

6.根据权利要求1所述的方法，其特征在于，所述物种共现图通过以下方式进行构建：

根据所述数据集中笔石化石图像的经纬度信息和时间信息，构建所述数据集中笔石化石图像所表征的物种共现图；

其中，在所述物种共现图中，两个物种之间的连边表示所述两个物种存在地理位置上和/或时间上的重合；

其中，在所述物种共现图中，两个物种之间的连边权重表示所述两个物种在地理位置上和/或时间上重合的程度。

7.一种笔石化石图像的识别方法，其特征在于，包括：

利用训练完成的笔石化石图像识别模型对笔石化石图像进行卷积、激活和池化操作，得到所述笔石化石图像的特征图，其中，所述训练完成的笔石化石图像识别模型根据权利要求1-6任一项所述的训练方法训练得到；

将所述笔石化石图像的特征图进行展平操作，并利用所述训练完成的笔石化石图像识别模型的嵌入层对所述笔石化石图像的特征图进行投影操作，得到所述笔石化石图像的得分向量；

利用所述训练完成的笔石化石图像识别模型的分类器对所述笔石化石图像的得分向量进行分类操作，得到所述笔石化石图像的识别结果。

8.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～7中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～7中任一项所述的方法。