CN114399763A

CN114399763A - 一种单样本与小样本微体古生物化石图像识别方法及系统

Info

Publication number: CN114399763A
Application number: CN202111554429.1A
Authority: CN
Inventors: 宋小磊; 孙茹玥; 王宾; 张涛; 韩健; 贺小伟; 张渊辉; 赵远笛
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-26
Anticipated expiration: 2041-12-17

Abstract

本发明属于古生物化石识别技术领域，公开了一种单样本与小样本微体古生物化石图像识别方法及系统，该方法包括：拍摄微体化石显微图像；将微体化石显微图像组成成对图像数据集，设置类别标签；对输入图像进行数据增强；搭建孪生网络框架结构，提取输入图像的特征；计算两个特征向量间的相似度；反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；将单样本或小样本微体化石图像作为模型一个输入，将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。本发明降低人工分拣化石的成本投入，提升稀有化石发现速率，为分析寒武纪生命大爆发的起源提供数据支撑。

Description

一种单样本与小样本微体古生物化石图像识别方法及系统

技术领域

本发明属于古生物化石识别技术领域，尤其涉及一种单样本与小样本微体古生物化石图像识别方法及系统。

背景技术

目前，微体化石是人类史前地质历史时期形成并赋存于地层和岩石中的生物遗体、活动遗迹以及其他残留物，是人类探索远古地球环境的主要途径，也是认识古生物活动的最佳窗口。利用微体化石可以确定相对地质年代、划分和对比地层、复原古地理和古气候，进而确定地球上的生命起源和物种演化过程，在很多方面都有不可估量的科学价值。

陕南寒武纪宽川铺组(距今约5.35亿年)就以保存着各种显微后生动物和胚胎化石而颇受世人瞩目。截至目前，宽川铺组已经发现了大量的微体化石生物群，包括蓝细菌、藻类、可能的原生生物和九种动物门，以及大量难以和现代生物进行比对的疑难类型，甚至也发现了一些稀有但非常重要的动物类型，迫切需要找到更多样本才能进一步揭示这些动物化石的生物属性和研究价值。然而，微体化石个体微小，肉眼难以发现或识别，传统的方法是依赖人工在显微镜下逐个挑选有研究价值的化石，长此以往将影响挑样人员的视力健康；且微体化石受限于小生境，分异度较小，个别优势物种丰富度高，不计其数的微体化石和残渣增加了研究人员的工作量，同时也严重阻碍了更多稀有特定类群标本的发现。正是由于这些问题的存在，采用传统人工挑选方法寻找稀有微体化石的时间周期变得越来越长，引入人工智能的方法降低微体化石筛选难度、提升化石的分拣效率和新类别样本的发现速率迫在眉睫。

如今，国内外在古生物化石人工智能识别方面的研究尚处于萌芽阶段。一些基本的机器学习方法被应用于数量庞大的化石类群，如牙形刺状化石和花粉化石的检测与识别。本发明的团队也成功地将HOG(Histogram of Oriented Gradient)、分水岭算法和SIFT(Scale-invariant feature transform)与SVM(Support VectorMachine)分类器结合起来，识别陕南寒武纪宽川铺组的单个和多个微体化石图像。作为一种发达的机器学习方法，深度学习通过构建复杂的神经网络结构来模拟人脑的分析和学习能力，在很多领域表现出绝对的优势。目前主流的化石鉴定方法逐渐转向使用深度神经网络和多元统计分析，从而明显提高了准确性和效率，如Takuya等构建了有孔虫化石数据自动采集和统计系统，用于估计硅质微体化石中的相对丰度；Pires等则设计了fusulinids-microscopic index化石识别分类工具，以自动化的方式极大降低了古生物研究工作者的时间与精力。

虽然现有的人工智能化石鉴定模型都已取得了重要进展，但都十分依赖大量的化石训练标本，且较少的样本会导致性能低下，甚至功能紊乱。实际工作中，通常没有足够的样本数据来训练这样复杂的模型，并且待充分发掘的稀有化石类群仅有单张甚至是极少张样本数据。因此，有必要建立一个单样本与小样本场景下微体化石的高精度识别模型，来满足现阶段发掘稀有微体化石的工作需要。

通过上述分析，现有技术存在的问题及缺陷为：

(1)采用传统人工方法在显微镜下逐个挑选有研究价值的微体化石，长此以往会影响挑样人员的视力健康，且人工分拣易受主观因素影响，使得寻找稀有微体化石的时间周期较长。

(2)微体化石分异度较小，个别优势物种丰富度高，大量的微体化石和残渣增加了研究人员的工作量，同时严重阻碍了更多稀有特定类群标本的发现。

(3)现有的人工智能化石鉴定模型十分依赖大量化石训练样本，在较少样本的情况下会出现性能低下，甚至功能紊乱的问题；且当前训练好的模型只能用于特定化石种类识别，而不能推广到其他类别或其他领域。

解决以上问题及缺陷的难度为：综合而言，与其他化石群的研究历史类似，拥有丰富化石样本的类群已经被广泛调查了几十年，而那些缺乏样本的化石类群，通常为理解动物进化提供关键证据，在解剖学和亲缘关系上却很难被解决，迫切地需要发现更多的稀有化石样本来推动古生物领域的进一步研究；传统人工在显微镜下逐个筛选微体化石的方法需要投入大量的人力资源，且对于丰度极低的稀有微体化石还需要这些人员具备古生物学专业知识才能将其准确地分拣出来。而当下出土的微体化石大都为丰度极高的优势物种，仅含有少量的稀有微体化石标本，这无疑增加了研究人员的工作量，也严重阻碍了稀有化石的发现速度；现有的人工智能化石鉴定模型大都依赖于大量化石训练样本，一旦样本量下降将会影响模型的识别性能，在数据不平衡和多分类任务上的解决能力有限，并且模型能够检测识别的对象必须是训练集中所包含的样本类别，扩展性较差。

解决以上问题及缺陷的意义为：本发明可以在仅有单一或少量稀有化石样本的条件下，帮助研究人员快速且准确地找到更多稀有化石样本，提升具有高价值微体化石的发现速度，为分析寒武纪生命大爆发的起源提供更多的数据支撑；通过引入孪生网络模型自动识别和区分化石样本，可以降低人工分拣化石的成本投入，将具备古生物学专业知识的专家从繁琐且重复的工作中脱离出来，以便有更多的时间投身于其他更有意义的古生物研究当中；通过随机配对以及数据增强的方式，可以有效降低所需提供的训练集样本数量并减少数据不平衡问题对识别性能的影响，同时引入改进的随机梯度下降算法，提升了模型的识别精度和效率；通过学习相同或不同类别数据之间的“语义”距离，可以设定不同种类的稀有化石图像作为网络的一个输入，实现利用同一训练模型识别与区分不同种类的稀有化石，具有较强的灵活性和拓展性。

发明内容

针对现有技术存在的问题，本发明提供了一种单样本与小样本微体古生物化石图像识别方法及系统，尤其涉及一种基于孪生网络(Siamese Network)的单样本与小样本微体古生物化石图像识别方法及系统。

本发明是这样实现的，一种单样本与小样本微体古生物化石图像识别方法，所述单样本与小样本微体古生物化石图像识别方法包括以下步骤：

步骤一，制定固定标准以采集微体化石的显微图像，用于避免数据采集过程中外界因素对微体化石识别结果的影响；

步骤二，采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签，用于弥补数据不平衡的缺陷并协助孪生网络学习类别间的特征差异；

步骤三，通过仿射变化手段对成对输入图像进行数据增强，用于让有限的数据产生更多的等价数据以增大现有微体化石图像训练数据集的规模，提升模型的鲁棒性和泛化性；

步骤四，搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络各自接收一个微体化石显微图像，将低维输入映射到高维空间，输出成对输入图像的特征向量；

步骤五，通过顶层的相似度度量网络计算两个特征向量间的相似度，用于比较两个输入微体化石图像的相似程度；

步骤六，根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定，以确保孪生网络最大化不同类别的特征表示而最小化相同类别的特征表示，使得模型具备高精度的辨别能力；

步骤七，将单样本或小样本微体化石图像作为训练好模型的一个输入，而将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本，协助挑样人员发现更多稀有化石样本，为古生物学的下一步研究提供数据支撑。

进一步，所述步骤一中的制定固定标准以采集微体化石的显微图像包括：

使用浓度为10％左右的冰醋酸处理野外采集到的岩石样品，将酸泡得到的微体化石逐个放置在Leica205C的10倍显微镜下，设置图片背景为蓝色、颜色模式为RGB，采用多向冷光源在相同亮度下拍摄微体化石显微图像。

进一步，所述步骤二中的采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签包括：

在已有k个类别的数据中随机选取每个类别中的一张化石图像作为待匹配图像x₁；针对每个待匹配图像x₁，先从自身所属类别中随机选取一张化石图像作为其同一类别的匹配图像x₂，设置类别标签y＝1；再从除自身所属类别外的其他k-1个类别中随机选取一个类别中的一张化石图像作为其不同类别的匹配图像

设置类别标签y＝0，构成一组带标签的成对输入图像

按照8：2的比例将配对后的微体化石图像数据集划分为训练集和验证集。

进一步，所述步骤三中的通过仿射变化手段对成对输入图像进行数据增强包括：

基于卷积神经网络对移位、视角、大小和光照具有不变性的前提，采用平移、旋转、缩放和剪切四种仿射变换的组合形式实施数据增强，每种方式都以一定的概率叠加在成对输入图像上，从而让有限的数据产生更多的等价数据以增大现有微体化石图像训练数据集的规模。

进一步，所述步骤四中的搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征包括：

为识别单样本或小样本微体化石而设计的孪生网络包含两个并行的卷积神经网络CNN，其中每个CNN都由四个卷积层和池化层以及一个全连接层组成，网络对每个卷积层的输出特征图采用线性整流单元ReLU，而其余层使用Sigmoid非线性激活函数，并设置网络接受150*200*3的RGB图像输入。

进一步，所述步骤五中的通过顶层的相似度度量网络计算两个特征向量间的相似度包括：

孪生网络顶部的相似度度量网络使用L1范数计算两个子网络提取出的特征向量间的距离；该距离度量经由Sigmoid单元激活，结果被馈送到最终层，输出介于0和1之间的值，代表成对输入微体化石图像属于同一类别的相似程度ρ，计算公式表示为：

E_w(x₁，x₂)＝σ||S_w(x₁)-S_w(x₂)||；

其中，S_w(x_i)是输入x_i经由子网络S_w(x)提取的特征向量，σ为Sigmoid激活函数，E_w(x_i，x_j)代表x_i和x_j之间的相似程度ρ。

进一步，所述步骤六中的根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定包括：

训练阶段为加快模型拟合速率，改进传统的随机梯度下降算法SGD，在网络的每一层中添加动量因子并设置学习率，利用反向传播计算损失函数对每一个参数的梯度，以逐层更新网络参数，直至微体化石识别模型的精度稳定。

其中，损失函数公式为：

其中，N为批次大小；y(x₁，x₂)ⁱ表示输入的成对微体化石图像的标签，若两者属于同一类别，则y＝1，否则y＝0；p(y(x₁，x₂)ⁱ)表示成对微体化石图像的相似程度。

进一步，所述步骤七中的将单样本或小样本微体化石图像作为训练好模型的一个输入，而将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本包括：

预先设定一个阈值δ，将当前只有单一或少量样本的稀有微体化石图像作为已经训练好的孪生网络模型的一个输入x₁，而将待筛选的大量混合微体化石图像依次作为另一个输入x₂，根据模型预测的两者之间的相似度ρ来找出与x₁属于同一类别的微体化石样本。其中，当ρ≥δ，则认为x₁和x₂属于同一类，当ρ＜δ，则认为两者属于不同类。

本发明的另一目的在于提供一种应用所述的单样本与小样本微体古生物化石图像识别方法的单样本与小样本微体古生物化石图像识别系统，所述单样本与小样本微体古生物化石图像识别系统包括：

显微图像采集模块，用于制定固定标准以采集微体化石的显微图像；

图像数据集构建模块，用于采用随机配对的方式将微体化石显微图像组成成对输入图像数据集，并设置类别标签；

图像数据增强模块，用于通过仿射变化手段对成对输入图像进行数据增强；

图像特征提取模块，用于搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征；

特征向量相似度计算模块，用于通过顶层的相似度度量网络计算两个特征向量间的相似度；

网络参数反向更新模块，用于根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；

微体化石样本识别模块，用于将单样本或小样本微体化石图像作为训练好模型的一个输入，将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

制定固定标准以拍摄微体化石的显微图像；采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签；通过仿射变化手段对成对输入图像进行数据增强；搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征；通过顶层的相似度度量网络计算两个特征向量间的相似度；根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；最后将单样本或小样本微体化石图像作为训练好模型的一个输入，而将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的单样本与小样本微体古生物化石图像识别系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的单样本与小样本微体古生物化石图像识别方法，通过构建孪生网络架构，用两个权值共享的卷积子网络分别提取训练集中一对微体化石图像的特征向量，再根据顶层相似度度量网络计算两者之间的相似值，并结合损失函数反向优化模型参数，重复多次直至孪生网络模型对验证集测试结果的精度稳定，最后利用训练好的模型检测与识别稀有化石。本发明可以在仅有单一或少量稀有化石样本的条件下，帮助研究人员快速且准确地找到更多稀有化石样本，加快具有高研究价值微体化石的发现速率并解放劳动力，为分析寒武纪生命大爆发的起源提供更多的数据支撑。

本发明相对于现有的化石人工智能识别方法，实现了在稀有化石仅有单一或少量样本的情况下，从大量混合的微体化石样品中准确地筛选出与目标化石属于同一类的微体化石标本；同时，采用随机配对的方式组成孪生网络的成对输入图像，并在训练阶段融入改进的逐层随机梯度下降算法、数据增强手段，在一定程度上缓解了少量训练样本导致的特征提取不充分和过拟合问题，降低了数据不平衡问题对模型识别性能的冲击。此外，本发明的孪生网络模型学习到的是相同或不同类别数据之间的“语义”距离，通过设定不同种类的稀有化石图像作为网络的一个输入，实现利用同一训练模型检测与识别不同种类的稀有化石，具有较强的灵活性和泛化性，可以扩展至其他相关甚至无关的领域解决单样本或小样本识别问题。本发明对单样本或小样本微体古生物化石快速且准确的识别，是降低人工成本投入和稀有化石发现速率的有力措施，也是助力古生物学研究进展的有效手段。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的单样本与小样本微体古生物化石图像识别方法流程图。

图2是本发明实施例提供的单样本与小样本微体古生物化石图像识别方法原理图。

图3是本发明实施例提供的单样本与小样本微体古生物化石图像识别系统结构框图；

图中：1、显微图像采集模块；2、图像数据集构建模块；3、图像数据增强模块；4、图像特征提取模块；5、特征向量相似度计算模块；6、网络参数反向更新模块；7、微体化石样本识别模块。

图4是本发明实施例提供的九类微体化石显微图像示意图。

图5是本发明实施例提供的正样本对和负样本对示意图。

图6是本发明实施例提供的识别稀有微体化石的孪生网络结构示意图。

图7是本发明实施例提供的识别稀有微体化石的孪生网络中卷积子网络结构示意图。

图8是本发明实施例提供的识别稀有微体化石的孪生网络在训练阶段的示意图。

图9是本发明实施例提供的在单样本或小样本条件下筛选稀有微体化石的示意图。

图10是本发明实施例提供的单样本或小样本条件下识别稀有微体化石的结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种单样本与小样本微体古生物化石图像识别方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的单样本与小样本微体古生物化石图像识别方法包括以下步骤：

S101，制定固定标准以采集微体化石的显微图像；

S102，采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签；

S103，通过仿射变化手段对成对输入图像进行数据增强；

S104，搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征；

S105，通过顶层的相似度度量网络计算两个特征向量间的相似度；

S106，根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；

S107，将单样本或小样本微体化石图像作为训练好模型的一个输入，而将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。

本发明实施例提供的单样本与小样本微体古生物化石图像识别方法原理图如图2所示。

如图3所示，本发明实施例提供的单样本与小样本微体古生物化石图像识别系统包括：

显微图像采集模块1，用于制定固定标准以采集微体化石的显微图像；

图像数据集构建模块2，用于采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签；

图像数据增强模块3，用于通过仿射变化手段对成对输入图像进行数据增强；

图像特征提取模块4，用于搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征；

特征向量相似度计算模块5，用于通过顶层的相似度度量网络计算两个特征向量间的相似度；

网络参数反向更新模块6，用于根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；

微体化石样本识别模块7，用于将单样本或小样本微体化石图像作为训练好模型的一个输入，将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。

下面结合具体实施例对本发明的技术方案作进一步描述。

请参考附图2，图2为本发明实施例提供的一种单样本与小样本微体古生物化石图像识别方法的逻辑示意图，按照下述步骤进行：

S1：制定固定标准以采集微体化石的显微图像。具体地，该步骤包括以下子步骤：

S11：使用浓度为10％左右的冰醋酸处理野外采集到的陕南西乡宽川铺组岩石样品；

S12：将酸泡得到的微体化石逐个放置在Leica 205C显微镜下拍照，在确保分辨率的前提下采用放大10倍的方法弥补景深的不足，所有图片均采用蓝色背景且颜色模式为RGB，以免除背景的干扰；

S13：采用相同的照明器材，在相同亮度下拍摄照片，并使用多向冷光源避免产生明显阴影影响图像识别，以尽可能减少亮度、阴影、色温等干扰；

经过上述流程采集到的九类微体化石的显微图像如图4所示，数量及其他细节信息见表1。由于本发明目的是依赖稀有化石的单个或少量样本发现更多与其属于同一类别的微体化石样本，因此，选取九类中数量最少的西乡蠕虫化石和直管化石作为稀有化石测试数据集，而将其余七类用于模型的训练。

表1微体化石显微图像数据集的基本信息

S2：根据孪生网络接受成对输入的特点，随机两两配对采集到的七类微体化石显微图像并设置类别标签及划分数据集。详细过程如下：

S21：在已有7个类别的数据中随机选取每个类别中的一张化石图像作为待匹配图像x₁；然后针对每个待匹配图像x₁，先从自身所属类别中随机选取一张化石图像作为其同一类别的匹配图像x₂；再从除自身所属类别外的其他6个类别中随机选取一个类别中的一张化石图像作为其不同类别的匹配图像

S22：设置同一类别的成对输入图像(x₁，x₂)的类别标签y＝1，不同类别的成对输入图像

的类别标签y＝0，最后构成一组带标签的成对输入图像

其中，将(x₁，x₂，y)称为正样本对，

称为负样本对，如图5所示。

S23：按照8：2的比例将最终得到的正负样本对划分为训练集和验证集。

S3：基于卷积神经网络对移位、视角、大小、光照等具有不变性的前提，采用平移(t_x，t_y)、旋转θ、缩放(z_x，z_y)、剪切(s_x，s_y)四种仿射变换的组合形式实施数据增强，变换范围分别是(t_x，t_y)∈[-5px，5px]、θ∈[-15°，15°]、(z_x，z_y)∈[0.8，2]、(s_x，s_y)∈[-0.3rad，0.3rad]，每种方式都以0.5的概率叠加在正负样本对上，从而增大现有微体化石图像训练数据集的规模。

S4：搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征。其中，具体过程如下：

S41：如图6所示，为筛选陕南寒武纪宽川铺组中的稀有化石而设计的孪生网络包含两个并行的CNN(见图7)，其中每个CNN都由四个卷积层和池化层以及一个全连接层组成，网络对每个卷积层的输出特征图采用线性整流单元ReLU，而其余层使用Sigmoid非线性激活函数。采用简单的标记符号，该CNN网络的完整架构为

C₁(32，5，1)-P₁-C₂(64，5，1)-P₂-C₃(128，3，1)-P₃-C₄(128，3，1)-P₄-F₅(512)。

其中，右下标指层数，C(f，k，s)表示一个包含卷积核大小为k*k的f个滤波器的卷积层，且每次的滑动步长为s。P代表的池化层(也称下采样层)都使用池化核尺寸为2*2，移动步长也为2的最大化池化层。F(n)是有n个节点的全连接层；

S42：根据数据集提供的微体化石图像的像素比例，设置孪生网络接受150*200*3的RGB图像输入；

S43：利用孪生网络两个共享权值的卷积子网络分别提取成对输入化石图像的特征，构造两个特征向量。

S5：通过顶层的相似度度量网络计算两个特征向量间的相似度。

S51：图7CNN网络之后的F₆(2)为孪生网络顶部的相似度度量网络，用以使用L1范数计算两个子网络产生的特征向量之间的距离；

S52：该距离度量经由Sigmoid单元激活，结果被馈送到最终层，输出介于0和1之间的值，代表成对输入微体化石图像属于同一类别的相似程度ρ。

详细计算公式如下：

E_w(x₁，x₂)＝σ||S_w(x₁)-S_w(x₂)||

S6：根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定。详细过程描述如下：

S61：训练过程为加快模型拟合速率，改进了传统的随机梯度下降算法(Stochastic GradientDescent，SGD)，在网络的每一层中添加动量因子并设置学习率，以允许逐层更新参数。改进后的随机梯度下降算法如表2所示。

表2改进后的随机梯度下降算法

S62：采用二元交叉熵作为损失函数，公式为：

S63:设置总迭代次数为100000次，批次大小batch＝32，卷积子网络每一层(包括卷积层和全连接层)的学习率ε_i＝1，并要求每迭代500次学习率衰减1％，即ε_i(t)＝ε_i(t-1)*0.99；而将动量的开始值固定为m_i＝0.5，设置每迭代500次动量线性增加1％，直至达到μ值(μ＝1)，即当m＜μ，m_i(t)＝m_i(t-1)+0.01。

S64：如图8所示，使用训练集中的正负样本对训练微体化石孪生网络模型，首先利用两个卷积子网络分别提取训练样本中正样本对和负样本对的特征向量；然后通过顶部相连的相似度网络获取两个特征向量间的相似值；最后将预测结果与原始标签进行比对，在反向传播过程中使用损失函数计算每一个参数的梯度，并结合改进的随机梯度下降算法逐层更新网络的权值参数。

S65：使用验证集中的正负样本对测试微体化石孪生网络模型的性能时，其过程与训练阶段类似，只是在模型顶部计算出相似度值后不再反向更新网络参数，而是直接根据相似度值确定成对输入图像的标签，并与原始标签进行比对，输出模型的预测精度。因此，每经过1000次迭代就使用验证集测试一次模型的性能，记录其中最佳的验证集准确率并保存此时的训练模型。若连续10000次迭代都未达到最佳的验证集准确率就停止训练，说明此时模型精度已经稳定，将目前已保存的模型作为网络最终的拟合模型。

S7：测试训练好的微体化石孪生网络模型在只有单张或少量稀有微体化石样本的情况下，筛选与其属于同类别微体化石样品的性能。

S71：如图9所示，将当前只有单一或少量样本的稀有微体化石图像作为已经训练好的孪生网络模型的一个输入x₁，而将待筛选的大量混合微体化石图像依次作为另一个输入x₂，根据模型预测两者之间的相似度ρ。

S72：预先设定一个阈值δ，比较相似度ρ和阈值δ的大小，筛选与x₁属于同一类别的微体化石样本。即当ρ≥δ，则认为x₁和x₂属于同一类，当ρ＜δ，则认为两者属于不同类。

S73：另外，微体化石孪生网络模型通过对正负样本对之间“语义”距离的反复训练和学习，具备分辨每一组成对输入图像是否属于同一类别的能力，可以将其推广到与训练集数据相关甚至无关的领域解决其单样本或小样本识别问题。如图10，展示的是本发明利用七类微体化石训练的孪生网络模型，分别将单张西乡蠕虫化石或直管化石与大量混合微体化石图像配对后输入模型所得到的部分相似度值ρ，其中超过预先设定阈值δ的即为与单样本稀有化石属于同一类别的化石样本。

综上所述，本发明降低了人工分拣化石的成本投入，提升了稀有化石的发现速率，为研究寒武纪生命大爆发的起源提供了更多的数据支撑。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。

以上对本发明所提供的一种单样本与小样本微体古生物化石图像识别方法进行了详细介绍。本文应用具体个例阐述了本发明的原理及实施方式，但以上实施例的说明只适用于帮助理解本发明的方法和核心思想。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明中的技术方案进行若干改进和等同替换，这些改进和替换也应落入本发明权利要求的保护范围内。

Claims

1.一种单样本与小样本微体古生物化石图像识别方法，其特征在于，所述单样本与小样本微体古生物化石图像识别方法包括以下步骤：

步骤一，制定固定标准以采集微体化石的显微图像；

步骤二，采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签；

步骤三，通过仿射变化手段对成对输入图像进行数据增强；

步骤四，搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征；

步骤五，通过顶层的相似度度量网络计算两个特征向量间的相似度；

步骤六，根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；

步骤七，将单样本或小样本微体化石图像作为训练好模型的一个输入，而将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。

2.如权利要求1所述的单样本与小样本微体古生物化石图像识别方法，其特征在于，所述步骤一中的制定固定标准以采集微体化石的显微图像包括：使用浓度为10％左右的冰醋酸处理野外采集到的岩石样品，将酸泡得到的微体化石逐个放置在Leica205C的10倍显微镜下，设置图片背景为蓝色、颜色模式为RGB，采用多向冷光源在相同亮度下拍摄微体化石显微图像；

所述步骤二中的采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签包括：在已有k个类别的数据中随机选取每个类别中的一张化石图像作为待匹配图像x₁；针对每个待匹配图像x₁，先从自身所属类别中随机选取一张化石图像作为其同一类别的匹配图像x₂，设置类别标签y＝1；再从除自身所属类别外的其他k-1个类别中随机选取一个类别中的一张化石图像作为其不同类别的匹配图像

设置类别标签y＝0，构成一组带标签的成对输入图像

3.如权利要求1所述的单样本与小样本微体古生物化石图像识别方法，其特征在于，所述步骤三中的通过仿射变化手段对成对输入图像进行数据增强包括：基于卷积神经网络对移位、视角、大小和光照具有不变性的前提，采用平移、旋转、缩放和剪切四种仿射变换的组合形式实施数据增强；

所述步骤四中的搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征包括：为识别单样本或小样本微体化石而设计的孪生网络包含两个并行的卷积神经网络CNN，其中每个CNN都由四个卷积层和池化层以及一个全连接层组成，网络对每个卷积层的输出特征图采用线性整流单元ReLU，而其余层使用Sigmoid非线性激活函数，并设置网络接受150*200*3的RGB图像输入。

4.如权利要求1所述的单样本与小样本微体古生物化石图像识别方法，其特征在于，所述步骤五中的通过顶层的相似度度量网络计算两个特征向量间的相似度包括：孪生网络顶部的相似度度量网络使用L1范数计算两个子网络提取出的特征向量间的距离；该距离度量经由Sigmoid单元激活，结果被馈送到最终层，输出介于0和1之间的值，代表成对输入微体化石图像属于同一类别的相似程度ρ，计算公式表示为：

E_w(x₁，x₂)＝σ||S_w(x₁)-S_w(x₂)||；

5.如权利要求1所述的单样本与小样本微体古生物化石图像识别方法，其特征在于，所述步骤六中的根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定包括：训练阶段为加快模型拟合速率，改进传统的随机梯度下降算法SGD，在网络的每一层中添加动量因子并设置学习率，利用反向传播计算损失函数对每一个参数的梯度，以逐层更新网络参数，直至微体化石识别模型的精度稳定；

其中，损失函数公式为：

6.如权利要求1所述的单样本与小样本微体古生物化石图像识别方法，其特征在于，所述步骤七中的将单样本或小样本微体化石图像作为训练好模型的一个输入，而将混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本包括：设定判定阈值δ，将当前只有单一或少量样本的稀有微体化石图像作为已经训练好的孪生网络模型的一个输入x₁，而将待筛选的大量混合微体化石图像依次作为另一个输入x₂，根据模型预测的两者之间的相似度ρ找出与x₁属于同一类别的微体化石样本。其中，当ρ≥δ，则认为x₁和x₂属于同一类，当ρ＜δ，则认为两者属于不同类。

7.一种实施权利要求1～6任意一项所述的单样本与小样本微体古生物化石图像识别方法的单样本与小样本微体古生物化石图像识别系统，其特征在于，所述单样本与小样本微体古生物化石图像识别系统包括：

图像数据集构建模块，用于采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：制定固定标准以拍摄微体化石的显微图像；采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签；通过仿射变化手段对成对输入图像进行数据增强；搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征；通过顶层的相似度度量网络计算两个特征向量间的相似度；根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；最后将单样本或小样本微体化石图像作为训练好模型的一个输入，而将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：制定固定标准以拍摄微体化石的显微图像；采用随机配对的方式将采集到的微体化石显微图像组成成对输入图像数据集，并设置类别标签；通过仿射变化手段对成对输入图像进行数据增强；搭建孪生网络框架结构，利用两个结构相同、参数共享的卷积子网络提取成对输入图像的特征；通过顶层的相似度度量网络计算两个特征向量间的相似度；根据预先设定的类别标签以及计算出的相似度值来反向更新网络参数，重复多次训练直至微体化石识别模型的精度稳定；最后将单样本或小样本微体化石图像作为训练好模型的一个输入，而将大量混合微体化石图像依次作为另一个输入，根据模型输出的特征相似度值找出与当前单样本或小样本属于同一类别的微体化石样本。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述的单样本与小样本微体古生物化石图像识别系统。