CN112801187B

CN112801187B - 基于注意力机制与集成学习的高光谱数据分析方法和系统

Info

Publication number: CN112801187B
Application number: CN202110125511.6A
Authority: CN
Inventors: 周松斌; 刘忆森; 赵路路; 邱泽帆
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2023-01-31
Anticipated expiration: 2041-01-29
Also published as: CN112801187A

Abstract

本发明实施例提供一种基于注意力机制与集成学习的高光谱数据分析方法和系统，采用自训练注意力曲线作为概率曲线进行特征采样，在保证特征与回归目标相关性的同时，保证特征组合的多样性，使集成学习子网络达到准确性与预测结果发散性的平衡，提升了集成学习的准确性与鲁棒性；根据预测误差更新采样概率分布的策略，使预测误差较大的验证集样本周围样本密度更大，从而得到样本分布不同、在不同区域表现更优的集成学习子网络，提升集成学习的准确性；设计了基于权值平均的模型集成与结果集成的双重集成策略，该策略可进一步避免深度学习网络的预测结果陷于局部最优，有效缓解其过拟合问题。

Description

基于注意力机制与集成学习的高光谱数据分析方法和系统

技术领域

本发明实施例涉及高光谱数据分析技术领域，尤其涉及一种基于注意力机制与集成学习的高光谱数据分析方法和系统。

背景技术

高光谱传感技术应用场景广泛，包括食品掺假检测、水果糖度检测、药品成分分析及假药鉴定、微生物含量检测、有机质含量检测等。然而在高光谱无损检测领域，检测算法的精度与鲁棒性一直有待提高，阻碍其实际应用推广。其中一个问题就是高光谱无损检测中，高光谱数据的空间信息未得到充分利用，目前大部分的算法仍然是采用有效区域的平均光谱进行建模。这种方法得到的模型鲁棒性较差，对于光谱噪声十分敏感，噪声扰动会导致预测结果产生较大偏差。

近年来，基于深度神经网络的高光谱数据处理算法受到研究者的广泛关注，并取得了一系列的研究成果。然而，深度神经网路算法对于样本数量要求较高，而高光谱无损检测领域样品标定存在费时费力、成本较高的问题，因此样本数量往往不足，易产生过拟合问题，使模型的鲁棒性与泛化能力变差。

发明内容

本发明实施例提供一种基于注意力机制与集成学习的高光谱数据分析方法和系统，采用自训练注意力曲线进行概率特征选择，设计学习子网络型采样概率分布策略，并设计网络权值融合与预测结果融合双重集成策略，实现提升网络预测精度与鲁棒性的目的。

第一方面，本发明实施例提供一种基于注意力机制与集成学习的高光谱数据分析方法，包括：

步骤S1、确定每个待检测样本的高光谱数据；

步骤S2、将若干所述高光谱数据划分为训练集和测试集；

步骤S3、根据所述训练集对预先构建的注意力网络进行训练，根据训练后所述注意力网络的注意力因子确定注意力曲线；

步骤S4、根据所述注意力曲线对所述训练集进行随机选择，确定p个特征选择方案；

步骤S5、构建集成学习子网络；

步骤S6、依次根据每个所述特征选择方案对所述集成学习子网络进行训练，其中，每个所述特征选择方案下，根据上一集成学习子网络对验证集的预测结果进行下一集成学习子网络的训练样本采样，按次序训练q个集成学习子网络；完成p×q个集成学习子网络的训练；

步骤S7、通过集成融合，获得预测结果。

作为优选的，所述步骤S2具体包括：

根据分水岭算法对每个所述高光谱数据进行图像分割，得到每个所述高光谱数据的有效像素；

根据每个所述高光谱数据中所有有效像素确定所述高光谱数据的平均光谱；

将样本划分为训练集与测试集；

训练集记为T＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中x_i为训练样本的平均光谱特征空间，y_i是标签集合。

作为优选的，所述步骤S3具体包括：

步骤S31、构建注意力网络，所述注意力网络包括隐含层和输出层；以所述训练集中的所有平均光谱作为输入，通过梯度下降方法训练所述注意力网络，确定所述注意力网络的权值集w；

步骤S32、确定权值集w中所述注意力网络的首个隐含层的权值，根据首个隐含层的权值确定注意力因子：

上式中，T_b表示第b个波段的注意力因子；

表示首个隐含层第i个隐含节点对应第b波段的权值；m个波段的注意力因子形成注意力曲线。

作为优选的，所述步骤S4具体包括：

步骤S41、对所述注意力曲线进行归一化处理，令所述注意力因子总和为1，使集合T_b’成为一个概率分布：

步骤S42、根据所述注意力曲线进行特征采样，对所述训练集进行随机选择，确定p个特征选择方案；其中，每个特征选择方案中，特征数量为k，k的取值为1/10m～1/20m中的随机自然数。

作为优选的，所述步骤S5中，每个所述集成学习子网络均包括批量归一化层，一维卷积层、一维池化层、全连接层和输出层。

作为优选的，所述步骤S6具体包括：

步骤S61、对每个特征选择方案，以r_train为采样概率分布将所述训练集中的平均光谱划分为训练样本和验证样本；以所述训练样本对集成学习子网络进行训练；

步骤S62、根据第一个集成学习子网络的训练结果对所述验证样本进行测试，根据验证集的预测结果更新所述采样概率分布，增大预测偏差大的验证集临近处的采样概率，以更新后的采样概率分布对第二个集成学习子网络进行训练样本和验证样本划分；

步骤S63、对每个特征选择方案，重复上述步骤S61至步骤S62，直至完成对应特征选择方案下q个集成学习子网络的训练。

作为优选的，所述步骤S6中，第一个训练的集成学习子网络的采样概率分布为随机采样，训练样本的抽取概率为d_1,i＝1/N；

所述步骤S62中，根据第一个训练的集成学习子网络的训练结果对所述验证样本进行测试，误差结果的集合为e＝{e₁,e₂,…,e_v}，其中，v为验证样本的数量；

根据验证集的预测结果更新所述采样概率分布，具体为：

上式中，y_i为第i个训练样本的标签值，y_near为与y_i最接近的验证样本的标签值，e_near为与y_i最接近的验证样本的预测误差，e_mean为所有验证样本的平均预测误差，Z₂为规范化因子：

第二方面，本发明实施例提供一种基于注意力机制与集成学习的高光谱数据分析系统，包括：

高光谱数据采集模块，确定每个待检测样本的高光谱数据的平均光谱，将若干所述平均光谱划分为训练集和测试集；

注意力网络，根据所述训练集对预先构建的注意力网络进行训练，根据训练后所述注意力网络的注意力因子确定注意力曲线；

根据所述注意力曲线对所述训练集进行随机选择，确定p个特征选择方案；

集成学习子网络，构建集成学习子网络，依次根据每个所述特征选择方案对所述集成学习子网络进行训练，其中，每个所述特征选择方案下，根据上一集成学习子网络对验证集的预测结果进行下一集成学习子网络的训练样本采样，按次序训练q个集成学习子网络；完成p×q个集成学习子网络的训练；

通过集成融合，获得预测结果。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述基于注意力机制与集成学习的高光谱数据分析方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述基于注意力机制与集成学习的高光谱数据分析方法的步骤。

本发明实施例提供的一种基于注意力机制与集成学习的高光谱数据分析方法和系统，采用自训练注意力曲线作为概率曲线进行特征采样，在保证特征与回归目标相关性的同时，保证特征组合的多样性，使集成学习子网络达到准确性与预测结果发散性的平衡，提升了集成学习的准确性与鲁棒性；根据预测误差更新采样概率分布的策略，使预测误差较大的验证集样本周围样本密度更大，从而得到样本分布不同、在不同区域表现更优的集成学习子网络，提升集成学习的准确性；设计了基于权值平均的模型集成与结果集成的双重集成策略，该策略可进一步避免深度学习网络的预测结果陷于局部最优，有效缓解其过拟合问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于注意力机制与集成学习的高光谱数据分析方法流程框图；

图2为根据本发明实施例的服务器示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

因此，本发明实施例提供一种基于注意力机制与集成学习的高光谱数据分析方法和系统，采用自训练注意力曲线进行概率特征选择，设计学习子网络型采样概率分布策略，并设计网络权值融合与预测结果融合双重集成策略，实现提升网络预测精度与鲁棒性的目的。以下将通过多个实施例进行展开说明和介绍。

图1为本发明实施例提供一种基于注意力机制与集成学习的高光谱数据分析方法，可应用于高光谱无损检测、食品掺假检测、水果糖度检测、药品成分分析及假药鉴定、微生物含量检测和有机质含量检测中，包括：

步骤S1、确定每个待检测样本的高光谱数据的平均光谱；

采集每个待分析样本的高光谱数据；

根据每个所述高光谱数据中所有有效像素确定所述高光谱数据的平均光谱。

步骤S2、将若干所述平均光谱划分为训练集和测试集；

具体地，训练集记为T＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)},其中x_i为训练样本的平均光谱特征空间，y_i是标签集合。

上式中，T_b表示第b个波段的注意力因子；

步骤S4、根据所述注意力曲线对所述训练集进行随机选择，确定p个特征选择方案；其中，每个所述特征选择方案中，以对应采样概率分布将所述训练集中的平均光谱划分为训练样本和验证样本；

步骤S5、构建集成学习子网络；所述集成学习子网络包括批量归一化层，一维卷积层、一维池化层、全连接层和输出层。

步骤S6、分别根据p个所述特征选择方案对所述集成学习子网络进行训练，共完成p×q个训练的集成学习子网络的存，得到p个集成学习子网络；

步骤S61、对每个特征选择方案，以r_train为采样概率分布将所述训练集中的平均光谱划分为训练样本和验证样本；以所述训练样本对集成学习子网络中第一个训练的集成学习子网络进行训练；

本实施例中，包括p个特征选择方案，集成学习子网络中包括q个训练的集成学习子网络，在第一个特征选择方案下，以r_train为比例进行随机样本选择，将训练集划分为训练样本与验证样本，并以此特征选择方案与样本选择方案进行第一个训练的集成学习子网络训练；

步骤S62、根据第一个训练的集成学习子网络的训练结果对所述验证样本进行测试，根据验证集的预测结果更新所述采样概率分布，增大预测偏差大的验证集临近处(预设范围内)的采样概率，以更新后的采样概率分布对集成学习子网络中第二个训练的集成学习子网络进行训练样本和验证样本划分；

第一个训练的集成学习子网络的采样概率分布为随机采样，训练样本的抽取概率为d_1,i＝1/N；

根据第一个训练的集成学习子网络的训练结果对所述验证样本进行测试，误差结果的集合为e＝{e₁,e₂,…,e_v}，其中，v为验证样本的数量；

根据验证集的预测结果更新所述采样概率分布，具体为：

Z₂使集合d成为一个概率分布。

根据更新后的采样概率分布，抽取第二个训练的集成学习子网络的训练样本。

步骤S63、对每个特征选择方案，重复q次上述步骤S61至步骤S62，直至完成对应特征选择方案下对q个训练的集成学习子网络的训练。

在不同的特征选择方案下，重复上述过程，共进行p×q个训练的集成学习子网络的训练。

步骤S7、确定p个集成学习子网络的预测结果，并融合所述预测结果。

集成融合分为两个层级，第一层级为模型融合：特征选择方案相同的学子网络进行权值融合，获得p个集成学习子网络；第二层级为结果融合：测试集样本通过集成学习子网络获得的p个预测结果，再进一步通过结果融合获得最终预测结果。

本实施例为采用本发明方法对奶粉中的水解皮革蛋白掺假含量进行预测。具体步骤如下：

S1、对样本进行高光谱成像数据采集：共采集100个水解皮革蛋白掺假奶粉样本，奶粉由三种品牌任意比例混合组成，皮革水解蛋白也采用三个品牌的产品任意比例混合，掺假的比例为0％～20％。高光谱波段为900nm-1700nm,共256通道，去除头尾100nm高噪声段，共180个光谱特征用于建模。

采用分水岭算法对高光谱数据进行分割，得到每个样本的有效像素。

将所有有效像素的光谱进行平均得到样本平均光谱；

S2、将样本划分为训练集与测试集，本例中采用10折交叉验证，每折90个训练集，10个测试集样本。

S3、构建并训练注意力网络以获得注意力曲线，具体步骤如下：

S31、构建并训练注意力网络：构建注意力网络，该网络由两个隐含层与输出层组成。两个隐含层的隐含节点数分别为32与16，隐含层非线性激励函数为tanh。全部训练集样本的所有平均光谱特征作为输入，采用梯度下降方法训练注意力网络，获得注意力神经网络权值集w；

S32、获取注意力曲线：根据注意力网络首个隐含层权值计算注意力因子：

其中，T_b表示第b个波段的注意力因子；

S4、根据注意力曲线构建10个特征选择方案，具体包括如下步骤：

S41、对注意力曲线进行归一化，令注意力因子总和为1，得到注意力概率采样曲线：

S42、根据注意力概率采样曲线进行特征采样，特征数量为k,k的取值为18到36之间的随机自然数。

S5、构建集成学习子网络，该网络由批量归一化层，一维卷积层、一维池化层、全连接层、输出层组成。具体结构为：卷积层—池化层—卷积层—池化层—卷积层—池化层—全连接层—输出层，每个卷积层中在非线性激励之前进行批量归一化，卷积层卷积核尺寸为3*1，卷积层厚度为16，非线性激励函数为LeakyRelu,池化层为1/2下采样，全连接层节点数为16，非线性激励函数为tanh。

S6、训练集成学习子网络，具体步骤如下：

S61、在第一个特征选择方案下，以70％为比例进行随机训练样本选择，剩余30％为验证集样本，即训练集中63个样本用于训练，27个样本用于验证。以此特征选择方案与样本选择方案进行第一个训练的集成学习子网络型训练。

S62、根据第一个训练的集成学习子网络型训练结果对验证集进行测试，并根据验证集预测结果更新样本采样概率分布，以此进行第二学习子网络型的样本选择，具体步骤如下：

第一学习子网络型为随机采样，因此所有训练集样本初始抽取概率为：

d_1,i＝1/90

采用第一个训练的集成学习子网络型训练结果对其验证集进行测试，误差集合为e＝{e₁,e₂,…,e₂₇}；

更新样本采样概率分布，训练集样本采样概率分布更新为：

y_i为第i个训练样本的标签值，y_near为与y_i最接近的验证样本的标签值，e_near为与y_i最接近的验证样本的预测误差，e_mean为所有验证样本的平均预测误差，Z₂为规范化因子：

根据更新后的采样概率分布，抽取第二个训练的集成学习子网络型的训练样本共63个。

S63、重复10次上述过程，根据上一学习子网络型验证集结果更新下一学习子网络型的采样概率分布，直至完成第一个特征选择方案下的10个训练的集成学习子网络型训练。

在不同的特征选择方案下，重复上述过程，共进行10×10个子网络的训练。

S7、通过集成融合，获得预测结果：集成融合分为两个层级，第一层级为模型融合：特征选择方案相同的模型进行网络权值平均融合，获得10个集成学习子网络型；第二层级为结果融合：测试集样本通过集成学习子网络型获得的10个预测结果，再进一步通过结果平均融合获得最终预测结果。

进行10折交叉验证，回归结果取平均值用于模型评价。采用偏最小二乘回归(PLS)及卷积神经网络(CNN)作为两种对比方法。PLS方法中主成分数由训练集交叉验证得到，CNN方法中的参数采用交叉验证调优，从而获得公平的结果对比。10折交叉验证计算结果对比见表1。

表1对比方法与本发明所述方法得到的预测结果对比

由计算结果可见，本发明实施例所述方法对于该数据集的测试集平均误差为1.14±0.18，PLS方法的预测平均误差为1.60±0.30，CNN方法的预测平均误差为1.54±0.37。从表1的结果对比可看出本发明方法的预测精度相比于传统方法显著提升。

本发明实施例还提供一种基于注意力机制与集成学习的高光谱数据分析系统，基于上述各实施例中的基于注意力机制与集成学习的高光谱数据分析方法，包括：

通过集成融合，获得预测结果。

基于相同的构思，本发明实施例还提供了一种服务器示意图，如图2所示，该服务器可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如上述各实施例所述基于注意力机制与集成学习的高光谱数据分析方法的步骤。例如包括：

步骤S1、确定每个待检测样本的高光谱数据；

步骤S2、将若干所述高光谱数据划分为训练集和测试集；

步骤S5、构建集成学习子网络；

步骤S7、通过集成融合，获得预测结果。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

基于相同的构思，本发明实施例还提供一种非暂态计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包含至少一段代码，该至少一段代码可由主控设备执行，以控制主控设备用以实现如上述各实施例所述基于注意力机制与集成学习的高光谱数据分析方法的步骤。例如包括：

步骤S1、确定每个待检测样本的高光谱数据；

步骤S2、将若干所述高光谱数据划分为训练集和测试集；

步骤S5、构建集成学习子网络；

步骤S7、通过集成融合，获得预测结果。

基于相同的技术构思，本申请实施例还提供一种计算机程序，当该计算机程序被主控设备执行时，用以实现上述方法实施例。

所述程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

基于相同的技术构思，本申请实施例还提供一种处理器，该处理器用以实现上述方法实施例。上述处理器可以为芯片。

本发明的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。