CN113627554B

CN113627554B - 基于自编码和极限学习机的药品分类方法

Info

Publication number: CN113627554B
Application number: CN202110947526.0A
Authority: CN
Inventors: 杨新武; 李亦铭; 王碧瑾
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2024-07-12
Anticipated expiration: 2041-08-18
Also published as: CN113627554A

Abstract

本发明针对药品的近红外光谱数据的分类问题，提出了一种基于自编码网络与极限学习机的双波段光谱鉴别方法(DWAE‑ELM)，此方法结合了AE和ELM两种方法的优点，使用AE提取药品的近红外光谱数据的二维特征，根据此特征使用ELM进行分类。DWAE‑ELM网络在结构上分为两个独立的阶段：第一阶段，采用一个三层的AE网络来提取双波段变换后的二维输入数据的稀疏特征进行非监督多层次特征表示；第二阶段，用原始的ELM做最后的药品分类任务。本方法结合了自编码网络特征提取能力强和ELM训练速度快的优点，提高了药品分类的准确度及稳定性，并和其他方法相比，模型的训练时间大幅降低，且对训练集大小不敏感，鲁棒性更强。

Description

基于自编码和极限学习机的药品分类方法

技术领域

本发明涉及一种药品分类方法，特别涉及一种基于自编码器和极限学习机的药品分类方法。

背景技术

目前虽然深度学习已广泛应用于图像、语音、文本等领域，且均取得了不错的成绩，但是在近红外光谱上的应用还是偏少，因为近红外本质是一维向量，且数据集往往都不大，深度学习虽然有很强的学习能力，但是容易过拟合，且传统的深度学习网络结构不太适合处理一维数据。目前近红外光谱分类主要还是采用机器学习的方法，例如反向传播算法(BP)、支持向量机(SVM)、极限学习机等，且这些算法都展现出比较强大的性能。但是这些机器学习算法也有自身的缺陷，例如BP算法容易陷入局部最小，SVM分类性能不稳定，计算复杂度高，ELM 虽然能极大提升学习速度但是效果不稳定。

另一个不容忽视的问题是数据降维的问题，药品的近红外光谱数据往往含有上百个变量，但并不是所有变量都对药品分类有贡献。特征选择和特征提取方法能够有效获取近红外光谱数据的主要特征，还能实现数据的降维，剔除无关的变量特征。所以除了模型的选择，还要有恰当的特征选择和特征提取方法。相关系数法通过计算不同波长变量和目标值的相关系数，选择出和目标值相关性高的变量，从而达到特征选择的目的，但是这种方法没有考虑波长变量的相互作用，因此这种选择方法具有片面性。

发明内容

为了解决传统ELM分类性能不稳定的问题和药品原始数据维度较高、无关信息会影响分类性能的问题，本发明结合双波段变换方法，将自编码器网络和极限学习机结合，提出了一种新的基于DWAE-ELM的药品分类方法。其基本思想是：将输入一维光谱经过双波段变换(DW)变换后，将药品的二维光谱作为AE网络的输入向量，利用AE网络进行无监督学习，进而提取出准确的特征信息，AE网络在这里主要是作为近红外光谱数据的特征提取器，之后，将药品数据在AE网络中的编码传入ELM，得到预测的分类结果。

具体技术方案如下：

基于自编码和极限学习机的药品分类方法，已知药品数据大小为m×p，表示共有m个药品，每个药品有p个特征，包括以下步骤：

步骤1，数据准备阶段：利用双波段变换将药品的一维光谱数据变换到二维空间，每个药品包含p×p个特征，将药品数据分为训练集和测试集，训练集用来训练AE-ELM模型，测试集用来检验模型的预测性能；

步骤2，训练模型：训练AE自编码器网络，药品训练集x作为自编码网络的输入，通过映射函数s_f输出到隐藏层h，这一步为编码Encoder过程，然后隐藏层的数据h通过映射函数s_g重构到输出层y，大小与输入数据x相同，这一步称为解码Decoder过程，这两个过程表示如下：

h＝f(x)＝s_f(Wx+b_h) (1)

y＝g(h)＝s_g(W^Th+b_y) (2)

其中，W是连接输入层到隐藏层的权重矩阵，W^T是W的转置；b_h为隐藏层的偏置，b_y为输出层的偏置，s_f和s_g都是非线性激活函数，本文选择函数作为激活函数，自编码网络的目的是使得输出值尽可能接近输入的药品二维特征，学习的过程就是不断地减小输出值与药品二维特征之间的重构误差，表达式如下：

其中，D_n表示药品训练集，L为重构误差，这里采用均方误差L(x,y)＝‖x- y‖²,而J(θ)表示每个药品重构误差的总和。自编码网络的学习过程就是通过反向传播算法不断减小重构误差，优化参数W，b_h，b_y。

之后将训练好的自编码器的隐层(即编码)传递给极限学习机，并对极限学习机进行训练，极限学习机用于实现药品的分类；

步骤3，进入分类阶段：将待分类药品的二维特征输入AE网络得到编码，然后将编码传入极限学习机完成对未知药品进行分类。

进一步的，步骤1中所述的双波段变换包括归一化差分系数NDI、差分系数 DI、比值系数RI和乘法系数MI四种，采用任一一种方法即可，具体公式分别如下：

NDI＝(R_i-R_j)/(R_i+R_j) (4)

DI＝R_i-R_j (5)

RI＝R_i/R_j (6)

MI＝R_i·R_j (7)

其中R_i和R_j分别是药品在波段i和波段j下的吸光度。

进一步的，极限学习机的训练过程如下：

1、给定训练集其中x_i代表第i个药品编码向量，总共有n个元素；t_i代表第i个药品的one-hot类别标签向量，大小为 m，激活函数g(x)，以及极限学习机的隐藏节点数

2、随机指定输入权重向量w_i和偏差b_i，为极限学习机的隐藏节点数；

3、计算隐藏层输出矩阵

4、计算输出权重β

其中是矩阵H的Moore–Penrose(MP)广义逆，T＝[t₁,...,t_N]^T。正交投影法可有效地用于MP逆的计算：如果H^TH是非奇异的，如果HH^T是非奇异的，根据岭回归理论，在计算输出权β时，建议在H^TH或HH^T的对角线上加一个正值1/λ，可以提高ELM的稳定性，于是有:

因此，有ELM网络输出：

其中h(x)代表隐层的输出，最终的输出结果就是预测的类别标签。

有益效果

本发明将自编码器(AE)和极限学习机(ELM)结合起来，提出了一种新的 DWAE-ELM模型，用于近红外广谱的药品分类。本发明先将一维光谱数据进行双波段变换转换为二维数据，然后通过自编码器提取二维特征，最后通过极限学习机实现药品分类。该方法解决了传统ELM效果不稳定的问题，同时结合自编码器，在尽量保留药品数据主要特征的前提下实现数据的降维，提高分类的效果。经过实验证明，本发明中提出的DWAE-ELM方法相比于传统的BP、SVM和ELM等机器学习方法效果更好，且对训练集数据量不敏感，鲁棒性强，模型的训练速度和预测速度快。

附图说明

图1DWAE-ELM分类器架构

图2不同训练集比例下各模型的分类训练时间

具体实施方式

为了证明本发明中方法的有效性，选择了特定的药品红外数据集，同时与传统的机器学习方法进行对比以证明本方法的优势。

实验采用数据集A。数据集A：“Tablet”数据集。原料药的近红外透射光谱由Dyrby等人在2002年发表的文章中首次公开，并在 http://www.models.life.ku.dk/plates上开源。该药片数据集包含310个样本，测量范围为7000–10500cm^-1，分辨率为16cm^-1，即每个样本总共有404个变量。采用高效液相色谱法测定数据集中活性物质API的含量(％，w/w)。将数据集A中活性物质浓度含量为8.0％w/w的共240个药品作为正类样本，70个活性物质浓度为5.6％w/w的药品做负类样本，为了验证算法在不同训练集大小上的性能，按表1的训练集与测试集的比例对模型结果进行了对比分析。

具体执行步骤如下：

步骤1，首先通过双波段变换方法将药品的一维光谱数据变换到二维空间，每个药品包含404*404个特征。双波段变换包括归一化差分系数(NDI)、差分系数(DI)、比值系数(RI)和乘法系数(MI)四种，任选一种即可。

NDI＝(R_i-R_j)/(R_i+R_j) (1)

DI＝R_i-R_j (2)

RI＝R_i/R_j (3)

MI＝R_i·R_j (4)

其中R_i和R_j分别是药品在波段i和波段j下的吸光度。

将药品数据按一定比例分为训练集和测试集。训练集用来训练AE-ELM模型，测试集用来检验模型的预测性能。

步骤2，训练AE自编码器网络，药品训练集x作为自编码网络的输入，通过映射函数s_f输出到隐藏层h，这一步为编码(Encoder)过程，然后隐藏层的数据h通过映射函数s_g重构到输出层y，大小与输入数据x相同，这一步称为解码 (Decoder)过程。为了更清晰的理解自编码网络，这两个过程可以表示为：

h＝f(x)＝s_f(Wx+b_h) (5)

y＝g(h)＝s_g(W^Th+b_y) (6)

其中，W是连接输入层到隐藏层的权重矩阵，W^T是W的转置；b_h为隐藏层的偏置，b_y为输出层的偏置。s_f和s_g都是非线性激活函数，本文选择函数作为激活函数。自编码网络的目的是使得输出值尽可能接近输入的药品二维特征，学习的过程就是不断地减小输出值与药品二维特征之间的重构误差，表达式如下：

之后将训练好的自编码器的隐层(即编码)传递给极限学习机，实现药品的分类。极限学习机的训练过程如下：

1、给定训练集其中x_i代表第i个药品编码向量，总共有20个元素；t_i代表第i个药品的one-hot类别标签向量，本实验为二分类，所以大小为2。激活函数g(x)，以及极限学习机的隐藏节点数

2、随机指定输入权重向量w_i和偏差b_i，

3、计算隐藏层输出矩阵

4、计算输出权重β

其中是矩阵H的Moore–Penrose(MP)广义逆，T＝[t₁,...,t_N]^T。为了提高ELM的稳定性，有:

因此，有ELM网络输出：

步骤3，进入测试阶段。将测试集中药品的二维特征输入AE网络得到编码，然后将编码传入极限学习机完成对未知药品进行分类。

本实验采用准确度作为模型的评价指标，将每一个比例下的数据集样本分别实验10次，取10次结果的标准差σ作为模型稳定性的评价指标，取10次结果的均值作为模型最终预测值。最终实验效果证明本发明中提出的DWAE-ELM方法的有效性，且分类时间要更短，如图2所示。

表1不同训练集比例下各模型的分类准确率与模型误差

Table 1 Classification accuracy and model error of each model underdifferent training set proportion

σ标准差。

Claims

1.基于自编码和极限学习机的药品分类方法，已知药品数据大小为m×p，表示共有m个药品，每个药品有p个特征，其特征在于包括以下步骤：

步骤2，训练模型：训练AE自编码器网络，药品训练集x作为自编码网络的输入，通过映射函数s_f输出到隐藏层h，然后隐藏层的数据h通过映射函数s_g重构到输出层y，大小与输入数据x相同，这两个过程表示如下：

h＝f(x)＝s_f(Wx+b_h) (1)

y＝g(h)＝s_g(W^Th+b_y) (2)

其中，W是连接输入层到隐藏层的权重矩阵，W^T是W的转置；b_h为隐藏层的偏置，b_y为输出层的偏置，s_f和s_g都是非线性激活函数，自编码网络的学习过程就是通过反向传播算法不断减小输出值与药品二维特征之间的重构误差，优化参数W，b_h，b_y，其中重构误差表达式如下：

其中，D_n表示药品训练集，L为重构误差，这里采用均方误差L(x,y)＝||x-y||²,而J(θ)表示每个药品重构误差的总和；

2.根据权利要求1所述的基于自编码和极限学习机的药品分类方法，其特征在于：步骤1中所述的双波段变换包括归一化差分系数NDI、差分系数DI、比值系数RI和乘法系数MI四种，采用任一一种方法即可，具体公式分别如下：

NDI＝(R_i-R_j)/(R_i+R_j) (4)

DI＝R_i-R_j (5)

RI＝R_i/R_j (6)

MI＝R_i·R_j (7)

其中R_i和R_j分别是药品在波段i和波段j下的吸光度。

3.根据权利要求1所述的基于自编码和极限学习机的药品分类方法，其特征在于：极限学习机的训练过程如下：

1)给定训练集其中x_i代表第i个药品编码向量，总共有n个元素；t_i代表第i个药品的one-hot类别标签向量，大小为m；

2)随机指定输入权重向量w_i和偏差b_i，为极限学习机的隐藏节点数；

3)计算隐藏层输出矩阵

4)计算输出权重β

因此，有ELM网络输出：