CN115015126A - 一种粉末状生物粒子材料活性判定方法和系统 - Google Patents
一种粉末状生物粒子材料活性判定方法和系统 Download PDFInfo
- Publication number
- CN115015126A CN115015126A CN202210443023.4A CN202210443023A CN115015126A CN 115015126 A CN115015126 A CN 115015126A CN 202210443023 A CN202210443023 A CN 202210443023A CN 115015126 A CN115015126 A CN 115015126A
- Authority
- CN
- China
- Prior art keywords
- spectral data
- matrix
- spectral
- initial
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明给出了一种粉末状生物粒子材料活性判定方法,包括:确定光谱数据初始矩阵;对光谱数据初始矩阵中每行对应的光谱数据依次进行平滑滤波和多元散射校正;确定各组光谱数据对应的光谱波数区间;筛选出至少两个最优光谱波数子区间;构建第一光谱数据矩阵和第二光谱数据矩阵;得到第三光谱数据矩阵;将第三光谱数据矩阵和各个已知活性值输入到机器学习回归模型中进行训练;获取待测活性的生物粒子材料对应的光谱数据并依次进行平滑滤波和多元散射校正后输入到训练后的机器学习回归模型中进行活性检测。本发明还给出了一种粉末状生物粒子材料活性判定系统。本发明无需额外引入外部介质,实现生物粒子材料活性的微量无损检测,检测结果准确。
Description
技术领域
本发明属于生物粒子活性处理技术领域,具体涉及一种粉末状生物粒子材料活性判定方法和系统。
背景技术
当前,生物技术的发展对于全球经济与人类生活都产生了重大的改变。生物技术已广泛运用在农业、医药、食品、环保、能源、海洋与国防等领域,其发展潜力亦与日剧增,并为世界之医疗、能源、环保与粮食等问题提供了解决之道。但在存储过程中受环境影响,微生物的活性会有所降低,这将极大程度上影响其使用效果,因此对于生物粒子活性的无损、快速定量判定显得尤为重要。
目前针对生物粒子活性检测主要是基于分子生物学、免疫学和流式细胞术等传统的检测方法。一方面,这些方法均需要配制细胞菌悬液,通过进一步稀释后,采用直接计数法、叠氮溴化丙锭-荧光定量PCR(PMA-qPCR)法或细胞代谢物质检测法对菌悬液中活菌浓度进行间接检测。另一方面,需要在引入外部介质的情况下进行检测工作,耗时较长且对专业技术水平要求较高。
发明内容
本发明的目的之一,在于提供一种粉末状生物粒子材料活性判定方法,该粉末状生物粒子材料活性判定方法无需额外引入外部介质,能够微量无损检测粉末状生物粒子材料活性,降低了检测人员的技术水平要求,检测结果准确。
本发明的目的之二,在于提供一种粉末状生物粒子材料活性判定系统。
为了达到上述目的之一,本发明采用如下技术方案实现:
一种粉末状生物粒子材料活性判定方法,所述粉末状生物粒子材料活性判定方法包括如下步骤:
步骤一、获取每个已知活性值的粉末状生物粒子材料对应的多组光谱数据,以确定光谱数据初始矩阵;
所述光谱数据初始矩阵的行数为光谱数据的组数,列数为光谱波数的个数;所述光谱数据初始矩阵的元素为光谱数据;
步骤二、对所述光谱数据初始矩阵中每行对应的光谱数据依次进行平滑滤波和多元散射校正;
步骤三、获取多元散射校正后的光谱数据初始矩阵中每列对应的光谱波数值,以确定各组光谱数据对应的光谱波数区间;
步骤四、对所述光谱波数区间进行等子区间划分,以筛选出至少两个最优光谱波数子区间;
步骤五、从多元散射校正后的光谱数据初始矩阵中提取出所述最优光谱波数子区间对应的光谱数据,以构建第一光谱数据矩阵;
步骤六、对多元散射校正后的光谱数据初始矩阵中光谱数据进行列向量筛选,以构建第二光谱数据矩阵;
步骤七、将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵;
步骤八、将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练;
步骤九、获取待测活性的生物粒子材料对应的光谱数据并依次进行平滑滤波和多元散射校正后输入到训练后的机器学习回归模型中进行活性检测。
进一步的,步骤四中,所述筛选出至少两个最优光谱波数子区间的具体实现过程包括:
进一步的,步骤六中,所述列向量筛选的具体实现过程:
步骤61、设置第二光谱数据矩阵的初始值为空,设置迭代次数的初始值s=0;
步骤62、从多元散射校正后的光谱数据初始矩阵中任意选取一列作为初始筛选列;
步骤63、计算所述初始筛选列对应的光谱数据分别与所述多元散射校正后的光谱数据初始矩阵中其他剩余的各列光谱数据向量之间的投影值,以获取所述初始筛选列对应的最大投影值;
步骤64、从所述多元散射校正后的光谱数据初始矩阵中抽取出所述最大投影值和初始筛选列对应的列向量后放入所述第二光谱数据矩阵中;
步骤65、令s=s+1,并判断s是否小于阈值,如是,则将所述最大投影值对应的列作为所述初始筛选列,返回步骤63;如否,则输出所述第二光谱数据矩阵,进入步骤七。
进一步的,步骤七中,所述列向量合并的具体过程为:
步骤71、判断所述第二光谱数据矩阵与所述第一光谱数据矩阵是否有重复列,如是,则去除所述第二光谱数据矩阵重复列,进入步骤72;如否,则将所述第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中,进入步骤九;
步骤72、将去除后的第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中。
进一步的,步骤八中,所述训练过程为:
步骤81、将所述第三光谱数据矩阵各个行向量光谱数据和对应的已知活性值作为训练集中各个样本点;
步骤82、采用拉格朗日乘子方法,对所述各个样本点构造优化条件,以对所述各个样本点进行序列最小化处理,得到上界约束拉格朗日乘子和下界约束拉格朗日乘子;
步骤83、根据所述上界约束拉格朗日乘子和下界约束拉格朗日乘子,确定回归超平面的最优系数;
步骤84、从所述各个样本点中取出一个小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点;
步骤85、根据所述最优系数以及所述小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点,确定回归超平面的最优截距向量;
所述惩罚系数阈值C>0;
步骤86、根据所述最优回归超平面,确定线性回归函数;
所述线性回归函数的自变量为行向量对应的光谱数据,应变量为行向量对应的活性值。
为了达到上述目的之二,本发明采用如下技术方案实现:
一种粉末状生物粒子材料活性判定系统,所述粉末状生物粒子材料活性判定系统包括:
第一获取模块,用于获取每个已知活性值的粉末状生物粒子材料对应的多组光谱数据,以确定光谱数据初始矩阵;
其中,所述光谱数据初始矩阵的行数为光谱数据的组数,列数为光谱波数的个数;所述光谱数据初始矩阵的元素为光谱数据;
多元散射校正模块,用于对所述光谱数据初始矩阵中每行对应的光谱数据依次进行平滑滤波和多元散射校正;
第二获取模块,用于获取多元散射校正后的光谱数据初始矩阵中每列对应的光谱波数值,以确定各组光谱数据对应的光谱波数区间;
第一筛选模块,用于对所述光谱波数区间进行等子区间划分,以筛选出至少两个最优光谱波数子区间;
提取模块,用于从多元散射校正后的光谱数据初始矩阵中提取出所述最优光谱波数子区间对应的光谱数据,以构建第一光谱数据矩阵;
第二筛选模块,用于对多元散射校正后的光谱数据初始矩阵中光谱数据进行列向量筛选,以构建第二光谱数据矩阵;
合并模块,用于将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵;
训练模块,用于将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练;
活性检测模块,用于获取待测活性的生物粒子材料对应的光谱数据并依次进行平滑滤波和多元散射校正后输入到训练后的机器学习回归模型中进行活性检测。
进一步的,所述第一筛选模块包括:
进一步的,所述第二筛选模块包括:
设置子模块,用于设置第二光谱数据矩阵的初始值为空,设置迭代次数的初始值s=0;
选取子模块,用于从多元散射校正后的光谱数据初始矩阵中任意选取一列作为初始筛选列;
计算子模块,用于计算所述初始筛选列对应的光谱数据分别与所述多元散射校正后的光谱数据初始矩阵中其他剩余的各列光谱数据向量之间的投影值,以获取所述初始筛选列对应的最大投影值;
第一抽取子模块,用于从所述多元散射校正后的光谱数据初始矩阵中抽取出所述最大投影值和初始筛选列对应的列向量后放入所述第二光谱数据矩阵中;
第一判断子模块,用于令s=s+1,并判断s是否小于阈值,如是,则将所述最大投影值对应的列作为所述初始筛选列并传输给所述计算子模块;如否,则输出所述第二光谱数据矩阵给所述合并模块。
进一步的,所述合并模块包括:
第二判断子模块,用于判断所述第二光谱数据矩阵与所述第一光谱数据矩阵是否有重复列,如是,则去除所述第二光谱数据矩阵重复列后传输给加入子模块;如否,则将所述第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中;
所述加入子模块,用于将去除后的第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中。
进一步的,所述训练模块包括:
第二作为子模块,用于将所述第三光谱数据矩阵各个行向量光谱数据和对应的已知活性值作为训练集中各个样本点;
序列最小化处理子模块,用于采用拉格朗日乘子方法,对所述各个样本点构造优化条件,以对所述各个样本点进行序列最小化处理,得到上界约束拉格朗日乘子和下界约束拉格朗日乘子;
第一确定子模块,用于根据所述上界约束拉格朗日乘子和下界约束拉格朗日乘子,确定回归超平面的最优系数;
第二抽取子模块,用于从所述各个样本点中抽取出小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点;
第二确定子模块,用于根据所述最优系数以及所述小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点,确定回归超平面的最优截距向量;
第三确定子模块,用于根据所述最优回归超平面,确定线性回归函数;
所述线性回归函数的自变量为行向量对应的光谱数据,因变量为行向量对应的活性值。
本发明的有益效果:
本发明通过已知活性值的粉末状生物粒子材料对应的多组光谱数据,确定光谱数据初始矩阵,并对光谱数据初始矩阵中行向量的光谱数据依次进行平滑滤波和多元散射校正,并依据多元散射校正后的列向量的光谱波数值,确定各组光谱数据对应的光谱波数区间,进而筛选出至少两个最优光谱波数子区间,从而构建第一光谱数据矩阵;通过对多元散射校正后的光谱数据初始矩阵中光谱数据的列向量筛选,构建第二光谱数据矩阵,并将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵;将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练;获取所述的待测活性的生物粒子材料对应的光谱数据并输入到训练后的机器学习回归模型中进行活性检测,本发明无需额外引入增加添加剂,即可实现对生物粒子材料的微量无损检测,降低了对检测人员的技术水平要求,降低了生物粒子材料活性检测成本,无需配制细胞悬液,耗时短,预测精度高,适用范围更广,适用真菌孢子等粉状生物粒子材料的活性检测。
附图说明
图1为本发明的粉末状生物粒子材料活性判定方法流程示意图;
图2为本发明实施例的多元散射校正处理后的光谱数据示意图;
图3为本发明实施例的光谱波数选择碎石示意图;
图4为本发明实施例的选择光谱波数序号示意图;
图5为本发明实施例的SiPLS光谱波数提取结果示意图。
具体实施方式
以下结合附图对本发明的具体实施方式作出详细说明。
本实施例给出了一种粉末状生物粒子材料活性判定方法,参考图1,该粉末状生物粒子材料活性判定方法包括如下步骤:
步骤一、获取每个已知活性值的粉末状生物粒子材料对应的多组光谱数据,以确定光谱数据初始矩阵;
本实施例中的光谱数据初始矩阵的行数为全光谱数据的组数,列数为全光谱数据对应的光谱波数的个数,元素为光谱数据。
将灭活处理得到的无活性生物粒子材料与具有完全活性的生物粒子材料按照活性梯度设置(活性梯度大小视检测精度需求而定)进行均匀混合,得到不同活性值的生物粒子材料,具体采用如下方法获取:
步骤11、对粉末状生物粒子材料进行灭活处理,得到无活性的粉末状生物粒子材料;
步骤12、获取完全活性的粉末状生物粒子材料,并与所述无活性的粉末状生物粒子材料按照不同活性比例进行混合搅拌,得到各个已知活性值的粉末状生物粒子材料。
本实施例中的无活性的粉末状生物粒子材料的活性值为0,完全活性的粉末状生物粒子材料的活性值为100。
根据测试需要,可将生物粒子材料制成压片状和粉末状等形态样本,并利用傅里叶红外光谱仪,采集各个已知活性值的粉末状生物粒子材料的光谱数据(如红外光谱数据)。每个已知活性值对应的粉末状生物粒子材料的光谱数据可为多组光谱数据,即多条光谱数据。
步骤二、对所述光谱数据初始矩阵中每行对应的光谱数据依次进行平滑滤波和多元散射校正。
为了有效地消除细小噪声和散射水平不同带来的光谱差异,以提高模型(机器学习回归模型)检测性能(如检测结果的准确性和精确性),对步骤一得到的原始红外光谱数据进行预处理,预处理包括:选取波数范围、Savitzky-Golay平滑滤波和多元散射校正(MSC)。经过多元散射校正处理后的光谱数据初始矩阵XM×K中,M为行数,即全光谱数据的组数,K为列数,即全光谱数据对应的光谱波数的个数,元素为光谱数据,如已知活性值对应的粉末状生物粒子材料的光谱数据为10条,设置5%的活性梯度,一共有21个已知活性值,21个已知活性值对应的粉末状生物粒子材料的光谱数据共计为210条,即M=210,每条光谱数据包含7467个光谱波数,K=7467,则光谱数据初始矩阵记为X210×7467。
步骤三、获取多元散射校正后的光谱数据初始矩阵中每列对应的光谱波数值,以确定各组光谱数据对应的光谱波数区间。
本实施例中的光谱数据初始矩阵中第一列和最后一列对应的光谱波数值分别为光谱波数区间的下限值和上限值。
步骤四、对所述光谱波数区间进行等子区间划分,以筛选出至少两个最优光谱波数子区间。
将预处理后得到的全光谱波数区间均等划分为n个光谱波数子区间,联合其中m(2≤m<n)个光谱波数子区间,按照排列组合方式,得到个组合区间,并分别建立个PLS回归模型,然后采用留一交叉验证(Leave One Out Cross Validation,LOOCV)法,得到各个PLS回归模型的模型评价指标决定系数R2。当R2取最大值时,对应的联合区间模型(PLS回归模型)为最优特征波长提取组合方式。筛选出至少两个最优光谱波数子区间的具体实现过程包括:
步骤五、从多元散射校正后的光谱数据初始矩阵中提取出所述最优光谱波数子区间对应的光谱数据,以构建第一光谱数据矩阵;
根据最优光谱波数子区间内所有光谱波数值和对应的光谱数据(如反射率),得到第一光谱数据矩阵AM×P,M为第一光谱数据矩阵的行数,即最优光谱波数子区间内的光谱数据组数,如210组光谱数据,P为第一光谱数据矩阵的列数,即最优光谱波数子区间内光谱波速的数量,如2240个光谱波数,则第一光谱数据矩阵记为A210×2240。
步骤六、对多元散射校正后的光谱数据初始矩阵中光谱数据进行列向量筛选,以构建第二光谱数据矩阵。
将多元散射校正后的光谱数据初始矩阵XM×K中全光谱数据进行SPA法特征波长提取,采用向量的投影分析方法,选取投影向量最大的波长为待选波长,并基于校正模型,选择最终的特征波长。首先,任选1列作为初始筛选列,如第1列。再计算初始筛选列对应的列向量分别与其他剩余的列向量的投影值,共K-1个投影值,提取出最大投影值对应的列向量,如第5列。然后,以最大投影值对应的列向量为初始筛选列,如第5列。再计算初始筛选列(第5列)对应的列向量分别与其他剩余的列向量(除第1列和第5列之外的列向量)的投影值,共K-2个投影值,提取出最大投影值对应的列向量,依次类推。列向量筛选的具体实现过程:
步骤61、设置第二光谱数据矩阵的初始值为空,设置迭代次数的初始值s=0;
步骤62、从多元散射校正后的光谱数据初始矩阵中任意选取一列作为初始筛选列;
步骤63、计算所述初始筛选列对应的光谱数据分别与所述多元散射校正后的光谱数据初始矩阵中其他剩余的各列光谱数据向量之间的投影值,以获取所述初始筛选列对应的最大投影值。
其中,为第j列光谱数据向量xj与第k列光谱数据向量xk之间的投影值,j不等于k,(j,k)=1,2,…,K,K为多元散射校正后的光谱数据初始矩阵的列数,为xj的转置矩阵;为xk的转置矩阵;(*)-1为(*)的逆矩阵。
步骤64、从所述多元散射校正后的光谱数据初始矩阵中抽取出所述最大投影值和初始筛选列对应的列向量后放入所述第二光谱数据矩阵中。
步骤65、令s=s+1,并判断s是否小于阈值,如是,则将所述最大投影值对应的列作为所述初始筛选列,返回步骤63;如否,则输出所述第二光谱数据矩阵,进入步骤七。
本实施例中的第二光谱数据矩阵BM×N的行数M不变,N为所抽取的最大投影值对应的列向量数。
步骤七、将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵。
将第一光谱数据矩阵AM×P和第二光谱数据矩阵BM×N列合并,得到光谱特征波长数据矩阵CM×Q,Q为去除重复列后第一和第二光谱数据矩阵合并后的列向量数。列向量合并的具体过程为:
步骤71、判断所述第二光谱数据矩阵与所述第一光谱数据矩阵是否有重复列,如是,则去除所述第二光谱数据矩阵重复列,进入步骤72;如否,则将所述第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中,进入步骤九;
步骤72、将去除后的第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中。
步骤八、将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练;
本实施例采用机器学习回归方法,将第三光谱数据矩阵CM×Q和对应的各个已知活性值组合,得到训练数据集T={(X1,Y1),(X2,Y2),…,(Xi,Yi),…,(XM,YM)},Xi为第三光谱数据矩阵中的第i行向量,Yi为Xi所对应的活性值。利用机器学习回归模型进行训练,实现生物活性的快速无损检测。定义Q-1维回归超平面,其线性回归函数为f(x)=ωx+b对训练数据集T中的(Xi,Yi)进行拟合,ω和b分别为系数和截距向量,x=(X1,X2,…,Xi,…,XM)。设置大于0的惩罚系数C,引入回归模型容忍偏差值∈和松弛变量ξi,并利用拉格朗日乘子法和序列最小化(SMO)算法代入求解得到最优拉格朗日系数(下界约束拉格朗日乘子和上界约束拉格朗日乘子),由此计算得到最优系数另取一个满足的样本点(Xk,Yk),计算得到最优截距向量b*=Yk+∈-ω*Xk,从而得到最优回归超平面ω*x+b*=0,其线性回归函数为f(x)=sgn(ω*x+b*)。
本实施例的机器学习回归方法为线性支持向量机。本实施例的训练过程为:
步骤81、将所述第三光谱数据矩阵各个行向量光谱数据和对应的已知活性值作为训练集中各个样本点;
步骤82、采用拉格朗日乘子方法,对所述各个样本点构造优化条件,以对所述各个样本点进行序列最小化处理,得到上界约束拉格朗日乘子和下界约束拉格朗日乘子。
设置一惩罚系数阈值C>0,结合拉格朗日乘子法,对所述样本点构造优化条件,并利用序列最小化方法进行处理,得到上界约束拉格朗日乘子和下界约束拉格朗日乘子。
步骤83、根据所述上界约束拉格朗日乘子和下界约束拉格朗日乘子,确定回归超平面的最优系数。
步骤84、从所述各个样本点中取出一个小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点;
步骤85、根据所述最优系数以及所述小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点,确定回归超平面的最优截距向量;
步骤86、根据所述最优回归超平面,确定线性回归函数;
所述线性回归函数的自变量为行向量对应的光谱数据,因变量为行向量对应的活性值。
步骤九、获取待测活性的生物粒子材料对应的光谱数据并依次进行平滑滤波和多元散射校正后输入到训练后的机器学习回归模型中进行活性检测。
将未知活性粉末状生物粒子材料的光谱数据进行特征波长提取后得到的向量x导入至回归模型中,并通过最优线性回归函数f(x)计算得到预测的活性值。
下面以AO孢子粉的生物粒子材料为例,介绍上述实施例的技术方案:
S1、ATR红外光谱采集
取部分AO孢子粉,采用湿热灭活法(灭菌温度为121℃,灭菌时间为30分钟)进行灭活处理。
采用称量配比的方式,设置5%的活性梯度,得到不同活性比例的AO孢子粉样本。使用BSA124S-CW(Max:120g,d=0.1mg)称量天平称量,按照总重为1g的标准,分别按比例称取完全灭活和100%活性的AO孢子粉,装瓶后采用UCHEN磁力搅拌器对其进行均匀搅拌,转速设置为1000转/分钟,搅拌时间设为20分钟。
光谱测量仪器采用的是美国赛默飞世尔科技有限公司生产的Nicolet iS50型傅里叶红外光谱仪,并搭载ATR附件实现不同活性AO孢子粉的红外光谱采集。(光谱采集波数:400cm-1~4000cm-1,样品扫描次数:32,采样增益:1.0,动镜速度;0.4747,光阑:100.0,分辨率:4.0)。0%~100%设置5%的活性梯度间隔,共计21组活性样本,每组活性样本采集10条光谱数据,共计得到210条红外光谱,每条光谱包含7467个波数变量,则最终得到的光谱数据矩阵为X210×7467。
S2、光谱预处理
对采集到红外光谱先进行21点3阶多项式SG平滑处理,再进行多元散射校正(MSC)处理,该步骤可以有效的消除细小噪声和散射水平不同带来的光谱差异,从而增强光谱数据的相关性。预处理后的光谱,如图2所示。
S3、特征波长提取
将预处理后的光谱波数区间平均划分为10个子区间,分别联合2、3、4个子区间并对其建立PLS回归模型,通过留一交叉验证法计算出各联合区间模型的R2和RMSECV,按照R2数值大小对各联合区间模型取前5位,如表1所示,主因子数设为8。
表1 SiPLS 2、3、4区间组合建模结果
由表1对比可知,最优联合区间波长提取组合模型为(3、4、10)三区间组合,此时R2取最大值为0.9156,RMSECV为最小值0.000132,筛选的最优光谱波数子区间为1120~1480、1480~1840和3640~4000,共计2240个变量(全谱共7467个变量),如图5所示。将筛选后的光谱波数区间列合并得到第一光谱数据矩阵A210×2240。
将预处理后的光谱采用SPA进行变量筛选,并采用F-test验证(a=0.25)得到变量提取数量和均方差根(RMSE)的关系图如图3所示。可以得到在变量选择数大于10时,模型均方差根趋于稳定。当变量数为13时,所对应RMSE数值不显著大于RMSEmin值,为尽可能在不影响模型精度的同时减少无效变量数,按特征变量重要性共提取13个变量,其变量序号如4所示,将筛选后的波数变量点列合并得到第二光谱数据矩阵B210×13。
将分别采用SiPLS和SPA算法提取得到的第一光谱数据矩阵A210×2240和第二光谱数据矩阵B210×13列合并处理,并去除重复项(即选取的13个波数变量中有6个已存在于SiPLS特征波长提取所得第一光谱数据矩阵A210×2240),得到新的融合光谱数据矩阵,即第三光谱数据矩阵C210×(2240+7)。
S4、LinearSVR回归模型
分别对SiPLS、SPA、SiPLS-SPA算法得到的第一光谱数据矩阵A210×2240、第二光谱数据矩阵B210×13、第三光谱数据矩阵C210×2247和AO孢子活性值建立LinearSVR回归模型并进行训练,LinearSVR回归模型的最大迭代次数max_iter=5000,epsilon=0,惩罚参数C=1.0,残差收敛条件tol=1e-4。使用SiPLS和SPA单一特征波长提取活性预测模型的R2分别为0.9674和0.9267,采用SiPLS-SPA特征波长融合算法活性预测模型的R2高达0.9904,即模型的预测精度更好。因此可知,采用红外光谱分析技术结合SiPLS-SPA特征波长融合算法能有效实现对生物粒子活性的定量检测。
本实施例通过已知活性值的粉末状生物粒子材料对应的多组光谱数据,确定光谱数据初始矩阵,并对光谱数据初始矩阵中行向量的光谱数据依次进行平滑滤波和多元散射校正,并依据多元散射校正后的列向量的光谱波数值,确定确定各组光谱数据对应的光谱波数区间,进而筛选出至少两个最优光谱波数子区间,从而构建第一光谱数据矩阵;通过对多元散射校正后的光谱数据初始矩阵中光谱数据的列向量筛选,构建第二光谱数据矩阵,并将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵;将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练;获取所述的待测活性的生物粒子材料对应的光谱数据并输入到训练后的机器学习回归模型中进行活性检测,本发明无需额外引入添加剂,即可实现对生物粒子材料的微量无损检测,降低了对检测人员的技术水平要求,降低了生物粒子材料活性检测成本,无需配制细胞悬液,耗时短,预测精度高,适用范围更广,适用真菌孢子等粉状生物粒子的活性检测。
本实施例可采用如下实施例给出的技术方案实现:
另一实施例给出了一种粉末状生物粒子材料活性判定系统,该粉末状生物粒子材料活性判定系统包括:
第一获取模块,用于获取每个已知活性值的粉末状生物粒子材料对应的多组光谱数据,以确定光谱数据初始矩阵。光谱数据初始矩阵的行数为光谱数据的组数,列数为光谱波数的个数,元素为光谱数据。
多元散射校正模块,用于对所述光谱数据初始矩阵中每行对应的光谱数据依次进行平滑滤波和多元散射校正。
第二获取模块,用于获取多元散射校正后的光谱数据初始矩阵中每列对应的光谱波数值,以确定各组光谱数据对应的光谱波数区间。
第一筛选模块,用于对所述光谱波数区间进行等子区间划分,以筛选出至少两个最优光谱波数子区间。第一筛选模块包括:
组合子模块,用于从n个光谱波数子区间中提取m个光谱波数子区间进行组合,得到种组合区间,其中,2≤m<n。第一处理子模块,用于对每种组合区间进行偏最小二乘法回归处理,得到个PLS回归模型。第二处理子模块,用于对所述个PLS回归模型分别进行留一交叉验证处理,得到各个PLS回归模型对应的模型评价参数值R2。第一作为子模块,用于将个模型评价参数值R2中最大模型评价参数值R2对应的组合区间中各个光谱波数子区间作为最优光谱波数子区间。
提取模块,用于从多元散射校正后的光谱数据初始矩阵中提取出所述最优光谱波数子区间对应的光谱数据,以构建第一光谱数据矩阵。
第二筛选模块,用于对多元散射校正后的光谱数据初始矩阵中光谱数据进行列向量筛选,以构建第二光谱数据矩阵。第二筛选模块包括:设置子模块,用于设置第二光谱数据矩阵的初始值为空,设置迭代次数的初始值s=0。选取子模块,用于从多元散射校正后的光谱数据初始矩阵中任意选取一列作为初始筛选列。计算子模块,用于计算所述初始筛选列对应的光谱数据分别与所述多元散射校正后的光谱数据初始矩阵中其他剩余的各列光谱数据向量之间的投影值,以获取所述初始筛选列对应的最大投影值。第一抽取子模块,用于从所述多元散射校正后的光谱数据初始矩阵中抽取出所述最大投影值和初始筛选列对应的列向量后放入所述第二光谱数据矩阵中。第一判断子模块,用于令s=s+1,并判断s是否小于阈值,如是,则将所述最大投影值对应的列作为所述初始筛选列并传输给所述计算子模块;如否,则输出所述第二光谱数据矩阵给所述合并模块。
合并模块,用于将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵。合并模块包括:第二判断子模块,用于判断所述第二光谱数据矩阵与所述第一光谱数据矩阵是否有重复列,如是,则去除所述第二光谱数据矩阵重复列后传输给加入子模块;如否,则将所述第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中。加入子模块,用于将去除后的第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中。
训练模块,用于将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练。训练模块包括:第二作为子模块,用于将所述第三光谱数据矩阵各个行向量光谱数据和对应的已知活性值作为训练集中各个样本点。序列最小化处理子模块,用于对所述各个样本点基于拉格朗日乘子法构造的优化条件,进行序列最小化算法处理,得到上界约束拉格朗日乘子和下界约束拉格朗日乘子。第一确定子模块,用于根据所述上界约束拉格朗日乘子和下界约束拉格朗日乘子,确定回归超平面的最优系数。第二抽取子模块,用于从所述各个样本点中抽取出小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点。第二确定子模块,用于根据所述最优系数以及所述小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点,确定回归超平面的最优截距向量。第三确定子模块,用于根据所述最优回归超平面,确定线性回归函数,线性回归函数的自变量为行向量对应的光谱数据,因变量为行向量对应的活性值。
活性检测模块,用于获取待测活性的生物粒子材料对应的光谱数据并依次进行平滑滤波和多元散射校正后输入到训练后的机器学习回归模型中进行活性检测。
上述实施例所涉及的专业术语和公式一致,这里不在追溯。
以上实施方式仅用以说明本发明实施例的技术方案而非限制,尽管参照以上较佳实施方式对本发明实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。
Claims (10)
1.一种粉末状生物粒子材料活性判定方法,其特征在于,所述方法包括如下步骤:
步骤1、获取每个已知活性值的粉末状生物粒子材料对应的多组光谱数据,以确定光谱数据初始矩阵;
所述光谱数据初始矩阵的行数为光谱数据的组数,列数为光谱波数的个数;所述光谱数据初始矩阵的元素为光谱数据;
步骤2、对所述光谱数据初始矩阵中每行对应的光谱数据依次进行平滑滤波和多元散射校正;
步骤3、获取多元散射校正后的光谱数据初始矩阵中每列对应的光谱波数值,以确定各组光谱数据对应的光谱波数区间;
步骤4、对所述光谱波数区间进行等子区间划分,以筛选出至少两个最优光谱波数子区间;
步骤5、从多元散射校正后的光谱数据初始矩阵中提取出所述最优光谱波数子区间对应的光谱数据,以构建第一光谱数据矩阵;
步骤6、对多元散射校正后的光谱数据初始矩阵中光谱数据进行列向量筛选,以构建第二光谱数据矩阵;
步骤7、将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵;
步骤8、将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练;
步骤9、获取待测活性的生物粒子材料对应的光谱数据并依次进行平滑滤波和多元散射校正后输入到训练后的机器学习回归模型中进行活性检测。
3.根据权利要求2所述的粉末状生物粒子材料活性判定方法,其特征在于,步骤6中,所述列向量筛选的具体实现过程包括:
步骤61、设置第二光谱数据矩阵的初始值为空,设置迭代次数的初始值s=0;
步骤62、从多元散射校正后的光谱数据初始矩阵中任意选取一列作为初始筛选列;
步骤63、计算所述初始筛选列对应的光谱数据分别与所述多元散射校正后的光谱数据初始矩阵中其他剩余的各列光谱数据向量之间的投影值,以获取所述初始筛选列对应的最大投影值;
步骤64、从所述多元散射校正后的光谱数据初始矩阵中抽取出所述最大投影值和初始筛选列对应的列向量后放入所述第二光谱数据矩阵中;
步骤65、令s=s+1,并判断s是否小于阈值,如是,则将所述最大投影值对应的列作为所述初始筛选列,返回步骤63;如否,则输出所述第二光谱数据矩阵,进入步骤7。
4.根据权利要求3所述的粉末状生物粒子材料活性判定方法,其特征在于,步骤7中,所述列向量合并的具体过程包括:
步骤71、判断所述第二光谱数据矩阵与所述第一光谱数据矩阵是否有重复列,如是,则去除所述第二光谱数据矩阵重复列,进入步骤72;如否,则将所述第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中,进入步骤九;
步骤72、将去除后的第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中。
5.根据权利要求4所述的粉末状生物粒子材料活性判定方法,其特征在于,步骤8中,所述训练过程包括:
步骤81、将所述第三光谱数据矩阵各个行向量光谱数据和对应的已知活性值作为训练集中各个样本点;
步骤82、采用拉格朗日乘子方法,对所述各个样本点构造优化条件,以对所述各个样本点进行序列最小化处理,得到上界约束拉格朗日乘子和下界约束拉格朗日乘子;
步骤83、根据所述上界约束拉格朗日乘子和下界约束拉格朗日乘子,确定回归超平面的最优系数;
步骤84、从所述各个样本点中取出一个小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点;
步骤85、根据所述最优系数以及所述小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点,确定回归超平面的最优截距向量;
所述惩罚系数阈值C>0;
步骤86、根据所述最优回归超平面,确定线性回归函数;
所述线性回归函数的自变量为行向量对应的光谱数据,因变量为行向量对应的活性值。
6.一种粉末状生物粒子材料活性判定系统,其特征在于,所述系统包括:
第一获取模块,用于获取每个已知活性值的粉末状生物粒子材料对应的多组光谱数据,以确定光谱数据初始矩阵;
其中,所述光谱数据初始矩阵的行数为光谱数据的组数,列数为光谱波数的个数;所述光谱数据初始矩阵的元素为光谱数据;
多元散射校正模块,用于对所述光谱数据初始矩阵中每行对应的光谱数据依次进行平滑滤波和多元散射校正;
第二获取模块,用于获取多元散射校正后的光谱数据初始矩阵中每列对应的光谱波数值,以确定各组光谱数据对应的光谱波数区间;
第一筛选模块,用于对所述光谱波数区间进行等子区间划分,以筛选出至少两个最优光谱波数子区间;
提取模块,用于从多元散射校正后的光谱数据初始矩阵中提取出所述最优光谱波数子区间对应的光谱数据,以构建第一光谱数据矩阵;
第二筛选模块,用于对多元散射校正后的光谱数据初始矩阵中光谱数据进行列向量筛选,以构建第二光谱数据矩阵;
合并模块,用于将所述第二光谱数据矩阵和第一光谱数据矩阵进行列向量合并,得到第三光谱数据矩阵;
训练模块,用于将所述第三光谱数据矩阵和对应的各个已知活性值输入到机器学习回归模型中进行训练;
活性检测模块,用于获取待测活性的生物粒子材料对应的光谱数据并依次进行平滑滤波和多元散射校正后输入到训练后的机器学习回归模型中进行活性检测。
8.根据权利要求7所述的粉末状生物粒子材料活性判定系统,其特征在于,所述第二筛选模块具体包括:
设置子模块,用于设置第二光谱数据矩阵的初始值为空,设置迭代次数的初始值s=0;
选取子模块,用于从多元散射校正后的光谱数据初始矩阵中任意选取一列作为初始筛选列;
计算子模块,用于计算所述初始筛选列对应的光谱数据分别与所述多元散射校正后的光谱数据初始矩阵中其他剩余的各列光谱数据向量之间的投影值,以获取所述初始筛选列对应的最大投影值;
第一抽取子模块,用于从所述多元散射校正后的光谱数据初始矩阵中抽取出所述最大投影值和初始筛选列对应的列向量后放入所述第二光谱数据矩阵中;
第一判断子模块,用于令s=s+1,并判断s是否小于阈值,如是,则将所述最大投影值对应的列作为所述初始筛选列并传输给所述计算子模块;如否,则输出所述第二光谱数据矩阵给所述合并模块。
9.根据权利要求8所述的粉末状生物粒子材料活性判定系统,其特征在于,所述合并模块具体包括:
第二判断子模块,用于判断所述第二光谱数据矩阵与所述第一光谱数据矩阵是否有重复列,如是,则去除所述第二光谱数据矩阵重复列后传输给加入子模块;如否,则将所述第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中;
所述加入子模块,用于将去除后的第二光谱数据矩阵中各个列向量加入到所述第一光谱数据矩阵中。
10.根据权利要求9所述的粉末状生物粒子材料活性判定系统,其特征在于,所述训练模块具体包括:
第二作为子模块,用于将所述第三光谱数据矩阵各个行向量光谱数据和对应的已知活性值作为训练集中各个样本点;
序列最小化处理子模块,用于采用拉格朗日乘子方法,对所述各个样本点构造优化条件,以对所述各个样本点进行序列最小化处理,得到上界约束拉格朗日乘子和下界约束拉格朗日乘子;
第一确定子模块,用于根据所述上界约束拉格朗日乘子和下界约束拉格朗日乘子,确定回归超平面的最优系数;
第二抽取子模块,用于从所述各个样本点中抽取出小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点;
第二确定子模块,用于根据所述最优系数以及所述小于惩罚系数阈值的下界约束拉格朗日乘子对应的样本点,确定回归超平面的最优截距向量;
第三确定子模块,用于根据所述最优回归超平面,确定线性回归函数;
所述线性回归函数的自变量为行向量对应的光谱数据,因变量为行向量对应的活性值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443023.4A CN115015126B (zh) | 2022-04-26 | 2022-04-26 | 一种粉末状生物粒子材料活性判定方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443023.4A CN115015126B (zh) | 2022-04-26 | 2022-04-26 | 一种粉末状生物粒子材料活性判定方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115015126A true CN115015126A (zh) | 2022-09-06 |
CN115015126B CN115015126B (zh) | 2023-02-17 |
Family
ID=83067058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210443023.4A Active CN115015126B (zh) | 2022-04-26 | 2022-04-26 | 一种粉末状生物粒子材料活性判定方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115015126B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115308158A (zh) * | 2022-10-12 | 2022-11-08 | 中国人民解放军国防科技大学 | 生物材料活性定量判定方法、装置及其分析模型构建方法 |
CN115963074A (zh) * | 2023-02-23 | 2023-04-14 | 中国人民解放军国防科技大学 | 一种微生物材料孢子菌丝占比的快速检测方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6675106B1 (en) * | 2001-06-01 | 2004-01-06 | Sandia Corporation | Method of multivariate spectral analysis |
US20150051840A1 (en) * | 2012-04-04 | 2015-02-19 | Biomerieux | Identification Of Microorganisms By Spectrometry And Structured Classification |
CN107748146A (zh) * | 2017-10-20 | 2018-03-02 | 华东理工大学 | 一种基于近红外光谱检测的原油属性快速预测方法 |
US20200268252A1 (en) * | 2019-02-27 | 2020-08-27 | Deep Smart Light Limited | Noninvasive, multispectral-fluorescence characterization of biological tissues with machine/deep learning |
CN112945900A (zh) * | 2021-02-03 | 2021-06-11 | 广东药科大学 | 一种快速检测莪术质量的检测模型及方法 |
CN113376116A (zh) * | 2021-02-27 | 2021-09-10 | 南京海源中药饮片有限公司 | 一种地黄的近红外在线质量检测方法 |
-
2022
- 2022-04-26 CN CN202210443023.4A patent/CN115015126B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6675106B1 (en) * | 2001-06-01 | 2004-01-06 | Sandia Corporation | Method of multivariate spectral analysis |
US20150051840A1 (en) * | 2012-04-04 | 2015-02-19 | Biomerieux | Identification Of Microorganisms By Spectrometry And Structured Classification |
CN107748146A (zh) * | 2017-10-20 | 2018-03-02 | 华东理工大学 | 一种基于近红外光谱检测的原油属性快速预测方法 |
US20200268252A1 (en) * | 2019-02-27 | 2020-08-27 | Deep Smart Light Limited | Noninvasive, multispectral-fluorescence characterization of biological tissues with machine/deep learning |
CN112945900A (zh) * | 2021-02-03 | 2021-06-11 | 广东药科大学 | 一种快速检测莪术质量的检测模型及方法 |
CN113376116A (zh) * | 2021-02-27 | 2021-09-10 | 南京海源中药饮片有限公司 | 一种地黄的近红外在线质量检测方法 |
Non-Patent Citations (2)
Title |
---|
徐玲等: "基于改进偏最小二乘法的近红外快速分析强化生物除磷污泥胞内PHA", 《中国环境科学》 * |
赵强等: "多元散射校正对近红外光谱分析定标模型的影响", 《光学精密工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115308158A (zh) * | 2022-10-12 | 2022-11-08 | 中国人民解放军国防科技大学 | 生物材料活性定量判定方法、装置及其分析模型构建方法 |
CN115308158B (zh) * | 2022-10-12 | 2023-01-06 | 中国人民解放军国防科技大学 | 一种基于消光特性定量判定生物材料活性的方法及装置 |
CN115963074A (zh) * | 2023-02-23 | 2023-04-14 | 中国人民解放军国防科技大学 | 一种微生物材料孢子菌丝占比的快速检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115015126B (zh) | 2023-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115015126B (zh) | 一种粉末状生物粒子材料活性判定方法和系统 | |
Qiu et al. | Single-kernel FT-NIR spectroscopy for detecting supersweet corn (Zea mays L. saccharata sturt) seed viability with multivariate data analysis | |
Zhang et al. | Detection of canopy chlorophyll content of corn based on continuous wavelet transform analysis | |
Wang et al. | A back propagation neural network model optimized by mind evolutionary algorithm for estimating Cd, Cr, and Pb concentrations in soils using Vis-NIR diffuse reflectance spectroscopy | |
S. Veum et al. | Predicting profile soil properties with reflectance spectra via Bayesian covariate-assisted external parameter orthogonalization | |
Shen et al. | Rapid determination of cadmium contamination in lettuce using laser-induced breakdown spectroscopy | |
CN110726694A (zh) | 光谱变量梯度集成遗传算法的特征波长选择方法和系统 | |
Chen et al. | Quantitative analysis of soil nutrition based on FT-NIR spectroscopy integrated with BP neural deep learning | |
Lin et al. | Discrimination of Radix Pseudostellariae according to geographical origins using NIR spectroscopy and support vector data description | |
Hibbert et al. | An introduction to Bayesian methods for analyzing chemistry data: Part II: A review of applications of Bayesian methods in chemistry | |
CN113008805A (zh) | 基于高光谱成像深度分析的白芷饮片质量预测方法 | |
Lu et al. | Nondestructive testing of pear based on Fourier near-infrared spectroscopy | |
Jiang et al. | Qualitative and quantitative analysis in solid-state fermentation of protein feed by FT-NIR spectroscopy integrated with multivariate data analysis | |
Dhawale et al. | Evaluating the precision and accuracy of proximal soil vis–NIR sensors for estimating soil organic matter and texture | |
Xuemei et al. | Using short wave visible–near infrared reflectance spectroscopy to predict soil properties and content | |
CN116052778A (zh) | 实时监测生物反应器中细胞培养液组分浓度的方法 | |
Xiong et al. | Non-destructive detection of chicken freshness based on electronic nose technology and transfer learning | |
Tan et al. | Soil nitrogen content detection based on near-infrared spectroscopy | |
Jiang et al. | Rapid identification of fermentation stages of bioethanol solid-state fermentation (SSF) using FT-NIR spectroscopy: comparisons of linear and non-linear algorithms for multiple classification issues | |
Hacisalihoglu et al. | Crop seed phenomics: focus on non-destructive functional trait phenotyping methods and applications | |
Sabzi et al. | Classification of cucumber leaves based on nitrogen content using the hyperspectral imaging technique and majority voting | |
Tamburini et al. | Quantitative determination of Fusarium proliferatum concentration in intact garlic cloves using near-infrared spectroscopy | |
Shahare et al. | A comprehensive analysis of machine learning-based assessment and prediction of soil enzyme activity | |
Han et al. | Detection of spray-dried porcine plasma (SDPP) based on electronic nose and near-infrared spectroscopy data | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |