CN113959973A - 基于dwi-bpls的药品api预测方法 - Google Patents

基于dwi-bpls的药品api预测方法 Download PDF

Info

Publication number
CN113959973A
CN113959973A CN202110951926.9A CN202110951926A CN113959973A CN 113959973 A CN113959973 A CN 113959973A CN 202110951926 A CN202110951926 A CN 202110951926A CN 113959973 A CN113959973 A CN 113959973A
Authority
CN
China
Prior art keywords
prediction
medicine
drug
training set
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110951926.9A
Other languages
English (en)
Inventor
杨新武
李亦铭
王碧瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110951926.9A priority Critical patent/CN113959973A/zh
Publication of CN113959973A publication Critical patent/CN113959973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提出一种基于DWI‑BPLS的药品API预测方法,用于解决药品活性物质含量预测过程中,由于一维光谱数据所含信息量少,导致预测不够准确的问题。本发明是一种通过从双波段变量空间建立子模型的boosting策略,即双波段变量空间boosting偏最小二乘法DWI‑BPLS。本方法在第一个周期,将训练集中药品不同波长的吸光度值(药品特征)赋予相同的采样权重,然后根据采样权重选择一定数量的特征建立PLS子模型。确定损失函数用来计算训练集中样本的采样权重。最后通过计算所有子模型结果的平均值来做模型的最后预测。同时,本发明设计了一种新的损失函数,为boosting进行更好的惩罚训练。

Description

基于DWI-BPLS的药品API预测方法
技术领域
本发明基于机器学习,具体涉及了一种近红外光谱数据的分析方法,实现对药品活性物质含量(API)的预测。
背景技术
药品的活性物质含量分析历来便是化学分析领域中的重点,对目标的精确预测能实现对药品的定性分析。精确预测其中的活性物质含量有助于判断药物是否有效,活性物质含量的质量分数越大,则药效越强。目前最普遍的红外光谱分析技术大多是基于偏最小二乘法的机器学习方法,后来提出了基于集成学习的BPLS(boosting PLS)方法,预测效果相比传统方法有较大提升,下面介绍该方法。
传统的PLS等校准方法是基于单一模型的,其精度和鲁棒性有时不理想。因此,集成建模是基于建立一系列模型的概念发展起来的,例如bagging和boosting。bagging的特点是各个弱学习器之间没有依赖关系,可以并行拟合,例如随机森林算法。而boosting策略则是通过对前一模型得到的差样本进行连续训练,依次构建加性回归模型,可以获得比bagging更好的预测结果。
由于boosting具有高精度和高鲁棒性的优点,Massart首先在分析化学中提出boosting偏最小二乘法(BPLS)。BPLS依次添加了一系列PLS子模型,每次只选择部分波段特征训练得到部分PLS子模型,统计总体误差,计算置信度,使得后续子模型更加关注误差大的部分。将这个过程重复顺序相加,得到许多加权PLS模型,最后的预测是这些加权PLS模型的组合。
而此方法的问题在于:待测物品的光谱特征本就抽象,再加上是一维数据,信息量相对较少,预测的结果不太准确。
发明内容
为了解决一维光谱数据所含信息量少,预测不够准确的问题,本发明提出了一种双波段的BPLS方法。与单一模型相比,BPLS可以显著提高预测精度和稳定性。本发明结合boosting和变量区间建模(例如,iPLS)的优点,提出一种双波段区间boosting偏最小二乘回归(DWI-BPLS)方法进行物质含量预测分析,该方法首先对物品的红外光谱训练集中的所有波段特征赋予相同的采样权重。然后选取一定数量的波段特征建立PLS子模型,通过PLS子模型的得分矩阵与载荷矩阵计算得到预测谱,训练集中变量的新权值由预测谱和已知谱的误差损失函数给出,通过对所有子模型的每个预测进行加权平均得到最终预测。此外,损失函数是用来关联预测误差与取样权重的,是boosting的关键一步,本文提出了一种新的损失函数,并相比于传统方法得到了更好的效果。
DWI-BPLS的基本原理是:先通过双波段系数变换(包括NDI、DI、RI、MI)将原始一维谱空间扩展到二维,然后根据波段特征权重的分布,从训练集中的全部波段特征中选择一定数量的波段特征,对训练集中筛选出的波段变量和目标值进行PLS训练,然后对其目标的预测值进行加权平均,得到已知样本的最终预测值。模型结构如图1所示。
具体技术方案如下:
药品数据大小为m×p,其中m为总药品数量,p代表药品在p个不同的波数下,使用红外光谱仪测得的对应的吸光度值,在此称为药品的原始特征。Yn*1代表其中已知药品的真实活性物质含量向量,单位是质量分数。大小为n×1,n为已知药品的数量。在近红外分析中科学家发现,药品的活性物质含量(或者在其他领域中的某些有机物,如蛋白质含量等)往往和药品在不同波数下的吸光度有线性关系,可以利用不同波数下的吸光度对药品的活性物质含量建立回归方程,从而达到预测的目的。
分为两个阶段:数据准备阶段和预测阶段;
在数据准备阶段,首先将药品的一维原始特征通过双波段变换方法变为二维特征Xm*p*p,形成为p×p个波段,m表示总药品数量,p表示波数;所述药品的一维原始特征指m个药品在p个不同的波数下,使用红外光谱仪测得的对应的吸光度值,原始特征维度为1×(m×p);
之后进入药品的预测阶段,主要包括以下步骤:
步骤1,把药品分为训练集和测试集两部分,已知活性物质含量的药品作为训练集,其他待测药品作为测试集;将训练集中药品的每个波段下对应的吸光度赋予相同的权重wi,1,其中wi,1表达式如下:
Figure BDA0003217255380000021
然后,对于t=1,...,T,T是迭代次数,重复步骤2-8:
步骤2,在药品二维特征的p×p个波段下,选中第i个波段的概率为:
Figure BDA0003217255380000022
根据概率pi,t的最大值选取药品原始特征其中的1个波段,重构药品训练集大小为n×1;
步骤3,利用训练集中重构的药品特征和已知的活性物质含量建立PLS子模型。
步骤4,利用步骤3的PLS子模型的得分矩阵和载荷矩阵计算训练集中药品二维特征的预测谱Dn*p*p
步骤5,计算训练集中每个药品的预测结果误差ei,t,其中Xi*p*p表示第i个药品的二维特征,Di*p*p表示第i个药品的预测谱:
ei,t=mean(|Xi*p*p-Di*p*p|),i=1,...,n
步骤6,计算训练集中每个药品的损失函数Li,t,其表达式如下:
Figure BDA0003217255380000023
其中Yi表示第i个药品的真实活性物质含量;
步骤7,计算当前迭代的子模型的平均损失
Figure BDA0003217255380000024
和置信指标βt
Figure BDA0003217255380000025
Figure BDA0003217255380000026
步骤8,更新训练集中的药品二维特征的权重
Figure BDA0003217255380000027
步骤9,最后,经过T次迭代,建立了T个PLS子模型,训练完毕;测试集中的未知药品的最终预测是通过使用T个子模型的每个预测的加权平均得到的:
Figure BDA0003217255380000028
其中,
Figure BDA0003217255380000029
表示第t个子模型对第i个未知药品的预测结果,
Figure BDA00032172553800000210
表示第i个未知药品的最终预测结果。
有益效果
传统的偏最小二乘(PLS)的集成学习均是针对一维光谱数据,而本发明将一维光谱数据进行双波段变换,将其扩展到二维,这样更能有效捕捉波段之间的相关性特征,以完成对目标的准确预测。之后结合boosting策略实现PLS建模,并对参数进行优化以达到最优的预测结果。通过实验,相比于PLS、BPLS等经典方法,DWI-BPLS的预测结果更准确,且稳定性也更强,这证明了DWI-BPLS是一种高效的方法。
附图说明
图1本发明模型结构框图。
具体实施方式
为了证明本发明中方法的有效性,选择了两个公开的药品数据集,详细信息如下:
数据集A:“Tablet”数据集。原料药的近红外透射光谱由Dyrby等人在2002年发表的文章中首次公开,并在http://www.models.life.ku.dk/plates上开源。该药片数据集包含310个样本,测量范围为7000-10500cm-1,分辨率为16cm-1,即每个样本总共有404个变量。使用Kennard-Stone(KS)算法将数据集分为有248个样本的校准集和有62个样本的验证集。分析的目的是预测原料药中的药物活性成分(Active Pharmaceutical Ingredients,API),采用高效液相色谱法测定数据集中API的含量(%,w/w)。
数据集B:“Shootout”数据集。2002年,国际漫反射会议公开了一个“Shootout”数据集,在https://eigenvector.com/data/tablets上开源,该数据集由两台光谱仪分别测量,包含655个样本,校准、验证和测试集被KS算法划分155、40和460个样本。光谱测量范围为600-1898nm,分辨率为2nm,每个样本有650个变量。标签包含了活性物质含量、片剂重量和片剂硬度的测定值。在本研究中,使用了第一台仪器的光谱和药物活性成分值。数据集概览见表1。
以数据集A为例,
数据准备
DWI-BPLS的执行步骤如下:
步骤1,首先将药品采用NDI/DI/RI/MI中的双波段变换方法,将数据变为X310*404*404的二维数据,双波段变换公式如下:
NDI=(Ri-Rj)/(Ri+Rj) (1)
DI=Ri-Rj (2)
RI=Ri/Rj (3)
MI=Ri·Rj (4)
从公式(1)-(4)中任选一种进行波段变换。
其中,Ri和Rj分别是药品在波数i和j上的光谱吸光度值。之后将药品分为训练集和测试集两个部分,比例为训练集比测试集等于8∶2,即训练集大小有248个,用于训练模型;测试集大小62个,用于模拟未知药品的预测。将训练集中药品每个波段下对应的吸光度赋予相同的权重wi,1,其中wi,1表达式如下:
Figure BDA0003217255380000031
然后,对于t=1,...,T(T是迭代次数,本次实验中T=500),重复步骤2-8:
步骤2,在药品的二维特征的404*404个波段下,选中第i个波段的概率为:
Figure BDA0003217255380000032
根据概率pi,t的最大值选取药品原始特征其中的1个波段,重构药品训练集大小为248×1。
步骤3,利用训练集中重构的药品特征和已知的活性物质含量建立PLS子模型。
步骤4,利用步骤3的PLS子模型的得分矩阵和载荷矩阵计算训练集中药品二维特征的预测谱D248*404*404
步骤5,计算训练集中每个药品的预测结果误差ei,t,其中Xi*404*404表示第i个药品的二维特征,Di*404*404表示第i个药品的预测谱:
ei,t=mean(|Xi*404*404-Di*404*404|)(i=1,...,248) (7)
步骤6,计算训练集中每个药品的损失函数Li,t,其表达式如下:
Li,t=ei,t/Yi(i=1,...,248) (8)
其中Yi表示训练集中第i个药品的真实活性物质含量。
步骤7,计算当前迭代的子模型的平均损失
Figure BDA0003217255380000041
和置信指标βt
Figure BDA0003217255380000042
Figure BDA0003217255380000043
步骤8,更新训练集中的药品二维特征的权重
Figure BDA0003217255380000044
步骤9,最后,经过T次迭代,建立了T个PLS子模型,之后进入测试阶段。测试集中药品API的最终预测是通过使用T个子模型的每个预测的加权平均得到的:
Figure BDA0003217255380000045
其中,
Figure BDA0003217255380000046
表示第t个子模型对测试集中第i个药品的预测结果,
Figure BDA0003217255380000047
表示测试集中第i个未知药品的最终预测结果。
通过对比发现,本发明中提出的DWI-BPLS方法在这两个数据集上均取得了最好的效果,使用预测均方根误差(RMSEP)、决定系数R2和剩余误差分析RPD三个统计指标对DWI-BPLS的性能进行了评价。显然,一个更好的模型应该有更低的RMSEP和更大的R2及RPD。
表1用于回归分析的近红外光谱数据集概览
Table1 Overview of NIR spectral data sets for regression analysis
Figure BDA0003217255380000048
将DWI-BPLS和先前的PLS方法、BPLS方法和最近提出的DWMFN方法进行对比,分别在数据集A、B上进行实验,实验结果如表2所示。
表2不同建模方法的实验对比
Table2 Comparison of different modeling methods
Figure BDA0003217255380000051
实验证明,相比于上述方法,DWI-BPLS拥有更好的预测效果和更高的鲁棒性。且该方法在其他领域也有很大潜力。

Claims (2)

1.基于DWI-BPLS的药品API预测方法,其特征在于:分为两个阶段:数据准备阶段和预测阶段;
在数据准备阶段,首先将药品的一维原始特征通过双波段变换方法变为二维特征Xm*p*p,形成为p×p个波段,m表示总药品数量,p表示波数;所述药品的一维原始特征指m个药品在p个不同的波数下,使用红外光谱仪测得的对应的吸光度值,原始特征维度为1×(m×p);
之后进入药品的预测阶段,主要包括以下步骤:
步骤1,把药品分为训练集和测试集两部分,已知活性物质含量的药品作为训练集,其他待测药品作为测试集。将训练集中药品的每个波段下对应的吸光度赋予相同的权重wi,1,其中wi,1表达式如下:
Figure FDA0003217255370000011
然后,对于t=1,...,T(T是迭代次数),重复步骤2-8:
步骤2,在药品二维特征的p×p个波段下,选中第i个波段的概率为:
Figure FDA0003217255370000012
根据概率pi,t的最大值选取药品原始特征其中的1个波段,重构药品训练集大小为n×1。
步骤3,利用训练集中重构的药品特征和已知的活性物质含量建立PLS子模型。
步骤4,利用步骤3的PLS子模型的得分矩阵和载荷矩阵计算训练集中药品二维特征的预测谱Dn*p*p
步骤5,计算训练集中每个药品的预测结果误差ei,t,其中Xi*p*p表示第i个药品的二维特征,Di*p*p表示第i个药品的预测谱:
ei,t=mean(|Xi*p*p-Di*p*p|)(i=1,...,n) (7)
步骤6,计算训练集中每个药品的损失函数Li,t,其表达式如下:
Li,t=ei,t/Yi(i=1,...,n) (8)
其中Yi表示第i个药品的真实活性物质含量。
步骤7,计算当前迭代的子模型的平均损失
Figure FDA0003217255370000013
和置信指标βt
Figure FDA0003217255370000014
Figure FDA0003217255370000015
步骤8,更新训练集中的药品二维特征的权重
Figure FDA0003217255370000016
步骤9,最后,经过T次迭代,建立了T个PLS子模型,训练完毕。测试集中的未知药品的最终预测是通过使用T个子模型的每个预测的加权平均得到的:
Figure FDA0003217255370000017
其中,
Figure FDA0003217255370000018
表示第t个子模型对第i个未知药品的预测结果,
Figure FDA0003217255370000019
表示第i个未知药品的最终预测结果。
2.根据权利要求1所述的基于DWI-BPLS的药品API预测方法,其特征在于:
药品的一维原始特征通过NDI、DI、RI、MI中的任意一种双波段变换方法变为二维数据Xm*p*p,形成为p×p个波段,其中四种双波段变换公式分别如下:
NDI=(Ri-Rj)/(Ri+Rj) (1)
DI=Ri-Rj (2)
RI=Ri/Rj (3)
MI=Ri·Rj (4)
其中,Ri和Rj分别是药品在波数i和j上的光谱吸光度值。
CN202110951926.9A 2021-08-18 2021-08-18 基于dwi-bpls的药品api预测方法 Pending CN113959973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110951926.9A CN113959973A (zh) 2021-08-18 2021-08-18 基于dwi-bpls的药品api预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110951926.9A CN113959973A (zh) 2021-08-18 2021-08-18 基于dwi-bpls的药品api预测方法

Publications (1)

Publication Number Publication Date
CN113959973A true CN113959973A (zh) 2022-01-21

Family

ID=79460496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110951926.9A Pending CN113959973A (zh) 2021-08-18 2021-08-18 基于dwi-bpls的药品api预测方法

Country Status (1)

Country Link
CN (1) CN113959973A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226160A1 (en) * 2006-03-22 2007-09-27 Sony Corporation Method and system for transitioning from a case-based classifier system to a rule-based classifier system
CN101894297A (zh) * 2009-05-22 2010-11-24 索尼公司 判别设备、判别方法和计算机程序
CN103528990A (zh) * 2013-10-31 2014-01-22 天津工业大学 一种近红外光谱的多模型建模方法
CN105628670A (zh) * 2014-10-28 2016-06-01 河北伊诺光学科技有限公司 一种适于橄榄油掺杂识别的二维相关光谱多尺度建模方法
CN106248589A (zh) * 2016-06-29 2016-12-21 辽宁科技学院 一种基于光谱检测灵芝提取物多糖含量的方法
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN110687053A (zh) * 2019-10-08 2020-01-14 中国科学院地理科学与资源研究所 一种基于高光谱影像的区域有机质含量估算方法和装置
CN111275571A (zh) * 2020-01-14 2020-06-12 河海大学 考虑微气象与用户模式的居民负荷概率预测深度学习方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226160A1 (en) * 2006-03-22 2007-09-27 Sony Corporation Method and system for transitioning from a case-based classifier system to a rule-based classifier system
CN101894297A (zh) * 2009-05-22 2010-11-24 索尼公司 判别设备、判别方法和计算机程序
CN103528990A (zh) * 2013-10-31 2014-01-22 天津工业大学 一种近红外光谱的多模型建模方法
CN105628670A (zh) * 2014-10-28 2016-06-01 河北伊诺光学科技有限公司 一种适于橄榄油掺杂识别的二维相关光谱多尺度建模方法
CN106248589A (zh) * 2016-06-29 2016-12-21 辽宁科技学院 一种基于光谱检测灵芝提取物多糖含量的方法
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN110687053A (zh) * 2019-10-08 2020-01-14 中国科学院地理科学与资源研究所 一种基于高光谱影像的区域有机质含量估算方法和装置
CN111275571A (zh) * 2020-01-14 2020-06-12 河海大学 考虑微气象与用户模式的居民负荷概率预测深度学习方法

Similar Documents

Publication Publication Date Title
Padarian et al. Using deep learning to predict soil properties from regional spectral data
Junior et al. Multi-target prediction of wheat flour quality parameters with near infrared spectroscopy
WO2021073541A1 (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
CA2646890C (en) A system, method, and computer program product for analyzing spectrometry data to indentify and quantify individual components in a sample
UA86820C2 (uk) Спосіб створення незалежних багатомірних градуювальних моделей
CN109409350B (zh) 一种基于pca建模反馈式载荷加权的波长选择方法
CN109564199A (zh) 分析数据处理方法和分析数据处理装置
CN110726694A (zh) 光谱变量梯度集成遗传算法的特征波长选择方法和系统
US20220113250A1 (en) Method for Near-Infrared Spectral Wavelength Selection Based on Improved Team Progress Algorithm
CN109187443A (zh) 基于多波长透射光谱的水体细菌微生物准确识别方法
CN105608296B (zh) 一种基于荔枝冠层光谱的叶片钾浓度反演方法
Farrokhnia et al. Variable selection in multivariate calibration based on clustering of variable concept
CN110736707A (zh) 一种主仪器向从仪器光谱模型传递的光谱检测优化方法
CN106529008A (zh) 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法
Liu et al. Estimating leaf chlorophyll contents by combining multiple spectral indices with an artificial neural network
Yang et al. Rapid authentication of variants of Gastrodia elata Blume using near-infrared spectroscopy combined with chemometric methods
María et al. Determination of uncertainty in the measurement of Aflatoxins B1 in pistachio nuts by the HPLC-FLD method
Chen et al. Classification of wheat grain varieties using terahertz spectroscopy and convolutional neural network
Yu et al. Application of quantitative non-destructive determination of protein in wheat based on pretreatment combined with parallel convolutional neural network
CN113959973A (zh) 基于dwi-bpls的药品api预测方法
Liu et al. Applying Tchebichef image moments to quantitative analysis of the components in complex samples based on raw NIR spectra
CN115795225A (zh) 一种近红外光谱校正集的筛选方法及装置
Yu et al. A weighted ensemble method based on wavelength selection for near-infrared spectroscopic calibration
CN109520964A (zh) 基于nirs的种子活力测定方法、系统及存储介质
Gao et al. Research of the content of nutrient elements caused by anthracnose to Camellia oleifera using LIBS technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination