CN111538959B - 基于机器学习技术的液相色谱分离仪的梯度推荐方法 - Google Patents

基于机器学习技术的液相色谱分离仪的梯度推荐方法 Download PDF

Info

Publication number
CN111538959B
CN111538959B CN202010320892.9A CN202010320892A CN111538959B CN 111538959 B CN111538959 B CN 111538959B CN 202010320892 A CN202010320892 A CN 202010320892A CN 111538959 B CN111538959 B CN 111538959B
Authority
CN
China
Prior art keywords
gradient
coefficient
evaluation
cost
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010320892.9A
Other languages
English (en)
Other versions
CN111538959A (zh
Inventor
王柯
陶亚辉
徐波
仇文军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGZHOU SANTAI TECHNOLOGY CO LTD
Original Assignee
CHANGZHOU SANTAI TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANGZHOU SANTAI TECHNOLOGY CO LTD filed Critical CHANGZHOU SANTAI TECHNOLOGY CO LTD
Priority to CN202010320892.9A priority Critical patent/CN111538959B/zh
Publication of CN111538959A publication Critical patent/CN111538959A/zh
Application granted granted Critical
Publication of CN111538959B publication Critical patent/CN111538959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Treatment Of Liquids With Adsorbents In General (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)

Abstract

本发明提供了一种基于机器学习技术的液相色谱分离仪的梯度推荐方法,包括构建评价系数和获得梯度推荐算法模型:构建评价系数包括设置至少基于分离度系数esep、溶剂成本系数esol、分离柱成本系数ecol和时间成本系数etime的评价系数e;获得梯度推荐算法模型包括构建基于包含评价系数e在内的影响因子的梯度走势G;将梯度走势G在机器学习模型中进行学习,以获得梯度推荐算法模型。本发明方法积累用户预设置的TLC(薄层色谱分析)信息,以及其他实验数据,包括分离柱型号、流速、收集方式等作为多种已知维度,通过实验结果评定方法作为需计算的分析维度,拟合出优化的预设梯度,从而降低用户使用仪器的人工成本,以及仪器分离的实验成本。

Description

基于机器学习技术的液相色谱分离仪的梯度推荐方法
技术领域
本发明涉及一种化学材料测试技术,特别是一种基于机器学习技术的液相色谱分离仪的梯度推荐方法。
背景技术
设置梯度是液相色谱分离仪器中一个关键环节。当使用者需要分离某类未知合成物时需要不断尝试设置不同的梯度,从而找到分离合成物的最佳梯度比例。由于目前的分离方法都是评价操作人员的经验进行梯度设置,存在严重的耗时和增加实验成本的问题,例如实验人员在做梯度分离中将耗费时间观测不同梯度的分离效果,尝试不同的梯度比例也将耗费更多的比例溶剂以及样品。
发明内容
本发明的目的在于提供一种基于机器学习技术的液相色谱分离仪的梯度推荐方法,通过该方法能够合理得出推荐梯度,从而降低用户使用仪器的人工成本,以及仪器分离的实验成本。
实现本发明目的的技术方案为:一种基于机器学习技术的液相色谱分离仪的梯度推荐方法,方法包括:
构建评价系数:设置至少基于分离度系数esep、溶剂成本系数esol、分离柱成本系数ecol和时间成本系数etime的评价系数e;
获得梯度推荐算法模型:构建基于包含评价系数e在内的影响因子的梯度走势G,将梯度走势G在机器学习模型中进行学习,以获得梯度推荐算法模型。
进一步,设einit-sep=einit-sol=einit-col=einit-time,einit-cep、einit-sol、einit-coleinit-time分别为esep、esol、ecol、etime初始值;
不同维度的评价方法包括:
(1)分离度系数esep取值如下
其中,Rn为标准分离时每个峰的分离间隔,[Rmin,Rmax]为标准分离阈值范围,d1、d2为变化斜率,ΔR为Rn的变化值;
(2)溶剂成本系数esol取值如下
其中,CVbase为消耗柱体积基础值,ΔCV为消耗柱体积的偏移量;
(3)分离柱成本系数ecol取值如下
ecol=f3(sc)
其中,sc为分离柱的选型;
(4)时间成本系数etime取值如下
其中,Tbase为预设的时间基准,ΔT为最小时间变化单元;
f1(*)、f2(*)、f3(*)、f4(*)、f5(*)均为y=kx+d形式表示,f(*)为机器学习算法。
进一步,所述机器学习模型为线性回归模型。
进一步,评价系数e的取值如下:e=w1’esep+w2’esol+w3’ecol+w4’etime
其中,w1’、w2’、w3’、w4’为权重且w1’+w2’+w3’+w4’=1。
进一步,获得梯度推荐算法模型的步骤包括:
对收集的某一类包含影响因子的实验数据进行清洗;
将清洗后的实验数据划分为训练集和测试集;
构建基于包含评价系数e在内的影响因子的梯度走势G;
将梯度走势G带入机器学习模型中利用训练集利用训练集进行训练,得到梯度推荐预测模型;
使用测试集对梯度推荐预测模型进行评估;
根据评估结果调整梯度推荐预测模型,最终得到梯度推荐算法模型。
进一步,所述的影响因子包括:
(1)目标物和起始物的RF值为其中A、B、C等分别表示目标物或起始物;
(2)固定相系数sp:至少包括分离柱体积Xcv、材质Xm、活度Xal
(3)流动相系数mp:至少包括极性Xmpp、黏度Xmpv
(4)其他系数o:至少包括上样体积Xsv、展开方式Xdm、展开槽湿度Xh、温度Xtem
(5)基于评价体系的评价系数Xe;其中,Xe=e。
进一步,获得梯度推荐算法模型的步骤具体包括:
步骤2.0:对收集的某一类包含影响因子的实验数据进行清洗;
步骤2.1:清洗后的实验数据随机的分为k个与t个数据,其中k个数据为训练集,t个数据为测试集;
步骤2.2:构建基于包含评价系数e在内的影响因子的梯度走势G,梯度走势G的公式如下:
其中,w1,w2...wm分别为m个影响因子的相关系数,b为偏移量,对于k个数据有其中/>分别为模型的影响因子;
步骤2.3:将梯度走势G导入机器学习模型中学习,得到相关系数矩阵即梯度推荐预测模型;
步骤2.4:将相关系数矩阵wT代入测试集中,运用基于交叉验证法的代价函数,得出偏差值J(w)
其中,代价函数hw(x)=w1x(1)+w2x(2)+...+wmx(m)+b,y(i)表示测试集中测试数据的实际值,x(i)表示每个数据中所涉及的影响因子,b为偏移量;
步骤2.5:若J(w)<θ,则梯度推荐算法模型为相关系数矩阵wT,否则返回步骤2.2,重新调试w1,w2...wm与偏移量b,执行步骤2.2至步骤2.5,直至J(w)<θ:其中,θ为预设值。
进一步,k=2t。
进一步,设置评价系数阈值E,过滤掉评价系数Xe<E的实验。
本发明与现有技术相比,具有以下优点:本发明积累用户预设置的TLC(薄层色谱分析)信息,以及其他实验数据,包括分离柱型号、流速、收集方式等作为多种已知维度,通过实验结果评定方法作为需计算的分析维度,拟合出优化的预设梯度,从而降低用户使用仪器的人工成本,以及仪器分离的实验成本。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1为梯度推荐算法流程图。
图2为波段显示图谱以及峰值间隔Rn显示示意图。
图3为实验参数输入与影响因子记录示意图。
图4为实验参数输入与影响因子记录示意图。
图5为实验参数输入与影响因子记录示意图。
图6为梯度优化后的实验图谱示意图。
具体实施方式
结合图1,基于机器学习技术的液相色谱分离仪的梯度推荐方法,包括以下步骤:
步骤S100,构建实验最终评价系数e;
步骤S200,预设梯度推荐的影响因子;
步骤S300,按类别累计用户每次进行实验的实验数据并按影响因子作为参数记录,当类别中数据量累计超过N时,激活算法;
步骤S400,判断仪器是否有用户正在操作,如果用户正在操作仪器,则等待用户操作结束;否则进行模型计算;
步骤S500,模型计算时首先预处理实验数据,也就是对实验数据进行清洗,其可包括对数据为空的影响因子填写默认值,过滤异常采集的数据与丢失率超过r%的因子,正则化等;
步骤S600,将某一类实验数据随机的分为k个与t个数据,其中k个数据为训练数据,t个数据为测试数据;优选地,其中,k=2t;
步骤S700,获取基于分离柱体积cv和分离溶剂百分比Bp的梯度走势G(cv,Bp),其中cv表示分离柱体积,Bp表示分离溶剂百分比;
步骤S800,将G(cv,Bp)导入机器学习模型中学习,得到相关系数矩阵wT
步骤S900,将相关系数矩阵wT代入t个测试数据中,运用基于交叉验证法的代价函数得出偏差值J(w);
步骤S1000,若J(w)<θ,则梯度推荐算法模型即为相关系数矩阵wT,否则转步骤S700重新调试w1,w2...wm与偏移量b;其中,θ为预设值。
具体地,在步骤S100和步骤S200之间还可包括步骤:设置评价系数阈值E,若某一实验的评价系数e<E时,则判定此实验为非标准分离实验,将其过滤。
步骤S100中构建最终评价系数要用到实验评价体系,体系包括分离度系数esep、溶剂成本系数esol、分离柱成本系数ecol、时间成本系数etime四个维度,具体过程为:
步骤S101,设置einit-sep=einit-sol=einit-col=einit-tinte,einit-sep、einit-sol、einit-col、einit-tinte分别为esep、esol、ecol、etime初始值;
步骤S102,获取分离度系数esep
其中,Rn为标准分离时每个峰的分离间隔,如图2所示中R1与R2就为峰的分离间隔,[Rmin,Rmax]为标准分离阈值范围,d1、d2为变化斜率,ΔR为Rn的变化值;
步骤S103,获取溶剂成本系数esol的取值如下
其中,CVbase为消耗柱体积基础值,ΔCV为消耗柱体积的偏移量;
步骤S104,获取分离柱成本系数ecol
ecol=f3(sc)
其中,sc为分离柱的选型;
步骤S105,时间成本系数etime
其中,Tbase为预设的时间基准,ΔT为最小时间变化单元;
步骤S106,评价系数e的取值如下
e=w1’esep+w2’esol+w3’ecol+w4’etime
其中,w1’、w2’、w3’、w4’为权重且w1’+w2’+w3’+w4’=1。
步骤S102至S105中涉及的f1(*)、f2(*)、f3(*)、f4(*)、f5(*)均为y=kx+d形式表示;f(*)为机器学习算法,包括但不限于线性回归与支持向量回归算法。
步骤S200中所述的影响因子包括:
(1)目标物和起始物的RF值其中A、B、C...表示目标物或起始物;
(2)固定相系数sp:至少包括分离柱体积Xcv、材质Xm、活度Xal
(3)流动相系数mp:至少包括极性Xmpp、黏度Xmpv
(4)其他系数o:至少包括上样体积Xsv、展开方式Xdm、展开槽湿度Xh、温度Xtem
(5)基于评价体系的评价系数Xe;其中,Xe=e。
步骤S700中,梯度走势G可通过公式表示如下:
其中,w1,w2...wm分别为m个影响因子的相关系数,b为偏移量,分别为各类影响因子的集合,对于k个训练数据中有/>其中,/>为第j个训练数据中的影响因子,j∈[1,k]。
步骤S800中,该式中的w1,w2...wm为训练后得到的m个影响因子的相关系数;
步骤S900中,
其中,代价函数hw(x)=wix(1)+w2x(2)+...+wmx(m)+b,y(i)表示测试数据的实际值,x(i)表示每个数据中所涉及的影响因子,即为第i个测试数据中的影响因子,b为偏移量。
综上所述,通过本实施例的方法能够合理得出推荐梯度,从而降低用户使用仪器的人工成本,以及仪器分离的实验成本。
如图3、图4、图5所示,用户在实验前将设置多个参数作为判别条件获取对应的推荐梯度,并且这些参数也将在实验后作为影响因子计入对应的算法模型。如图6所示为通过梯度推荐获取的最终实验图谱。其中
图3中英文注释分别为
Project No:实验编号
CAS:化合物的编号(业界内通用)
NAME:化合物名称
Formula:化合物结构式
图4中英文注释分别为
SolventA:流动相管路A使用的溶剂
SollventB:流动相管路B使用的溶剂
RF1、RF2、RF3:为使用薄层色谱法时比移值和与对照物的对比值。
图5中英文注释分别为
Sample Loading:上样量
Flash Column:固定相使用的分离柱型号
Flow Rate:实验流速
UV1、UV2:固定波长通道
Collection Mode:收集形式
Threshold:收集形式为阈值收集时的阈值设置
Volume:每个试管收集体积
Tube racks:试管架收集切管模式
Starting Tube rack:开始收集的试管架编号
图5中英文注释分别为
mAu:吸收度单位
B%:梯度。

Claims (7)

1.一种基于机器学习技术的液相色谱分离仪的梯度推荐方法,其特征在于,方法包括;
构建评价系数:设置至少基于分离度系数esep、溶剂成本系数esol、分离柱成本系数ecol和时间成本系数etime的评价系数e;
获得梯度推荐算法模型:构建基于影响因子的梯度走势G,将梯度走势G在机器学习模型中进行学习,以获得梯度推荐算法模型;
评价系数e的取值如下:e=wi’esep+w2’esot+w3’ecol+w4’etime
其中,w1’、w2’、w3’、w4’为权重且w1’+w2’+w3’+w4’=1;
所述影响因子中包括评价系数e;
获得梯度推荐算法模型的步骤包括:
对收集的某一类包含影响因子的实验数据进行清洗;
将清洗后的实验数据划分为训练集和测试集;
构建基于包含评价系数e在内的影响因子的梯度走势G;
将梯度走势G带入机器学习模型中利用训练集进行训练,得到梯度推荐预测模型;
使用测试集对梯度推荐预测模型进行评估;
根据评估结果调整梯度推荐预测模型,最终得到梯度推荐算法模型。
2.根据权利要求1所述的方法,其特征在于,
设einit-sep=einit-sol=einit-col=einit-time,emit-sep,einit-sol、einit-col、einit-time分别为esep、esol、ecol、etime初始值;
不同维度的评价方法包括:
(1)分离度系数esep取值如下
其中,Rn为标准分离时每个峰的分离间隔,[Rmin,Rmax]为标准分离阈值范围,d1、d2为变化斜率,ΔR为Rn的变化值;
(2)溶剂成本系数esol取值如下
其中,CVbase为消耗柱体积基础值,ΔCV为消耗柱体积的偏移量;
(3)分离柱成本系数ecol取值如下
ecol=f3(sc)
其中,sc为分离柱的选型;
(4)时间成本系数etime取值如下
其中,Tbase为预设的时间基准,ΔT为最小时间变化单元;
f1(*)、f2(*)、f3(*)、f4(*)、f5(*)均为y=kx+d形式表示,f(*)为机器学习算法。
3.根据权利要求1所述的方法,其特征在于,
所述机器学习模型为线性回归模型。
4.根据权利要求1所述的方法,其特征在于,
所述的影响因子包括:
(1)目标物和起始物的RF值为其中A、B、C分别表示目标物或起始物;
(2)固定相系数sp:至少包括分离柱体积Xcv、材质Xm、活度Xal
(3)流动相系数mp:至少包括极性Xmpp、黏度Xmpv
(4)其他系数o:至少包括上样体积Xsv、展开方式Xdm、展开槽湿度Xh、温度Xtem
(5)基于评价体系的评价系数Xe;其中,Xe=e。
5.根据权利要求4所述的方法,其特征在于,
获得梯度推荐算法模型的步骤具体包括:
步骤2.0:对收集的某一类包含影响因子的实验数据进行清洗;
步骤2.1:清洗后的实验数据随机的分为k个与t个数据,其中k个数据为训练集,t个数据为测试集;
步骤2.2:构建基于包含评价系数e在内的影响因子的梯度走势G,梯度走势G的公式如下:
其中,w1,w2...wm分别为m个影响因子的相关系数,b为偏移量,对于k个数据有其中/>分别为模型的影响因子;
步骤2.3:将梯度走势G导入机器学习模型中利用训练集进行训练,得到相关系数矩阵即梯度推荐预测模型;
步骤2.4:将相关系数矩阵wT代入测试集中,运用基于交叉验证法的代价函数,得出偏差值J(w)
其中,代价函数hw(x)=wix(1)+w2x(2)+...+wmx(m)+b,y(i)表示测试集中测试数据的实际值,x(i)表示每个数据中所涉及的影响因子,b为偏移量;
步骤2.5:若J(w)<θ,则梯度推荐算法模型为相关系数矩阵wT,否则返回步骤2.2,重新调试w1,w2...wm与偏移量b,执行步骤2.2至步骤2.5,直至J(w)<θ;其中,θ为预设值。
6.根据权利要求5所述的方法,其特征在于,
k=2t。
7.根据权利要求5所述的方法,其特征在于,
设置评价系数阈值E,过滤掉评价系数Xe<E的实验。
CN202010320892.9A 2020-04-22 2020-04-22 基于机器学习技术的液相色谱分离仪的梯度推荐方法 Active CN111538959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010320892.9A CN111538959B (zh) 2020-04-22 2020-04-22 基于机器学习技术的液相色谱分离仪的梯度推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010320892.9A CN111538959B (zh) 2020-04-22 2020-04-22 基于机器学习技术的液相色谱分离仪的梯度推荐方法

Publications (2)

Publication Number Publication Date
CN111538959A CN111538959A (zh) 2020-08-14
CN111538959B true CN111538959B (zh) 2023-09-01

Family

ID=71977002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010320892.9A Active CN111538959B (zh) 2020-04-22 2020-04-22 基于机器学习技术的液相色谱分离仪的梯度推荐方法

Country Status (1)

Country Link
CN (1) CN111538959B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05312795A (ja) * 1992-05-08 1993-11-22 Jeol Ltd グラジェント測定方法及び装置
CN101400418A (zh) * 2006-03-17 2009-04-01 沃特世投资有限公司 保持流体完整性和预先形成梯度的适于液相色谱的溶剂输送系统
CN103063753A (zh) * 2012-08-31 2013-04-24 西安奥岚科技开发有限责任公司 用于蛋白分离的多维液相色谱分离系统及分离方法
CN104931625A (zh) * 2014-03-19 2015-09-23 道尼克斯索芙特隆公司 梯度延迟体积的调节方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05312795A (ja) * 1992-05-08 1993-11-22 Jeol Ltd グラジェント測定方法及び装置
CN101400418A (zh) * 2006-03-17 2009-04-01 沃特世投资有限公司 保持流体完整性和预先形成梯度的适于液相色谱的溶剂输送系统
CN103063753A (zh) * 2012-08-31 2013-04-24 西安奥岚科技开发有限责任公司 用于蛋白分离的多维液相色谱分离系统及分离方法
CN104931625A (zh) * 2014-03-19 2015-09-23 道尼克斯索芙特隆公司 梯度延迟体积的调节方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
艾明泽 等.化学计量培训教程.中国质检出版社,2016,第240-241页. *

Also Published As

Publication number Publication date
CN111538959A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
DE69631465T2 (de) Verfahren und Vorrichtung zur Analyse des Partikelgehaltes von Gasen
CN111538959B (zh) 基于机器学习技术的液相色谱分离仪的梯度推荐方法
WO2009128442A1 (ja) 影響要因特定方法
NO322581B1 (no) Fremgangsmate ved fremstilling av smoreoljer
JPS61180138A (ja) 液体クロマトグラフィーによる未知試料の分離を最適化する方法
US4928537A (en) System for airborne particle measurement in a vacuum
DE102014226804A1 (de) Verfahren zum Herstellen einer Gassensorvorrichtung zum Erfassen zumindest eines gasförmigen Analyten in einem Messmedium sowie Verfahren und Gassensorvorrichtung zum Erfassen zumindest eines gasförmigen Analyten in einem Messmedium
DE102018122860A1 (de) Verfahren zum Betreiben einer Sensorvorrichtung
JP3583771B2 (ja) クロマトグラム解析方法
CN110031586B (zh) 用于高效液相色谱流动相比例梯度优化方法
EP3847456B1 (de) Analyse eines in einem isoliermedium eines hochspannungsgeräts gelösten gases
JP4009737B2 (ja) クロマトグラム用解析装置
GB2215232A (en) Automatic chromatography apparatus
DE102018210387A1 (de) Sensorvorrichtung zum Detektieren von Gasen
CN112585464A (zh) 控制制备液相色谱的方法和系统
NO965586L (no) Fremgangsmåte ved bestemmelse av verdien av en fysisk störrelse
US6710872B1 (en) System for spectrometry
JPWO2004083847A1 (ja) 液体クロマトグラフおよびプレヒート条件設定方法
EP0354486A2 (de) Vorrichtung zur Durchführung eines Verfahrens zum Zwecke der Identifizierung und Quantifizierung unbekannter gasförmiger Substanzen
CN209727872U (zh) 一种mto催化剂色谱采样装置
JPH05204407A (ja) プロセスの特性予測方法ならびにその予測方法を用いたプロセスの監視方法およびプロセスの制御方法
JPH11108809A (ja) 定容量試料採取装置およびこれを用いたガス分析方法
Patil et al. Reintegration of Chromatogram to Enhance the Accuracy in Gas Chromatography
JP2000354499A (ja) 核酸測定装置
WO2019185630A1 (en) Quality inspection method for polyurethane samples, electronic nose device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant