CN105718744B - 一种基于深度学习的代谢质谱筛查方法及系统 - Google Patents

一种基于深度学习的代谢质谱筛查方法及系统 Download PDF

Info

Publication number
CN105718744B
CN105718744B CN201610049879.8A CN201610049879A CN105718744B CN 105718744 B CN105718744 B CN 105718744B CN 201610049879 A CN201610049879 A CN 201610049879A CN 105718744 B CN105718744 B CN 105718744B
Authority
CN
China
Prior art keywords
training
layer
deep learning
output
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610049879.8A
Other languages
English (en)
Other versions
CN105718744A (zh
Inventor
纪震
周家锐
殷夫
朱泽轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201610049879.8A priority Critical patent/CN105718744B/zh
Publication of CN105718744A publication Critical patent/CN105718744A/zh
Priority to US15/198,609 priority patent/US20170213000A1/en
Application granted granted Critical
Publication of CN105718744B publication Critical patent/CN105718744B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开一种基于深度学习的代谢质谱筛查方法及系统。本发明以现有的代谢质谱数据库为基础,通过提取并整合特定种类(如疾病)的代谢质谱样本,用于训练深度学习网络,使其可同时判定多种类别状态。而后将此网络用于实际输入代谢质谱的筛查。

Description

一种基于深度学习的代谢质谱筛查方法及系统
技术领域
本发明涉及代谢质谱筛查领域,尤其涉及一种基于深度学习的代谢质谱筛查方法及系统。
背景技术
代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰富的生理状态信息。代谢组学基于对代谢物的整体系统性研究,可有效揭示生理现象背后的真实机理,并更为全面地展示生命体的动态状态。因此获得了越来越多的重视,被广泛应用于诸多科研与实用领域中。质谱分析(Mass Spectrometry,MS)是代谢组学最为重要的研究工具之一,可有效鉴别不同的代谢物质,并准确衡量其相对浓度,数据形式如图1和图2所示。疾病检测是代谢质谱主要的应用范畴之一。通过定量测定目标代谢物的存在与丰度变化,可获得较传统方法更为丰富、完整的生理数据,对疾病的存在与发展状态进行有效判定,并协助医生拟定针对性的治疗方案。
现有基于代谢质谱的检测算法(例如应用于疾病检测或预测),其流程包含三个主要步骤:1).峰值检测,将原始质谱经预处理消除噪声干扰,获取有效峰值。常用的预处理算法包括正规化(Standardization)、PCA白化、ZCA白化等;2).峰值注释(Annotation),判定目标峰值(群)所对应的具体代谢物质种类。这一过程往往由实验人员人工完成,但近年来也出现了基于机器学习与人工神经网络的自动注释算法,获得了较好的效果;3).疾病判定,以生物标志物数据库为基础,通过分析特定代谢物的出现、消失或浓度变化,预测可能发生的疾病类型与发展状态。常用的生物标志物数据库包括小分子代谢途径数据库(SMPDB)、人类代谢物数据库(HMDB)等,而常用的判定算法包括支持向量机分类器(SupportVector Machine Classifier)等。
深度学习网络是目前机器学习与人工神经网络领域最前沿、性能最佳的分析方法之一。在复杂认知问题上具有远优于传统算法的预测能力,泛化性能良好,并可同时对多个目标状态进行判定。获得了学术与工业界的高度重视,已被成功应用于计算机视觉、音频识别等重要领域中。
现有基于代谢质谱的检测方法,其缺点在于:
第一,现有方法需对质谱峰值进行判定与注释,以确定其对应的代谢物种类。这一过程往往要求专业人员的深度参与,即使利用了机器学习等自动化算法,仍需要人工对注释结果进行最终判定与调整。从而增加了应用成本与难度。此外,由于当前代谢组学知识仍有着大量缺失,通常在质谱中仅有不到一半的峰值可被成功注释,其平均置信度也较低。从而对于许多状态并不能进行有效预测。
第二,现有方法需针对每种特定类别,分析与其关联的各代谢标志物变化情况,才能对状态作出大致判断。这一过程较为复杂,需大量人工干预。且若部分标志物未能被成功注释,或其注释的置信度较低,或噪声信号被错误注释为代谢标志物,都将严重影响预测准确度。
第三,现有方法在每次进行分析时,仅能判定单一的状态。而在实际应用中,往往需检测多种不同的状态。若对其进行逐一分析,所需时间及成本都较高。如何设计并行化算法,在单次运行中同时筛查多个状态,是当前亟需解决的重要问题。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种基于深度学习的代谢质谱筛查方法及系统,旨在解决现有的代谢质谱检测方法其过程复杂、准确度低、时间及成本高等问题。
本发明的技术方案如下:
一种基于深度学习的代谢质谱筛查方法,其中,包括步骤:
A、获得训练样本数据集S={S1,S2,…Sn,…,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),…(md,id),…],md和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应的类标矢量为c={c1,c2,…,cN};
B、对S中的每个质谱进行预处理得到代谢质谱特征数据集T={T1,T2,…,TN};
C、构造类标集合为C=[C1,C2,…,CN],设若原类标矢量c中的任意样本类标cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
D、将预处理后的代谢质谱特征数据集T={T1,T2,…,TN}与类标集合C用于深度学习网络的训练;
E、构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构,其中输入层具有2D个节点,输出层具有K个节点,对于任意第l∈L个隐含层,设其节点数为Pl,且具有递减关系Pl-1>Pl,D为从Sn中选择强度值最高的谱线数量;
F、使用栈式自编码器分别训练各隐含层;
G、使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;
H、在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络;
I、使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;
J、在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。
所述的基于深度学习的代谢质谱筛查方法,其中,在步骤J中,对于新输入的代谢质谱样本S,先进行预处理,获得特征矢量T,而后送入代谢质谱筛查深度学习网络进行并行预测,获得对应的输出状态矢量为O。
所述的基于深度学习的代谢质谱筛查方法,其中,所述步骤B具体包括:
B1、从Sn中选择强度值最高的D条谱线,形成具有相同维度的质谱矢量S* n=[(m1,i1),(m2,i2),…,(mD,iD)],若Sn原长度小于D,则添加(0,0)谱线补齐;
B2、提取S* n的强度矢量为In=[i1,i2,…,iD],对其进行正规化,使其在每个维度上的数值都具有0均值及单位方差:
其中μn、δn分别为In的均值与方差;
B3、提取S* n的质核比矢量为Mn=[m1,m2,…,mD],将其与预处理后的In拼接,构造质谱特征矢量为Tn=[m1,m2,…,mD,i* 1,i* 2,…,i* D],其包含2D个特征值。
所述的基于深度学习的代谢质谱筛查方法,其中,所述步骤F具体包括:
F1、设若当前训练的为第l个隐含层,构造3层自编码训练网络;
F2、使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数,则当前隐含层节点输出为:
其中Wh l为隐含层权值矩阵,Bh l为隐含层偏置矢量,Hl-1为第l-1层的隐含节点输出,Hl-1=[hl-1,1,hl-1,2,…,hl-1,Pl-1];
F3、自编码训练网络输出层的节点输出为:
其中Wo l为输出层权值矩阵,Bo l为输出层偏置矢量。输出矢量Ol=[ol,1,ol,2,…,ol,Pl-1]同样包含Pl-1个数值;
F4、定义差异代价函数为:
其中‖·‖2表示矢量差值的2范数,此外,基于l1正则化定义稀疏因子为:
ρl=‖Hl1
F5、定义完整的代价函数为:
Jl=Ψl+λρl
其中λ为拉格朗日乘数;
F6、基于此完整的代价函数,使用反向传播算法训练Wh l、Bh l、Wo l及Bo l的数值,获得最佳的隐含层训练结果;
F7、更新l=l+1,若l<L则转至步骤F1。
所述的基于深度学习的代谢质谱筛查方法,其中,所述步骤G具体包括:
G1、设当前训练的为输出层第k个节点,定义其差异代价函数为:
其中θs k为输出层节点k的参数矩阵θk在第s∈S行的行矢量;S=2为该节点所表示的状态总个数;bk为偏置值;函数1s()为示性函数,其中On k为输出层节点k在输入为HL n时的输出,其值计算方法如下:
其中HL n为最后的隐含层在使用样本Tn训练时的输出;
G2、定义稀疏因子为参数矩阵的1范数:
G3、定义完整的代价函数为:
Jk=Ψk+λρk
其中λ为拉格朗日乘数;
G4、更新更新k=k+1,若k<K则转至步骤G1。
一种基于深度学习的代谢质谱筛查系统,其中,包括:
数据获取模块,用于获得训练样本数据集S={S1,S2,…Sn,…,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),…(md,id),…],md和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应的类标矢量为c={c1,c2,…,cN};
预处理模块,用于对S中的每个质谱进行预处理得到代谢质谱特征数据集T={T1,T2,…,TN};
类标集合构造模块,用于构造类标集合为C=[C1,C2,…,CN],设若原类标矢量c中的任意样本类标cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
学习模块,用于将预处理后的代谢质谱特征数据集T={T1,T2,…,TN}与类标集合C用于深度学习网络的训练;
深度学习网络结构构造模块,用于构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构,其中输入层具有2D个节点,输出层具有K个节点,对于任意第l∈L个隐含层,设其节点数为Pl,且具有递减关系Pl-1>Pl,D为从Sn中选择强度值最高的谱线数量;
隐含层训练模块,用于使用栈式自编码器分别训练各隐含层;
输出层训练模块,用于使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;
代谢质谱筛查深度学习网络构造模块,用于在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络;
微调模块,用于使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;
检测模块,用于在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。
所述的基于深度学习的代谢质谱筛查系统,其中,在检测模块中,对于新输入的代谢质谱样本S,先进行预处理,获得特征矢量T,而后送入代谢质谱筛查深度学习网络进行并行预测,获得对应的输出状态矢量为O。
所述的基于深度学习的代谢质谱筛查系统,其中,所述预处理模块具体包括:
选择单元,用于从Sn中选择强度值最高的D条谱线,形成具有相同维度的质谱矢量S* n=[(m1,i1),(m2,i2),…,(mD,iD)],若Sn原长度小于D,则添加(0,0)谱线补齐;
正规化单元,用于提取S* n的强度矢量为In=[i1,i2,…,iD],对其进行正规化,使其在每个维度上的数值都具有0均值及单位方差:
其中μn、δn分别为In的均值与方差;
拼接单元,用于提取S* n的质核比矢量为Mn=[m1,m2,…,mD],将其与预处理后的In拼接,构造质谱特征矢量为Tn=[m1,m2,…,mD,i* 1,i* 2,…,i* D],其包含2D个特征值。
所述的基于深度学习的代谢质谱筛查系统,其中,所述隐含层训练模块具体包括:
训练网络构造单元,用于设若当前训练的为第l个隐含层,构造3层自编码训练网络;
隐含层节点输出单元,用于使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数,则当前隐含层节点输出为:
其中Wh l为隐含层权值矩阵,Bh l为隐含层偏置矢量,Hl-1为第l-1层的隐含节点输出,Hl-1=[hl-1,1,hl-1,2,…,hl-1,Pl-1];
输出层节点输出单元,用于自编码训练网络输出层的节点输出为:
其中Wo l为输出层权值矩阵,Bo l为输出层偏置矢量。输出矢量Ol=[ol,1,ol,2,…,ol,Pl-1]同样包含Pl-1个数值;
第一差异代价函数定义单元,用于定义差异代价函数为:
其中‖·‖2表示矢量差值的2范数,此外,基于l1正则化定义稀疏因子为:
ρl=‖Hl1
第一完整代价函数定义单元,用于定义完整的代价函数为:
Jl=Ψl+λρl
其中λ为拉格朗日乘数;
隐含层训练单元,用于基于此完整的代价函数,使用反向传播算法训练Wh l、Bh l、Wo l及Bo l的数值,获得最佳的隐含层训练结果;
第一更新单元,用于更新l=l+1,若l<L则转至训练网络构造单元。
所述的基于深度学习的代谢质谱筛查系统,其中,所述输出层训练模块具体包括:
第二差异代价函数定义单元,用于设当前训练的为输出层第k个节点,定义其差异代价函数为:
其中θs k为输出层节点k的参数矩阵θk在第s∈S行的行矢量;S=2为该节点所表示的状态总个数;bk为偏置值;函数1s()为示性函数,其中On k为输出层节点k在输入为HL n时的输出,其值计算方法如下:
其中HL n为最后的隐含层在使用样本Tn训练时的输出;
范数定义单元,用于定义稀疏因子为参数矩阵的1范数:
第二完整代价函数定义单元,用于定义完整的代价函数为:
Jk=Ψk+λρk
其中λ为拉格朗日乘数;
第二更新单元,用于更新k=k+1,若k<K则转至第二差异代价函数定义单元。
有益效果:第一,本发面无需复杂的质谱预处理与峰值检测,只需将强度最高的部分谱线数据正规化,直接送入深度学习网络的输入层节点即可。输入数据也不仅局限于传统的一级质谱,而可使用更为先进的二级质谱(MS/MS)或NMR谱等。有效拓展了本发明的应用范围,降低了处理难度与成本。第二,本发明不依赖于峰植注释与代谢标志物变化的具体判定。在训练完成后,将不再需要专业人员的深度干预,可直接交由深度学习网络对输入的质谱进行自动分析,并行筛查所有目标状态。从而降低了实际应用中对操作人员的要求。此外,深度学习网络具有良好的鲁棒性能,即使部分代谢标志物信号被严重干扰或缺失,或代谢混合物中各分子相互作用影响谱线分布,仍可获得较为准确的判定结果。第三,本发明中的深度学习网络训练难度较大,所需时间较长。但由于属于离线过程,亦即仅需在开发系统时进行一次即可。而在后续的多次重复使用中,其判定为确定性计算,执行速度较快。且单次运行即可对目标中的所有状态进行预测,显著提升了筛查速度。而输出节点的具体数值可视作置信度权重,描述该节点对应状态的可信程度。
附图说明
图1和图2为本发明中二级质谱的数据结构示意图。
图3为本发明一种基于深度学习的代谢质谱筛查方法的流程图。
图4为本发明中使用栈式自编码器构造并训练深度学习网络的流程图。
图5为本发明中自编码训练网络的架构图。
具体实施方式
本发明提供一种基于深度学习的代谢质谱筛查方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图3,图3为本发明一种基于深度学习的代谢质谱筛查方法较佳实施例的流程图,如图所示,其包括步骤:
1)、获得训练样本数据集S={S1,S2,…Sn,…,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),…(md,id),…],md和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应的类标矢量为c={c1,c2,…,cN};
2)、对S中的每个质谱进行预处理得到代谢质谱特征数据集T={T1,T2,…,TN};
3)、构造类标集合为C=[C1,C2,…,CN],设若原类标矢量c中的任意样本类标cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
4)、将预处理后的代谢质谱特征数据集T={T1,T2,…,TN}与类标集合C用于深度学习网络的训练;
5)、构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构,其中输入层具有2D个节点,输出层具有K个节点,对于任意第l∈L个隐含层,设其节点数为Pl,且具有递减关系Pl-1>Pl,D为从Sn中选择强度值最高的谱线数量;
6)、使用栈式自编码器分别训练各隐含层;
7)、使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;
8)、在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络;
9)、使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;
10)、在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。
本发明的方法可以用来对目标疾病群中的疾病状态进行预测,但显然,其不仅限于对此进行检测,还可以对其他的代谢质谱类别进行检测,其使用范围较广。
在所述步骤1)中,当本发明应用于疾病数据的检测时,假设针对目标疾病群中包含的多种疾病,通过查询现有的代谢质谱数据库,如MetaboLights、HMBD等,整合获得训练样本数据集S={S1,S2,…,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),…(md,id),…],md、id分别为第d条谱线的质核比(Mass to Charge Ratio)与强度(Intensity)值。对应类标矢量为c={c1,c2,…,cN},其中包含K+1种类标,亦即K种目标疾病与1种无疾病的正常样本。
在所述步骤2)中,对S中的每个质谱Sn(即代谢质谱样本)进行预处理,其具体包括:
a)从Sn中选择强度值最高的D条谱线,形成具有相同维度的质谱矢量S* n=[(m1,i1),(m2,i2),…,(mD,iD)],若Sn原长度小于D,则添加(0,0)谱线补齐;
b)提取S* n的强度矢量为In=[i1,i2,…,iD],对其进行正规化,使其在每个维度上的数值都具有0均值及单位方差:
其中μn、δn分别为In的均值与方差,注意a)中添加用于维数补齐的(0,0)谱线不参与本步骤的计算。
c)提取S* n的质核比矢量为Mn=[m1,m2,…,mD],将其与预处理后的In拼接,构造质谱特征矢量为Tn=[m1,m2,…,mD,i* 1,i* 2,…,i* D],其包含2D个特征值。
在所述步骤3)中,构造类标集合为C=[C1,C2,…,CN]。设若原类标矢量C中的任意样本类标cn=k(疾病),则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量。特别的,对于无疾病的样本,其Cn为全0值K维矢量。
在所述步骤4)中,将预处理后的代谢质谱特征数据集T={T1,T2,…,TN}与类标集合C用于深度学习网络的训练。
在所述步骤5)中,如图4所示,构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构。其中输入层具有2D个节点,输出层具有K个节点。对于任意第l∈L个隐含层,设其节点数为Pl,且具有递减关系Pl-1>Pl
在所述步骤6)中,使用栈式自编码器(Stacked Autoencoder)分别训练各隐含层,其具体包括:
a)设若当前训练的为第l个隐含层,构造3层自编码训练网络如图5所示。
b)使用双曲正切函数(tanh)作为隐含层与自编码训练网络输出层的激活函数,则当前隐含层节点输出为:
其中Wh l为隐含层权值矩阵,Bh l为隐含层偏置矢量,Hl-1为第l-1层的隐含节点输出,Hl-1=[hl-1,1,hl-1,2,…,hl-1,Pl-1];若l=1,则使用输入层的2D个节点代替,亦即代谢质谱特征数据集T中的质谱Tn
c)自编码训练网络输出层的节点输出为:
其中Wo l为输出层权值矩阵,Bo l为输出层偏置矢量。输出矢量Ol=[ol,1,ol,2,…,ol,Pl-1]同样包含Pl-1个数值;
d)定义差异代价函数为:
其中‖·‖2表示矢量差值的2范数,此外,基于l1正则化(l1-Regularization)定义稀疏因子为:
ρl=‖Hl1
e)定义完整的代价函数为:
Jl=Ψl+λρl
其中λ为拉格朗日乘数,可用于约束隐含层的抽象程度。
f)基于此完整代价函数,使用反向传播算法(Backpropagation Algorithm,BP)训练Wh l、Bh l、Wo l及Bo l的数值,获得最佳的隐含层训练结果。
g)更新l=l+1,若l<L则转至6).a)。
在所述步骤7)中,训练深度学习网络的输出层,使用逻辑回归(LogisticRegression)作为输出层节点的激活函数。逐一训练这些节点,其步骤为:
a)设当前训练的为输出层第k个节点,定义其差异代价函数为:
其中θs k为输出层节点k的参数矩阵θk在第s∈S行的行矢量;S=2为该节点所表示的状态总个数,如阳性或阴性;bk为偏置值;函数1s()为示性函数(Indicator Function),其中On k为输出层节点k在输入为HL n时的输出,其值计算方法如下:
其中HL n为最后的隐含层(第L层)在使用样本Tn训练时的输出;
b)定义稀疏因子为参数矩阵的1范数:
c)定义完整的代价函数为:
Jk=Ψk+λρk
其中λ为拉格朗日乘数。以此为基础,使用梯度下降法设计输出层各节点的最佳权值矩阵与偏置值。
d)更新k=k+1,若k<K则转至7).a)
在所述步骤8)中,在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络。
在所述步骤9)中,使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调,以进一步提升预测精度。
在所述步骤10)中,对于新输入的代谢质谱样本S,先采用2).a)-c)方法进行预处理,获得特征矢量T,而后送入代谢质谱筛查深度学习网络进行并行预测,获得对应的输出状态矢量为O,当用于疾病数据的检测时,其中任意ok=1表示疾病k呈阳性,否则为阴性。该信息可作为后续科研与临床诊疗的基础数据。
基于上述方法,本发明还提供一种基于深度学习的代谢质谱筛查系统,其包括:
数据获取模块,用于获得训练样本数据集S={S1,S2,…Sn,…,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),…(md,id),…],md和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应的类标矢量为c={c1,c2,…,cN};
预处理模块,用于对S中的每个质谱进行预处理得到代谢质谱特征数据集T={T1,T2,…,TN};
类标集合构造模块,用于构造类标集合为C=[C1,C2,…,CN],设若原类标矢量c中的任意样本类标cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
学习模块,用于将预处理后的代谢质谱特征数据集T={T1,T2,…,TN}与类标集合C用于深度学习网络的训练;
深度学习网络结构构造模块,用于构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构,其中输入层具有2D个节点,输出层具有K个节点,对于任意第l∈L个隐含层,设其节点数为Pl,且具有递减关系Pl-1>Pl,D为从Sn中选择强度值最高的谱线数量;
隐含层训练模块,用于使用栈式自编码器分别训练各隐含层;
输出层训练模块,用于使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;
代谢质谱筛查深度学习网络构造模块,用于在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络;
微调模块,用于使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;
检测模块,用于在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。
其中,在检测模块中,对于新输入的代谢质谱样本S,先进行预处理,获得特征矢量T,而后送入代谢质谱筛查深度学习网络进行并行预测,获得对应的输出状态矢量为O。
其中,所述预处理模块具体包括:
选择单元,用于从Sn中选择强度值最高的D条谱线,形成具有相同维度的质谱矢量S* n=[(m1,i1),(m2,i2),…,(mD,iD)],若Sn原长度小于D,则添加(0,0)谱线补齐;
正规化单元,用于提取S* n的强度矢量为In=[i1,i2,…,iD],对其进行正规化,使其在每个维度上的数值都具有0均值及单位方差:
其中μn、δn分别为In的均值与方差;
拼接单元,用于提取S* n的质核比矢量为Mn=[m1,m2,…,mD],将其与预处理后的In拼接,构造质谱特征矢量为Tn=[m1,m2,…,mD,i* 1,i* 2,…,i* D],其包含2D个特征值。
其中,所述隐含层训练模块具体包括:
训练网络构造单元,用于设若当前训练的为第l个隐含层,构造3层自编码训练网络;
隐含层节点输出单元,用于使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数,则当前隐含层节点输出为:
其中Wh l为隐含层权值矩阵,Bh l为隐含层偏置矢量,Hl-1为第l-1层的隐含节点输出,Hl-1=[hl-1,1,hl-1,2,…,hl-1,Pl-1];
输出层节点输出单元,用于自编码训练网络输出层的节点输出为:
其中Wo l为输出层权值矩阵,Bo l为输出层偏置矢量。输出矢量Ol=[ol,1,ol,2,…,ol,Pl-1]同样包含Pl-1个数值;
第一差异代价函数定义单元,用于定义差异代价函数为:
其中‖·‖2表示矢量差值的2范数,此外,基于l1正则化定义稀疏因子为:
ρl=‖Hl1
第一完整代价函数定义单元,用于定义完整的代价函数为:
Jl=Ψl+λρl
其中λ为拉格朗日乘数;
隐含层训练单元,用于基于此完整的代价函数,使用反向传播算法训练Wh l、Bh l、Wo l及Bo l的数值,获得最佳的隐含层训练结果;
第一更新单元,用于更新l=l+1,若l<L则转至训练网络构造单元。
其中,所述输出层训练模块具体包括:
第二差异代价函数定义单元,用于设当前训练的为输出层第k个节点,定义其差异代价函数为:
其中θs k为输出层节点k的参数矩阵θk在第s∈S行的行矢量;S=2为该节点所表示的状态总个数;bk为偏置值;函数1s()为示性函数,其中On k为输出层节点k在输入为HL n时的输出,其值计算方法如下:
其中HL n为最后的隐含层在使用样本Tn训练时的输出;
范数定义单元,用于定义稀疏因子为参数矩阵的1范数:
第二完整代价函数定义单元,用于定义完整的代价函数为:
Jk=Ψk+λρk
其中λ为拉格朗日乘数;
第二更新单元,用于更新k=k+1,若k<K则转至第二差异代价函数定义单元。
关于上述模块单元的技术细节在前面的方法中已有详述,故不再赘述。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于深度学习的代谢质谱筛查方法,其特征在于,包括步骤:
A、获得训练样本数据集S={S1,S2,...Sn,...,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),...(md,id),...],md和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应的类标矢量为c={c1,c2,...,cN};
B、对S中的每个质谱进行预处理得到代谢质谱特征数据集T={T1,T2,...,TN};
C、构造类标集合为C=[C1,C2,...,CN],设若原类标矢量c中的任意样本类标cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
D、将预处理后的代谢质谱特征数据集T={T1,T2,...,TN}与类标集合C用于深度学习网络的训练;
E、构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构,其中输入层具有2D个节点,输出层具有K个节点,对于任意第 个隐含层,设其节点数为且具有递减关系D为从Sn中选择强度值最高的谱线数量;
F、使用栈式自编码器分别训练各隐含层;
G、使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;
H、在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络;
I、使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;
J、在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。
2.根据权利要求1所述的基于深度学习的代谢质谱筛查方法,其特征在于,在步骤J中,对于新输入的代谢质谱样本s,先进行预处理,获得特征矢量T,而后送入代谢质谱筛查深度学习网络进行并行预测,获得对应的输出状态矢量为O。
3.根据权利要求1所述的基于深度学习的代谢质谱筛查方法,其特征在于,所述步骤B具体包括:
B1、从Sn中选择强度值最高的D条谱线,形成具有相同维度的质谱矢量S* n=[(m1,i1),(m2,i2),...,(mD,iD)],若Sn原长度小于D,则添加(0,0)谱线补齐;
B2、提取S* n的强度矢量为In=[i1,i2….,iD],对其进行正规化,使其在每个维度上的数值都具有0均值及单位方差:
<mrow> <msubsup> <mi>i</mi> <mi>d</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>h</mi> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>n</mi> </msub> </mrow> <msub> <mi>&amp;delta;</mi> <mi>n</mi> </msub> </mfrac> <mo>,</mo> <msub> <mi>i</mi> <mi>d</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>I</mi> <mi>n</mi> </msub> </mrow>
其中μn、δn分别为In的均值与方差;
B3、提取S* n的质核比矢量为Mn=[m1,m2,...mD],将其与预处理后的In拼接,构造质谱特征矢量为Tn=[m1,m2...,mD,i* 1,i* 2,...,i* D],其包含2D个特征值。
4.根据权利要求1所述的基于深度学习的代谢质谱筛查方法,其特征在于,所述步骤F具体包括:
F1、设若当前训练的为第1个隐含层,构造3层自编码训练网络;
F2、使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数,则当前隐含层节点输出为:
<mrow> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>l</mi> <mi>h</mi> </msubsup> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msubsup> <mi>B</mi> <mi>l</mi> <mi>h</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
其中为隐含层权值矩阵,为隐含层偏置矢量,为第层的隐含节点输出,
F3、自编码训练网络输出层的节点输出为:
<mrow> <msub> <mi>O</mi> <mi>l</mi> </msub> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>l</mi> <mi>o</mi> </msubsup> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>+</mo> <msubsup> <mi>B</mi> <mi>l</mi> <mi>o</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
其中为输出层权值矩阵,为输出层偏置矢量,输出矢量 同样包含个数值;
F4、定义差异代价函数为:
<mrow> <msub> <mi>&amp;Psi;</mi> <mi>l</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msub> <mi>P</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </mfrac> <msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>O</mi> <mi>l</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中||·||2表示矢量差值的2范数,此外,基于11正则化定义稀疏因子为:
<mrow> <msub> <mi>&amp;rho;</mi> <mi>l</mi> </msub> <mo>=</mo> <msub> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> <mn>1</mn> </msub> </mrow>
F5、定义完整的代价函数为:
<mrow> <msub> <mi>J</mi> <mi>l</mi> </msub> <mo>=</mo> <msub> <mi>&amp;psi;</mi> <mi>l</mi> </msub> <mo>+</mo> <msub> <mi>&amp;lambda;&amp;rho;</mi> <mi>l</mi> </msub> </mrow>
其中λ为拉格朗日乘数;
F6、基于此完整的代价函数,使用反向传播算法训练的数值,获得最佳的隐含层训练结果;
F7、更新则转至步骤F1。
5.根据权利要求1所述的基于深度学习的代谢质谱筛查方法,其特征在于,所述步骤G具体包括:
G1、设当前训练的为输出层第k个节点,定义其差异代价函数为:
<mrow> <msub> <mi>&amp;Psi;</mi> <mi>k</mi> </msub> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </munderover> <msub> <mn>1</mn> <mi>s</mi> </msub> <mo>(</mo> <msubsup> <mi>O</mi> <mi>k</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow>
其中θs k为输出层节点k的参数矩阵θk在第s∈S行的行矢量;S=2为该节点所表示的状态总个数;bk为偏置值;函数1s()为示性函数,其中On k为输出层节点k在输入为HL n时的输出,其值计算方法如下:
<mrow> <msubsup> <mi>O</mi> <mi>k</mi> <mi>n</mi> </msubsup> <mo>=</mo> <msub> <mi>argmax</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>S</mi> </mrow> </msub> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中HL n为最后的隐含层在使用样本Tn训练时的输出;
G2、定义稀疏因子为参数矩阵的1范数:
<mrow> <msub> <mi>&amp;rho;</mi> <mi>k</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </munderover> <mo>|</mo> <mo>|</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> </mrow>
G3、定义完整的代价函数为:
Jk=Ψk+λρk
其中λ为拉格朗日乘数;
G4、更新k=k+1,若k<K则转至步骤G1。
6.一种基于深度学习的代谢质谱筛查系统,其特征在于,包括:
数据获取模块,用于获得训练样本数据集S={S1,S2,...Sn,...,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),...(md,id),...],md和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应的类标矢量为c={c1,c2,...,cN};
预处理模块,用于对S中的每个质谱进行预处理得到代谢质谱特征数据集T={T1,T2,...,TN};
类标集合构造模块,用于构造类标集合为C=[C1,C2,...,CN],设若原类标矢量c中的任意样本类标cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
学习模块,用于将预处理后的代谢质谱特征数据集T={T1,T2,...,TN}与类标集合C用于深度学习网络的训练;
深度学习网络结构构造模块,用于构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构,其中输入层具有2D个节点,输出层具有K个节点,对于任意第个隐含层,设其节点数为且具有递减关系D为从Sn中选择强度值最高的谱线数量;
隐含层训练模块,用于使用栈式自编码器分别训练各隐含层;
输出层训练模块,用于使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;
代谢质谱筛查深度学习网络构造模块,用于在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络;
微调模块,用于使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;
检测模块,用于在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。
7.根据权利要求6所述的基于深度学习的代谢质谱筛查系统,其特征在于,在检测模块中,对于新输入的代谢质谱样本S,先进行预处理,获得特征矢量T,而后送入代谢质谱筛查深度学习网络进行并行预测,获得对应的输出状态矢量为O。
8.根据权利要求6所述的基于深度学习的代谢质谱筛查系统,其特征在于,所述预处理模块具体包括:
选择单元,用于从Sn中选择强度值最高的D条谱线,形成具有相同维度的质谱矢量S* n=[(m1,i1),(m2,i2),...,(mD,iD)],若Sn原长度小于D,则添加(0,0)谱线补齐;
正规化单元,用于提取S* n的强度矢量为In=[i1,i2,...,iD],对其进行正规化,使其在每个维度上的数值都具有0均值及单位方差:
<mrow> <msubsup> <mi>i</mi> <mi>d</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>i</mi> <mi>d</mi> </msub> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>n</mi> </msub> </mrow> <msub> <mi>&amp;delta;</mi> <mi>n</mi> </msub> </mfrac> <mo>,</mo> <msub> <mi>i</mi> <mi>d</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>I</mi> <mi>n</mi> </msub> </mrow>
其中μn、δn分别为In的均值与方差;
拼接单元,用于提取S* n的质核比矢量为Mn=[m1,m2,...,mD],将其与预处理后的In拼接,构造质谱特征矢量为Tn=[m1,m2,...,mD,i* 1,i* 2,...,i* D],其包含2D个特征值。
9.根据权利要求6所述的基于深度学习的代谢质谱筛查系统,其特征在于,所述隐含层训练模块具体包括:
训练网络构造单元,用于设若当前训练的为第1个隐含层,构造3层自编码训练网络;
隐含层节点输出单元,用于使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数,则当前隐含层节点输出为:
<mrow> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>l</mi> <mi>h</mi> </msubsup> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msubsup> <mi>B</mi> <mi>l</mi> <mi>h</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
其中为隐含层权值矩阵,为隐含层偏置矢量,为第层的隐含节点输出,
输出层节点输出单元,用于自编码训练网络输出层的节点输出为:
<mrow> <msub> <mi>O</mi> <mi>l</mi> </msub> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>l</mi> <mi>o</mi> </msubsup> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>+</mo> <msubsup> <mi>B</mi> <mi>l</mi> <mi>o</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
其中为输出层权值矩阵,为输出层偏置矢量,输出矢量 同样包含个数值;
第一差异代价函数定义单元,用于定义差异代价函数为:
<mrow> <msub> <mi>&amp;Psi;</mi> <mi>l</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msub> <mi>P</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </mfrac> <msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>O</mi> <mi>l</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中||·||2表示矢量差值的2范数,此外,基于11正则化定义稀疏因子为:
<mrow> <msub> <mi>&amp;rho;</mi> <mi>l</mi> </msub> <mo>=</mo> <msub> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> <mn>1</mn> </msub> </mrow>
第一完整代价函数定义单元,用于定义完整的代价函数为:
<mrow> <msub> <mi>J</mi> <mi>l</mi> </msub> <mo>=</mo> <msub> <mi>&amp;psi;</mi> <mi>l</mi> </msub> <mo>+</mo> <msub> <mi>&amp;lambda;&amp;rho;</mi> <mi>l</mi> </msub> </mrow>
其中λ为拉格朗日乘数;
隐含层训练单元,用于基于此完整的代价函数,使用反向传播算法训练的数值,获得最佳的隐含层训练结果;
第一更新单元,用于更新则转至训练网络构造单元。
10.根据权利要求6所述的基于深度学习的代谢质谱筛查系统,其特征在于,所述输出层训练模块具体包括:
第二差异代价函数定义单元,用于设当前训练的为输出层第k个节点,定义其差异代价函数为:
<mrow> <msub> <mi>&amp;Psi;</mi> <mi>k</mi> </msub> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </munderover> <msub> <mn>1</mn> <mi>s</mi> </msub> <mo>(</mo> <msubsup> <mi>O</mi> <mi>k</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow>
其中θs k为输出层节点k的参数矩阵θk在第s∈S行的行矢量;S=2为该节点所表示的状态总个数;bk为偏置值;函数1s()为示性函数,其中On k为输出层节点k在输入为HL n时的输出,其值计算方法如下:
<mrow> <msubsup> <mi>O</mi> <mi>k</mi> <mi>n</mi> </msubsup> <mo>=</mo> <msub> <mi>argmax</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>S</mi> </mrow> </msub> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <msubsup> <mi>H</mi> <mi>L</mi> <mi>n</mi> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中HL n为最后的隐含层在使用样本Tn训练时的输出;
范数定义单元,用于定义稀疏因子为参数矩阵的1范数:
<mrow> <msub> <mi>&amp;rho;</mi> <mi>k</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </munderover> <mo>|</mo> <mo>|</mo> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>s</mi> </msubsup> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> </mrow>
第二完整代价函数定义单元,用于定义完整的代价函数为:
Jk=Ψk+λρk
其中λ为拉格朗日乘数;
第二更新单元,用于更新k=k+1,若k<K则转至第二差异代价函数定义单元。
CN201610049879.8A 2016-01-25 2016-01-25 一种基于深度学习的代谢质谱筛查方法及系统 Expired - Fee Related CN105718744B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610049879.8A CN105718744B (zh) 2016-01-25 2016-01-25 一种基于深度学习的代谢质谱筛查方法及系统
US15/198,609 US20170213000A1 (en) 2016-01-25 2016-06-30 Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610049879.8A CN105718744B (zh) 2016-01-25 2016-01-25 一种基于深度学习的代谢质谱筛查方法及系统

Publications (2)

Publication Number Publication Date
CN105718744A CN105718744A (zh) 2016-06-29
CN105718744B true CN105718744B (zh) 2018-05-29

Family

ID=56154052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610049879.8A Expired - Fee Related CN105718744B (zh) 2016-01-25 2016-01-25 一种基于深度学习的代谢质谱筛查方法及系统

Country Status (2)

Country Link
US (1) US20170213000A1 (zh)
CN (1) CN105718744B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201718756D0 (en) * 2017-11-13 2017-12-27 Cambridge Bio-Augmentation Systems Ltd Neural interface
WO2018018038A1 (en) * 2016-07-22 2018-01-25 The Regents Of The University Of California System and method for small molecule accurate recognition technology ("smart")
CN106528668B (zh) * 2016-10-23 2018-12-25 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
CN107038337A (zh) * 2017-03-21 2017-08-11 广州华康基因医学科技有限公司 一种新生儿遗传代谢病筛查方法
CN107133448B (zh) * 2017-04-10 2020-05-01 温州医科大学 一种代谢组学数据融合优化处理方法
CN108062744B (zh) * 2017-12-13 2021-05-04 中国科学院大连化学物理研究所 一种基于深度学习的质谱图像超分辨率重建方法
CN109142171B (zh) * 2018-06-15 2021-08-03 上海师范大学 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN108846254B (zh) * 2018-06-27 2021-08-24 哈尔滨工业大学(深圳) 一种二阶代谢质谱多化合物检测方法、存储介质及服务器
CN109243541B (zh) * 2018-09-17 2019-05-21 山东省分析测试中心 质谱同位素精细结构与超精细结构的模拟方法及装置
CN109599177B (zh) * 2018-11-27 2023-04-11 华侨大学 一种基于病历的深度学习预测医疗轨迹的方法
CN109800751B (zh) * 2019-01-25 2023-04-28 上海深杳智能科技有限公司 一种基于构建深度学习网络的票据识别方法及终端
CN110473634B (zh) * 2019-04-23 2021-10-08 浙江大学 一种基于多域融合学习的遗传代谢病辅助筛查方法
CN110299194B (zh) * 2019-06-06 2022-11-08 昆明理工大学 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN110647891B (zh) * 2019-09-17 2023-01-24 上海仪电(集团)有限公司中央研究院 基于cnn和自编码器时序数据特征自动提取方法及系统
CN111430024B (zh) * 2020-01-06 2023-07-11 中南大学 一种用于疾病程度分类的数据决策方法及其系统
CN111243658B (zh) * 2020-01-07 2022-07-22 西南大学 一种基于深度学习的生物分子网络构建与优化方法
CN111916204A (zh) * 2020-07-08 2020-11-10 西安交通大学 一种基于自适应稀疏深度神经网络的脑疾病数据评估方法
CN111781292B (zh) * 2020-07-15 2022-06-21 四川大学华西医院 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统
CN114254416B (zh) * 2020-09-25 2024-06-25 汕头大学 基于长短期记忆深度学习的土体应力应变关系确定方法
CN112216399B (zh) * 2020-10-10 2024-07-02 黑龙江省疾病预防控制中心 基于bp神经网络的食源性疾病致病因子预测的方法和系统
CN112163101B (zh) * 2020-10-30 2024-01-26 武汉大学 一种面向空间知识图谱的地理实体匹配与融合方法
CN112505133B (zh) * 2020-12-28 2023-09-12 黑龙江莱恩检测有限公司 一种基于深度学习的质谱检测方法
CN112820394A (zh) * 2021-01-04 2021-05-18 中建八局第二建设有限公司 一种AIot数据模型多参数远程监护系统及方法
CN112699960B (zh) * 2021-01-11 2023-06-09 华侨大学 基于深度学习的半监督分类方法、设备及存储介质
CN113035363B (zh) * 2021-03-25 2024-01-02 浙江大学 一种概率密度加权的遗传代谢病筛查数据混合采样方法
CN113409892B (zh) * 2021-05-13 2023-04-25 西安电子科技大学 基于图神经网络的miRNA-疾病关联关系预测方法
CN113486922B (zh) * 2021-06-01 2024-09-24 安徽大学 基于栈式自编码器的数据融合优化方法及其系统
CN113450921A (zh) * 2021-06-24 2021-09-28 西安交通大学 一种脑发育数据分析方法、系统、设备及存储介质
CN113281446B (zh) * 2021-06-29 2022-09-20 天津国科医工科技发展有限公司 一种基于rbf网络的质谱仪分辨自动调节方法
CN114927173B (zh) * 2022-04-06 2024-03-05 西北工业大学 基于标签相关性和图表示学习的代谢路径预测方法
CN117672407B (zh) * 2023-12-15 2024-08-16 天智药成科技(重庆)有限公司 基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法
CN118098566A (zh) * 2024-02-29 2024-05-28 东北大学 一种基于深度学习的显微取精结果预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A memetic algorithm based feature weighting for metabolomics data classification";Zhou Jiarui等;《Chinese Journal of Electronics》;20141031;第23卷(第4期);第706-711页 *
"HAMMER: automated operation of mass frontier to construct in silico mass spectral fragmentation libraries";Jiarui Zhou等;《Bioinformatics》;20131231;第30卷(第4期);第581-583页 *
"Memetic three-dimensional gabor feature extraction for hyperspectral imagery classification";Zexuan Zhu等;《Advances in Swarm Intelligence》;20121231;第479-488页 *
"Minimum redundancy feature selection from microarray gene expression data";Chris Ding等;《Journal of bioinformatics and computational biology》;20051231;第3卷(第2期);第185-205页 *

Also Published As

Publication number Publication date
US20170213000A1 (en) 2017-07-27
CN105718744A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN105718744B (zh) 一种基于深度学习的代谢质谱筛查方法及系统
CN107633255B (zh) 一种深度学习模式下的岩石岩性自动识别分类方法
Bellew et al. A suite of algorithms for the comprehensive analysis of complex protein mixtures using high-resolution LC-MS
EP2161555B1 (en) Coating color database creating method, search method using the database, their system, program, and recording medium
JP2017224283A (ja) ビッグデータ解析方法及び該解析方法を利用した質量分析システム
CN107844751B (zh) 引导滤波长短记忆神经网络高光谱遥感图像的分类方法
JP2013246140A (ja) 情報処理装置、情報処理方法、及びプログラム
CN109460471B (zh) 一种基于自学习的方式建立纤维种类图谱库的方法
CN108983127B (zh) 一种基于光谱数据的赤铁矿磁性率检测方法
CN111161249B (zh) 一种基于域适应的无监督医学图像分割方法
CN105631474B (zh) 基于Jeffries-Matusita距离和类对决策树的高光谱数据多分类方法
Tian et al. Towards enhanced metabolomic data analysis of mass spectrometry image: Multivariate Curve Resolution and Machine Learning
CN109459235B (zh) 基于集成学习增强型齿轮单故障类别诊断方法
Sheng et al. Systematic and general method for quantifying localization in microscopy images
Losch et al. Semantic bottlenecks: Quantifying and improving inspectability of deep representations
CN111582387A (zh) 一种岩石光谱特征融合分类方法及系统
Folcarelli et al. Automated flow cytometric identification of disease-specific cells by the ECLIPSE algorithm
CN114184599B (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
CN106682604B (zh) 一种基于深度学习的模糊图像检测方法
CN110717602A (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
CN117556245B (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法
CN108805181B (zh) 一种基于多分类模型的图像分类装置及分类方法
CN106528668B (zh) 一种基于可视化网络的二阶代谢质谱化合物检测方法
CN111896609A (zh) 一种基于人工智能分析质谱数据的方法
Hong et al. Weighted elastic net model for mass spectrometry imaging processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180529

Termination date: 20190125

CF01 Termination of patent right due to non-payment of annual fee