CN113554176B - 代谢特征谱推断方法、系统、计算机设备及存储介质 - Google Patents

代谢特征谱推断方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN113554176B
CN113554176B CN202110706942.1A CN202110706942A CN113554176B CN 113554176 B CN113554176 B CN 113554176B CN 202110706942 A CN202110706942 A CN 202110706942A CN 113554176 B CN113554176 B CN 113554176B
Authority
CN
China
Prior art keywords
mass
charge ratio
retention time
metabolic
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110706942.1A
Other languages
English (en)
Other versions
CN113554176A (zh
Inventor
李伟忠
邓永洁
胡寓旻
黄蓬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110706942.1A priority Critical patent/CN113554176B/zh
Publication of CN113554176A publication Critical patent/CN113554176A/zh
Application granted granted Critical
Publication of CN113554176B publication Critical patent/CN113554176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种代谢特征谱推断方法,包括将目标样本数据进行LC‑MS技术处理以获得LC‑MS原始数据;将所述LC‑MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC‑MS原始数据的保留时间、质荷比及离子强度;将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。本发明还公开了一种代谢特征谱推断系统、计算机设备及存储介质。采用本发明,能够解决现有代谢组学方法所存在的误差处理难、原始信号大量丢失以及大类区分局限性的问题。

Description

代谢特征谱推断方法、系统、计算机设备及存储介质
技术领域
本发明涉及代谢组学数据分析领域,尤其涉及一种代谢特征谱推断方法、系统、计算机设备及存储介质。
背景技术
人类血清中的代谢物包含宿主代谢物、微生物衍生代谢物、以及饮食等外源物质,与各种疾病的发生发展关系紧密。目前的代谢组学方法能够对血清中代谢物质进行定量测定、以及鉴定和分析。液相色谱质谱联用技术(Liquid Chromatograph-MassSpectrometer,LC-MS)是一种常用的代谢物质检测技术,通过高效液相色谱分离不同物质,使用质谱对不同时相分离出来的物质进行质量分析。目前,非靶向LC-MS原始数据的物质鉴定主要是通过数据库比对进行,首先对原始数据进行质谱峰提取,再将不同质谱峰的保留时间、质荷比等属性与数据库中的已知物质进行比较。其中,人类代谢组数据库(The HumanMetabolome Database,HMDB)包含114305个代谢物条目。但他们相比于实际的化学空间还是很少。化学宇宙数据库GDB-17中列举了超过1660亿个有机小分子。此外,代谢组学数据的处理过程中也存在着若干挑战(即稀疏、嘈杂、异质、依赖时间等)。现阶段,深度学习技术在代谢组学数据中的应用较少。SteroidXtract工具应用深度学习技术,能够直接使用原始的质谱图谱,对类固醇物质和非类固醇物质进行分类。然而,LC-MS数据是一种复杂的三维空间数据,同一样本包含多个时相数据(即不同的保留时间),每一时相数据均有一张质谱图。SteroidXtract方法与其它的代谢组学分析方法,均需要人为地对这些大量质谱图进行去冗余处理。此外,血清中代谢物质所参与的生物过程往往不止与单一的某一类或者某一个物质相关联,而这些不同的物质往往分布于不同的时相。
传统的代谢组学方法,首先需要经过复杂过程进行噪音的去除、提取信号质谱峰,后使用统计方法、依赖已有的数据库进行相关分析与物质鉴定。首先,在数据处理的过程中,数据的稀疏性、嘈杂性、批次效应等问题为质谱峰峰对齐、质谱峰提取和后续的统计分析等带来了大量误差。其次,已有的数据库无法囊括真实化学世界的大量代谢物质,一些未知的代谢物可能也在疾病的发生发展过程中发挥重要的作用。已有的深度学习技术使用质谱图作为输入数据,不仅需要繁复的去冗余处理,而且只能进行类固醇和非类固醇的大类区分。一些具有不同功能的同分异构体等可能有着近似的质谱表现,但在液相色谱中被分离至不同的时相。
发明内容
本发明所要解决的技术问题在于,提供一种代谢特征谱推断方法、系统、计算设备及存储介质,能够解决现有代谢组学方法所存在的误差处理难、原始信号大量丢失以及大类区分局限性的问题。
为了解决上述技术问题,本发明提供了一种代谢特征谱推断方法,包括:将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
优选地,所述将所述LC-MS原始数据进行降维转换处理以获得二维矩阵的步骤包括;将所述LC-MS原始数据进行格式转换;设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内内的最大离子强度,以获得离子强度二维矩阵。
优选地,所述将所述二维矩阵输入卷积神经网络模型以推断出所述样本的代谢物质特征谱的步骤包括:根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;对所述类激活分数进行过滤处理以获得保留特征;根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
优选地,所述对所述类激活分数进行过滤处理以获得保留特征的步骤包括:过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
本发明还提供了一种代谢特征谱推断系统,包括:LC-MS处理模块,用于将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;降维转换处理模块,用于将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;代谢特征谱推断模块,用于将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
优选地,所述降维转换处理模块包括:格式转换单元,用于将所述LC-MS原始数据进行格式转换;参数设置单元,用于设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;降维采样单元,用于在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内内的最大离子强度,以获得离子强度二维矩阵。
优选地,所述代谢特征谱推断模块包括:类激活分数获取单元,用于根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;提取单元,用于根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;映射单元,用于根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;过滤单元,用于对所述类激活分数进行过滤处理以获得保留特征;计算推断单元,用于根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
优选地,所述过滤单元用于过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述方法的步骤。
本发明还提供了一种存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现上述方法的步骤。
实施本发明的有益效果在于:
本发明,通过先将需要推断代谢特征谱的样本进行LC-MS技术处理以获得LC-MS原始数据,其中,所述LC-MS技术为液相色谱质谱联用技术;再将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,最后将所述二维矩阵输入所述卷积神经网络模型以推断出所述样本的代谢物质特征谱。
采用本发明,对LC-MS原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对LC-MS原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
附图说明
图1是本发明提供的代谢特征谱推断方法流程图;
图2是本发明提供的降维转换处理的方法流程图;
图3是本发明提供的代谢物质特征谱的推断方法流程图;
图4是本发明提供的代谢特征谱推断方法原理图;
图5是本发明提供的代谢特征谱推断系统的原理框图;
图6是本发明提供的降维转换处理模块的原理框图;
图7是本发明提供的代谢特征谱推断模块的原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。仅此声明,本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词,仅以本发明的附图为基准,其并不是对本发明的具体限定。
如图1所示,本发明提供了一种代谢特征谱推断方法,包括:
S101,将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;
S102,将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;
S103,将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
本发明,通过先将需要推断代谢特征谱的样本进行LC-MS技术处理以获得LC-MS原始数据,其中,所述LC-MS技术为液相色谱质谱联用技术;再将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,最后将所述二维矩阵输入所述卷积神经网络模型以推断出所述样本的代谢物质特征谱。
采用本发明,对LC-MS原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对LC-MS原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
如图2所示,优选地,所述将所述LC-MS原始数据进行降维转换处理以获得二维矩阵的步骤包括;
S201,将所述LC-MS原始数据进行格式转换;
将所述LC-MS原始数据转换为.mzml格式数据,但不限于此;
S202,设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔。
所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;
S203,在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内内的最大离子强度,以获得离子强度二维矩阵。
离子强度二维矩阵为:
i(t,r)=max{intensity(t,r),...,intensity(t,r+Rgap)...,intensity(t+Tgap,r+Rgap)},t∈(T0,Te),r∈(R0,Re),其中,t为保留时间,r为质荷比,intensity为离子强度,T0为起始保留时间,Te为终止保留时间,Tgap为保留时间采样间隔,R0为起始质荷比,Re为终止质荷比,Rgap为质荷比采样间隔。
需要说明的是,在数据预处理方面,现有的深度学习技术获取各时相的二维质谱图,基于质谱图进行物质的鉴定与后续分析。质谱图中仅含有物质的质荷比、离子强度信息,加上每一质谱图的时相标签,仍然是庞大的三维数据。因此需要进行去冗余操作,去除大量的时相信息,从而只能够针对类固醇单类物质进行处理。而本发明创新性地将三维空间的原始数据降维转换为二维矩阵,能够同时保留原始数据的保留时间、质荷比、离子强度等信息。血清样本经LC-MS检测后的原始数据是一种三维点云数据,分别是保留时间、质荷比、离子强度三个维度。以本发明的方法进行降维转换后,获得以保留时间、质荷比为轴,离子强度为值的二维矩阵数据。有效地对原始数据进行了降维,同时最大程度地保留了代谢物质信号。
如图3所示,优选地,所述将所述二维矩阵输入卷积神经网络模型以推断出所述样本的代谢物质特征谱的步骤包括:
S301,根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数。
需要说明的是,类激活分数可表示为s(t,r),其中,t为保留时间,r为质荷比;
S302,根据所述卷积神经网络模型的网络结构,提取映射函数。
所述映射函数为:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;
S303,根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比。
其中,将类激活热力图的二维坐标(x,y)映射至保留时间(t)、质荷比(r)。
S304,对所述类激活分数进行过滤处理以获得保留特征;
S305,根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
优选地,所述对所述类激活分数进行过滤处理以获得保留特征的步骤包括:过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。具体地,过滤掉类激活分数s(t,r)小于第一阈值或离子强度intensity(t,r)小于第二阈值的分子特征(t,r),以获得保留特征[(t1,r1),(t2,r2),(t3,r3),...,(tn,rn)]。
具体地,现有深度学习技术因涉及物质种类有限,仅能够对类固醇物质进行分类提取。而传统的代谢组学技术需要经复杂地数据前处理过程,提取质谱峰获得样本的代谢物质矩阵后,以统计驱动的方式获取代谢物质特征谱。根据LC-MS数据特性,本发明创新性地提出映射函数,将深度学习技术监督学习到的样本特征映射到原始数据属性(保留时间、质荷比)。对LC-MS数据而言,保留时间、质荷比是鉴定具体物质的标签。本发明利用深度学习技术,以计算类激活热力图的方法获取样本特征后,可以使用映射函数推断出组成样本特征的具体物质,从而进一步挖掘样本特征标志代谢物质、代谢网络模式,推断样本的代谢特征谱。
另外,事先构建和训练卷积神经网络模型的步骤包括:
(1)获取数据集并将所述数据集划分为训练集、验证集以及测试集,并纳入不同来源数据作为外部测试集,以样本属性作为分类标签;
其中,所述数据集均为通过二维矩阵变换得到的二维矩阵数据。
(2)构建初始卷积神经网络模型,并使用训练集对所述初始卷积神经网络模型进行模型训练;
(3)评估训练过后的所述初始卷积神经网络模型在验证集与测试集中的性能表现,若性能不佳则调整模型结构和超参数后重新训练;
(4)将训练过后中准确率与鲁棒性最高的所述初始卷积神经网络模型作为最终卷积神经网络模型。
综上,如图4所示,本发明提供的代谢特征谱推断方法,通过直接输入LC-MS原始数据,经最大程度保留原始信号的方法进行转换处理后使用卷积神经网络模型进行分类,并从分类模型中提取特征,获取不同分类中不同的代谢物质模式;采用本发明,对LC-MS原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对LC-MS原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
如图5所示,本发明还提供了一种代谢特征谱推断系统100,包括:
LC-MS处理模块1,用于将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;
降维转换处理模块2,用于将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;
代谢特征谱推断模块3,用于将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。
本发明,通过所述LC-MS处理模块1先将需要推断代谢特征谱的样本进行LC-MS技术处理以获得LC-MS原始数据,再通过所述降维转换处理模块2将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,最后通过所述代谢特征谱推断模块3将所述二维矩阵输入所述卷积神经网络模型以推断出所述样本的代谢物质特征谱。采用本发明,对LC-MS原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对LC-MS原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
如图6所示,所述降维转换处理模块2包括:
格式转换单元21,用于将所述LC-MS原始数据进行格式转换;
参数设置单元22,用于设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;
降维采样单元23,用于在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内的最大离子强度,以获得离子强度二维矩阵。
需要说明的是,在数据预处理方面,现有的深度学习技术获取各时相的二维质谱图,基于质谱图进行物质的鉴定与后续分析。质谱图中仅含有物质的质荷比、离子强度信息,加上每一质谱图的时相标签,仍然是庞大的三维数据。因此需要进行去冗余操作,去除大量的时相信息,从而只能够针对类固醇单类物质进行处理。而本发明创新性地将三维空间的原始数据降维转换为二维矩阵,能够同时保留原始数据的保留时间、质荷比、离子强度等信息。血清样本经LC-MS检测后的原始数据是一种三维点云数据,分别是保留时间、质荷比、离子强度三个维度。以本发明的方法进行降维转换后,获得以保留时间、质荷比为轴,离子强度为值的二维矩阵数据。有效地对原始数据进行了降维,同时最大程度地保留了代谢物质信号。
如图7所示,所述代谢特征谱推断模块3包括:
类激活分数获取单元31,用于根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;
提取单元32,用于根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;
映射单元33,用于根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;
过滤单元34,用于对所述类激活分数进行过滤处理以获得保留特征;
计算推断单元35,用于根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断所述出目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
进一步地,所述过滤单元用于过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
需要说明的是,现有深度学习技术因涉及物质种类有限,仅能够对类固醇物质进行分类提取。而传统的代谢组学技术需要经复杂地数据前处理过程,提取质谱峰获得样本的代谢物质矩阵后,以统计驱动的方式获取代谢物质特征谱。根据LC-MS数据特性,本发明创新性地提出映射函数,将深度学习技术监督学习到的样本特征映射到原始数据属性(保留时间、质荷比)。对LC-MS数据而言,保留时间、质荷比是鉴定具体物质的标签。本发明利用深度学习技术,以计算类激活热力图的方法获取样本特征后,可以使用映射函数推断出组成样本特征的具体物质,从而进一步挖掘样本特征标志代谢物质、代谢网络模式,推断样本的代谢特征谱。
另外,代谢特征谱推断系统100还包括模型构建模块,所述模型构建模块包括:
数据集划分单元,用于获取数据集并将所述数据集划分为训练集、验证集以及测试集,并纳入不同来源数据作为外部测试集,以样本属性作为分类标签;
其中,所述数据集均为通过二维矩阵变换得到的二维矩阵数据;
构建训练单元,用于构建初始卷积神经网络模型,并使用训练集对所述初始卷积神经网络模型进行模型训练;
评估单元,用于评估训练过后的所述初始卷积神经网络模型在验证集与测试集中的性能表现,若性能不佳则调整模型结构和超参数后重新训练;
筛选单元,用于将训练过后中准确率与鲁棒性最高的所述初始卷积神经网络模型作为最终卷积神经网络模型。
相应地,本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述方法的步骤。同时,本发明还提供了一种存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现上述方法的步骤。
综上,本发明直接输入LC-MS原始数据,经最大程度保留原始信号的方法进行转换处理后使用卷积神经网络模型进行分类,并从分类模型中提取特征,获取不同分类中不同的代谢物质模式;采用本发明,对LC-MS原始数据的二维转换处理,能够有效的降低数据大小,从而有助于后续计算;相比于现有方法去冗余时会导致的大量信号丢失,对LC-MS原始数据的二维转换处理,能够最大程度的保留物质信号;本发明从最终卷积神经网络模型中提取样本属性相关特征,能够更有效的评估多个物质与样本分类的联合相关性,而不是孤立地逐一比较各个物质,从而能够更准确地推断样本相关代谢谱。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种代谢特征谱推断方法,其特征在于,包括:
将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;
将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;所述将所述LC-MS原始数据进行降维转换处理以获得二维矩阵的步骤包括;将所述LC-MS原始数据进行格式转换;设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内的最大离子强度,以获得离子强度二维矩阵;
将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱;所述将所述二维矩阵输入卷积神经网络模型以推断出所述样本的代谢物质特征谱的步骤包括:根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;对所述类激活分数进行过滤处理以获得保留特征;根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断出所述目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
2.如权利要求1所述的代谢特征谱推断方法,其特征在于,所述对所述类激活分数进行过滤处理以获得保留特征的步骤包括:
过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
3.一种代谢特征谱推断系统,其特征在于,包括:
LC-MS处理模块,用于将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;
降维转换处理模块,用于将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;所述降维转换处理模块包括:格式转换单元,用于将所述LC-MS原始数据进行格式转换;参数设置单元,用于设置起始保留时间、终止保留时间、保留时间区间、保留时间采样间隔、起始质荷比、终止质荷比、质荷比区间以及质荷比采样间隔,其中,所述保留时间区间的范围为起始保留时间至终止保留时间之间的范围,所述质荷比区间为起始质荷比至终止质荷比之间的范围;降维采样单元,用于在所述保留时间区间和质荷比区间内,以所述保留时间采样间隔以及质荷比采样间隔为滑窗,采样所述保留时间区间和质荷比区间内内的最大离子强度,以获得离子强度二维矩阵;
代谢特征谱推断模块,用于将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱;所述代谢特征谱推断模块包括:类激活分数获取单元,用于根据所述卷积神经网络模型进行类激活热力图计算,生成每一样本的类激活分数s(t,r),其中,t为保留时间,r为质荷比;提取单元,用于根据所述卷积神经网络模型的网络结构,提取映射函数:t=map1(x),r=map2(y),其中,t为保留时间,r为质荷比;映射单元,用于根据所述映射函数将所述类激活热力图的二维坐标映射至保留时间和质荷比;过滤单元,用于对所述类激活分数进行过滤处理以获得保留特征;计算推断单元,用于根据所述保留特征筛选关键代谢物质,并进行相关性计算以推断出所述目标样本数据的代谢标志物与代谢网络模式,进而生成所述目标样本数据的代谢特征谱。
4.如权利要求3所述的代谢特征谱推断系统,其特征在于,所述过滤单元用于过滤掉所述类激活分数小于第一预设阈值且离子强度小于第二预设阈值的分子特征,以获得保留特征。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-2任意一项所述方法的步骤。
6.一种存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-2任意一项所述方法的步骤。
CN202110706942.1A 2021-06-24 2021-06-24 代谢特征谱推断方法、系统、计算机设备及存储介质 Active CN113554176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110706942.1A CN113554176B (zh) 2021-06-24 2021-06-24 代谢特征谱推断方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110706942.1A CN113554176B (zh) 2021-06-24 2021-06-24 代谢特征谱推断方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113554176A CN113554176A (zh) 2021-10-26
CN113554176B true CN113554176B (zh) 2023-09-05

Family

ID=78130926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110706942.1A Active CN113554176B (zh) 2021-06-24 2021-06-24 代谢特征谱推断方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113554176B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115938490B (zh) * 2023-03-07 2023-06-06 之江实验室 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062411A (zh) * 2019-11-06 2020-04-24 北京大学 从质谱数据中识别多种化合物的方法、装置和设备
CN111370067A (zh) * 2020-02-28 2020-07-03 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062411A (zh) * 2019-11-06 2020-04-24 北京大学 从质谱数据中识别多种化合物的方法、装置和设备
CN111370067A (zh) * 2020-02-28 2020-07-03 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Also Published As

Publication number Publication date
CN113554176A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN111047551A (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN110738247B (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
CN104237158B (zh) 一种具有普适性的近红外光谱定性分析方法
CN105242779A (zh) 一种识别用户动作的方法和移动智能终端
Liu Multi-feature fusion for specific emitter identification via deep ensemble learning
CN107330412B (zh) 一种基于深度稀疏表示的人脸年龄估计方法
CN104239859B (zh) 基于结构化因子分析的人脸识别方法
CN102663454B (zh) 一种字符书写规范度评测的方法和装置
CN114564982A (zh) 雷达信号调制类型的自动识别方法
CN110889421A (zh) 目标物检测方法及装置
CN113903409B (zh) 一种分子数据处理方法、模型构建与预测方法及相关装置
CN113554176B (zh) 代谢特征谱推断方法、系统、计算机设备及存储介质
CN102436645B (zh) 基于mod字典学习采样的谱聚类图像分割方法
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN115131580A (zh) 基于注意力机制的空间目标小样本识别方法
CN107564530A (zh) 一种基于声纹能量特征的无人机检测方法
Sun et al. Feature optimization method for the localization technology on loose particles inside sealed electronic equipment
CN107045624A (zh) 一种基于最大加权团的脑电信号预处理与分类方法
CN116611025B (zh) 一种脉冲星候选信号的多模态特征融合方法
CN112861881A (zh) 一种基于改进MobileNet模型的蜂窝肺识别方法
Li et al. A wavelet-based data pre-processing analysis approach in mass spectrometry
CN113569018A (zh) 问答对挖掘方法及装置
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN112560925A (zh) 一种复杂场景目标检测数据集构建方法及系统
CN116958724A (zh) 一种产品分类模型的训练方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant