CN112418072A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112418072A
CN112418072A CN202011308746.0A CN202011308746A CN112418072A CN 112418072 A CN112418072 A CN 112418072A CN 202011308746 A CN202011308746 A CN 202011308746A CN 112418072 A CN112418072 A CN 112418072A
Authority
CN
China
Prior art keywords
spectrogram
mass
charge ratio
peak
denoising
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011308746.0A
Other languages
English (en)
Inventor
钱昆
刘万山
黄琳
韩骁
王巨宏
马东嫄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Shanghai Jiaotong University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Tencent Technology Shenzhen Co Ltd filed Critical Shanghai Jiaotong University
Priority to CN202011308746.0A priority Critical patent/CN112418072A/zh
Publication of CN112418072A publication Critical patent/CN112418072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。所述方法涉及谱图数据的预处理技术领域,所述方法包括:获取实验样本对应的原始谱图;对原始谱图进行等采样处理,获得质荷比统一的谱图;对质荷比统一的谱图进行去噪处理,获得去噪谱图;根据参考谱图中的谱图峰对去噪谱图进行谱图校正,得到校正后谱图;对校正后谱图进行谱图配准处理后,得到实验样本对应的预处理数据,预处理数据用于对实验样本进行成分分析。采用本方法能够极大地提升数据预处理效果,预处理数据可通过与机器学习方法结合的方式来分析代谢物信息,得出最终的生物化学解释。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据统计分析技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
质谱法(Mass Spectrometry,MS)是物质鉴定的工具之一,其中包括相对分子量测定、化学式的确定及结构鉴定等等。质谱法是采用电场和磁场将运动的离子按它们的质荷比分离后进行检测的方法,测量出离子准确质量即可确定离子的化合物组成。
然而,质谱设备产生的原始数据是非常复杂的,为从这些数据中提取有用的信息,需要对原始数据进行一系列的处理,以将从设备中获得的原始数据转换为可用于进一步统计分析的预处理数据,近年来,还出现了通过结合机器学习来分析质谱数据的技术,为各种生物样品的代谢组学数据的分析提供了更高效的方式。然而,原始质谱数据的数据量庞大且复杂,目前的传统的数据预处理方式和结合机器学习的数据处理技术,均还存在处理效果较差的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升数据处理效果的数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,所述方法包括:
获取实验样本对应的原始谱图,所述原始谱图是根据对所述实验样本进行质谱实验得到的质谱数据生成的;
对所述原始谱图进行等采样处理,获得质荷比统一的谱图;
对所述质荷比统一的谱图进行去噪处理,获得去噪谱图;
根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图;
对所述校正后谱图进行谱图配准处理后,得到所述实验样本对应的预处理数据,所述预处理数据用于对所述实验样本进行成分分析。
在一个实施例中,所述对所述原始谱图进行等采样处理,获得质荷比统一的谱图包括:
选取任意一个实验样本对应的原始谱图作为基准谱图;
将所述基准谱图中的质荷比作为基准质荷比;
对于除选取的实验样本外其它实验样本对应的原始谱图,根据在预设的质荷比区间中各质荷比对应的强度值,按照预设插值方式对所述其它原始谱图进行插值,获得对应所述基准质荷比的强度值;
根据其它实验样本对应所述基准质荷比的强度值,得到质荷比统一的谱图。
在一个实施例中,所述对所述质荷比统一的谱图进行去噪处理,获得去噪谱图包括:
采用离散小波变换对所述质荷比统一的谱图进行滤波处理,获得滤波谱图;
对所述滤波谱图进行基线校正处理,获得去噪谱图。
在一个实施例中,所述对所述滤波谱图进行基线校正处理,获得去噪谱图包括:
对所述滤波谱图进行闭开运算,以滤除谱图中的高频分量;
对高频滤波后的谱图进行开闭运算,以滤除谱图中漂移信号的波峰和波谷;
根据得到的波峰和波谷,滤除所述滤波谱图中的漂移信号,得到去噪谱图。
在一个实施例中,所述根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图包括:
确定参考谱图;
提取所述参考谱图的谱图峰;
确定所述去噪谱图相对于提取的每个所述谱图峰的偏移量;
根据提取的每个所述谱图峰对应的质荷比和所述去噪谱图对应所述谱图峰的偏移量,拟合出所述去噪谱图相对于所述参考谱图的偏移曲线;
将所述去噪谱图中的每个质荷比输入至所述偏移曲线,得到所述去噪谱图的每个质荷比对应的偏移量;
根据每个质荷比对应的偏移量对所述去噪谱图进行校正,得到校正后谱图。
在一个实施例中,所述确定参考谱图包括:
获取每个实验样本对应的原始谱图;
对所述每个实验样本对应的原始谱图,计算平均值,获得参考谱图。
在一个实施例中,所述提取所述参考谱图的谱图峰包括:
依次对所述参考谱图进行等采样处理和去噪处理,得到去噪后的参考谱图;
对于去噪后的参考谱图,根据所述参考谱图中各质荷比对应的强度值,采用局部最大值法遍历出所述去噪后的参考谱图中的谱图峰;
将所述预设的质荷比区间按照预设间隔分段,得到子区间;
对于每个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对所述去噪谱图进行谱图校正的谱图峰;或者,每间隔预设个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对所述去噪谱图进行谱图校正的谱图峰。
在一个实施例中,所述确定所述去噪谱图相对于提取的每个所述谱图峰的偏移量包括:
对于从所述参考谱图中提取的每个谱图峰,分别执行将所述去噪谱图按不同的偏移量相对于所述谱图峰进行偏移后,计算偏移后的去噪谱图与所述参考谱图之间的相关系数,将相关系数取最大值时所对应的偏移量,作为所述去噪谱图相对于所述谱图峰的偏移量的步骤,获得所述去噪谱图相对于提取的每个谱图峰的偏移量。
在一个实施例中,所述根据提取的每个所述谱图峰对应的质荷比和所述去噪谱图对应所述谱图峰的偏移量,拟合出所述去噪谱图相对于所述参考谱图的偏移曲线包括:
根据每个谱图峰对应的质荷比和所述去噪谱图对应每个谱图峰的偏移量,按照预设插值方式,对所述去噪谱图在预设插值点对应的偏移量进行插值,获得所述去噪谱图对应预设插值点的偏移量;
根据所述去噪谱图对应每个谱图峰的偏移量、插值后获得的对应预设插值点的偏移量,拟合出翘曲函数曲线,作为所述去噪谱图相对于所述参考谱图的偏移曲线。
在一个实施例中,所述对所述校正后谱图进行谱图配准处理包括:
迭代地执行对每个实验样本对应的校正后谱图求平均值得到平均谱图,对所述平均谱图进行去噪处理和峰提取处理,根据得到的所述平均谱图中的谱图峰和对应的强度值,生成参考峰列表;对于每个校正后谱图,提取所述校正后谱图中的谱图峰,对于提取的每个谱图峰,采用最邻近搜索算法从所述参考峰列表中确定所述谱图峰邻近的参考峰,并将所述谱图峰配准至所述参考峰的步骤,直至将每个所述实验样本对应的校正后谱图均配准至所述参考峰列表时,停止迭代。
一种数据处理装置,所述装置包括:
获取模块,用于获取实验样本对应的原始谱图,所述原始谱图是根据对所述实验样本进行质谱实验得到的质谱数据生成的;
采样模块,用于对所述原始谱图进行等采样处理,获得质荷比统一的谱图;
去噪模块,用于对所述质荷比统一的谱图进行去噪处理,获得去噪谱图;
校正模块,用于根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图;
配准模块,用于对所述校正后谱图进行谱图配准处理后,得到所述实验样本对应的预处理数据,所述预处理数据用于对所述实验样本进行成分分析。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取实验样本对应的原始谱图,所述原始谱图是根据对所述实验样本进行质谱实验得到的质谱数据生成的;
对所述原始谱图进行等采样处理,获得质荷比统一的谱图;
对所述质荷比统一的谱图进行去噪处理,获得去噪谱图;
根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图;
对所述校正后谱图进行谱图配准处理后,得到所述实验样本对应的预处理数据,所述预处理数据用于对所述实验样本进行成分分析。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取实验样本对应的原始谱图,所述原始谱图是根据对所述实验样本进行质谱实验得到的质谱数据生成的;
对所述原始谱图进行等采样处理,获得质荷比统一的谱图;
对所述质荷比统一的谱图进行去噪处理,获得去噪谱图;
根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图;
对所述校正后谱图进行谱图配准处理后,得到所述实验样本对应的预处理数据,所述预处理数据用于对所述实验样本进行成分分析。
上述数据处理方法、装置、计算机设备和存储介质,根据对实验样本进行质谱实验得到的原始谱图进行等采样处理,获得质荷比统一的谱图,由于质荷比统一后,每一份谱图的质荷比数据是相同的,那么对于所有的谱图都只需要存储一份质荷比数据,能够极大地减少内存占用,提升数据处理效率,也方便对谱图进行后续的处理。另一方面,对于质荷比统一的谱图,继续进行去噪处理,并利用参考谱图中的谱图峰对去噪后谱图进行谱图校正,得到的校正后谱图,能够将不同实验样本中的所有峰值信号对齐,可以便于对不同实验样本中的同一物质进行对比分析。又一方面,对校正后谱图进行谱图配准,即可得到实验样本对应的预处理数据,预处理可用于进一步地对实验样本中的成分进行分析,从而提升了对整个谱图数据进行预处理的处理效果。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的处理步骤流程图;
图3为一个实施例中数据处理方法的整体流程图;
图4为一个实施例中数据处理方法的流程示意图;
图5为一个实施例中对原始谱图进行采样处理的示意图;
图6为一个实施例中对原始谱图进行滤波处理获得的滤波谱图的示意图;
图7为一个实施例中对去噪谱图进行谱图校正的流程示意图;
图8为一个实施例中对去噪谱图进行谱图校正的示意图;
图9为一个实施例中数据处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102可以获取对实验样本进行质谱实验得到的质谱数据,该质谱数据可以是txt格式,包括多个数据对,每个数据对包括质荷比及该质荷比对应的强度值。终端102可以使用编程语言(例如Python)的可视化绘图工具根据该质谱数据生成实验样本对应的原始谱图,原始谱图可以表示实验样本中的代谢物在预设的质荷比区间对应的强度值,强度值与质荷比对应的代谢物在实验样本中的浓度成正相关。终端102可以对原始谱图进行等采样处理,获得质荷比统一的谱图;对质荷比统一的谱图进行去噪处理,获得去噪谱图;根据参考谱图中的谱图峰对去噪谱图进行谱图校正,得到校正后谱图;对校正后谱图进行谱图配准处理后,得到实验样本对应的预处理数据。终端102还可以访问谱图数据库,根据谱图数据库中各代谢物对应的标准谱图,对预处理数据进行生物化学分析,以确定实验样本的成分。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
本申请实施例提供的数据处理方法中的部分步骤还可以采用基于机器学习的方式进行处理,例如,在谱图校正过程中,对于参考谱图的谱图峰的提取,以及在谱图配准过程中,对于平均谱图、校正后谱图的谱图峰的提取,都可以采用基于机器学习的算法实现。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在一个实施例中,终端上运行了支持数据分析的客户端,可以利用该客户端执行上述的数据处理方法,例如,客户端可以获取对实验样本进行质谱实验得到的质谱数据,根据质谱数据生成实验样本对应的原始谱图,调用客户端内支持的等采样函数对原始谱图进行等采样处理,获得质荷比统一的谱图,再利用客户端内支持的去噪函数,对质荷比统一的谱图进行去噪处理,获得去噪谱图;接着根据参考谱图中的谱图峰对去噪谱图进行谱图校正,得到校正后谱图,对校正后谱图进行谱图配准处理后,得到实验样本对应的预处理数据,客户端可导出该预处理数据。
为了使本申请实施例描述的数据处理方法更清楚,下面对本申请实施例涉及的一些概念进行具体说明:
质谱实验:是指使用特定的分析仪器,利用质谱法对实验样本进行实验。质谱法是采用电场和磁场将运动的离子按它们的质荷比分离后进行检测的方法。质谱仪可与不同类型的色谱仪组合后对实验样本进行分析。例如,质谱仪可以是GC-MS(Gas Chromatography-Mass Spectrometry,气相色谱-质谱联用仪)、LC-MS(Liquid Chromatograph-MassSpectrometer,液相色谱-质谱联用仪),还可以是MALDI-TOF-MS(Matrix-Assisted LaserDesorption/Ionization Time Of Flight Mass Spectrometry,基质辅助激光解吸电离飞行时间质谱)。不同类型的质谱仪因采用的分析方法存在区别,进行质谱实验后获得的质谱数据也存在差异。本申请实施例主要以对MALDI-TOF-MS数据进行处理来举例说明。
质谱数据:质谱数据是对实验样本进行质谱实验得到的原始数据。质谱数据例如可以是液相色谱-质谱联用数据、气相色谱-质谱联用数据,还可以是MALDI-TOF-MS数据。
数据处理:通过质谱实验从实验样本如生物样品中提取代谢物的质谱数据,因为分析仪器或分析平台的不同,产生的质谱数据是非常复杂的,需要对产生的原始的质谱数据进行一系列数值处理,提取出有用的信息,同时将原始的质谱数据转换为可用于进一步统计分析的可用形式,例如,将原始的质谱数据中的所有相关信息提取到一个适于化学计量分析的数据矩阵中,作为预处理数据。对于预处理后得到的预处理数据,可以与谱图数据库中的谱图进行对比,从而确定对应的代谢物。
如图2所示,为一个实施例中数据处理方法的处理步骤流程图。首先通过对实验样本进行质谱数据获得原始的质谱数据,然后利用本申请实施例提供的数据处理方法对原始的质谱数据进行数据预处理,得到预处理数据,进而基于预处理数据进行数据分析,如PCA(Principal Components Analysis,主成分分析)和PLS-DA(Partial Least SquaresDiscriminant Analysis,偏最小二乘法判别分析),可以确定出实验样本中的代谢物,从而得出最终的生物、化学结论。
如图3所示,为一个实施例中数据处理方法的整体流程图。参照图3,根据原始的谱图数据生成原始谱图,依次进行数据等采样、平滑滤波、基线校正、峰提取、谱图校正、谱图配准和批次校正处理,可以得到最终的预处理数据。上述每个步骤将在下文进行详细说明。
在一个实施例中,如图4所示,提供了一种数据处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤402,获取实验样本对应的原始谱图,原始谱图是根据对实验样本进行质谱实验得到的质谱数据生成的。
其中,质荷比是带电离子的质量与所带电荷之比值,可以用m/q表示。谱图能够反映实验样本中的代谢物在预设的质荷比区间对应的强度值。原始谱图表示实验样本中的代谢物在预设的质荷比区间对应的强度值,强度值与质荷比对应的代谢物在实验样本中的浓度成正相关。具体地,在谱图中横坐标表示质荷比,纵坐标表示对应的强度值,质荷比对应的代谢物在实验样本中的浓度越高,对应的强度值也就越高。谱图可用于与谱图数据库进行比对,从而确定其对应的代谢物。
具体地,对于每个实验样本,终端可以获取每个实验样本的质谱数据,生成相应的原始谱图,每个实验样本对应的质谱数据包括对应一些质荷比的强度值,可以根据在预设的质荷比区间中每个质荷比对应的强度值生成的原始谱图。其中,预设的质荷比区间中质荷比的细粒度可以按照需要进行设置,例如,质荷比最小值为100,最大值为1000,细粒度即质荷比的间隔,细粒度为0.05,代表每个0.05呈现相应质荷比的强度值,那么每个实验样本对应的质谱数据就包括约18000个数据对,可以理解的是,由于数据的稀疏性,生成的原始谱图中大量质荷比对应的强度值为0,代表实验样本中不存在相应质荷比对应的代谢物。
步骤404,对原始谱图进行等采样处理,获得质荷比统一的谱图。
本申请实施例中,每个实验样本对应的质谱数据是不同的,导致生成的谱图也不相同,尤其在质荷比上也无法统一,例如实验样本A对应质荷比177.85的强度值为0,而对应质荷比177.86的强度值为10000,而实验样本B对应质荷比177.85的强度值为10000,而对应质荷比177.86的强度值为0,但某些情况下这种偏移并不是样本本身造成的,可能是实验过程造成的,导致无法对所有的实验样本进行统一的分析,尤其在数据量庞大的情况下,每个实验样本都要单独存放一份质荷比数据,占用较多的内存,也降低了数据处理效率,为此,本申请实施例通过对所有实验样本对应的原始谱图进行等采样处理,获得质荷比统一的谱图,这样对于所有的实验样本,只需要保存一份质荷比数据即可,能够极大程度上减少内存占用,提高数据处理的效率。
其中,等采样处理是对原始谱图按照原始谱图中质荷比的细粒度进行采样,获得数量相同的质荷比对应的强度值。例如,原始谱图中每个实验样本对应的荷质比数据有18000份,等采样处理后每个实验样本对应的荷质比数据仍然是18000份,这样可以尽可能保证谱图不失真,等采样后的数据还能反映原始样本的质谱信息,又能保证等采样处理后的谱图对应同一份质荷比数据。
在一个实施例中,对原始谱图进行等采样处理,获得质荷比统一的谱图包括:选取任意一个实验样本对应的原始谱图作为基准谱图;将基准谱图中的质荷比作为基准质荷比;对于除选取的实验样本外其它实验样本对应的原始谱图,根据在预设的质荷比区间中各质荷比对应的强度值,按照预设插值方式对其它原始谱图进行插值,获得对应基准质荷比的强度值;根据其它实验样本对应基准质荷比的强度值,得到质荷比统一的谱图。
具体地,终端可以从所有实验样本对应的原始谱图中,选取任意一个实验样本对应的原始谱图,作为基准谱图,该基准谱图对应的荷质比数据作为基准荷质比,对于其它的实验根本对应的原始谱图,根据对应其它质荷比的强度值,对它在基准质荷比对应的强度值进行插值,获得对于基准质荷比的强度值,从而用对应基准质荷比的强度值来更新该原始谱图,这样,其它实验样本也都有了对应基准质荷比的强度值,使得所有实验样本的质荷比得到了统一。
举例来说,原始谱图A作为基准谱图,其在质荷比180.05的强度值为10000,对应质荷比180.10的强度值为10001,对应质荷比180.15的强度值为10002,那么基准质荷比包括180.05、180.10和180.15,而原始谱图B的质谱数据中,对应质荷比180.06的强度值为10001,对应质荷比180.11的强度值为10002,对应质荷比180.16的强度值为10003,那么就可以根据原始谱图B对应质荷比180.06、180.11和180.16的强度值,利用预设插值算法分别预测其对应质荷比180.05、180.10和180.15的强度值,并根据其质荷比180.05、180.10和180.15的强度值更新原始谱图B,从而实现将原始谱图B的质荷比与原始谱图A的质荷比统一。
在一个实施例中,预设插值方式可以是三次样条插值函数。
在一个实施例中,为了更大程度地减少内存占用,终端也可以对原始谱图进行降采样处理,也就是按照更大的质荷比间隔对原始谱图进行采样,获得采样后的谱图。
如图5所示,为一个实施例中对原始谱图进行等采样处理和降采样处理后获得质荷比统一的谱图的示意图。参照图5,示出了一个实验样本对应的谱图的部分片段,该片段示出了该实验样本在质荷比取值177.80至178.20之间的强度值的变化。图5左边是对原始谱图进行等采样处理后得到的质荷比统一的谱图,右边是对原始谱图进行降采样处理后得到的质荷比统一的谱图。可以看出,等采样处理后获得荷质比统一的谱图没有出现明显失真,而降采样处理后获得荷质比统一的谱图出现了一些失真。
步骤406,对质荷比统一的谱图进行去噪处理,获得去噪谱图。
由于质谱数据是通过特定仪器对实验样本进行质谱实验得到的,所以获得的质谱数据中包括一些高斯噪声、化学噪声、基质噪声以及各种其他人为、仪器或者环境造成的噪声。化学噪声是来自于实验样本中的缓冲液和溶剂的噪声。因此,需要对质谱数据进行去噪处理,滤除质谱数据中的噪声。具体地,终端可以在对所有谱图的质荷比统一后,再对质荷比统一的谱图进行去噪处理,获得去噪谱图。
在一个实施例中,对质荷比统一的谱图进行去噪处理,获得去噪谱图包括:采用离散小波变换对质荷比统一的谱图进行滤波处理,获得滤波谱图;对滤波谱图进行基线校正处理,获得去噪谱图。
具体地,由于质谱原始数据中噪声成分比较复杂,质谱数据中噪声和信号往往混叠在一起,特别是一些“毛刺”噪声很难去除,本申请实施例中,采用基于频谱分析的滤波方法先进行滤波处理,如离散小波变换(Discrete Wavelet Transformation,DWT)。例如,可以使用Python的小波工具箱中的离散小波变换,对原始谱图进行4层分解,分解的小波系数为db4,每一层分解后采用的阈值算法为噪声中值估计法。在一些实施例中,终端也可以采用一些加权平均值滤波算法对质荷比统一后的谱图进行滤波处理,如高斯滤波、移动平均滤波等等。
如图6所示,为一个实施例中采用不同滤波方式对原始谱图进行滤波处理获得的滤波谱图的示意图。参照图6,左上边是原始谱图,包含很多“毛刺”噪声,右上边是采用移动平均滤波算法对原始谱图进行滤波处理后获得的谱图,可以看出,可以滤除大部分的“毛刺”噪声,但失真比较明显,左下边是采用高斯滤波对原始谱图进行滤波处理后获得的谱图,还是存在一些“毛刺”噪声,右下边是采用离散小波变换对原始谱图进行滤波处理后获得的谱图,不仅滤除了大部分“毛刺”噪声,噪声去除效果好,信号失真也较小。
基线一般是平行于横轴的一条线,但由于噪声的影响,质谱数据呈现的谱图的基线会出现扭曲,基线的扭曲会影响化学计量分析和代谢物的定量,因为质荷比的强度值是参照基线计算的,基线偏移会破坏数据分析,为此,在采用离散小波变换对谱图进行滤波处理获得滤波谱图后,还要进一步进行基线校正处理,获得最终的去噪谱图。
在一个实施例中,对滤波谱图进行基线校正处理,获得去噪谱图包括:对滤波谱图进行闭开运算,以滤除谱图中的高频分量;对高频滤波后的谱图进行开闭运算,以滤除谱图中漂移信号的波峰和波谷;根据得到的波峰和波谷,滤除滤波谱图中的漂移信号,得到去噪谱图。
在本实施例中,采用基于图像形态学的基线校正方法对滤波图片进行基线校正处理,可以实现较好的基线校正效果。其中,闭开运算是指先进行闭运算再进行开运算,开闭运算是指先进行开运算再进行闭运算,开运算是一个基于几何运算的滤波器,能够去除孤立的小点、毛刺,所以对信号中的高频分量有较好的滤波效果,闭运算是通过填充凹陷部位来弥合裂缝、填平缝隙,所以实现能够平滑信号的效果,所以结合这二者可以得到平滑滤波后的去噪谱图。
具体地,终端可以先用小尺度结构元素通过闭开运算过滤掉滤波谱图中的高频分量,这一过程主要是为了去除谱图中的尖峰和峡谷值,因此需要用小尺度结构元素进行滤波;接着采用大尺度结构元素对高频滤波后的谱图进一步进行开闭运算,这一过程是为了去除漂移信号上所有的波峰和波谷,最后根据得到的波峰波谷从滤波谱图中去除漂移成分,得到基线校正后的谱图,即完成了对谱图的基线校正处理。
步骤408,根据参考谱图中的谱图峰对去噪谱图进行谱图校正,得到校正后谱图。
由于原始质谱数据对应的谱图中的谱图峰通常在其质荷比上存在差异,即便是同一个代谢物,在两次实验中,可能因为仪器或实验环境的原因,谱图峰没有对齐,所以为了便于对代谢物的特征进行比较分析,需要将不同实验样本对应的谱图峰进行对齐。
其中,参考谱图是用于进行谱图峰对齐的谱图,谱图校正就是将所有实验样本对应的去噪谱图校正到该参考谱图,与该参考谱图中对齐。参考谱图可以是在一定程度上包含所有实验样本对应的谱图信息的谱图。在一个实施例中,参考谱图可以通过对所有实验样本的原始谱图求平均值得到。
具体地,终端可以先根据所有实验样本对应的原始谱图确定出参考谱图,再提取参考谱图的谱图峰,将之前得到的所有实验样本对应的去噪谱图与参考谱图中的谱图峰对齐,得到校正后的谱图。
在一个实施例中,如图7所示,根据参考谱图中的谱图峰对去噪谱图进行谱图校正,得到校正后谱图包括:
步骤702,确定参考谱图。
具体地,在进行谱图校正之前,需要先确定参考谱图。
在一个实施例中,确定参考谱图包括:获取每个实验样本对应的原始谱图;对每个实验样本对应的原始谱图,计算平均值,获得参考谱图。
本实施例中,考虑到实验样本中不同谱图的谱图峰不一致,比如某个谱图中存在的一些普通峰另一个谱图并不存在,因此本实施例选取了所有原始谱图的平均值作为用于谱图校正的参考谱图,这样,参考谱图就能包含所有实验样本对应的原始谱图的峰信息。
步骤704,提取参考谱图的谱图峰。
为了实现谱图峰对齐,先需要找出参考峰,也就是参考谱图中的谱图峰,因此,需要先对参考谱图进行峰提取,提取出参考谱图中的谱图峰。在一些实施例中,由于每个谱图的数据量较大,还可以在提取出参考谱图中的所有谱图峰之后,进一步筛选,筛选出更能够反映出整个参考谱图峰值信息的谱图峰。
在一个实施例中,提取参考谱图的谱图峰包括:依次对参考谱图进行等采样处理和去噪处理,得到去噪后的参考谱图;对于去噪后的参考谱图,根据参考谱图中各质荷比对应的强度值,采用局部最大值法遍历出去噪后的参考谱图中的谱图峰;将预设的质荷比区间按照预设间隔分段,得到子区间;对于每个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰;或者,每间隔预设个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰。
其中,对参考谱图进行等采样处理和去噪处理,得到去噪后的参考谱图的处理方式,可以与前文提到的对所有实验样本对应的原始谱图的处理方式一致,也就是,需要对参考谱图进行等采样处理、滤波处理和基线校正处理,具体地,根据参考谱图在预设的质荷比区间中各质荷比对应的强度值,按照预设插值方式对参考谱图进行插值,获得对应基准质荷比的强度值,根据对应基准质荷比的强度值,得到质荷比统一的谱图,接着,再采用离散小波变换对该质荷比统一的谱图进行滤波处理,获得滤波谱图,最后对滤波谱图进行闭开运算,以滤除谱图中的高频分量;对高频滤波后的谱图进行开闭运算,以滤除谱图中漂移信号的波峰和波谷;根据得到的波峰和波谷,滤除滤波谱图中的漂移信号,得到去噪后的参考谱图。
对于去噪后的参考谱图,根据参考谱图中各质荷比对应的强度值,采用局部最大值法遍历出去噪后的参考谱图中的谱图峰,也就是,采用局部最大值法,从去噪后的参考谱图中搜索出所有的谱图峰。为了提高谱图校正的可靠性,还可以选取谱图峰的强度值排名靠前的谱图峰,例如,选取强度值排名靠前0.015%的谱图峰。为了使得选取的谱图峰更加均匀,提升谱图校正效果,还可以采用分段选取谱图峰的方式,具体地,将预设的质荷比区间按照预设间隔分段,得到子区间;对于每个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰,例如,每个子区间的长度为100质荷比,可以在每个子区间内选取其中强度值排名靠前0.015%的谱图峰。或者,每间隔预设个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰,例如,每间隔100质荷比选取其中强度值排名靠前0.015%的谱图峰。这样,在每个质荷比区间都有足够多谱图峰的分布,从而保证后续算法的可靠性。
具体地,对于参考谱图的每个谱图峰,在去噪谱图中进行相关系数匹配,从而确定去噪谱图相对于每个谱图峰的偏移量。
在一个实施例中,确定去噪谱图相对于提取的每个谱图峰的偏移量包括:对于从参考谱图中提取的每个谱图峰,分别执行将去噪谱图按不同的偏移量相对于谱图峰进行偏移后,计算偏移后的去噪谱图与参考谱图之间的相关系数,将相关系数取最大值时所对应的偏移量,作为去噪谱图相对于谱图峰的偏移量的步骤,获得去噪谱图相对于提取的每个谱图峰的偏移量。
其中,两个谱图之间的相关系数,可以用对应同一个质荷比的强度值之间的相关系数进行计算得到,例如,分别获取谱图A与谱图B对应相同质荷比的强度值,根据强度值计算相关系数,又例如,可以分别获取谱图A与谱图B对应质荷比100至质荷比150这一区间的强度值,计算强度值之间的相关系数。相关系数能够反应出两个谱图之间的相似性,相关系数可以用皮尔逊相关系数来表示。不同的偏移量可以是按实际需要进行设定的,例如偏移量的取值范围可以是[-200,200],可以依次取这个区间内的值,将去噪谱图进行偏移,计算偏移后的取值谱图与参考谱图之间的相关系数,相似性越大,代表按该偏移量进行偏移后获得的校正谱图对应的校正效果越好,所以将相关系数取最大值时所对应的偏移量,作为该去噪谱图相对于该谱图峰的偏移量。
举例来说,对于参考谱图中的某个谱图峰,其横坐标为P,将去噪谱图A依次按照偏移量取0至200的每个值相对于该谱图峰进行偏移,在每次偏移后,可以根据[P,P+200]这个区间上参考谱图的强度值,以及偏移后这个区间上去噪谱图A对应的强度值,计算出一个相关系数,对于每次偏移后计算出的所有相关系数,选取相关系数最大值所对应的偏移量,作为去噪谱图A相对于该谱图峰的偏移量。
类似地,对于从参考谱图中提取的每个谱图峰,都执行上述步骤,就可以得到去噪谱图相对于参考谱图中每个谱图峰的偏移量。
步骤708,根据提取的每个谱图峰对应的质荷比和去噪谱图对应谱图峰的偏移量,拟合出去噪谱图相对于参考谱图的偏移曲线。
有了去噪谱图相对于每个谱图峰的偏移量,就可以拟合出去噪谱图相对于参考谱图中的谱图峰的偏移曲线,由于峰值偏移信息是比较可靠的特征,谱图峰是参考谱图中的,所以根据去噪谱图相对于参考谱图中每个谱图峰的偏移量,可以拟合出去噪谱图相对于参考谱图的偏移曲线,显然,该偏移曲线能够在一定程度上反应出去噪谱图相对于整个参考谱图的偏移量,所以该偏移曲线也可以作为去噪谱图相对于整个参考谱图的偏移曲线。
在一个实施例中,根据提取的每个谱图峰对应的质荷比和去噪谱图对应谱图峰的偏移量,拟合出去噪谱图相对于参考谱图的偏移曲线包括:根据每个谱图峰对应的质荷比和去噪谱图对应每个谱图峰的偏移量,按照预设插值方式,对去噪谱图在预设插值点对应的偏移量进行插值,获得去噪谱图对应预设插值点的偏移量;根据去噪谱图对应每个谱图峰的偏移量、插值后获得的对应预设插值点的偏移量,拟合出翘曲函数曲线,作为去噪谱图相对于参考谱图的偏移曲线。
本实施例中,基于参考谱图中每个谱图峰对应的质荷比,以及去噪谱图相对于每个谱图峰的偏移量,按照预设插值方式对去噪谱图在预设插值点对应的偏移量进行插值,获得去噪谱图相对于参考谱图在其它质荷比的偏移量,这样就可以拟合出翘曲函数曲线,作为去噪谱图相对于参考谱图的偏移曲线。这里的预设插值方式也可以采用三次样条插值方式,当然,也可以采用其他的插值方式。
步骤710,将去噪谱图中的每个质荷比输入至偏移曲线,得到去噪谱图的每个质荷比对应的偏移量。
步骤712,根据每个质荷比对应的偏移量对去噪谱图进行校正,得到校正后谱图。
如图8所示,为一个实施例中根据参考谱图的谱图峰对去噪谱图进行谱图校正的示意图。参照图8,左上角是校正之前的参考谱图与去噪谱图。参考谱图大约在质荷比为161.0处存在一个谱图峰,右上角是将去噪谱图按照偏移量0至200进行偏移后计算得到的相关系数的变化示意图,可以看出,在偏移量为约125时相关系数最大。左下角是按照125的偏移量对去噪谱图进行校正之后得到的参考谱图与去噪谱图的对比图,可以看出,两个谱图的峰值已实现基本对齐。右下角是根据去噪谱图相对于参考谱图中的每个谱图峰的偏移量拟合出的翘曲函数曲线,图中曲线上的黑点即表示相对于每个谱图峰的偏移量,采用三次样条插值方式用一条曲线将这些黑点平滑连接起来,就得到了翘曲函数曲线。
在本实施例中,利用基于相关系数和偏移函数实现的谱图校正,一定程度上解决了传统谱峰联配算法存在的时间复杂度、空间复杂度较大、错配率较高等问题。
步骤410,对校正后谱图进行谱图配准处理后,得到实验样本对应的预处理数据,预处理数据用于对实验样本进行成分分析。
即使是校正之后的谱图,同一代谢物在不同谱图的质荷比也会存在比较小的偏移,这种偏移可能会导致数据分析中的重大误差,因此还需要对校正后谱图进行谱图配准处理。因此,需要进一步的配准算法,进一步将同种代谢物在不同谱图中的质荷比统一进行谱图配准处理,才能得到可以用于进行数据分析的预处理数据。预处理数据可用于进行后续的机器学习及生物化学分析。
在一个实施例中,对校正后谱图进行谱图配准处理包括:迭代地执行对每个实验样本对应的校正后谱图求平均值得到平均谱图,对平均谱图进行去噪处理和峰提取处理,根据得到的平均谱图中的谱图峰和对应的强度值,生成参考峰列表;对于每个校正后谱图,提取校正后谱图中的谱图峰,对于提取的每个谱图峰,采用最邻近搜索算法从参考峰列表中确定谱图峰邻近的参考峰,并将谱图峰配准至参考峰的步骤,直至将每个实验样本对应的校正后谱图均配准至参考峰列表时,停止迭代。
其中,对于每个校正后谱图提取谱图峰的操作与对平均谱图提取谱图峰的操作是一致的,都是根据谱图中各质荷比对应的强度值,采用局部最大值法遍历出去噪后的谱图中的谱图峰,也就是,采用局部最大值法,从去噪后的谱图中搜索出所有的谱图峰。还可以进一步采用分段选取的方式,从谱图中均匀地提取谱图峰。将谱图峰配准至参考峰,具体是确定校正后谱图的谱图峰对应的质荷比的值与最邻近参考峰对应的质荷比的值统一的过程,这样就可以实现将所有校正后谱图的谱图峰对齐。
在本实施例中,通过不断地迭代不断迭代以上步骤后,即可将所有谱图的峰配准到同一个参考峰列表,进而实现质谱谱图的峰配准。
在一个实施例中,上述数据处理方法还包括:
在对校正后谱图进行谱图配准处理后,继续对谱图配准处理后的谱图进行批次校正处理,得到最终的预处理数据。批次校正是为将降低不同批次实验导致的实验误差。例如,可以利用基于经典贝叶斯的分析方法如ComBat对谱图进行批次校正,获得最终可用于数据分析的预处理数据。
上述数据处理方法中,根据对实验样本进行质谱实验得到的原始谱图进行等采样处理,获得质荷比统一的谱图,由于质荷比统一后,每一份谱图的质荷比数据是相同的,那么对于所有的谱图都只需要存储一份质荷比数据,能够极大地减少内存占用,提升数据处理效率,也方便对谱图进行后续的处理。另一方面,对于质荷比统一的谱图,继续进行去噪处理,并利用参考谱图中的谱图峰对去噪后谱图进行谱图校正,得到的校正后谱图,能够将不同实验样本中的所有峰值信号对齐,可以便于对不同实验样本中的同一物质进行对比分析。又一方面,对校正后谱图进行谱图配准,即可得到实验样本对应的预处理数据,预处理可用于进一步地对实验样本中的成分进行分析,从而提升了对整个谱图数据进行预处理的处理效果。
在一个具体的实施例中,数据处理方法包括以下步骤:
1、获取实验样本对应的原始谱图;
2、选取任意一个实验样本对应的原始谱图作为基准谱图;
3、将基准谱图中的质荷比作为基准质荷比;
4、对于除选取的实验样本外其它实验样本对应的原始谱图,根据在预设的质荷比区间中各质荷比对应的强度值,按照预设插值方式对其它原始谱图进行插值,获得对应基准质荷比的强度值;
5、根据其它实验样本对应基准质荷比的强度值,得到质荷比统一的谱图;
6、采用离散小波变换对质荷比统一的谱图进行滤波处理,获得滤波谱图;
7、对滤波谱图进行闭开运算,以滤除谱图中的高频分量;
8、对高频滤波后的谱图进行开闭运算,以滤除谱图中漂移信号的波峰和波谷;
9、根据得到的波峰和波谷,滤除滤波谱图中的漂移信号,得到去噪谱图;
10、对每个实验样本对应的原始谱图,计算平均值,获得参考谱图;
11、依次对参考谱图进行等采样处理和去噪处理,得到去噪后的参考谱图;
12、对于去噪后的参考谱图,根据参考谱图中各质荷比对应的强度值,采用局部最大值法遍历出去噪后的参考谱图中的谱图峰;
13、将预设的质荷比区间按照预设间隔分段,得到子区间;
14、对于每个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰;或者,每间隔预设个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰;
15、对于从参考谱图中提取的每个谱图峰,分别执行将去噪谱图按不同的偏移量相对于谱图峰进行偏移后,计算偏移后的去噪谱图与参考谱图之间的相关系数,将相关系数取最大值时所对应的偏移量,作为去噪谱图相对于谱图峰的偏移量的步骤,获得去噪谱图相对于提取的每个谱图峰的偏移量;
16、根据每个谱图峰对应的质荷比和去噪谱图对应每个谱图峰的偏移量,按照预设插值方式,对去噪谱图在预设插值点对应的偏移量进行插值,获得去噪谱图对应预设插值点的偏移量;
17、根据去噪谱图对应每个谱图峰的偏移量、插值后获得的对应预设插值点的偏移量,拟合出翘曲函数曲线,作为去噪谱图相对于参考谱图的偏移曲线;
18、将去噪谱图中的每个质荷比输入至偏移曲线,得到去噪谱图的每个质荷比对应的偏移量;
19、根据每个质荷比对应的偏移量对去噪谱图进行校正,得到校正后谱图;
20、迭代地执行对每个实验样本对应的校正后谱图求平均值得到平均谱图,对平均谱图进行去噪处理和峰提取处理,根据得到的平均谱图中的谱图峰和对应的强度值,生成参考峰列表;对于每个校正后谱图,提取校正后谱图中的谱图峰,对于提取的每个谱图峰,采用最邻近搜索算法从参考峰列表中确定谱图峰邻近的参考峰,并将谱图峰配准至参考峰的步骤,直至将每个实验样本对应的校正后谱图均配准至参考峰列表时,停止迭代,得到实验样本对应的预处理数据;
21、根据预处理数据对实验样本进行成分分析。
上述数据处理方法,根据对实验样本进行质谱实验得到的原始谱图进行等采样处理,获得质荷比统一的谱图,由于质荷比统一后,每一份谱图的质荷比数据是相同的,那么对于所有的谱图都只需要存储一份质荷比数据,能够极大地减少内存占用,提升数据处理效率,也方便对谱图进行后续的处理。另一方面,对于质荷比统一的谱图,继续进行去噪处理,并利用参考谱图中的谱图峰对去噪后谱图进行谱图校正,得到的校正后谱图,能够将不同实验样本中的所有峰值信号对齐,可以便于对不同实验样本中的同一物质进行对比分析。又一方面,对校正后谱图进行谱图配准,即可得到实验样本对应的预处理数据,预处理可用于进一步地对实验样本中的成分进行分析,从而提升了对整个谱图数据进行预处理的处理效果。
在一个具体的应用场景中,质谱数据为MALDI-TOF-MS代谢组学数据,关于该数据的数据预处理方法包括:获取每个实验样本对应的原始谱图,每个实验样本的MALDI-TOF-MS代谢组学谱图(质荷比范围:100-1000)包含了约120000对荷质比和强度值,其数据量庞大,噪声大,并且质荷比和强度在不同谱图之间存在系统误差,不能直接进行后续数据分析,因此先通过离散小波滤波、基线校正进行噪声去除,然后通过峰提取得到每张谱图的有用信息,即每个谱图峰对应的荷质比和强度信息,约几百个数据对。谱图校正和谱图配准是为了解决同一代谢物在不同谱图之间的荷质比偏移问题,将同一代谢物在所有谱图的质荷比配准到一起,最后,对不同批次得到的数据进行批次校正,即可得到预处理数据。预处理数据为一个二维矩阵,每一行对应每一个实验样本所有荷质比的强度值,每一列对应每一个荷质比在不同样本的强度值。预处理数据可用于进行后续的数据分析。
应该理解的是,虽然图4、图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图4、图7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种数据处理装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块902、采样模块904、去噪模块906、校正模块908和配准模块910,其中:
获取模块902,用于获取实验样本对应的原始谱图,原始谱图是根据对实验样本进行质谱实验得到的质谱数据生成的;
采样模块904,用于对原始谱图进行等采样处理,获得质荷比统一的谱图;
去噪模块906,用于对质荷比统一的谱图进行去噪处理,获得去噪谱图;
校正模块908,用于根据参考谱图中的谱图峰对去噪谱图进行谱图校正,得到校正后谱图;
配准模块910,用于对校正后谱图进行谱图配准处理后,得到实验样本对应的预处理数据,预处理数据用于对实验样本进行成分分析。
在一个实施例中,采样模块904具体用于选取任意一个实验样本对应的原始谱图作为基准谱图;将基准谱图中的质荷比作为基准质荷比;对于除选取的实验样本外其它实验样本对应的原始谱图,根据在预设的质荷比区间中各质荷比对应的强度值,按照预设插值方式对其它原始谱图进行插值,获得对应基准质荷比的强度值根据其它实验样本对应基准质荷比的强度值,得到质荷比统一的谱图。
在一个实施例中,去噪模块906具体用于采用离散小波变换对质荷比统一的谱图进行滤波处理,获得滤波谱图;对滤波谱图进行基线校正处理,获得去噪谱图。
在一个实施例中,去噪模块906具体用于对滤波谱图进行闭开运算,以滤除谱图中的高频分量;对高频滤波后的谱图进行开闭运算,以滤除谱图中漂移信号的波峰和波谷;根据得到的波峰和波谷,滤除滤波谱图中的漂移信号,得到去噪谱图。
在一个实施例中,校正模块908具体用于确定参考谱图;提取参考谱图的谱图峰;确定去噪谱图相对于提取的每个谱图峰的偏移量;根据提取的每个谱图峰对应的质荷比和去噪谱图对应谱图峰的偏移量,拟合出去噪谱图相对于参考谱图的偏移曲线;将去噪谱图中的每个质荷比输入至偏移曲线,得到去噪谱图的每个质荷比对应的偏移量;根据每个质荷比对应的偏移量对去噪谱图进行校正,得到校正后谱图。
在一个实施例中,校正模块908具体用于获取每个实验样本对应的原始谱图;对每个实验样本对应的原始谱图,计算平均值,获得参考谱图。
在一个实施例中,校正模块908具体用于依次对参考谱图进行等采样处理和去噪处理,得到去噪后的参考谱图;对于去噪后的参考谱图,根据参考谱图中各质荷比对应的强度值,采用局部最大值法遍历出去噪后的参考谱图中的谱图峰;将预设的质荷比区间按照预设间隔分段,得到子区间;对于每个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰;或者,每间隔预设个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对去噪谱图进行谱图校正的谱图峰。
在一个实施例中,校正模块908具体用于对于从参考谱图中提取的每个谱图峰,分别执行将去噪谱图按不同的偏移量相对于谱图峰进行偏移后,计算偏移后的去噪谱图与参考谱图之间的相关系数,将相关系数取最大值时所对应的偏移量,作为去噪谱图相对于谱图峰的偏移量的步骤,获得去噪谱图相对于提取的每个谱图峰的偏移量。
在一个实施例中,校正模块908具体用于根据每个谱图峰对应的质荷比和去噪谱图对应每个谱图峰的偏移量,按照预设插值方式,对去噪谱图在预设插值点对应的偏移量进行插值,获得去噪谱图对应预设插值点的偏移量;根据去噪谱图对应每个谱图峰的偏移量、插值后获得的对应预设插值点的偏移量,拟合出翘曲函数曲线,作为去噪谱图相对于参考谱图的偏移曲线。
在一个实施例中,配准模块910具体用于迭代地执行对每个实验样本对应的校正后谱图求平均值得到平均谱图,对平均谱图进行去噪处理和峰提取处理,根据得到的平均谱图中的谱图峰和对应的强度值,生成参考峰列表;对于每个校正后谱图,提取校正后谱图中的谱图峰,对于提取的每个谱图峰,采用最邻近搜索算法从参考峰列表中确定谱图峰邻近的参考峰,并将谱图峰配准至参考峰的步骤,直至将每个实验样本对应的校正后谱图均配准至参考峰列表时,停止迭代。
上述数据处理装置900,根据对实验样本进行质谱实验得到的原始谱图进行等采样处理,获得质荷比统一的谱图,由于质荷比统一后,每一份谱图的质荷比数据是相同的,那么对于所有的谱图都只需要存储一份质荷比数据,能够极大地减少内存占用,提升数据处理效率,也方便对谱图进行后续的处理。另一方面,对于质荷比统一的谱图,继续进行去噪处理,并利用参考谱图中的谱图峰对去噪后谱图进行谱图校正,得到的校正后谱图,能够将不同实验样本中的所有峰值信号对齐,可以便于对不同实验样本中的同一物质进行对比分析。又一方面,对校正后谱图进行谱图配准,即可得到实验样本对应的预处理数据,预处理可用于进一步地对实验样本中的成分进行分析,从而提升了对整个谱图数据进行预处理的处理效果。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
获取实验样本对应的原始谱图,所述原始谱图是根据对所述实验样本进行质谱实验得到的质谱数据生成的;
对所述原始谱图进行等采样处理,获得质荷比统一的谱图;
对所述质荷比统一的谱图进行去噪处理,获得去噪谱图;
根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图;
对所述校正后谱图进行谱图配准处理后,得到所述实验样本对应的预处理数据,所述预处理数据用于对所述实验样本进行成分分析。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始谱图进行等采样处理,获得质荷比统一的谱图包括:
选取任意一个实验样本对应的原始谱图作为基准谱图;
将所述基准谱图中的质荷比作为基准质荷比;
对于除选取的实验样本外其它实验样本对应的原始谱图,根据在预设的质荷比区间中各质荷比对应的强度值,按照预设插值方式对所述其它原始谱图进行插值,获得对应所述基准质荷比的强度值;
根据其它实验样本对应所述基准质荷比的强度值,得到质荷比统一的谱图。
3.根据权利要求1所述的方法,其特征在于,所述对所述质荷比统一的谱图进行去噪处理,获得去噪谱图包括:
采用离散小波变换对所述质荷比统一的谱图进行滤波处理,获得滤波谱图;
对所述滤波谱图进行基线校正处理,获得去噪谱图。
4.根据权利要求3所述的方法,其特征在于,所述对所述滤波谱图进行基线校正处理,获得去噪谱图包括:
对所述滤波谱图进行闭开运算,以滤除谱图中的高频分量;
对高频滤波后的谱图进行开闭运算,以滤除谱图中漂移信号的波峰和波谷;
根据得到的波峰和波谷,滤除所述滤波谱图中的漂移信号,得到去噪谱图。
5.根据权利要求1所述的方法,其特征在于,所述根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图包括:
确定参考谱图;
提取所述参考谱图的谱图峰;
确定所述去噪谱图相对于提取的每个所述谱图峰的偏移量;
根据提取的每个所述谱图峰对应的质荷比和所述去噪谱图对应所述谱图峰的偏移量,拟合出所述去噪谱图相对于所述参考谱图的偏移曲线;
将所述去噪谱图中的每个质荷比输入至所述偏移曲线,得到所述去噪谱图的每个质荷比对应的偏移量;
根据每个质荷比对应的偏移量对所述去噪谱图进行校正,得到校正后谱图。
6.根据权利要求5所述的方法,其特征在于,所述确定参考谱图包括:
获取每个实验样本对应的原始谱图;
对所述每个实验样本对应的原始谱图,计算平均值,获得参考谱图。
7.根据权利要求5所述的方法,其特征在于,所述提取所述参考谱图的谱图峰包括:
依次对所述参考谱图进行等采样处理和去噪处理,得到去噪后的参考谱图;
对于去噪后的参考谱图,根据所述参考谱图中各质荷比对应的强度值,采用局部最大值法遍历出所述去噪后的参考谱图中的谱图峰;
将所述预设的质荷比区间按照预设间隔分段,得到子区间;
对于每个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对所述去噪谱图进行谱图校正的谱图峰;或者,每间隔预设个子区间,从子区间中按照峰值高低的排序,从相应子区间的谱图峰中选取待对所述去噪谱图进行谱图校正的谱图峰。
8.根据权利要求5所述的方法,其特征在于,所述确定所述去噪谱图相对于提取的每个所述谱图峰的偏移量包括:
对于从所述参考谱图中提取的每个谱图峰,分别执行将所述去噪谱图按不同的偏移量相对于所述谱图峰进行偏移后,计算偏移后的去噪谱图与所述参考谱图之间的相关系数,将相关系数取最大值时所对应的偏移量,作为所述去噪谱图相对于所述谱图峰的偏移量的步骤,获得所述去噪谱图相对于提取的每个谱图峰的偏移量。
9.根据权利要求5所述的方法,其特征在于,所述根据提取的每个所述谱图峰对应的质荷比和所述去噪谱图对应所述谱图峰的偏移量,拟合出所述去噪谱图相对于所述参考谱图的偏移曲线包括:
根据每个谱图峰对应的质荷比和所述去噪谱图对应每个谱图峰的偏移量,按照预设插值方式,对所述去噪谱图在预设插值点对应的偏移量进行插值,获得所述去噪谱图对应预设插值点的偏移量;
根据所述去噪谱图对应每个谱图峰的偏移量、插值后获得的对应预设插值点的偏移量,拟合出翘曲函数曲线,作为所述去噪谱图相对于所述参考谱图的偏移曲线。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述对所述校正后谱图进行谱图配准处理包括:
迭代地执行对每个实验样本对应的校正后谱图求平均值得到平均谱图,对所述平均谱图进行去噪处理和峰提取处理,根据得到的所述平均谱图中的谱图峰和对应的强度值,生成参考峰列表;对于每个校正后谱图,提取所述校正后谱图中的谱图峰,对于提取的每个谱图峰,采用最邻近搜索算法从所述参考峰列表中确定所述谱图峰邻近的参考峰,并将所述谱图峰配准至所述参考峰的步骤,直至将每个所述实验样本对应的校正后谱图均配准至所述参考峰列表时,停止迭代。
11.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取实验样本对应的原始谱图,所述原始谱图是根据对所述实验样本进行质谱实验得到的质谱数据生成的;
采样模块,用于对所述原始谱图进行等采样处理,获得质荷比统一的谱图;
去噪模块,用于对所述质荷比统一的谱图进行去噪处理,获得去噪谱图;
校正模块,用于根据参考谱图中的谱图峰对所述去噪谱图进行谱图校正,得到校正后谱图;
配准模块,用于对所述校正后谱图进行谱图配准处理后,得到所述实验样本对应的预处理数据,所述预处理数据用于对所述实验样本进行成分分析。
12.根据权利要求11所述的装置,其特征在于,所述采样模块具体用于选取任意一个实验样本对应的原始谱图作为基准谱图;将所述基准谱图中的质荷比作为基准质荷比;对于除选取的实验样本外其它实验样本对应的原始谱图,根据在预设的质荷比区间中各质荷比对应的强度值,按照预设插值方式对所述其它原始谱图进行插值,获得对应所述基准质荷比的强度值;根据其它实验样本对应所述基准质荷比的强度值,得到质荷比统一的谱图。
13.根据权利要求11所述的装置,其特征在于,所述校正模块具体用于确定参考谱图;提取所述参考谱图的谱图峰;确定所述去噪谱图相对于提取的每个所述谱图峰的偏移量;根据提取的每个所述谱图峰对应的质荷比和所述去噪谱图对应所述谱图峰的偏移量,拟合出所述去噪谱图相对于所述参考谱图的偏移曲线;将所述去噪谱图中的每个质荷比输入至所述偏移曲线,得到所述去噪谱图的每个质荷比对应的偏移量;根据每个质荷比对应的偏移量对所述去噪谱图进行校正,得到校正后谱图。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
CN202011308746.0A 2020-11-20 2020-11-20 数据处理方法、装置、计算机设备和存储介质 Pending CN112418072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011308746.0A CN112418072A (zh) 2020-11-20 2020-11-20 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011308746.0A CN112418072A (zh) 2020-11-20 2020-11-20 数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112418072A true CN112418072A (zh) 2021-02-26

Family

ID=74773178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011308746.0A Pending CN112418072A (zh) 2020-11-20 2020-11-20 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112418072A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548156A (zh) * 2022-01-24 2022-05-27 成都理工大学 基于降采样和卷积神经网络的分布式光纤测温降噪方法
CN114564999A (zh) * 2022-04-27 2022-05-31 西湖欧米(杭州)生物科技有限公司 用于质谱数据的降噪方法、装置和存储介质
CN116106396A (zh) * 2023-04-13 2023-05-12 杭州汇健科技有限公司 质谱数据的全谱拟合动态校正方法、装置、介质及质谱仪

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548156A (zh) * 2022-01-24 2022-05-27 成都理工大学 基于降采样和卷积神经网络的分布式光纤测温降噪方法
CN114564999A (zh) * 2022-04-27 2022-05-31 西湖欧米(杭州)生物科技有限公司 用于质谱数据的降噪方法、装置和存储介质
CN114564999B (zh) * 2022-04-27 2022-08-26 西湖欧米(杭州)生物科技有限公司 用于质谱数据的降噪方法、装置和存储介质
CN116106396A (zh) * 2023-04-13 2023-05-12 杭州汇健科技有限公司 质谱数据的全谱拟合动态校正方法、装置、介质及质谱仪

Similar Documents

Publication Publication Date Title
US11790629B2 (en) Intensity normalization in imaging mass spectrometry
CN112418072A (zh) 数据处理方法、装置、计算机设备和存储介质
US8275185B2 (en) Discover biological features using composite images
Hilario et al. Processing and classification of protein mass spectra
CN1898674B (zh) 校准质谱仪与其它仪器系统和处理质谱与其它数据的方法
Trindade et al. Non-negative matrix factorisation of large mass spectrometry datasets
Dowsey et al. Image analysis tools and emerging algorithms for expression proteomics
US20130311110A1 (en) Methods and Apparatus for Obtaining Enhanced Mass Spectrometric Data
CN106067414B (zh) 产生质谱的方法
Szymańska et al. Chemometrics for ion mobility spectrometry data: recent advances and future prospects
Cook et al. Chemometrics for the analysis of chromatographic data in metabolomics investigations
Slawski et al. Isotope pattern deconvolution for peptide mass spectrometry by non-negative least squares/least absolute deviation template matching
US20140324362A1 (en) Shift correction for spectral analysis
EP3584795B1 (en) 3d mass spectrometry predictive classification
Liu et al. Function-on-scalar quantile regression with application to mass spectrometry proteomics data
JP2008500537A (ja) 分光計によって生成されたデータからスペクトルを抽出するためのシステム及び方法
JP6748085B2 (ja) 干渉検出および着目ピークのデコンボルーション
Fu et al. Mass-spectra-based peak alignment for automatic nontargeted metabolic profiling analysis for biomarker screening in plant samples
Shin et al. Wavelet-based adaptive denoising and baseline correction for MALDI TOF MS
Yu et al. A chemometric-assisted method based on gas chromatography–mass spectrometry for metabolic profiling analysis
Rapin et al. Application of non-negative matrix factorization to LC/MS data
Antoniadis et al. Peaks detection and alignment for mass spectrometry data
Wu et al. A hybrid retention time alignment algorithm for SWATH‐MS data
CN109964300B (zh) 用于实时同位素识别的系统和方法
CN112534267A (zh) 复杂样本中相关化合物的识别和评分

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination