CN114420222B - 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法 - Google Patents

一种基于分布式流式处理的碎片离子化合物结构的快速确认方法 Download PDF

Info

Publication number
CN114420222B
CN114420222B CN202210314385.3A CN202210314385A CN114420222B CN 114420222 B CN114420222 B CN 114420222B CN 202210314385 A CN202210314385 A CN 202210314385A CN 114420222 B CN114420222 B CN 114420222B
Authority
CN
China
Prior art keywords
ion
fragment
similarity
standard
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210314385.3A
Other languages
English (en)
Other versions
CN114420222A (zh
Inventor
邵兵
张莉
李华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Center for Disease Prevention and Control
Original Assignee
Beijing Center for Disease Prevention and Control
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Center for Disease Prevention and Control filed Critical Beijing Center for Disease Prevention and Control
Priority to CN202210314385.3A priority Critical patent/CN114420222B/zh
Publication of CN114420222A publication Critical patent/CN114420222A/zh
Application granted granted Critical
Publication of CN114420222B publication Critical patent/CN114420222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8651Recording, data aquisition, archiving and storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N2030/022Column chromatography characterised by the kind of separation mechanism
    • G01N2030/027Liquid chromatography

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medicinal Chemistry (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种基于分布式流式处理的碎片离子化合物结构的快速确认方法,包括如下步骤:(1)建立标准品质谱数据库:建立化合物标准品的电子身份数据库,所述电子身份数据库包括:化合物标准品的基本信息、色谱信息和质谱信息;(2)去卷积算法提取关键碎片离子信息;(3)碎片离子筛查:先进行分子拓扑结构相似性计算,然后进行碎片相对强度计算;(4)根据分子拓扑结构和碎片离子强度相似性,判断待测样品物质。该方法利用仪器及计算机进行自动对比分析,使碎片离子分析过程变得简单化,便于推广。

Description

一种基于分布式流式处理的碎片离子化合物结构的快速确认 方法
技术领域
本发明属于食品安全分析检测领域,具体涉及一种基于分布式流式处理的碎片离子化合物结构的快速确认方法。
背景技术
进入21世纪以来,随着经济生活的蓬勃发展,人们对食品安全要求越来越高。而农药残留超标导致的致畸、致癌、致突变及退发性神经系统中毒,严重影响广大消费者身体健康,这也引起了世界各国对食品安全的高度重视。目前世界各国已将食品安全提升至国家安全的战略地位。农药残留限量作为食品安全标准之一,也成为国际贸易的准入门槛。例如,欧盟、日本和美国分别制定了 169068项(481种农药),44340项(765种农药),13055项(395种农药)农药残留限量标准,我国2016年发布了433种农药的4140项MRL标准。随着农药残留品种的不断扩充,食品安全和国际贸易极度呼唤高效快速农药残留检测技术。
而农药残留检测技术的关键步骤就是碎片离子化合物提取,它通过比对待测样品与标准品的碎片离子分布以及通过LC-Q-Orbitrap仪器在Full MS/ddMS2模式下测量待测样品指定色谱质谱条件下的保留时间,实现采集碎片离子的全扫描质谱图,从而进行离子峰提取。
近年来,高分辨质谱技术提取碎片离子峰受到广泛关注。其中超高效液相色谱-四级杆-静电场轨道阱高分辨质谱(UHPLC-Q/Orbitrap)是一种将超高效液相色谱的高效分离能力与静电场轨道阱高分辨质谱的鉴别定性能力相结合的色谱-质谱联用的方法,通常用来检测食品中农兽药痕量污染物。超高效液相色谱-四级杆-静电场轨道阱高分辨质谱(UHPLC-Q/Orbitrap)具有高分辨的优点,但由于该方法获取的谱图非常复杂,需要有相关经验及专业知识的解谱人员进行大量的人工分析工作,极其浪费人力物力。
目前已经有诸多关于碎片离子筛查的常规分析,主要分为如下几类,均存在一定的技术缺陷或不足:
质谱分析法(Mass Spectrometry, MS)是将样品经过热电离、电子电离、粒子流轰击电离等,利用电场和磁场将运动的离子按它们的质荷比分离,通过对同位素丰度的精确质谱测量和加入稀释剂的准确称量。质谱分析法应用范围广泛,可进行同位素分析、化学分析、无机成分分析和有机结构分析。操作简单、快速,灵敏度高,有一定的准确度。但因为仪器不同,质谱仪有多种型号,导致精度不一致,因此直接测量出来的丰度值不够准确,影响后续的分子量计算准确性。
核磁共振波谱法(Nuclear Magnetic Resonance spectroscopy, NMRs)核磁共振波谱分析法是将记录的入射光或散射强度变化与光的波长、波数或散射角度的关系图,用于物质结构的组成及化学变化的分析。各种波谱法原理不同,其特点和应用也各不相同,每种波谱法也都有其适用范围和局限性。在使用时需要根据测定的目的、样品性质等,综合选择多种波谱法才能达到目的。
液相色谱-质谱联用技术(LC-MS)是以液相色谱作为分离系统,质谱作为检测系统作为液相色谱-质谱联用技术的代表,具有高分辨率的优点,但由于体系过于复杂,其检测得到的谱图往往非常复杂,需要大量的人工分析工作,且对谱图的分析非常依赖于解谱人员的相关经验及专业知识。
针对以上弊端,本方案提供一种基于去卷积算法提取关键碎片离子峰方法,将待测样品的关键碎片离子与标准库中所存储的标准品碎片离子进行对比,并根据拓扑结构的相似性计算匹配度,最终确定化合物结构。该方法利用仪器及计算机进行自动对比分析,使碎片离子分析过程变得简单,易于推广。
发明内容
针对待测样品通过现有液相色谱-质谱联用技术得到的质谱图过于复杂,对谱图的分析非常依赖于解谱人员的相关经验及专业知识这一弊端,本发明提供一种基于去卷积算法提取关键碎片离子信息的碎片离子比对方法,将待测样品的关键碎片离子与标准库中所存储的标准品碎片离子进行对比,并根据拓扑结构的相似性计算匹配度,最终确定物质属性。该方法利用仪器及计算机进行自动对比分析,使碎片离子分析过程变得简单化,便于推广。 具体包括如下步骤(如图1所示):
1.建立标准品质谱数据库:建立化合物标准品的电子身份数据库,所述电子身份数据库包括:化合物标准品的基本信息、色谱信息和质谱信息;
进一步地,所述电子身份数据库包括一级精确质量数指纹识别数据库和二级HCD碎片离子参考谱图确证库;所述一级精确质量数指纹识别数据库是将农兽药等有害化合物的基本信息、色谱信息和质谱信息在Trace Finder数据采集与处理软件中依次录入形成的指纹识别数据库;
所述二级HCD碎片离子参考谱图确证库是将农兽药等有害化合物在高能碰撞池中最优碰撞能量下裂解得到的二级HCD碎片离子质谱图在mzVault谱图管理软件中添加收录形成的谱图确证库,所述最优碰撞能量是在出现3-5个选择离子丰度比最大的碎片离子时,记录的碰撞能量值CE(15%,35%,55%,ev)。
2.去卷积算法提取关键碎片离子信息:
(2-1)将原始的液相色谱-质谱数据划分m/z离子通道并提取其离子流图;
通常情况下,用户会根据观测的混合样品的总离子流图(即TIC图)大致判断样品所包含的标准品个数,但是,当两个标准品不易区分时,很难从TIC图判断其数量。本质上,TIC图是由所有的m/z通道的离子流图叠加而成,因此可以通过分析各m/z通道的离子流图,得到混合样品的标准品信息。
所述m/z离子通道并提取其离子流图符合自定义的质量误差dm内。
(2-2)基于各离子流数据使用直接切分的方法和主成分分析方法进行去卷积,根据出峰时间对去卷积的结果进行整合;
本发明使用直接切分的方法和主成分分析方法结合来进行去卷积,其中直接切分方法主要通过对比分析各质量数通道的离子流图,依次提取强度较为显著的峰;而主成分分析用于确定直接切分的停止条件。首先将原质谱数据中各离子流图的最大相对强度值大于20(相对强度最大值为100)的p张离子流图筛选出来,作为主成分分析的对象X,设其中每个Xi(i=1,2,...,p)表示一张离子流图,经过如下线性变换:
Figure 146893DEST_PATH_IMAGE001
由主成分的定义可知,当m个主成分的累积贡献率达到95%以上时(m<p),可以用主成分来替代随机变量X。通俗地说,由p张离子流图进行线性组合所构成的新的m张离子流图已经可以将原始信息还原到95%以上,因此可以认为原始混合物大致包含了m种不同物质。
当两种物质的碎片信息(低电压考虑同位素碎片,高电压考虑离子碎片)存在显著差异时,即便两种物质的保留时间(即出峰时间点)比较接近,通过m/z通道的离子流图也可以将这两者区分,因此除了极端情况下(两种物质的保留时间以及碎片信息都很难区分),通过本发明提出的去卷积算法,可以获取混合样品的标准品信息。
(2-3)将待测样品中的各个待测物质的质谱数据进行分离;提取各待测物质的关键碎片离子信息。
通过液相色谱系统进行分离,配有反相色谱柱;其中流动相A相为甲酸水溶液,B相为甲酸乙腈溶液;并设置梯度洗脱程序、质谱条件和采集模式;通过TraceFinder软件对质谱检测结果采集与处理。
具体来说,色谱条件:通过液相色谱系统进行分离,配有反相色谱柱ACQUITY UPLCBEH C18(100 mm×2.1 mm,1.7 μm);柱温:50ºC;流动相A相为0.1%甲酸水溶液(v/v),B相为0.1%甲酸乙腈溶液(v/v)(负离子采集时A相为5 mM乙酸铵水溶液,B相为5 mM乙酸铵-乙腈);流速:0.45 mL/min。梯度洗脱程序:0~0.25 min 2%B;0.25~20.0 min由2%B线性升至99%B;20.0~24.0 min 99%B保持4 min;24.0~25.0 min回到初始流动相2%B;25.0~30.0min保持5 min,准备下一次进样。进样体积5 μL;
质谱条件:Spray voltage: 3.8 kV (ESI+), 3.0 kV (ESI-);Capillarytemperature: 325 °C;Probe heater temperature: 400 °C;S-Lens: 60 V;Sheath gas,auxiliary gas, sweep gas: 40, 10, 0;
采集模式:Full MS-ddMS2;Full MS scan range:70-1050m/z;Resolution:70,000,Full MS;17,500,MS/MS;AGC:Full MS,1e6;MS/MS,1e5;Max IT:Full MS,200ms;MS/MS,60ms;Isolation width:2.0m/z;NCE(Stepped NCE):(15%,35%,55%,ev);DynamicExclusion:5s;通过TraceFinder软件对质谱检测结果采集与处理。
3.碎片离子筛查
将步骤2得到的去卷积算法所提取的质谱数据与步骤1的标准品质谱库信息进行比对,计算样品和标准化合物之间的相似性,从而确定待测物质的属性。
(3-1)建立样品碎片离子的拓扑结构集合
通过去卷积算法获取了由仪器分析得到的原始质谱图中提取表征某一待测样品的关键碎片离子,根据用户设定的质量数容许误差dm,将标准品质谱库中满足该质量数范围的化合物提取出来记为一个集合,如碎片1(mz1),则把标准库中存在m/z值在[mz1-dm,mz1+dm]范围内的化合物筛出,记为集合C1
对于每一个碎片得到一个集合Ci(i=1,2,……N);最后取并集
Figure 939399DEST_PATH_IMAGE002
作为标准品质谱信息库中满足样品碎片离子的拓扑结构集合。
优选地,本发明采用倒排文序的方法:首先对标准库中的所有物质构建索引表,然后通过索引表检索某一碎片离子所对应的化合物信息,从而确定匹配碎片。
在碎片搜索的过程中,由于高电压条件下的碎片离子数量相对较多,若对各物质的所有碎片进行逐一搜索判断时,搜库的效率会很低。因此,本算法采用了倒排文序的思想,对标准库中的所有物质构建了索引表,当数据库的容量很大时,通过索引表来检索某一碎片离子所对应的化合物信息而不是从头检索每一个化合物来确定匹配碎片,这种方式能够大幅度提高检索效率,进而缩短计算时间,其实现过程如图8所示。
具体来说,每种化合物均对应数据库、和碎片离子。比如化合物1对应数据库lib1,包含碎片离子F1,F2,F3,F5等;化合物2对应数据库lib2,包含碎片离子F4,F5,F6,F8等,由此依次类推至化合物n,假设每个化合物平均碎片数量为m,则时间复杂度为n*m。如果采用倒排文序,根据碎片离子F1,F2...Fs,通过索引表来检索某一碎片离子所对应的化合物信息,则时间复杂度小于n*m,缩短计算时间,提高检索效率。
(3-2)相似性计算:先进行分子拓扑结构相似性计算,然后进行碎片离子强度相似性计算。
(3-2-1)分子拓扑结构相似性计算
当标准库的化合物能匹配上样品的主离子碎片(强度最大)时,认为拓扑结构相似性达到0.8,其他碎片离子的结构相似性为0.2。
比如样品中共有n个碎片离子,标准库中某化合物能匹配上主离子碎片以及s个其他离子碎片,那么其拓扑结构相似性计算公式为:
Figure 719137DEST_PATH_IMAGE003
(3-2-2)碎片离子强度相似性计算
根据用户设定的匹配率(即拓扑结构相似性),把并集F中满足匹配率的化合物筛选出来,记为集合F1(比如设定匹配率为20%,即碎片信息库中筛出的化合物的拓扑结构相似性大于0.2);计算集合F1中的标准化合物与待测样品之间的碎片离子强度相似性。
碎片强度相似性具有方向性,包括正向相似性和反向相似性。
所述正向相似性,是以待测样品为基准,当标准库中化合物不存在样品中的某一碎片时赋值为0,所比较的碎片离子数量与待测样品相等;
所述反向相似性,是以标准库中化合物为基准,当样品不存在标准品中的某一碎片时赋值为0,所比较的碎片数量与标准品相等。
特殊地,当待测样品碎片数量与标准品的相同时,正向相似性与反向相似性相等。
a.当样品(或标准品)碎片数量为1时,用1减去标准品(样品)匹配碎片的相对强度的相对偏差表示正向(反向)相似性:
Figure 753826DEST_PATH_IMAGE004
其中Is表示该碎片在样品中的强度,Il表示该碎片在标准库中的强度。
b.当样品和标准品的碎片数量均大于1时,可用余弦相似度算法、皮尔逊相似度算法和欧几里得相似度算法等计算相似性。
至少一个实施例中,采取余弦距离相似度算法计算标准化合物与待测样品之间的碎片离子强度相似性,其计算公式如下:
Figure 646827DEST_PATH_IMAGE005
其中,N是指样品中碎片离子峰个数,每个
Figure 174017DEST_PATH_IMAGE006
对应一个碎片离子峰,
Figure 441050DEST_PATH_IMAGE007
和y分别对应每个碎片离子在待测样品和标准库中的丰度。
4.确定待测样品物质结构:根据分子拓扑结构和碎片离子强度相似性,判断待测样品物质及其结构。
本发明的有益效果:
本发明提供一种碎片离子峰提取的筛查方法,利用直接切分的方法和主成分分析方法结合去卷积算法,可以准确、快速获取混合样品的标准品信息。
本发明提供一种相对强度的差值表示正向(反向)相似性方法,进一步利用分子拓扑结构相似性和碎片离子强度相似性两种方法计算样品和标准品质谱库的相似性方法,可以快速、准确与标准品进行比较,得出待测样品中物质。
附图说明
图1为本发明实施例1的流程图;
图2为本发明实施例1待测样品总离子流图;
图3为本发明实施例1通过m/z通道的离子流图提取相关物质的关键碎片离子;
图4为本发明实施例1待测样品原始质谱图;
图5为本发明实施例1去卷积后提取的待测样品质谱图;
图6为本发明对实施例1的筛选结果;
图7为本发明实施例2通过m/z通道的离子流图提取相关物质的关键碎片离子;
图8为倒排文序法示意图。
具体实施方式
下面结合具体实施例对本发明作进一步的说明,但并不局限于具体实施例。若无特殊说明,本发明实施例中所有比例都为质量比。
实施例1
1.建立用thermo采集的小龙虾样品中标准品质谱数据库:包括:化合物标准品的基本信息、色谱信息和质谱信息,其中包括12种有害物质(如表1)。
表1 12种有害物质的基本信息
Figure 780896DEST_PATH_IMAGE008
2.去卷积算法提取关键碎片离子信息:
(2-1)将原始的液相色谱-质谱数据划分m/z离子通道并提取其离子流图;
低电压下从总离子流图中难以判断各物质的出峰时间(如图2),因此,在设定误差范围内利用m/z通道的离子流图中则可以提取这12中物质的关键碎片离子(如图3)。
(2-2)基于各离子流数据使用直接切分的方法和主成分分析方法进行去卷积,根据出峰时间对去卷积的结果进行整合;
本发明使用直接切分的方法和主成分分析方法结合来进行去卷积,其中直接切分方法主要通过对比分析各质量数通道的离子流图,依次提取强度较为显著的峰;而主成分分析用于确定直接切分的停止条件。首先将原质谱数据中各离子流图的最大相对强度值大于20(相对强度最大值为100)的p张离子流图筛选出来,作为主成分分析的对象X,设 ,其中每个Xi(i=1,2,...,p)表示一张离子流图,经过如下线性变换:
Figure 558097DEST_PATH_IMAGE009
原始待测物质质谱图包括上万个数据点,检测难度较大(如图4),经过直接切分的方法和主成分分析方法进行去卷积后,提取出包括27个碎片离子的质谱信息图(如图5)。
(2-3)将待测样品中的各个待测物质的质谱数据进行分离;提取各待测物质的关键碎片离子信息。
色谱条件:通过液相色谱系统进行分离,配有反相色谱柱ACQUITY UPLC BEH C18(100 mm×2.1 mm,1.7 μm);柱温:50ºC;流动相A相为0.1%甲酸水溶液(v/v),B相为0.1%甲酸乙腈溶液(v/v)(负离子采集时A相为5 mM乙酸铵水溶液,B相为5 mM乙酸铵-乙腈);流速:0.45 mL/min。梯度洗脱程序:0~0.25 min 2%B;0.25~20.0 min由2%B线性升至99%B;20.0~24.0 min 99%B保持4 min;24.0~25.0 min回到初始流动相2%B;25.0~30.0 min保持5min,准备下一次进样。进样体积5 μL;
质谱条件:Spray voltage:3.8 kV (ESI+), 3.0 kV (ESI-);Capillarytemperature: 325 °C;Probe heater temperature: 400 °C;S-Lens: 60 V;Sheath gas,auxiliary gas, sweep gas: 40, 10, 0;
采集模式:Full MS-ddMS2;Full MS scan range:70-1050m/z;Resolution:70,000,Full MS;17,500,MS/MS;AGC:Full MS,1e6;MS/MS,1e5;Max IT:Full MS,200ms;MS/MS,60ms;Isolation width:2.0m/z;NCE(Stepped NCE):(15%,35%,55%,ev);DynamicExclusion:5s;通过TraceFinder软件对质谱检测结果采集与处理。
3.碎片离子筛查:
(3-1)建立样品碎片离子的拓扑结构集合(采用倒排文序的方法)。
(3-2-1)分子拓扑结构相似性计算:经过计算得到拓扑相似性为0.946。
(3-2-2)碎片离子强度相似性计算:经过计算得到碎片离子强度相似性为0.863。
4.确定待测样品物质:
将27个碎片离子与标准品质谱库中的化合物进行比对,找到拓扑结构相似性为0.946,碎片离子强度相似性为0.863的匹配物质,其匹配效果如图6所示,该物质就是目标匹配物质劳拉西泮C15H10Cl2N2O2。基于同样的方法,根据综合得分,以及拓扑结构相似性和碎片离子强度相似性结果,确定待测样品中各化合物的组成和分子式。
采用 Compound Discoverer软件验证本发明算法的准确性,从表2与表3的筛查结果可以看出,当使用同一采集数据进行分析时,本算法的匹配结果里能将这12中目标物质筛查出来,而商业软件Compound Discoverer只能筛出其中的8种物质,比如图6所表示的321峰(即劳拉西泮)并没有检测出来,这有可能是由算法本身或者数据库覆盖度的差异所导致。本发明的确认方法可以快速、高效筛选得到食品中农兽药痕量污染物。
表2 本发明算法筛查结果
Figure 426827DEST_PATH_IMAGE010
表3 Compound Discoverer软件筛查结果
Figure 181156DEST_PATH_IMAGE011
实施例2
采用实施例1的筛选确认方法,针对于用waters采集的混标样品数据进行筛查,表4所示的是其中包含的8种有害物质。从图7可以看出经过去卷积之后能够提取出这8种物质的关键碎片离子,基于本发明的方法,通过表5中分子拓扑结构相似性和离子强度相似性计算,展示了本算法准确检测出的8种有害物质(综合得分较高)。
表4 8种有害物质的基本信息
Figure 59113DEST_PATH_IMAGE013
表5 8种有害物质的检测结果
Figure DEST_PATH_IMAGE015
上述内容仅为本发明的优选实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,因此本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims (9)

1.一种基于分布式流式处理的碎片离子化合物结构的快速确认方法,其特征在于,包括如下步骤:
(1)建立标准品质谱数据库:建立化合物标准品的电子身份数据库,所述电子身份数据库包括:化合物标准品的基本信息、色谱信息和质谱信息;
(2)去卷积算法提取关键碎片离子信息:
(2-1)将原始的液相色谱-质谱数据划分m/z离子通道并提取其离子流图;
(2-2)基于各离子流数据使用直接切分的方法和主成分分析方法进行去卷积,根据出峰时间对去卷积的结果进行整合;所述直接切分方法通过对比分析各质量数通道的离子流图,依次提取强度较为显著的峰;所述主成分分析用于确定直接切分的停止条件;
(2-3)将待测样品中的各个待测物质的质谱数据进行分离;提取各待测物质的关键碎片离子信息;
(3)碎片离子筛查:先进行分子拓扑结构相似性计算,然后进行碎片离子强度相似性计算;
(4)根据分子拓扑结构和碎片离子强度相似性,判断待测样品物质结构。
2.根据权利要求1所述的确认方法,其特征在于,步骤(1)中,所述电子身份数据库包括一级精确质量数指纹识别数据库和二级HCD碎片离子参考谱图确证库。
3.根据权利要求1所述的确认方法,其特征在于,将原质谱数据中各离子流图的最大相对强度值大于20的p张离子流图筛选出来,作为主成分分析的对象X,设其中每个Xi(i=1,2,...,p)表示一张离子流图,经过线性变换:
Figure 391674DEST_PATH_IMAGE001
当m个主成分的累积贡献率达到95%以上时(m<p),用主成分来替代随机变量X。
4.根据权利要求1所述的确认方法,其特征在于,步骤(2-3)色谱条件:通过液相色谱系统进行分离,配有反相色谱柱;其中流动相A相为甲酸水溶液,B相为甲酸乙腈溶液;并设置梯度洗脱程序、质谱条件和采集模式;通过TraceFinder软件对质谱检测结果采集与处理。
5.根据权利要求1所述的确认方法,其特征在于,步骤(3)中,根据设定的质量数容许误差dm,将标准品质谱库中满足该质量数范围的化合物提取出来记为一个集合,把标准库中存在m/z值在[mz1-dm,mz1+dm]范围内的化合物筛出,记为集合C1
对于每一个碎片得到一个集合Ci(i=1,2,……N),取并集
Figure 346992DEST_PATH_IMAGE002
作为标准品质谱信息库中满足样品碎片离子的拓扑结构集合;
采用倒排文序的方法,首先对标准库中的所有物质构建索引表,然后通过索引表检索某一碎片离子所对应的化合物信息,从而确定匹配碎片。
6.根据权利要求1所述的确认方法,其特征在于,所述分子拓扑结构相似性计算方法为:样品中共有n个碎片离子,标准库中某化合物能匹配上主离子碎片以及s个其他离子碎片,拓扑结构相似性计算公式为:
Figure 654608DEST_PATH_IMAGE003
7.根据权利要求1所述的确认方法,其特征在于,在碎片离子强度相似性计算过程中,先确定正向、反向相似性判断。
8.根据权利要求1所述的确认方法,其特征在于,碎片离子强度相似性计算方法为:
a.当样品或标准品碎片数量为1时,用1减去标准品或样品匹配碎片的相对强度的相对偏差表示正向和/的活反向相似性:
Figure 859324DEST_PATH_IMAGE004
其中Is表示该碎片在样品中的强度,Il表示该碎片在标准库中的强度;
b.当样品和标准品的碎片数量均大于1时,用余弦相似度算法、皮尔逊相似度算法或欧几里得相似度算法计算相似性。
9.根据权利要求1所述的确认方法,其特征在于,采取余弦距离相似度算法计算标准化合物与待测样品之间的碎片离子强度相似性:
Figure DEST_PATH_IMAGE005
N是指样品中碎片离子峰的个数,每个i对应一个碎片离子峰,x和y分别对应每个碎片离子在待测样品和标准库中的丰度。
CN202210314385.3A 2022-03-29 2022-03-29 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法 Active CN114420222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210314385.3A CN114420222B (zh) 2022-03-29 2022-03-29 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210314385.3A CN114420222B (zh) 2022-03-29 2022-03-29 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法

Publications (2)

Publication Number Publication Date
CN114420222A CN114420222A (zh) 2022-04-29
CN114420222B true CN114420222B (zh) 2022-08-05

Family

ID=81264435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210314385.3A Active CN114420222B (zh) 2022-03-29 2022-03-29 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法

Country Status (1)

Country Link
CN (1) CN114420222B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102798684B (zh) * 2011-05-21 2015-04-15 中国科学院大连化学物理研究所 一种基于保留时间锁定-气相色谱-四极杆质谱选择性离子扫描的化学轮廓分析方法
CN110110743B (zh) * 2019-03-26 2019-12-31 中国检验检疫科学研究院 一种七类质谱谱图自动识别系统与方法
CN112289386A (zh) * 2020-10-23 2021-01-29 中国农业大学 确定化合物分子量的方法及装置
CN113156022A (zh) * 2021-05-20 2021-07-23 成都市食品药品检验研究院 一种基于动物源食品中兽药化合物多维电子身份数据库的兽药残留分析方法和平台
CN113671082A (zh) * 2021-08-20 2021-11-19 中国检验检疫科学研究院 基于气相色谱-超高分辨质谱的牙胶中迁移危害物筛查方法

Also Published As

Publication number Publication date
CN114420222A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN109828068B (zh) 质谱数据采集及分析方法
JP3805979B2 (ja) 質量分析方法および装置
CN105334279B (zh) 一种高分辨质谱数据的处理方法
JP4857000B2 (ja) 質量分析システム
JP7173293B2 (ja) クロマトグラフ質量分析装置
CN106341983B (zh) 优化光谱数据的方法
US20010007349A1 (en) Mass spectrometric analysis method and apparatus using the method
JP2013190216A (ja) 質量分析を用いた化合物同定方法及び化合物同定システム
US7529630B2 (en) Method of analyzing mass analysis data and apparatus for the method
JP4929149B2 (ja) 質量分析スペクトル分析方法
US5939612A (en) Retention time-locked spectral database for target analyte analysis
CN114420222B (zh) 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法
CN115380212A (zh) 用于比较群组内和群组间数据的方法、介质和系统
CN108663437B (zh) 一种快速筛查标的物的方法
EP4078600B1 (en) Method and system for the identification of compounds in complex biological or environmental samples
JP7359302B2 (ja) クロマトグラフ質量分析データ処理方法、クロマトグラフ質量分析装置、及びクロマトグラフ質量分析データ処理用プログラム
CN111220750A (zh) 一种中药识别平台和利用该平台的中药识别方法
Deng et al. Quality assessment and origin tracing of Guangdong Liangcha granules using direct mass spectrometry fingerprinting
CN111220754A (zh) 一种人参识别平台和利用该平台的人参识别方法
CN111220751A (zh) 一种三七识别平台和利用该平台的三七识别方法
JP7327431B2 (ja) 質量分析データの解析方法、プログラム及び質量分析データの解析装置
CN114509519B (zh) 加料香精中天然单体香原料的溯源分析方法
CN220854740U (zh) 一种在线萃取顺次电离质谱分析装置
JP4839248B2 (ja) 質量分析システム
JP2022066655A (ja) 質量分析を用いた試料分析方法及び試料分析システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant