CN111883214B - 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置 - Google Patents

构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置 Download PDF

Info

Publication number
CN111883214B
CN111883214B CN201910606569.5A CN201910606569A CN111883214B CN 111883214 B CN111883214 B CN 111883214B CN 201910606569 A CN201910606569 A CN 201910606569A CN 111883214 B CN111883214 B CN 111883214B
Authority
CN
China
Prior art keywords
spectrogram
signal
ion
signals
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910606569.5A
Other languages
English (en)
Other versions
CN111883214A (zh
Inventor
李德华
李尉
栾恩慧
龙巧云
宋佳平
李振宇
王雅兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weiban Biotechnology Co ltd
Shenzhen Digital Life Institute
Original Assignee
Shenzhen Weiban Biotechnology Co ltd
Shenzhen Digital Life Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weiban Biotechnology Co ltd, Shenzhen Digital Life Institute filed Critical Shenzhen Weiban Biotechnology Co ltd
Priority to CN201910606569.5A priority Critical patent/CN111883214B/zh
Priority to PCT/CN2020/099769 priority patent/WO2021004355A1/zh
Publication of CN111883214A publication Critical patent/CN111883214A/zh
Application granted granted Critical
Publication of CN111883214B publication Critical patent/CN111883214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Hematology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Artificial Intelligence (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种构建诱饵库、构建目标‑诱饵库、代谢组FDR鉴定的方法及装置。其中,构建诱饵库的方法包括:S1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或谱图的序号存储在信号谱索引数组中,生成信号谱索引二维数组;S2,遍历信号谱索引二维数组中的全部元素,得到n个数组D,n个数组D组成诱饵库信号数组;S3,将诱饵库信号数组中每个子集对应的目标数据库中谱图的母离子信息拷贝给诱饵库信号数组,形成诱饵库。本发明的代谢组鉴定方法能够对鉴定结果进行FDR质控;能够快速高通量地对谱图进行鉴定,提高谱图的利用率和代谢物鉴定的覆盖度。

Description

构建诱饵库、构建目标-诱饵库、代谢组FDR鉴定的方法及装置
技术领域
本发明涉及代谢组学技术领域,具体而言,涉及一种构建诱饵库、构建目标-诱饵库、代谢组FDR鉴定的方法及装置。
背景技术
代谢组学是继基因组学和蛋白质组学之后兴起的一门学科,它是系统生物学的重要组成部分,主要考察生物体系受刺激或扰动前后所有小分子代谢物及其含量的动态变化。通过对生物体内所有的小分子代谢物进行整体的定性和定量分析,可以探索并发现代谢物与生理病理变化的关系。研究表明,代谢组在疾病早期诊断、生物标志物发现、药物筛选、毒性评价、运动医学和营养学等领域有着重要应用价值。
随着质谱仪的飞速发展,代谢物检测的准确性、覆盖度和速度都有较大的提升,基于质谱检测的代谢组学的应用也越来越广泛,如尿液、血浆、唾液、细胞和组织等样品均可以进行代谢物检测。随着代谢数据的增多,对后续的数据分析环节的要求也越来越高,需要性能更高的计算平台和分析工具。代谢物的鉴定是代谢组学分析的重要环节,通过对采集到的质谱图谱进行解析,鉴定样品中存在的代谢物种类,能够对生物的生理表型和疾病表型等作进一步的解释。代谢物在质谱中经过诱导碰撞碎裂产生二级谱图,理论上不同的代谢物具有不同的分子结构,不同的结构具有独特的二级谱图信号,根据这一原理能够对不同的代谢物图谱进行识别。目前代谢组鉴定的主要难点为:1、大规模代谢组鉴定的FDR无法评估,没有有效的质控手段;2、代谢物大规模鉴定的谱图利用率和鉴定覆盖度较低;3、代谢物大规模鉴定工具的性能较低且可操作性较差,对许多商业应用和科研的需求无法满足。因此,我们需要开发一个高性能并且能够进行FDR质控的大规模代谢组鉴定方法(工具)以满足科研和商业应用的需求。
发明内容
本发明旨在提供一种构建诱饵库、构建目标-诱饵库、代谢组FDR鉴定的方法及装置,以处理大规模代谢组学数据。
为了实现上述目的,根据本发明的一个方面,提供了一种构建诱饵库的方法。该方法包括以下步骤:S1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或谱图的序号存储在信号谱索引数组中,遍历完目标数据库中所有的谱图,生成信号谱索引二维数组;S2,选中信号谱索引二维数组中的一组信号谱索引数组,将信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从第一信号仓库中随机选择一定数量的子离子信号填充到数组D中,使得数组D中的子离子信号数量与目标数据库中对应的谱图的子离子信号数量一致;然后随机选择数组D中的部分信号,随机改变其质荷比以避免与目标数据库中对应的谱图的质荷比重叠,遍历信号谱索引二维数组中的全部元素,得到n个数组D,n个数组D组成诱饵库信号数组;其中,n为自然数,对应为序号一致;以及S3,将诱饵库信号数组中每个子集对应的目标数据库中谱图的母离子信息拷贝给诱饵库信号数组,形成诱饵库。
进一步的,S2中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占目标数据库中对应的谱图的全部子离子信号数量的比例为h,且h在0.6~0.9;优选的,h为0.775。
进一步的,S2中,随机改变其质荷比包括:添加或者减少大小随机的质荷比,其扰动值小于母离子质荷比;优选的,添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比;优选的,扰动为±1Da;优选的,所选择的部分信号占数组D中总信号比例为k,k﹤1,更优选k=0.5。
进一步的,S3中,目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息。
根据本发明的另一个方面,提供了一种构建目标-诱饵库的方法。该方法包括:挑选形成目标数据库;构建诱饵库;以及将目标数据库与诱饵库进行合并得到目标-诱饵库,其中,诱饵库通过上述任一种构建诱饵库的方法构建而成。
根据本发明的再一个方面,提供了一种代谢组FDR鉴定的方法。该方法包括:将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;构建目标-诱饵库;将待鉴定谱图与目标-诱饵库匹配;以及将匹配结果进行排序以及对匹配结果进行FDR鉴定;其中,目标-诱饵库通过上述构建目标-诱饵库的方法构建而成。
进一步的,统一的谱图数据为含荷质比-峰强度信息的谱图数据文件;优选的,进一步将含荷质比-峰强度信息的谱图数据文件存储为数据链表,数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。
进一步的,将待鉴定谱图与目标-诱饵库匹配包括:将待鉴定谱图中的每一张谱图与目标-诱饵库中的每一张谱图进行比对,对待鉴定谱图中的每一张谱图中的子离子信号强度值做归一化处理;选中待鉴定谱图中的一张谱图并获取其母离子质荷比M,筛选出目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历待鉴定谱图中的每一张谱图,得到谱图序号索引二维数组;将目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历待鉴定谱图中的每一张谱图,得到权值数组;以参考谱图中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分;以及选中一个谱图序号索引数组,将待鉴定谱图与选中的谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为待鉴定谱图的鉴定结果,遍历谱图序号索引二维数组中的所有元素,得到待鉴定谱图的鉴定结果数组。
进一步的,归一化处理包括将子离子信号强度值归一化到(0,1)的区间内;优选的,归一化处理包括将子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。
进一步的,权值通过以下步骤得到:以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验获得待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值;优选的,检验为格拉布斯检验、箱线图法检验或正态分布检验。
进一步的,以参考谱图中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分包括:将待鉴定谱图的子离子信号和参考谱图的子离子信号分别定义为两个数组
Figure GDA0004214142940000032
和/>
Figure GDA0004214142940000033
以参考谱图为基础,将待鉴定谱图的信号与参考谱图的信号进行比对,设待鉴定谱图中的信号数目总数为total_e,其中能够匹配到参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:
Figure GDA0004214142940000031
其中,μ为校正系数,为待鉴定谱图的子离子信号和参考谱图的子离子信号间的差值的倒数,
Figure GDA0004214142940000034
为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。
进一步的,将匹配结果进行排序以及对匹配结果进行FDR鉴定包括:将待鉴定谱图的鉴定结果数组按照匹配得分从高到低排序,设target_score为目标数据库得分,decoy_score为诱饵库得分,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1;鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为x,当遍历到某一个谱图鉴定结果sn使得FDR≥x的时候,则该批次的有效鉴定结果为{s1,s2,s3......sn-1};优选的,x小于等于0.2,更优选为小于等于0.05,进一步更优选为小于等于0.01。
根据本发明的又一个方面,提供了一种诱饵库。该诱饵库通过上述任一项构建诱饵库的方法构建而成。
根据本发明的再一个方面,提供了一种目标-诱饵库。该目标-诱饵库通过上述任一种构建目标-诱饵库的方法构建而成。
根据本发明的又一个方面,提供了一种构建诱饵库的装置。该装置包括:信号谱索引二维数组生成模块,用于将目标数据库中每张谱图的代谢物母离子质荷比M分别与目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或谱图的序号存储在信号谱索引数组中,遍历完目标数据库中所有的谱图,生成信号谱索引二维数组;诱饵库信号数组生成模块,用于选中信号谱索引二维数组中的一组信号谱索引数组,将信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从第一信号仓库中随机选择一定数量的子离子信号填充到数组D中,使得数组D中的子离子信号数量与目标数据库中对应的谱图的子离子信号数量一致;然后随机选择数组D中的部分信号,随机改变其质荷比以避免与目标数据库中对应的谱图的质荷比重叠,遍历信号谱索引二维数组中的全部元素,得到n个数组D,n个数组D组成诱饵库信号数组;其中,n为自然数,对应为序号一致;以及诱饵库生成模块,用于将诱饵库信号数组中每个子集对应的目标数据库中谱图的母离子信息拷贝给诱饵库信号数组,形成诱饵库。
进一步地,诱饵库信号数组生成模块中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占目标数据库中对应的谱图的全部子离子信号数量的比例为h,且h在0.6~0.9;优选的,h为0.775。
进一步地,诱饵库信号数组生成模块中,随机改变其质荷比包括:添加或者减少大小随机的质荷比,其扰动值小于母离子质荷比;优选的,添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比;优选的,扰动为±1Da;优选的,所选择的部分信号占数组D中总信号比例为k,k﹤1,更优选k=0.5。
进一步地,诱饵库生成模块中,目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息。
根据本发明的再一个方面,提供了一种构建目标-诱饵库的装置。该装置包括:目标数据库生成模块,用于挑选形成目标数据库;诱饵库构建模块,用于构建诱饵库;以及合并模块,用于将目标数据库生成模块生成的目标数据库与诱饵库构建模块构建的诱饵库进行合并得到目标-诱饵库,其中,诱饵库构建模块为上述任一种构建诱饵库的装置。
根据本发明的又一个方面,提供了一种代谢组FDR鉴定的装置。该装置包括:格式统一模块,用于将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;目标-诱饵库构建模块,用于构建目标-诱饵库;匹配模块,用于将格式统一模块中得到的待鉴定谱图与目标-诱饵库构建模块构建的目标-诱饵库匹配;以及FDR鉴定模块,用于将匹配模块的匹配结果进行排序以及对匹配结果进行FDR鉴定;其中,目标-诱饵库构建模块为上述构建目标-诱饵库的装置。
进一步地,格式统一模块中,统一的谱图数据为含荷质比-峰强度信息的谱图数据文件;优选的,格式统一模块将含荷质比-峰强度信息的谱图数据文件存储为数据链表,数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。
进一步地,匹配模块包括:归一化处理子模块,用于将待鉴定谱图中的每一张谱图与目标-诱饵库中的每一张谱图进行比对,对待鉴定谱图中的每一张谱图中的子离子信号强度值做归一化处理;谱图序号索引二维数组生成子模块,用于选中待鉴定谱图中的一张谱图并获取其母离子质荷比M,筛选出目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历待鉴定谱图中的每一张谱图,得到谱图序号索引二维数组;权值数组生成子模块,用于将目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历待鉴定谱图中的每一张谱图,得到权值数组;打分评分子模块,用于以参考谱图中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分;以及鉴定结果数组生成模块,用于选中一个谱图序号索引数组,将待鉴定谱图与选中的谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为待鉴定谱图的鉴定结果,遍历谱图序号索引二维数组中的所有元素,得到待鉴定谱图的鉴定结果数组。
进一步地,归一化处理子模块用于将子离子信号强度值归一化到(0,1)的区间内;优选的,归一化处理包括将子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。
进一步地,权值数组生成子模块用于以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验获得待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值;优选的,检验为格拉布斯检验、箱线图法检验或正态分布检验。
进一步地,评分子模块用于将待鉴定谱图的子离子信号和参考谱图的子离子信号分别定义为两个数组
Figure GDA0004214142940000052
和/>
Figure GDA0004214142940000053
以参考谱图为基础,将待鉴定谱图的信号与参考谱图的信号进行比对,设待鉴定谱图中的信号数目总数为total_e,其中能够匹配到参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:
Figure GDA0004214142940000051
其中,μ为校正系数,为待鉴定谱图的子离子信号和参考谱图的子离子信号间的差值的倒数,
Figure GDA0004214142940000054
为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。
进一步地,FDR鉴定模块用于执行以下指令:将待鉴定谱图的鉴定结果数组按照匹配得分从高到低排序,设target_score为目标数据库得分,decoy_score为诱饵库得分,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1;鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为x,当遍历到某一个谱图鉴定结果sn使得FDR≥x的时候,则该批次的有效鉴定结果为{s1,s2,s3......sn-1};优选的,x小于等于0.2,更优选为小于等于0.05,进一步更优选为小于等于0.01。
根据本发明的再一个方面,提供了一种存储介质。该存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述构建诱饵库的方法、构建目标-诱饵库的方法和/或代谢组FDR鉴定的方法。
根据本发明的又一个方面,提供了一种电子装置。该电子装置包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述构建诱饵库的方法、构建目标-诱饵库的方法和/或代谢组FDR鉴定的方法。
应用本发明的技术方案,基于数据库随机选取信号的方法利用目标数据库能有效地生成诱饵库,并可广泛地应用于FDR并进行质控。本发明构建诱饵库的方法或装置构建的诱饵库与目标库相似度高,使其具有更高的诱骗能力,能够适用于同分异构体较多或者代谢物结构相似度高的代谢组鉴定结果的FDR质控。此外,可根据需要调节本发明的技术方案生成诱饵库与目标库相似度,满足不同情况(相似度高、相似度中等或相似度低)的FDR质控的需求。进一步,采用本发明的技术方案获得的诱饵库或目标-诱饵库进行的代谢组FDR鉴定方法拥有以下优点:1)能够对鉴定结果进行FDR质控,FDR质控方法使用目标-诱饵库策略;2)能够快速高通量地对代谢物的谱图进行鉴定;3)在谱图鉴定的环节中解除母离子的保留时间限制,增大实验谱图的匹配范围,提高谱图的利用率和代谢物鉴定的覆盖度。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明一实施方式中代谢组FDR鉴定方法的整体分析流程示意图;
图2示出了本发明一实施方式中示例性MGF谱图文件数据格式示意图;
图3示出了本发明一实施方式中目标-诱饵库生成的主要流程示意图;
图4示出了本发明一实施方式中代谢物谱图匹配主要流程示意图;
图5示出了实施例1中得到的Passatutto_query.mgf格式文件示例;
图6示出了实施例1中得到的Target_GNPS.mgf格式文件示例;
图7示出了实施例1中诱饵库的生成流程示意图;
图8示出了实施例1中信号仓库S示意图示例;
图9a示出了实施例1中目标数据库谱图p1,图9b示出了实施例1中数组D1,图9c示出了实施例1中信号仓库S中随机选择一定数量的子离子信号并填充到数组D1中的谱图;
图10示出了实施例1中生成的目标-诱饵库文件Target_Decoy_GNPS.mgf示意图示例;
图11示出了实施例1中第一个查询谱图q1与参考数据库即目标-诱饵库的第一个谱图比对示意图示例;
图12示出了实施例1中待查询谱图与参考库谱图比对的评分排序;
图13-1、图13-2、图13-3、图13-4、图13-5、图13-6、图13-7、图13-8、图13-9、图13-10和图13-11示出了实施例1中Passatutto_query.mgf鉴定结果FDR质控及输出列表;
图14示出了实施例1中XY-Meta目标-诱饵库FDR质控性能;
图15示出了一种XY-Meta的诱饵库载入流程示意图;
图16示出了实施例1的XY-Meta谱图匹配结果示意图;
图17示出了一种XY-Meta的半搜索代谢组鉴定流程示意图;
图18示出了一种XY-Meta的开放搜索代谢组鉴定流程示意图;以及
图19示出了一种XY-Meta的迭代搜索代谢组鉴定流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明中涉及的缩写及术语解释如下:
代谢组:指生物体内代谢物质的动态整体集合,通常所指的代谢组只涉及相对分子质量在1000以内的小分子代谢物质。
质荷比(mz):带电离子的质量与所带电荷之比值,是该离子的物理特性,为一定值,受仪器分辨率的限制,检测出的mz会有波动。
保留时间(Retention Time,RT):被分离样品组分从进样开始到柱后出现该组分浓度极大值时的时间,也即从进样开始到出现某组分色谱峰的顶点时为止所经历的时间,对于特定的分离柱,组分(分子离子)的保留时间与其物理化学性质有关。
分子离子峰(Peaks):某一样品中的分子离子峰,以[mzmin,mzmax,rtmin,rtmax]表示。
诱导碰撞解离(Collision Induced Dissociation):通过与中性分子碰撞将能量传递给离子的过程,能量传递足以导致键的开裂和重排。
假发现率(False-discovery Rate,FDR):是在多重假设检验中用来控制多重比较的一种方法,用于描述一次大规模的鉴定可能出现的假阳性比例。
目标库(Target):用于二级谱图比对的目标参考谱图库。
诱饵库(Decoy):一种模拟的参考谱图库,理论上与目标库具有一样的特性,诱饵库中的谱图不会出现在目标库中。
目标-诱饵库策略(Target-Decoy):一种FDR质控策略,通过诱饵库来模拟谱图发生随机匹配的状态,再根据统计结果估算谱图匹配的假发现率FDR,计算公式为:FDR=Decoy/(Target+Decoy)
信号特征(Signal features):化合物离子通过诱导碰撞解离等二级碎裂方式产生特定的子离子,质谱仪能够采集这些子离子的信号,得到的信号数据称为该化合物的信号特征。
信号强度(Intensity):一种元素或者化合物在质谱检测中丰度的衡量指标。
二级谱图(MS2):某一分子离子(母离子)进行诱导碰撞解离后得到的子离子的质荷比mz和信号强度intensity的数据矩阵,即二级谱图,成为MS2。
母离子/前体离子:未打碎的物质(代谢物)MS1。
子离子:化合物离子在质谱中通过诱导碰撞等碎裂方式能够产生特征的碎片离子,称为子离子。
实验谱图:使用实验样品在实验流程中采集的二级谱图称为实验谱图。
参考谱图:化合物的标准二级谱图,通过与实验谱图比对能够确定实验谱图所对应的化合物。
加合物:代谢物离子化后能够与H2O,H+和NH4+等离子相结合,这些离子称为加合物。
离子加合形式:一种代谢物在离子化的过程中与H2O,H+、NH4+、Na+和K+等离子结合形成新的化合物形式。
MSconvert:一种将质谱原始数据转换成其他文件格式的软件。
Spectrum_info:用于储蓄质谱谱图信号和属性的数据结构。
信号仓库:由一个以上的二级谱图的全部子离子信号组成的数值矩阵。
信号谱:从目标库中抽取的二级谱图,该二级谱图中的信号将全部加入信号仓库中。
信号谱索引数组:用于存储目标库中的被选中为信号谱的谱图索引号。
谱图序号索引数组:用于储存谱图数据库中候选谱图序号的数组。
Passatutto:一种用于评估代谢物诱饵库性能的工具,自身携带查询谱图和标准的参考谱图数据库,并且能够实现对鉴定结果的FDR质控。
格拉布斯检验:为一种假设检验的方法,常被用来检验服从正态分布的单变量数据集中的单个异常值;若有异常值,则其必为数据集中的最大值或最小值。
实验信号匹配率:查询谱图中能够与参考谱图信号匹配的数量占查询谱图全部信号数目的比例。
理论信号匹配率:参考谱图中能够与查询谱图信号匹配的数量占参考谱图全部信号数目的比例。
诱骗能力:衡量诱饵库性能的指标,查询谱图与目标-诱饵库匹配的过程中,查询谱图匹配到诱饵库中的谱图数目越多,则说明诱饵库对模型算法的诱骗能力越强。
近年来,质谱检测技术发展迅猛,质谱的检测速度和分辨率有巨大的提升,非靶向的代谢组学具有识别未知代谢物能力强、高通量和低成本的特点,被广泛用于各种样品的代谢检测和科学研究,代谢检测的样品和数据总量空前巨大。另一方面由于非靶向代谢组鉴定存在稳定性不足和重复性差的特点,使得代谢组鉴定策略的研究成为非靶向代谢组学的重难点。为了进一步提高代谢物大规模鉴定的准确性和提高代谢组定量的稳定性,非靶向代谢组分析工具成为研究热点,而在过去的10年也出现许多非靶向代谢组分析工具。这些代谢工具对代谢组定量分析的策略已经非常成熟,但是代谢物的大规模鉴定依旧是非靶向代谢组研究的瓶颈。非靶向代谢组鉴定主要的问题是鉴定结果的FDR无法评估,这一点极大地限制了非靶向代谢组学技术的应用。如果能够合理地评估代谢组鉴定的FDR,就能够提高代谢组鉴定的准确性和稳定性,极大地推动非靶向代谢组学技术的发展和应用。
为了实现非靶向代谢组鉴定能够快速并稳定地应用于科研或者生产中,根据本发明一种典型的实施方式,提供一种构建诱饵库的方法。该方法包括以下步骤:S1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或谱图的序号存储在信号谱索引数组中,遍历完目标数据库中所有的谱图,生成信号谱索引二维数组;S2,选中信号谱索引二维数组中的一组信号谱索引数组,将信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从第一信号仓库中随机选择一定数量的子离子信号填充到数组D中,使得数组D中的子离子信号数量与目标数据库中对应的谱图的子离子信号数量一致;然后随机选择数组D中的部分信号,随机改变其(此处“其”是指随机选择数组D中的部分信号)质荷比以避免与目标数据库中对应的谱图的质荷比重叠,遍历信号谱索引二维数组中的全部元素,得到n个数组D,n个数组D组成诱饵库信号数组;其中,n为自然数,对应为序号一致;以及S3,将诱饵库信号数组中每个子集对应的目标数据库中谱图的母离子信息拷贝给诱饵库信号数组,形成诱饵库。
应用本发明的技术方案,基于数据库随机选取信号的方法利用目标数据库生成诱饵库,谱图鉴定完成后,可以通过质控模块评估鉴定结果的FDR并进行质控。利用Passatutto标准谱图库对本发明的诱饵库性能进行评测,发现本发明构建诱饵库的方法构建的诱饵库与目标库有相同的特性,能够有效评估鉴定结果的FDR。
其中,S2中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占目标数据库中对应的谱图的全部子离子信号数量的比例为h,h<1,h越大,得到的诱饵库与目标数据库的相似性就越大,在h的取值为0.6~0.9之间时获得的诱饵库具有更好的FDR质控效果,0.775效果最佳。
S2中,随机改变其质荷比包括:添加或者减少大小随机的质荷比,目的是增加扰动,以避免与原始库谱图P重叠,扰动值应小于母离子质荷比。典型的,添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比;优选的,扰动为±1Da;更优选的,所选择的部分信号占数组D中总信号比例为k,k﹤1,k值越大,对谱图信号扰动越大,增加扰动是为了防止诱饵谱图与原始谱图完全重合,k越大,相似性越低,k越小相似性越高,因而通过调整k值进行调整诱饵谱图和原始谱图的相似性。一个优选的实施方式中,k=0.5,构建的诱饵库具有更好的效果。本发明使用谱图数据库信号扰动的方法通过目标数据库生成诱饵库,进一步构建目标-诱饵库对鉴定结果的FDR进行质控,使得目标库与诱饵库的相似度可控,从而适应结构相似性不同的目标数据集的代谢组鉴定,提高了代谢组鉴定的准确性和稳定性。
在本发明一典型的实施方式中,S3中,目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息等,可以使诱饵库具有较为全面的母离子信息。
根据本发明一种典型的实施方式,提供一种构建目标-诱饵库的方法。该方法包括:挑选形成目标数据库;构建诱饵库;以及将目标数据库与诱饵库进行合并得到目标-诱饵库,其中,诱饵库通过上述构建诱饵库的方法构建而成。所以,该构建目标-诱饵库的方法也具有上述构建诱饵库方法中提到的优点。
根据本发明一种典型的实施方式,提供一种代谢组FDR鉴定的方法。该方法包括:将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;构建目标-诱饵库;将待鉴定谱图与目标-诱饵库匹配;以及将匹配结果进行排序以及对匹配结果进行FDR(假发现率,False-discovery Rate)鉴定;其中,目标-诱饵库通过上述构建目标-诱饵库的方法构建而成。
应用该代谢组FDR鉴定的方法能够对鉴定结果进行FDR质控,FDR质控方法使用目标-诱饵库策略;能够快速高通量地对代谢物的谱图进行鉴定;在谱图鉴定的环节中解除母离子的保留时间限制,增大实验谱图的匹配范围,提高谱图的利用率和代谢物鉴定的覆盖度。
典型的,统一后的谱图数据为含荷质比-峰强度信息的谱图数据文件,其中,谱图数据文件包括但不限于MGF、mzXML、mzML或tda等格式的文件,一个优选的实施方式中,统一的谱图数据为MGF格式的谱图数据文件;优选的,进一步将含荷质比-峰强度信息的谱图数据文件存储为数据链表,数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。其中,数据链表包括但不限于单链表、双链表、二叉树、哈希或映射。本发明的一个优选的实施方式中,将MGF格式的谱图数据文件储存为Spectrum info,Spectrum info属于单链表中的一种。
根据本发明一种典型的实施方式,将待鉴定谱图与目标-诱饵库匹配包括:将待鉴定谱图中的每一张谱图与目标-诱饵库中的每一张谱图进行比对,对待鉴定谱图中的每一张谱图中的子离子信号强度值做归一化处理;选中待鉴定谱图中的一张谱图并获取其母离子质荷比M,筛选出目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历待鉴定谱图中的每一张谱图,得到谱图序号索引二维数组;将目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历待鉴定谱图中的每一张谱图,得到权值数组;以参考谱图中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分;以及选中一个谱图序号索引数组,将(一张)待鉴定谱图与选中的谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为待鉴定谱图的鉴定结果,遍历谱图序号索引二维数组中的所有元素,得到待鉴定谱图的鉴定结果数组。
通过将待鉴定谱图与目标-诱饵库进行匹配能够对待鉴定谱图与目标-诱饵库中的相似性进行比较,相似性的好与坏通过匹配待鉴定谱图与目标-诱饵库中的参考谱图的匹配评分的高低来体现,能够有效地筛选出待鉴定谱图最佳的鉴定结果。
在本发明一典型的实施方式中,归一化处理包括将子离子信号强度值归一化到(0,1)的区间内;优选的,归一化处理包括将子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。将数值归一化后能够将所有的待鉴定谱图和参考谱图的离子信号数值都调整到一个数值区间内,才能使得待鉴定谱图包括所有的参考谱图之间能够两两进行比较。
优选的,权值通过以下步骤得到:以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验获得待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值;其中,检验为格拉布斯检验、箱线图法检验或正态分布检验等。待鉴定谱图与目标-诱饵库匹配中将谱图信号的性噪比引入谱图匹配的评分算法中,并且匹配算法结合格布拉斯离群检验法计算谱图信号的权值,参与后续的谱图匹配评分的计算,提高了谱图匹配的抗噪能力。
在本发明一典型的实施方式中,以参考谱图中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分包括:将待鉴定谱图的子离子信号和参考谱图的子离子信号分别定义为两个数组
Figure GDA0004214142940000102
和/>
Figure GDA0004214142940000103
以参考谱图为基础,将待鉴定谱图的信号与参考谱图的信号进行比对,设待鉴定谱图中的信号数目总数为total_e,其中能够匹配到参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:
Figure GDA0004214142940000101
其中,μ为校正系数,为待鉴定谱图子离子信号与参考谱图子离子信号间的差值的倒数,
Figure GDA0004214142940000104
为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。
这种评分方法能够同时兼顾待鉴定谱图的信号质量和参考谱图的信号质量,当参考谱图的信号质量较差时不会造成匹配评分偏低而无法得到准确的鉴定结果。在本发明一典型的实施方式中,将匹配结果进行排序以及对匹配结果进行FDR鉴定包括:将待鉴定谱图的鉴定结果数组按照匹配得分从高到低排序,设target_score为目标数据库得分,decoy_score为诱饵库得分,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1;鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为x,当遍历到某一个谱图鉴定结果sn使得FDR≥x的时候,则该批次的有效鉴定结果为{s1,s2,s3......sn-1};优选的,x小于等于0.2,更优选为小于等于0.05,进一步更优选为小于等于0.01。
FDR能够对鉴定结果进行质量控制,取FDR<0.01的结果作为有效鉴定结果则表示有效鉴定结果中存在1%的假阳性,而取FDR<0.02的结果作为有效鉴定结果则表示鉴定结果中的假阳性可能为2%
在本发明的发明宗旨之下,还提供一种诱饵库。该诱饵库通过上述构建诱饵库的方法构建而成。
在本发明的发明宗旨之下,还提供一种目标-诱饵库。该目标-诱饵库通过上述构建目标-诱饵库的方法构建而成。
基于上述技术方案的阐述,在本发明一的实施方式或实施例中,提供了一套全新的代谢组鉴定方法,命名为XY-Meta,具体的技术方案如下:
XY-Meta(代谢组FDR鉴定方法)的整体分析流程,如图1所示,大体主要包括谱图原始数据的转换、谱图数据标准化、谱图匹配、鉴定结果FDR质控和匹配结果输出。具体流程如下:
1.代谢物原始质谱数据转换为谱图数据并读取。
1)MGF格式为质谱MS2谱图的常用数据格式,该格式包括谱图的编号、保留时间、质荷比、电荷、子离子的质荷比和峰强度信息,一个完整的MGF文件能够用于谱图的解析和识别。使用MSconvert将下机原始文件(下机原始文件为原始质谱数据,也可以称为待鉴定数据或待鉴定谱图,例如赛默飞世尔下机的数据)转换为MGF格式的谱图数据文件,图2作为示例示出了MGF谱图文件数据格式。
对MGF格式文件进行文本读取并进行解析,将谱图文件存储为Spectrum_info的结构,Spectrum_info结构中存储谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。
3)通过统一的数据读取方法读取待鉴定的谱图数据Q(待鉴定谱图)和参考谱图数据并存储于计算机内存。
2.目标-诱饵库生成。
目标-诱饵库生成的主要流程如图3所示,包括对目标数据库进行母离子筛选,得到信号谱,将所有信号谱进行合并,得到信号仓库,从信号仓库随机挑选信号形成诱饵谱图,进而得到诱饵库,将目标数据库和诱饵库合并得到目标-诱饵库。具体流程如下:
1)目标数据库中存在n张谱图P{p1,p2,p3......pn},从目标数据库中的第一张谱图p1开始,该张谱图对应的代谢物母离子质荷比为M,将M与目标库中除了谱图p1之外的所有谱图进行逐一比较,如果存在一张谱图pm中存在数目大于等于1的子离子质荷比等于M(具有相同的质荷比,说明该子离子与母离子具有相似性),则将谱图pm的序号或该谱图存储在信号谱索引数组rm{pm1,pm2,pm3.....}(pm1,pm2,pm3……表述符合条件的不同的谱图,该谱图集合的每一个谱图都具有一个或一个以上的子离子质荷比等于M)中,依次循环直到遍历完目标数据库中所有的谱图,生成n个元素的信号谱索引二维数组R{r1,r2,r3......rn}。
2)遍历信号谱索引二维数组R{r1,r2,r3......rn},选中第一个信号谱索引数组r1{pm1,pm2,pm3.....},遍历r1中的所有元素,将每一张谱图的子离子信号存储在一个信号仓库S中。随后从目标数据库中选择序号与r1相同的谱图p1中随机选择部分离子信号复制到另一个数组D1中,其中所选择的子离子信号占谱图p1中的比例为h,h的取值为h<1,h越大,得到的诱饵库与目标数据库的相似性就越大,本申请的一个优选实施例中,h的取值为0.6~0.9,在此取值之间获得的诱饵库具有更好的FDR质控效果,一个更有选的实施例中,h的取值为0.775,h=0.775时效果最佳;从信号仓库S中随机选择一定数量的子离子信号并填充到数组D1中,使得D1中的子离子信号数量与谱图p1中的一致。然后随机选择数组D1中的部分信号添加或者减少大小随机的质荷比,目的是增加扰动,以避免与原始库谱图P重叠,扰动值应小于母离子质荷比,优选扰动为±1Da,所选择的信号占D1中总信号比例为k,k﹤1,在一个优选的实施例中,k=0.5,具有最好的效果。对信号索引二维数组R{r1,r2,r3......rn}中的全部元素依次按照上述流程遍历,得到n个数组D,将所有的数组D存储在诱饵库信号数组Decoy{D1,D2,D3......Dn}中。
3)遍历诱饵库信号数组Decoy{D1,D2,D3......Dn},选择诱饵库信号数组Dn(这里“n”指代1、2、3……n,即诱饵库信号数组Decoy中的每一个子集),将对应的目标库谱图pn的母离子保留时间、质荷比和电荷信息等拷贝给Dn,构成与目标谱图pn相对应的诱饵谱图an,循环遍历,生成n个诱饵谱图并存入数组A{a1,a2,a3......an}。数组A即为诱饵库。
4)将目标数据库P{p1,p2,p3......pn}和诱饵库A{a1,a2,a3......an}合并成一个数组即为目标-诱饵库TD{t1,t2,t3......t2n}(目标-诱饵库为TD{p1,p2,p3......pn,a1,a2,a3......an})。
3.代谢物谱图匹配
经过上述两大步骤,得到了待鉴定谱图和目标-诱饵库,使用谱图匹配算法将待鉴定谱图与目标-诱饵库匹配。代谢物谱图匹配主要流程如图4所示,包括待鉴定谱图峰强度归一化、峰强度权值计算、匹配评分以及匹配结果输出。具体流程如下:
1)信号峰强度归一化:遍历待鉴定谱图Q{q1,q2,q3......qn}中的每一张谱图,并于目标-诱饵库TD{t1,t2,t3......t2n}中的每一张谱图进行比对,对谱图中的子离子信号强度值做归一化处理,将信号强度值归一化到(0,1)的区间,归一化即谱图中所有的子离子信号强度值分别除以各谱图中子离子最大的信号强度值获得的值。
2)筛选候选谱图:遍历待鉴定谱图Q{q1,q2,q3......qn},选中一张谱图qn并获取该谱图的母离子质荷比M,筛选出目标-诱饵库TD{t1,t2,t3......t2n}中所有母离子质荷比为m的谱图序号并存储在谱图序号索引数组hn中。对所有的待鉴定谱图依次执行上述过程,生成n个谱图序号索引数组,并储存在谱图序号索引二维数组H{h1,h2,h3......hn}中。
3)信号强度权重计算:遍历目标-诱饵库TD{t1,t2,t3......t2n},将TD中所有谱图的子离子信号全部储存在信号仓库Signal中,将信号仓库Signal作为信号峰强度的总体分布,遍历待鉴定谱图Q{q1,q2,q3......qn},选中一张待鉴定谱图qn,假设qn中的子离子信号数量为m,以Signal为总体对qn中的所有子离子谱图信号参考格拉布斯检验、箱线图法或正态分布检验法,对得到的统计量t取倒数后作为这些谱图信号的权值wm,将wm存储在权值数组W中,最后得到谱图qn所有子离子的权值数组W{w1,w2,w3......wm}。
4)谱图匹配评分:将待鉴定谱图的子离子信号和参考谱图的子离子信号分别定义为两组
Figure GDA0004214142940000132
和/>
Figure GDA0004214142940000133
以参考谱图为基础,将待鉴定谱图的信号与参考谱图的信号进行比对,设待鉴定谱图中的信号数目总数为total_e,其中能够匹配到参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:
Figure GDA0004214142940000131
注:μ为校正系数,为待鉴定谱图的子离子信号和参考谱图的子离子信号间的差值的倒数,
Figure GDA0004214142940000134
为谱图子离子信号向量,w为待鉴定谱图子离子信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。
5)谱图匹配及结果输出:遍历谱图序号索引二维数组H{h1,h2,h3......hn},选中一个谱图序号索引数组hn,遍历hn中的所有谱图序号,将待鉴定的谱图qn与hn中所遍历的参考谱图进行匹配,将匹配评分最高的结果作为待鉴定谱图qn的鉴定结果,随后将每个谱图的鉴定结果放入数组Score中。对谱图序号索引二维数组H中的所有元素依次执行上述的过程,得到n个待鉴定谱图的鉴定结果数组Score{s1,s2,s3......sn}。
匹配结果排序以及鉴定结果FDR质控。
1)将谱图鉴定结果数组Score{s1,s2,s3......sn}按照匹配得分从高到低排序,设target_score为目标库得分,而decoy_score为诱饵库得分。从最高分的鉴定结果逐渐往下统计,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1。
2)鉴定结果的FDR=decoy_score/(target_score+decoy_score),优选的,本申请的一个实施方式中,阈值的选择小于0.2,在一个更有选的实施方式中,阈值优选小于0.05,更优选的为0.01,当遍历到某一个谱图鉴定结果sn使得FDR≥0.01的时候,则该批次的有效鉴定结果为{s1,s2,s3......sn-1}。FDR计算过程如表1所示。
表1
序号 匹配得分 Target Decoy FDR
1 s1 t1 d1 d1/(t1+d1)
2 s2 t2 d2 d1/(t1+d2)
3 s3 t3 d3 d1/(t1+d3)
n sn tn dn dn/(tn+dn)
5.鉴定结果输出。
遍历有效鉴定结果{s1,s2,s3......sn-1},整理每一个谱图鉴定结果,使用tsv或tsv格式输出,输出的鉴定信息包括:质谱谱图编号、最终得分、FDR、代谢物注释信息、匹配评分、理论信号匹配率、实验谱图信噪比、理论谱图母离子质荷比、实验谱图母离子质荷比、加合物类型、加合物质量和匹配信号数目。
本发明的代谢组FDR鉴定方法拥有以下重要的特点:1)能够对鉴定结果进行FDR质控,FDR质控方法使用目标-诱饵库策略;2)能够快速高通量地对代谢物的谱图进行鉴定;3)在谱图鉴定的环节中解除母离子的保留时间限制,增大实验谱图的匹配范围,提高谱图的利用率和代谢物鉴定的覆盖度。
在本发明的发明宗旨之下,还提供一种构建诱饵库的装置。该装置包括信号谱索引二维数组生成模块、诱饵库信号数组生成模块和诱饵库生成模块,其中,信号谱索引二维数组生成模块用于将目标数据库中每张谱图的代谢物母离子质荷比M分别与目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或谱图的序号存储在信号谱索引数组中,遍历完目标数据库中所有的谱图,生成信号谱索引二维数组;诱饵库信号数组生成模块用于选中信号谱索引二维数组中的一组信号谱索引数组,将信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从第一信号仓库中随机选择一定数量的子离子信号填充到数组D中,使得数组D中的子离子信号数量与目标数据库中对应的谱图的子离子信号数量一致;然后随机选择数组D中的部分信号,随机改变其质荷比以避免与目标数据库中对应的谱图的质荷比重叠,遍历信号谱索引二维数组中的全部元素,得到n个数组D,n个数组D组成诱饵库信号数组;其中,n为自然数,对应为序号一致;以及诱饵库生成模块用于将诱饵库信号数组中每个子集对应的目标数据库中谱图的母离子信息拷贝给诱饵库信号数组,形成诱饵库。
应用本发明的技术方案,基于数据库随机选取信号的方法利用目标数据库生成诱饵库,谱图鉴定完成后,可以通过质控模块评估鉴定结果的FDR并进行质控。利用Passatutto标准谱图库对本发明的诱饵库性能进行评测,发现本发明构建诱饵库的装置构建的诱饵库与目标库有相同的特性,能够有效评估鉴定结果的FDR。
其中,诱饵库信号数组生成模块中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占目标数据库中对应的谱图的全部子离子信号数量的比例为h,h<1,h越大,得到的诱饵库与目标数据库的相似性就越大。在一个优选实施方式中,为了使获得的诱饵库具有更好的FDR质控效果,h的取值为0.6~0.9,在一个更优选的实施方式中,h取值为0.775时,效果最佳。
诱饵库信号数组生成模块中,随机改变其质荷比包括:添加或者减少大小随机的质荷比,目的是增加扰动,以避免与原始库谱图P重叠,扰动值应小于母离子质荷比。典型的,添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比;优选的,扰动为±1Da;更优选的,所选择的部分信号占数组D中总信号比例为k,k﹤1,更优选k=0.5。本发明使用谱图数据库信号扰动的方法通过目标数据库生成诱饵库,进一步构建目标-诱饵库对鉴定结果的FDR进行质控,使得目标库与诱饵库的相似度可控,从而适应结构相似性不同的目标数据集的代谢组鉴定,提高了代谢组鉴定的准确性和稳定性。
在本发明一典型的实施方式中,诱饵库生成模块中,目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息等,可以使诱饵库具有较为全面的母离子信息。
根据本发明一种典型的实施方式,提供一种构建目标-诱饵库的装置。该装置包括目标数据库生成模块、诱饵库构建模块和合并模块,其中,目标数据库生成模块用于挑选形成目标数据库;诱饵库构建模块用于构建诱饵库;以及合并模块用于将目标数据库生成模块生成的目标数据库与诱饵库构建模块构建的诱饵库进行合并得到目标-诱饵库,其中,诱饵库构建模块为上述构建诱饵库的装置。所以,该构建目标-诱饵库的装置也具有上述构建诱饵库的装置中提到的优点。
根据本发明一种典型的实施方式,提供一种代谢组FDR鉴定的装置。该装置包括格式统一模块、目标-诱饵库构建模块、匹配模块和FDR鉴定模块,其中,格式统一模块用于将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;目标-诱饵库构建模块用于构建目标-诱饵库;匹配模块用于将格式统一模块中得到的待鉴定谱图与目标-诱饵库构建模块构建的目标-诱饵库匹配;以及FDR鉴定模块用于将匹配模块的匹配结果进行排序以及对匹配结果进行FDR鉴定;其中,目标-诱饵库构建模块为上述构建目标-诱饵库的装置。
应用该代谢组FDR鉴定的装置能够对鉴定结果进行FDR质控,FDR质控方法使用目标-诱饵库策略;能够快速高通量地对代谢物的谱图进行鉴定;在谱图鉴定的环节中解除母离子的保留时间限制,增大实验谱图的匹配范围,提高谱图的利用率和代谢物鉴定的覆盖度。
典型的,格式统一模块中,统一的谱图数据为含荷质比-峰强度信息的谱图数据文件,例如,MGF格式;优选的,格式统一模块将含荷质比-峰强度信息的谱图数据文件存储为数据链表,数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。其中,数据链表包括但不限于单链表、双链表、二叉树、哈希或映射。本发明的一个优选的实施方式中,将MGF格式的谱图数据文件储存为Spectrum info,Spectrum info属于单链表中的一种。
根据本发明一种典型的实施方式,匹配模块包括归一化处理子模块、谱图序号索引二维数组生成子模块、权值数组生成子模块、评分子模块以及鉴定结果数组生成模块,其中,归一化处理子模块用于将待鉴定谱图中的每一张谱图与目标-诱饵库中的每一张谱图进行比对,对待鉴定谱图中的每一张谱图中的子离子信号强度值做归一化处理;谱图序号索引二维数组生成子模块用于选中待鉴定谱图中的一张谱图并获取其母离子质荷比M,筛选出目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历待鉴定谱图中的每一张谱图,得到谱图序号索引二维数组;权值数组生成子模块用于将目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历待鉴定谱图中的每一张谱图,得到权值数组;评分子模块用于以参考谱图中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分;以及鉴定结果数组生成模块用于选中一个谱图序号索引数组,将待鉴定谱图与选中的谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为待鉴定谱图的鉴定结果,遍历谱图序号索引二维数组中的所有元素,得到待鉴定谱图的鉴定结果数组。
在本发明一典型的实施方式中,归一化处理子模块用于将子离子信号强度值归一化到(0,1)的区间内;优选的,归一化处理包括将子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。
优选的,权值数组生成子模块用于以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验获得待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值;其中,检验为格拉布斯检验、箱线图法检验或正态分布检验等。待鉴定谱图与目标-诱饵库匹配中将谱图信号的性噪比引入谱图匹配的评分算法中,并且匹配算法结合格布拉斯离群检验法计算谱图信号的权值,参与后续的谱图匹配评分的计算,提高了谱图匹配的抗噪能力。
在本发明一典型的实施方式中,评分子模块用于将待鉴定谱图的子离子信号和参考谱图的子离子信号分别定义为两个数组
Figure GDA0004214142940000162
和/>
Figure GDA0004214142940000163
以参考谱图为基础,将待鉴定谱图的信号与参考谱图的信号进行比对,设待鉴定谱图中的信号数目总数为total_e,其中能够匹配到参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:
Figure GDA0004214142940000161
其中,μ为校正系数,为待鉴定谱图的子离子信号和参考谱图的子离子信号间的差值的倒数,
Figure GDA0004214142940000164
为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。
在本发明一典型的实施方式中,FDR鉴定模块用于执行以下指令:将待鉴定谱图的鉴定结果数组按照匹配得分从高到低排序,设target_score为目标数据库得分,decoy_score为诱饵库得分,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1;鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为x,当遍历到某一个谱图鉴定结果sn使得FDR≥x的时候,则该批次的有效鉴定结果为{s1,s2,s3......sn-1};优选的,x小于等于0.2,更优选为小于等于0.05,进一步更优选为小于等于0.01。
本发明的代谢组FDR鉴定的装置(也可以称为XY-Meta的软件)可以使用Golang编程语言开发,其数据索引的数据结构和代码逻辑经过周密的设计和反复地调试,能够实现谱图鉴定多核并行化,提高计算机的资源利用率,实现高性能的代谢组鉴定。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
GNPS数据库为公开的代谢物质谱谱图数据库,收录各种天然代谢物的标品和实验样品在不同仪器平台采集的质谱谱图,Passatutto工具整理了GNPS中的少量代谢物标品的质谱谱图用于形成一个标准库,该标准库能够对目标-诱饵库评估FDR的性能进行评测。本实施例使用Passatutto的标准数据库进行代谢物鉴定。
1、评测数据获取。
下载Passatutto(https://bio.informatik.uni-jena.de/Passatutto/),将主目录中的标准谱图库和实验谱图库数据格式转换为MGF格式,得到Passatutto_query.mgf格式文件(如图5所示)和Target_GNPS.mgf格式文件(如图6所示)。
2、确定XY-Meta的主要鉴定参数。
使用XY-Meta进行代谢组鉴定所涉及的仪器和实验参数主要有:色谱柱类型、电荷模式、母离子和子离子质量容差和谱图信号预处理(针对亲水柱的参数):
色谱柱类型:hplc_pattern=1(类型分为亲水或疏水模式,本实施例的类型是亲水模式)。
电荷模式:electric_pattern=1(电荷模式分为正电荷和负电荷的模式,具体模式根据质谱仪的检测模式确定)。
离子容差:tolerance_precur=0.01Da(最大可以是正负300Da),tolerance_isotope=0.05Da(PS:可选范围为小于等于0.5Da)。
谱图信号预处理:clear=true and merge_tolerance=0.05Da(merge_tolerance大于等于tolerance_isotope)。
XY-Meta生成目标-诱饵库。
XY-Meta读取目标库Target_GNPS.mgf并生成相应的诱饵库,诱饵库的生成流程如图7所示。
具体步骤如下:
目标数据库中存在4139张谱图P{p1,p2,p3......p4139},从第一张谱图p1开始,这张谱图对应的代谢物母离子质荷比为359.151,将这个谱图p1与目标库中除了谱图p1之外的所有谱图进行逐一比较,如果存在一张谱图pm中存在一个以上的子离子质荷比等于359.151,则将pm的序号存储在信号谱索引数组r1{p100,p103,p201......p3890}中,依次循环这个过程直到遍历完目标数据库中所有的谱图,生成4139个元素的信号谱索引二维数组R{r1,r2,r3......r4139}。
遍历信号谱索引二维数组R{r1,r2,r3......r4139},选中第一个信号谱索引数组r1{p100,p103,p201......p3890}进行元素遍历,从第一个信号谱索引数组r1第一张谱图开始,将每一张谱图全部的子离子信号存储在一个信号仓库S(图8)中(信号仓库S包括信号谱索引二维数组R对应的所有谱图中的所有离子信号)。随后选择与r1序号相同的目标数据库谱图p1,从p1(图9a)中随机选择比例为0.6的子离子信号复制到另一个数组D1(图9b)中,从信号仓库S中随机选择一定数量的子离子信号并填充到数组D1(图9c)中,使得D1中的子离子信号数量与谱图p1中的一致,然后随机选择D1中比例为0.6的信号添加或者减少大小随机的质荷比,最后将数组D1存储在诱饵库信号数组Decoy中。对这个信号谱索引二维数组R{r1,r2,r3......r4139}中的全部元素进行遍历并经过上述的过程,生成4139个数组D并存入Decoy中得到Decoy{D1,D2,D3......D4139}。
3)遍历诱饵库信号数组Decoy{D1,D2,D3......D4139},从第一个诱饵库信号数组D1开始,将与这个诱饵库信号数组对应的目标库谱图p1的母离子保留时间、质荷比和电荷信息等拷贝给D1,构成与目标谱图p1相对应的诱饵谱图a1,循环遍历诱饵库信号数组中的每一个信号数组,生成4139个诱饵谱图并存入数组A{a1,a2,a3......a4139}。数组A即为诱饵库。
4)将目标数据库P{p1,p2,p3......p4139}和诱饵库A{a1,a2,a3......a4139}合并成一个数组即为目标-诱饵库TD{t1,t2,t3......t8278}。生成目标-诱饵库文件Target_Decoy_GNPS.mgf(图10)。
XY-Meta将查询谱图与目标-诱饵库比对。
1)信号峰强度归一化:遍历待鉴定谱图Q{q1,q2,q3......q2106}中的每一张谱图,并于目标-诱饵库TD{t1,t2,t3......t8278}中的每一张谱图进行比对,对待鉴定谱图Q和目标-诱饵库TD的每张谱各自归一化,将信号强度值归一化到(0,1)的区间。
2)筛选候选谱图:遍历待鉴定谱图Q{q1,q2,q3......q2106},选中一张谱图q1并获取该谱图的母离子质荷比182.0482,筛选出目标-诱饵库TD{t1,t2,t3......t8278}中所有母离子质荷比为182.0482的谱图序号并存储在谱图序号索引数组h1中。对待鉴定的谱图Q中的元素依次执行上述过程,生成2106个谱图序号索引数组,并储存在谱图序号索引二维数组H{h1,h2,h3......h2106}中。
3)信号强度权重计算:遍历目标-诱饵库TD{t1,t2,t3......t8278},将TD中所有谱图的子离子信号全部储存在信号仓库Signal中,将信号仓库Signal作为信号峰强度的总体分布,遍历待鉴定谱图Q{q1,q2,q3......q2106},从第一张待鉴定谱图q1开始,q1中的子离子信号数量为6,以Signal为总体对q1中的所有子离子谱图信号参考格拉布斯检验,对得到的统计量t取倒数后作为这些谱图信号的权值wm,将wm存储在权值数组W中,最后得到谱图q1所有子离子的权值数组W{w1,w2,w3......w6}。
4)谱图匹配评分:将待鉴定谱图的子离子信号和参考谱图的子离子信号分别定义为两组
Figure GDA0004214142940000181
和/>
Figure GDA0004214142940000182
以参考谱图为基础,将待鉴定谱图的信号与参考谱图的信号进行比对,第一个查询谱图q1与参考数据库即目标-诱饵库的第一个谱图比对(图11),查询谱图q1中的信号数目总数为6,其中能够匹配到参考谱图中的信号的数量为2,则该次匹配的实验信号匹配率E=1/3,参考谱图中的信号数目总数为12,其中能够匹配到查询谱图中的信号的数量为2,则该次匹配的理论信号匹配率T=1/6,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和为4.619。
5)谱图匹配及结果输出:遍历谱图序号索引二维数组H{h1,h2,h3......h2106},从第一个谱图序号索引数组h1开始,遍历h1中的所有谱图序号,将待鉴定的谱图q1与h1中记录的所有的参考谱图进行匹配,将匹配评分最高的结果作为待鉴定谱图q1的鉴定结果,随后将每个谱图的鉴定结果放入数组Score中。对谱图序号索引二维数组H中所有的元素依次循环遍历,得到2106个待鉴定谱图的鉴定结果的数组Score{s1,s2,s3......s2106},如图12所示(待查询谱图与参考库谱图比对的评分排序)。图12中:ID:标号;Score:匹配评分;Reference_spectrum:参考数据库的谱图编号;Match_Score:信号匹配点积;TSNR:理论信号匹配率;ESNR:实验信号匹配率;Query_precursor_mass:查询谱图母离子质合比;Reference_precursor_mass:参考数据库的谱图的母离子质合比;Diviation_mas:查询谱图与参考谱图母离子质合比误差;Adduct:加和物类型;选择匹配得分即Score最高分的结果作为待查询谱图的匹配结果。
XY-Meta对谱图匹配结果进行FDR质控与结果输出。
1)将谱图鉴定结果数组Score{s1,s2,s3......s2106}按照匹配得分从高到低排序,设target_score为目标库得分,而decoy_score为诱饵库得分。从最高分的鉴定结果逐渐往下统计,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1。
2)鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为0.01,当遍历到第126个谱图鉴定结果时FDR=0.015873>0.01,则该批次的有效鉴定结果为前125个谱图的鉴定结果,M{q1,q2,q3......q125},如图13-1、图13-2、图13-3、图13-4、图13-5、图13-6、图13-7、图13-8、图13-9、图13-10和图13-11示出了Passatutto_query.mgf鉴定结果FDR质控及输出列表。图13-1、图13-2、图13-3、图13-4、图13-5、图13-6、图13-7、图13-8、图13-9、图13-10和图13-11中:ID:编号;Score:匹配评分;Target:目标库匹配结果;Decoy:诱饵库匹配结果;FDR:FDR评估结果;Reference_spectrum:参考数据库的谱图编号;Match_Score:信号匹配点积;TSNR:理论信号匹配率;ESNR:实验信号匹配率;Query_precursor_mass:查询谱图母离子质合比;Reference_precursor_mass:参考数据库的谱图的母离子质合比;Diviation_mass:查询谱图与参考谱图母离子质合比误差;Adduct:加和物类型;Adduct_mass:加和物质量;Peaks number:子离子匹配数目;选取FDR小于0.01的鉴定结果为最终的鉴定结果。
本发明上述的实施例实现了如下技术效果:
A.本实施例将非靶向代谢组鉴定流程和质控流程在一个工作流程中实现,使得代谢物组鉴定结果的FDR可控,主要表现在:
1)XY-Meta基于数据库随机选取信号的方法利用目标数据库生成诱饵库,谱图鉴定完成后,通过质控模块(匹配模块、FDR鉴定模块)评估鉴定结果的FDR并进行质控。利用Passatutto标准谱图库对XY-Meta的目标诱饵库性能进行评测,XY-Meta所生成的诱饵库与目标库有相同的特性,能够有效评估鉴定结果的FDR。
2)XY-Meta能够调节诱饵库与目标数据库的相似度,与目标数据库相似度高的诱饵库具有较强的诱骗能力,更适合用于同分异构体较多或者代谢物结构相似度高的代谢组鉴定结果的FDR质控,如依据离子碎片树方法产生的诱饵库。相反的,与目标数据库的相似度低的诱饵库缺乏目标数据库的信号特性,诱骗能力不足,所评估的FDR与实际相比偏低。通常情况下,使用XY-Meta默认的参数设置所生成的目标-诱饵库能够符合大多数的代谢组鉴定场景。
诱饵库与目标数据库越相似,诱骗能力越强,FDR质控可能偏大,相反的,诱饵库与目标数据库差异度越大,诱骗能力越弱,FDR质控可能偏小。使用Passatutto标准谱图库对XY-Meta的目标诱饵库性能进行评测,当理论的FDR与实际FDR一致的时候,将在坐标系中形成一条y=x的直线,通过评测发现,XY-Meta的目标-诱饵库评估的FDR在y=x的直线上下波动,并最终逼近这条直线,说明XY-Meta的目标-诱饵库能够有效评估代谢组鉴定的FDR。图14示出了XY-Meta目标-诱饵库FDR质控性能,其中,注:Simulation_level1-Simulation_level11分别为与目标相似性为0.66、0.68、0.70、0.72、0.74、0.76、0.78、0.80、0.82、0.84、0.86这11个梯度的诱饵库的预测FDR与真实FDR的测量曲线,Expect_FDR为理想曲线,所有的测量曲线都围绕在理想曲线的上下波动,其中与目标库相似性为0.78的诱饵库所得到的测量曲线在FDR<0.1的区间与理想曲线最为贴近,则相似性0.78为最理想的取值。
3)XY-Meta能够快速地基于目标库产生诱饵库,无需借助Passatutto和代谢物谱图预测软件CFM-ID等其他工具产生诱饵库。XY-Meta生成的诱饵库能够保存本地重复使用,并且通过诱饵库导入选项能够导入其他工具产生的诱饵库,实现灵活地构建代谢组鉴定的数据库。
典型的,XY-Meta的诱饵库载入流程如图15所示,首次使用XY-Meta进行代谢组的鉴定和FDR质控的流程,需要先导入一个目标库来生成对应的诱饵库。生成的诱饵库能够永久保存,保存下来的诱饵库能够作为外置诱饵库使用,在使用XY-Meta进行代谢组鉴定的时候,可以导入外置诱饵库来进行FDR的质控。
B.本实施例能够高速地对大批量的代谢物谱图进行鉴定,有效的FDR质控提高谱图利用率,主要表现在:
1)使用Intel i5-7500处理器3个核心并行运算,对Passatutto的2106个实验谱图进行代谢组鉴定,运行内存占用2.5G,总共消耗1分18秒。使用现有的工具MZmatch进行谱图比对则需要约1h的时间。
2)XY-Meta内置的目标-诱饵库FDR控制性能与基于Passatutto生成的目标-诱饵库性能相近,使用两种目标-诱饵库的鉴定结果如下表2所示:
表2
Figure GDA0004214142940000201
说明了在相同的FDR水平下,XY-Meta能够提高谱图的利用率。
C.本发明对谱图的识别具有良好的的抗噪能力。
XY-Meta的谱图匹配算法具有良好的抗噪能力,通过有效的FDR质控,存在较多噪声信号的谱图也能够进行准确地鉴定,XY-Meta谱图匹配结果见图16。
D.本发明的FDR质控策略使用灵活,满足不同的科研和生产需求,主要表现在:
1)数据库半搜索:XY-Meta数据库搜索流程能够在得到鉴定结果后跳过FDR控制的流程,直接输出鉴定结果,使用者也可以使用其他工具对鉴定结果进行FDR控制,增加FDR控制的灵活性。XY-Meta的半搜索代谢组鉴定流程可如图17所示。
2)数据库开放搜索:常规的数据库搜索策略认为母离子实际的质量应该等于理论的质量,而在一般的数据库搜索模式中,会预先设置母离子具有多种加合物形式,而在实际的场景中,一种母离子结合的加合物离子形式往往多于或者不同于理论的加合物形式,这就导致在常规数据库搜索中,大量的正确的代谢物的谱图在匹配过程中被过滤,导致最终无法匹配正确的结果。开放搜索的做法是扩大母离子质量的容差,使得未知的加合物修饰能够用较大的质量误差替代,从而在搜索过程中扩大查询谱图的匹配范围,使得正确的目标谱图进入谱图匹配。与此同时,开放搜索带来的副作用是增大了鉴定的计算量以及引入更多错误的参考谱图,尤其是同分异构体较为普遍的代谢物,因此使用开放搜索策略应该使用更为严格的FDR阈值进行质控。XY-Meta的开放搜索代谢组鉴定流程可如图18所示。
3)数据库迭代搜索:当目标数据库体积过于巨大并且真正的目标谱图较少的时候,使用目标-诱饵库策略对鉴定结果进行FDR质控往往会导致估算的FDR过大,从而减少有效的谱图数量,在使用HMDB代谢物数据库全库进行代谢组鉴定以及进行宏代谢组鉴定的时候,往往会出现这种问题。使用数据库迭代搜索的策略能够有效地提高鉴定的准确性和灵敏度。数据库迭代搜索至少需要进行两次以上的数据库搜索,而初次的数据库搜索不进行FDR控制,并且根据鉴定结果将所有被匹配的理论谱图集合成全新的谱图库,从而缩小目标库的体积,再将新生成的代谢物谱图库导入下一次的搜索中。在最后一次迭代后对鉴定结果进行FDR控制,最终输出代谢组的鉴定结果。XY-Meta的迭代搜索代谢组鉴定流程可如图19所示。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (48)

1.一种构建诱饵库的方法,其特征在于,包括以下步骤:
S1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与所述目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或所述谱图的序号存储在信号谱索引数组中,遍历完所述目标数据库中所有的谱图,生成信号谱索引二维数组;
S2,选中所述信号谱索引二维数组中的一组信号谱索引数组,将所述信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从所述目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从所述第一信号仓库中随机选择一定数量的子离子信号填充到所述数组D中,使得所述数组D中的子离子信号数量与所述目标数据库中对应的谱图的子离子信号数量一致;然后随机选择所述数组D中的部分信号,随机改变其质荷比以避免与所述目标数据库中对应的谱图的质荷比重叠,遍历所述信号谱索引二维数组中的全部元素,得到n个数组D,所述n个数组D组成诱饵库信号数组;其中,n为自然数,所述对应为序号一致;以及
S3,将所述诱饵库信号数组中每个子集对应的所述目标数据库中谱图的母离子信息拷贝给所述诱饵库信号数组,形成诱饵库。
2.根据权利要求1所述的方法,其特征在于,所述S2中,所述随后从所述目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占所述目标数据库中对应的谱图的全部子离子信号数量的比例为h,且h在0.6~0.9。
3.根据权利要求2所述的方法,其特征在于,所述h为0.775。
4.根据权利要求1所述的方法,其特征在于,所述S2中,所述随机改变其质荷比包括:添加或者减少大小随机的质荷比,其扰动值小于母离子质荷比。
5.根据权利要求4所述的方法,其特征在于,所述添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比。
6.根据权利要求4所述的方法,其特征在于,扰动为±1Da。
7.根据权利要求4所述的方法,其特征在于,所选择的部分信号占所述数组D中总信号比例为k,k﹤1。
8.根据权利要求7所述的方法,其特征在于,所述k=0.5。
9.根据权利要求1所述的方法,其特征在于,所述S3中,所述目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息。
10.一种构建目标-诱饵库的方法,其特征在于,包括:
挑选形成目标数据库;
构建诱饵库;以及
将所述目标数据库与所述诱饵库进行合并得到所述目标-诱饵库,其中,所述诱饵库通过如权利要求1至9中任一项所述的构建诱饵库的方法构建而成。
11.一种代谢组FDR鉴定的方法,其特征在于,包括:
将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;
构建目标-诱饵库;
将所述待鉴定谱图与所述目标-诱饵库匹配;以及
将匹配结果进行排序以及对所述匹配结果进行FDR鉴定;
其中,所述目标-诱饵库通过如权利要求10所述的构建目标-诱饵库的方法构建而成。
12.根据权利要求11所述的方法,其特征在于,所述统一的谱图数据为含荷质比-峰强度信息的谱图数据文件。
13.根据权利要求12所述的方法,其特征在于,进一步将所述含荷质比-峰强度信息的谱图数据文件存储为数据链表,所述数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。
14.根据权利要求11所述的方法,其特征在于,所述将所述待鉴定谱图与所述目标-诱饵库匹配包括:
将所述待鉴定谱图中的每一张谱图与所述目标-诱饵库中的每一张谱图进行比对,对所述待鉴定谱图中的每一张谱图中的子离子信号强度值做归一化处理;
选中所述待鉴定谱图中的一张谱图并获取其母离子质荷比M,筛选出所述目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历所述待鉴定谱图中的每一张谱图,得到谱图序号索引二维数组;
将所述目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对所述第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以所述第二信号仓库为总体对选中的所述待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历所述待鉴定谱图中的每一张谱图,得到权值数组;
以参考谱图中的子离子信号为基础对所述待鉴定谱图的子离子信号进行匹配评分;以及
选中一个谱图序号索引数组,将所述待鉴定谱图与选中的所述谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为所述待鉴定谱图的鉴定结果,遍历所述谱图序号索引二维数组中的所有元素,得到所述待鉴定谱图的鉴定结果数组。
15.根据权利要求14所述的方法,其特征在于,所述归一化处理包括将所述子离子信号强度值归一化到(0,1)的区间内。
16.根据权利要求15所述的方法,其特征在于,所述归一化处理包括将所述子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。
17.根据权利要求14所述的方法,其特征在于,所述权值通过以下步骤得到:以所述第二信号仓库为总体对选中的所述待鉴定谱图中的所有子离子谱图信号做检验获得所述待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值。
18.根据权利要求17所述的方法,其特征在于,所述检验为格拉布斯检验、箱线图法检验或正态分布检验。
19.根据权利要求14所述的方法,其特征在于,所述以参考谱图中的子离子信号为基础对所述待鉴定谱图的子离子信号进行匹配评分包括:
将所述待鉴定谱图的子离子信号和所述参考谱图的子离子信号分别定义为两个数组
Figure FDA0004214142930000031
和/>
Figure FDA0004214142930000032
以所述参考谱图为基础,将所述待鉴定谱图的信号与所述参考谱图的信号进行比对,设所述待鉴定谱图中的信号数目总数为total_e,其中能够匹配到所述参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,所述参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:
Figure FDA0004214142930000033
其中,μ为校正系数,为所述待鉴定谱图的子离子信号和所述参考谱图的子离子信号间的差值的倒数,
Figure FDA0004214142930000034
为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。
20.根据权利要求14所述的方法,其特征在于,所述将匹配结果进行排序以及对所述匹配结果进行FDR鉴定包括:
将所述待鉴定谱图的鉴定结果数组按照匹配得分从高到低排序,设target_score为目标数据库得分,decoy_score为诱饵库得分,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1;
鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为x,当遍历到某一个谱图鉴定结果sn使得FDR≥x的时候,则该批次的有效鉴定结果为{s1,s2,s3......sn-1}。
21.根据权利要求20所述的方法,其特征在于,所述x小于等于0.2。
22.根据权利要求21所述的方法,其特征在于,所述x小于等于0.05。
23.根据权利要求22所述的方法,其特征在于,所述x小于等于0.01。
24.一种构建诱饵库的装置,其特征在于,包括:
信号谱索引二维数组生成模块,用于将目标数据库中每张谱图的代谢物母离子质荷比M分别与所述目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或所述谱图的序号存储在信号谱索引数组中,遍历完所述目标数据库中所有的谱图,生成信号谱索引二维数组;
诱饵库信号数组生成模块,用于选中所述信号谱索引二维数组中的一组信号谱索引数组,将所述信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从所述目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从所述第一信号仓库中随机选择一定数量的子离子信号填充到所述数组D中,使得所述数组D中的子离子信号数量与所述目标数据库中对应的谱图的子离子信号数量一致;然后随机选择所述数组D中的部分信号,随机改变其质荷比以避免与所述目标数据库中对应的谱图的质荷比重叠,遍历所述信号谱索引二维数组中的全部元素,得到n个数组D,所述n个数组D组成诱饵库信号数组;其中,n为自然数,所述对应为序号一致;以及
诱饵库生成模块,用于将所述诱饵库信号数组中每个子集对应的所述目标数据库中谱图的母离子信息拷贝给所述诱饵库信号数组,形成诱饵库。
25.根据权利要求24所述的装置,其特征在于,所述诱饵库信号数组生成模块中,所述随后从所述目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占所述目标数据库中对应的谱图的全部子离子信号数量的比例为h,且h在0.6~0.9。
26.根据权利要求25所述的装置,其特征在于,所述h为0.775。
27.根据权利要求24所述的装置,其特征在于,所述诱饵库信号数组生成模块中,所述随机改变其质荷比包括:添加或者减少大小随机的质荷比,其扰动值小于母离子质荷比。
28.根据权利要求27所述的装置,其特征在于,所述添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比。
29.根据权利要求27所述的装置,其特征在于,扰动为±1Da。
30.根据权利要求27所述的装置,其特征在于,所选择的部分信号占所述数组D中总信号比例为k,k﹤1。
31.根据权利要求30所述的装置,其特征在于,所述k=0.5。
32.根据权利要求24所述的装置,其特征在于,所述诱饵库生成模块中,所述目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息。
33.一种构建目标-诱饵库的装置,其特征在于,包括:
目标数据库生成模块,用于挑选形成目标数据库;
诱饵库构建模块,用于构建诱饵库;以及
合并模块,用于将所述目标数据库生成模块生成的目标数据库与所述诱饵库构建模块构建的诱饵库进行合并得到目标-诱饵库,其中,所述诱饵库构建模块为如权利要求24至32中任一项所述的构建诱饵库的装置。
34.一种代谢组FDR鉴定的装置,其特征在于,包括:
格式统一模块,用于将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;
目标-诱饵库构建模块,用于构建目标-诱饵库;
匹配模块,用于将所述格式统一模块中得到的所述待鉴定谱图与所述目标-诱饵库构建模块构建的目标-诱饵库匹配;以及
FDR鉴定模块,用于将所述匹配模块的匹配结果进行排序以及对所述匹配结果进行
FDR鉴定;
其中,所述目标-诱饵库构建模块为如权利要求33所述的构建目标-诱饵库的装置。
35.根据权利要求34所述的装置,其特征在于,所述格式统一模块中,所述统一的谱图数据为含荷质比-峰强度信息的谱图数据文件。
36.根据权利要求35所述的装置,其特征在于,所述格式统一模块将所述含荷质比-峰强度信息的谱图数据文件存储为数据链表,所述数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。
37.根据权利要求34所述的装置,其特征在于,所述匹配模块包括:
归一化处理子模块,用于将所述待鉴定谱图中的每一张谱图与所述目标-诱饵库中的每一张谱图进行比对,对所述待鉴定谱图中的每一张谱图中的子离子信号强度值做归一化处理;
谱图序号索引二维数组生成子模块,用于选中所述待鉴定谱图中的一张谱图并获取其母离子质荷比M,筛选出所述目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历所述待鉴定谱图中的每一张谱图,得到谱图序号索引二维数组;
权值数组生成子模块,用于将所述目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对所述第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以所述第二信号仓库为总体对选中的所述待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历所述待鉴定谱图中的每一张谱图,得到权值数组;
评分子模块,用于以参考谱图中的子离子信号为基础对所述待鉴定谱图的子离子信号进行匹配评分;以及
鉴定结果数组生成模块,用于选中一个谱图序号索引数组,将所述待鉴定谱图与选中的所述谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为所述待鉴定谱图的鉴定结果,遍历所述谱图序号索引二维数组中的所有元素,得到所述待鉴定谱图的鉴定结果数组。
38.根据权利要求37所述的装置,其特征在于,所述归一化处理子模块用于将所述子离子信号强度值归一化到(0,1)的区间内。
39.根据权利要求38所述的装置,其特征在于,所述归一化处理包括将所述子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。
40.根据权利要求37所述的装置,其特征在于,所述权值数组生成子模块用于以所述第二信号仓库为总体对选中的所述待鉴定谱图中的所有子离子谱图信号做检验获得所述待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值。
41.根据权利要求40所述的装置,其特征在于,所述检验为格拉布斯检验、箱线图法检验或正态分布检验。
42.根据权利要求37所述的装置,其特征在于,所述评分子模块用于将所述待鉴定谱图的子离子信号和所述参考谱图的子离子信号分别定义为两个数组
Figure FDA0004214142930000061
Figure FDA0004214142930000062
以所述参考谱图为基础,将所述待鉴定谱图的信号与所述参考谱图的信号进行比对,设所述待鉴定谱图中的信号数目总数为total_e,其中能够匹配到所述参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,所述参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:
Figure FDA0004214142930000063
其中,μ为校正系数,为所述待鉴定谱图的子离子信号和所述参考谱图的子离子信号间的差值的倒数,
Figure FDA0004214142930000064
为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。
43.根据权利要求37所述的装置,其特征在于,FDR鉴定模块用于执行以下指令:
将所述待鉴定谱图的鉴定结果数组按照匹配得分从高到低排序,设target_score为目标数据库得分,decoy_score为诱饵库得分,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1;
鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为x,当遍历到某一个谱图鉴定结果sn使得FDR≥x的时候,则该批次的有效鉴定结果为{s1,s2,s3......sn-1}。
44.根据权利要求43所述的装置,其特征在于,所述x小于等于0.2。
45.根据权利要求44所述的装置,其特征在于,所述x小于等于0.05。
46.根据权利要求45所述的装置,其特征在于,所述x小于等于0.01。
47.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至23任一项中所述的方法。
48.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至23任一项中所述的方法。
CN201910606569.5A 2019-07-05 2019-07-05 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置 Active CN111883214B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910606569.5A CN111883214B (zh) 2019-07-05 2019-07-05 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置
PCT/CN2020/099769 WO2021004355A1 (zh) 2019-07-05 2020-07-01 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910606569.5A CN111883214B (zh) 2019-07-05 2019-07-05 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置

Publications (2)

Publication Number Publication Date
CN111883214A CN111883214A (zh) 2020-11-03
CN111883214B true CN111883214B (zh) 2023-06-16

Family

ID=73154283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910606569.5A Active CN111883214B (zh) 2019-07-05 2019-07-05 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置

Country Status (2)

Country Link
CN (1) CN111883214B (zh)
WO (1) WO2021004355A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114624340B (zh) * 2020-12-08 2022-11-08 中国科学院大连化学物理研究所 一种植物中病虫害介导的植物抗性相关次生代谢物的鉴定方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005079263A2 (en) * 2004-02-13 2005-09-01 Waters Investments Limited Apparatus and method for identifying peaks in liquid chromatography/mass spectrometry data and for forming spectra and chromatograms
CN101871945A (zh) * 2010-06-13 2010-10-27 中国科学院计算技术研究所 谱库的生成方法和串联质谱谱图鉴定方法
CN102495127A (zh) * 2011-11-11 2012-06-13 暨南大学 一种基于概率统计模型的蛋白质二级质谱鉴定方法
GB201308837D0 (en) * 2012-05-18 2013-07-03 Micromass Ltd Improved method of MSe mass spectrometry
WO2013097058A1 (zh) * 2011-12-31 2013-07-04 深圳华大基因研究院 一种蛋白质组的鉴定方法
CN103698447A (zh) * 2012-09-28 2014-04-02 中国人民解放军军事医学科学院放射与辐射医学研究所 一种利用高能碰撞诱导电离碎裂技术鉴定蛋白的方法
CN104034792A (zh) * 2014-06-26 2014-09-10 云南民族大学 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
AU2014221248A1 (en) * 2011-10-26 2014-09-25 The Regents Of The University Of California Pathway recognition algorithm using data integration on genomic models (paradigm)
WO2015191999A1 (en) * 2014-06-13 2015-12-17 Waters Technologies Corporation Analysis of complex biological matrices through targeting and advanced precursor and product ion alignment
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法
WO2018138901A1 (ja) * 2017-01-30 2018-08-02 株式会社島津製作所 スペクトルデータ処理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050164325A1 (en) * 2003-09-24 2005-07-28 Micromass Uk Limited Method of mass spectrometry
DK2450815T3 (da) * 2009-07-01 2013-11-11 Consejo Superior Investigacion Fremgangsmåde til at identificere peptider og proteiner ud fra massespektrometri-data
DE102011017084B4 (de) * 2010-04-14 2020-07-09 Wisconsin Alumni Research Foundation Massenspektrometriedaten-Erfassungsmodus zur Erzielung einer zuverlässigeren Proteinquantifizierung
AU2011328963B2 (en) * 2010-11-17 2016-12-08 Pioneer Hi-Bred International, Inc. Prediction of phenotypes and traits based on the metabolome
US20140142865A1 (en) * 2012-11-20 2014-05-22 David A. Wright Automatic Reconstruction of MS-2 Spectra from all Ions Fragmentation to Recognize Previously Detected Compounds
CN105334279B (zh) * 2014-08-14 2017-08-04 大连达硕信息技术有限公司 一种高分辨质谱数据的处理方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005079263A2 (en) * 2004-02-13 2005-09-01 Waters Investments Limited Apparatus and method for identifying peaks in liquid chromatography/mass spectrometry data and for forming spectra and chromatograms
CN101871945A (zh) * 2010-06-13 2010-10-27 中国科学院计算技术研究所 谱库的生成方法和串联质谱谱图鉴定方法
AU2014221248A1 (en) * 2011-10-26 2014-09-25 The Regents Of The University Of California Pathway recognition algorithm using data integration on genomic models (paradigm)
CN102495127A (zh) * 2011-11-11 2012-06-13 暨南大学 一种基于概率统计模型的蛋白质二级质谱鉴定方法
WO2013097058A1 (zh) * 2011-12-31 2013-07-04 深圳华大基因研究院 一种蛋白质组的鉴定方法
GB201308837D0 (en) * 2012-05-18 2013-07-03 Micromass Ltd Improved method of MSe mass spectrometry
CN103698447A (zh) * 2012-09-28 2014-04-02 中国人民解放军军事医学科学院放射与辐射医学研究所 一种利用高能碰撞诱导电离碎裂技术鉴定蛋白的方法
WO2015191999A1 (en) * 2014-06-13 2015-12-17 Waters Technologies Corporation Analysis of complex biological matrices through targeting and advanced precursor and product ion alignment
CN104034792A (zh) * 2014-06-26 2014-09-10 云南民族大学 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法
WO2018138901A1 (ja) * 2017-01-30 2018-08-02 株式会社島津製作所 スペクトルデータ処理装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An improved method for the construction of decoy peptide MS/MS spectra suitable for the accurate estimation of false discovery rates;Erik Ahrné等;《Proteomics》;4085–4095 *
Building high-quality assay libraries for targeted analysis of SWATH MS data;Olga T Schuber等;《Nature Protocols》;426-441 *
基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析;董乃平;李洪东;梁逸曾;;分析化学(第10期);76-81 *
基于谱图库的蛋白质鉴定策略研究进展;蔚德睿;马洁;解增言;白明泽;朱云平;舒坤贤;;生物工程学报(第04期);70-81 *

Also Published As

Publication number Publication date
CN111883214A (zh) 2020-11-03
WO2021004355A1 (zh) 2021-01-14

Similar Documents

Publication Publication Date Title
Böcker et al. Fragmentation trees reloaded
Picache et al. Collision cross section compendium to annotate and predict multi-omic compound identities
Draper et al. Metabolite signal identification in accurate mass metabolomics data with MZedDB, an interactive m/z annotation tool utilising predicted ionisation behaviour'rules'
Blaženović et al. Comprehensive comparison of in silico MS/MS fragmentation tools of the CASMI contest: database boosting is needed to achieve 93% accuracy
CN107729721B (zh) 一种代谢物鉴定及紊乱通路分析方法
Wolf et al. In silico fragmentation for computer assisted identification of metabolite mass spectra
Wenger et al. COMPASS: A suite of pre‐and post‐search proteomics software tools for OMSSA
Heinonen et al. Metabolite identification and molecular fingerprint prediction through machine learning
Kenar et al. Automated label-free quantification of metabolites from liquid chromatography–mass spectrometry data
CN104170052A (zh) 用于改进的质谱分析法定量作用的方法和装置
Matsuda et al. Assessment of metabolome annotation quality: a method for evaluating the false discovery rate of elemental composition searches
Wang et al. MixGF: spectral probabilities for mixture spectra from more than one peptide
Lundgren et al. Protein identification using Sorcerer 2 and SEQUEST
US20240266001A1 (en) Method and apparatus for identifying molecular species in a mass spectrum
CN111883214B (zh) 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置
Bellm et al. High dimensional parameter tuning for event generators
Kang et al. Accelerating open modification spectral library searching on tensor core in high-dimensional space
CN111859275B (zh) 一种基于非负矩阵分解的质谱数据缺失值填补方法及系统
Wadie et al. METASPACE-ML: Metabolite annotation for imaging mass spectrometry using machine learning
Gipson et al. Assignment of MS-based metabolomic datasets via compound interaction pair mapping
Claesen et al. Predicting the number of sulfur atoms in peptides and small proteins based on the observed aggregated isotope distribution
Dührkop et al. Fragmentation trees reloaded
Agten et al. Machine learning approach for the prediction of the number of sulphur atoms in peptides using the theoretical aggregated isotope distribution
Zhang et al. Electron ionization mass spectrometry feature peak relationships combined with deep classification model to assist similarity algorithm for fast and accurate identification of compounds
Lyu et al. The Deconvolution Method for Obtaining Correspondence in Data-Independent Acquisition Mass Spectrometry Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant