CN106415558A - 数据处理装置和用于质谱法数据的评估的方法 - Google Patents

数据处理装置和用于质谱法数据的评估的方法 Download PDF

Info

Publication number
CN106415558A
CN106415558A CN201580028650.XA CN201580028650A CN106415558A CN 106415558 A CN106415558 A CN 106415558A CN 201580028650 A CN201580028650 A CN 201580028650A CN 106415558 A CN106415558 A CN 106415558A
Authority
CN
China
Prior art keywords
data
item
dynamic
workflow
peptide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580028650.XA
Other languages
English (en)
Other versions
CN106415558B (zh
Inventor
C·帕施克
H·格林斯曼
T·于克特
K·弗里策迈耶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thermo Fisher Scientific Bremen GmbH
Original Assignee
Thermo Fisher Scientific Bremen GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thermo Fisher Scientific Bremen GmbH filed Critical Thermo Fisher Scientific Bremen GmbH
Publication of CN106415558A publication Critical patent/CN106415558A/zh
Application granted granted Critical
Publication of CN106415558B publication Critical patent/CN106415558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • G01N30/724Nebulising, aerosol formation or ionisation
    • G01N30/7266Nebulising, aerosol formation or ionisation by electric field, e.g. electrospray
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/40ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management of medical equipment or devices, e.g. scheduling maintenance or upgrades
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
    • G01N2030/8809Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample
    • G01N2030/8813Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials
    • G01N2030/8831Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials involving peptides or proteins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/02Details
    • H01J49/10Ion sources; Ion guns
    • H01J49/16Ion sources; Ion guns using surface ionisation, e.g. field-, thermionic- or photo-emission
    • H01J49/161Ion sources; Ion guns using surface ionisation, e.g. field-, thermionic- or photo-emission using photoionisation, e.g. by laser
    • H01J49/164Laser desorption/ionisation, e.g. matrix-assisted laser desorption/ionisation [MALDI]
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes
    • H01J49/34Dynamic spectrometers
    • H01J49/42Stability-of-path spectrometers, e.g. monopole, quadrupole, multipole, farvitrons
    • H01J49/4205Device types
    • H01J49/4245Electrostatic ion traps
    • H01J49/425Electrostatic ion traps with a logarithmic radial electric potential, e.g. orbitraps

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Dispersion Chemistry (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

根据本发明的一种数据处理装置包括:处理器单元,其被调适以处理由层析仪和/或质谱仪提供的多个初始数据向量,所述处理是在产生经处理数据的项的一个、两个或更多个处理步骤中进行的;和存储单元,其被调适以保存和检索初始数据向量和/或经处理数据的项,确切地说,经处理数据向量或识别的化合物,和/或额外数据的项,确切地说,在所述质谱仪中引入的样本的性质。经处理数据和/或额外数据的每一项连接到至少一个初始数据向量,且其中所述处理器单元被调适以根据额外数据的一或多个项对初始数据向量和/或经处理数据的项分群、选择和/或修改。本发明进一步涉及一种质谱法装备和一种用于识别和/或量化肽和/或蛋白质和/或代谢物的方法。

Description

数据处理装置和用于质谱法数据的评估的方法
技术领域
本发明涉及一种适宜于质谱法数据的处理的数据处理装置、一种质谱法装备和一种用于质谱法数据的评估的方法。本发明的方面还涉及用于多个数据集的评估的后采集数据分析软件,特别地,在蛋白质组研究(蛋白质ID、量化、翻译后修饰的检测)、代谢组研究、代谢研究、化合物识别、疾病的发展和检测、医药和毒理标记、所有以上的量化的领域中。本发明的某些方面还涉及基于此后采集数据分析对器具的控制。可在测量(例如,LC/MS采集)期间或在其后执行此反馈。
背景技术
质谱法对生物学的应用允许在蜂窝级别对工艺的详细分析,如在Patterson和Aebersold的文章中论述,《自然遗传学增刊(nature genetics suppl.)》33,311(2003)。生物质谱法的两个主要领域为代谢物分析和蛋白质/肽分析。可使用两者评估生物系统的状态,例如,关于对外部刺激或健康或疾病的状态的反应。在食物安全和毒理学中存在类似任务。
许多生物质谱法研究开始于存在N个样本的集合的总体研究。这些接着被形成或经受实验,其可包括研究中的每一样本或样本的子集的气相或液相色谱法-质谱法(GC/MS或LC/MS)或液相色谱法-串连质谱法(LC/MS/MS)或离子移动性串连质谱法(IMS/MS)测量,或实际上,色谱分离、移动性分离、质量分析和可能额外光谱测量的任何组合。
为了测量,可将不同样本修改为可个别地辨识,例如,通过质量标签(其可包括同位素、金属或其它标注)的化学附着或通过用同位素标注的修改。取决于测量策略和目标生物体,标注可在蛋白水解处理前化学附着,作为食物或在生长介质中施予,或另外与分析物连接。
通过此标注,可混合多个子样本以形成组合样本,组合样本接着经受质谱测量。接送可通过质量标签的质量、从不同标注的子样本之间的质量差和/或当执行MS/MS(MS2)或MSn实验揭露的质量差产生的同位素图案在组合样本内识别子样本。取决于标注或标签,质量差可为原子质量单元(在不同位置中含有不同同位素(通常为C、N、O、H)使得单元质量保持相同的标注)的小部分、一个或若干个质量单元(如(例如)供iTRAQ、TMT、SILAC使用的常规同位素标注)或许多质量单元(金属)。
已知反映实验的变化性的样本的各种性质,也命名为因素。然而,各种因素中的哪些确实影响测量通常并不先验已知。实际上,发现对测量具有影响的因素或“研究变量”为实验的一个基础目标。通常,存在不同“问题”被指派到实验,这些问题是关于不同的研究变量如何导致不同(或并不不同)的测量结果。此研究的实例可在WO 2013/149963 A1中找到。
此本性的研究的主要挑战涉及如何将各种研究变量与测量联系起来以便给出关于生物系统的状态的定性和定量信息。因为质谱法数据通常导致极大的数据大小(例如,对于一个样本的LC/MS,0.2GB到5GB),所以处理需要大量时间,甚至是在现代(从2014起)计算机工作站上。
一般来说,生物质谱法数据评估遭受数据评估工具的碎片化。近年来,许多不同工具已由不同科学和商业团体开发用于评估生物质谱法数据。虽然对于靶向分析存在一些完整的工作流(例如,如由USPN 7,269,517揭示,其根植于荧光测定),但对探索性研究和对转换到靶向方法的支持仍然弱。这部分因为通常在单独的软件包中实现与采集有关的数据评估和实验室信息管理方面。另外,典型的软件包依赖于很刚性的过程和数据模型,这使得难以使系统适宜新任务。
对照此背景,本发明的目标为提供一种用于生物质谱法数据的快速且灵活的数据评估系统。
发明内容
根据本发明的一方面,提供一种数据处理装置,包括:处理器单元,其被调适以处理由层析仪和/或质谱仪提供的多个初始数据向量,所述处理是在产生经处理数据的项的一个、两个或更多个处理步骤中进行的;和存储单元,其被调适以保存和检索初始数据向量和/或经处理数据的项,确切地说,经处理数据向量或识别的化合物,和/或额外数据的项,确切地说,在所述层析仪和/或质谱仪中引入的样本的性质,其中经处理数据的每一项和/或额外数据的项连接到至少一个初始数据向量,且其中所述处理器单元被调适以根据额外数据的一或多个项对初始数据向量和/或经处理数据的项分群、选择和/或修改。
可将数据处理装置实现为单一计算机或以分散式形式用由基于无线和/或有线和/或光纤的网络互连的许多处理装置实现。另外,处理器单元可含有在一个或若干个互连的单元中的多个处理器核心。
初始数据向量给出在一段时间上进行的测量的结果,其中优选地,取决于第二参数来给出测量的强度,例如,洗脱时间或质荷比(m/z),确切地说,质谱。这些数据可由层析仪或优选地由耦合到液相色谱法-电喷雾离子源或MALDI离子源的质谱仪产生。确切地说,初始数据向量可为具有测量的强度与质量(或质量过载)的值对的数据向量。然而,尤其对于Orbitrap类型的质量分析器,可替代地将初始数据向量给出为在定义的频率范围上的质谱或在定义的时间跨度上给出的瞬变。本文中,术语‘质量’和类似术语(例如,‘质谱’)应理解为不仅指质量,而且指质谱法中与质量直接有关的任何量,例如,Fourier变换质谱法中的频率和飞行时间质谱法中的时间。
初始数据向量可为未处理的数据向量,或可已进行一些初始处理,例如,转换到质量标度和/或质量或时间标度的校准。初始处理也可含有原始质谱的过滤,使得只将选择的数目个测量的峰作为初始数据向量对待。
处理步骤优选地包括调整质量或时间标度和/或正规化数据向量的强度,使得经处理数据的项为数据向量,和/或基于一或多个数据向量识别主要化合物(确切地说,肽),和/或基于许多识别的主要化合物识别母体化合物(确切地说,蛋白质),使得经处理数据的项可为字串,例如,序列的名称或表示或化合物的结构式。识别可包括查询额外数据库,所述数据库(例如)使测量的片段与消化的蛋白质和/或肽有关。另外,处理步骤中的一或多个可包括识别的化合物的验证。对于靶向或代谢体学分析,识别可包括通过应用规则与从化合物的初始集合导出的质量和/或元素组成的列表比较,例如,以模拟生物体中的代谢变换。
当进行两个或更多个连续处理步骤时,不必每一中间处理步骤都产生经处理数据的项。这允许将输出或修改现有数据的处理步骤作为中间处理步骤进行。
额外数据优选地是关于特定测量的条件的信息,例如,日期和/或时间和/或使用的器具。对于蛋白质组研究或代谢组研究实验,额外数据优选地含有一或多个因素或研究变量(例如,在服药后过去的时间)或关于样本的准备的其它信息。额外数据还包括另外信息,例如,针对肽或蛋白质的识别而搜索的数据库或是否或在哪一数据库中发现质谱匹配。额外数据优选地至少部分取决于不能直接从初始数据向量推断的信息。因此,额外数据的项可包括研究变量或影响因素,例如,样本取自的组织或有机体、施予的药、药的剂量、在药的施予后的时间、患者的年龄或性别、样本制备。额外数据的项可进一步包括测量的时间和/或日期、使用的质谱仪的识别符或与具体样本的测量有关的任何其它参数(例如,包含针对质量控制措施而引入的数据)。
确切地说,可基于额外数据将初始数据向量分群,例如,可加总或平均从特定组织测量的所有质谱,可基于额外数据选择一或多个经处理数据的项,可基于额外数据修改初始数据向量或经处理数据向量的质量标度。优选地,可替代地或另外基于经处理数据的项(例如,识别的肽或蛋白质)将初始数据向量分群。
存储单元优选地包括以电荷的形式保存信息的存储器装置(例如,随机存取存储器),或以磁畴的形式保存信息的存储器装置(例如,硬盘驱动器)。
鉴于现有技术,根据本发明的数据处理装置具有各种优势:
●供客户或第三方“插件”使用的灵活性,这是由于插件通常必须以良好地集成且不干扰稍后可在cGMP法规下的过程的方式存储“未预期到的”额外数据。
●初始数据向量保持不变,且可在数据的处理期间的任何时间存取。以有助于检索和或修改对应于初始数据向量的经处理数据的项的方式使影响因素或另外信息连接到输入向量。
●因为初始数据向量、所得经处理数据的项和额外数据的项被连接起来,即,逻辑上连结,所以可基于(例如)额外数据的给定项来检索对应的数据项的集合。通过根据额外数据的项对初始数据向量和/或经处理数据的项分群或选择,可在无先验知识的情况下确定潜在影响因素。
●当(例如)将取得样本的时间和/或日期或样本制备作为额外数据的项给出时,可根据器具响应的观测到的变化调适质谱的校准和/或正规化,使得可改善测量的数据的准确性。
●数据的处理还可包含数据的观测。基于额外数据的给定项灵活检索经处理数据的项允许灵活的“实验设计”,以便评价不同研究变量的影响。观测可包括可用户配置的表、散布图、直方图、条形图、饼图和/或Venn图。
优选地,对每一初始数据向量指派唯一识别符,且经处理数据的每一项连接到来自同一初始数据向量的先前处理步骤的经处理数据的项,和/或直接连接到初始数据向量。
一般来说,在特定处理步骤中创建的经处理数据的项连接到在紧接在此特定处理步骤前的处理步骤中创建的经处理数据的项。对于一些初始数据向量或所得中间经处理数据,后续处理步骤可不导致经处理数据的项,或不导致经处理数据的“空”项。这可(例如)针对数据库检索而发生以便识别化合物,确切地说,肽或蛋白质。在此情况下,可尤其针对在第一数据库的搜索中不给出结果的那些初始数据向量执行在一或多个额外数据库中的搜索。
优选地,存储单元被调适以将初始数据向量、经处理数据的项和/或额外数据的项存储在关系型数据库中。
关系型数据库在存储单元的文件系统(确切地说,相关联的文件的集合)中可包括一个、两个或更多个文件。
优选地,关系型数据库包括固定数目个预定义的表和许多动态表,其中预定义的表中的至少一个含有动态数据类型的定义,且其中针对每一动态数据类型创建一个动态表。
预定义的表优选地含有数据库的管理信息,且确切地说,管理额外数据;管理信息可包括数据库档案的创建日期、用于数据库的创建的数据库引擎的版本。有利地,预定义的表包括动态表的列表和/或动态表的列的列表和/或动态数据类型的定义。另外,管理信息可包括动态数据类型的语义或实体描述,指示(例如)动态表的列含有滞留时间或测量的样本的质谱。
优选地,存储单元包括用于定义动态数据类型和/或修改关系型数据库的数据接口,使得可添加动态表和/或可将列添加到现有动态表。
动态数据类型是基于和可包括预定义数据类型的许多性质,例如,整数或浮点数、字串或字节阵列。有利地,用户可定义新动态数据类型来存储额外数据,确切地说,关于实验的信息,例如,施予的药和/或药在代谢中的存在周期,且新动态数据类型的定义导致数据库中新动态表的创建。如果初始数据向量由耦合到层析仪的质谱仪提供,那么动态数据类型中的至少一个可包括滞留时间。一般来说,动态数据类型的定义不由终端用户执行,而是通过程序员用添加的功能性增强现有数据库来执行。
优选地,动态数据类型的定义可包括对转换器的参考,其中当从存储单元检索数据时,定义的动态数据类型的性质的存储形式被转换成处理形式,且当将数据保存到存储单元时,定义的动态数据类型的项的处理形式被转换成存储形式。这允许存储复杂或结构化的性质,使得可保存任意数据。
当定义动态数据类型时,可添加转换器,例如,以第三方模块的形式。举例来说,初始数据向量可由含有值对的列表的XML文件表示。可添加额外转换器以压缩XML文件,且将其作为字节阵列存储在动态表的栏中。当检索初始数据向量时,将字节阵列转换回到XML文件。以此方式,可将例如滞留时间或电荷的‘简单’性质存储在与对应的质谱相同的表中。参考的细节可取决于数据处理装置的操作系统,使得(例如)如果程序库中含有转换器,那么参考可包括转换器的地址和/或功能名称和/或参数定义。
本发明的优选特征是,存储单元被调适以存储第一动态数据类型的项与第二动态数据类型的项之间的连接,和关系型数据库包括含有第一动态数据类型的项与第二动态数据类型的项之间的连接的再一个动态表。
另外,可定义第一动态数据类型与第三动态数据类型和/或第二动态数据类型与第三动态数据类型之间的连接。当这些额外连接被定义后,针对可连接的每个再一对动态数据类型创建至少再一个动态表。有利地,可定义无限数目个连接。
优选地,针对两个动态数据类型之间的每一连接创建一个动态表,且连接的动态表含有用于存储额外数据的项和/或经处理数据的项的一或多个列。
将额外数据存储在连接的动态表中允许用具体地连接到两个项的信息注释两个具体项的连接。举例来说,在含有肽的样本中,可定义肽与修改之间的连接,其中特定修改在肽中的位置存储在连接的动态表中。
有利地,存储单元的数据接口允许添加新数据字段以及到关系型数据库的新连接,使得额外列和/或动态表被创建且可存取。
根据本发明的优选实施例,动态数据类型中的至少一个被调适用于样本和/或靶向化合物的特性化。
根据本发明的特别优选实施例,在质谱仪中引入的样本含有蛋白质和/或肽,确切地说,消化的蛋白质,其中动态数据类型包括蛋白质(确切地说,包括序列和描述和重量)和肽(确切地说,包括序列和电荷),其中处理包括识别肽的处理步骤和识别蛋白质的后续处理步骤,且其中关系型数据库包括识别的蛋白质的表和识别的肽的表。
优选地,还定义肽与蛋白质之间的连接;如以上所解释,肽在蛋白质中的位置也可存储在对应的动态表中。另外,可将修改定义为再一动态数据类型,确切地说,包括名称和质量差,其中关系型数据库包括用于修改的额外表和用于修改在识别的肽中的位置的额外。另外,可针对识别的化合物、官能团、官能团在化合物中的位置和针对官能团的可能修改(例如,氘化)来定义类似表。可借助于在一或多个外部数据库中的一或多个检索来进行识别肽或蛋白质的处理步骤。
根据本发明的特别优选的实施例,在质谱仪中引入的样本含有药和/或代谢物,其中用户定义的数据类型包括药,确切地说,包括样本、代谢物的名称、效应周期和组织,确切地说,包括化学式和/或名称,和修改,确切地说,包括电荷、质量和位置,其中处理优选地包括识别代谢物的处理步骤。
可看到在某些实施例中数据处理装置为用于识别样本的化合物(例如,蛋白质、代谢物和如本文中所提到的其它化合物)的系统。可看到在某些实施例中数据处理装置为用于量化样本的化合物的系统。
优选地,本发明的数据处理装置进一步包括模块接口,其允许添加实施处理步骤的动态模块,其中动态模块可保存和/或检索数据的项,以及添加动态数据类型和/或修改关系型数据库的表。
有利地,关系型数据库存储关于模块的信息,例如,输入数据、输出数据和可选或所需参数。
根据本发明的优选实施例,数据处理装置包括用于定义处理步骤的序列的工作流接口,其中处理步骤可由默认模块和/或动态模块执行,其中工作流接口将允许其从关系型数据库检索数据、定义动态数据类型和将数据保存于关系型数据库中的服务提供到模块。
有利地,处理步骤可由一开始具备数据处理装置的默认模块和由动态模块两者执行,这可由用户编程或由第三方提供。
根据本发明的优选实施例,工作流接口被调适以定义第一和第二工作流,每一工作流包括一连串一或多个处理步骤,其中在第二工作流前进行第一工作流,其中将第一工作流的经处理数据或输出数据用作用于第二工作流的输入数据。
有利地,这允许二阶段分析过程的定义。基于所述第一工作流产生的中间结果,可进行许多不同的第二工作流。优选地,至少将第一工作流的输出数据存储在结果文件中。当处理的一些部分独立于被选择用于处理的研究变量(额外数据的项)始终相同时,这特别有利,使得只将这些共同部分执行一次。由共同处理步骤产生的中间结果可被存储和载入供根据可变方面的进一步处理。这具有不需要重复数据处理的计算上代价大的方面(例如,Sequest搜索、渗滤器、一般验证步骤)的优势。共同和可变处理步骤的分开使数据的共享容易且节省了存储空间,这是因为只将中间结果存储一次。
根据本发明的特别优选实施例,工作流接口被调适以定义许多第一工作流,每一工作流包括一连串一或多个处理步骤,其中第一工作流由处理器单元独立地进行,且其中第二工作流包括组合、比较和/或分析从许多第一工作流产生的经处理数据的处理步骤。
有利地,可定义任意数目个工作流。
根据本发明的特别优选的实施例,数据处理装置被调适以存储在工作流文件中包括一连串处理步骤的工作流,其中工作流文件优选地包括待处理的初始向量的列表,且其中数据处理装置被进一步调适以至少存储来自结果文件(确切地说,关系型数据库文件)中正由处理器单元进行的工作流的经处理数据的项(优选地,初始数据向量、经处理数据的项和额外数据的项)。
优选地,工作流产生或修改结果文件,确切地说,含有整个关系型数据库的文件。借助于存储的工作流,用相同处理步骤分析测量结果的不同集合可简单地通过改变待处理的初始数据向量的列表来执行。
根据本发明的尤其优选实施例,在进行后续定义的工作流前,处理器单元被调适以将后续定义的工作流的处理步骤和初始数据向量的列表与一或多个存储的工作流的处理步骤和初始数据向量的列表比较,且如果存储的工作流的处理步骤和初始数据文件的列表都对应于后续工作流的初始处理步骤,那么检索来自那个存储的工作流的对应的结果文件的数据,替代进行后续定义的工作流的初始处理步骤。
有利地,当来自合适的先前工作流的经处理数据可用时,可避免进行所有耗时的处理步骤;这特别可用于归因于测量的数据文件的大小而常在蛋白质组研究中发生的耗时的处理步骤。
优选地,存储单元被进一步调适以针对经处理数据的每一项存储哪一默认或动态模块创建或修改经处理数据的此项。这有助于数据的自动再处理,且允许数据的验证和/或误差辨识和追溯误差。
数据处理装置优选地包括观测构件,确切地说,计算机监视器和/或打印机,其中处理器单元被进一步调适以使用观测构件观测一或多个处理步骤的经分群、选定和/或修改的数据。
优选地,数据处理装置进一步包括交互构件,确切地说,键盘和/或鼠标,其中交互构件和观测构件被调适以操作工作流接口,即,发送命令到工作流接口和/或从工作流接口接收信息。
有利地,用户可通过图形用户接口查看和编辑工作流。
数据处理装置优选地包括用于发送命令到质谱仪和从质谱仪接收数据的器具接口。
优选地,处理器单元被调适以处理第一组初始数据向量,执行一或多个处理步骤,其中器具接口被调适以发送命令到质谱仪,从而起始第二组初始数据向量的测量,和从质谱仪接收第二组初始数据向量,其中存储单元被调适以保存第二组初始数据向量,且其中处理器单元被调适以处理第二组初始数据向量,从而执行一或多个处理步骤。
优选地,处理器单元被进一步调适以取决于第一组初始数据向量的处理的结果改变用于测量第二组数据的命令。这具有允许数据相关的采集的优势,例如,测量具体m/z范围,或当发现预定义的峰图案或数据库搜索给出不确定结果时执行离子选择和/或碎片化。
根据本发明的另一方面,提供一种质谱法装备,其包括具有器具接口的数据处理装置和连接到器具接口的质谱仪,确切地说,包括耦合到液相色谱法-电喷雾离子源的Orbitrap类型的质量分析器。
根据本发明的又一方面,提供一种用于识别和/或量化肽和/或蛋白质和/或代谢物的方法,包括以下步骤
a.通过质谱法装备(确切地说,根据本发明的质谱法装备)获取多个样本的初始数据向量,
b.将额外数据的一或多个项指派到每一初始数据向量,
c.根据额外数据的项分群或选择许多初始数据向量,确切地说,只选择额外数据的项具有预定义值的那些初始数据向量,
d.在一或多个处理步骤中处理分群或选择的数目个初始数据向量包括优选地修改初始数据向量的质量标度和/或强度,
e.执行在来自肽和/或蛋白质和/或代谢物的已知质谱的数据库中的搜索,和
f.输出通过数据库搜索识别的肽和/或蛋白质和/或代谢物的名称和/或性质。
有利地,用户不必手动选择哪些初始数据向量(即,质谱)需要处理,例如,用于在特定组织中存在的蛋白质的识别。关于测量的样本的组织的信息优选地作为额外数据的项存储于数据处理装置的存储单元(确切地说,关系型数据库)中。确切地说,当分析许多不同组织时,这简化且加速了数据的处理。
任选地,获取初始数据向量的步骤可进一步包括
-执行液相色谱法或(差分)离子移动性分离或任何其它物理分离和随分离参数而变获取初始数据向量
-在质量分析或分离前以酶方式、物理上或化学上处理样本以使分析容易和/或确立允许经由质谱法识别来自不同样本的数据的参数
-基于信号强度、同位素比、同位素图案、预定义的质量差、从列表获得的质量,或基于从完全或部分执行此方法确定的质量差或质量(当其仍然在进行中时,基于先前实验或在时间上距同一实验较早获得的结果),执行数据相关的MS、MS/MS或MSn分析。
根据本发明的优选实施例,所述方法进一步包括以下步骤中的至少一个
g.将额外数据的一或多个项指派到经处理数据的每一项,
h.根据直接指派到经处理数据项或从同一初始数据向量的先前处理步骤指派到经处理数据的项和/或直接指派到初始数据向量的额外数据的项来对许多经处理数据项分群或选择,
i.在一或多个步骤中处理经分群或选择的数目个经处理数据项优选地包括经处理数据项的验证,
其中在输出肽和/或蛋白质和/或代谢物的名称和/或性质的最终步骤前,可重复步骤中的一或多个。
根据本发明的另一方面,提供一种质谱法的方法,其包括以下步骤:提供多个样本;任选地合并这些样本作为子样本以形成组合样本;用MS或LC/MS系统获取所述样本的质谱法数据;使研究变量与样本或子样本和所述有关质谱法数据相关联;提供用户接口以用于研究变量与测量结果的关系的第一所要的观测的选择;处理所述质谱法数据以允许此观测;交互式地观测所述结果作为第一表或曲线图以展示研究变量与质谱法数据之间的关系;提供用户接口以用于改变所述所要的观测以给出第二所要的观测;识别对于所述第一和第二所要的观测的产生共同的处理步骤;仅执行产生所述第二所要的观测并不共同的处理步骤,和;交互式地观测所述结果作为第二表或曲线图以展示研究变量与质谱法数据之间的关系。
根据本发明的再一方面,提供一种质谱法的方法,其包括以下步骤:提供多个样本;任选地合并这些样本作为子样本以形成组合样本;用MS或LC/MS系统(任选地进一步包括离子移动性或差分离子移动性分析器)产生来自样本的测量结果;使研究变量与样本或子样本和有关测量结果相关联;提供用户接口以用于定义第一处理方法或工作流;基于所述第一处理方法,计算和任选地存储来自测量结果的中间结果;提供用户接口以用于定义第二处理方法或工作流,此第二处理方法或工作流将在第一处理方法后执行,和;提供用户接口以用于处理方法的观测,因此观测研究变量与测量结果之间的关系;其中第二处理方法和观测可由用户改变,且可在不需要重新计算第一处理方法的结果的情况下执行第二处理方法。
在测量后允许在不同准则下指派和评估不同研究变量和样本的分群是有效率的,使得可在无先验知识的情况下确定潜在影响因素。
较之现有技术的主要改善在于,替代依赖于预定义的实验设计,关于实验的“问题”可由用户“特别”制定。其它主要改善为通过按恒定和可变部分分裂处理工作流而对计算资源的高效使用,使得不需要重新计算共同结果(例如,在蛋白质组研究中的数据库检索)。因此,可完整评价影响因素,如组织/有机体、药、剂量、施予后的时间、疾病、年龄、性别、患者/个人、操作者和样本制备。虽然系统不设定任何限制(如预定义的“实验设计”),但仍然可能保存处理方法和将其重新应用于不同的样本集合。
任选地,提供样本和执行质谱法的步骤可进一步包括:执行液相色谱法或(差分)离子移动性分离或任何其它物理分离和观测随分离参数而变的质谱法数据;在质量分析或分离前,以酶方式、物理上或化学上处理样本以使分析容易;在质量分析或分离前,以酶方式、物理上或化学上处理样本以确立允许经由质谱法识别来自不同样本的数据的参数,和/或;基于信号强度、同位素比、同位素图案、预定义的质量差、从列表获得的质量,或基于从完全或部分执行此方法确定的质量差或质量(当其仍然在进行中时,基于先前实验或在时间上距同一实验较早获得的结果),执行数据相关的MS、MS/MS或MSn分析。
实施前述方法的软件优选地不创建“扫描”的数据矩阵,而取而代之,使原始数据“不受影响”,但用户将实验因素附着到输入数据向量和样本管理,处理和观测工具将实验因素作为“注释”载运到数据,所述实验因素可按向量分群(例如,有机体、剂量、在施予后的时间)、平均化的各种重复实验等)。
不同实验设计优选地不在数据库中,而“在用户的头脑中”。因此,基于“中间结果”,用户可“在运行中”应用不同实验设计(“鉴于不同向量的评估”),但当设计被选择和存储时,其可为每个文件仅有的一个实验设计,接送可将所述实验设计应用于其它数据。
观测可包括表、可用户配置的表和或散布图、直方图、条形图、饼图和Venn图。
注意,与“二阶段”分析过程的联系使此方法在计算成本上有效率。
处理的一些部分可独立于针对分群/评估而选择的实验变量始终相同。这些部分有利地可仅执行一次。这些中间结果可被存储和载入供根据可变方面的进一步处理。系统允许仅将研究变量(=实验变量、因素)再分群的报告的再处理。
不需要重复数据处理的计算上代价大的方面(例如,Sequest搜索、渗滤器、一般验证步骤)。共同和可变步骤的分开使数据的共享容易且节省了存储空间,这是因为只将中间结果存储一次。
可在不同群组之间分裂处理步骤,例如,一或多个不变第一处理方法可通过实验室/实验/测量团队执行,而第二处理方法由专业化团队执行。
根据本发明的另一方面,提供一种质谱法的方法,其包括以下步骤:提供多个样本;执行样本的质谱分析;提供用于用户指定的程序的编程接口;提供用于由用户指定的处理模块产生的数据的数据存储接口;提供用户接口以用于将研究变量指派到样本和/或质谱分析;提供用户接口以用于定义包括预定义的处理模块和用户指定的处理模块的处理工作流;执行用户指定的处理,和;观测处理结果,所述观测包括由预定义的处理模块产生的数据和由用户指定的处理模块产生的数据。用户指定的处理模块为可由任何第三方撰写且与核心程序的数据和处理方法经由编程和数据接口交互的程序。
质谱分析可为MS、LC/MS、IMS/MS、DIMS/MS、LC/(D)IMS/MS中的一个,其中“MS”共同地表示质谱法和MS/MS或MSn方法。
根据本发明的又一方面,提供一种通过质谱法识别代谢物的方法,其包括以下步骤:接受含有一或多个物质的代谢物的多个样本;执行所述样本的质谱分析,因此产生质谱法数据;提供用于用户指定的程序的编程接口;提供用于由用户指定的处理模块产生的数据的数据存储接口;提供用户接口以用于将研究变量指派到样本和/或质谱分析;提供用户接口以用于定义包括预定义的处理模块和用户指定的处理模块的处理工作流;执行用户指定的处理,和;观测处理结果,所述观测包括由预定义的处理模块产生的数据和由用户指定的处理模块产生的数据。
所述方法可进一步包括以下步骤:从所述用户或外部数据源接受物质信息,和/或;通过规则或从外部数据源检索代谢物信息而从所述物质产生候选代谢物信息。
用户指定的处理可进一步包括通过所述候选代谢物信息识别质谱法数据中的候选代谢物;观测研究变量与候选代谢物之间的关系;观测由用户指定的处理模块与候选处理模块产生的数据之间的关系、由用户指定的处理模块与候选处理模块产生的数据。
在本发明的一些优选实施例中,将处理结果存储在数据库中。在典型数据库存储接口中,在开发期间将表保存为已知,例如,肽、峰列表、代谢物,且可确立表之间的关系。本发明的数据存储接口方面(“实体数据业务”)现在允许用户
-不仅保存“已知”数据类型,而且“任何您想要的”(例如,样本管理信息、患者地址、来自客户供应节点的任意信息……)
-扩展现有数据(即,例如,将新列添加到现有表)
-不仅扩展数据,而且“连接”(=关系)
-存储任意数据类型且定义这些数据类型的性质,例如,其可由观测模块标绘的方式(例如,“种类”、“x-y”、整数……)。
此外,实体数据业务的灵活性为用于供普通客户或第三方“插件”使用的“开门器”,因为所有“一般”插件将必须以良好地集成且不干扰稍后可在cGMP法规下的过程的方式存储“未预期到的”数据。
这对于应用意味着,例如,对于蛋白质,肽在蛋白质中的位置和紧靠着蛋白质的(侧接)氨基酸可作为连接存储;可对连接注释,例如,修改:肽:修改可存在若干次,且另一入口具有所述位置;且用户可写入过滤器以提供序列。
一个示范性视图为用于样本中的分析特征的存在或不存在或相反地用于这是真实的研究变量或样本的分析特征的色彩译码的标记的简单阵列。举例来说,分析特征可为某一蛋白质或代谢物的存在或具体针对某一代谢路径或有机体的化合物的存在。
可由本发明的实施例达成的一些另外优势包含:
处理的灵活性,从而允许在实验和数据分析过程中较晚的处理步骤的改变;样本与样本的分群之间的关系的特定定义;和待被处置以用于关于变量进行数据分群和评估的数据的最小化:N(MS实验的数目)个原始数据文件与N个数据库(Sequest、Moscot、Andromeda)检索和错误检测率评估被聚合到单一中间结果。在蛋白质组研究中,这可为识别的肽连同相关联的用户定义的研究变量的集合。这个数据集可接着用于进一步分群、处理、观测等。
有利地,在实施例中,系统具有存储“未预见到”(在于软件产品的开发期间未预期到的意义上)数据(额外数据)和按与在软件产品的开发期间预期到的数据和数据类型精确相同的方式使此数据可用于另外步骤(处理和观测)的能力。
附图说明
图1展示在质谱法装备的优选实施例中的耦合到数据处理装置的质谱仪的示意图。
图2展示待在根据本发明的数据处理装置中进行的第一工作流的实例。
图3展示待在根据本发明的数据处理装置中进行的第二工作流的实例。
图4展示数据库文件中含有的表的实例;图4a)中描绘静态表,而图4b)中展示动态表。
图5展示根据额外数据的项将初始数据向量和/或经处理数据的项分群的实例。
图6展示根据额外数据的项选择初始数据向量和/或经处理数据的项的实例。
具体实施方式
为了进一步理解本发明,现将参看附图通过实例详细地描述实施例,所述实施例只是用于说明且并不希望且不限制本发明的范围。
参看图1,展示质谱法装备的优选实施例,包括利用呈Orbitrap质量分析器的形式的静电阱20和数据处理装置30的质谱仪1。器具进一步包括在大气压力下操作的电喷雾离子源2。应了解,可使用其它离子来源,例如,基质辅助激光解吸/电离(MALDI)或任何其它入口电离。优选地,经由液相色谱法设置21将样本注入到电喷雾离子源内。
另一优选方法为气相层析法(GC),接着为电子或化学或光电离。
来自电喷雾离子源2的离子穿过转移毛细管3到堆叠的环离子导向器(S透镜)4,且接着穿过注入扁平A形柱6和弯曲扁平A形柱8。中性簇和小滴可不受阻地飞过弯曲的扁平A形柱的杆之间的间隙,且因此不对测量的信号有影响。S透镜到弯曲的扁平A形柱的区域中的压力通常为1mbar到10mbar,使得在弯曲的扁平A形柱中发生一定程度的碰撞冷却。呈快速分裂透镜的形式的离子门10控制离子到仅RF输送多极12的进入,在所展示的实施例中,所述多极为八极且通常保持于小于10-4mbar的压力下。在优选的替代性实施例中,输送多极12至少部分实施为四极滤质器,因此允许非常快的质量选择,且可进一步包括一或两个额外透镜和/或额外扁平A形柱。
从输送多极,离子进入C阱14,其中通常具有(0.1-4.0)×10-3mbar的压力(例如,5×10-4mbar)。任选地,可将用于进一步冷却的离子传送到气体填充的死端较高能量碰撞解离(HCD)池16,所述池包括RF多极杆,通常具有(1-20)×10-3mbar的压力(例如,5×10-3mbar)。从那里,离子被传送回到C阱。为此目的,对HCD池提供轴向场,例如,通过在HCD的背面上提供延迟电压。HCD池与C阱由单一振动膜分开,这允许HCD池的简单调谐。如果需要,施加到HCD池的RF和轴向场可被设定以提供其中的离子的碎片化。HCD池允许更好地捕获,同时维持C阱中和因此Orbitrap中的某一压力,因为HCD池i)较长,且ii)处于比C阱高的压力下。将离子从C阱注入到Orbitrap质量分析器20内。HCD可为伪MS3装置,其中已在离子源区域中执行第一非质量选择性碎片化,且已在RF多极中选择片段中的一个。除了HCD外,举例来说,还可使用低能量冲突诱发解离、电子捕捉或电子转移解离或光致离解。
Orbitrap隔室中的真空优选地低于7×10-10mbar,但是可使用高达2×10-9mbar的压力。在轨道阱中,在此类压力下,可确定较大、较慢离子的m/z,这可归因于比平均自由路径随质量增大快的随质量减小的总行进的路径。优选地通过使用在分析扫描前的短预先扫描测量总离子电荷来自动控制(自动增益控制)Orbitrap中的离子的数目,并且从这个计算分析扫描的离子注入时间。对于高扫描速率,可将先前的分析扫描用作预先扫描来优化扫描循环时间。另外或替代地,可将离子收集器17放置于HCD碰撞池后且用于独立电荷检测,独立电荷检测周期性地(例如,每隔5到10秒)检查且调整自动增益控制的准确性。通过镜像电流检测在Orbitrap质量分析器中检测到的瞬变是在数据处理装置中使用Fourier变换将瞬变信号转换成频率分量且接着m/z来处理的。
虽然以上描述的质谱法装备含有Orbitrap类型的质量分析器,但应了解,也可使用其它质量分析器,例如,基于扇形场中的不同质量的飞行时间测量或物理分离或质量相关损失(例如,在四极器具中)。另外,可变化精确装备或滤质器、碰撞池与质量分析器的组合;对于一些静电阱器具,合适电压的依序施加可代替在其它器具中物理上分开的质谱法的不同阶段。
数据处理装置30包括器具接口22,其被调适以发送命令到或操作质谱仪1和液相色谱法装备21,和从器具、处理器单元23和存储单元24接收测量的数据或状态信息。优选地,数据处理装置进一步包括观测构件25(确切地说,显示器和/或打印机),和交互构件26(确切地说,键盘和/或鼠标),使得用户可查看和键入信息。
器具接口22可为从目前先进技术已知的任一接口,其被调适以发送数据到质谱仪1和/或包括液相色谱法装备21的离子源和从其接收数据。质谱仪可包括控制单元(未展示),其被调适以与器具接口22通信,以设定质谱仪的离子-光学元件中的一或多个上的电压,和/或从质谱仪中的检测器或传感器接收信号。控制单元可含有处理器单元,其被调适以执行测量的信号的预处理,例如,Fourier变换、数据压缩、峰识别、峰获取、质量计算、峰注释(例如,用精确质量、面积、元素组成、强度和质量的准确性信息、电荷态确定、解卷积、同位素簇的识别等)。器具接口22与质谱仪和/或离子源之间的连接可通过电线或玻璃纤维或经由无线电通信以无线方式建立。
可将数据处理装置实现为标准个人计算机,或以分散式形式用由有线或无线网络互连的许多处理装置来实现,使得处理器单元23可在一个或若干个互连单元中含有多个处理器核心。用于处理数据的功能优选地以面向对象的编程语言(例如,C#或C++)来实施;可使用例如.NET的架构。
存储单元24被调适以存储初始数据向量(例如,测量的质谱),和/或经处理数据的项(例如,具有正规化的强度和/或经过校准的质量标度的质谱),和/或额外数据的项(例如,在哪一数据库中发现针对特定初始数据向量(或对应的经处理数据向量)的质谱匹配的信息)。为此目的,存储单元优选地包括以电荷的形式保存信息的存储器装置(例如,随机存取存储器),或以磁畴的形式保存信息的存储器装置(例如,硬盘驱动器)。优选地,存储单元24被调适以将初始数据向量、经处理数据的项和/或额外数据的项存储在关系型数据库中。以下将关于图4来描述关系型数据库的特别优选的实施例。优选地,存储单元24包括用于独立于关系型数据库存储原始测量数据(从其导出初始数据向量)的构件;这可(例如)呈标准文件系统中的个别文件的形式。
当数据处理装置包括观测构件25和交互构件26时,优选地经由图形用户接口(GUI)控制质谱法装备的操作。
在蛋白质组研究实验中,待测量的样本可包括来自不同器官或不同体液的组织;当执行样本的标注时,可在一个质谱法扫描中同时测量不同组织。可使用(例如)胰蛋白酶消化样本;优选地,其使用液相色谱法-电喷雾离子源来电离且注入于质谱仪中。优选地,针对质谱的感兴趣的区域和/或选定的洗脱时间间隔进行质谱法(MS2或MSn)的额外阶段。
可经由“研究”使测量的质谱结构化,所述研究确切地说含有质谱和连接到质谱的额外信息(确切地说,因素或研究变量)的列表。优选地,测量的质谱和连接到测量的质谱的额外数据(例如,从其取得样本的组织)的项保存在存储单元24的数据库中。
参看图2,在根据本发明的特别优选的实施例的GUI中展示第一工作流的实例。将处理步骤展示为由箭头连接的框,箭头指示处理的顺序和信息的流动,其中来自特定步骤的经处理数据可由后续处理步骤评估和/或修改。
在步骤201(“质谱文件”)中,从存储单元读取质谱文件。这些文件可含有在一或多个质量范围中的一或多个质谱。当用液相色谱法-质谱法装备测量时,如蛋白质组研究中的通常情况一样,在后续时间测量许多质谱,且原始数据因此含有层析图的信息(即,对照洗脱时间的强度),以及质谱的信息(即,对照质荷比的强度)。优选地,将全部数据集保持在单独的原始文件中,且仅待处理的初始数据向量被提取且存储在数据库中。
在步骤202中,从质谱文件选择待分析的质谱(“质谱选择器”)。这可包括根据额外数据的一或多个项对某一质量范围和/或选择的限制,例如,仅选择在具体条件下测量或以具体方式准备的质谱。确切地说,测量的质谱可(例如)根据其取自的组织来选择。
在一些实施例中,质谱可被进一步处理以便减少数据量;确切地说,可产生含有位置和强度的峰列表,可从与具有定义的中心位置和峰高度的测量的质谱拟合的质心确定位置和强度。
在步骤203(“Sequest HT”)中,将选定质谱与数据库中的参考质谱比较。当测量的质谱中的峰的位置和相对强度在某一容差内匹配来自已知肽或蛋白质的参考质谱的位置和相对强度时,可得出结论,所述样本含有特定肽或蛋白质,即,肽或蛋白质被识别到。参考质谱可已基于蛋白质的分解“电子杂交”(例如,通过胰蛋白酶)来测量或计算。为了蛋白质和肽的识别,许多不同方法和/或数据库是已知的;一个方法(例如)由Cox等人在《蛋白质组研究期刊(J.Proteome Res.)》(2011,10,1794-1805)中揭示。
为了限制错误发现率,在步骤204(“目标引诱PSM验证器”)中,进行识别的肽或肽质谱匹配(PSM)的验证。确切地说,可定义阈值评分,必须超过所述阈值评分以便考虑到识别。可(例如)经由引诱搜索来确定此阈值评分。原则上,还可使用用于识别的验证的其它方法。
在步骤201中读取的质谱文件还被供应到处理步骤205(“事件检测器”)。工作流中的处理步骤可优选地由动态模块实施,所述处理步骤通常可并行地处理。步骤205用以识别关于液相色谱法装备的洗脱时间的时间轴线和质谱仪的质量轴线轮廓分明的峰。
在步骤206(“前驱物离子量化器”)中,确定测量的样本的绝对或相对量。处理步骤可使用来自多个处理步骤的经处理数据的项。对于步骤206,检测的峰的位置和强度还有关于识别的肽和/或蛋白质的信息是需要的。结果,需要在步骤205和步骤204后进行步骤206。当将所有步骤实施为动态模块时,模块204与205是同时的,而模块206需要等待两个模块结束处理。可根据已知的基于标注或无标注的方法进行量化,例如,在WO 2013/149963 A1中所揭示。在基于标注的方法中,将不同质量标签附着到来自不同样本的原始相同肽,因此引起由对应于相应质量标签的质量差分开的多个峰的出现;通过后续混合不同子样本且执行质谱法,当比较不同峰的强度时,自动虑及变化的器具响应的影响,以便确定相对量。当使用(例如)在细胞培养中通过氨基酸进行稳定同位素标注(SILAC)的方法时,对细胞在培养液中馈入正常(‘轻’)或重氨基酸;以便产生重氨基酸,优选地,12C原子由13C原子取代。
根据本发明的优选实施例,将在第一工作流的处理中产生或使用的经处理和/或额外数据的项存储在一个结果文件中。第一工作流的处理步骤可确切地说将强度正规化和/或转换处理的初始数据向量的质量标度,且产生中间结果(例如,主要搜索结果和原始量化信息),使得第一工作流也可被称为“处理工作流”。
本发明的数据处理装置的优势在于,有可能存储数据的任意项和处理数据的任意项,或处理基于数据的那些任意项的其它数据。为此目的,在本发明的优选实施例中,数据存储单元包括数据接口以用于定义动态数据类型和/或修改关系型数据库,使得可添加动态表和/或可将列添加到现有动态表。在本发明的特别优选实施例中,数据处理装置包括模块接口,其允许添加实施工作流的处理步骤的动态模块,其中动态模块可保存和/或检索数据的项,以及添加动态数据类型和/或修改关系型数据库的表。在下文中,确切地说,针对第二工作流的一些处理步骤更详细描述本发明的这两个方面。
在图3中,展示第二工作流的实例,其中将处理步骤描绘为由箭头连接的框,箭头指示处理的顺序和信息的流动。第二工作流的处理步骤可确切地说将来自第一工作流的多个处理步骤的初步结果组合成共识肽、蛋白质和量化,使得第二工作流也可被称为“共识工作流”。
在论述处理步骤前,将描述根据本发明的优选实施例的存储单元的数据接口,其还被称为“实体数据业务”。实体数据业务优选地被实现为目标-关系转换工具,其可用以维持关系型数据库中的目标和目标之间的连接。可(例如)使用例如SQLite的文档包实施关系型数据库,且数据库的内容可存储在例如硬盘驱动器的非易失性存储器上的数据库文件中。在特别优选的实施例中,将.NET类别映射到数据库文件中的表,使得每一类别存储在单独的表中,其中每一列表示性质且每一行表示类别的目标。这具有可从数据库文件读取维持的数据且将其转换回到.NET目标的集合的优势。
优选地,实体数据业务进一步存储关于维持的目标的元信息,指示应对其处置和显示的方式。元信息可包括本体,确切地说,基于公共标准,以有助于(例如)基于额外信息的项来处理质谱。
优选地,将初始数据向量、经处理数据和工作流的额外数据存储在一个关系型数据库中,其内容可维持在结果文件中,确切地说,一个数据库文件或一组相关联的文件。
在图4中,展示结果文件中含有的的示范性表的示意性表示;图4a)中描绘预定义的表——其存在于每一结果文件中且含有管理信息,而图4b)中展示动态表。根据本发明的优选实施例,预定义以下表:
在表“ReportInfo”中,存储一般信息,例如,结果文件的创建日期和用于数据库的创建的数据库引擎的版本;优选地,将全局唯一标识符指派到每一创建的结果文件。
表“DataTypes”含有在静态或动态程序模块中或由用户定义的所有动态数据类型的列表。动态数据类型由一组性质组成,所述一组性质可属于一个基本数据类型或(在目标的情况下)由基本数据类型的组合制成。对于每一动态数据类型,创建动态表以用于保存那个数据类型的数据项。在表“DataTypes”中,针对每一定义的动态数据类型存储一行;优选地,其含有唯一名称、显示名称、动态日期类型的描述和用于保存数据项或实例的相关联的动态表。优选地,对每一动态数据类型指派(全局)唯一数识别符(GUID)。
在表“DataTypesColumns”中,指示动态数据类型的性质,包括针对所有定义的动态数据类型的每一性质的描述。优选地,可将性质定义为可空,其定义允许空值,或如果未给出具体值,那么可将性质设定到缺省值。
表“DataTypesIDColumns”存储指定哪些性质以包括定义的动态数据类型的目标的唯一数识别符(ID)。
在表“DataTypesDataGroups”中,可给出可聚集的动态数据类型的许多性质,从而允许将动态数据类型的列的子集分群在一起。这允许(例如)识别哪些列由实施具体处理步骤的具体模块创建。
表“CustomDataTypes”含有可在动态数据类型或其性质的定义中使用的所有基本数据类型的列表。表1给出支持的基本数据类型的优选列表,包括字串、双、int(尤其Int32)、长(尤其Int 64)、布尔(bool)和字节(或字节的阵列)。
表1:
CustomDataTypes
在表“ConnectedDataTypes”中,列举动态数据类型之间的连接,进一步指示在哪一额外动态表中存储连接的性质;优选地,还给出唯一名称和/或数字识别符。通常,两个动态数据类型之间的多对多(m对n)连接是可能的,且进一步可存储所述连接的性质。有利地,这允许存储不与动态数据类型中的一个而与连接自身关联的信息。
表“ConnectedDataTypesColumns”列出了与定义的连接相关联的性质。对于与连接有关的数据的每一额外项,将再一行添加到此表。
表“ConnectedDataTypesIDColumns”存储指定哪些性质包括动态数据类型的目标之间的连接的唯一ID。
在表“ConnectedDataTypesDataGroups”中,可给出可聚集的动态数据类型之间的定义的连接的许多性质,从而考虑将(例如)由实施具体处理步骤的具体模块创建的列的子集分群在一起。
表“IndirectConnectedDataTypes”允许存储间接连接;即使未定义在第一表与第二表之间的连接,如果存在第一表与第三表之间的连接和第二表与第三表之间的连接两者,那么仍可经由第三表将其连接。当第一表和第二表也都连接到第四表时,用于基于来自第一表的数据读取来自第二表的数据的两个不同路径。在表“IndirectConnectedDataTypes”中,可指定间接连接的第一表与第二表之间的默认连接路径。
优选地,当提供用于转换的模块时,定义的动态数据类型的列可含有任意数据类型。预定义的表“SystemTypes”含有哪一转换器用于读取或写入定义的动态表的具体列的指示。在特别优选的实施例中,可使用例如.NET的框架按编程语言(例如,C#)实施根据本发明的数据处理装置,使得对于每一动态数据类型,定义具体系统类型的C#类别,且对于动态数据类型的每一性质,可使用用于读取和存储的转换器。表“SystemTypes”接着将存储在动态表中的唯一识别符与转换器的.NET类别类型的全名连接。
预定义的表“EnumDataTypes”含有由一组命名的常量组成的具体定义的数据类型的列表。在表“EnumDataTypeValues”中,列出相应计数的不同可能值。优选地,将每一计数常量映射到唯一整数值以便加速处理。
预定义的表“DataDistributionMaps”、“DataDistributionBoxes”和“DataDistributionLevels”与图6中展示的特殊观测连接,且将在以下描述。
原则上,在不脱离权利要求的范围的情况下,可省略当前实施例的预定义的表中的一些(确切地说,与DataDistribution观测相关联的表),使得在替代性实施例中的预定义的表的数目可不同。
图4b)展示对应于第一工作流的许多示范性动态表。当(例如)由实施处理步骤的模块定义时,可在工作流中的任何时间添加额外动态表。
动态表“肽(Peptides)”含有从数据库中的质谱匹配识别的肽的列表。动态数据类型肽(Peptides)的性质作为额外列存储在动态表中。确切地说,这些性质可包括序列和电荷。
在动态表“蛋白质(Proteins)”中,列出识别的蛋白质。动态数据类型蛋白质(Proteins)的性质可包括序列、描述和重量。
动态表“PeptidesProteins”列出蛋白质与肽之间的连接;当肽构成蛋白质的构建模块时,其连接到蛋白质。优选地,肽在蛋白质中的位置作为相应连接的性质存储。
肽的质量可已通过用化学基团取代(例如)氢原子来改变。在动态表“Modifications”中,列出肽的此类修改;将由修改造成的质量差优选地存储在额外列中。
关于修改哪些肽的信息,通过所述信息,将化学基团作为肽与修改之间的连接存储在动态表“PeptidesModifications”中。连接的性质可(确切地说)包括修改在肽中的位置。
参看图3,在步骤301中读取来自第一工作流的结果(“MSF文件”)。第一工作流的结果文件中含有的信息的项为(确切地说)质谱(初始数据向量)、识别的肽、蛋白质和修改以及量化信息。在下文中,将基于实例数据集来描述第二工作流。为简单起见,省略初始数据向量(即,质谱)和/或经处理数据向量(未在以下论述的表中展示)。
实施处理步骤301的静态或动态模块被调适以定义动态数据类型肽、蛋白质和修改。为了更清晰地说明基本原理,在以下实例数据集中,仅对动态数据类型的选定性质给予示意性值。表2展示在动态数据类型的定义后预定义的表DataTypes的内容。
表2:
DataTypes
DataTypeID 名称 TableName DisplayName 描述
1 识别的肽
2 蛋白质 蛋白质 蛋白质 蛋白质
4 修改 修改 修改 氨基酸修改
在展示预定义的表“DataTypeColumns”的表3中,列出定义的数据类型的性质。对于性质中的多数,除了对于关系型数据库通常需要的信息之外,还给出关于相应性质的解释和/或处理的语义信息。语义项“ID”指用于定义的动态数据类型的识别(例如,当检索信息时)的唯一数字识别符或索引。每一肽具有构成肽的氨基酸的具体序列,其由语义项“序列(Sequence)”指示。因为数据处理装置尤其适宜于质谱的处理,所以语义项“单同位素质量(Monoisotopic Mass)”和“平均质量(Average Mass)”是预定义的。尤其针对蛋白质组研究中的应用定义的另外语义项为(例如)“SequestScore”,其指示关于测量的质谱与识别的肽或蛋白质之间的一致度的评分,以及“ProteinAccession”。语义项优选地基于(例如)由人蛋白质组组织认可的普遍接受的标准预定义;为了有效率的实施,可进行再一转译,例如,经由额外表。
表3:
DataTypeColumns
当在蛋白质组研究中分析质谱时,存在识别的蛋白质与识别的肽之间的连接:肽在蛋白质中的位置。另外,可修改肽,从而导致与未改变的肽的质量差。修改位于肽中的某一位置处,且此位置优选地存储为肽与修改之间的连接的性质。表4展示具有连接的动态数据类型的列表的预定义表“ConnectedDataTypes”,且表5展示给出与连接相关联的性质(在当前情况下,为在肽的序列中的修改的位置)的预定义的表“ConnectedDataTypesColumns”。
表4:
ConnectedDataTypes
DataTypeID1 DataTypeID2 ConnectedTableName
1 2 PeptidesProteins
1 3 PeptidesModifications
表5:
ConnectedDataTypesColumns
在表6中,展示动态表“肽(Peptides)”具有用于在第一工作流中识别的肽的序列的示意值,还指示识别的评分,例如,测量的质谱与数据库质谱的一致的程度。优选地,不需要正规化表,使得不仅给出序列(且如果存在,具体肽的修改,见以下),还给出肽的质量。
表6:
ID 序列 质量 评分 RawQuanValue QuanChannel
1 ABC 100 1.1 2000 1
2 ABC 105 2.3 2100 2
3 ABCD 110 1.5 3000 1
4 ABCD 110 2 3500 1
在第一工作流中识别的蛋白质在表7中展示的动态表“蛋白质(Proteins)”中列出。除了序列之外,还指示蛋白质数据库中的登录号或识别符;还按FASTA格式给出登录号。
表7:
蛋白质
ID 序列 登录号 TitleLine
1 GHTABCTHZU Accession1 >g1Accession1
2 FTHABCDIKHFZ Accession2 >g1Accession2
肽与蛋白质之间的连接(指示哪些识别的肽存在于识别的蛋白质中)在表8中展示的动态表“PeptidesProteins”中列出。原则上,此表可进一步包括具有额外数据的列,含有(例如)相应肽在蛋白质中的位置。
表8:
PeptidesProteins
PeptidesID ProteinsID
1 1
1 2
2 1
2 2
3 2
4 2
在肽中的一个或若干个位置中,原子(确切地说,氢原子)可(例如)由官能团取代。此修改在表9中展示的动态表“修改(Modifications)”中列出。
表9:
修改
ID 名称 AverageMass MonoisoMass
1 乙酰基 5 4.9
肽中的修改的位置优选地存储为肽与修改之间的连接,其在表10中展示的动态表“PeptidesModifications”中给出。
表10:
PeptidesModifications
PeptidesID ModificationsID 位置
2 1 2
工作流可含有可按任意次序进行的同时处理步骤。对于图3的第二工作流,例如,步骤310与302是同时的。在以下论述中,首先执行步骤310。
步骤310(“蛋白质标记”)用以识别由污染造成的蛋白质匹配。在此步骤中,针对与从第一工作流读取的蛋白质的匹配,搜索一或多个数据库,确切地说,FASTA文件。进行此处理步骤的模块被调适以针对搜索的每一数据库添加类型布尔的再一列,或添加含有给出匹配的数据库的列表的一个列。在表11中,展示改变的预定义的表“DataTypeColumns”(参看表3),指示已将一列添加到动态表“蛋白质(Proteins)”。
表11:
DataTypeColumns
表12展示改变的动态表“蛋白质(Proteins)”(参看表7),包括指示是否在污染物数据库中发现相应蛋白质的列。
表12:
蛋白质
ID 序列 登录号 TitleLine IsContaminant
1 GHTABCTHZU Accession1 >g1Accession1
2 FTHABCDIKHFZ Accession2 >g1Accession2
通过此额外信息,在后续处理步骤中选择质谱和/或识别的蛋白质现在是可能的,这并不导致任何污染物数据库中的匹配,且因此应进一步分析。
在步骤302(“PSM分群器”)中,将识别的肽或肽质谱匹配(PSM)分群。优选地,用于将肽分群的动态模块根据序列和质量两者将肽分类,因为修改可导致不同质量,而不管相同序列。为了将肽分群,将新动态数据类型“PeptideGroup”添加到预定义的表“DataTypes”,如表13中所展示。
表13:
DataTypes
DataTypeID 名称 TableName DisplayName 描述
1 识别的肽
2 蛋白质 蛋白质 蛋白质 蛋白质
3 修改 修改 修改 氨基酸修改
4 PeptideGroup PeptideGroups 肽基团 分群的肽
除了肽基团的唯一id之外,还存储序列和质量,如在表14中展示的改变的预定义的表“DataTypeColumns”中指示。
表14:
DataTypeColumns
在预定义的表“ConnectedDataTypes”中,列出肽、蛋白质、肽基团与修改之间的新定义的连接,如可在表15中看出。
表15:
ConnectedDataTypes
表16展示具有肽基团的动态表的示意性实例;在修改的情况下,在不同基团中分类具有同一序列的两个肽。将肽到基团的指派存储为连接;对应的连接展示于表17中。
表16:
PeptideGroups
ID 序列 质量
1 ABC 100
2 ABC 105
3 ABCD 110
表17:
PeptidesPeptideGroups
PeptidesID PeptideGroupsID
1 1
2 2
3 3
4 3
在步骤303(“肽验证器”)中,验证肽基团,使得评分或置信度与发现的肽基团相关联。为此,将新列“置信度”添加到动态表“PeptideGroups”,如由表18中展示的预定义的表“DataTypeColumns”中的新行所反映。肽基团的示范性列表展示于表19中。
表18:
DataTypeColumns
表19:
PeptideGroups
ID 序列 质量 置信度
1 ABC 100 3
2 ABC 105 3
3 ABCD 110 2
在步骤304(“肽和蛋白质过滤器”)中,基于置信度的阈值过滤识别的的肽和蛋白质的列表,使得将仅考虑被识别具有足够可靠性的肽和/或肽基团和/或蛋白质。另外或替代地,可进行过滤,使得已知污染物不作任何进一步处理。另外,过滤可基于额外信息,例如,样本所取自的组织。新定义的动态数据类型展示于表20中。
表20:
DataTypeColumns
对于动态数据类型肽、蛋白质和肽基团,将排除状态添加为性质。优选地,对应的列填充有例如-1的特殊值,以便指示不排除对应的要素或行;当实施处理步骤n的模块标记供排除的行时,确切地说,处理步骤和/或模块的编号n用以指示此要素将被排除。
在本发明的替代性实施例中,在步骤301上或前添加用于排除状态的性质,使得工作流中的任一模块可改变列的内容以便滤出不当的肽和/或蛋白质。
表21展示在实例工作流中识别的肽的列表;仍然处理第一行和第二行中的肽,而滤出第三行和第四行。
表21:
ID 序列 质量 评分 RawQuanValue QuanChan ExcudedBy
1 ABC 100 1.1 2000 1 -1
2 ABC 105 2.3 2100 2 -1
3 ABCD 110 1.5 3000 1 5
4 ABCD 110 2 3500 1 5
在表22中,给出识别的蛋白质的列表;对于当前实例,排除第一行中的蛋白质。
表22:
蛋白质
ID 序列 登录号 TitleLine IsContaminant ExcludedBy
1 GHTABCTHZU Accession1 >g1 Accession1 5
2 FTHABCDIKHFZ Accession2 >g1 Accession2 -1
表23展示肽基团的对应的列表;归因于较高置信度等级,处理第一行和第二行,而滤出第三行。
表23:
PeptideGroups
ID 序列 质量 ExcludedBy 置信度
1 ABC 100 -1 3
2 ABC 105 -1 3
3 ABCD 110 5 2
步骤305(“蛋白质评分器”)用以将再一评分添加到识别的蛋白质,而在步骤306(“蛋白质分群”)中,将蛋白质和蛋白质中含有的肽分群。为简单起见,将不详细地描述这两个处理步骤,且省略对应的新列和/或动态表。
在步骤307(“肽和蛋白质量化器”)中,基于来自第一工作流和/或先前处理步骤的原始量化数据计算正规化的量化数据。当使用(例如)SILAC用于量化时,将重氨基酸的测量的强度与“轻”氨基酸的测量的强度比较。为此目的,将额外列“HeavyLightRatio”添加到含有肽、蛋白质和肽基团的动态表。将动态数据类型的新定义的性质展示于表24中。
表24:
DataTypeColumns
表25展示具有添加的量化比的示范性识别的肽的列表。取决于实施方案,针对排除的肽,可省略这些比率的计算,以便加速处理。
表25:
在表26中,展示具有计算的量化比的识别的蛋白质的列表。为了更快的处理,针对排除的蛋白质,可省略这些比率的计算。
表26:
蛋白
优选地,还针对肽基团计算量化比;表27展示示范性列表。
表27:
PeptideGroups
ID 序列 质量 ExcludedBy 置信度 HeavyLightRatio
1 ABC 100 -1 3 1.5
2 ABC 105 -1 3 1.5
3 ABCD 110 5 2 3
步骤308(“ProteinCenter注释”)用以接收来自外部数据库的额外信息;这可(例如)为特定蛋白质与具体功能有关的信息。根据具体功能和/或连接到具体功能的蛋白质的进一步处理来将质谱和/或识别的肽分群是可能的。以此方式,可堆积联系蛋白质与细胞的功能的基因本体。这处理步骤和步骤309(“蛋白质中的肽注释”)都不形成用于识别和量化肽和/或蛋白质的“标准”工作流的部分,且为简单起见,将不作进一步描述。
优选地,识别的和/或量化的肽和蛋白质被观测和/或在结束第二工作流后以任意格式输出。
对于分群和/或选择初始数据向量(即,质谱)和/或经处理数据的项(例如,识别的肽和蛋白质)的以下实例,假定已取得来自有机体的不同组织的多个样本,且已用多重标注方法(例如,iTRAQ或TMT)的相同质量标签标注来自具体组织的每一样本。这允许在一个质谱法遍次中同时测量来自不同组织的子样本,且因此避免(例如)归因于器具敏感度随着时间的过去的改变的量化误差。此外,可已使用此项技术中已知的不同采集方法来测量来自不同组织的样本,例如,数据相关采集(DDA)或智能数据采集(IDA)。
除了数据相关方法外,此处描述的技术还可应用于数据独立(DIA)或靶向采集方法。如果需要,从数据独立采集产生的数据集可被去卷积(例如,如在US 8,481,924中所描述),以允许使用针对数据相关分析设计的算法。
对应的测量(例如)由Bailey等人在《蛋白质组研究期刊(J.Proteome Res.)》(13,2152-2161(2014))中揭示。用于这些测量的结果文件含有质谱(初始数据向量)、组织和多重标注的“通道”以及使用的数据采集方法(额外数据的项)。
图5展示根据本发明的特别优选的实施例的根据图形用户接口中的额外数据的项将初始数据向量和/或经处理数据的项分群的实例。
复选框501允许用户指示将根据样本的组织来将测量的数据分群。
在复选框502中,用户可指示将根据使用的采集方法来将测量的数据分群。
窗503含有比率群组的列表,针对所述比率群组,将进行给出对应于不同标注的氨基酸的峰之间的比率的量化。因为激活了两个复选框501和复选框502,将计算根据采集方法分类的不同组织的比率群组。
要素504到507指示创建的比率群组中的一些。
要素504展示将计算对应于从含有肺组织的样本和从含有肝组织的样本测量的肽和/或蛋白质的峰的强度比率。换句话说:将针对样本群组肺(和采集方法IDA)和针对样本群组肝(和采集方法IDA)计算峰强度或峰面积,且将确定这些峰强度或面积的比率。优选地基于针对个别肽的比率的中值计算用于蛋白质或含有若干肽的肽群组的比率。另外,要素504包括含有原始数据和/或初始数据向量的对应的输入文件的列表。
要素505展示将从哪些初始数据向量计算针对来自组织脾和肝的样本的强度比率;因此,要素506展示针对肌肉和肝之间的比率评估的测量的文件,且要素507指示用于计算大脑与肝之间的比率的初始数据向量。比率群组的数目取决于全部测量的不同组织的数目;为简单起见,省略另外的比率群组。
在要素508中指示第一处理工作流和对应的输入文件/初始数据向量;相应地,要素509展示进行的第二工作流。
在第一工作流中,计算“原始”量化信息;取决于使用的标注和/或量化方法,确定报告的峰的强度或前驱物离子的集成面积。第二工作流则含有根据激活的复选框将初始数据向量和/或经处理数据的项分群的处理步骤,和从分群的质谱计算强度比。
优选地,在第二工作流中创建所有识别的蛋白质的列表,进一步指示在哪一样本群组、个别样本和/或含有原始数据和/或初始数据向量的文件中发现相应蛋白质。
图6展示根据本发明的特别优选的实施例的根据图形用户接口中的额外数据的项选择初始数据向量和/或经处理数据的项的实例。
窗602展示包括其登录号和描述的识别的蛋白质的列表。
要素603为指示针对对应于对应于相应列的样本群组中的相应行的蛋白质确定的比率的数据分布框;所述比率可由色码、灰度或数指示。优选地,当因为未在对应的样本群组中的一个或两个中发现蛋白质而无比率被定义时,使框为白或空。
优选地将数据分布框实施为含有双精度、整数或Boolean类型的数值的阵列。确切地说,可使用图4a)中展示的若干预定义的表来将其实施:
表“DataDistributionMaps”定义每一阵列框意味着什么;其含有在框中给出的值的唯一识别符、名称和CustomDataType。任选地,可定义最小和最大允许值。
在表“DataDistributionBoxes”中列出了映射的框;其含有框的唯一识别符、映射的唯一识别符、DisplayName和描述。
在表“DataDistributionLevels”中,针对框定义不同等级。
窗601展示用于根据计算的比率选择蛋白质的图形用户接口;在当前实例中,仅展示展示至少五个样本群组中的强度比率的四倍改变的蛋白质。
有利地,实体数据业务允许根据例如计算的比率的额外数据中的一或多个项来对初始数据向量和/或经处理数据的项选择和/或分群。
如本文所使用(包含在权利要求书中),除非上下文以其它方式指示,否则本文中的术语的单数形式应被解释为包含复数形式,且反之亦然。
遍及本说明书的描述和权利要求书,词“包括(comprise)”、“包含(including)”、“具有(having)”和“含有(contain)”和这些词的变化(例如“包括(comprising、comprises)”等)意味着“包含(但不限于)”,且并不希望(且并不)排除其它组件。
应了解,可对本发明的上述实施例作出变化,同时这些变化仍属于本发明的范围。除非另外叙述,否则本说明书中所揭示的每一特征都可被用于相同、等效或类似用途的替代特征替换。因此,除非另外叙述,否则所揭示的每一特征只是一系列普通等效或类似特征的一个实例。
本文中提供的任何和所有实例或示范性语言(“举例来说(for instance、forexample)”、“例如(such as)”和类似语言)的使用希望仅更好地说明本发明,并且除非另外主张,否则并不指示对本发明的范围的限制。本说明书中的任何语言都不应该解释为指示实践本发明所必要的任何非主张的元件。
除非另外叙述或上下文另外需要,否则本说明书中描述的任何步骤可按任何次序执行或同时执行。
本说明书中所揭示的全部特征可以任何组合来组合,除了此类特征和/或步骤中的至少一些相互排斥的组合之外。确切地说,本发明的优选特征适用于本发明的所有方面且可按任何组合使用。同样地,可分开来(不按组合)使用按非必要组合描述的特征。

Claims (25)

1.一种数据处理装置,包括:处理器单元,其被调适以处理由层析仪和/或质谱仪提供的多个初始数据向量,所述处理是在产生经处理数据的项的一个、两个或更多个处理步骤中进行的;和存储单元,其被调适以保存和检索初始数据向量和/或经处理数据的项,确切地说,经处理的数据向量或识别的化合物,和/或额外数据的项,确切地说,在所述质谱仪中引入的样本的性质,其中经处理数据和/或额外数据的每一项连接到至少一个初始数据向量,且其中所述处理器单元被调适以根据额外数据的一或多个项对初始数据向量和/或经处理数据的项分群、选择和/或修改。
2.根据权利要求1所述的数据处理装置,其中对每一初始数据向量指派唯一识别符,且其中经处理数据的每一项连接到来自所述相同初始数据向量的先前处理步骤的经处理数据的项和/或直接连接到所述初始数据向量。
3.根据权利要求1或2所述的数据处理装置,其中所述存储单元被调适以将所述初始数据向量、经处理数据的所述项和/或额外数据的所述项存储在关系型数据库中。
4.根据权利要求3所述的数据处理装置,其中所述关系型数据库包括固定数目个预定义的表和许多动态表,其中所述预定义的表中的至少一个含有动态数据类型的定义,且其中针对每一动态数据类型创建一个动态表。
5.根据权利要求4所述的数据处理装置,其中所述存储单元包括数据接口以用于定义动态数据类型和/或修改所述关系型数据库,使得可添加动态表和/或可将列添加到现有动态表。
6.根据权利要求4或5所述的数据处理装置,其中动态数据类型的所述定义可包括对转换器的参考,其中当从所述存储单元检索数据时,所述定义的动态数据类型的项的存储形式被转换成处理形式,且当将数据保存到所述存储单元时,所述定义的动态数据类型的项的所述处理形式被转换成所述存储形式。
7.根据权利要求4到6中任一权利要求所述的数据处理装置,其中所述存储单元被调适以存储第一动态数据类型的项与第二动态数据类型的项之间的连接,且其中所述关系型数据库包括含有所述第一动态数据类型的所述项与所述第二动态数据类型的所述项之间的所述连接的至少再一个动态表。
8.根据权利要求7所述的数据处理装置,其中针对两个动态数据类型之间的每一连接创建一个动态表,且其中连接的所述动态表含有用于存储额外数据的项和/或经处理数据的项的一或多个列。
9.根据权利要求4到8中任一权利要求所述的数据处理装置,其中所述动态数据类型中的至少一个被调适用于所述样本和/或所述靶向化合物的特性化。
10.根据权利要求9所述的数据处理装置,其中在所述质谱仪中引入的所述样本含有蛋白质和/或肽,确切地说,消化的蛋白质,其中所述动态数据类型包括蛋白质,确切地说,包括序列和描述和重量,和肽,确切地说,包括序列和电荷,其中所述处理包括识别肽的处理步骤和识别蛋白质的后续处理步骤,且其中所述关系型数据库包括识别的蛋白质的表和识别的肽的表。
11.根据权利要求9或10所述的数据处理装置,其中在所述质谱仪中引入的所述样本含有药和/或代谢物,其中用户定义的数据类型包括药,确切地说,包括所述样本、代谢物的名称、效应周期和组织,确切地说,包括化学式和/或名称,和修改,确切地说,包括电荷、质量和位置,其中所述处理优选地包括识别代谢物的处理步骤。
12.根据权利要求4到11中任一权利要求所述的数据处理装置,进一步包括模块接口,其允许添加实施处理步骤的动态模块,其中所述动态模块可保存和/或检索数据的项,以及添加动态数据类型和/或修改所述关系型数据库的表。
13.根据权利要求12所述的数据处理装置,所述数据处理装置进一步包括工作流接口以用于定义处理步骤的序列,其中处理步骤可由默认模块和/或动态模块执行,其中所述工作流接口将允许其从所述关系型数据库检索数据、定义动态数据类型和将数据保存于所述关系型数据库中的服务提供到模块。
14.根据权利要求13所述的数据处理装置,其中所述工作流接口被调适以定义第一和第二工作流,每一工作流包括一连串一或多个处理步骤,其中所述第一工作流由所述处理器单元在所述第二工作流前进行,且其中将来自所述第一工作流的所述经处理数据用作用于所述第二工作流的输入数据。
15.根据权利要求14所述的数据处理装置,其中所述工作流接口被调适以定义许多第一工作流,每一工作流包括一连串一或多个处理步骤,其中所述第一工作流由所述处理器单元独立地进行,且其中所述第二工作流包括组合、比较和/或分析从所述许多第一工作流产生的所述经处理数据的处理步骤。
16.根据权利要求12到15中任一权利要求所述的数据处理装置,其中所述数据处理装置被调适以存储在工作流文件中包括一连串处理步骤的工作流,其中所述工作流文件优选地包括待处理的初始向量的列表,且其中所述数据处理装置被进一步调适以至少存储来自结果文件中正由所述处理器单元进行的工作流的经处理数据的所述项,优选地,初始数据向量、经处理数据的项和额外数据的项,结果文件确切地说为关系型数据库文件。
17.根据权利要求16所述的数据处理装置,其中在进行后续定义的工作流前,所述处理器单元被调适以将所述后续定义的工作流的所述处理步骤和初始数据向量的所述列表与一或多个存储的工作流的所述处理步骤和初始数据向量的所述列表比较,且如果存储的工作流的所述处理步骤和初始数据文件的所述列表都对应于所述后续工作流的所述初始处理步骤,那么检索来自那个存储的工作流的所述对应的结果文件的数据,替代进行所述后续定义的工作流的所述初始处理步骤。
18.根据权利要求12到17中任一权利要求所述的数据处理装置,其中所述存储单元被进一步调适以针对经处理数据的每一项存储哪一默认或动态模块创建或修改经处理数据的此项。
19.根据任一先前权利要求所述的数据处理装置,进一步包括观测构件,确切地说,计算机监视器和/或打印机,其中所述处理器单元被进一步调适以使用所述观测构件观测一或多个处理步骤的所述经分群、选定和/或修改的数据。
20.根据权利要求19所述的数据处理装置,进一步包括交互构件,确切地说,键盘和/或鼠标,其中所述交互构件和所述观测构件被调适以操作所述工作流接口,确切地说,发送命令到所述工作流接口和/或从所述工作流接口接收信息。
21.根据任一先前权利要求所述的数据处理装置,进一步包括用于发送命令到质谱仪和从质谱仪接收数据的器具接口。
22.根据权利要求21所述的数据处理,其中所述处理器单元被调适以处理第一组初始数据向量,执行一或多个处理步骤,其中所述器具接口被调适以发送命令到所述质谱仪,从而起始第二组初始数据向量的测量,和从所述质谱仪接收所述第二组初始数据向量,其中所述存储单元被调适以保存所述第二组初始数据向量,且其中所述处理器单元被调适以处理所述第二组初始数据向量,从而执行一或多个处理步骤。
23.一种质谱法装备,其包括根据权利要求21或22所述的数据处理装置和质谱仪,确切地说,包括耦合到液相色谱法-电喷雾离子源的Orbitrap类型的质量分析器。
24.一种用于识别和/或量化肽和/或蛋白质和/或代谢物的方法,包括以下步骤:
a.通过质谱法装备获取多个样本的初始数据向量,所述质谱法装备确切地说为根据权利要求23所述的质谱法装备,
b.将额外数据的一或多个项指派到每一初始数据向量,
c.根据额外数据的项分群或选择许多初始数据向量,确切地说,只选择额外数据的所述项具有预定义值的那些初始数据向量,
d.在一或多个处理步骤中处理所述分群或选择的数目个初始数据向量包括优选地修改所述初始数据向量的质量标度和/或强度,
e.执行在来自肽和/或蛋白质和/或代谢物的已知质谱的数据库中的搜索,以及
f.输出通过所述数据库搜索识别的所述肽和/或蛋白质和/或代谢物的名称和/或性质。
25.根据权利要求24所述的方法,进一步包括以下步骤中的至少一个
g.将额外数据的一或多个项指派到经处理数据的每一项,
h.根据直接指派到所述经处理数据项或从同一初始数据向量的先前处理步骤指派到经处理数据的项和/或直接指派到所述初始数据向量的额外数据的项来对许多经处理数据项分群或选择,
i.在一或多个步骤中处理所述经分群或选择的数目个经处理数据项优选地包括所述经处理数据项的验证,
其中在输出所述肽和/或蛋白质和/或代谢物的所述名称和/或性质的所述最终步骤前,可重复所述步骤中的一或多个。
CN201580028650.XA 2014-06-13 2015-06-10 数据处理装置、质谱法装备和用于质谱法数据的评估的方法 Active CN106415558B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201462012228P 2014-06-13 2014-06-13
US62/012,228 2014-06-13
GB1415273.0 2014-08-28
GBGB1415273.0A GB201415273D0 (en) 2014-08-28 2014-08-28 Data processing device and method for the evaluation of mass spectrometry data
GBGB1419699.2A GB201419699D0 (en) 2014-06-13 2014-11-05 Data processing device and method for the evaluation of mass spectrometry data
GB1419699.2 2014-11-05
PCT/EP2015/062913 WO2015189255A1 (en) 2014-06-13 2015-06-10 Data processing device and method for the evaluation of mass spectrometry data

Publications (2)

Publication Number Publication Date
CN106415558A true CN106415558A (zh) 2017-02-15
CN106415558B CN106415558B (zh) 2020-05-15

Family

ID=51752296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580028650.XA Active CN106415558B (zh) 2014-06-13 2015-06-10 数据处理装置、质谱法装备和用于质谱法数据的评估的方法

Country Status (5)

Country Link
US (2) US20170154169A1 (zh)
EP (1) EP3155543A1 (zh)
CN (1) CN106415558B (zh)
GB (2) GB201415273D0 (zh)
WO (1) WO2015189255A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466742A (zh) * 2020-10-10 2021-03-09 浙江迪谱诊断技术有限公司 一种质谱峰高调整方法
CN114858958A (zh) * 2022-07-05 2022-08-05 西湖欧米(杭州)生物科技有限公司 质谱数据在质量评估中的分析方法、装置和存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2532430B (en) * 2014-11-18 2019-03-20 Thermo Fisher Scient Bremen Gmbh Method for time-alignment of chromatography-mass spectrometry data sets
US9983180B2 (en) * 2015-02-04 2018-05-29 Shimadzu Corporation Mass spectrometry method, chromatograph mass spectrometer, and program for mass spectrometry
GB2552841B (en) * 2016-08-12 2020-05-20 Thermo Fisher Scient Bremen Gmbh Method of calibrating a mass spectrometer
US10199207B1 (en) * 2017-09-07 2019-02-05 California Institute Of Technology Determining isotope ratios using mass spectrometry
US10795624B2 (en) * 2018-03-01 2020-10-06 Ricoh Company, Ltd. Print workflow visualization and comparison
US11215621B2 (en) 2018-04-13 2022-01-04 Cornell University Large-scale mapping of protein-protein interactions from crosslinking mass spectrometry
US20220189751A1 (en) * 2019-04-24 2022-06-16 Shimadzu Corporation Imaging mass spectrometer

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005113812A2 (en) * 2004-04-23 2005-12-01 Invitrogen Corporation Collections of matched biological reagents and methods for identifying matched reagents
CN102017058A (zh) * 2008-05-15 2011-04-13 塞莫费雪科学(不来梅)有限公司 Ms/ms数据处理
CN103270575A (zh) * 2010-12-17 2013-08-28 塞莫费雪科学(不来梅)有限公司 用于质谱法的数据采集系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2834835T3 (en) * 2012-04-02 2019-01-14 Thermo Fisher Scient Bremen Gmbh METHOD AND DEVICE FOR IMPROVED QUANTIFICATION BY MASS SPECTROMETRY

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005113812A2 (en) * 2004-04-23 2005-12-01 Invitrogen Corporation Collections of matched biological reagents and methods for identifying matched reagents
CN102017058A (zh) * 2008-05-15 2011-04-13 塞莫费雪科学(不来梅)有限公司 Ms/ms数据处理
CN103270575A (zh) * 2010-12-17 2013-08-28 塞莫费雪科学(不来梅)有限公司 用于质谱法的数据采集系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VAGISHA SHARMA,ET AL: "《A Mass Spectrometry Proteomics Data Mangement Platform》", 《MOLECULAR & CELLULAR PROTEOMICS》 *
尹庸平: "《基于贝叶斯的质谱数据分析方法》", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *
彭学亮: "《基于面向对象技术的质谱仪测控软件的研究与开发》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466742A (zh) * 2020-10-10 2021-03-09 浙江迪谱诊断技术有限公司 一种质谱峰高调整方法
CN114858958A (zh) * 2022-07-05 2022-08-05 西湖欧米(杭州)生物科技有限公司 质谱数据在质量评估中的分析方法、装置和存储介质
CN114858958B (zh) * 2022-07-05 2022-11-01 西湖欧米(杭州)生物科技有限公司 质谱数据在质量评估中的分析方法、装置和存储介质

Also Published As

Publication number Publication date
GB201419699D0 (en) 2014-12-17
US20220392582A1 (en) 2022-12-08
GB201415273D0 (en) 2014-10-15
CN106415558B (zh) 2020-05-15
EP3155543A1 (en) 2017-04-19
US20170154169A1 (en) 2017-06-01
WO2015189255A1 (en) 2015-12-17

Similar Documents

Publication Publication Date Title
CN106415558A (zh) 数据处理装置和用于质谱法数据的评估的方法
Thul et al. The human protein atlas: a spatial map of the human proteome
Fermin et al. Abacus: a computational tool for extracting and pre‐processing spectral count data for label‐free quantitative proteomic analysis
Choi et al. Analyzing protein‐protein interactions from affinity purification‐mass spectrometry data with SAINT
Murphy et al. OpenFluor–an online spectral library of auto-fluorescence by organic compounds in the environment
Brown et al. Automated workflows for accurate mass-based putative metabolite identification in LC/MS-derived metabolomic datasets
US20130060775A1 (en) Spanning-tree progression analysis of density-normalized events (spade)
Treviño et al. GridMass: a fast two‐dimensional feature detection method for LC/MS
US9607375B2 (en) Biological data annotation and visualization
US20160216244A1 (en) Method and electronic nose for comparing odors
WO2001057518A2 (en) Method of non-targeted complex sample analysis
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
CN104380311A (zh) 依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的计算机程序、数据存储介质和系统
Curran et al. Computer aided manual validation of mass spectrometry-based proteomic data
CN109061020A (zh) 一种基于气相/液相色谱质谱平台的数据分析系统
US20150160231A1 (en) Identification of metabolites from tandem mass spectrometry data using databases of precursor and product ion data
Halligan et al. Visualize: a free and open source multifunction tool for proteomics data analysis
US20240094209A1 (en) Markers, methods and systems for identifying cell populations, diagnosing, monitoring, predicting and treating conditions
Winkler Processing metabolomics and proteomics data with open software: a practical guide
Ludwig et al. De novo molecular formula annotation and structure elucidation using SIRIUS 4
Shahaf et al. Constructing a mass measurement error surface to improve automatic annotations in liquid chromatography/mass spectrometry based metabolomics
Langella et al. Management and dissemination of MS proteomic data with PROTICdb: example of a quantitative comparison between methods of protein extraction
Savoi et al. Grapevine and wine metabolomics-based guidelines for FAIR data and metadata management
US20160357906A1 (en) Biological data annotation and visualization
US11222194B2 (en) Automated system and method for creating and executing a scoring guide to assist in the analysis of tissue specimen

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant