CN110139702B - 利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控 - Google Patents

利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控 Download PDF

Info

Publication number
CN110139702B
CN110139702B CN201780062753.7A CN201780062753A CN110139702B CN 110139702 B CN110139702 B CN 110139702B CN 201780062753 A CN201780062753 A CN 201780062753A CN 110139702 B CN110139702 B CN 110139702B
Authority
CN
China
Prior art keywords
mass spectrometer
laser desorption
assisted laser
ionization time
data manipulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780062753.7A
Other languages
English (en)
Other versions
CN110139702A (zh
Inventor
赵英俊
赵邀韩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Highland Innovations Inc
Original Assignee
Highland Innovations Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Highland Innovations Inc filed Critical Highland Innovations Inc
Publication of CN110139702A publication Critical patent/CN110139702A/zh
Application granted granted Critical
Publication of CN110139702B publication Critical patent/CN110139702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/02Details
    • H01J49/04Arrangements for introducing or extracting samples to be analysed, e.g. vacuum locks; Arrangements for external adjustment of electron- or ion-optical components
    • H01J49/0409Sample holders or containers
    • H01J49/0418Sample holders or containers for laser desorption, e.g. matrix-assisted laser desorption/ionisation [MALDI] plates or surface enhanced laser desorption/ionisation [SELDI] plates
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7246Details of waveform analysis using correlation, e.g. template matching or determination of similarity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes
    • H01J49/28Static spectrometers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Optics & Photonics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Physiology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Library & Information Science (AREA)
  • Electron Tubes For Measurement (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

涉及方法、系统、设备和/或计算机程序。质谱仪测试数据(例如,医疗患者的血液样本)可与元数据信息关联。关联的元数据信息可与医疗患者关联。样本参考库的子组可基于关联元数据信息。根据实施例,样本参考库可包含多组质谱仪参考数据。实施例将质谱仪测试数据与所选的样本参考库的子组的质谱仪参考数据进行匹配。实施例基于匹配的质谱仪参考数据的已知特征确定质谱仪测试数据的源(例如,医疗患者)的特征信息。

Description

利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数 据操控
相关申请的交叉引用
本申请要求2016年8月22日提交的第62/377,768号美国临时专利申请的优先权,其全部内容兹通过引用并入本案。
背景技术
生物标志物是存在于血液、其他体液或组织中的生物分子,其是病症和/或疾病的正常过程或异常过程的标志。例如,糖蛋白CA-125是可指示存在癌症的生物标志物。因此,可以测量并且评估生物标志物,以认定特定疾病的存在或进展或者观察身体对疾病或病症的治疗的反应好不好。生物标志物在蛋白质、肽、脂质、聚糖和/或代谢物中的存在和/或其数量水平的变化可由质谱仪测量。
在众多类型的质谱仪中,基质辅助激光解吸/离子化飞行时间质谱(MALDI-TOFMS)是采用软离子化技术的分析工具。样本可埋置于基质中,并且可以对基质发射激光脉冲。基质吸收激光能量,并且基质的分子发生离子化。然后,电场使离子化分子加速通过真空管的一部分,并且然后,离子化分子在室内没有电场的其余地方飞行。测量飞行时间,以产生质荷比(m/z)。MALDI-TOF MS以非常高的准确性和亚皮摩尔(subpicomole)灵敏度提供对诸如肽、蛋白质、和大有机分子的生物分子的快速认定。MALDI-TOF MS可在实验室环境下用于快速并且准确地分析生物分子并将其应用扩展到临床领域,诸如微生物检测和诸如癌症的疾病诊断。
在为了高效并且/或者有效地表征测试样本而将测试样本与参考数据进行比较时,可能产生复杂化的问题。例如,根据实施例,测试样本的高效和/或有效表征可显著改善基质辅助激光解吸/离子化飞行时间质谱仪的效用。
发明内容
实施例涉及方法、系统、设备和/或计算机程序。质谱仪测试数据(例如,医疗患者的血液样本)可与元数据信息关联。关联的元数据信息可与医疗患者关联。实施例可基于关联的元数据信息选择样本参考库的子组。根据实施例,样本参考库可包含多组质谱仪参考数据。实施例可将质谱仪测试数据与所选样本参考库的子组的多组质谱仪参考数据中的至少一组进行匹配。实施例可基于匹配的质谱仪参考数据的已知特征确定质谱仪测试数据的源(例如,医疗患者)的特征信息。
质谱仪测试数据可包含质谱仪的质荷比布型输出。多组质谱仪参考数据包括存储于样本参考库中的参考样本的多个质荷比布型。匹配包括将质谱仪测试数据的质荷比布型与参考样本的多个质荷比布型进行比较。
实施例涉及参考数据样本的归类和/或分类。实施例可改善认定和/或诊断准确性,因为每个类和/或归类以相似特征聚类,以使聚类统计学上互相独立。在实施例中,聚类可将测试样本与其优化类参考数据匹配和/或比较,以有效并且/或者高效地表征测试样本。
附图说明
示例性图1是根据实施例的疾病诊断实验室的布置,其中样本处理单元、MALDI-TOF MS单元和诊断单元分别位于三个不同系统。
示例性图2是根据实施例的系统图,包含集成到一个系统中的样本处理单元、MALDI-TOF MS单元和诊断单元。
示例性图3是根据实施例的集成系统的系统图,包含在一个系统中的样本处理单元、MALDI-TOF MS单元和诊断单元。
示例性图4是根据实施例的集成诊断系统的系统图,包含集成于一个系统中的样本处理单元和MALDI-TOF MS单元,而诊断单元作为独立单元提供。
示例性图5根据实施例的MALDI-TOF MS单元的示意图,其中部件是模块形式。
示例性图6是根据实施例的用于匹配特征信息的方法的流程图。
示例性图7示出根据实施例的用于匹配特征信息的系统。
示例性图8示出根据实施例的利用人工智能匹配特征信息的系统。
示例性图9示出根据实施例的参数和子参数的分层结构。
示例性图10示出根据实施例的疾病信息的分层结构。
示例性图11示出根据实施例的确定类之间的独立性的方法。
示例性图12示出根据实施例的源元数据和参考元数据之间的交叉。
示例性图13示出根据实施例的对类进行聚类的方法。
示例性图14至图16示出根据实施例的聚类类别的示例。
具体实施方式
示例性图1示出根据实施例的疾病诊断实验室,其中样本处理设施101包含彼此分开的多个样本处理工具、MALDI-TOF MS系统102和诊断软件系统103。例如,为了提取用于卵巢癌诊断的聚糖,将患者的血清加入到多孔板111内,以进行样本接收过程和蛋白质变性过程112,然后是采用酶的去糖基化(deglocosylation)过程113。然后,进行蛋白质去除过程114、干燥及离心过程、聚糖提取过程115和点样(spotting)过程116。MALDI-TOF MS系统102分析所点样本,以产生至少一个聚糖布型。诊断软件103将该样本的聚糖布型与一个或多个预存聚糖布型进行比较,以认定是否存在卵巢癌和卵巢癌的进展。
示例性图2是根据实施例的采用MALDI-TOF的集成疾病诊断系统。系统200包含全部集成到一个集成系统内的自动样本制备单元201、MALDI-TOF MS单元202、以及疾病诊断单元203。样本制备单元201制备患者的样本,通过诸如输送器211的自动输送机构将患者的样本传递到MALDI-TOF MS单元202。MALDI-TOF MS单元202分析该样本,并且产生该样本的质量信息。然后,疾病诊断单元203认定存在该疾病和该疾病的进展,并且将结果显示于监视器屏幕212中。
实施例通过仅触摸输入监视器屏幕212以自主方式认定蛋白质、RNA、DNA存在于血液、尿液、和诸如微生物的其他生物材料中及其数量变化。实施例可用于认定包含癌症的疾病和诸如细菌、古生菌、原生动物、病毒和真菌的微生物。
示例性图3示出根据实施例的集成疾病诊断系统。通过选择模块,可以对样本进行组合处理。在样本制备系统301中,在自动样本制备单元311中,根据诊断和筛选目的,样本经过预定和预编程的工序。在实施例中,对于聚糖提取,可选择多个处理模块,用于样本接收、蛋白质变性、去糖基化、蛋白质去除、干燥、离心、固相提取和/或点样。在样本制备后,样本装载器312将样本装载到板306上,并在样本干燥器307中干燥。
然后,根据实施例,可将样本提供给具有离子飞行室321和/或高电压真空发生器322的MALDI-TOF MS单元302。MALDI-TOF MS中的处理单元323可以认定质荷比及其相应强度。出于疾病诊断的目的,可以重新组织这样获取的质量和强度数据,以建立标准质量列表,在标准质量列表中引入质量中心的概念,该中心是强度平衡并且均衡之处。标准质荷比列表可基于机器准确性和质量中心概念来定义。每次激光照射存储的光谱数据也可用于建立标准质量列表。
在实施例中,然后,诊断单元303可将来自患者样本的光谱与预存的光谱进行比较,并分析两个光谱的布型差异。然后,诊断单元303可以认定存在疾病及其进展。在实施例中,如示例性图3所示,诊断单元303可在内部集成到MALDI-TOF MS单元302。在实施例中,诊断单元303可在质谱仪系统内,也可在质谱仪系统外。在实施例中,诊断单元可基于云。在实施例中,诊断单元可通过局域网(例如,内部网络)、公用网(例如,互联网)、或本技术领域的技术人员所理解的任何其他网络与质谱仪系统联网。在实施例中,诊断单元耦合到人工智能引擎并且/或者耦合到一个或者多个执行深度学习算法的处理器。
示例性图4示出根据实施例的集成疾病诊断系统,其中样本制备单元401和MALDI-TOF 402集成在一起,而诊断单元403作为独立单元分开布置。示例性图5是根据实施例的MALDI-TOF MS单元的示意图,其中部件是模块形式。
示例性图6是根据实施例的用于匹配特征信息的方法的流程图。实施例涉及方法、设备、系统、和/或计算机程序产品中的至少一个。在步骤601,实施例可接收样本的质谱仪测试数据。在步骤603,实施例可使样本的源的元数据信息与质谱仪测试数据关联。在步骤605,实施例可基于关联的元数据信息选择样本参考库的子组。根据实施例,样本参考库可包含多组质谱仪参考数据。在步骤607,实施例可对质谱仪测试数据与所选的样本参考库的子组的多组质谱仪参考数据中的至少一组进行匹配。在步骤609,实施例可基于匹配的质谱仪参考数据的已知特征确定源的特征信息。
在实施例中,质谱仪测试数据包括质谱仪的质荷比布型输出。多组质谱仪参考数据可包含存储于样本参考库中的参考样本的多个质荷比布型。匹配607可包含将质谱仪测试数据的质荷比布型与参考样本的多个质荷比布型进行比较。
根据实施例,如果存在基本相似的质荷比布型,则匹配607可包含判定对质谱仪测试数据与多组质谱仪参考数据中的一组进行匹配。在实施例中,可根据预定阈值执行对基本相似的质荷比布型进行匹配的判定。在实施例中,可根据动态阈值执行对基本相似的质荷比布型进行匹配的判定。在实施例中,利用人工智能或深度学习算法中的至少一个确定动态阈值。
示例性图7示出根据实施例的用于匹配特征信息的系统。系统可包含至少一个处理器715。系统可包含接收单元701,接收单元701配置成利用至少一个处理器715接收样本的质谱仪测试数据。系统可包含关联单元703,关联单元703配置成利用至少一个处理器715使样本的源的元数据信息与质谱仪测试数据关联。系统可包含选择单元705,选择单元705配置成利用至少一个处理器715基于关联的元数据信息选择样本参考库的子组。样本参考库711可包含多组质谱仪参考数据。匹配单元707可配置成利用至少一个处理器715将质谱仪测试数据与所选的样本参考库711的子组的多组质谱仪参考数据中的至少一组进行匹配。确定单元709可配置成利用至少一个处理器715基于匹配的质谱仪参考数据的已知特征确定源的特征信息。
在实施例中,质谱仪测试数据可具有未知特征,并且多组质谱仪参考数据具有已知特征。样本可包含生物分子。源的元数据信息可包含关于生物分子的源的信息。源的特征信息可包含源的生物分析信息。生物分析信息可以是人、动物、植物或生物体中的至少一个的医学诊断。
示例性图8示出根据实施例的利用人工智能匹配特征信息的系统。例如,为了优化系统的效率和有效性,人工智能单元801可耦合到接收单元701、关联单元703、选择单元705、匹配单元707、确定单元709、样本参考库711、(多个)处理器715和/或系统的任何其他单元。
示例性图9示出根据实施例的参数和子参数的分层结构。在实施例中,源的元数据信息和多组质谱仪参考数据的元数据信息可包含具有参数的多个类。在实施例中,分类信息可包含至少一个非疾病参数。将样本参考库存储于MALDI-TOF MS机器、硬盘或云数据库中的至少一个中。至少一个非疾病参数包括源的属性。
至少一个非疾病参数901可包含以下指示中的至少一个:源的性别903的指示、源的年龄905的指示、源的病史907的指示、源的家族病史的指示、源的吸烟史909的指示、源的生活习惯911的指示、源的锻炼习惯913的指示、源的饮酒史915的指示、源的血糖水平917的指示、源的胆固醇水平919的指示。至少一个非疾病参数可包含描述至少一个非疾病参数的至少一个属性的至少一个子参数。
示例性图10示出根据实施例的疾病信息1001的分层结构。疾病信息1001涉及疾病,并且疾病信息包括涉及如下中的至少一个的至少一个参数或子参数:疾病名称1003、疾病的时间分期1005、疾病类型1007、疾病类型的子类型1009、疾病的严重程度1011、以及/或与疾病有关的信息。在实施例中,源的特征信息可包含至少一个疾病参数。在实施例中,至少一个疾病参数可以是疾病信息与生物分子的源的相关性。
示例性图11示出根据实施例的确定类之间的独立性的方法。在实施例中,可接收多个类(1101)。在实施例中,可确定多个类的相对独立性(1103)。在实施例中,可对独立性不够的类进行聚类。
示例性图12示出根据实施例的源元数据1201和参考元数据1203之间的交叉。选择样本参考库的子组1205包括确定源1201的关联的元数据信息与多组质谱仪参考数据1203的元数据信息之间的重叠。在实施例中,为了使多个类中的每个类的独立性最大化,可将多个类之间的相关性降低到最小。
示例性图13示出根据实施例的对类进行聚类的方法。在步骤1301,实施例可确定两个类之间的互相关系数(CCC)。在判定步骤1303,可确定所确定的互相关系数是否大于阈值。根据实施例,如果互相关系数大于阈值,则可对这些类进行聚类。如果互相关系数低于阈值,则该处理可结束,而不对这两个类进行聚类。
在实施例中,去除多组质谱仪参考数据中的非相关组可包含为了最小化样本库的大小,对多个类中独立性不足的类进行聚类。在实施例中,聚类可包含在多个类中至少两个类之间确定至少一个互相关系数。根据实施例,如果至少一个互相关系数大于多个类中至少两个类的预定阈值,则将多个类中的至少两个类聚类在一起,以最小化样本库的大小。
根据实施例,对类进行聚类可包含对多个类中的一个类的至少两个子类进行类内聚类。根据实施例,对类进行聚类可包含对多个类中的不同类的至少两个子类进行类间聚类。在实施例中,与类间聚类相比,类内聚类的至少一个互相关系数的预定阈值较大。
在实施例中,为了获得预定诊断准确性程度,多个类中的每个类的独立性可基于如下中的至少一个:最小独立性阈值、相关系数索引、互相关索引、相对标准偏差分析或区别阈值。在实施例中,利用动态阈值确定多个类中的每个类的独立性。在实施例中,可利用人工智能或深度学习算法中的至少一个确定动态阈值。
在实施例中,基于相对标准偏差值确定多个类中的每个类的独立性。在实施例中,可对相对标准偏差值进行最小化或优化中的至少一个,以使再现性或准确性中的至少一个最大化。
在实施例中,多个类中的每个类的独立性优化对样本库的子组的选择。在实施例中,可通过最小化样本库的子组的大小或通过保持预定诊断准确性程度中的至少一个来优化样本库的子组。在实施例中,通过去除多组质谱仪参考数据中的非相关组,优化样本库的子组。
在实施例中,非相关组可包含基于源的关联的元数据信息具有假阳性或假阴性输出结果风险的多组质谱仪参考数据。在实施例中,非相关组包括与关联的元数据信息互相排斥的多组质谱仪参考数据。在实施例中,可利用人工智能或深度学习算法中的至少一个确定多个类之间的相关性。在实施例中,为了优化诊断、筛选或认定医学病症中的至少一个而最小化多个类之间的相关性。
图14是根据实施例的说明性示例,在该示例中,首先利用编号对样本分类。根据实施例,1A与1B之间的内相关(0.98)高于1A与2A之间的间相关(0.5),这表明样本被正确分类。例如,当互相相关时,聚类1403和1409具有非常高的值。相反,根据实施例,当与其他聚类相关时,聚类1407和1405具有较低的值,表明假设有效聚类。
图15是根据实施例的说明性示例,在该示例中,首先利用编号对样本分类。3A与3B之间的组内相关(0.58)低于3A与4A之间的组间相关(0.9)表明初始分类不是最佳的,或者说不理想。在实施例中,可利用人工智能进行再分类和/或者再聚类。例如,假设图1501的聚类1503、1505、1507和1507较不相关。
在实施例中,类中的元素不一定是固定的。相反,根据实施例,计算机程序可用于找到将包含于类中的最佳元素组。
图16示出根据实施例的示例1601,其中首先将样本划分为:聚类C1X(例如,聚类1603)、C2X(例如,聚类1609)、和C3X(例如,聚类1611)。在该示例中,根据实施例,聚类C1X内的全部内CCC介于0.97与1.0之间,这可表明聚类1603中具有较高相关性。然而,在实施例中,C1X(例如,聚类1603)与C2X之间的间CCC(诸如,C11与C22之间的间CCC)高于C1X的内CCC的最小值(0.97)。这可表明在选择聚类1603或聚类1609的元素时存在分类错误,如错误聚类中所示,因为为0.99的相关性1605或相关性1607较高。根据实施例,在类C22(例如,0.99)可导致假阴性或假阳性结果。
实施例涉及基于聚类的分类,基于聚类的分类可能要求关于诸如癌症分期的子类的更具体信息,而非诸如癌症对正常健康的简单的二进制样本信息。根据实施例,一旦发现最佳分类和/或组,则可求得该类的平均值或中值,以对每个类及其分布曲线设定统计标准。
在实施例中,可将操控的质谱仪数据与存储于库数据库中的数据进行比较。可将测试样本与已知的确定样本的整个数据库进行比较,而非像在目标诊断中那样将测试样本与已知样本逐个进行比较。实施例可提高效率并且/或者降低发生假阳性或假阴性诊断的概率。根据库数据库对测试样本数据预分类,这样能够产生加速疾病认定过程、提高疾病认定过程的准确性、并且/或者改善疾病认定过程的参数。根据实施例,分类分析可基于聚类分析。库数据库本身可集成于MALDI-TOF MS机器内,存储于软件或硬盘中,并且/或存储于云数据库中。
实施例涉及疾病诊断和筛选。根据实施例,该方法的基本假定是每个人,甚至是大概健康的人也具有诸如糖尿病、高胆固醇、阿尔茨海默病、癌症、传染病等的某种疾病或某种先兆。因此,根据实施例,至少可以将每个人看作潜在患者。此外,实施例可将与疾病或非疾病的每个状态或期有关的参数看作唯一的并且可辨别。
在实施例中,可将每个人/动物/植物/等划入由疾病和/或非疾病参数构成的分类。例如,根据实施例,分类可由与疾病有关的参数构成,与疾病有关的参数用于区分诸如卵巢癌、肺癌、脑癌等的癌症。根据实施例,假定确定测试样本被确定为卵巢癌,则另一更具体参数能够区分卵巢癌的期(良性、临界、I、II、III和IV)。实施例可包含甚至更具体并且可区分诸如上皮、胚细胞、或基质的卵巢癌类型的参数。实施例可包含可区分患者/样本的胆固醇水平(>200mg/dl、>250mg、<200mg)的参数。根据实施例,诸如种族、年龄、过往病史和生活习惯的其他方面也能够用作分类参数。在实施例中,首先,利用诸如卵巢癌-I期-上皮->200mg胆固醇-年龄20-30-等的组合参数的类认定测试样本。根据实施例,选择了最能代表测试样本的组合参数的特定类后,对于相同参数,将其MALDI-TOF MS数据与存储于库数据库中的数据进行比较和筛选。
各种参数构成的分类性质提供许多方式来发现用于疾病诊断/筛查/认定的最佳分类。为了保证分类的独立性,实施例可通过最小化不同参数构成的分类之间的相关性来优化样本的分类。例如,根据实施例,特定分类与不同分类之间的互相关索引或MALDI-TOFMS强度布型的范数必须小到足以在区别阈值内。该区别阈值能够与最小/最佳RSD(相对标准偏差)值相似,使质量/强度数据的再现性和准确性最大化。实施例可采用其他准确性判据,诸如,最大特异性/灵敏性值。利用类内相似性和类间相似性比较,能够优化分类或聚类,其中类中的样本数据之间的间相关应当大于内相关。
在实施例中,可将分类划分为两大基本类。根据实施例,类I可包括与非疾病有关的分类,而类II可包括与疾病有关的分类。对于类I,5-10个参数可用作说明性示例。实施例可包含与非疾病有关的参数,诸如,性别、年龄、家族史、吸烟、饮酒、血糖和胆固醇。根据实施例,可将这些参数中的每个进一步划分为许多或众多子参数。在实施例中,可利用各种方法确定基本类的数量,但是为了准确性最高,建议采用基于深度学习AI的系统。在与基于深度学习的系统有关的实施例中,可使每个建议类的数据(例如,MALDI-TOF MS布型数据)的相对标准偏差最小化。与基于深度学习的系统有关的实施例可使数据的相对标准偏差的相关系数索引保持在与特异性和/或灵敏性相似的检测准确性的最小值、最大值或推荐值。在实施例中,可利用机器算法使其他准确性参数最大化,以避免错失类的优化聚类并且/或者节省发现分类过程的时间。
在实施例中,可利用下面的示例说明分类,在该示例中,建立分类:
类I(非疾病)
参数1:性别{男、女、其他}…{男、女}
参数2:年龄{0-15、16-30、31-45、46-60、61-75、76及以上}…{0-20、21-40、41-60、60以上}
参数3:家族病史{癌症、糖尿病、阿尔茨海默病、无}…
{癌症、非癌症}…{}
参数4:吸烟{多(>1包)、少(<1包)、不吸烟}…
{吸烟、不吸烟}…{}
参数5:喝酒{多、少、不喝酒}…{喝酒、不喝酒}…{}
参数6:血糖{糖尿病程度、低程度、无糖尿病}…{糖尿病程度}
参数7:胆固醇{高、中等、低}…{高脂血症、正常}
根据实施例,在该示例中,与非疾病有关的类I可能有5832(=3*6*4*3*3*3*3)个可能子类,或者如上所述的分类。样本分类(5832种可能排列中的一个)是{男、年龄31-45、癌症家族史、轻度吸烟、没有糖尿病、胆固醇水平低}。
根据实施例,由于分类的一个目标是改善基于库的诊断的准确性,所以因此反过来要求每个分类互相足够不同。实施例可考虑到2个分类之间的MALDI-TOF分布数据的最低相关性和/或2个以上分类之间的最低相关性来确定分类之间的区别。根据实施例,出于获得足够高诊断准确性的目的,通过设定分类之间的阈值最小独立性,可将分类编组,并且/或者因为它们太相似而不能使用除去它们。这样,根据实施例,能够将理论上成千分类的库减小到较小数量的足够不同的分类。
实施例涉及获取由诸如m/z对强度的MALDI-TOF MS数据获得的p值或互相关系数,以确定该阈值最小独立性值。根据实施例,对于每个子分类,可获得这些区别参数(无论是p值还是互相关系数),并且将这些参数进行比较,以确定阈值或范围。实施例涉及对于与特定子分类或疾病关联的每个生物标志物(诸如,聚糖、蛋白质、RNA、DNA、脂质等)确定区别参数并且将其储存于库数据库中。
实施例涉及将测试样本数据与存储于数据库中的数据进行匹配,以获得准确疾病诊断,该数据库采用足够不同子类的已建立库数据库。实施例不可采用测试诊断,其中对于数据库中的各子组或各类的样本,比较测试样本的质谱数据从而进行匹配。实施例涉及将来自测试样本的数据与存储于预分类库数据库中的所有疾病或状态的数据进行比较。根据实施例,可采用调整互相关技术,其中检索数据库中的标准m/z数据,并且然后,将其与从MALDI-TOF MS获得的强度数据进行匹配。在实施例中,将匹配程度计算为从相关系数确定的范数或相似性值。
尽管特定匹配过程可能强度大,但是如果将每个单独数据库疾病/状态与正分析的测试样本进行比较,则可能不怎么有效。为了削减这种低效工作,实施例可涉及将测试样本的非疾病特征与存储于数据库中的非疾病特征进行匹配。例如,如果我们知道测试样本来自一个女性吸烟者,有家族糖尿病史,则实施例可局限于将测试样本仅与存储于库数据库中相应分类(例如,女性-吸烟者-家族糖尿病史-等)的数据进行匹配。根据实施例,在这样初始筛查之后,可将与疾病有关的分类的数据(即,卵巢癌-上皮-III期)与测试样本的标准m/z数据进行匹配,并且可将最接近的匹配确定为有关疾病或状态的身份。为了进一步比较准确度或有效性,还可以在没有分类的情况下进行匹配。
在某些实施例中,可首先对参考数据分类,以最小化类之间的相关处理。与此同时,根据实施例,可确定测试样本的非疾病类。此后,根据实施例,可将疾病类的数据库与测试样本数据进行匹配,并且这样可节省认定过程的成本和时间。
在实施例中,可首先将测试样本的数据与类I(非疾病)的子类进行比较,以发现应当应用哪个人群/非疾病分类。
在实施例中,接着使测试样本的每个质荷比(m/z)标准化,并且将其与疾病数据库中的MALDI光谱数据进行匹配。根据实施例,许多用于匹配的算法能够用于发现测试样本数据与数据库数据之间的最佳匹配,从而发现具体疾病类。
分类能够引向基于数据库的更有效诊断的方式有许多。在实施例中,可要求应用特定约束或阈值,以确保预定分类不降低诊断准确性。根据实施例,预定分类对基于匹配的诊断会有用。在某些实施例中,由于数据库随着样本数据的增加而增长,所以基于算法和深度学习的程序能够不断改善分类,直到对正在测试其样本的人、正在对样本筛查的疾病类型、以及其他可能的可辨参数/特性确定最佳分类。
在实施例中,来自未知样本的质谱数据可与存储于库数据库中的质谱数据的质量布型进行比较,以认定疾病或疾病的进展。根据实施例,可将质量布型分类或分组为类,以存储于库数据库中。在实施例中,可计算未知样本与所有可能类的标准质量布型之间的互相关系数和/或相关系数及相似性索引,以将未知样本与库数据库中的一个进行匹配。根据实施例,基于计算的互相关值,可认定疾病或疾病的进展。
为了获得更高的认定准确性或诊断准确性,适当分类是必需的。在实施例中,公开了基于可用信息的预定类。根据实施例,关于患者的认定,能够根据年龄、性别、存在其他疾病以及许多其他因素划分患者。
实施例涉及利用通用分析方法定义新类。根据实施例,可计算互相关值,以将质谱数据划分为新类。
根据实施例,两个不同类之间的内最佳相关性可以是0或约0,这意味着它们互相独立。在实施例中,特别是对于相似布型的样本,难以由质谱获得0相关性。实施例可利用聚类算法发现初始聚类之间的最低相关性,并且如果需要,重新将它们划分为不同聚类。
实施例涉及计算因素内与因素间之间的互相关系数(“CCC”)。根据实施例,同一个类中的因素之间的内CCC不应大于不同类之间的间CCC。
对所公开的实施例进行各种修改和变更对于本领域技术人员明显且显而易见。所公开的实施例旨在覆盖明显且显而易见的修改和变更,只要这些修改和变更在所附权利要求及其等同的范围内。

Claims (64)

1.一种利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,包括:
至少一个处理器;
接收单元,所述接收单元配置成利用所述至少一个处理器接收样本的质谱仪测试数据;
其特征在于:
关联单元,所述关联单元配置成利用所述至少一个处理器使所述样本的源的元数据信息与所述质谱仪测试数据关联;
选择单元,所述选择单元配置成利用所述至少一个处理器基于所关联的元数据信息选择样本参考库的子组,其中所述样本参考库包括多组质谱仪参考数据;
匹配单元,所述匹配单元配置成利用所述至少一个处理器将所述质谱仪测试数据与所选的所述样本参考库的子组的所述多组质谱仪参考数据中的至少一组进行匹配;以及
确定单元,所述确定单元配置成利用所述至少一个处理器基于所匹配的质谱仪参考数据的已知特征确定所述源的特征信息,
其中,所述质谱仪测试数据包括所述质谱仪的质荷比布型输出;
所述多组质谱仪参考数据包括存储于所述样本参考库中的参考样本的多个质荷比布型;并且
所述匹配包括将所述质谱仪测试数据的所述质荷比布型与所述参考样本的所述多个质荷比布型进行比较,
其中对所述样本参考库的所述子组的选择包括确定所述源的所关联的元数据信息与所述多组质谱仪参考数据的元数据信息之间的重叠,
其中所述源的所述元数据信息和所述多组质谱仪参考数据的所述元数据信息包括具有参数的多个类,
其中最小化所述多个类之间的相关性,以最大化所述多个类中的每个类的独立性,
其中所述多个类中的每个类的所述独立性优化所述样本库的所述子组的选择。
2.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中:
所述质谱仪测试数据具有未知特征;并且
所述多组质谱仪参考数据具有已知特征。
3.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中:
所述样本包括生物分子;
所述源的所述元数据信息包括关于所述生物分子的源的信息;并且
所述源的特征信息包括所述源的生物分析信息。
4.根据权利要求3所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述生物分析信息是人、动物、植物或生物体中的至少一个的医学诊断。
5.根据权利要求3所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述源的所述特征信息包括至少一个疾病参数。
6.根据权利要求5所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述至少一个疾病参数是疾病信息与所述生物分子的所述源的相关性。
7.根据权利要求6所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述疾病信息涉及疾病,并且所述疾病信息包括与如下中的至少一个有关的至少一个参数或子参数:
所述疾病的名称;
所述疾病的时间分期;
所述疾病的类型;
所述疾病的所述类型的子类型;
所述疾病的严重程度。
8.根据权利要求3所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中分类信息包括至少一个非疾病参数。
9.根据权利要求8所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述至少一个非疾病参数包括所述源的属性。
10.根据权利要求8所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述至少一个非疾病参数包括如下中的至少一个:
所述源的性别的指示;
所述源的年龄的指示;
所述源的病史的指示;
所述源的家族病史的指示;
所述源的吸烟史的指示;
所述源的生活习惯的指示;
所述源的饮酒史的指示;
所述源的血糖水平的指示;
所述源的胆固醇水平的指示。
11.根据权利要求8所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述至少一个非疾病参数包括描述所述至少一个非疾病参数的至少一个属性的至少一个子参数。
12.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述多个类中的每个类的所述独立性基于如下中的至少一个:最小独立性阈值、相关系数索引、互相关索引、相对标准偏差分析或区别阈值,以获得预定诊断准确性程度。
13.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述多个类中的每个类的所述独立性由动态阈值确定。
14.根据权利要求13所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述动态阈值由人工智能或深度学习算法中的至少一个确定。
15.根据权利要求13所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中基于相对标准偏差值确定所述多个类中的每个类的所述独立性。
16.根据权利要求15所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中使所述相对标准偏差最小化或优化中的至少一个,以最大化再现性或准确性中的至少一个。
17.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中通过最小化所述样本库的所述子组的大小或者通过保持预定诊断准确性程度中的至少一个,以优化所述样本库的所述子组。
18.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中通过去除所述多组质谱仪参考数据中的非相关组,以优化所述样本库的所述子组。
19.根据权利要求18所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述去除所述多组质谱仪参考数据中的非相关组包括对所述多个类中独立性不足的类进行聚类,以最小化所述样本库的大小。
20.根据权利要求19所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述聚类包括:
在所述多个类中的至少两个类之间确定至少一个互相关系数;并且
如果所述至少一个互相关系数大于所述多个类中的所述至少两个类的预定阈值,则将所述多个类中的所述至少两个类聚类在一起,以最小化所述样本库的大小。
21.根据权利要求20所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中对所述类进行聚类包括对所述多个类中的一个类的至少两个子类进行类内聚类。
22.根据权利要求20所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中对所述类进行聚类包括对所述多个类中的不同类中的至少两个子类进行类间聚类。
23.根据权利要求22所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中与所述类间聚类相比,类内聚类的所述至少一个互相关系数的所述预定阈值较大。
24.根据权利要求18所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述非相关组包括基于所述源的所关联的元数据信息具有假阳性或假阴性输出结果风险的多组质谱仪参考数据。
25.根据权利要求18所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中所述非相关组包括与所关联的元数据信息互相排斥的多组质谱仪参考数据。
26.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中利用人工智能或深度学习算法中的至少一个确定所述多个类之间的所述相关性。
27.根据权利要求22所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,最小化所述多个类之间的所述相关性,以优化诊断、筛选或认定医学病症中的至少一个。
28.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中如果存在基本相似的质荷比布型,则所述匹配包括判定将所述质谱仪测试数据与所述多组质谱仪参考数据中的一组进行匹配。
29.根据权利要求28所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中根据预定阈值执行对所述基本相似的质荷比布型进行匹配的所述判定。
30.根据权利要求28所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中根据动态阈值执行对基本相似的质荷比布型进行匹配的所述判定。
31.根据权利要求30所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中利用人工智能或深度学习算法中的至少一个确定所述动态阈值。
32.根据权利要求1所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的系统,其中将所述样本参考库存储于MALDI-TOF MS机器、硬盘或云数据库中的至少一个中。
33.一种利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,所述可读存储介质存储有计算机可读程序代码,所述程序代码含有计算机系统的一个或多个处理器可执行的指令,以实现对目标评估损坏的方法,所述方法包括:
接收样本的质谱仪测试数据;
其特征在于:
使所述样本的源的元数据信息与所述质谱仪测试数据关联;
基于所关联的元数据信息,选择样本参考库的子组,其中所述样本参考库包括多组质谱仪参考数据;
将所述质谱仪测试数据与所选的所述样本参考库的子组的所述多组质谱仪参考数据中的至少一组进行匹配;并且
基于所匹配的质谱仪参考数据的已知特征,确定所述源的特征信息,
其中,所述质谱仪测试数据包括所述质谱仪的质荷比布型输出;
所述多组质谱仪参考数据包括存储于所述样本参考库中的参考样本的多个质荷比布型;并且
所述匹配包括将所述质谱仪测试数据的所述质荷比布型与所述参考样本的所述多个质荷比布型进行比较,
其中对所述样本参考库的所述子组的选择包括确定所述源的所关联的元数据信息与所述多组质谱仪参考数据的元数据信息之间的重叠,
其中所述源的所述元数据信息和所述多组质谱仪参考数据的所述元数据信息包括具有参数的多个类,
其中最小化所述多个类之间的相关性,以最大化所述多个类中的每个类的独立性,
其中所述多个类中的每个类的所述独立性优化所述样本库的所述子组的选择。
34.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中:
所述质谱仪测试数据具有未知特征;并且
所述多组质谱仪参考数据具有已知特征。
35.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中:
所述样本包括生物分子;
所述源的所述元数据信息包括关于所述生物分子的源的信息;并且
所述源的特征信息包括所述源的生物分析信息。
36.根据权利要求35所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述生物分析信息是人、动物、植物或生物体中的至少一个的医学诊断。
37.根据权利要求35所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述源的所述特征信息包括至少一个疾病参数。
38.根据权利要求37所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述至少一个疾病参数是疾病信息与所述生物分子的所述源的相关性。
39.根据权利要求38所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述疾病信息涉及疾病,并且所述疾病信息包括与如下中的至少一个有关的至少一个参数或子参数:
所述疾病的名称;
所述疾病的时间分期;
所述疾病的类型;
所述疾病的所述类型的子类型;
所述疾病的严重程度。
40.根据权利要求35所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中分类信息包括至少一个非疾病参数。
41.根据权利要求40所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述至少一个非疾病参数包括所述源的属性。
42.根据权利要求40所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述至少一个非疾病参数包括如下中的至少一个:
所述源的性别的指示;
所述源的年龄的指示;
所述源的病史的指示;
所述源的家族病史的指示;
所述源的吸烟史的指示;
所述源的生活习惯的指示;
所述源的饮酒史的指示;
所述源的血糖水平的指示;
所述源的胆固醇水平的指示。
43.根据权利要求40所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述至少一个非疾病参数包括描述所述至少一个非疾病参数的至少一个属性的至少一个子参数。
44.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述多个类中的每个类的所述独立性基于如下中的至少一个:最小独立性阈值、相关系数索引、互相关索引、相对标准偏差分析或区别阈值,以获得预定诊断准确性程度。
45.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述多个类中的每个类的所述独立性由动态阈值确定。
46.根据权利要求45所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述动态阈值由人工智能或深度学习算法中的至少一个确定。
47.根据权利要求45所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中基于相对标准偏差值确定所述多个类中的每个类的所述独立性。
48.根据权利要求47所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中使所述相对标准偏差最小化或优化中的至少一个,以最大化再现性或准确性中的至少一个。
49.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中通过最小化所述样本库的所述子组的大小或者通过保持预定诊断准确性程度中的至少一个,以优化所述样本库的所述子组。
50.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中通过去除所述多组质谱仪参考数据中的非相关组,以优化所述样本库的所述子组。
51.根据权利要求50所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述去除所述多组质谱仪参考数据中的非相关组包括对所述多个类中独立性不足的类进行聚类,以最小化所述样本库的大小。
52.根据权利要求51所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述聚类包括:
在所述多个类中的至少两个类之间确定至少一个互相关系数;并且
如果所述至少一个互相关系数大于所述多个类中的所述至少两个类的预定阈值,则将所述多个类中的所述至少两个类聚类在一起,以最小化所述样本库的大小。
53.根据权利要求52所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中对所述类进行聚类包括对所述多个类中的一个类的至少两个子类进行类内聚类。
54.根据权利要求53所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中对所述类进行聚类包括对所述多个类中的不同类中的至少两个子类进行类间聚类。
55.根据权利要求54所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中与所述类间聚类相比,类内聚类的所述至少一个互相关系数的所述预定阈值较大。
56.根据权利要求50所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述非相关组包括基于所述源的所关联的元数据信息具有假阳性或假阴性输出结果风险的多组质谱仪参考数据。
57.根据权利要求50所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中所述非相关组包括与所关联的元数据信息互相排斥的多组质谱仪参考数据。
58.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中利用人工智能或深度学习算法中的至少一个确定所述多个类之间的所述相关性。
59.根据权利要求54所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,最小化所述多个类之间的所述相关性,以优化诊断、筛选或认定医学病症中的至少一个。
60.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中如果存在基本相似的质荷比布型,则所述匹配包括判定将所述质谱仪测试数据与所述多组质谱仪参考数据中的一组进行匹配。
61.根据权利要求60所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中根据预定阈值执行对所述基本相似的质荷比布型进行匹配的所述判定。
62.根据权利要求60所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中根据动态阈值执行对基本相似的质荷比布型进行匹配的所述判定。
63.根据权利要求62所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中利用人工智能或深度学习算法中的至少一个确定所述动态阈值。
64.根据权利要求33所述的利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控的计算机可读存储介质,其中将所述样本参考库存储于MALDI-TOF MS机器、硬盘或云数据库中的至少一个中。
CN201780062753.7A 2016-08-22 2017-08-21 利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控 Active CN110139702B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662377768P 2016-08-22 2016-08-22
US62/377,768 2016-08-22
US15/638,911 US10319574B2 (en) 2016-08-22 2017-06-30 Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
US15/638,911 2017-06-30
PCT/US2017/047735 WO2018039102A1 (en) 2016-08-22 2017-08-21 Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer

Publications (2)

Publication Number Publication Date
CN110139702A CN110139702A (zh) 2019-08-16
CN110139702B true CN110139702B (zh) 2023-11-17

Family

ID=61763764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780062753.7A Active CN110139702B (zh) 2016-08-22 2017-08-21 利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控

Country Status (5)

Country Link
US (3) US10319574B2 (zh)
EP (1) EP3493894A4 (zh)
KR (1) KR102258866B1 (zh)
CN (1) CN110139702B (zh)
WO (1) WO2018039102A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10319574B2 (en) * 2016-08-22 2019-06-11 Highland Innovations Inc. Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
US20180052893A1 (en) * 2016-08-22 2018-02-22 Eung Joon JO Database management using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
CN108630141B (zh) * 2017-03-17 2019-11-22 京东方科技集团股份有限公司 像素电路、显示面板及其驱动方法
GB2576917B (en) 2018-09-06 2021-04-07 Samsung Electronics Co Ltd Improvements in and relating to intelligent systems
TWI725543B (zh) * 2019-09-11 2021-04-21 中華電信股份有限公司 預測造成系統異常之稀有事件的方法
US20220245408A1 (en) * 2021-01-20 2022-08-04 Rutgers, The State University Of New Jersey Method of Calibration Using Master Calibration Function
CN113673551B (zh) * 2021-06-30 2024-05-28 国网山东省电力公司营销服务中心(计量中心) 一种电力计量不良数据辨识方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6639217B1 (en) * 2002-12-20 2003-10-28 Agilent Technologies, Inc. In-line matrix assisted laser desorption/ionization mass spectrometry (MALDI-MS) systems and methods of use
CN105793852A (zh) * 2013-12-04 2016-07-20 M·奥利尼克 具有海量医疗分析的医疗处理计算机规划方法和系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583710B2 (en) * 2001-01-30 2009-09-01 Board Of Trustees Operating Michigan State University Laser and environmental monitoring system
US20030129760A1 (en) 2001-11-13 2003-07-10 Aguilera Frank Reinaldo Morales Mass intensity profiling system and uses thereof
AU2003304434A1 (en) * 2002-08-06 2005-03-07 The Johns Hopkins University System, software and methods for biomarker identification
EP1763837A1 (en) 2004-06-23 2007-03-21 Cedars-Sinai Medical Center System and methods for patient data and treatment management
WO2006060393A2 (en) * 2004-11-30 2006-06-08 Bg Medicine, Inc. Biological systems analysis
US20090012723A1 (en) 2005-06-09 2009-01-08 Chemlmage Corporation Adaptive Method for Outlier Detection and Spectral Library Augmentation
US7634364B2 (en) * 2005-06-23 2009-12-15 Life Technologies Corporation Methods and systems for mass defect filtering of mass spectrometry data
US8392418B2 (en) 2009-06-25 2013-03-05 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and model
US7884318B2 (en) 2008-01-16 2011-02-08 Metabolon, Inc. Systems, methods, and computer-readable medium for determining composition of chemical constituents in a complex mixture
DE102009032649B4 (de) * 2009-07-10 2017-12-21 Bruker Daltonik Gmbh Massenspektrometrische Identifizierung von Mikroben nach Unterarten
US8934685B2 (en) 2010-09-21 2015-01-13 General Electric Company System and method for analyzing and visualizing local clinical features
CA2819024C (en) * 2010-12-17 2016-07-12 Thermo Fisher Scientific (Bremen) Gmbh Data acquisition system and method for mass spectrometry
US9082600B1 (en) 2013-01-13 2015-07-14 Matthew Paul Greving Mass spectrometry methods and apparatus
US20140088885A1 (en) 2011-03-11 2014-03-27 Dong-Yup LEE Method, an apparatus, and a computer program product for identifying metabolites from liquid chromatography-mass spectrometry measurements
GB2532430B (en) 2014-11-18 2019-03-20 Thermo Fisher Scient Bremen Gmbh Method for time-alignment of chromatography-mass spectrometry data sets
WO2016094330A2 (en) 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US10319574B2 (en) * 2016-08-22 2019-06-11 Highland Innovations Inc. Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6639217B1 (en) * 2002-12-20 2003-10-28 Agilent Technologies, Inc. In-line matrix assisted laser desorption/ionization mass spectrometry (MALDI-MS) systems and methods of use
CN105793852A (zh) * 2013-12-04 2016-07-20 M·奥利尼克 具有海量医疗分析的医疗处理计算机规划方法和系统

Also Published As

Publication number Publication date
US20180053642A1 (en) 2018-02-22
US20190252172A1 (en) 2019-08-15
CN110139702A (zh) 2019-08-16
EP3493894A1 (en) 2019-06-12
US10910205B2 (en) 2021-02-02
US20210151306A1 (en) 2021-05-20
KR102258866B1 (ko) 2021-05-31
WO2018039102A1 (en) 2018-03-01
US10319574B2 (en) 2019-06-11
EP3493894A4 (en) 2020-07-01
KR20190076951A (ko) 2019-07-02

Similar Documents

Publication Publication Date Title
CN110139702B (zh) 利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控
US10713590B2 (en) Bagged filtering method for selection and deselection of features for classification
Bogdanow et al. Systematic errors in peptide and protein identification and quantification by modified peptides
EP2007434B1 (en) Method and system for determining whether a drug will be effective on a patient with a disease
Lam et al. Development and validation of a spectral library searching method for peptide identification from MS/MS
CN110057955B (zh) 乙型肝炎特异性血清标志物的筛选方法
David et al. SpecOMS: a full open modification search method performing all-to-all spectra comparisons within minutes
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
US20080086272A1 (en) Identification and use of biomarkers for the diagnosis and the prognosis of inflammatory diseases
Cordero Hernandez et al. Targeted feature extraction in MALDI mass spectrometry imaging to discriminate proteomic profiles of breast and ovarian cancer
Sun et al. Recent advances in computational analysis of mass spectrometry for proteomic profiling
US9563744B1 (en) Method of predicting development and severity of graft-versus-host disease
Mantini et al. A computational platform for MALDI-TOF mass spectrometry data: application to serum and plasma samples
Bhattacharyya et al. Biomarkers that discriminate multiple myeloma patients with or without skeletal involvement detected using SELDI-TOF mass spectrometry and statistical and machine learning tools
KR102113502B1 (ko) 말디토프 질량 분석에 의한 항생제 내성 판별 장치 및 방법
Zhou et al. Cell fingerprinting: An approach to classifying cells according to mass profiles of digests of protein extracts
US20210217526A1 (en) Cancer diagnosis using optimal clustering with successive deconvolution
CN116106398A (zh) 用于诊断ckd的标志物
CN112710722A (zh) 一种基于机器学习的生物标志物扩维筛选方法
CN115966299A (zh) 一种基于MALDI-ToF MS的数据的疾病诊断模型
Sreevatsa et al. Computational diagnostics based on proteomic data- review on approaches and algorithms
Jouve et al. Statistical power in MALDI/SELDI-TOF studies
Yasui et al. Profiling High-Dimensional Protein Expression Using MALDI-TOF: Mass Spectrometry for Biomarker Discovery
Grognuz et al. A Common Processing and Statistical Frame for Label-Free Quantitative Proteomic Analyses
Hundertmark Detection of protein modifications by noise model based analyses of regulatory information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant