CN116868272A

CN116868272A - 通过向量比较来识别感兴趣的样本的方法、介质和系统

Info

Publication number: CN116868272A
Application number: CN202180083539.6A
Authority: CN
Inventors: N·马丁; N·卢姆利; D·S·杜斯; D·杰克逊
Original assignee: Watson Technology Ireland Ltd
Current assignee: Watson Technology Ireland Ltd
Priority date: 2020-10-13
Filing date: 2021-10-13
Publication date: 2023-10-10
Also published as: WO2022079644A1; US11854780B2; US20220115220A1; EP4229641A1

Abstract

本公开提供了用于将感兴趣的样本与已知化合物的库进行比较以快速确定样本与库中的化合物的相似程度的方法、介质和系统。将样本数据中感兴趣的峰值与库化合物数据中的对应峰值进行比较。可以将这些峰值表示为向量，并且可将样本向量与库向量之间的角度用作相似度度量。在一些实施方案中，可以计算针对向量的余弦相似度。如果给定库化合物/样本对的相似度分数超过阈值，则系统确定库化合物和样本是相似的并采取适当的动作。可以调整与比较结果相关联的各种参数，从而提高结果的质量和/或处理的效率。

Description

通过向量比较来识别感兴趣的样本的方法、介质和系统

相关申请的交叉引用

本申请要求于2020年10月13日提交的美国临时专利申请63/091,069号的权益。该申请的全部公开内容据此以引用方式并入本文。

背景技术

质谱(MS)设备和液相色谱-质谱(LCMS)设备用于分析化学样本以研究该样本的特性、质量或结构。还存在用于样本分析的其他类型的装置，包括红外光谱仪和气体光谱仪。尽管IS装置和GS装置可能能够提供比MS装置更详细的信息，但它们也往往更复杂、更昂贵并且难以操作。因此，它们可能需要显著更多的时间来精确地分析样本。

发明内容

示例性实施方案提供了用于将感兴趣的样本与已知化合物的库进行比较以快速确定样本与库中的化合物的相似程度的方法、介质和系统。

根据第一实施方案，系统在质谱(MS)装置处接收感兴趣的样本用于分析。可以使用该MS装置分析感兴趣的样本，其中分析涉及生成该感兴趣的样本的多个光谱。可将该多个光谱分解成分箱(例如，基于光谱强度值)。

系统可以访问样本库，该样本库包括已知化合物的离子化信息。对于该样本库中的每种已知化合物，可以检索该化合物的多个关键峰值。可以将相应化合物的关键峰值与来自感兴趣的样本的一组光谱分箱进行比较。这可涉及将相应化合物的关键峰值和该组光谱分箱表示为向量，计算与该向量之间的角度差相对应的相似度值，以及将该相似度值与相似度阈值进行比较。

在一些实施方案中，光谱分箱可以是来自感兴趣的样本的最显著光谱分箱。在其他实施方案中，系统可避免对整个光谱执行分箱——相反地，其可识别光谱中的任何峰值，然后在该峰值的预定义或动态选择的裕度内选择该峰值周围的区域。此选择区域可充当分箱以用于比较目的。

在将相似度值与相似度阈值进行比较之后，系统可以识别出感兴趣的样本与相应化合物相似(如果相似度值超过相似度阈值的话)。然后，该系统可以响应于该识别，输出该感兴趣的样本与该相应化合物相似的指示。

通过比较来自感兴趣的样本的相对较少数量的关键峰值与来自库中的化合物的对应峰值来简单地确定相似度。因此，与系统试图进行样本的肯定性识别相比，系统可以更快更有效地确定相似度。

识别相似度与肯定地识别样本之间的一个区别在于识别相似度不是概率性的。换句话说，该系统能够辨别样本与来自库的化合物是相似的，但不一定确定两种化合物相似的可能性程度(尽管可以添加此功能，但会增加计算和时间成本)。例如，该系统可以识别样本和大麻素之间的相似度，但许多非大麻素化合物仍然可能与大麻素相似。因此，该系统未给出样本是大麻素的概率；其仅指出该化合物与大麻素存在相似度。尽管如此，相似度通常足以为进一步的后续工作作出初步确定，或者在速度至关重要的情况下作出决定。

此外，由于相似度被计算为两个向量之间的角度差，因此可以基于具有相对较少数量的输入的简单方程来确定相似度，从而进一步提高处理的效率和速度。由于n质量/强度值可以非常容易地在n-维向量空间中表示，因此依靠样本和库向量之间的角度是快速确定相似度的有效方式。

根据第二实施方案，

根据第三实施方案，该多个光谱可以由四个光谱组成。尽管可以用更多或更少的光谱来实现实施方案，但四个光谱产生了处理效率和特异性的良好平衡。因此，可以快速地而又精确度良好地确定相似度。

根据第四实施方案，作为来自用户的输入，系统可以接收用户定义的最显著分箱数量以用于与关键峰值进行比较。这种可调整性允许用户选择更多峰值(为了提高精度)或更少峰值(为了提高处理效率)以进行比较。

根据第五实施方案，系统可以接收用户定义的值作为输入以用于相似度阈值。根据用户对假阳性或假阴性的容忍度，用户因此有权调整库化合物的所需相似度水平以被视为对样本的“命中”或“未命中”。

根据第六实施方案，可以将向量之间的角度差表示为余弦相似度值。这提供了一种用于测量上述背景中两个样本之间的相似度的特别快速而简单的方式。

根据第七实施方案，可以基于与每个分箱相关联的光谱强度值和/或质量来对分箱进行加权。

通过对较高质量比对较低质量更多地加权，使得较高质量的碎片更多地计入最终结果。由于MS前体和较大的碎片往往是更可靠和更有用的测量(更具诊断性)，并且由于特别强调前体可能是有帮助的，因此有助于为较高的质量提供更大的重要性。这可以通过将增加的重量直接施加于较高质量的分箱(以及/或者将减小的重量施加于较低质量的分箱)、通过将每个分箱的强度乘以其质量，以及/或者将分箱强度提升到更高幂次(诸如质量²)来实现。

通过对较低强度的读数进行加权，使得它们比其他情况更多地计数，可以避免几个大的峰值主导结果的情况。通常，在几个大的峰值之后可能存在强度的显著下降，其风险在于这几个大的峰值“设定结果”。其他较小峰值可能不被考虑，即使它们可能包含有用信息。一种可能性是将强度值提升到小于一的幂(例如，取其平方根)，从而压缩高强度和低强度之间的差异。

根据第八实施方案，系统可以接收用户定义的分箱权重作为输入。通过使分箱权重可调，用户可根据其特定数据集定制该过程(例如，如果样本和/或库中的峰值倾向于在低质量碎片中更集中，则强调质量加权，或者如果样本和/或库数据中存在显著的强度下降，则强调较低强度读数)。

根据第九实施方案，可以对来自多个光谱中的一个光谱的分箱比对来自多个光谱中的其他光谱的分箱更高地加权。例如，在进行比较时，某些电压可能比其他电压信息量更大。因此，该系统对低压质谱比对较高压质谱更高地加权。在一些实施方案中，可以通过下述操作来执行加权：首先比较第一电压下的样本质谱和库质谱，并且确定相似度是否足以证明处理剩余光谱是合理的。这通过仅对最有可能与样本相似的化合物进行全面分析节省了处理资源。

根据第十实施方案，针对分箱中的每个分箱，可以计算分箱的强度与具有最高强度值的分箱的强度之间的比率。可以将比率低于强度比率阈值的任何分箱滤除。如果对尚未进行强度过滤的数据执行库匹配，则可能生成针对任何质量值的向量。当基于这些向量之间的角度确定相似度时，这增加了得到假阳性的可能性。因此，移除低于特定阈值(例如，最大峰值的峰值强度的5％)的任何向量降低了假阳性率。

根据第十一实施方案，上文提到的强度比率阈值可以是用户定义的并且可以作为输入被接收。通过使得允许用户设置阈值，用户可以根据应用需要来接受更多或更少的假阳性风险。

以上实施方案中的任一者可实现为存储在非暂态计算机可读存储介质上的指令并且/或者体现为具有存储器和被配置为执行上述动作的处理器的设备。

附图说明

为了容易识别对任何特定元件或动作的论述，参考标号中的一个或多个最有效数字是指首先引入该元件的附图标号。

图1示出了根据示例性实施方案的质谱系统的示例。

图2示出了根据一个实施方案的用于配置比较参数的用户界面。

图3A和图3B是描绘根据一个实施方案如何处理库和样本数据的数据流程图。

图4示出了根据一个实施方案的将样本峰值与两种不同的库化合物进行比较的示例。

图5示出了根据一个实施方案的相似度度量的示例。

图6示出了根据一个实施方案的示出比较结果的用户界面的示例。

图7A和图7B描绘了分别显示样本与来自库的第一化合物和第二化合物的比较结果的用户界面。

图8示出了根据一个实施方案的比较过程800。

图9描绘了可用于实践本文所述的示例性实施方案的例示性计算机系统架构。

具体实施方式

在一些情况下，可能不需要精确地识别样本，这可能花费大量时间。相反，快速确定所分析的样本是否属于某一类物质可能是有用的。

例如，考虑一种情况，即发现了一袋白色粉末，并且关于袋子中是否含有非法物质存在疑问。MS装置能够接受粉末的样本，分析该样本以确定其化学组成，然后确定组成粉末的精确元素。然而，该过程可能花费25-30分钟，这在某些情况下可能是令人难以承受的。此外，在该过程结束时，结果可能是样本只是糖或面粉，这意味着用于分析样本的时间本来可以更好地花费在执行其他任务或分析其他样本上。更有用的是，接收较快而细节较少的响应(例如，粉末是否为阿片类药物)，而不是尝试更具体地对物质进行分类。

这种能力在各种应用中都是有用的。例如，当外科医生移除肿瘤时，了解外科医生是切入健康组织还是癌组织将是有帮助的。花费25-30分钟来识别组织的具体组成意味着外科医生将无法在手术期间使用结果。另一方面，相对快速地获得简单的“是”或“否”可用于指导手术并且确保仅移除不健康的组织。这种能力可能有帮助的其他情况包括用于毒理学的尿液或血液筛查、食品确证、物种形成、植物表型的表征以及实时地或近乎实时地需要答案的其他应用。另外的应用可包括比照已知新生儿疾病和状况的库筛查新生儿的血液。

示例性实施方案接受感兴趣的样本并且用质谱(MS)设备对其进行分析。将分析结果与来自已知样本的类似结果的库进行比较，从而允许非常快速地进行二元决策(例如，“与库匹配”或“与库不匹配”)。

更具体地，可以通过使样本在MS设备中经受各种电压以将样本分解成组成成分来分析样本。每个电压可产生针对样本的不同质谱。然后可以通过将光谱分割成不同强度的“分箱”来简化或数字化样本的质谱。这可以允许识别样本中的最显著峰值。

可以将来自样本的经分箱的峰值与已知化合物的库进行比较。在该库中，每个已知化合物可以与表示一个或多个质谱中的显著峰值的数据相关联。系统可执行各种数据处理(归一化、加权等，如下文更详细描述)以准备样本数据和/或库数据来进行比较。然后系统可以计算指示样本与库中的一种或多种化合物的相似程度的相似度值。例如，系统可以将来自样本的数据和来自库的数据表示为不同的向量，然后可以计算将样本向量与库向量进行比较的余弦相似度值。可以将相似度值与阈值进行比较，以确定样本是否与库中的化合物足够相似。如果是，则系统输出相似度的标识。

由于这种方法的简单性，即使在具有较少硬件资源的计算装置上，也可以非常快速地接收结果。

此外，可以定制控制上述过程的各种参数以产生更好的结果。例如，可调的参数包括在库化合物和样本之间要比较的最大峰值数、基于每个峰值的强度和/或质量对每个峰值的加权、基于强度或某些其他值的滤波阈值、相似度阈值以及要强调的电压谱，以及其他可能性。由于系统是如此高度可调的，因此可将其配置为更高效或更低效地运行(例如，通过分别考虑更少或更多峰值)，并且滤除更多或更少结果(取决于用户对假阳性的容忍度)。

需注意，虽然下文相对于MS装置来描述技术，但所描述的原理也可应用于其他类型的装置，包括IS装置和GS装置。

本文所述的示例性实施方案提供了通过将来自样本的电离数据与已知化合物的库进行比较来识别感兴趣的样本的技术。系统实时地或近乎实时地将库文件的化合物与每个样本匹配，并且报告指示针对每种化合物的匹配强度的分数。不是将样本分解成元素或分子，然后

为了例示的目的，图1是可以结合本文的技术使用的系统的示意图。尽管图1描绘了特定LCMS配置中的特定类型的装置，但本领域的普通技术人员将理解，不同类型的装置(例如，MS、串联MS等)也可以结合本公开使用。还需注意，当本公开提及调整“MS设备”时，此术语可以涵盖结合质谱仪112所使用的系统的任何部分(诸如液相色谱104)。

样本102通过进样器106进样到液相色谱104中。泵108可以将样本泵送通过色谱柱110，以根据通过色谱柱的保留时间将混合物分离成组分部分。

来自色谱柱的输出被输入到质谱仪112中用于分析。最初，样本由去溶剂化/离子化装置114去溶剂化并且离子化。去溶剂化可以是任何去溶剂化技术，包括例如加热器、气体、与气体组合的加热器或其他去溶剂化技术。离子化可以采用任何离子化技术来实现，包括例如电喷雾离子化(ESI)、大气压化学离子化(APCI)、基质辅助激光解吸(MALDI)或其他离子化技术。由离子化产生的离子通过施加到离子导向器116的电压梯度被送入碰撞室118。碰撞室118可用于传递离子(低能量)或将离子碎片化(高能量)。

可以使用不同的技术(包括在授予Bateman等人的美国专利6,717，130号中描述的技术，该专利以引用方式并入本文)，其中可以在碰撞室118上施加交变电压来引起碎片化。收集低能量下的前体(无碰撞)以及高能量下的碎片(碰撞的产物)的光谱。

碰撞室118的输出被输入到质量分析仪120。质量分析仪120可以是任何质量分析仪，包括四极杆、飞行时间(TOF)、离子阱、扇形磁场质量分析仪以及它们的组合。检测器122检测从质量分析仪122发出的离子。检测器122可以与质量分析仪120成一体。例如，在TOF质量分析仪的情况下，检测器122可以是对离子强度进行计数(即，对射入的离子进行计数)的微通道板检测器。

存储装置124可以提供永久性存储装置来存储用于分析的离子计数。例如，存储装置124可以是内部或外部计算机数据存储装置，诸如磁盘、基于闪存的存储装置等。分析计算机126分析存储的数据。还可以实时分析数据，而不需要存储在存储介质124中。在实时分析中，检测器122将要分析的数据直接传递到计算机126，而不是首先将其存储到永久性存储装置中。

碰撞室118执行前体离子的碎片化。可以使用碎片化来确定肽的一级序列，随后识别起源蛋白质。碰撞室118包含气体，诸如氦气、氩气、氮气、空气或甲烷。当带电前体与气体原子相互作用时，所产生的碰撞可以通过将前体分解成所得的碎片离子而使前体碎片化。这种碎片化可以使用Bateman中描述的技术，通过将碰撞室中的电压在低电压状态(例如，低能量，<5V)和高电压状态(例如，高能量或升高能量，>15V)之间切换来实现，其中低电压状态用于获得肽前体的MS光谱，高电压状态用于获得前体的碰撞诱导碎片的MS光谱。高电压和低电压可以被称为高能量和低能量，因为分别使用高电压或低电压来将动能赋予离子。

可以使用各种规程来确定何时以及如何切换用于这种MS/MS采集的电压。例如，常规方法以目标或数据相关模式(数据相关分析，即DDA)触发电压。这些方法还包括目标前体的耦联的气相隔离(或预选)。低能量光谱由软件实时获取并检查。当所需的质量达到低能量光谱中的规定强度值时，碰撞室中的电压切换到高能量状态。然后获得针对预选的前体离子的高能量光谱。这些光谱包含在低能量下看到的前体肽的碎片。在收集到足够的高能量光谱之后，数据采集回到低能量状态，继续寻找具有合适强度的前体质量来用于高能量碰撞分析。

不同的合适方法可以与如本文所述的系统一起使用来获得离子信息，诸如结合对用于分析样本的质谱法的前体和产物离子的信息。尽管可以采用常规的切换技术，但实施方案可以使用Bateman中描述的技术，其可以被表征为以简单的交替循环来切换电压的碎片化规程。这种切换在足够高的频率下完成，以便在单一色谱峰内包含多个高能量光谱和多个低能量光谱。与常规的切换规程不同，该循环与数据的内容无关。在Bateman中描述的这种切换技术提供对前体离子和产物离子两者的有效的同时质量分析。在Bateman中，使用高能量和低能量切换规程可作为肽混合物单次进样的LC/MS分析的一部分来应用。在从单次进样或实验运行中采集的数据中，低能量光谱包含主要来自未碎片化前体的离子，而高能量光谱包含主要来自碎片化前体的离子。例如，可将前体离子的一部分碎片化以形成产物离子，并且基本上同时分析前体离子和产物离子，或者同时地，或者例如采用快速演替，通过向MS模块的碰撞室应用快速切换或交变电压，在低电压(例如，主要生成前体)和高电压或升高电压(例如，主要生成碎片)之间切换来调整碎片化。根据上述Bateman的技术，采用在高(或升高)能量和低能量之间交替的快速演替的MS操作在本文中也可以被称为Bateman技术和高-低规程。

总之，诸如当使用Bateman技术来操作系统时，样本102被进样到LC/MS系统中。LC/MS系统产生两组光谱，即一组低能量光谱和一组高能量光谱。该组低能量光谱主要包含与前体相关的离子。该组高能量光谱主要包含与碎片相关的离子。这些光谱被存储在存储介质124中。在数据采集之后，这些光谱可以从存储介质中提取出来，并且通过分析计算机126中的后采集算法来显示和处理。

由高-低规程采集的数据允许准确确定在低能量模式和高能量模式两者下收集的所有离子的保留时间、质荷比和强度。一般来讲，在两种不同的模式中看到不同的离子，并且在每种模式下采集的光谱可以单独或组合地被进一步分析。

如在一种或两种模式中看到的来自公共前体的离子将共享相同的保留时间(并因此具有基本上相同的扫描时间)和峰形。高-低规程允许在单个模式内和在模式之间对离子的不同特征进行有意义的比较。该比较然后可以用来将在低能量光谱和高能量光谱中看到的离子分组。

需注意，在本文所述的示例性实施方案中，该技术可被扩展以提供任何期望数量的光谱。例如，代替高能量光谱和低能量光谱，MS设备可以被配置为提供由施加四种不同电压产生的四种光谱。可以逐个化合物地选择电压。通常，最低电压可以表示将导致被分析的化合物一致地碎片化的最小电压量；刚性更大的结构可能需要更大电压来分解。最高电压可表示产生一致地展现出低于预定噪声极限的噪声的结果的最大电压量。两个中间电压可以与低电压和高电压均匀地间隔开，或者可以被选择以产生被认为特别令人感兴趣的数据。

可以将从存储在存储装置124中的感兴趣的样本中所捕获的数据与化合物库128进行比较。对于许多已知的化合物，化合物库128可以包含有关化合物的各种数据。除了其他数据之外，对于与化合物有关的每个数据条目，化合物库128可以指定采集数据时的电压以及在数据中记录的任何强度峰值。强度峰值可被指定为将采集值时的质量与给定质量的强度值组合的元组。该条目还可以识别这种峰值的数量。识别MS数据中的峰值是本领域普通技术人员已知的过程，并且为了简洁起见在此不进行描述。如果对于给定的化合物采集了多于一种光谱，则该库可以包括该化合物的多个条目，每个光谱对应一个条目。将可以存储在数据结构中的库的一部分的示例再现如下：

名称：苯佐卡因

式：C9H11NO2

MW：165

精确质量：165.078979

DB#：2

注释：

峰值数：8

7786；9271；94623；120831；12167；

138999；13974；166376；

名称：苯佐卡因

式：C9H11NO2

MW：165

精确质量：165.078979

DB#：3

注释：

峰值数：7

65447；77999；92548；93212；94635；

120991；138141；

名称：苯佐卡因

式：C9H11NO2

MW：165

精确质量：165.078979

DB#：4

注释：

峰值数：7

65999；66168；77740；92360；93172；

9474；12094；

可使用相似度逻辑部件130将化合物库128中的条目与由MS设备生成的质谱进行比较。下文结合图3A、图3B和图9更详细地描述相似度逻辑部件130的示例。

为了生成比较结果，用户可以调整一个或多个比较参数。图2描绘了适于调整参数的示例性界面。

该界面的一部分描绘了感兴趣的样本的光谱数据，包括突出显示的感兴趣区域202。由于光谱数据可以包括噪声和其他非相关数据(为了比较的目的)，因此系统自动地选择感兴趣区域202(通常包括数据中的大部分强度峰值)并且将其突出显示以供用户查看。用户可以通过移动滑块204来调整感兴趣区域202的大小。

此外，系统提供参数设置界面206，以允许用户调整用于比较的各种设置。为了便于阅读，下文在表1中描绘了可以调整的设置的示例：

表1

这些设置中的任一者都可由用户来输入。如果用户未指定设置，则其可默认为默认值。

如上所示，设置包括低峰值过滤，其指定光谱中的峰值必须达到的最小比率或百分比(与最大峰值尺寸相比)，以便在比较分析中考虑。在该示例中，低峰值过滤被设定为移除小于数据中的最高峰值的强度的5％的峰值。

设置还包括感兴趣的库峰值的数量。该参数设定了将与感兴趣的样本进行比较的库中化合物的每个光谱中的峰值数目的上限。在该示例中，分析中将包括至多五个峰值。如果库化合物未包括五个峰值(例如，如果该化合物仅包括四个峰值)，则可以使用针对该化合物的库的数据条目中的峰值的总数。如果库化合物刚好包括五个峰值，则可以使用那五个峰值。如果库化合物包括多于五个峰值，则可以选择五个最显著的峰值(例如，具有最高强度值的那些峰值)。

强度幂次表示要应用于峰值的强度的缩放指数。如上所述，其作用在于：压缩不同强度之间的差异，从而增加了较低强度的效果并且降低了大峰值将主导结果的可能性。

质量/电荷(m/z)幂次表示m/z值升高到的指数。其作用在于：使得更高质量在结果中更为重要，从而强调了前体和更大的碎片。

最终分数截止值可指示被认为与库化合物相似的感兴趣的样本所需的最小相似度值。如果相似度值低于最终截止分数，系统可以认为样本和库化合物不相似。如果相似度值高于该阈值，则库化合物可被包括在被认为与感兴趣的样本相似的化合物的列表中。该列表可以按相似度值来排序，存储在计算机可读介质中，并且/或者显示在界面上。

函数#1-4的权重可以表示分配给由向感兴趣的样本和/或库化合物施加不同电压产生的每个不同光谱的权重。在一个实施方案中，函数#1可表示最低电压，函数#2表示第二低电压，等等。如上所述，可能希望为函数#1赋予最高权重，因为该数据倾向于从比较结果中筛选出更多的库化合物。

图3A和图3B是示出根据示例性实施方案的信息交换的数据流程图。尽管此流程图出于说明目的描绘了特定示例，但设想也可应用不同配置(包括不同数量的峰值、库中不同数量的化合物、不同数量的电压以及处理步骤中的变化)。尽管所描绘的示例示出了每种化合物和感兴趣的样本中相同的峰值数量，但这不是必需的；如果峰值数量之间不相匹配，则可以根据结合图4所提供的解释，选择预定的或用户指定的最显著峰值数量进行比较。

库可以存储多种化合物的光谱数据，诸如库化合物1302和库化合物2312。每个库化合物与峰值数据相关联，诸如用于LC 1光谱1304、LC 1光谱2306、LC 1光谱3308、LC 1光谱4310、LC 2光谱1314、LC 2光谱2316、LC 2光谱3318、LC 2光谱4320的所描绘的值。在这一处理阶段，储存在库中的化合物的峰值数据可能已被归一化和分箱。

“归一化”是指将所选择峰值置于相同标度上的过程。在质谱分析中，可以进行归一化以校正不是由于感兴趣的峰值的实际变化引起的信号偏移。例如，如果比较两个不同的光谱，但由于技术仪器因素，一个光谱的信号是另一个的两倍高，则可以对此进行校正以确定在校正信号中的全局失真之后感兴趣的峰值水平是否发生变化。

如上所述，对应于不同电压的一些光谱可比其他光谱加权更多。这可能在一个轴上但不一定在另一轴上移动加权向量的值，从而改变了向量之间的角度。因此，可能重要的是将数据归一化到相同的标度上，以便可以公平地比较不同的函数。此外，如图3A和图3B所示，库中的数据可能已被归一化，而样本数据未被归一化；在这种情况下，归一化允许进行同类比较。

重要的是，通过将向量的值线性相乘来缩放向量不会改变经缩放的向量与另一向量之间的基础角度。因此，归一化将不影响本文所述的依赖于向量之间的角度的相似度度量。

“分箱”是指通过将数据数字化(将其分割成一定数量的“分箱”)来简化数据。例如，可以以1m/z分辨率对数据进行分箱，其中分箱的中心是整数值。例如，m/z 200处的分箱信号可包括从m/z 199.5至m/z 200.5的集成信号。以这种方式对数据进行分箱比执行峰值检测简单得多，因此可以快速且高效地完成。不考虑特定峰值的精确高度，而是考虑分箱内的集成值。如果分箱200中存在库化合物的信号，则将该值与分箱200中感兴趣的样本的值进行比较。因此，不需要进行对准和峰值匹配。

在另选的实施方案中，系统可在有限程度上执行峰值检测。例如，可以在数据中检测到峰值，然后可以定义峰值周围的裕度。该裕度可以是预定裕度，或者可以是动态确定的(例如，基于检测到的峰值的形状)。峰值和周围裕度可以用作用于下述目的的分箱。可以针对单个峰值或预定数量的峰值执行该处理。

如上所述，库中化合物的数据可能已被归一化和分箱。然而，样本化合物322的数据可能被归一化和分箱，也可能未被归一化和分箱。在图3A中所描绘的示例中，感兴趣的样本的数据既未归一化也未分箱。

在框332处，可将样本数据进行分箱，如上所述。这允许样本数据的格式与库数据的格式相匹配。在一个实施方案中，可以以1m/z分辨率对数据值进行分箱，其中分箱的中心为整数值。分配给每个分箱的值可表示从前一分箱到下一分箱的集成信号。

样本数据尚未归一化，因为它稍后将在选择感兴趣的峰值之后被归一化以进行比较。由于可以选择不同的峰值与不同的库化合物进行比较(参见图4)，因此在选择这些峰值之后进行归一化。

为此，然后选择峰值进行比较。对于每个库化合物，可以从库中检索峰值列表(例如，峰值列表1348和峰值列表2346)。所选择的峰值数可通过预定默认值或通过上文结合图2所描述的用户选定值来确定。对于每个库化合物，系统可以从对应于来自峰值列表的峰值的m/z分箱中的样本化合物中提取(分别在框342和框344处)分箱值。

然后系统可以在峰值集内进行归一化(在框350和框352处)。为了在这一阶段对数据进行归一化，系统可以将样本化合物组中与匹配值相关的每个峰值的强度(如框342和框344中所确定的)除以样本化合物数据集中的最高峰值的强度；这得出比例因子为1(在最高峰值的情况下)或更小(在样本化合物数据中其他峰值的情况下)。每个峰值的这一值乘以999，从而使得最高峰值取得999的值并且每个其他峰值获得缩放值。结果可以四舍五入成最接近的整数值，使得样本和库的数据精确度匹配。

在一些情况下，库数据中的最高峰值将与样本数据中的最高峰值为相同的峰值，如在来自下文表2的示例中所示(其中最高峰值以粗体指示)。

表2

在其他情况下，库数据和样本数据之间可能存在不同的最高峰值，如表3中的示例所示。在这种情况下，应当选择样本数据中的最高峰值，并且应当将其他样本数据归一化到该峰值。

表3

转到图3B，在峰值集内对数据进行归一化之后，结果可能是样本化合物光谱内与库化合物2312相关的峰值的归一化样本化合物峰值数据354和样本化合物光谱内与库化合物1302相关的峰值的归一化样本化合物峰值数据356。当然，当库包括更多化合物时，可以针对每种库化合物重复上述和下述过程。

然后，在框358和框360处，系统可以通过应用如上所述的预定或用户定义的加权因子来基于质量和强度对峰值进行加权。在一个实施方案中，加权可以适用以下公式1：

其中：

W＝加权峰值强度值

m/z＝所考虑的分箱的质量/电荷值

I＝所考虑的分箱的峰值的归一化强度值

a＝由用户指定的m/z幂次或预定值(2为合理的默认值)

b＝由用户指定的强度幂次或预定值(0.5为合理的默认值)

F＝应用于导致光谱被加权的函数(电压)的权重

然后系统可以通过将样本化合物与第一库化合物和第二库化合物进行比较来执行相似度计算F1364和相似度计算F1364。这可以通过创建四个向量来实现(在该示例中，使用两个库化合物)：第一向量表示被选择用于与库化合物1302比较的样本化合物峰值数据356；第二向量表示从库化合物1302中选择用于比较的峰值；第三向量表示被选择用于与库化合物2312比较的样本化合物峰值数据354；并且第四向量表示从库化合物2312中选择用于比较的峰值。然后系统可以计算第一向量和第二向量之间的角度，并且类似地计算第三向量和第四向量之间的角度。相似的化合物在它们相应的向量之间将具有相对较小的角度，而不相似的化合物将具有相对较大的角度。因此，可以基于向量之间的角度来计算相似度值。图5中描绘了用于理解上述向量的一种概念性技术。

用于计算向量之间的角度差的技术的一个示例是余弦相似度计算。余弦相似度可以根据如下公式2来计算：

其中x_i和y_i是来自被比较的数据集中的每组对应值(在该示例中，针对同一m/z分箱的每个数据集中的读数)。更一般地，公式2将样本x中的质量的强度乘以样本y中的相同质量的强度，然后将各种可用质量/分箱中的这些值求和。然后将该值除以x向量的毕达哥拉斯长度(通过在对所有x值求平方之后对它们求和，并且对总和求平方根，然后将该值乘以y向量的等效值来计算)。

在一些实施方案中，可以将对应于不同电压/光谱的函数F1-F4中的每个函数组合成单个向量，并且可以计算样本的向量与库化合物的向量之间的角度。然而，在图3B中采用略有不同的方法。在该示例中，在框362和框364处，仅将第一光谱(对应于具有最低电压的函数F1)的强度值转换为向量。仅计算F1函数的向量之间的相似度，并将其与阈值进行比较。在框366和框368处，确定该相似度是否低于阈值。如果是，则库化合物由于不相似而被拒绝，并且不需要进行处理来考虑函数F2-F4。否则，在框370和框372处，对函数F2-F4进行相似度计算；如果这些计算中的任一计算的结果是超过相似度阈值的相似度分数，则将所考虑的库化合物标记为与样本化合物相似。任何被发现具有相似度的库化合物都可以按其相似度分数列出和排名，并且最相似的化合物可以在界面上被显示并且突出显示(参见例如图6)。比较的结果可以存储在非暂态计算机可读介质中。

图4描绘了示出10个分箱的质量/电荷值中的每个值的强度的示例性光谱图。每个分箱的强度值在相应的条形上示出。如该示例中所示，最显著的峰值落在m/z分箱3中，并且具有999的强度值。

在图4中，峰值3、7和8与最高强度值相关联。然而，该系统可被配置为仅匹配样本中也与库化合物相关的那些峰值；仅提取相关分箱用于与每种库化合物进行比较。例如，第一库化合物可在分箱3、4和6处具有峰值(由图4中的星号指示)。因此，当将感兴趣的样本与第一库化合物进行比较时，仅考虑峰值3、4和6。另一方面，第二库化合物可在m/z分箱6、7和8处具有峰值。当将感兴趣的样本与第二库化合物进行比较时，仅考虑峰值6、7和8。

如上所述，强度值可以被归一化，使得最高峰被设置为值999，并且其他峰被缩放为对应值。需注意，当样本数据在图3A中被归一化时，数据相对于所考虑的库化合物被归一化。因此，当如上所述对第一库化合物进行归一化时，峰值在3、4和6处，数据被归一化为这些所选择峰值的最高值(峰值3)。在这种情况下，峰值3已具有强度值999，因此无需进一步执行任何操作来缩放数据。另一方面，当对第二库化合物进行归一化时，选择分箱6、7和8。这些峰值中的最高值在分箱7中，因此将分箱7的强度值700放大到999，并且按比例地调整剩余峰值。

上述向量可以根据图5中所描绘的示例进行概念化。

可通过定义n维空间来计算向量，其中n对应于所考虑的数据中的峰值数。n维空间中的每个轴可以对应于一个m/z分箱。然后可以将每个分箱的值绘制在其相应的轴上，并且可以计算指向该轴上的值的向量。这些结果可通过对向量求和来组合以定义组合向量，该组合向量的长度和方向取决于单个分箱向量的长度和方向。图5描绘了在三维空间中定义了两个向量U和L的示例。

从该描述中可以清楚地看出，如果样本的峰值与库化合物的峰值具有完全相同的值，则所得的向量将是相同的并且它们之间的角度θ将为0。如果峰值不同，则基础值发散得越多，向量之间的角度θ就将越大。

图6描绘了用于显示感兴趣的样本和库之间的比较结果的示例性界面。在该示例中，来自与样本比较的库的每种化合物连同它们的相似度得分一起示出在屏幕右侧的面板中。在一些实施方案中，仅显示其相似度分数超过相似度阈值的那些化合物，最相似的化合物显示在列表的顶部、被突出显示或以其他方式在视觉上区分。在其他实施方案中，可以显示库中被测试的所有化合物并对其进行排名，并且可以突出显示其相似度分数超过相似度度量的那些化合物。如果需要，用户可以在显示器中选择一种化合物以观察来自库化合物的所选择峰值相比于感兴趣的样本的峰值之间的比较结果，如图7A(对于大麻二酚库化合物)和图7B(对于THC库化合物)所示。

图8描绘了根据示例性实施方案的示例性比较过程800。尽管图8描绘了特定布置中的逻辑块，但本领域的普通技术人员将理解，示例性实施方案可利用比所描绘的逻辑块更多、更少或与之不同的逻辑块来实现。比较过程800可体现为存储在非暂态计算机可读介质上的指令，其中这些指令被配置为致使处理器执行结合每个逻辑块所描述的动作。

在框802处，可在MS设备处接收感兴趣的样本。在框804处，可通过MS设备分析感兴趣的样本以生成一个或多个光谱。在一个实施方案中，MS设备操作以生成四个光谱。

在框806处，系统可将来自框804的光谱分解成分箱。这可以以上文结合图3A的框332所描述的方式来执行；为了简明起见，这里不重复该描述。

在框808处，系统可访问样本库。例如，系统可以远程下载样本库(或来自样本库的条目)，或者可以访问存储在系统上的样本库的本地副本。样本库可以包括针对感兴趣的不同化合物的各种光谱的分箱并归一化数据。

在框810处，系统可选择库中的下一个化合物用于分析。如果用户指定要分析的特定化合物，则系统可以从用户的列表中选择该下一个化合物用于分析。

在框812处，系统可检索所选择化合物的关键峰值。这可以以上文结合来自图3A的峰值列表1348和峰值列表2346所描述的方式来执行；为了简明起见，这里不重复该描述。

在框814处，系统可将来自库化合物的关键峰值与来自样本化合物的对应峰值进行比较。这可以以上文结合来自图3A和图3B的框342到框360所描述的方式来执行；为了简明起见，这里不重复该描述。

在框816处，系统可计算针对在框814中执行的比较结果的相似度值。这可以以上文结合来自图3B的框362到框372所描述的方式来执行；为了简明起见，这里不重复该描述。

在决策框818处，系统可确定相似度值是否超过阈值，该阈值可为预定的或用户指定的。如果否，则处理前进至决策框822，并且系统确定是否还有更多的库化合物用于分析。

如果决策框818处的确定为“是”，则处理可前进至框820并且可将库化合物标记为与样本化合物相似。然后，处理可以前进至决策框822。

在决策框822处，系统确定是否已分析了所有可用的库化合物(或由用户选择的所有库化合物)。如果否，则处理返回到框810并且分析下一个库化合物。如果是，则处理前进至框824，并且系统输出相似度的指示。这可涉及将相似度分数存储在非暂态计算机可读介质中、经由网络传输相似度分数、显示结果界面(诸如图6、图7A和图7B中所描绘的结果界面)等。然后处理可终止。

图9示出了可用于在独立和/或联网环境中实现本文所述的一个或多个例示性方面的系统架构和数据处理装置的一个示例。诸如数据服务器910、web服务器906、计算机904和膝上型计算机902的各种网络节点可经由诸如互联网的广域网908(WAN)互连。也可以或可另选地使用其他网络，包括专用内联网、公司网络、LAN、城域网(MAN)、无线网络、个人网络(PAN)等。网络908是为了例示目的，并且可以用更少或更多的计算机网络来代替。局域网(LAN)可以具有任何已知LAN拓扑结构中的一个或多个拓扑结构，并且可以使用各种不同协议中的一个或多个协议，诸如以太网。装置数据服务器910、web服务器906、计算机904、膝上型计算机902和其他装置(未示出)可以经由双绞线、同轴电缆、光纤、无线电波或其他通信介质连接到一个或多个网络。

计算机软件、硬件和网络可用于各种不同的系统环境中，包括独立的、联网的、远程访问(也称为远程桌面)、虚拟化的和/或基于云的环境等等。

本文使用并在附图中所描绘的术语“网络”不仅指其中远程存储装置经由一个或多个通信路径耦接在一起的系统，而且还指可以不时地耦接到具有存储能力的此类系统的独立装置。因此，术语“网络”不仅包括“物理网络”，还包括“内容网络”，该内容网络由驻留在所有物理网络上的、能够归属于单个实体的数据构成。

部件可包括数据服务器910、web服务器906、客户端计算机904和膝上型计算机902。数据服务器910提供数据库和控制软件的整体访问、控制和管理，以用于执行本文所述的一个或多个例示性方面。数据服务器910可以连接到web服务器906，用户通过该web服务器与所请求的数据交互并获得该数据。另选地，数据服务器910本身可以充当web服务器并且直接连接到互联网。数据服务器910可通过网络908(例如，互联网)、经由直接或间接连接或经由某一其他网络连接到web服务器906。用户可使用远程计算机904、膝上型计算机902与数据服务器910交互，例如使用web浏览器经由由web服务器906托管的一个或多个外部公开web站点连接到数据服务器910。客户端计算机904、膝上型计算机902可以与数据服务器910一起使用以访问存储在其中的数据，或者可以用于其他目的。例如，从客户端计算机904，用户可使用互联网浏览器(如本领域已知的)或通过执行经由计算机网络(诸如互联网)与web服务器906和/或数据服务器910通信的软件应用程序来访问web服务器906。

服务器和应用程序可以组合在相同的物理机器上，并且保留单独的虚拟或逻辑地址，或者可以驻留在单独的物理机器上。图9仅示出了可以使用的网络架构的一个示例，并且本领域技术人员将理解，所使用的特定网络架构和数据处理装置可能有所不同，并且对于它们所提供的功能是次要的，如本文进一步描述的。例如，由web服务器906和数据服务器910提供的服务可被组合在单个服务器上。

每个部件数据服务器910、web服务器906、计算机904、膝上型计算机902可以是任何类型的已知计算机、服务器或数据处理装置。数据服务器910例如可包括控制数据服务器910的总体操作的处理器912。数据服务器910还可以包括RAM 916、ROM 918、网络接口914、输入/输出接口920(例如，键盘、鼠标、显示器、打印机等)以及存储器922。输入/输出接口920可以包括用于读取、写入、显示和/或打印数据或文件的各种接口单元和驱动器。存储器922还可以存储用于控制数据服务器910的总体操作的操作系统软件924、用于指示数据服务器910执行本文所述的各方面的控制逻辑部件926，以及用于提供可结合或不结合本文所述的各方面使用的辅助、支持和/或其他功能的其他应用软件928。控制逻辑部件在本文中也可被称为数据服务器软件控制逻辑部件926。数据服务器软件的功能可以指基于被编码到控制逻辑部件中的规则自动做出的、由向系统提供输入的用户手动做出的操作或决策，和/或基于用户输入(例如，查询、数据更新等)的自动处理的组合。

存储器1122还可以存储用于执行本文所述的一个或多个方面的数据，包括第一数据库932和第二数据库930。在一些实施方案中，第一数据库可包括第二数据库(例如，作为单独的表、报告等)。即，信息可根据系统设计存储在单个数据库中，或被分成不同的逻辑、虚拟或物理数据库。web服务器906、计算机904、膝上型计算机902可具有与相对于数据服务器910所描述的类似或不同的架构。本领域的技术人员将理解，如本文所述的数据服务器910(或web服务器906、计算机904、膝上型计算机902)的功能可分布在多个数据处理装置上，例如，以跨多个计算机分配处理负载，以基于地理位置、用户访问级别、服务质量(QoS)等来分离事务。

一个或多个方面可体现在计算机可用或可读数据和/或计算机可执行指令中，诸如体现在由如本文所述的一个或多个计算机或其他装置执行的一个或多个程序模块中。通常，程序模块包括例程、程序、对象、部件、数据结构等，其在由计算机或其他装置中的处理器执行时执行特定任务或实现特定抽象数据类型。这些模块可以用源代码编程语言来编写，这些源代码编程语言随后被编译以供执行，或者这些模块可以用诸如(但不限于)HTML或XML的脚本语言来编写。计算机可执行指令可以存储在诸如非易失性存储装置的计算机可读介质上。可以利用任何合适的计算机可读存储介质，包括硬盘、CD-ROM、光学存储装置、磁性存储装置和/或它们的任何组合。此外，如本文所述的表示数据或事件的各种传输(非存储)介质可以以通过信号传导介质(诸如金属线、光纤和/或无线传输介质)传播的电磁波的形式在来源与目的地之间传送。本文所述的各个方面可以体现为方法、数据处理系统或计算机程序产品。因此，各种功能可全部或部分地体现在软件、固件和/或硬件或硬件等效物(诸如集成电路、现场可编程门阵列(FPGA)等)中。特定数据结构可用于更有效地实现本文所述的一个或多个方面，并且设想此类数据结构在本文所述的计算机可执行指令和计算机可用数据的范围内。

可使用离散电路系统、专用集成电路(ASIC)、逻辑门和/或单芯片架构的任何组合来实现上文所述的装置的部件和特征。此外，在适当的情况下，可以使用微控制器、可编程逻辑阵列和/或微处理器或前述的任何组合来实现这些装置的特征。需注意，硬件、固件和/或软件元件在本文中可被统称为或单独地称为“逻辑部件”或“电路”。

应当理解，上述框图中示出的示例性装置可以表示许多可能具体实施的一个功能描述性示例。因此，附图中描绘的块功能的划分、省略或包含并不意味着用于实现这些功能的硬件部件、电路、软件和/或元件将必然在实施方案中被划分、省略或包含。

至少一个计算机可读存储介质可以包括指令，这些指令在被执行时使得系统执行本文所述的计算机实现的方法中的任一种。

可使用表述“一个实施方案”或“实施方案”以及其派生词来描述一些实施方案。这些术语意味着结合实施方案描述的特定特征、结构或特性包括在至少一个实施方案中。短语“在一个实施方案中”在说明书中不同位置处出现不一定都指同一实施方案。此外，除非另有说明，否则上述特征被认为可以以任何组合一起使用。因此，单独讨论的任何特征可以彼此组合地使用，除非指出这些特征彼此不相容。

一般参考本文使用的标记和命名，本文的详细描述可以按照在计算机或计算机网络上执行的程序过程来呈现。本领域的技术人员使用这些程序描述和表示来最有效地向本领域的其他技术人员传达他们工作的实质。

这里的过程通常被认为是带来期望结果的自洽操作序列。这些操作是需要对物理量进行物理操纵的那些操作。尽管不是必须的，但这些量通常采用能够被存储、传送、组合、比较和以其他方式操纵的电、磁或光信号的形式。实践证明，将这些信号称为位、值、元素、符号、字符、术语、数字等有时是很方便的，主要是出于通用的原因。然而，应当注意，所有这些和类似的术语都与适当的物理量相关联，并且仅仅是应用于这些量的方便标记。

此外，所执行的操纵通常被称为诸如添加或比较等术语，其通常与由人类操作者执行的脑力操作相关联。在形成一个或多个实施方案的一部分的本文所述的任何操作中，在大多数情况下，人类操作者的这种能力不是必需的或期望的。相反，这些操作是机器操作。用于执行各种实施方案的操作的有用机器包括通用数字计算机或类似装置。

可使用表述“耦接”和“连接”以及其派生词来描述一些实施方案。这些术语并不一定旨在互为同义词。例如，可使用术语“连接”和/或“耦接”来描述一些实施方案，以指示两个或更多个元件彼此直接物理或电接触。然而，术语“耦接”还可表示两个或更多个元件不彼此直接接触，但是仍然彼此协作或相互作用。

各种实施方案还涉及用于执行这些操作的设备或系统。该设备可以为所需目的而专门构造，或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。本文所呈现的过程本质上与特定计算机或其他设备不相关。各种通用机器可以与根据本文的教导内容编写的程序一起使用，或者可以证明构造更专用的设备来执行所需的方法步骤是方便的。各种这些机器的所需结构将出现在所给出的描述中。

需强调，提供本公开的摘要，从而允许读者快速地确定技术公开的实质。应当理解，所提交的摘要将不会被用于解释或限制权利要求的范围或含义。另外，在前述具体实施方式中，可以看出，可以出于简化本公开目的，各种特征在单一实施方案中被分组在一起。本公开的该方法不应被解释为反映要求保护的实施方案要求比每项权利要求中明确地表述的特征更多的特征的意图。相反，如以下权利要求所反映，本发明的主题比单个公开的实施方案的所有特征少。因此，以下权利要求在此结合到具体实施方式中，其中每项权利要求作为一个单独的实施方案独立存在。在所附权利要求中，术语“包括(including)”和“其中(in which)”分别用作相应术语“包括(comprising)”和“其中(wherein)”的通俗英文等效用语。此外，术语“第一”、“第二”、“第三”等仅用作标签，而不旨在对它们的对象强加数字要求。

上文已描述的内容包括所公开的架构的示例。当然，不可能描述部件和/或方法的每一种可想到的组合，但本领域的普通技术人员可以认识到，许多进一步的组合和置换是可能的。因此，该新型架构旨在涵盖落入所附权利要求书的实质和范围内的所有此类变更、修改和变型。

Claims

1.一种方法，包括：

在质谱(MS)装置处接收感兴趣的样本用于分析；

分析所述感兴趣的样本，所述分析包括生成所述感兴趣的样本的多个光谱；

将所述多个光谱分解成分箱；

访问样本库，所述样本库包括已知化合物的离子化信息；

对于所述样本库中的每种已知化合物，检索所述化合物的多个关键峰值；

将相应化合物的所述关键峰值与来自所述感兴趣的样本的一组分箱进行比较，所述比较包括：

将所述相应化合物的所述关键峰值和所述一组分箱表示为向量，

计算与所述向量之间的角度差相对应的相似度值，以及

将所述相似度值与相似度阈值进行比较；

当所述相似度值超过所述相似度阈值时，识别出所述感兴趣的样本与所述相应化合物相似；以及

响应于所述识别，输出所述感兴趣的样本与所述相应化合物相似的指示。

2.根据权利要求1所述的方法，其中将所述多个光谱分解成分箱包括识别所述多个光谱中的峰值并且生成对应于所述峰值的分箱。

3.根据权利要求1所述的方法，其中所述多个光谱由四个光谱组成。

4.根据权利要求1所述的方法，还包括接收用户定义的分箱数量作为输入以供与所述关键峰值比较。

5.根据权利要求1所述的方法，还包括接收用户定义的值作为输入以用于所述相似度阈值。

6.根据权利要求1所述的方法，其中所述向量之间的所述角度差被表示为余弦相似度值。

7.根据权利要求1所述的方法，还包括基于与每个分箱相关联的光谱强度值或质量中的一者或多者对所述分箱进行加权。

8.根据权利要求7所述的方法，还包括接收用户定义的分箱权重作为输入。

9.根据权利要求1所述的方法，还包括对来自所述多个光谱中的一个光谱的分箱比对来自所述多个光谱中的其他光谱的分箱更高地加权。

10.根据权利要求1所述的方法，还包括：

针对所述分箱中的每个分箱，计算所述分箱的强度与具有最高强度值的分箱的强度之间的比率；以及

从分析中滤除比率低于强度比率阈值的分箱。

11.根据权利要求10所述的方法，还包括接收用户定义的值作为输入以用于所述强度比率阈值。

12.一种非暂态计算机可读存储介质，所述计算机可读存储介质包括指令，所述指令在被计算机执行时使得所述计算机执行下述操作：

在质谱(MS)装置处接收感兴趣的样本用于分析；

将所述多个光谱分解成分箱；

访问样本库，所述样本库包括已知化合物的离子化信息；

将所述相应化合物的所述关键峰值与来自所述感兴趣的样本的一组分箱进行比较，所述比较包括：

计算与所述向量之间的角度差相对应的相似度值，以及

将所述相似度值与相似度阈值进行比较；

13.根据权利要求12所述的计算机可读存储介质，其中将所述多个光谱分解成分箱包括指令，所述指令将所述计算机配置为识别所述多个光谱中的峰值并且生成对应于所述峰值的分箱。

14.根据权利要求12所述的计算机可读存储介质，其中所述多个光谱由四个光谱组成。

15.根据权利要求12所述的计算机可读存储介质，其中所述指令将所述计算机进一步配置为接收用户定义的分箱数量作为输入以供与所述关键峰值比较。

16.根据权利要求12所述的计算机可读存储介质，其中所述指令将所述计算机进一步配置为接收用户定义的值作为输入以用于所述相似度阈值。

17.根据权利要求12所述的计算机可读存储介质，其中所述向量之间的所述角度差被表示为余弦相似度值。

18.根据权利要求12所述的计算机可读存储介质，其中所述指令将所述计算机进一步配置为基于与每个分箱相关联的光谱强度值或质量中的一者或多者对所述分箱进行加权。

19.根据权利要求18所述的计算机可读存储介质，其中所述指令将所述计算机进一步配置为接收用户定义的分箱权重作为输入。

20.根据权利要求12所述的计算机可读存储介质，其中所述指令将所述计算机进一步配置为对来自所述多个光谱中的一个光谱的分箱比对来自所述多个光谱中的其他光谱的分箱更高地加权。

21.根据权利要求12所述的计算机可读存储介质，其中所述指令将所述计算机进一步配置为：

从分析中滤除比率低于强度比率阈值的分箱。

22.根据权利要求21所述的计算机可读存储介质，其中所述指令将所述计算机进一步配置为接收用户定义的值作为输入以用于所述强度比率阈值。

23.一种计算设备，包括：

处理器；和

存储器，所述存储器存储指令，所述指令在由所述处理器执行时将所述设备配置为：

在质谱(MS)装置处接收感兴趣的样本用于分析；

将所述多个光谱分解成分箱；

访问样本库，所述样本库包括已知化合物的离子化信息；

将所述相应化合物的所述关键峰值和所述一组分箱表示为向量；

计算与所述向量之间的角度差相对应的相似度值，以及

将所述相似度值与相似度阈值进行比较；

当所述相似度值超过所述相似度阈值时，识别所述感兴趣的样本与所述相应化合物相似；以及

24.根据权利要求23所述的计算设备，其中将所述多个光谱分解成分箱包括指令，所述指令将所述设备配置为识别所述多个光谱中的峰值并且生成对应于所述峰值的分箱。

25.根据权利要求23所述的计算设备，其中所述多个光谱由四个光谱组成。

26.根据权利要求23所述的计算设备，其中所述指令将所述设备进一步配置为接收用户定义的分箱数量作为输入以供与所述关键峰值比较。

27.根据权利要求23所述的计算设备，其中所述指令将所述设备进一步配置为接收用户定义的值作为输入以用于所述相似度阈值。

28.根据权利要求23所述的计算设备，其中所述向量之间的所述角度差被表示为余弦相似度值。

29.根据权利要求23所述的计算设备，其中所述指令将所述设备进一步配置为基于与每个分箱相关联的光谱强度值或质量中的一者或多者对所述分箱进行加权。

30.根据权利要求29所述的计算设备，其中所述指令将所述设备进一步配置为接收用户定义的分箱权重作为输入。

31.根据权利要求23所述的计算设备，其中所述指令将所述设备进一步配置为对来自所述多个光谱中的一个光谱的分箱比对来自所述多个光谱中的其他光谱的分箱更高地加权。

32.根据权利要求23所述的计算设备，其中所述指令将所述设备进一步配置为：

从分析中滤除比率低于强度比率阈值的分箱。

33.根据权利要求32所述的计算设备，其中所述指令将所述设备进一步配置为接收用户定义的值作为输入以用于所述强度比率阈值。