CN104185848B

CN104185848B - 参考光谱信息的管理和搜索

Info

Publication number: CN104185848B
Application number: CN201380005162.8A
Authority: CN
Inventors: 克莱格·M·加德纳; 罗伯特·L·格林
Original assignee: Thermo Niton Analyzers LLC
Current assignee: Thermo Scientific Portable Analytical Instruments Inc
Priority date: 2012-01-31
Filing date: 2013-01-17
Publication date: 2018-05-18
Anticipated expiration: 2033-01-17
Also published as: US20130197815A1; RU2014135284A; CN104185848A; EP2810214B1; WO2013115998A1; AU2013215576A1; EP2810214A1; US9514360B2; AU2013215576B2; RU2603491C2

Abstract

一个处理应用接收与多个已知参考样品相关的峰信息。该处理应用将一个光谱分区为多个不同大小的范围区段，使得与这些已知参考样品相关的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。为了鉴别一个参考样品库中潜在地是一个受测的未知样品的良好匹配的一组候选参考样品，该处理应用将与该未知样品相关的峰与该多个不同大小的范围区段进行比较。基于该未知样品中的峰和一个相对应的参考样品中的峰的范围区段匹配的数目越大，该未知样品与该相对应的参考样品匹配的可能性越大。

Description

参考光谱信息的管理和搜索

背景

已知可以对样品进行光谱分析以鉴别它的类型。例如，一种受测的未知样品的光谱分析可以包括鉴别一个或多个峰值波长值。该未知样品的峰值波长与一种已知参考样品的峰特征信号(signature)的仔细匹配可以表明该未知样品是否可能是与该参考样品相同的物质。

在现代多通道仪器中，在其中搜索一种未知样品并且将其与一种已知样品进行匹配的一个参考数据库可能要求大量的处理和存储资源。例如，接收对于一个未知样品的每个测量的包括连续的一千个或更多个数据点的光谱分析并不少见。

此外，在常规谱图搜索应用中，一个参考数据库包括多于10,000组的光谱信息(对于每个参考样品一组光学信息)并不少见。

一个对应参考样品的每组光谱信息可以由定义峰、谷等等的一千个或更多个数据点组成。将一个未知样品中的光谱信息(例如，一千个或更多个数据点)与多于10,000组的光谱信息(例如，一千个或更多个数据点)中的一个对应的组进行匹配可能是在计算上有挑战性的。例如，当一个2000点未知光谱在一个具有10,000个参考谱(其中每一个包含2000个信息通道)的库中进行搜索时，如果没有规定使用一种计算上有效的搜索方法学，则必须执行20,000,000次或更多次的操作(逐点比较)。

一种更有效地进行该搜索方法学的方法是在分析之前将光谱数据压缩为一种二进制格式。根据常规光谱学，将一个光谱二进制化的一种之前方法是关于一个峰的存在或不存在进行评价。当将两个光谱进行比较时，如光谱A和光谱B，一种方法将是查找光谱A的一个峰表并且给其中光谱B在那个峰的n个波数(或其他合适单位，例如像素、m/z等等)内也含有一个特征的任何位置指定一个为一的值。将一个零值分配给其中光谱B不含有一个峰的光谱A的峰表的任何位置。这种方法由Clerc等人在1980年代进行了描述。

尽管这种常规方法提供总体的相似度排行，但它不提供任何种类的概率性解释。还值得注意(并且由Clerc所指出)的是，根据这种常规方法，候选匹配的得分取决于该搜索的方向(结果是非对称的)。例如假设光谱A包含10个峰，光谱B包含12个峰，并且发现这些峰中的8个是共有的。由于基于存在的峰的数目将对应的得分进行归一化，因此可以产生8/10或8/12的值。

实施例的简要说明

如以上所讨论的，基于光谱分析将一种未知样品与在一个数据库中的一种已知参考样品进行匹配的常规技术可能是具有挑战性的，由于必须进行比较以精确地鉴别一个适当的匹配的数据点的量。在许多情况下，不希望要求冗长的计算来确定与一个未知样品匹配的一个或多个参考样品以鉴别该未知样品的类型。

此外，常规的光谱匹配技术典型地不足以快速鉴别匹配，因为此类技术仅提供表明多个可能参考样品中的哪一个与该未知样品匹配的一个清单。该候选物的常规排序清单可能是误导性的。例如，根据常规清单，不知道一个清单中的一个第一候选参考样品(即，第一已知样品)是否是比该清单中的一个第二候选参考样品(即，第二已知样品)更可能为一个与该受测样品的匹配。换句话说，常规技术典型地不提供表明一个清单中的多个候选物中的哪一个更可能是与一个受测的未知样品的适当匹配的任何有用的概率信息。

与常规技术相比，总体上，在此的实施例包括将与一个或多个参考样品相关的光谱处理信息转化为一种更紧凑的形式。另外，在此的实施例包括一种搜索一个光谱库的计算上有效的方法学。例如，至少部分基于一种管理光谱库中的信息的独特方式(例如，压缩数据)，更少的数学操作对于进行光谱搜索以鉴别更可能与该未知样品匹配的参考样品的一个可管理的子集是必需的。注意到如在此所讨论的处理很好地适合于用于任何类型的光谱学应用中，其中光谱峰提供关于一种受测的未知样品的身份的线索。

更确切地说，根据一个实施例，一种处理应用接收指定在一个库中的多个参考样品中的每一个参考样品的一个相对应组的峰的信息。该处理应用(例如，光谱数据处理器)将一个光谱分区以包括多个不同宽度的区段，在本文件的剩余部分被称为范围区段。该光谱可以被分区，使得该多个参考样品中的每个峰驻留在该多个不同大小的范围区段的一个或多个中。

在一个实施例中，将该光谱分区为多个不同大小的范围区段包括定义该多个不同大小的范围区段中的每一个的宽度和/或边界，使得与这些参考样品相关的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。为了鉴别候选参考匹配，总体上，该处理应用将与一个未知样品相关的峰与该多个不同大小的范围区段进行比较、映射、索引等等。将该受测的未知样品中的峰与这些范围区段中的一个或多个进行匹配使得一个分析器能够鉴别作为该受测的未知样品的良好匹配的候选物的参考样品。换句话说，在该受测的未知样品与一个对应的参考样品之间共享的共同范围区段的数目越大，该受测的未知样品更可能与该对应的参考样品相匹配。

根据一个实施例，注意到如在此所讨论的这些技术可以包括将一种未知样品与一个池中的所有可能的参考样品进行分析和/或比较。对于该池中的一个或多个参考样品中的每一个，在此的实施例可以进一步包括产生对于任何或所有参考样品中的每一个的一个相对应的p值(例如，概率信息)。如在此所讨论的，进一步分析该概率信息使得能够鉴别该未知样品与一个参考样品的良好或最好的可能的匹配。

与另一个实施例相关联，对于被鉴别为一个候选匹配的每个对应的参考样品，如在此所讨论的处理应用产生概率信息。该概率信息可以表明信息，如该对应的候选参考样品与该受测的未知样品相对接近的匹配的程度。因此，在此的实施例可以包括其中鉴别潜在的候选物的一个多步骤过程，并且然后可以在该组候选物上进行一个另外的分析以鉴别概率匹配。

在此的某些实施例包括至少部分基于二进制定点算法而产生概率信息。

根据另外的实施例，如果一个对应的候选参考样品具有与该受测的未知样品匹配的合理良好的机会，那么可以进行另外的处理以确定这些候选参考样品中的哪一个是与该受测的未知样品的最好匹配。

将该未知样品与一个对应的参考样品之间的峰进行比较可以包括基于将与该未知样品相关的峰索引到该多个不同大小的范围区段中，鉴别为该未知样品的候选匹配的多个参考样品的一个子集。如在此讨论的索引可以包括鉴别该未知样品的峰驻留在多个范围区段的哪一个中的实例技术中的任一者。

通过另外的非限制性实例，将该光谱分区以包括不同大小的范围区段可以包括根据一个超几何分布模型来选择该不同大小的范围区段的边界。

进行一个搜索和/或产生该概率信息可以包括执行一个超几何概率函数来产生表明该未知样品与该多个参考样品中的一个对应的样品是否匹配或匹配程度的概率信息。

根据又另一个实施例，该超几何分布使用与参考样品相关的峰信息的集合特性(例如，已知样品和对应的峰数据)。如在此讨论的分析可以包括计算一个对应的峰匹配是一个随机事件的概率。

根据另外的实施例，如在此所讨论的处理应用可以被配置为产生该未知样品的一串符号。经由该串中的符号如逻辑符号或零，该未知样品的串表明该未知样品的一个对应的峰驻留在该多个不同大小的范围区段的哪一个中。该未知样品的串还可以表明该未知样品的一个对应的峰不驻留在该多个不同大小的范围区段的哪一个中。

该处理应用还可以产生一个多个参考样品的库中的每个参考样品的一个对应串的符号。一个对应的串表明该对应的参考样品的一个峰驻留在该多个不同大小的范围区段的哪一个中。该参考样品的对应的串还可以表明该对应的参考样品的一个峰不驻留在该多个不同大小的范围区段的哪一个中。

根据另外的实施例，该处理应用至少部分基于该未知样品的一个二进制串和与这些参考样品相关的对应的二进制串之间的相似度来获得概率信息。也就是说，总体上，在该未知样品的二进制串和与一个对应的参考样品相关的对应的二进制串之间的匹配的数目越大，那么该未知样品与该相对应的参考样品匹配的可能性越大。

将与一个未知样品相关的峰索引至该多个不同大小的范围区段可以包括，对于该多个参考样品中的每个对应的参考样品：产生一个值，k，该值k表明该未知样品的一个峰落入其中该对应的参考也包括一个峰的一个区段中的发生次数；产生一个值，N，表明一个光谱被划分为的多个不同大小的区段的总数；产生一个值，n，表明该对应的参考样品中存在的峰的总数；并且产生一个值，m，表明该未知样品中存在的峰的总数。

基于如以上所讨论的数据，在此的实施例包括基于以下实例方程式产生这些对应的参考样品中的每一个的概率信息(例如，一个p值)：

p值＝1-CDF

该p值越小，该未知样品越有可能是与该对应的参考样品相同。

在此的一个实施例包括计算一个概率值，以便检验在该参考样品与一个给定的参考样品之间的一个观察到的峰和/或参考区段匹配偶然发生的零假设。

通过另外的非限制性实例，该应用包括计算在该未知样品中的峰和该给定的参考样品中的峰与该具体的范围区段之间的一个匹配是一个随机事件的概率。如以上提及的，在此的实施例是比常规技术有利的。例如，在此的一个实施例包括搜索一个参考样品的库以快速地将候选物的数目缩小至更可能与该受测的未知样品匹配的一个更小组的参考样品的一种计算上有效的方法。如所提及的，在一个实施例中，一个处理资源将二进制定点算法施用到减少数目的数据点上以鉴别候选物匹配。如在此讨论的某些搜索操作比交替计算方法快了一个数量级以上，并且因为该方法是概率性的，所以这些计算维持高精度。

另外的实施例

按照如以上所讨论的方式，注意到在此的实施例包括产生并且存储峰和区段信息。例如，如以上所讨论的，光谱数据处理器可以被配置为接收光谱信息(例如，表明多个参考样品中的每一个参考样品的一组峰)。该光谱数据处理器将一个光谱分区以包括多个不同大小的范围区段。该多个参考样品中的每一个峰(如由该光谱信息所指明的)驻留在该多个不同大小的范围区段之一中。该光谱数据处理器将峰信息和区段信息作为峰和区段信息进行存储。存储的峰和区段信息包括表明对于该分区的光谱产生的多个不同大小的范围区段的区段信息。该峰和区段信息的存储的峰信息表明该多个参考样品中的峰驻留在该多个不同大小的范围区段的哪一个中。

按照如以上所讨论的方式，注意到在此的实施例包括鉴别在一个未知样品与该多个参考样品之间的可能匹配。例如，如以上所讨论的，分析器应用被配置为访问峰和区段信息。更确切地说，在一个实施例中，该分析器应用接收范围区段信息(例如，峰和区段信息)。该范围区段信息表明一个光谱已被分区为的多个不同大小的范围区段。该分析器应用进一步接收来自该峰和区段信息的峰信息。该峰信息表明与该多个参考样品中的每一个相关的一组峰。该峰信息进一步表明这些峰中的每一个驻留在该多个不同大小的范围区段的哪一个中。为了鉴别与该未知样品匹配的可能候选物，该分析器应用将与一个未知样品相关的峰的位置索引至该多个不同大小的范围区段。

以下更详细地描述了这些和其他更具体的实施例。

注意到在此的实施例可以包括配置一个或多个计算机化装置、服务器、基站、无线通讯设备、通讯管理系统、工作站、手持式或膝上型计算机、或类似物以进行和/或支持在此披露的任何或所有方法操作。换句话说，一个或多个计算机化装置或处理器可以被编程和/或配置为如在此所解释的进行操作来进行本发明的不同实施例。

在此的又其他实施例包括软件程序以进行以下概述的并且以下详细披露的步骤和操作。一个此类实施例包括包含一个非暂时性的计算机可读存储介质(即，任何计算机可读硬件存储介质)的一个计算机程序产品，在其上软件指令被编码用于随后的执行。这些指令，当在一个具有处理器的计算机装置中执行时，编程和/或导致该处理器进行在此披露的操作。此类安排典型地作为安排或编码在一个非暂时性(即，非载波)计算机可读存储介质如一种光学介质(例如，CD-ROM)、软盘、硬盘、记忆棒等上的软件、代码、指令、和/或其他数据(例如，数据结构)，或其他介质如在一个或多个ROM、RAM、PROM等中的固件或短代码，或者作为一个专用集成电路(ASIC)等被提供。该软件或固件或其他此类配置可以被安装到一个计算机化装置上以导致该计算机化装置进行在此解释的技术。

因此，在此的实施例是针对支持如在此讨论的操作的一种方法、系统、计算机程序产品等。

例如，一个实施例包括一种具有存储在其上的指令的计算机可读存储介质或计算机可读硬件介质。这些指令，当由一个对应的计算机装置的处理器执行时，导致该处理器或多个处理器：接收多个参考样品中的每个参考样品的一个相对应的组的峰；将一个光谱分区以包括多个不同大小的范围区段，该多个参考样品中的每个峰驻留在该多个不同大小的范围区段之一中；并且将与一个未知样品相关的峰与该多个不同大小的范围区段进行比较。

根据另一个实施例，一种计算机可读存储介质或计算机可读硬件介质包括存储在其上的指令。这些指令，当由一个对应的计算机装置的处理器执行时，导致该处理器或多个处理器：接收范围区段信息，该范围区段信息表明一个光谱已被分区为的多个不同大小的范围区段；接收峰信息，该峰信息表明与该多个参考样品中的每一个相关的一组峰，该峰信息进一步表明这些峰中的每一个驻留在该多个不同大小的范围区段的哪一个中；并且将与一个未知样品相关的峰的位置索引至该多个不同大小的范围区段。

根据又另一个实施例，一种计算机可读存储介质或计算机可读硬件介质包括存储在其上的指令。这些指令，当由一个对应的计算机装置的处理器执行时，导致该处理器或多个处理器：接收多个参考样品中的每个参考样品的一个组的峰；将一个光谱分区以包括多个不同大小的范围区段，该多个参考样品中的每个峰驻留在该多个不同大小的范围区段之一中；并且存储区段信息，该区段信息表明对于该分区的光谱产生的多个不同大小的范围区段。

为了清楚起见，已经添加了以上步骤的排序。这些步骤可以按任何合适的顺序来进行。

本披露的其他实施例包括软件程序和/或对应的软件以进行以上概述的并且以下详细披露的任何方法实施例步骤和操作。

应理解如在此讨论的计算机可读存储介质等上的系统、方法、装置、指令还可以严格地作为一个软件程序、固件，作为软件、硬件和/或固件的混合，或单独作为如在一个处理器内、或在一个操作系统内或在一个软件应用内的软件来执行。

如在此讨论的，在此的技术很好地适合于应用如光谱信息的处理和使用中。然而，应该指出在此的实施例不受限于此类应用中的使用并且在此讨论的技术也很好地适合于其他应用中。

另外，注意到在此的这些不同特征、技术、配置等中的每一个可以在本披露的不同地方中进行讨论，旨在，在合适时，这些概念的每一个可以任选地独立于彼此或与彼此组合来执行。因此，如在此描述的一个或多个本发明可以按许多不同的方式来实施和观察。

而且，注意到在此的这个实施例的初步讨论有目的地不指定本披露或者一个或多个所要求的发明的每个实施例和/或递增地新颖方面。相反，这个简要说明仅呈现了总体实施例和具有超过常规技术的新颖性的相应点。对于一个或多个本发明的另外的细节和/或可能的角度(排列、元素、方面等等)，读者是针对如以下进一步讨论的本披露的文本详细说明部分和相应的图。以下详细说明，除了提供本发明的细节的复杂描述之外，还提供了本发明或多个发明的另外的发明概述。

附图简要说明

本发明的前述和其他目的、特征、和优点从以下在此优选实施例的更具体描述将是清楚的，如在附图中所展示的，其中类似参考符号指代贯穿不同视图的相同部分。这些附图不一定是按比例绘制的，相反重点被放在展示实施例、原理、概念等上。

图1是展示根据在此实施例的一种处理环境的示例图。

图2是展示根据在此实施例的处理光谱信息并且产生具有变化宽度的多个范围区段的示例图。

图3是展示根据在此实施例的与一个搜索池中的多个参考样品中的每一个参考样品相关的峰信息的示例图表。

图4是展示根据在此实施例的将一个未知样品中的峰索引至相对应的范围区段的示例图。

图5是展示根据在此实施例的与一个受测的未知样品相关的光谱信息的图表的示例图。

图6是展示根据在此实施例的产生二进制串的示例图。

图7是展示根据在此实施例的与该未知样品中的峰的比较相关的计数信息的示例图。

图8是展示根据在此实施例的将一个光谱分区以包括具有相等宽度的多个范围区段的示例图。

图9是展示根据在此实施例的将一个光谱分区以包括具有变化宽度的多个范围区段的示例图。

图10是展示根据在此实施例的与一个未知样品相关的峰信息的示例图。

图11是展示根据在此实施例的在其上执行方法的实例构造的示例图。

图12-14是展示根据在此实施例的实例方法的流程图。

详细说明

通过非限制性实例，一种光谱处理应用接收与多个参考样品相关的峰信息。该光谱处理应用将一个峰分区为多个不同大小的范围区段，使得与这些参考样品相关的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。为了鉴别潜在地与一个受测的未知样品匹配的来自一个参考库数据库的候选参考样品，一个搜索应用将与该未知样品相关的峰与该多个不同大小的范围区段进行比较。通常，在该未知样品与一个相对应的参考样品之间的区段匹配的数目越大，该未知样品与该相对应的参考样品匹配的可能性越大。

更确切地说，图1是根据在此实施例的一种处理环境的示例图。

如所示出的，存储库180-1存储了从分析一个已知参考样品池获得的一个光谱信息110的库。在一个实施例中，光谱信息110表明在该多个参考样品中的每一个的对应分析过程中获得的光谱响应。光谱信息110可以基于任何合适类型的光谱分析而产生。

与这些已知参考样品105相关的光谱信息110可以被存储在任何合适的格式中。例如，光谱信息110可以表明与这些参考样品中的每一个相关的峰。

在其他实施例中，光谱信息110可以包括这些参考样品中的每一个的扫描分析。在后一个实施例中，这些已知参考样品中的每一个的光谱信息110可以包括数据如跨过一个光谱波长的多个样品数据、与一个对应的已知参考样品相关的峰信息等。

如在此讨论的，光谱数据处理器120处理该多个已知参考样品的光谱信息110。基于该处理，光谱数据处理器120产生峰和区段信息130并且将其存储在存储库180-2中。

在一个实施例中，光谱数据处理器120检索来自存储器180-1的光谱信息110并且处理光谱信息110以鉴别该多个参考样品中的每一个的相对应的组的峰。

与存储光谱信息110所需要的存储量相比，可以将存储在存储库180-2中的峰和区段信息130压缩。换句话说，存储多个已知参考样品的光谱信息110所要求的存储容量可以是实质上大小大于存储峰和区段信息130所需要的存储容量。

在此的实施例可以进一步包括未知样品分析器135。未知样品分析器135分析该未知样品并且产生光谱信息150。光谱信息150包括提供关于该未知样品的身份的线索的峰信息。

如以下进一步讨论的，分析器应用140将从该未知样品获得的光谱信息150与峰和区段信息130进行比较以产生候选参考样品160和相对应的概率信息170。

因此，与仅仅鉴别与一个受测的未知样品匹配的一个候选物清单的常规方法相比，在此的实施例包括将多个已知参考样品110的光谱信息110转换和/或压缩为峰和区段信息130并且然后产生概率信息170，该概率信息表明候选参考样品160与该未知样品的良好匹配的程度。

通过一个非限制性实例，在一个实施例中，分析器应用140在一个移动、手持式现场装置中执行。该手持式装置可能具有有限的处理和存储资源。该手持式装置可以被配置为存储峰和区段信息130并且进行光谱信息150与这些参考样品的比较以产生候选参考样品160和概率信息170。

图2是展示根据在此实施例的将多个已知参考样品的光谱信息110转换为峰和区段信息130的示例图。

如所示出的，多个已知参考样品的光谱信息110可以包括：从分析参考样品A获得的光学信息110-1、从分析参考样品B获得的光学信息110-2、从分析参考样品C获得的光学信息110-3、等等。

如之前所提及的，多个已知参考样品110的光谱信息110可以以任何合适的形式被存储以代表一个之前分析的结果。例如，已知参考样品A的之前分析产生光谱信息110-1，已知参考样品B的之前分析产生光谱信息110-2，已知参考样品C的之前分析产生光谱信息110-3，等等。因此，光学信息对于这些参考样品中的每一个是已知的。

在这个实例中，与参考样品A相关的光谱信息110-1包括峰PA1、PA2、PA3、PA4、PA5、PA6...；与参考样品B相关的光谱信息110-2包括峰PB1、PB2、PB3...；与参考样品C相关的光谱信息110-3包括峰PC1、PC2、PC3、PC4...；等等。

通过一个非限制性实例，光谱数据处理器120处理多个已知参考样品的光谱信息110以鉴别与所有已知参考样品的组合相关的峰的总数。光谱数据处理器120将这些已知参考样品的所有峰分布在如所示出的一个单一图220上。

在产生所有峰的分布之后，光谱数据处理器120然后选择每个范围区段210(例如，范围区段210-1、范围区段210-2、范围区段210-3等)的宽度或大小，使得与这些已知参考样品相关的基本上相等数目的峰驻留在范围区段210的每一个中。例如，在此的一个实施例包括鉴别一个数据库中的所有峰的位置并且然后产生将产生在任何范围区段中观察来自该搜索数据库的一个峰的均匀概率的不等宽度的范围区段。

如何选择范围区段210的总数的另外的细节将稍后在本说明书中进行讨论。

假设这些参考样品的峰驻留在图2中所示出的x轴上。在这个实例中，范围区段210-1包括与参考样品A、C、D和H中的每一个相关的一个峰。例如，范围区段210-1包括与参考样品A相关的峰PA1、与参考样品C相关的峰PC1、与参考样品D相关的峰PD1、和与参考样品H相关的峰PH1。

在这个非限制性实例中，范围区段210-2包括与参考样品F、D、A和K相关的一个峰。例如，范围区段210-2包括与参考样品F相关的峰PF1、与参考样品D相关的峰PD2、与参考样品A相关的峰PA2、和与参考样品K相关的峰PK1。

范围区段210-3包括与参考样品K、G和H相关的一个峰。例如，范围区段210-3包括与参考样品K相关的峰PK2、与参考样品G相关的峰PG1、与参考样品H相关的峰PH2、和与参考样品G相关的峰PG2。

如所提及的，与这些已知参考样品相关的峰的分布沿该光谱变化。例如，该光谱的不同部分包括不同密度的峰，因为一些参考样品产生在该光谱的相同区域中的峰，而非常少的参考样品产生在该光谱的其他部分中的峰。

如在此讨论的，为了将该光谱中的峰的变化分布考虑在内，光谱数据处理器120使范围区段210的宽度变化，使得每个范围区段210包括与其他范围区段210中的每一个基本上相等数目的峰。

在一个非限制性实例中，范围区段210的宽度可以进行选择，使得在该光谱中不存在间隙。例如，在范围区段210-1与210-2之间不存在空间，因为范围区段210-2的左边界在或靠近范围区段210-1的右边界处开始；范围区段210-3的左边界在或靠近范围区段210-2的右边界处开始；等等。

根据替代性实施例，可能存在光谱的不包括任何已知参考样品的峰的一个实质性部分。在此类实例中，范围区段210的宽度可以进行选择，使得该光谱的对应部分不被包括在一个对应的范围区段中。换句话说，可以存在在范围区段210-1与范围区段210-2之间的一个空间或无效间隙(null gap)；其中没有峰驻留的在范围区段210-2与范围区段210-3之间的一个空间；等等。

图3是展示根据在此实施例的已知参考样品和相对应的峰信息的图表300的示例图。

注意到图标300出于说明性目的而呈现并且一个已知参考样品的库中的参考样品的数目可以取决于该实施例而变化。

在这个示例实施例中，多个已知参考样品的光谱信息110包括与一个已知参考样品A、B、C、D、E、F、G、H、J、和K的池相关的峰信息。

如之前讨论的，光谱数据处理器120处理多个已知参考样品的光谱信息110以鉴别与每个已知参考样品相关的相对应的峰。

进一步根据这个示例实施例，基于光谱信息110，光谱数据处理器120鉴别出已知参考样品A包括6个，包括PA1、PA2、PA3、PA4、PA5、和PA6；光谱数据处理器120鉴别出已知参考样品B包括3个，包括PB1、PB2、和PB3；该参考分析器光谱数据处理器鉴别出已知参考样品C包括5个，包括PC1、PC2、PC3、PC4、和PC5；等等。

如所示出的，存在与已知参考样品的组合相关的总计40个峰(例如，峰PA1、...、PA6、PB1、...、PB3、PC1、...、PC5、PD1、...、PD3、PE1、...PE4、...)。

在这个实例中，光谱数据处理器120产生10个范围区段，包括范围区段210-1、210-2、210-3、210-4、210-5、210-6、210-7、210-8、210-9、和210-10。

如之前讨论的，在图3中，光谱数据处理器120可以将该光谱分裂为10个范围区段，使得基本上相等数目的峰落入每个范围区段210中。存在与这些已知参考样品的组合相关的40个峰和10个范围区段210。因此，在这个非限制性实例中，光谱数据处理器120产生每个范围区段210的宽度以包括4个峰。

图4是展示根据在此实施例的分析一个受测的未知样品和将该受测的未知样品的对应的峰索引(例如，比较)至多个范围区段的示例图。注意到一个对应的范围区段可以包括一个给定样品的多个峰。例如，范围区段210-3包括峰PG1和峰PG2；等等。

在这个实例中，假设当进行分析时，该受测的未知样品产生4个峰。在这个实例中，该受测的未知样品包括峰SP1、峰SP2、峰SP3、和峰SP4。与该受测的未知样品相关的峰中的每一个落在如图400所展示的沿该光谱中的x轴的一个具体位置处。

如所示出的，在促进产生概率信息170时，应用140将峰SP1、峰SP2、峰SP3、和峰SP4索引至相对应的范围区段210。在这个示例实施例中，峰SP1落入范围区段210-1中；峰SP2落入范围区段210-2中；峰SP3落入范围区段210-6中；并且峰SP4落入范围区段210-10。

注意到如在此讨论的索引步骤可以包括鉴别、映射、匹配等等该未知样品的峰驻留在多个范围区段的哪一个中的任何实例技术。

图5是展示根据在此实施例的将与一个受测的未知样品相关的峰索引至候选参考样品的一个另外的实例的示例图。

通过一个非限制性实例，应用140产生该未知样品的一个二进制串510。二进制串510表明该受测的未知样品的一个对应的峰驻留在这10个区段(例如，210-1、...、210-10)的哪一个中。

在这个实例中，二进制串510中的第一二进制值(例如，最左边的比特位置)被设定为值1，表明该受测的未知样品包括在该对应的范围区段210-1中的一个峰值(例如，SP1)；二进制串510中的第二二进制值被设定为值1，表明该受测的未知样品包括在该对应的范围区段210-2中的一个峰值(例如，SP2)；二进制串510中的第三二进制值被设定为值0，表明该受测的未知样品不包括在该对应的范围区段210-3中的一个峰值；二进制串510中的第四二进制值被设定为值0，表明该受测的未知样品不包括在该对应的范围区段210-4中的一个峰值；二进制串510中的第五二进制值被设定为值0，表明该受测的未知样品不包括在该对应的范围区段210-5中的一个峰值；二进制串510中的第六二进制值被设定为值1，表明该受测的未知样品包括在该对应的范围区段210-6中的一个峰值(例如，SP3)；二进制串510中的第七二进制值被设定为值0，表明该受测的未知样品不包括在该对应的范围区段210-7中的一个峰值；二进制串510中的第八二进制值被设定为值0，表明该受测的未知样品不包括在该对应的范围区段210-8中的一个峰值；二进制串510中的第九二进制值被设定为值0，表明该受测的未知样品不包括在该对应的范围区段210-9中的一个峰值；并且二进制串510中的第十二进制值(例如，最右边的比特位置)被设定为值1，表明该受测的未知样品包括在该对应的范围区段210-10中的一个峰值(例如，SP4)。

因此，二进制串510提供该未知样品的一个峰驻留在哪一个范围区段中的指示。

如图5中进一步示出的，该应用可以被配置为鉴别该多个已知参考样品中的哪一个是潜在地与该受测的未知样品匹配的更好的或最好的候选物。作为一个实例，具有一个峰落入与其中该受测的未知样品的至少一个峰也驻留在其中的一个范围区段相同的范围区段的任何已知参考样品表明一个可以与该受测的未知样品匹配的候选(已知)参考样品。

该受测的未知样品的越多的峰落入与一个对应的已知参考样品相同的范围区段中，该对应的已知参考样品与该受测的未知样品匹配的可能性越大。如以下将进一步讨论的，如果在该受测的未知样品与该已知参考样品之间不存在区段重叠，那么该对应的已知参考样品不与该受测的未知样品匹配的可能性越大。

图6是展示根据在此实施例的产生这些已知参考样品中的每一个的一个对应的二进制串的示例图。

通过一个非限制性实例，峰和区段信息130可以包括与这些已知参考样品相关的二进制串610。

如所示出的，在此的实施例包括产生这些已知参考样品中的每一个的一个二进制串。例如，二进制串610-1表明该已知参考样品A的一个对应的峰驻留在这10个区段(例如，210-1、...、210-10)的哪一个中。

在这个实例中，二进制串610-1中的第一二进制值(例如，最左边的比特位置)被设定为值1，表明该已知参考样品A包括在该对应的范围区段210-1中的一个峰值(例如，PA1)；二进制串610-1中的第二二进制值被设定为值1，表明该已知参考样品A包括在该对应的范围区段210-2中的一个峰值(例如，PA2)；二进制串610-1中的第三二进制值被设定为值0，表明该已知参考样品A不包括在该对应的范围区段210-3中的一个峰值；二进制串610-1中的第四二进制值被设定为值0，表明该已知参考样品A不包括在该对应的范围区段210-4中的一个峰值；二进制串610-1中的第五二进制值被设定为值1，表明该已知参考样品A包括在该对应的范围区段210-5中的一个峰值(例如，PA3)；二进制串610-1中的第六二进制值被设定为值1，表明该已知参考样品A包括在该对应的范围区段210-6中的一个峰值(例如，PA4)；二进制串610-1中的第七二进制值被设定为值1，表明该已知参考样品A包括在该对应的范围区段210-7中的一个峰值(例如，PA5)；二进制串610-1中的第八二进制值被设定为值0，表明该已知参考样品A不包括在该对应的范围区段210-8中的一个峰值；二进制串610-1中的第九二进制值被设定为值0，表明该已知参考样品A不包括在该对应的范围区段210-9中的一个峰值；并且二进制串610-1中的第十二进制值(例如，最右边的比特位置)被设定为值1，表明该已知参考样品A包括在该对应的范围区段210-10中的一个峰值(例如，PA6)。

因此，二进制串610-1提供该已知样品A的一个或多个峰驻留在哪一个范围区段210中的指示。

在这个实例的进一步中，二进制串610-2中的第一二进制值(例如，最左边的比特位置)被设定为值1，表明该已知参考样品C包括在该对应的范围区段210-1中的一个峰值(例如，PC1)；二进制串610-2中的第二二进制值被设定为值0，表明该已知参考样品C不包括在该对应的范围区段210-2中的一个峰值；二进制串610-2中的第三二进制值被设定为值0，表明该已知参考样品C不包括在该对应的范围区段210-3中的一个峰值；二进制串610-2中的第四二进制值被设定为值1，表明该已知参考样品C包括在该对应的范围区段210-4中的一个峰值(例如，PC2)；二进制串610-2中的第五二进制值被设定为值0，表明该已知参考样品C不包括在该对应的范围区段210-5中的一个峰值(例如，PC2)；二进制串610-2中的第六二进制值被设定为值1，表明该已知参考样品C包括在该对应的范围区段210-6中的一个峰值(例如，PC3)；二进制串610-2中的第七二进制值被设定为值0，表明该已知参考样品C不包括在该对应的范围区段210-7中的一个峰值；二进制串610-2中的第八二进制值被设定为值1，表明该已知参考样品C包括在该对应的范围区段210-8中的一个峰值(例如，PC4)；二进制串610-2中的第九二进制值被设定为值0，表明该已知参考样品C不包括在该对应的范围区段210-9中的一个峰值；并且二进制串610-2中的第十二进制值(例如，最右边的比特位置)被设定为值1，表明该已知参考样品C包括在该对应的范围区段210-10中的一个峰值(例如，PC5)。

因此，二进制串610-2提供该已知样品C的一个或多个峰驻留在哪一个范围区段210中的指示。

以此方式，图表600中的串610中的每一个(例如，串610-1、串610-2、串610-3、串610-4、串610-5...)表明该已知样品的对应的一个或多个峰驻留在哪一个区段中。

图7是展示根据在此实施例的一个比较信息的图表的示例图。

如之前讨论的，应用140产生与该受测的未知样品相关的一个二进制串510。应用140将与该受测的未知样品相关的二进制串510与二进制串610中的每一个进行比较以用相关的计数数据填充图表700。

图表700包括值k、N、m、和n。

值k表示其中该受测的未知样品和该对应的参考样品两者各自包括至少一个相对应的峰的范围区段的数目。

值N表示将该光谱划分为的范围区段的总数。

值m表示该未知参考样品中的峰的数目。

值n表示该对应的参考样品中的峰的数目。

计算概率信息

通过一个非限制性实例，应用140可以如以下讨论的产生概率信息。

如所提及的，在一个二进制测试光谱(例如，二进制串510)是可获得之后，将它依次与该参考二进制峰光谱中的每一个(例如，二进制串610)进行比较。在每个比较(即，已知样品对比参考样品A，已知样品对比参考样品B，等等)过程中，记录进行比较的这两个光谱之间的峰匹配的数量。

在一个实施例中，以下超几何概率质量函数产生偶然找到在一个含有m个峰的未知光谱(例如，二进制串510)与一个含有N个区段的数据库的一个含有n个峰的参考光谱(例如，二进制串610)之间的k个匹配的概率。

方程式1

在以上方程式1中，表示一个二项式系数(其经常被读为m选择k)。一种用于计算该二项式系数的方法是使用以下阶乘公式：

方程式2

为了排除作为所测量的未知样品的一部分的一种参考材料(例如，参考样品)，该超几何累积分布函数用于计算一个p值并且检验所观察到的匹配偶然发现的零假说。

方程式3

在一个实施例中，该p值作为1-CDF(X＝k)被计算，并且任何p值＜0.05可以用于用95％置信度排除该零假设。

在图7中的图表700中查找这些p值，这些结果有意义：仅3个或4个峰中的一个匹配导致一个更高的p值(已知参考样品H)，该已知样品中的所有或几乎所有峰与一个参考样品匹配产生一个相对低的p值(已知参考样品D)，并且当在该对应的参考样品和受测的未知样品两者中存在许多峰时，匹配几个峰产生高p值(已知参考样品K)。

如以下讨论的，基于这些值k、N、m、和n，应用140产生这些已知参考样品中的每一个的p值。

更确切地说，当将二进制串510与二进制串610-1进行比较时，应用140鉴别出在该已知参考样品A与该受测的未知样品之间存在k＝4个共同范围区段(例如，范围区段210-1、范围区段210-2、范围区段210-6、和范围区段210-10)。例如，存在4个包括该受测的未知样品和该参考样品两者的一个峰的范围区段。

应用140鉴别出存在总计N＝10个范围区段(例如，范围区段210-1、...、范围区段210-10)。

应用140鉴别出该受测的未知样品中存在m＝4个峰。

应用140鉴别出该对应的参考样品A中存在n＝6个峰。

基于这个信息和以上方程式3，该应用产生表明参考样品A是否是该受测的未知样品的良好匹配的概率信息。

在这个实例中，应用140使用以上值和方程式产生0.0714的p值。这个相对低的p值表明该已知参考样品A是该受测的未知样品的一个合理地良好的匹配候选物。

当将二进制串510和二进制串610-2进行比较时，应用140鉴别出在该已知参考样品B与该受测的已知样品之间存在k＝0个共同范围区段。应用140鉴别出存在总计N＝10个范围区段(例如，范围区段210-1、...、范围区段210-10)。应用140鉴别出该受测的未知样品中存在m＝4个峰。应用140鉴别出该对应的参考样品A中存在n＝6个峰。

基于这个信息，该应用产生表明参考样品B是否是该受测的未知样品的良好匹配的概率信息。在这个实例中，该应用产生1.0的p值。这个高的p值表明该已知参考样品B不是一个良好的匹配候选物。

更确切地说，当将二进制串510与二进制串610-3进行比较时，应用140鉴别出在该已知参考样品C与该受测的未知样品之间存在k＝3个共同范围区段(例如，范围区段210-1、范围区段210-6、范围区段210-10)。应用140鉴别出存在总计N＝10个范围区段(例如，范围区段210-1、...、范围区段210-10)。应用140鉴别出该受测的未知样品中存在m＝4个峰。应用140鉴别出该对应的参考样品C中存在n＝5个峰。

基于这个信息，该应用产生表明参考样品C是否是该受测的未知样品的良好匹配的概率信息。在这个实例中，该应用产生对于参考样品C的0.0333的p值。这个相对低的p值表明该已知参考样品C是该受测的未知样品的一个非常好的匹配候选物。换句话说，该受测的未知样品可能是与该已知参考样品C相同的类型。

以此方式，该应用将二进制串610中的每一个和与该受测的未知样品相关的二进制串510进行比较。应用140产生这些未知参考样品中的每一个的一个对应的p值。如所提及的，该p值表明该受测的未知样品与该库中的一个对应的已知参考样品匹配的程度。这个信息可以被展示给一个对应的用户，以通知该用户所有参考样品的子集是该受测的未知样品的最佳匹配。

图8是展示对于一个许多参考样品的库将一个光谱分区为相等大小的范围区段的示例图800。

图800的x轴表明一个波长或其他合适的光谱测量值。图800的y轴表明对于每个对应的区段发生的计数数目或峰数目。图800已经基于一个10,000种化学品的红外光谱数据库而产生。例如，来自这个参考样品数据库的322,468个峰(与该10,000种化学品相关的)的光谱分布已经被划分为50个具有相等宽度的范围区段。

如图8中所示出的，与参考样品的库相关的峰信息跨过图800的x轴上的波长谱是更致密或较不致密的。也就是说，当选择相等大小的范围区段时，每个相等大小的区段中的峰的数目是非常不均匀的。

总体上，在x轴上在1000与1500之间存在的与参考样品相关的峰的发生高于在2000与2500之间存在的与参考样品相关的峰的发生。因此，仅仅将一个光谱分区为相等的宽度产生具有不同峰数目的范围区段。

图9是展示根据在此实施例的将一个光谱分区为不等大小的范围区段的示例图900。图900的x轴表明一个参数如一个基于波长的值。图900的y轴表明一个参数如对于每个对应的区段发生的计数数目或峰数目。

如之前讨论的，与参考样品的库相关的峰信息的分布跨过图900的x轴上的光谱是更致密或较不致密的。然而，如之前讨论的，在此的实施例包括将该光谱(例如，波数、波长、频率、m/z等等)分区为不同大小的范围区段，使得与参考样品相关的基本上相等数目的峰落入任何给定的范围区段中。

如以上提到的，在此的一个实施例包括表征一个库中与参考样品相关的峰，以确定将产生在任何区段中观察来自该搜索数据库的一个峰的均匀概率的区段位置。如以上提及的，产生这些不同大小的范围区段可以包括从该光谱的一个边缘开始并且确定该第一区段(例如，该光谱中最左边的区段)必需是多宽使得与这些参考样品相关的所希望的峰(例如，X个峰)的发生落入该第一区段内。

从该第一区段的一个最右边的边界(其潜在地定义该第二区段的一个左边界)，在此的实施例可以进一步包括分析该光谱中与这些参考样品相关的峰信息，以鉴别该第二范围区段需要是多宽使得该第二范围区段包括该光谱中的下一X个峰。重复这个过程以将该光谱划分为所希望数目的范围区段，这些范围区段中的每一个包括与这些参考样品相关的基本上相等数目的峰。

通过一个非限制性实例，这个将该光谱划分的程序可以对于这些参考样品进行，使得在使用任何参考光谱的任何区段中存在观察到一个峰的Y％的机会。图900是展示这些不同范围区段的适当大小导致这些峰的相对均匀的分布(例如，每个范围包括大致相同数目的峰)的直方图。

根据又一个另外的实施例，应该指出，然而，当使用该超几何分布时，含有一个样品的多于一个峰的一个对应的范围区段可以以与含有该样品的一个单一峰的一个区段相同的方式来表示。例如，在一个实施例中，在分析过程中，具有一个对应的参考样品的一个单一峰的一个区段将被分配一个二进制值1；具有该对应的参考样品的多个峰的一个区段同样也将被分配一个二进制值1。

根据替代性实施例，注意到其他分布函数可以用于允许每个区段分配多于2个值(例如，一个二进制0或一个二进制1)。例如，如果在该相对应的样品中存在落入该范围区段中的两个峰，分配给一个给定的范围区段的串的数目可以显示一个值2；如果在该相对应的样品中存在落入该范围区段中的三个峰，分配给一个给定的范围区段的串的数目可以显示一个值3；等等。

另外的实施例

根据另一个实施例，如果来自一个光谱的多于一个峰落入相同区段中，那么一种多元超几何分布可以用于确定该峰匹配概率。例如，如果每个区段不存在、存在一个或两个峰，那么k1一个峰区段和k2两个峰区段匹配的概率是

这可以使用相同的公式扩展至每个区段三个或更多个峰。

图10是展示根据在此实施例的一个处理实例的示例图。

注意到在多于一个区段的波长误差内观察到的峰发生一种特殊情况。换句话说，该估算的峰位置将是一个单一值，但位置+/-波长准确度可能位于多于一个的区段内。当这发生时，在此的实施例可以包括产生该样品的多于一个的二进制串(对应于翻转所讨论的这两个区段之间的峰位置)，或允许一个单一峰占据多于一个的区段。在一个实施例中，应用140对于测试光谱(例如，受测的未知样品)这样做，但对于参考光谱(例如，参考样品)不这样做。

如所示出的，在这个实例中，假设分析该受测的未知样品产生光谱信息1075。该受测的未知样品包括落入范围区段1010-2和范围区段1010-3之间的一个峰值1050-2。如由光谱信息1075表明的与该未知样品相关的其他峰值通常不位于一个范围区段的一个边缘附近并且因此被包括在一个单一范围区段中。

与这种类型的情况(例如，在两个范围区段的边缘处的峰1050-2)相关的处理可以以多种方式进行处理。例如，在此的一个实施例包括将峰1050-2分配给两个范围区段1010-2和范围区段1010-3并且然后进行如以上所讨论的分析。在这个实例中，该处理应用进行其中该二进制串是111111011的分析(例如，峰值1050-1驻留在范围区段1010-1中；峰值1050-2驻留在范围区段1010-2中；峰值1050-2驻留在范围区段1010-3中；峰值1050-3驻留在范围区段1010-4中；峰值1050-4驻留在范围区段1010-5中；峰值1050-5驻留在范围区段1010-6中；峰值1050-6驻留在范围区段1010-8中；峰值1050-7驻留在范围区段1010-9中)。该样品的概率信息按如以上所讨论的方式而产生。

在一个替代性实施例中，该处理应用可以进行包括一个第一道次和一个第二道次的多个分开的处理道次。在该第一道次上，该处理应用将峰值1050-2分配给分区区段1010-2(并且不是范围区段1010-3)并且基于该串110111011按如上所讨论的方式产生该受测的未知样品的概率信息。在该第二道次上，该处理应用将峰值1050-2分配给分区区段1010-3(并且不是范围区段1010-2)并且基于该串101111011按如上所讨论的方式产生该受测的未知样品的概率信息。

图11是用于实施根据在此实施例的任何操作的一个计算机系统1150的示例框图。

如所示出的，本实例的计算机系统1150可以包括将其中可以存储和检索数字信息的计算机可读存储介质812如一种非暂时性类型的介质(即，任何类型的硬件存储介质)、一个处理器813、I/O接口814、一个通信接口817连接的一个连接体811。

I/O接口814提供至一个存储库180(例如，存储库180-1、存储库180-2等等)，以及(如果存在的话)其他装置如显示屏、小键盘、计算机鼠标等等的连通性。

计算机可读存储介质812可以是任何非暂时性存储装置，如内存、光存储器、硬盘驱动器、软盘等等。在一个实施例中，计算机可读存储介质812存储指令和/或数据。

通信接口817使得计算机系统1500和处理器813能够通过一种资源如网络190进行通信以从远程源搜索信息并且与其他计算机进行通信。取决于该实施例，与分析器应用140-1相关的任何或所有功能可以通过处理器813、或经由网络190中的资源、或两者的组合来本地进行。

I/O接口814使得处理器813能够搜索或尝试搜索来自存储库180的存储信息。

如所示出的，将计算机可读存储介质812用由处理器813执行的分析器应用140-1进行编码(例如，软件、固件等等)。分析器应用140-1可以被配置为包括指令以实施如之前所讨论的与分析器应用140相关的任何操作。

在一个实施例的操作过程中，处理器813通过使用连接体811来访问计算机可读存储介质812，以便发射、运行、执行、解释或另外进行在计算机可读存储介质812上存储的分析器应用140-1中的指令。

执行分析器应用140-1产生处理功能如处理器813中的分析器过程140-2。换句话说，与处理器813相关的分析器过程140-2表示在计算机系统1150中的处理器813内或上执行分析器应用140-1的一个或多个方面。

本领域的普通技术人员将理解计算机系统1150可以包括其他过程和/或软件和硬件组件，如控制硬件资源的分配和使用以执行分析器应用140-1的一个操作系统。

根据不同的实施例，注意到计算机系统可以是任何不同类型的装置，包括但不限于，一种个人计算机系统，一种无线装置，基站，手机装置，台式电脑、膝上电脑，笔记本，上网本，大型计算机系统，手持式计算机，工作站，网络计算机，应用服务器，存储装置，一种消费型电子装置如照相机、摄录像机、机顶盒、移动装置、视频游戏控制台、手持式视频游戏装置，一种外围装置如开关、调制解调器、路由器，或总体上任何类型的计算或电子装置。计算机系统1150和/或由分析器应用140支持的功能可以驻留或移动至任何位置。

计算机系统1150或一种类似类型的构造可以用于实施光谱数据处理器120。

由光谱数据处理器120和/或分析器应用140支持的功能现在将通过图12-14中的流程图进行讨论。注意到以下这些流程图中的步骤可以按任何合适的顺序来执行并且进一步概述了如在此讨论的实施例。

图12是展示根据在此实施例的一种实例方法的一个流程图1200。注意到将存在相对于如以上所讨论的概念的一些重叠。

在步骤1210中，谱数据处理器120鉴别和/或接收多个已知参考样品110的光谱信息。在一个实施例中，多个已知参考样品的光谱信息110包括指定多个参考样品中的每一个参考样品的一组峰的数据。

在步骤1220中，光谱数据处理器120将一个光谱分区以包括多个不同大小的范围区段210。在一个实施例中，光谱数据处理器120将该光谱分区使得该多个参考样品中的每一个峰驻留在多个不同大小的范围区段210之一中。

在步骤1230中，应用140将与一个未知样品相关的峰的位置索引(例如，比较、映射等等)至多个不同大小的范围区段210。

图13和14组合以形成展示根据在此实施例的一种实例方法的一个流程图1300(例如，流程图1300-1和流程图1300-2)。注意到将存在相对于如以上所讨论的概念的一些重叠。

在步骤1310中，一个光谱数据处理器120接收多个参考样品中的每一个参考样品的一个相对应组的峰。

在步骤1320中，光谱数据处理器120将一个光谱分区以包括多个不同大小的范围区段210。光谱数据处理器120将该光谱分区使得与该多个参考样品相关的每一个峰驻留在多个不同大小的范围区段210之一中。

在子步骤1325中，光谱数据处理器120定义多个不同大小的范围区段210中的每一个的宽度，使得这些参考样品中的基本上相等数目的峰落入多个不同大小的范围区段210的每一个中。

在步骤1330中，应用140将与一个未知样品相关的峰的位置索引、映射至该划分的光谱中的多个不同大小的范围区段210的位置或与其进行比较。

在子步骤1335中，应用140将与该未知样品相关的峰索引到多个不同大小的范围区段210内。

在子步骤1340中，基于该索引，应用140鉴别作为该受测的未知样品的良好候选匹配(例如，可能的匹配)的参考样品。

在图14的步骤1410中，对于这些参考样品中被鉴别为一个候选参考样品的每一个对应的参考样品，或可替代地任何或所有在一个池中的参考样品105，分析器应用140产生表明这些对应的候选参考样品中的每一个与该未知样品匹配的程度的概率信息170。

在子步骤1420中，分析器应用140产生该未知样品的一个二进制串510。该未知样品的二进制串510表明该未知样品的一个或多个峰驻留在多个不同大小的范围区段210的哪一个中。

在子步骤1430中，分析器应用140产生这些参考样品中的每一个的一个对应的二进制串610。对应的二进制串610表明一个对应的参考样品的至少一个峰驻留在该多个不同大小的范围区段的哪一个中。

在子步骤1440中，分析器应用140基于二进制串510与对于这些参考样品产生的一个或多个对应的二进制串610中的每一个的比较而获得概率信息170。

另外的实施例和权利要求书

按照如以上所讨论的方式，注意到在此的实施例包括产生并且存储峰和区段信息130。例如，如以上所讨论的，光谱数据处理器120可以被配置为接收光谱信息110(例如，表明多个参考样品中的每一个参考样品的一组峰)。光谱数据处理器120将一个光谱分区以包括多个不同大小的范围区段210。该多个参考样品中的每一个峰(如由光谱信息110所指明的)驻留在多个不同大小的范围区段210之一中。光谱数据处理器120将峰信息和区段信息作为峰和区段信息130进行存储。存储的峰和区段信息130包括表明对于该分区的光谱产生的多个不同大小的范围区段的区段信息。峰和区段信息130的存储的峰信息表明该多个参考样品中的峰驻留在多个不同大小的范围区段210的哪一个中。

因此，另外的示例权利要求包括：

31.一种方法，包括：

接收多个参考样品中的每一个参考样品的一组峰；

将一个光谱分区以包括多个不同大小的范围区段，该多个参考样品中的每一个峰驻留在该多个不同大小的范围区段之一中；并且

存储区段信息，该区段信息表明对于该分区的光谱产生的多个不同大小的范围区段。

32.如权利要求31所述的方法，进一步包括：

存储峰信息，该峰信息表明该多个参考样品中的峰驻留在该多个不同大小的范围区段的哪一个中。

33.如权利要求31所述的方法，其中，将该光谱分区为多个不同大小的范围区段包括：

定义该多个不同大小的范围区段中的每一个的宽度，使得这些参考样品中的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。

34.如权利要求31所述的方法，进一步包括：

接收与该多个参考样品中的每一个相关的光谱信息，该光谱信息包括扫描该光谱的分析；并且

处理该光谱信息以鉴别该多个参考样品中的每一个的组峰。

34.如权利要求31所述的方法，其中，将该光谱分区包括：

根据一个超几何分布模型选择这些不同大小的范围区段的边界。

35.一种系统，包括：

一个处理器；以及

一个连接到该处理器的硬件存储资源，该硬件存储资源存储指令，当由该处理器执行时，这些指令使该处理器进行以下操作：

接收多个参考样品中的每一个参考样品的一组峰；

36.如权利要求35所述的系统，其中，该处理器进一步执行以下操作：

37.如权利要求35所述的系统，其中，将一个光谱分区为多个不同大小的范围区段包括：

38.如权利要求35所述的系统，其中，该处理器进一步执行以下操作：

处理该光谱信息以鉴别该多个参考样品中的每一个的组峰。

39.如权利要求35所述的系统，其中，将该光谱分区包括：

40.具有存储在其上的指令的计算机可读存储硬件，这些指令当由一个处理装置执行时，使该处理装置进行以下操作：

接收多个参考样品中的每一个参考样品的一组峰；

按照如以上所讨论的方式，注意到在此的实施例包括鉴别在一个未知样品与该多个参考样品之间的可能匹配。例如，如以上所讨论的，分析器应用140被配置为访问峰和区段信息130。更确切地说，在一个实施例中，分析器应用140接收范围区段信息(例如，峰和区段信息130)。该范围区段信息表明一个光谱已被分区为的多个不同大小的范围区段210。分析器应用140进一步接收来自峰和区段信息130的峰信息。该峰信息表明与该多个参考样品中的每一个相关的一组峰。该峰信息进一步表明这些峰中的每一个驻留在多个不同大小的范围区段210的哪一个中。为了鉴别与该未知样品匹配的可能候选物，分析器应用140将与一个未知样品相关的峰的位置索引至多个不同大小的范围区段210。

因此，另外的示例权利要求包括：

41.一种方法，包括：

接收范围区段信息，该范围区段信息表明一个光谱已经被分区为的多个不同大小的范围区段；

接收表明与多个参考样品中的每一个相关的一组峰的峰信息，该峰信息进一步表明这些峰中的每一个驻留在该多个不同大小的范围区段的哪一个中；并且

将与一个未知样品相关的峰的位置索引至该多个不同大小的范围区段。

42.如权利要求41所述的方法，进一步包括：

基于将与该未知样品相关的峰的位置索引至该多个不同大小的范围区段，鉴别为该未知样品的候选匹配的多个参考样品的一个子集。

43.如权利要求41所述的方法，其中，定义该多个不同大小的范围区段中的每一个的宽度，使得这些参考样品中的基本上相等数量的峰落入该多个不同大小的范围区段的每一个中。

44.如权利要求41所述的方法，进一步包括：

对于该多个参考样品中的一个对应的参考样品，产生该对应的参考样品是该未知样品的一个匹配的概率信息。

45.如权利要求44所述的方法，进一步包括：

至少部分基于二进制定点算法来计算该概率信息。

46.如权利要求41所述的方法，进一步包括：

执行一个超儿何概率函数来产生表明该未知样品与该多个参考样品中的一个对应的样品匹配的概率信息。

47.如权利要求41所述的方法，进一步包括：

鉴别该未知样品的一个峰和与一个给定的参考样品相关的一个峰驻留在该多个范围区段的一个具体范围区段内；并且

计算在该未知样品中的峰和该给定的参考样品中的峰与该具体范围区段之间的一个匹配是一个随机事件的概率。

48.如权利要求41所述的方法，进一步包括：

计算一个概率值，以便检验在该参考样品与一个给定的参考样品之间的一个观察到的峰匹配偶然发生的零假设。

49.如权利要求41所述的方法，其中，将与该未知样品相关的峰索引到该多个范围区段内包括：

鉴别该未知样品的一个峰；

鉴别该多个不同大小的范围区段中的该未知样品的峰位于其中的一个范围区段；并且

鉴别该多个参考样品中的包括在该已鉴别的范围区段中的峰的一个具体参考样品。

50.如权利要求42所述的方法，其中，将与一个未知样品相关的峰索引至该多个不同大小的范围区段包括：

对于该多个参考样品中的每一个对应的参考样品：

产生一个值，k，表明该未知样品的一个峰落入其中该对应的参考也包括一个峰的一个区段中的发生次数；

产生一个值，N，表明该多个不同大小的区段的数目；

产生一个值，n，表明于该对应的参考样品中存在的峰的总数；并且

产生一个值，m，表明于该未知样品中存在的峰的总数。

51.如权利要求41所述的方法，其中，索引包括：

产生一个第一二进制串，该第一二进制串表明该未知样品的一个峰驻留在该多个不同大小的范围区段的哪一个中；

产生一个第二二进制串，该第二二进制串表明一个参考样品的一个峰驻留在该多个不同大小的范围区段的哪一个中；并且

基于在该第一二进制与该第二二进制串之间的相似度来获得概率信息。

52.一种系统，包括：

一个处理器；以及

53.如权利要求52所述的系统，其中，该处理器进一步执行以下操作：

54.如权利要求52所述的系统，其中，定义该多个不同大小的范围区段中的每一个的宽度，使得这些参考样品中的基本上相等数量的峰落入该多个不同大小的范围区段的每一个中。

55.如权利要求52所述的系统，其中，该处理器进一步执行以下操作：

56.如权利要求55所述的系统，其中，该处理器进一步执行以下操作：

至少部分基于二进制定点算法来计算该概率信息。

57.如权利要求52所述的系统，其中，该处理器进一步执行以下操作：

执行一个超几何概率函数来产生表明该未知样品与该多个参考样品中的一个对应的样品匹配的概率信息。

58.如权利要求52所述的系统，其中，该处理器进一步执行以下操作：

59.如权利要求52所述的系统，其中，该处理器进一步执行以下操作：

60.如权利要求52所述的系统，其中，将与该未知样品相关的峰索引到该多个范围区段内包括：

鉴别该未知样品的一个峰；

61.如权利要求52所述的系统，其中，将与一个未知样品相关的峰索引至该多个不同大小的范围区段包括：

对于该多个参考样品中的每一个对应的参考样品：

产生一个值，N，表明该多个不同大小的区段的数目；

产生一个值，m，表明于该未知样品中存在的峰的总数。

62.如权利要求52所述的系统，其中，索引包括：

63.具有存储在其上的指令的计算机可读存储硬件，这些指令当由一个处理装置执行时，使该处理装置进行以下操作：

再次注意在此的技术很奸地适合于一个受测的未知样品与一个或多个已知参考样品的搜索应用和匹配。然而，应该指出在此的实施例不受限于此类应用中的使用并且在此讨论的技术也很好地适合于其他应用中。

如所提及的，在此的实施例在其中数据压缩是有利的应用中是有用的。通过一个非限制性实例，在配置有非常小的物理内存和/或处理资源的系统中，如在此讨论的这种方法可能仅用于产生压缩数据，该压缩数据然后被发送到别处进行进一步分析。更确切地说，一个远程装置可以被配置为存储对于一个参考样品池产生的范围区段信息。该远程装置可以接收一个受测样品的峰信息并且比较与一个未知样品相关的峰的位置以产生表明该未知样品具有在这些区段的哪一个中的一个对应的峰的一个二进制串。该远程装置可以被配置为通过一个链路转发所产生的二进制串(例如，压缩的数据)至进行另外的处理的另一个位置，如将该二进制串和与这些参考样品相关的二进制串进行比较以找到一个或多个匹配。

基于在此所阐明的描述，许多具体细节已经阐明以提供提出权利要求的主题的透彻理解。然而，本领域的普通技术人员将理解提出权利要求的主题可以无需这些具体细节而实践。在其他实例中，普通技术人员已知的方法、装置、系统等等未被详细描述，以便不妨碍提出权利要求的主题。详细说明的一些部分已经就存储在一个计算系统内存如一个计算机内存中的数据位或二进制数字信号上的算法或操作的符号表示而言来呈现。这些算法描述或表示是数据处理领域的普通技术人员使用的将他们的工作的实质传送给本领域的其他技术人员的技术的实例。如在此描述的一种算法并且总体上被认为是导致所希望的结果的一种自相容的操作顺序或类似的处理。在此背景下，操作或处理涉及物理量的物理操纵。典型地，虽然不一定必要地，此类量可以采取能够被存储、转移、组合、比较或另外操纵的电或磁信号的形式。主要由于常见用法的原因，有时已方便地将此类信号称为位、值、元素、符号、字符、项、数字、数词等。然而，应该理解所有这些和类似术语与适当的物理量相关联并且仅仅是方便的标记。除非特别地另外指明，如从以下讨论中清楚的，应认识到贯穿本说明书讨论，利用术语如“处理”、“计算(computing)”、“计算(calculating)”、“确定”等等是指一个计算平台如一个计算机或一个类似电子计算装置的作用或过程，该作用和过程操作或转换被表示为该计算平台的内存、寄存器，或其他信息存储装置、传输装置、或显示装置内的物理电或磁量的数据。

虽然本发明已经参考其优选的实施例特别示出并且描述，但本领域的普通技术人员将理解在不脱离如由所附权利要求书限定的本发明的精神和范围下，可以在其中作出形式和细节上的各种变化。此类变化旨在被本申请的范围覆盖。因此，本发明的实施例的前述描述并不旨在是限制性的。相反，本发明的任何限制在以下权利要求中呈现。

Claims

1.一种方法，包括：

接收对应多个参考样品的光谱信息,每个所述参考样品与一种不同的材料相关且包含分布在一个可识别该材料的光谱上的峰的特征；

压缩所述多个参考样品的光谱信息以产生在该光谱上的来自所述多个参考样品的结合的峰的分布；

将光谱中所述的结合的峰的分布分区为多个不同大小的范围区段，每个包括基本上数目相等的结合的峰和来自两个或多个参考样品的至少一个峰；

将来自未知样品的光谱信息中的多个峰索引到范围区段以产生包括一个范围区段的特征，其包括每个范围区段包括来自未知样品的峰的指示；以及

利用所述范围区段的特征产生参考样品的光谱信息与未知样品的光谱匹配的概率信息。

2.如权利要求1所述的方法，其中，产生概率信息的步骤包括：

利用指示候选匹配该未知样品的所述概率信息鉴别多个参考样品的一个子集。

3.如权利要求1所述的方法，其中，将该光谱中的峰分区的步骤包括：

定义该多个不同大小的范围区段中的每一个的宽度，使得期望数目的结合的峰落入该多个不同大小的范围区段的每一个中。

4.如权利要求1所述的方法，进一步包括：

基于二进制定点算法来计算该概率信息。

5.如权利要求1所述的方法，进一步包括：

处理该多个参考样品的光谱信息以鉴别每一个参考样品的组峰的特征。

6.如权利要求1所述的方法，其中，将该光谱中的峰分区的步骤还包括：

7.如权利要求1所述的方法，进一步包括：

执行一个超几何概率函数来产生概率信息。

8.如权利要求1所述的方法，索引步骤进一步包括：

鉴别该未知样品的一个峰驻留在该多个范围区段的一个具体范围区段内。

9.如权利要求1所述的方法，所述产生步骤进一步包括：

计算一个概率信息，以便检验在该参考样品与一个给定的参考样品之间的一个峰匹配偶然发生的零假设。

10.如权利要求2所述的方法，其中，产生概率信息的步骤包括：

对于该多个参考样品中的每一个对应的参考样品：

产生一个值，N，表明该多个不同大小的区段的数目；

产生一个值，m，表明于该未知样品中存在的峰的总数。

11.如权利要求10所述的方法，进一步包括：

基于以下方程式产生这些对应的参考样品中的每一个的概率信息：

<mrow> <mi>C</mi> <mi>D</mi> <mi>F</mi> <mrow> <mo>(</mo> <mrow> <mi>X</mi> <mo>=</mo> <mi>k</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>N</mi> <mo>,</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </munderover> <mfrac> <mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>m</mi> </mtd> </mtr> <mtr> <mtd> <mi>i</mi> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mrow> <mi>N</mi> <mo>-</mo> <mi>m</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>n</mi> <mo>-</mo> <mi>i</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>N</mi> </mtd> </mtr> <mtr> <mtd> <mi>n</mi> </mtd> </mtr> </mtable> </mfenced> </mfrac> <mo>.</mo> </mrow>

12.如权利要求1所述的方法，其中，

该区段范围的特征包括一个二进制串表明该未知样品的一个峰驻留在该多个不同大小的范围区段的哪一个中；并且

基于在第一二进制串与第二二进制串之间的相似度来生成概率信息，该第二二进制串指示一个参考样品的峰所驻留的多个不同大小的区段范围。

13.一种系统，包括：

一个处理器；以及

14.如权利要求13所述的系统，其中，产生概率信息的步骤包括：

15.如权利要求13所述的系统，其中，将一个光谱分区为多个不同大小的范围区段包括：

16.如权利要求13所述的系统，其中，该处理器进一步执行以下操作：

基于二进制定点算法来计算该概率信息。

17.一种方法，包括：

接收范围区段信息，包括多个不同大小的范围区段，每个范围区段包括基本上数目相等的结合的峰和来自两个或多个参考样品的至少一个峰，其中每个参考样品与一种不同的材料相关且包含分布在一个可识别该材料的光谱上的峰的特征；

18.如权利要求17所述的方法，进一步包括：

19.如权利要求17所述的方法，其中，定义该多个不同大小的范围区段中的每一个的宽度，使得期望数量的结合的峰落入该多个不同大小的范围区段的每一个中。

20.如权利要求17所述的方法，进一步包括：

基于二进制定点算法来计算该概率信息。

21.如权利要求17所述的方法，进一步包括：

执行一个超几何概率函数来产生概率信息。