CN1385702A

CN1385702A - 提供临床诊断服务的方法

Info

Publication number: CN1385702A
Application number: CN02121531A
Authority: CN
Inventors: D·阿特金斯
Original assignee: Ortho Clinical Diagnostics Inc
Current assignee: Ortho Clinical Diagnostics Inc
Priority date: 2001-03-20
Filing date: 2002-03-20
Publication date: 2002-12-18
Also published as: BR0201823A; AR033055A1; KR20020075265A; AU784645B2; EP1244047A2; EP1244047A3; JP2003021630A; CA2377213A1; US20020179097A1; AU2754002A; MXPA02003027A

Abstract

本发明提供了一种提供临床诊断服务的方法。这种方法包括收集生物学样本,分析生物学样本以确定该基因物质的至少部分组成、基因物质的行为,或者蛋白质,报告分析结果(例如,向健康护理提供者),以及将经该分析得到的信息引入随后的生物学样本分析中。由该分析得到的信息例如可通过将该信息用于改进所用信息产品的规则系统或数据库元件或能够用于改进分析的统计学可靠性。本发明亦提出了进行这此方法的数据库系统和装置。

Description

提供临床诊断服务的方法

技术领域

本发明涉及临床诊断学和实验室药学。

背景技术

基因诊断学迅速成为临床实验室的标准工具。诊断学试图将疾病的生理学病症、疾病状态或疾病倾向与有机体的遗传组成或遗传物质的行为关联起来。这包括根据遗传突变的存在或缺损例如序列插入、缺失或错配的分析。也可能包括关于发生在个体内或个体部分(例如一个细胞)的基因表达方式的信息例如某些表达是否上调节或下调节。

诊断学方法的应用是采用上述相关性的生物信息系统的能力的函数。绝大多数的生物信息系统需要使用者按照规定的格式提交序列(核苷酸碱基或氨基酸)。然后这个系统进行拟合运算，将这个序列与其他已知序列进行比较或将基因表达图谱(profile)与其他的表达模式(pattern)进行比较。然后将已知的相似性样本序列以及图谱进行比较或按照一些规则记分。未知样本与已知样本相比，一个序列有某些生理学作用或代表了一种病症或疾病状态，可以说系统中与已知序列相似的未知样本具有该病征或疾病状态。生物信息系统采用包括BLAST和FASTA计算机程序的规则系统分析序列的相似性。用于将未知样本基因信息与反映已知病征的基因信息进行比较的数据库的充沛性是非常重要的。

生物信息系统的规则系统方面也影响诊断学的应用。当一个序列类似于另一个序列时，用于判断的程序的逻辑性和统计学以及数学关系用作采用这些系统作出诊断和预测判断的辅助是关键性的。但是，对于生物信息系统更占基础地位的是它的生物组成，这归因于序列的一致和表达的泛函性。如果准确知晓感兴趣的病征和基因信息之间的关系，这就不是令人困惑的问题。当然，事实并不是这样。尽管已知有些疾病或病征与一定的基因图谱直接相关，但大多数是完全不知道的或仅仅不完全知道。随着与这些病征相关的更多的基因图谱单元被确定，将改进正确评定疾病状态和病征的概率。例如，p53突变在一些癌症例如结肠直肠癌中频繁出现，但是仅是如此，没有p53突变的详细描述或者说p53突变组还不能被用于精确诊断结肠直肠癌，也就是确定p53是结肠直肠癌的制造者。在线Asco on Line，http：∥www.asco.org/prof/pp/html/m tumor8.htm。有些人推测诸如DNA甲基化的外遗传变化可能有诊断或预测结肠直肠癌的价值。c.f.Pharoah和Caldas，Molecular Geneticsand the Assessment of Human Cancers，Expert Reviews in MolecularMedicine，http：∥www-enmm.cbcu.cam.ac.uk/99000526h.htm。于是，人们更进一步推断p53突变和DNA甲基化在一定的位置的存在提高了精确诊断结肠直肠癌的概率。随着增加的图谱单元被识别，用于比较正常和疾病或影响基因物质的数据库和规则系统必须被更新以实现这些改进。

诊断服务通常由实验室直接提供或按照健康护理提供者的需求提供。实验室从健康护理提供者处取得患者的样本，然后进行诊断化验，取得结果，然后将结果通知患者或健康护理提供者。这种模式也用于基因诊断学例如依赖基因物质扩大的诊断。如以上所提到的，以基因为基础的试验结果分析涉及充沛的数据库的运算操作。当获得关于基因图谱的新信息时，这些规则系统可以周期性升级，但是这必须等到获得临床信息并集成为这样的信息产品才能实现。因此，这个过程最好分为两部分。在通常的一方面，患者的基因物质被分析。在该过程完全分离的另一方面，在分析中使用的信息产品被创立并使该部分能够进行分析。在这样的过程中不可能连续提高数据库的充沛性、用于进行分析的运算能力和从这个过程中获得结果的置信区间。

人工神经网络(ANN)作为创建用于处理诊断信息的强有力的规则系统的方法已经被提出。例如，授予Nishikawa的美国专利6,058,322，授予Bamhill的美国专利5,769,074。人工神经网络并没有解决这些存在的问题。

例如Bamhill描述的人工神经网络将各种数据和网络进行比较，并被培训将这些特征归类于每一数据部件。例如，当分析一个样本以诊断前列腺癌，PSA和年龄可能是网络被培训考虑的两个数据单元。这个网络可以被培训以便在给定的某一个年龄在一给定PSA浓度比在不同年龄相同PSA浓度给出更多的权重以作为该癌症存在的指示。

通过根据实例形成多重变量(权重)数学模型，ANN解决了多重变量问题，并且将他们的模型应用于实际案例。这个过程一般是指培训。该网络自身能够最后选择最好的规则用于比较数据。但是，在预备使用之前，ANN必须被培训，以便它能满足规定的统计需要(例如，置信度和正的预测值)。在这一方面，Bamhill专利描述的ANN是静态的。在培训、试验或样本案例中数据是离散应用的。训练不是连续的过程。

Bamhill专利的另一个特性是构成它的比较必须建立在作为培训过程的部分达到统计分析的正常值时的基础上。培训行为是它自身决定或建立正常范围的过程。一旦培训完成，ANN将实际患者数据与这些正常数值进行比较以评定诊断或预测。除了ANN的规则系统方面，这是一个相当标准的数据处理，其涉及例如典型的血浆标记临床测量，例如PSA。没有ANN，内科医师仅仅会将标记的水平与提供的参照的正常值进行比较。ANN的能力是它允许以正常范围被设置为依赖于一些变量，而这对于人类同时考虑是困难的。

ANN并不提出一种扩展或缩减与指示剂基因性相关联的数目和/或显著性(例如特殊的缺失序列，外部突变)的方法，以改善在诊断规则系统和数据库的临床应用过程中基因图谱和诊断或预测之间的关系。

授予Robert的美国专利6,056,690提出使用Bayesian网络构筑诊断决策支持工具。Bayesian网络也称作信任网络或因果概率网络并使用概率理论作为在不确定的情况下进行论证的基础。Bayesian网络解释其论证的能力是超过大多数ANN的重要区别。尽管如此，Rober没有提出改进论证过程本身作为这种系统的临床应用函数。

授予Adam的美国专利5,966,711提出应用自动智能代理来更新数据库并从一个结果表进行运算。该专利涉及了交互作用的规则系统系统结构和数据库。在这个系统中，当基础系统需要帮助时，更新部件能够与基础系统通讯，例如当序列检索表明没有接近的匹配时。这个专利没有说明用于形成后台更新程序的数据的确认也没有说明数据的来源。没有确认，建立在增加样本量的基础上的改进的统计可靠性的操作可能产生问题。例如，如果后台程序含有基因表达数据，这些数据并不在基础系统中并且它的使用没有得到确认，实际上会导致不确定性结果的产生。而且，该专利没有表明统计可靠性的改进是可能的。这是因为所用的后台程序仅仅是插入信息，而程序步骤没有事先存在于基础系统中。没有提及使用这样的后台以重新引入已经存在的信息，由此增加获得统计学置信度的样本量。

美国专利5,024,699提出建立一种系统用于输入患者试验结果并根据这些试验结果给患者提供临床建议。该专利描述了一个过程，该过程中，药剂量规则系统根据那些结果更新。在这种情况下的运算仅仅对应于输入结果的患者。这种系统规则的系统不是以将涵盖整个患者群的数据进行解释的方式来起作用。

提供能够使信息产品的能力和应用连续升级的分析诊断服务的方法应是有益的。能将从不同来源获得诊断信息进行结合能够改进基因诊断的精确性和准确性。通过分配所涉及的任务来发送诊断服务也能够改进所进行服务的效率、及时性和服务质量。

发明内容

本发明是一种用于提供临床诊断服务的方法，该方法包括分析从生物样本试验获得的结果以确认至少一部分基因物质的组成、基因物质的行为、或蛋白质，并将通过分析获得的信息引入随后的生物样本分析之中。分析结果也能报送另一部分参加者(例如，健康护理提供者)。

本发明的另一个方面是一种用于提供临床诊断服务的方法，其包括收集生物学样本，分析生物学样本以决定至少一部分基因物质的组成、基因物质的行为、或蛋白质，报告分析结果(例如，健康护理提供者)，并将通过分析获得的信息引入随后的生物样本分析中。从分析获得的信息例如能够被引入进入随后的分析，将该信息用于改进所用信息产品的规则系统或数据库组件或能够用于改进这些分析的统计学可靠性。

本发明也包括采用上述方法的系统和用于这种系统的制品(例如，包括执行运算和操作数据库指令的计算机可读媒介)。

附图说明

图1是说明本发明方法的流程图。

具体实施方式定义：

下面是本说明书中所用的术语。

“内数据库”表示含生物分子序列(例如核苷酸和氨基酸)的数据库，样本的序列或图谱可以与之进行比较。该数据库中含有与序列相关的信息，例如在图书馆中对于给定序列能够找到的与这种序列相关的关于类似基因的信息的描述，与这种序列相关的生理学表现，以及任何其他有助于与样本序列相关或有助于将样本序列的基因物质行为与病征或疾病状况相关联的信息。另外，该数据库能够含有一个细胞或组织类型的基因表达特征的模式、表征细胞或组织类型或表征细胞或组织类型的可遗传或躯体-衍生基因变化的DNA甲基化模式。内数据库使用序列数据库部件，它是生物分子的序列的指示信息，这些信息是内嵌数据结构或当需要时可通过内数据库进入离散的独立数据库而被找到。

“分析数据库”是一种内数据库，它用于作为在确定需要表征的一种细胞或组织的某些信息的过程中的参照。例如，能够决定从患者移出的细胞或组织是否表现出需要某种形式的医学干涉的组织或器官特征是有益的，其中这些医学干涉对于细胞或组织的宿主是有益的。这种分析可以被描述为屏幕、诊断、预测或可以是监视程序。任何分析数据库的关键特性是其中包含的数据至少被部分组织起来以使主题信息能够与特征参照信息进行比较并且根据具有预定水平的和置信度的主题材料作出结论。

“发现数据库”是一种内数据库，含有从广泛来源收集的序列或模式数据。发现数据库分析识别序列或模式，其可作为分析数据库的部件使用。一旦发现数据库的部件达到了预定的显著水平，它就被植入分析数据库。这种情况能够按照预先编程的规则产生。发现数据库有一种命令级别，其允许使用多重参数同时进行或者随后进行多重提问。进入发现数据库的数据通常会包括由临床信息注释的基因数据。这反映了与患者隐私保护有关的目前可接受的情况。例如，进入数据库的可能是从一个被假设为前列腺瘤的活组织切片的RNA表达图谱，表达数据被电连接到这个患者医疗史和当前疾病状况的完整图谱。能用于此处的机理是收集这个患者的后期数据并将其加入为这种模式的注释领域中。描述这个患者的数据可以匿名或编码并且输入可以编码的数据库(例如，使用标记，在下面的其他章节描述)。该编码或者送给患者或内科医师并且作为再现新数据被附以编码发送。这种编码允许将注释正确地存入。只有带编码的个人，也就是内科医师或患者能访问这些可以识别的数据(参照这个病人)。

“参照模式”或“参照序列”是在发现数据库中从中已经被识别并已经表明具有诊断或预测用途的序列或模式。参照序列或模式通常在发现数据库被发现，然后输出到分析数据库用于医学实践。参照材料流一般不直接从发现数据库进入到分析数据库，然而待决定的序列或模式流作为参照序列或模式的整体或部分能够从一个入口输出到分析数据库然后被输出至发现数据库或直接进入发现数据库。

“外部数据库”意为在内部数据库之外的数据库。其通常由不同于维护内部数据库的企业维护。在本发明的上下文中，外部数据库基本上用于获得关于储存在内部数据库的各种序列的信息。外部数据库可以被用于提供储存在基因表达数据库中的描述性信息。在优选实施方案中，外部数据库是GenBank和关联的数据库，其由国家生物技术信息中心(NCBI)，其为国家医学图书馆的一部分，来维护。GenPept是含有来自GenBank的所有蛋白质数据库的关联公共蛋白质-序列数据库。其他的外部数据库的例子包括Blocks数据库，其由Fred HutchinsonCancer Research Center in Seattle维护和University of Geneva维护的Swiss-Prot网站。

“记录”表示数据库表的入口。每一个记录含有一个或更多的域或属性。一个给定的记录应是唯一的被一个或一个组合域或被作为该记录初始关键字而被得知的属性所规定。

在核酸的情况下，“序列”意为一个或更多含有以组成它们的顺序排列核酸的核苷酸。在蛋白质的情况下，“序列”表示一个或多个含有以组成它们的顺序排列蛋白质的氨基酸。

“模式”意为形成已知和样本基因物质或蛋白质结构(例如氨基酸序列)之间比较基础的一个序列或序列组。模式可以是基因序列组的行为。例如，一个模式可能是一组定义基因的有关基因表达活性，其中所观察到的行为是特定的生理学活动的特征或诊断，例如一种疾病的消亡或发展特征。更进一步地，有关基因表达水平的模式可能是癌细胞或癌症组织的发展可能进程的指示。这种类型的模式有时被称作为细胞或瘤的图谱、基因特征或表达图谱。因此，决定性模式的作用通常是指作为图谱。另外，模式包括诸如外部变异的基因物质的其他的结构或行为识别特性。例如，模式可能是一组基因的DNA甲基化状态。甲基化模式可以是多重基因比较高的或低的甲基化状态，而且甲基化模式可以是特定的生理学活动的特征或诊断例如疾病的消亡或发展特征。进一步说，DNA甲基化的模式可以是癌细胞或癌症组织的发展可能进程的指示。模式也能是诸如单个核苷酸多形性(SNP)的组的基因组变化或突变。例如，在SNP可复制之处观察到在个体基因组中共存和其中具有这些SNP组关联和/或预测组成模式的这些SNP的置信度。SNP模式能够含有整个基因组隔开的SNP或SNP模式能够形成单倍体，其中共遗传SNP处于非平衡的联接。模式也包括被保存可以从上述遗传事件中产生的同时发生事件，例如，模式可以包括一个特定基因中的SNP，一个20定义基因的特定相关水平表达，一个可重复缺失的染色体缺失(诸如异型接合性缺失)和被定义的染色体的高甲基化区域。使该事件的汇集成为模式的定义特征是在隐藏所有基因变化的相同个体中，这些模式是一种总体表型或疾病的可预见的、可诊断的或预后特征。

遗传物质的“行为”表示序列被表示的方法。在核酸序列的情况下，基因表达或序列表达是序列行为的一种量度。序列分析

测定核酸序列的方法众所周知。初始核苷酸序列能够通过任何数量的方法完成，其包括双脱氧终端序列。RNA或DNA的相关水平的存在、缺失或数量的分析能够采用许多已公布的方法完成，这些方法包括Northern、Southern印迹法，原位杂交、狭线或斑点印迹法以命名所有组成成分的子集。最近，微阵列(microarray)技术用于测定是否存在各种的序列和是否已被识别的基因正在被表达。一些这样的微阵列技术的例子可以在美国专利6,004,755；6,051,380；5,837,832中找到，这些每一个专利在此引入作为参考。这些方法使用一种底物，该底物与通常被标注的低聚核苷酸结合。当含有与被结合的低聚核苷酸互补的序列的样本与结合了低聚核苷酸的底物接触时，这种方法使用一些形式的标记表明已经发生杂交。例如，溶液型的分子，样本通常能够被标记并且标记的存在可通过荧光显微镜或放射照相技术检测到。作为选择，这两个分子键合并产生了可探测的现象例如荧光。微阵列型方法能够利用一些不同的技术(例如某些是被动的，其他的是主动的)，但是它们都有能力同时识别和表征一些序列。也可用其他方法分析平行数目的序列包括cDNA序列、基因表达序列分析(SAGE)和溶液型阵列的应用，其中特定的低聚核苷酸与示踪珠相连。随后进行溶液杂交，采用公开的方法检测杂交的行为。测量核苷酸序列的任何方法都可与本发明的实践一同使用。但是，诸如微阵列方法等已描述的高度并行的方法是最优选的。测量氨基酸序列的方法也众所周知。

为了实践本发明的方法，应获得序列信息或基因表达图谱。因此，在某些方面，必须获得患者的样本。样本的类型没有限制，只要其能够被化验以测定序列信息。因此，样本可以从循环血液、活组织切片、灌洗物和任何能够获得序列的其他方法获得。萃取这类样本的所有方法都是可以采用。

序列信息能够以各种各样的方法产生和描绘。例如使用具有结合了荧光标注的低聚核苷酸的微阵列，可使用读出装置以产生每一种结合样品低聚核苷酸的图形图谱。这些图能够被数字化，从而可测出每一可探测事件的强度。这在基因表达的分析中是非常有用的，其中RNA碎片产生的测量是重要的指示剂。作为选择，可使用一个或多个PCR反应以简单指示是否存在特定的片段。然后这些信息能被输入表格、数据库等。

任何显示序列信息或基因表达图谱的方法都能用于本发明的实践。生物信息

正如上述注释，生物信息系统的诊断应用来自于将样本序列或表达模式与已知的序列或已知表达模式对比或匹配的方法。为此目的，可以使用多种技术。在已知模式和样品模式之间的模式匹配完成后，比较结构数据(例如基因序列)和表达数据(例如基因表达图谱)能够使用相同或类似的方法完成。采用来自患者样本获得的核苷酸序列数据作为提问序列(序列表的序列)，可使用含有已识别序列的数据库进行检索，以检索异体同型(类似)的区域。这样的数据库的例子包括GenBank和EMBL。

一种可以使用的异体同型检索规则系统是以D.J.Lipman和W.R.Pearson，在题为″Rapid and Sensitive Protein Similarity Searches″，Science，227，1435(1985)的论文中描述的规则系统进行。在这种运规则系统则中，异体同型区域可按照两步法检索。第一步，采用异体同型记分表计算匹配分数，确定最高的异体同型区域。在这一步，采用参数“Ktup”建立比较两个序列的偏移的最小的窗口尺寸。Ktup建立了一定数量的必须与序列中的提取最高同型区域相匹配的基础。在这一步，不采用插入或缺失，异体同型作为初始值显示(INIT)。在第二步，为了加入可能的缺失部分，将异体同型进行排列，通过插入空隙以获得最高的匹配分数。采用异体同型记分表和插入记分表重新计算第一步获得的匹配记分，以在输出中获得最佳的输出值(OPT)。

两个序列的DNA异体同型能够采用Harr法构筑点矩阵异体同型图进行图形检测(Needlcman，S.B.和Wunsch，C.O.，J，Mol，Biol 48：443(1970))。这种方法产生二维图，其能够用于测定相对于副本的异体同型区域。

但是，在一组优选的实施方案中，在从样本和参照模式获得的核酸序列和表达数据之间进行比较，可以通过采用商业计算机程序如INHERIT670序列分析系统，来完成来自患者样本的数据的处理，该系统可由Applied Biosystems Inc.市售(Foster City Calif.)，还包括Factura软件，(也由Applied Biosystems Inc.市售)。Factura程序预处理每一个样本序列以“编出”部分，剔除没有兴趣的部分诸如多聚A尾和重复性GAG和CCC序列。可编低端检索程序以屏蔽掉“低信息”序列或例如BLAST程序能够忽略低信息序列。

在INHERIT670序列分析系统应用的规则系统中，模式说明语言(TRW Inc.开发的)用于确定异体同型区域。“INHERIT分析采用三种参数进行异体同型的序列比较：窗口尺寸，窗口偏移量和允许误差。窗口尺寸规定了提问序列细分的片段的长度。窗口偏移量规定了从以前片段的开始计算的下一个片段(被比较的)起始处。允许误差规定了插入、缺失和/或超过规定字长度的容许的取代的总数目。允许误差可以设定0和6之间任何整数。允许误差的默认设置值是窗口范围＝20，窗口偏移＝10和允许误差＝3”。INHERIT分析用户指南.pp.2-15.Version 1.0.Applied Biosystems，Inc.October，1991。采用这三个参数相结合，数据库能够检索含有异体同型区域序列和用初始值记分的适当的序列。然后，这些异体同型区域采用点矩阵图表以检测确定相对于副本区域的异体同型区域。Smith-Waterman排列能够用于显示检索异体同型的结果。INHERIT软件能够采用带有UNIX操作系统的Sun计算机系统运行。

相对于INTERNET，作为选择的检索也可以包括BLAST程序，GCG(Genetics Computer Group，WI可提供)和Dasher程序(Temple Smith，Boston University，Boston.MA)。核苷酸序列检索能够在GenBank、EMBL或常规的国际数据库例如GENESEQ(Intelligenetics，Mountain View，CA可提供)或其他基因国际数据库进行。

BLAST(Basic Local Alignment Search Tool)程序和Smith-Waterman运规则系统则搜寻两序列之间无空隙相似性的区域。为此，他们测定(1)两个序列的相同区域之间的排列，(2)两序列之间的百分比同一性的确认。这种规则系统通过匹配、一个碱基接着一个碱基(base bybase)、实质相似性的区域进行计算。在这些区域中，识别的碱基采用+5值记分，错配的碱基采用-4(用于核酸)记分。有足够高分的临近碱基区域被认为是高记分对(HSP)。在BLAST中，这种最佳HSP分(称作BLAST分)作为输出出现。而且，对于每一个HSP，百分比同一性被计算并作为BLAST的输出以排列形式出现。最后，计算每一个HSP的P-值。P值表示从随机发生得到的观察到相似性的概率。较低的P值表示具有较大的置信度，即所观察到的相似性不是由于随机事件。

产物记分表示BLAST输出参数的数字总和并用于表示提问和匹配序列之间的排列质量。特别是，产物记分是数字化数值，它表明BLAST匹配的长度，它代表碎片的交迭和BLAST排列中的质量之间的平衡。

许多其他的序列匹配/分析规则系统都可采用。例如，FASTA方法，在归类为散列法处理过程中，首先比较最大数量的短的好的匹配序列的数目。然后，按照不同于第一次比较中使用的分立临界值匹配记分，进行最佳匹配序列的第二次分析。最后，排列最佳匹配序列并提供以与这排列密切相关的参数为基础的记分。

在本发明的一个方面，匹配规则系统和相关数据库包括用于实现诊断、预测或病征分级或疾病状态的系统部分。本系统另一个方面是不断更新的内数据库，以便在每一个样本序列分析过程中将数据输入用于随后样本序列的比较分析数据库。也就是，患者样本分析产生的序列随后加入到参照模式。

用于将患者样本的核酸序列或基因表达图谱与已知序列或图谱匹配的数据库，进一步将那些序列与诊断结果相关，以将诊断意义赋予识别序列。这些相关关系能够被储存和同在一个数据库中操作，该数据库用于确定异体同型，或者这些相关关系被存储和在一个独立数据库中操作，这个数据库的相同性测定数据库和规则系统被界面化。例如，核酸序列表明her-2-neu基因的放大与存在或不存在的其他基因相联系，如未发现的核酸序列可能表明患者发生了侵入性乳腺癌。同样，一个基因增强表达或强烈减少表达也可能表明一种细胞类型不受控制的生长。一旦异体同型或模式的类似性在这些序列或基因表达图谱与患者样本的那些序列或图谱之间建立起来，这些序列或图谱可以和临床意义相匹配，并将其输入分析数据库。在her-2基因的情况下，产生了临床结果(也就是信息)，这个患者患有侵入性乳腺癌。

通过如下过程建立基因表达图谱对于预测一个患者以前被识别的瘤是否复发是十分有用的。一种预测模型按照下述步骤建立(1)定义识别关系(例如复发和幸存)，(2)对于它们的能力对单个基因记分以预测期望的模式和评估这些记分的统计学显著性，(3)信息基因子集的选择，(4)在上述子集基础上构筑预测规则，(5)对设立的初始数据设置和独立数据的规则确认。这样的安排已经在分析来自大范围瘤的数据中获得了成功。这种方法通常在选择分数、计算显著性和规则构筑的精确方法方面发生变化。

为了选择特定的基因表达标记，每一个在基因微阵列上的表明或与癌症关联的基因按照每一个这样的基因与期望的两种基因的相似性进行记分。不同的距离和量度用于这种记分。为了产生信号子集，从这个过程产生基因表并将按照附加的考虑进一步缩小范围。

从缩小的信号子集列表构筑预测值。在预测值中，每一个基因对分类(复发或幸存)之一进行权重投票并且获得更多投票的类别(在一给定的获胜余量之上)赢得预测。每一个基因的投票权重取决于其在新样本中的表达水平和通过记分反映的质量。将每一类别的投票汇总起来并进行比较以决定获胜类别，并决定作为获胜余量量度的预测强度。只有预测强度超过给定的预设阈值的样本才被归类为获胜类别。

由于绝大多数分类方法对其建立中使用的例子工作良好，优选预测值的交叉确认和评估的优选与独立的数据集相结合。样本可分成2个或更多的组用来确认。或通常使用的交叉确认方法，例如，可以使用略去一个交叉确认法(Leave-One-Out Cross Validation)(LOOCV)。然后采用多变分析检验患者的预测数据和评定的标记表达之间的关系

用于比较表达信息的实例方法如下：标志eDNA分子被杂交到含有互补的核酸序列的微阵列和一种标记物(例如用荧光体)。然后扫描微阵列并记录点的强度。然后准备强度数据矩阵。

然后准备参照基因表达向量。如果A，B，…Z被用于标注不同的样本组，a，b，…z被用来分别标注用于构建每一组中的参照基因的样本的编号。于是，标记A21表示在组A的样本1中的第2个基因的表达强度。如果每一个样本用样本量为n的基因杂化至微阵列上，然后下述矩阵A，B，…Z分别表示来自A，B，…Z所有组的表达数据。

然后计算出来每一个矩阵中的每一个基因的几何平均表达值，从而准备下列矩阵。(如果A_{(几何平均)}是{A₁₁，A₁₂，…A_1a}集的几何平均，基因1在A组中。)

参照基因表达向量是这些向量的几何平均值。

[\begin{matrix} {\bar{X}}_{1} \\ {\bar{X}}_{2} \\ \cdot_{\cdot}^{\cdot} \\ {\bar{X}}_{n} \end{matrix}]

其中 X₁是{A_{(几何平均)}B_{(几何平均)}Z_{(几何平均)}}的几何平均值。

在准备了参照基因表达向量后，初始数据集通过每一个基因相对参照基因表达数值的比率求对数log进行变换。产生矩阵{A＇B＇Z＇}。其中A＇₁₁＝In(A₁₁/ X₁)并且Z＇_nz＝ln(Z_nz/ X_n)。该值表示对每个基因在平均值之上的增加或减少的倍数。

有微小区别强度的基因被从矩阵{A＇B＇…Z＇}中去除。对于基因i从1到n，如果其值在{A＇_i1，A＇_i2，…A＇_ia，B＇_i1，B＇_i2，…B＇_ib，Z＇_i1，Z＇_i2，…Z＇_iz}中的绝对数值没有一个大于阈值(在优选实施方案中为ln3)，则基因i从所有的矩阵中去除。换句话说，为了考虑诊断相关的基因，在任何矩阵中这些数值必须至少有一个数值的绝对值大于或等于阈值(优选为ln3)。现在除去微小差别强度基因的矩阵是矩阵{A″B″…Z″}。

然后将特征提取规则系统应用于每一个所得矩阵{A″B″…Z″}，以创建如下特征(signature)。此处所用规则系统参见Maxcor规则系统并对每一组{A″B″…Z″}分别进行。矩阵中的每一对列，按照相对于平均值(在下面定义)为高、平均和低进行基因的坐标表达，分别为1，0和-1，产生代表该对的权重向量。对矩阵A″，进行a(a-1)/2的成对计算。通过从矩阵A″的所有a(a-1)/2权重向量取平均值计算最后平均权重向量，记为A组的特征。于是，这个特征含有与A″相同数目的基因，并且它的数值应该是在[-1，1]之内，用-1和1始终表示相对于所有组的平均值基因在低的和高的水平。

上述成对计算通过采用坐标列的c1和c2和将它们的数值进行归一化，例如c1_i成为(c1_i- c₁)/Sc₁进行处理，其中c1是列c1的均值并且Sc1是标准偏差。对于c1＇和c2＇中的每一基因对，该乘积然后被存入向量p12，p12中的每一个数值被从最低的到最高进行储存。然后标称截断(在优选实施方案中为0.5)用于收集在p12中具有较大乘积值的所有基因。然后使用在c1和c2列中的数值计算该基因集的泊松相关系数。然后增加截断值直到相关系数大于统计相关数(在优选实施方案中为0.8)。当完成后，如果在c1和c2两者的基因值是正的这一基因集满足这一临界值，被赋值为1，如果两者基因值是负的则为-1。对于在c1＇和c2＇中所有其他的基因则被赋值为0。该所得向量是代表该对的权重向量。-1和1值始终分别代表相对于所有组的平均值的基因表达为高或低。

一旦准备了特征，未知的样本能够相对其记分。在记分之前，具有弱区别值的样本S的基因被去除，从而使留下的行与特征向量中的那些相同，于是创建样本向量S″。这个记分是在S″中每个基因和其在特征向量权重的乘积的总和。例如，在样本向量S＇和特征向量As之间的记分是这种归一化的记分是(记分-随机记分的平均值)/随机记分的标准偏差，其中随机记分是S″和使其基因位置随机化的特征向量之间的记分。通常产生100个随机记分以计算平均值和标准偏差。高分表示未知样本含有或相关于特征从中衍生的样本。

也能够使用作为选择的特征提取运算。一个实例是平均对数比率方法。将该规则系统作用于每一个组/矩阵{A″B″…Z″}。对于每个矩阵，特征向量是这一矩阵的行的平均值。于是，组(A″B″…Z″)特征向量是

其中 A₁″是{A₁₁″，A₁₂″，…A_1u″}的平均值.

使用这种方法记分的未知样本按照如下方法处理。在记分之前，样本基因表达向量采用相对于创建的参照基因表达向量的比率取log值进行转换。例如，样本

S = [\begin{matrix} S_{1} \\ S_{2} \\ \cdot_{\cdot}^{\cdot} \\ S_{n} \end{matrix}]

转换导致

S^{'} = [\begin{matrix} S_{1}^{'} \\ S_{2}^{'} \\ \cdot_{\cdot}^{\cdot} \\ S_{n}^{'} \end{matrix}],

其中，S₁＇＝ln(S₁/X₁)。然后，具有弱区别值的基因被去除，保留下来的行与特征向量的那些值相同，从而创建了样本向量S″。取S″和特征向量之间的欧几里德距离计算针对每一个特征的记分。归一化的记分是(记分-随机记分的平均值)/随机记分的标准偏差，其中随机记分是S″和特征向量之间的欧几里德距离，其中使特征向量的基因位置随机化。

患者数据也能用于改进数据库并且按照上述规则系统进行操作。通过将患者的序列或模式的信息从发现数据库导入分析数据库而改进数据库。通过增加样本的数量改进匹配(临床意义和序列)过程的统计学可靠性。如果这一结果是正确的，则可判定是否将序列或模式报告为负或正的临床结果。

另外，经过比较，某些样本会具有不存在于数据库中序列或模式中的序列或模式。当未来的样本被分析出具有相同系列的图谱时，这些序列或模式能够提供额外的特性，以增强匹配。

无论通过额外的模式的使用是否增加额外的置信度，都要考虑匹配。也就是说，与不同模式相匹配，应赋予不同的置信度。因此，尽管已经建立最小的模式匹配以实现特定的诊断，在Daimond(下面将描述)模型下将被认为是多余的进一步的匹配的存在与否可用于提高结果的置信度。

当考虑在规则系统中是否包括给定的模式时，授予Diamond的美国专利5,692,220提出了一套简单的问题。首先他问为了建立一个与正在考虑中的模式正匹配，必须存在的最小输入数据集是什么？然后，他问是否有单个的输入数据或组合的输入数据，哪一个，什么时间存在，剔除规则(也就是排除)，更进一步考虑的模式？最后，他问是否已经为比较编程的其他的模式比正在考虑的模式在层次上更低。也就是说，是否其他的模式能够被正在考虑的模式“吞掉”？

在本发明中，最后两个问题的回答作为方法的一部分，决定是否需要和如何改进将序列信息与临床意义进行关联的规则系统。在Diamond模型下，如果一个模式能够被另一个模式吞掉，那么就应该采用更宽的模式。况且，由于与更多的模式匹配的数据有更高的分数，能够获得附加的置信度，保留使用两种模式是有价值的。同样可以说考虑是否或不使用一个单一的明确定义的匹配，作为反对一些模式匹配。Diamond模型建议如可能只使用单一的匹配。如果能够通过比较多重的点的使用，获得更大的统计学显著性、置信度，但是，在紧急的情况下这也许是不理想的。

图1是说明将表达图谱数据引入诊断/预测规则系统以增加置信度的流程图。计算置信度、适当的样本量等等考虑的统计工具是公知的。将该方法编程为可执行的计算机代码也是常规的并且计算机编程领域任何熟练技术人员能轻易达到的。作为结合处理病人数据进行连续和/或预编程序法实施这种方法的行为是本发明方法的一方面。这种实例方法在步骤100由要求病人样本分析的健康护理提供者或其它相关部分开始。在步骤200，得到样本，进行实验室试验的物理操作步骤由健康护理提供者、实验室业务员或运行数据库系统的部分进行。该步骤的顶点是提取序列信息起源的基因物质或蛋白物质。接着在步骤300经与参照序列比较和经规则系统询问分析信息。参照序列存储于分析数据库1000。用于进行该分析的规则系统可以作为数据库1000的部分程序指令，或者它们可以在按询问和操纵数据库1000定制的独立计算机程序中经独立的系列指令运行。步骤300的分析产生结果步骤310。这种结果会指出，如果存在具有足以提供诊断、预测或其它临床相关信息与参照模式的匹配。该系统进行查询以确定这种匹配过程是否识别任何以前不识别的模式，或者在此样本中以前识别模式的识别(或其缺失)是否提供附加的统计值，见步骤320。例如，通过增加样本量可以得到额外的统计值，从而得到增加的置信度或预测能力。步骤400或步骤410向提出请求的部分报告结果，或者报告给指定发送给这类结果之处。结果经电子通讯或以任意的其它方式直接传达至健康护理提供者。当一个模式显示出该模式以前已经被识别为与临床状态可能相关，但是其中充分相关置信度还被建立，如果它们显现出以前未识别为具有临床显著性的模式，或者是最常规的情形，则标记该模式。标记动作发生在步骤510。标记的模式在步骤600被存储在发现数据库DB2000。紧接着从健康护理提供者或在该位置提供的其它人员接收到临床状态的确认(步骤700)，从数据库中除去标记(步骤800)。然后这种模式被从发现数据库2000中除去，并移入分析数据库1000以在随后的分析中用作参照特征。如果例如，通过模式匹配规则系统识别一个以上的新模式和需要分别确认与不同临床信息相关联的不同部分模式，这种过程是反复的。

本发明的方法不取决于在ANN和现有技术(例如临床化学和EIA化验)发现的标准诊断方法中使用的那些相同的读出中的正常范围的确立。在单一或确定的核酸或蛋白质模式指示的病状或病症的情形下，任何标记(例如基因)的存在具有临床意义。另一方面，这里组合的标记用于建立临床诊断，统计学置信度归因于一组标记，比较未知物或样本的模式可连续改变。到一个人视一种模式为“正常”的程度，它是动态的正常，和一般与经典诊断药物中测量的分析物相关的正常不同。该正常不断更新和确认。

模式从病人样本向数据库的加入和分析数据库参照模式的规则系统提出了一些复杂的问题。例如，人们如何知道何时以前未发现的模式可用于支持诊断、减弱诊断的置信度或者建议以前不可确定的诊断？在本发明最优选的实施方案中，在初始分析时，与数据库相匹配的序列被提供某些索引时(例如，它们的数据元标记)，以表明该诊断未被独立确认。在此最优选的实施方案中，被标记的序列归于发现数据库。假设样本显示具有与已知模式匹配的序列，但是亦显示还没有与病状或体征相关的模式。独立地，处理其它含有混合的已知或以前未知模式的相似的模式。报告了基于与以前识别的模式匹配的结果，但是以前未知模式并未引入分析随后样本序列的过程。标记的数据可分配至数据表或数据库(例如，发现数据库)。当接收确认体征或病状的信息时以及当建立了以前未知模式与给定临床状态的关联时，除去索引(“标记”)，将该序列完全引入匹配过程或者并入驱动匹配规则系统的统计值。内部登记可用于将统计学显著性归于最近添加的模式。换言之，第一例如“确认”该模式同时出现和病状独立确认可被分配一个值或给出符号，表明这种模式被怀疑与给出的诊断相关。当再看见这种模式且它与疾病和病症的出现相关时，给出一种不同的指示，例如意谓着可能的病状和体征。可继续这种过程，直至按照公知的统计学方法和标准令人满意地建立模式以存在和病状或病症之间的相关性。

按照数据库，这种过程如下执行：

1.处理大量表征病人样本，以便识别序列和模式。例如，大量收集的表示两种不同细胞或组织类型的约200至400个样本，将序列或模式数据置入发现数据库。采用生物信息法分析发现数据库直至检测到以这样的方式(其中数据是有效的)区别两种或更多不同类型细胞或组织的模式。

2.需要定义与兴趣变量相关的完全范围的模式的数据集输出至分析数据库。这种数据库是“锁定的”，并且用做病人临床诊断的临床参照工具。

3.诊断通过以设计测量预定模式的装置分析新病人进行。新数据与分析数据库相比较，在病人样本和参照样本之间进行相似性统计学评价。

4.同时，病人模式被插入发现数据库。将新数据结合所有的在前数据。在发现数据库对新模式进行每次周期复审期间，最近提交的模式包括在新数据集中。及时地，发现集的统计学值增加并且参照模式的统计学能力增加。

5.在参照模式源自发现数据库并且它们统计学上优于以前模式的每一点，新模式代表分析数据库并且起参照模式的作用。

在优选的实施方案中，发现和分析数据库之间的界面是“活动的”。此情形下两个数据库之间无物理区分，但是分析域定义为发现数据库内的子集。分析发现数据库的方法和更新分析数据库参照模式的方法是连续的。

该方法中一项重要的变化是其有几种集中于不同模式的发现数据库的情况。例如，独立的发现数据库可集中于不同器官的癌症。从连续改善发现数据库又逐渐移动数据至各自的分析数据库，可合并独立的数据库以形成一个大的发现数据。伴随多模式的组合，特别它们以涉及相关和无关表型特征的信息注释时，出现用于参照新表型的完全新的模式。

标记/未标记过程可以以各种方式完成。可以通过适当数字化的命令手工影响标记和/或未标记过程。例如，当通知分析的接收者时，该接收者应被建议当经不同于基因测试(例如，活组织检查和细胞分析)的方式确认时，他们应该通知临床诊断的数据库操作者。在此请求者与分析人员进行电子通迅，可以建立简单的联系，以便请求者直接输入确认数据至数据库从而除去标记。当然，必须考虑到不能实施分析确认的环境。这样的情形下，标记过的数据可以保留标记，可以被放弃，或者可以用于影响与分析有关的统计报告(例如，它可用于降低结果的置信度)。由编程的透视实现任何这些选项是简单的，并且是普通熟练人员易于得到的。

优选实施方案

本发明的方法可以许多不同的方式进行实践。存在许多采样、分析、报告、数据收集、数据库和分析改进工艺的组合。最优选的组合是匹配参与各方最佳性能的那些组合，这些参与各方涉及需要那些性能的功能。另外，效率是一个考虑因素。在一个或一些集中的存储单元进行分析过程是最有效的，这些存储单元给出存储和操纵与复杂规则系统相关的大数据库需要，这种复杂规则系统以上述的方式连续改进。这减轻了对硬件和软件维护和升级的考虑，并且最重要地限制了与将改进分配至规则系统和数据库有关的需要。同样地，获得该模式的样本检验(即，实际的实验室步骤)最好在本医院或参照实验室进行，由于这类操作通常被最佳装配和配备以实施这些活动。

在最优选的方法中，健康护理提供者以适当的规格形式获得病人样本。根据所患的疾病或病症，这会有不同。例如，如果检验乳癌，乳房组织的活组织样本可为适当的样本，而如果检验是常规筛选，全血样本则可为最佳样本。不论怎样，适当样本的选择对本领域普通熟练人员是显而易见的并取决于可得到的化验规格型式选择。

采样之后，健康护理提供者在适当条件(例如，在含适当防腐剂和添加剂的试管中)下送样至能够获得采用本文所述的生物信息系统分析需要的模式的实验室。优选地，但不是必需地，通过同样的部分提供获得这种模式的分析，并且它包括核酸或蛋白质微阵列。这样的装置现在是公知的。数目众多的专利介绍了它们的用途；例如：美国专利Nos.5143854；5288644；5324633；5432049；5470710；5492806；5503980；5510270；5525464；5547839；5580732；5661028；5848659和5874219，这些公开引入本发明供参考。优选地，数据格式是模式的数字表示。这有助于基因表达标示语言(GEML^TM，Rosetta Inpharmatics，Kirkland，Washington)附加的格式。这种语言是公开的、文件记载的、开放的格式，它使在基因表达系统、数据库和工具之间的交换成为可能。此外，这种格式允许不限制标记的数量。C.f.Gene Expression MarkupLanguage(GEML^TM)，A Common Data Format for Gene Expression Data andAnnotation Interchange，Rosetta Inpharmatics，www.geml.org/docs/GEML.pdf(2000)。如下面所述，这便于标记用于临床结果的以后确认和用于每个匿名数据辨别的数据。

以任意输入形式(例如，扫描进入能数字化该模式的计算机)提供获得的模式，然后通过生物信息系统的操作者进行分析。分析的结果(匹配预言的诊断或病症的序列/模式)接着传达至请求者。同时，这种模式暂时保留在与生物信息系统相关的数据库中。优选地，它由如上所述暂时标记并保留在发现数据库中。请求者接着将确认信息返回至生物信息系统的操作者。如果确认是可能的，这种模式和从该模式收集的任何新信息作为参照序列成为分析数据库的一部分。在一些情形下，这同时发生，由于表达数据的收到确认了已经进行其它的临床评价的健康护理提供者的诊断。如果以该数据得不到任何结果，这种分析的统计学可靠性会经增加的样本量而改善。从而使数据库更为充沛。

在另一优选的实施方案中，实验室或健康护理提供者得到要求的样本。由与进行分析的同一组织进行该样本的化验。其优点在于化验格式和用于分析的所需输出格式能够更容易地协调。已辨别的模式的分析和以上介绍的数据/规则系统改进然后以相同的风格进行。

在任何待分析模式必须传达至不同的存储单元(例如，在此实验室进行化验并将得到的模式发送至生物信息操作者)的方法中，采用电子通迅以对该过程加速是可能的。由于本领域普通熟练人员能够领会，因此很容易地采用因特网和其它网络系统。

当设置为特别编程的通用计算机时，本发明的装置被最好地制造和使用。在这一实施方案中，数据库系统(将发现和分析数据库与功能如上介绍的编程指令的组合)通过一种或多种特别编程履行其在此所述功能的计算机的结合，以完成其功能。这些指令可以并入任何适于进行计算机操作的介质，例如硬盘驱动器、网络、光学或磁光材料以及为此目的通常使用的任何其它物质。包含记录计算机指令的介质的物质以便实施本发明所述方法的制品是本发明的进一步实施方案。

Claims

1.一种提供临床诊断服务的方法，包括：

a) 收集生物学样本；

b) 分析所述生物学样本以确定该基因物质至少部分组成、其行为、或蛋白质；

c) 报告所述生物学样本的分析结果，以及

d) 将经所述对生物学样本分析得到的信息引入随后的生物学样本分析之中。

2.权利要求1的方法，包括从所述生物学样本提取基因物质的步骤。

3.权利要求1的方法，包括从所述生物学样本提取蛋白质的步骤。

4.权利要求2的方法，其中从所述生物学样本收集生物学样本和提取基因物质由实验室业务员或健康护理提供者进行，并且确定基因物质的组成或行为以及将这类信息引入随后的分析中由不是实施收集和提取步骤的实验室业务员或健康护理提供者的机构进行。

5.权利要求3的方法，其中从所述生物学样本收集生物学样本和提取蛋白质由实验员或健康护理提供者进行，确定所述蛋白组成、浓度或行为的分析以及将这类信息引入随后的分析中由不是实施收集和提取步骤的实验室业务员或健康护理提供者的机构进行。

6.权利要求2的方法，进一步包括放大至少部分基因物质的步骤。

7.权利要求2的方法，其中与微阵列结合进行所述分析步骤。

8.权利要求2的方法，其中收集和提取步骤由实验员或健康护理提供者进行，并且确定基因物质的组成或行为的分析以及将这类信息引入随后的分析中由不是实施收集和提取步骤的实验室业务员或健康护理提供者的机构进行。

9.权利要求1的方法，其中通过与包含模式信息的数据库比较所述基因物质、其行为或所述蛋白质进行所述分析。

10.权利要求1的方法，其中将信息引入随后的生物学样本分析的步骤修正了分析结果的统计真实性。

11.权利要求9的方法，其中将信息引入随后的生物学样本分析的步骤修正了数据库。