JP2003021630A - Method of providing clinical diagnosing service - Google Patents

Method of providing clinical diagnosing service

Info

Publication number
JP2003021630A
JP2003021630A JP2002078680A JP2002078680A JP2003021630A JP 2003021630 A JP2003021630 A JP 2003021630A JP 2002078680 A JP2002078680 A JP 2002078680A JP 2002078680 A JP2002078680 A JP 2002078680A JP 2003021630 A JP2003021630 A JP 2003021630A
Authority
JP
Japan
Prior art keywords
analysis
database
information
genetic material
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002078680A
Other languages
Japanese (ja)
Other versions
JP2003021630A5 (en
Inventor
David Atkins
アトキンス デイビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ortho Clinical Diagnostics Inc
Original Assignee
Ortho Clinical Diagnostics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ortho Clinical Diagnostics Inc filed Critical Ortho Clinical Diagnostics Inc
Publication of JP2003021630A publication Critical patent/JP2003021630A/en
Publication of JP2003021630A5 publication Critical patent/JP2003021630A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

PROBLEM TO BE SOLVED: To provide a method of providing the clinical diagnosing service. SOLUTION: The method of providing the clinical diagnosing service is provided. This method includes a stage for collecting biological samples, a stage for analyzing the biological sample to determine a composition of a genetic material of the biological sample, its behavior or at least a part of protein, a stage for reporting a result of the analysis (for example, to a medical care provider), and a stage for taking the information obtained by the analysis, in the analysis of the follow-on biological sample. The information obtained from the analysis can be taken in the follow-on analysis, for example, by using the information to improve the algorithm of the used information product or a database component, or can be used to improve the reliability in statistical analysis. The database system and a device to execute this method, are similarly provided.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】発明の背景 本発明は、臨床診断及び実験室医学の分野に関する。BACKGROUND OF THE INVENTION The present invention relates to the fields of clinical diagnostics and laboratory medicine.

【0002】遺伝に基づく診断は、臨床研究所におい
て、急速に標準的なツールとなりつつある。これらの診
断は、生体内の遺伝物質の遺伝的組成又は挙動の一面
と、生理学的症状、疾病状態又は疾病に対する傾向を相
関させることを試みている。これには、配列の挿入、欠
失又は不整合といったような遺伝子突然変異の有無に基
づく分析が内含されている。同様にこれには又、或る種
の発現がアップレギュレートされるか又はダウンレギュ
レートされるかといったような個体又はその一部分(例
えば細胞)の内部での遺伝子発現の起こり方についての
情報も含まれる可能性がある。
Genetically based diagnostics are rapidly becoming the standard tool in clinical laboratories. These diagnoses attempt to correlate one aspect of the genetic composition or behavior of genetic material in vivo with a physiological condition, disease state or propensity for disease. This includes analysis based on the presence or absence of gene mutations such as sequence insertions, deletions or inconsistencies. Similarly, it also provides information about how gene expression occurs within an individual or a portion thereof (eg, a cell), such as whether certain expression is upregulated or downregulated. May be included.

【0003】診断方法の有用性は、上述の相関を行なう
のに使用されるバイオ情報科学(バイオインフォーマテ
ィック)システムの持つ出力によって変わる。これらの
バイオ科学システムの大半は、ユーザーに対して規定の
フォーマットで配列(ヌクレオチド塩基又はアミノ酸)
を提出することを求めている。システムはこのとき、配
列をその他の既知の配列と比較させること又は遺伝子発
現プロフィールをその他の発現パターンと比較させるこ
とにアルゴリズム従事させる。次に、既知の配列及びプ
ロフィールと標本の配列及びプロフィールの類似性が、
さまざまな規則に従って比較されるか又は「評定」され
る。未知の標本と比較される配列が幾分かの生理学的効
果をもつか又は1つの症状又は疾病状態を代表するもの
であることがわかっている場合、システム内の既知の配
列と類似している未知の標本はその症状又は疾病状態を
もつと言うことができる。配列類似性を分析するために
アルゴリズムを用いるバイオ情報科学システムには、B
LAST及びFASTAコンピュータプログラムが内含
される。未知の標本からの遺伝情報を既知の症状を反映
する遺伝情報と比較するのに用いられるデータベースの
頑強性は重要である。
The usefulness of diagnostic methods depends on the output of the bioinformatics system used to perform the above correlations. Most of these bio-scientific systems arrange sequences (nucleotide bases or amino acids) in a defined format for the user
Are required to submit. The system then algorithmically engages in comparing sequences to other known sequences or to comparing gene expression profiles to other expression patterns. Then, the similarity between the known sequence and profile and the sequence and profile of the sample is
Compared or "rated" according to various rules. Similar to a known sequence in the system if the sequence compared to the unknown sample is known to have some physiological effect or be representative of one condition or disease state An unknown specimen can be said to have the condition or disease state. Bioinformatics systems that use algorithms to analyze sequence similarity include B
Included are the LAST and FASTA computer programs. The robustness of databases used to compare genetic information from unknown specimens with genetic information that reflects known symptoms is important.

【0004】バイオ情報科学システムのアルゴリズム面
も同様に、診断の有用性に影響を及ぼす。1つの配列が
もう1つの配列に類似している時を見極めるのに用いら
れるプログラミング論理及び統計的及び数学的関係は、
診断及び予後判断を行なう上での補助としてのこれらの
システムの有用性にとって中心を成すものである。しか
しながら、バイオ情報科学にとってはさらに根本的な生
物学的コンポーネントが存在する。すなわち、機能性が
配列の同一性及び発現に起因すると考えることである。
問題の症状と遺伝情報の関係が精確にわかっていたとす
れば、これは面倒な問題ではないだろう。当然のことで
あるが、ここではあてはまらない。一部の疾患又は症状
は、或る種の遺伝的プロフィールに直接相関することが
わかっているが、大部分が全く未知であるか又は不完全
にしか知られていない。疾病の状態又は症状を適切に査
定できる確率は、これらの症状と結びつけられた遺伝的
プロフィールについてより多くの要素が見極められるに
つれて改善する。例えば、p53突然変異は、結腸直腸
ガンといったような或る種のガンにおいて頻繁に見られ
る事象であるものの、これまでのところいかなる特定的
p53突然変異もp53突然変異グループも、結腸直腸
ガンを決定的に診断するのに使用できていない。結腸直
腸ガンのためのマーカーとしてのp53,Ascoオンライ
ン、http://www.asco.org/prof/pp/html/m-tumor8.htm
を参照。中には、DNAメチル化といったような後成的
変化も、結腸直腸ガンに関係づけられる診断又は予後的
価値をもち得ると推測してきた人もいる。Pharoash及び
Caldas,「分子遺伝学と人間のガンの査定」、Expert Re
views in Molecular Medicine, http://www-ermm.cbcu.
cam.ac.uk/99000526h. htmを参照. かくして、さらに、
或る一定の部位にp53突然変異とDNAメチル化の両
方が存在することで結腸直腸ガンを正確に診断する確率
が改善されると推測することになるかもしれない。付加
的なプロフィール要素が識別されるにつれて、正常な及
び罹患した又は冒された遺伝物質を比較するのに用いら
れるデータベース及びアルゴリズムは、これらの改善を
実現するために更新されなくてはならない。
The algorithmic aspects of bioinformatics systems likewise affect the usefulness of diagnostics. The programming logic and statistical and mathematical relationships used to determine when one array is similar to another are:
Central to the usefulness of these systems as an aid in making diagnostics and prognosis. However, there are more fundamental biological components for bioinformatics. That is, the functionality is attributed to sequence identity and expression.
If the exact relationship between the symptoms of the problem and the genetic information were known, this would not be a troublesome problem. Of course, this is not the case here. Some diseases or conditions have been found to directly correlate with certain genetic profiles, but most are completely unknown or poorly known. The probability of being able to properly assess a disease state or symptom improves as more factors are identified in the genetic profile associated with these symptoms. For example, although p53 mutations are a frequent event in some cancers such as colorectal cancer, so far any specific p53 mutation or p53 mutation group has determined colorectal cancer. Cannot be used to make a diagnostic diagnosis. P53 as a marker for colorectal cancer, Asco Online, http://www.asco.org/prof/pp/html/m-tumor8.htm
See. Some have speculated that epigenetic changes such as DNA methylation may also have diagnostic or prognostic value associated with colorectal cancer. Pharoash and
Caldas, "Molecular Genetics and Human Cancer Assessment," Expert Re
views in Molecular Medicine, http: //www-ermm.cbcu.
See cam.ac.uk/99000526h.htm. And, in addition,
One might speculate that the presence of both p53 mutations and DNA methylation at certain sites would improve the probability of accurately diagnosing colorectal cancer. As additional profile elements are identified, the databases and algorithms used to compare normal and diseased or affected genetic material must be updated to realize these improvements.

【0005】診断サービスは、通常、医療提供者の指示
又は要請にもとづき研究所によって提供される。研究所
は、医療提供者から患者の標本を受けとり、次に診断検
定を実施し、結果を獲得し、次にこれらの結果を患者又
は医療提供者に伝達する。このモデルは同様に、遺伝物
質の増幅に依存するもののような遺伝子ベースの診断に
もあてはまる。上述のように、遺伝ベースの試験の結果
の分析には、頑強なデータベースのアルゴリズム操作が
関与する。これらのアルゴリズムは、遺伝的プロフィー
ルについての新しい情報が得られるにつれて定期的に更
新され得るが、これには、臨床的情報が追求されかかる
情報プロダクトに組込まれるまで待つ必要がある。かく
して、プロセスはせいぜい2つに分けられる。標準的プ
ロセスの1つの態様においては、患者の遺伝物質が分析
される。プロセスの全面的に別の態様においては、分析
において用いられる情報プロダクトは、新規作成され、
分析を実施する当事者に提供される。かかるプロセスに
おいては、データベースの頑強さ、分析を実施するのに
使用されるアルゴリズムのパワー、及びプロセスから得
られた結果の確信間隔を連続的に改善するための方法は
全く存在しない。
Diagnostic services are usually provided by the laboratory at the direction or request of a healthcare provider. The laboratory receives a sample of the patient from the healthcare provider, then performs diagnostic tests, obtains the results, and then communicates these results to the patient or the healthcare provider. This model also applies to gene-based diagnostics, such as those that rely on amplification of genetic material. As mentioned above, the analysis of the results of genetic-based tests involves robust database algorithm operations. These algorithms can be updated regularly as new information about the genetic profile becomes available, which requires waiting for clinical information to be pursued and incorporated into such information products. Thus, the process can be divided into two at best. In one aspect of the standard process, a patient's genetic material is analyzed. In an entirely different aspect of the process, the information products used in the analysis are newly created,
Provided to the parties performing the analysis. In such a process, there is no way to continuously improve the robustness of the database, the power of the algorithms used to perform the analysis, and the confidence interval of the results obtained from the process.

【0006】診断情報を処理するためのパワフルなアル
ゴリズムを新規作成するための1つの方法として、人工
ニューラルネットワーク(ANN)が提案されてきた。
ニシカワに対する米国特許第6,058,322号及びBa
rnhillに対する米国特許第5,769,074号がその一
例である。ANNは、既存の問題を解決するものではな
い。
Artificial Neural Networks (ANNs) have been proposed as one way to create new powerful algorithms for processing diagnostic information.
US Pat. No. 6,058,322 to Nishikawa and Ba
U.S. Pat. No. 5,769,074 to Rnhill is an example. ANN does not solve existing problems.

【0007】Barnhillが記述したもののようなANN
は、有意性が各データコンポーネントに起因すると見る
ように訓練されたネットワークとさまざまなデータを比
較する。例えば、前立腺ガンを診断するために1つの標
本を分析していたとすると、PSA及び年令が、そのネ
ットワークが考慮に入れるべく訓練されている2つのデ
ータ要素であるかもしれない。このネットワークを、1
つの年令における一定の与えられたPSA濃度に対し、
異なる年令における同じPSAレベルに比べてガンの存
在のインジケータとしてより大きな重みを与えることが
できるような形で訓練することもできるだろう。
ANN as described by Barnhill
Compares various data with a trained network to see the significance attributed to each data component. For example, if one sample was being analyzed to diagnose prostate cancer, PSA and age may be the two data elements that the network is trained to take into account. This network is 1
For a given PSA concentration at one age,
It could also be trained in such a way that it can be given greater weight as an indicator of the presence of cancer compared to the same PSA level at different ages.

【0008】これらのANNは、例に基づいて多重変数
(重み)数学モデルを形成し、次にそれらのモデルを現
実的ケースにあてはめることにより、多変量問題を解決
する。このプロセスは一般に「訓練」と呼ばれる。ネッ
トワーク自体は、データ比較のために使用すべき最良の
規則を究極的に選択することができる。しかしながら、
ANNは、それが使用できる状態となる前に規定の統計
的必要条件(例えば信頼レベル及び正の予測値)を満た
すような形で訓練されなくてはならない。この意味で、
Barnhill特許で記述されたもののようなANNは静的で
ある。訓練、試験又は標本ケースといったようなデータ
の離散的な使用が存在する。訓練は連続的なプロセスで
はない。
These ANNs solve multivariate problems by forming multivariate (weight) mathematical models based on examples and then fitting them to realistic cases. This process is commonly referred to as "training." The network itself can ultimately choose the best rule to use for data comparison. However,
The ANN must be trained in such a way that it meets specified statistical requirements (eg confidence level and positive predictive value) before it can be used. In this sense
An ANN, such as the one described in the Barnhill patent, is static. There are discrete uses of data such as training, tests or sample cases. Training is not a continuous process.

【0009】Barnhill特許のもう1つの顕著な特長は、
それが行なう比較が必然的に、訓練プロセスの一部とし
て統計的分析を通して達成された「正常」値に基づくも
のであるという点にある。訓練という行為はそれ自体、
正常範囲を決定又は設定する行為である。ひとたび訓練
されると、ANNは、診断又は予後を査定するべくこれ
らの正常値と実際の患者のデータを比較するよう照会さ
れる。ANNのアルゴリズム面以外でも、これは例えば
PSAといったような標準的血清マーカーの臨床的測定
に関するデータのむしろ標準的な処理である。ANNが
無い場合、医師は単に、参考文献内に提供されている正
常値とマーカーのレベルを比較するだけとなる。ANN
のパワーは、人間が同時に考慮するのが困難であるよう
な数多くの変数を説明するような形で正常範囲を構成で
きるようにするという点にある。
Another notable feature of the Barnhill patent is that
The point is that the comparisons it makes are necessarily based on "normal" values achieved through statistical analysis as part of the training process. The act of training is itself
It is the act of determining or setting the normal range. Once trained, the ANN is queried to compare these normal values with actual patient data to assess diagnosis or prognosis. Beyond the algorithmic aspects of ANN, this is rather a standard treatment of the data for clinical measurements of standard serum markers such as PSA. In the absence of an ANN, the physician would simply compare the level of the marker with the normal value provided in the reference. ANN
The power of is to enable us to construct a normal range in a way that accounts for many variables that are difficult for humans to consider at the same time.

【0010】いかなるANNも、診断アルゴリズム及び
データベースの臨床的使用中の遺伝的プロフィールと診
断又は予後の関係を改善するために遺伝的に関連するイ
ンジケータ(例えば特異的欠失配列、後成的突然変異)
の数及び/又は意義を拡張又は収縮させるプロセスを提
案していない。
[0010] Any ANN has a genetically relevant indicator (eg specific deletion sequence, epigenetic mutation) to improve the genetic or clinical profile of diagnostic algorithms and databases in relation to their diagnostic or prognostic relationship. )
Does not propose a process to expand or contract the number and / or significance of

【0011】Robertsに対する米国特許第6,056,6
90号は、診断決定支援ツールを構築する上でのBayesi
an ネットワークの使用を提案している。Bayesian ネッ
トワークは、信用ネットワーク又は因果関係確率的ネッ
トワークとも呼ばれ、不確実性の下での類推のための基
盤として確率理論を使用する。その類推を説明するBaye
sian ネットワークの能力は、大部分のANNに比べて
の1つの重要な卓越性である。これにもかかわらず、Ro
bertsは、システムの臨床的使用の一機能として類推プ
ロセス自体を改善することを提案していない。
US Pat. No. 6,056,6 to Roberts
No. 90 is Bayesi in building a diagnostic decision support tool
I suggest using an network. Bayesian networks, also called credit networks or causal stochastic networks, use probability theory as the basis for analogy under uncertainty. Baye explains the analogy
The ability of the sian network is one important excellence over most ANNs. Despite this, Ro
berts does not propose to improve the analogy process itself as a function of clinical use of the system.

【0012】Adams に対する米国特許第5,966,71
1号は、結果表からのデータベース及びアルゴリズムを
更新するべく自律的知能エージェントを使用することを
提案している。該特許は、互いに相互作用するアルゴリ
ズム及びデータベースシステムの構造に向けられてい
る。このシステムにおいては、更新されたコンポーネン
トは、例えば配列探索が密な整合を全く明らかにしない
場合といったように、ベースシステムが援助を必要とし
ている場合に、ベースシステムと通信することができ
る。該特許は、デーモン更新プログラムを形成するのに
使用されるデータの妥当性検査についても取り組んでお
らず又、データの供給源も扱かっていない。妥当性検査
がない場合、増大する標本サイズに基づいて統計的信頼
性をつねに改善しようとするオペレーションは問題にぶ
つかる可能性がある。例えば、デーモンプログラムがベ
ースシステム内になく妥当性検査されていない遺伝子発
現データを含んでいた場合、その使用は実際に、生成さ
れた結果の不確実性を増すことになる。その上、該特許
は、統計的信頼性の改善が可能であることさえ示してい
ない。これは、デーモンが、ベースシステム内に以前存
在していなかった情報及びプログラミング段階のみを介
入させるために使用されるからである。すでに存在する
情報を再導入して統計的確信が達成される起点となる標
本サイズを増大させるためにかかるデーモンを使用する
ことについての言及は全く存在しない。
US Pat. No. 5,966,71 to Adams
No. 1 proposes to use an autonomous intelligence agent to update the database and algorithms from the result table. The patent is directed to the structure of algorithms and database systems that interact with each other. In this system, the updated components can communicate with the base system when the base system needs help, such as when the sequence search reveals no tight matches at all. The patent also does not address the validation of the data used to form the daemon update program, nor does it address the source of the data. Without validation, operations that constantly try to improve statistical reliability based on increasing sample size can run into problems. For example, if the daemon program contained gene expression data that was not in the base system and was not validated, its use would in fact increase the uncertainty of the results produced. Moreover, the patent does not even show that improved statistical reliability is possible. This is because the daemon is used to intervene only information and programming steps that did not previously exist in the base system. There is no mention of using such daemons to reintroduce existing information and increase the sample size from which statistical belief is achieved.

【0013】米国特許第5,024,699号は、患者の
試験結果を入力しそれらに基づいて患者に対して臨床的
アドバイスを提供するためのシステムの確立を提案して
いる。該特許は、これらの結果に基づいて薬剤用量アル
ゴリズムが修正されるプロセスについて記述している。
この場合のアルゴリズムは、結果がエントリされた対象
患者にのみ関連するアルゴリズムである。それは、患者
プール全体にわたりデータが解釈されるやり方に影響を
及ぼす体系的アルゴリズムではない。
US Pat. No. 5,024,699 proposes the establishment of a system for entering patient test results and providing clinical advice to the patient based thereon. The patent describes a process by which the drug dose algorithm is modified based on these results.
The algorithm in this case is only relevant to the target patient for whom the result was entered. It is not a systematic algorithm that affects the way data is interpreted across the patient pool.

【0014】分析診断サービスを提供する上で使用され
る情報プロダクトのパワー及び有用性を連続的にグレー
ドアップするこれらの分析診断サービスの提供方法があ
れば有益であろう。さまざまな供給源からの診断情報を
組合せる能力は、遺伝に基づく診断の精度及び真度さを
改善することになる。関与するタスクを分配することで
診断サービスを送達することにより、実施されるサービ
スの効率、タイミングの良さ及び質も改善されることだ
ろう。
It would be beneficial to have a method of providing these analytical and diagnostic services that continuously upgrades the power and usefulness of the information products used in providing the analytical and diagnostic services. The ability to combine diagnostic information from various sources will improve the accuracy and accuracy of genetically based diagnostics. By delivering diagnostic services by distributing the tasks involved, the efficiency, timing and quality of the services performed will also be improved.

【0015】発明の要約 本発明は、臨床診断サービスを提供するための方法にお
いてその遺伝物質の組成、その挙動又はタンパク質の少
なくとも一部分を決定するべく、生体標本の試験から得
た結果を分析する段階、及び分析を通して得られた情報
を生体標本の後続する分析に取込む段階を含んで成る方
法である。
SUMMARY OF THE INVENTION The present invention comprises the step of analyzing the results obtained from the testing of biological specimens to determine the composition of its genetic material, its behavior or at least part of the protein in a method for providing a clinical diagnostic service. , And incorporating the information obtained through the analysis into a subsequent analysis of the biological specimen.

【0016】本発明のもう1つの態様は、臨床診断サー
ビスを提供するための方法において、生体標本を収集す
る段階、その遺伝物質の組成、その挙動又はタンパク質
の少なくとも一部分を決定するべく、生体標本を分析す
る段階、分析の結果を(例えば医療提供者に対し)報告
する段階、及び分析を通して得られた情報を生体標本の
後続する分析に取込む段階を含んで成る方法にある。分
析から得た情報は、例えば、使用される情報プロダクト
のアルゴリズム又はデータベースコンポーネントを改善
するためにそれを使用することによって、後続する分析
内に取込むことができ、そうでなければ分析の統計的信
頼性を改善するために使用することもできる。
[0016] Another aspect of the invention is a method for providing a clinical diagnostic service, wherein the biological specimen is used for determining the stage of collecting the biological specimen, the composition of its genetic material, its behavior or at least part of its protein. The method comprises the steps of: analyzing, analyzing the results of the analysis (eg, to a healthcare provider), and incorporating the information obtained through the analysis into a subsequent analysis of the biological specimen. The information obtained from an analysis can be incorporated into a subsequent analysis, for example by using it to improve the algorithm or database component of the information product used, or otherwise statistically. It can also be used to improve reliability.

【0017】本発明は同様に、上述の方法を利用するた
めのシステムそしてかかるシステム内で有用な製造物
(例えば、アルゴリズムを実行しデータベースを操作す
るための命令を含むコンピュータ読取り可能な媒体)を
も内含している。
The present invention also provides systems for utilizing the above-described methods and products useful in such systems (eg, computer-readable media containing instructions for executing algorithms and manipulating databases). Also included.

【0018】詳細な説明 定義:以下の用語は、該明細書全体を通して使用されて
いる。
DETAILED DESCRIPTION Definitions: The following terms are used throughout the specification.

【0019】「内部データベース」というのは、標本配
列又はプロフィールが比較される生体分子配列(例えば
ヌクレオチド及びアミノ酸)を含有するデータベースを
意味する。これには、一定の与えられた配列が発見され
たライブラリといったような配列に付随する情報、その
配列に付随する生理学的症状発現及び、遺伝物質の挙動
又は標本配列を症状又は疾病状態と結びつける上で助け
となるその他のあらゆる情報が含まれている可能性があ
る。さらに、該データベースは、細胞又は組織型の特徴
である遺伝子発現パターン、細胞又は組織型の特徴であ
るDNAメチル化パターン又は、細胞又は組織型の特徴
であるその他のあらゆる遺伝性又は体性由来の遺伝的変
異を含み得る。内部データベースは、埋込まれたデータ
構造である生体分子配列の情報を指示するか、又は必要
に応じて内部データベースによってアクセスされる離散
的な別のデータベースの中に見い出される配列データベ
ースコンポーネントを利用する。
By "internal database" is meant a database containing biomolecular sequences (eg nucleotides and amino acids) with which sample sequences or profiles are compared. This includes information associated with a sequence, such as the library in which a given sequence was discovered, the manifestation of physiological symptoms associated with that sequence, and the association of genetic material behavior or sample sequences with symptoms or disease states. It may contain any other information that will help you. In addition, the database may be derived from gene expression patterns characteristic of cell or tissue type, DNA methylation patterns characteristic of cell or tissue type, or of any other hereditary or somatic origin characteristic of cell or tissue type. It may include genetic variation. The internal database directs information about the biomolecule sequences that are embedded data structures, or utilizes sequence database components found in separate discrete databases that are accessed by the internal database as needed. .

【0020】「分析データベース」は、特徴づけを必要
とする細胞又は組織についての一部の情報を決定するプ
ロセスにおいて1つの基準として使用される内部データ
ベースの1つのクラスである。例えば、患者から取出さ
れた細胞又は組織が、この細胞又は組織の宿主にとって
有益でありうるような何らかの形の医学的介入を必要と
する細胞又は組織の特徴を呈しているか否かを見極める
ことが有利であるかもしれない。この種の分析は、スク
リーニング、診断、予後として記述でき、そうでなけれ
ば、監視手順でもあり得る。あらゆる分析データベース
の主要な特長は、その中に含まれるデータが、特徴が既
に明らかにされている基準に対し被験者の情報を比較で
き、かつ予め定められた確信レベルで被験物質に関して
結論を下すことができるような形で少なくとも部分的に
組織されているという点にある。
An "analytical database" is a class of internal database used as a reference in the process of determining some information about a cell or tissue that requires characterization. For example, it may be possible to determine whether a cell or tissue removed from a patient exhibits characteristics of the cell or tissue that require some form of medical intervention that may be beneficial to the host of this cell or tissue. May be advantageous. This kind of analysis can be described as screening, diagnosis, prognosis, or else it can be a surveillance procedure. The main feature of any analytical database is that the data it contains is capable of comparing the subject's information to criteria for which the feature has already been characterized, and makes a conclusion about the test substance at a predetermined confidence level. It is at least partially organized in such a way that

【0021】「ディスカバリーデータベース」というの
は、広範囲の供給源から収集された配列又はパターンデ
ータを含む内部データベースの1クラスである。ディス
カバリーデータベースは、分析データベースの1コンポ
ーネントとして有用でありうる配列又はパターンを識別
するために分析される。ディスカバリーデータベースの
1コンポーネントが規定の有意レベルにひとたび達した
ならば、それは分析データベース内に置かれる。これ
は、予めプログラミングされた規則に従って行なわれ得
る。ディスカバリーデータベースは、同時に又は逐次的
に多数のパラメータを用いて多数の照会を可能にする順
序レベルをもつ。標準的には、ディスカバリーデータベ
ース内にエントリされたデータは、臨床的情報により注
釈が付けられた遺伝的データを内含することになる。こ
れは患者のプライバシー保護に関する現在受容可能な情
況を反映している。例えばデータベースに対する1つの
エントリは、発現データが患者の病歴及び現在の疾病状
態の完全なプロフィールに電子的にリンクされている疑
わしい前立腺ガンからの生検のRNA発現プロフィール
であり得る。患者についてのその後のデータが収集され
そのパターンについての注釈フィールドに付加される
ような機構を使用することが可能である。患者を記述す
るデータは、匿名であるか又は符号化されることにな
り、データベース内へのエントリは(例えば、以下で異
なる情況下で記述されているタグを用いて)符号化され
うる。コードは、患者又は医師のいずれかに送られ、表
現時点で新しいデータは1つのコードに付着された状態
で送られる。コードは、注釈の適正な収容を可能にす
る。コードをもつ個人、すなわち医師又は患者のみが、
(患者に関連して)識別可能なデータにアクセスできる
ようになる。
A "discovery database" is a class of internal database that contains sequence or pattern data collected from a wide variety of sources. The discovery database is analyzed to identify sequences or patterns that may be useful as a component of the analysis database. Once one component of the discovery database has reached a defined significance level, it is placed in the analysis database. This can be done according to pre-programmed rules. The discovery database has an ordering level that allows multiple queries with multiple parameters simultaneously or sequentially. Typically, the data entered in the discovery database will include genetic data annotated with clinical information. This reflects the currently acceptable circumstances of protecting patient privacy. For example, one entry into the database could be the RNA expression profile of a biopsy from a suspicious prostate cancer in which the expression data is electronically linked to the patient's history and a complete profile of the current disease state. Mechanisms can be used such that subsequent data about the patient is collected and added to the annotation field for that pattern. The data describing the patient will be anonymous or encoded, and the entries in the database can be encoded (eg, using the tags described below in different contexts). The code is sent either to the patient or the doctor and at the time of presentation the new data is sent attached to one code. The code allows proper containment of annotations. Only the person with the code, the doctor or the patient,
Provides access to identifiable data (relative to the patient).

【0022】「基準パターン」又は「基準配列」という
のは、ディスカバリーデータベース内から識別され、診
断又は予後上の有用性をもつことが示されてきた配列又
はパターンである。基準配列又はパターンは、標準的に
ディスカバリーデータベース内で発見され、その後医療
的実践での使用のため分析データベース内にエキスポー
トされる。基準物質の流れは通常ディスカバリーから分
析データベースへの一方向であり、一方、基準配列又は
パターンの全体又は一部分として今後決定しなければな
らない配列又はパターンの流れは、分析データベース内
へのエントリに始まりディスカバリーデータベースへの
エキスポートに続くことができ、そうでなければディス
カバリーデータベース内に直接エントリされてもよい。
A "reference pattern" or "reference sequence" is a sequence or pattern that has been identified in a discovery database and shown to have diagnostic or prognostic utility. The reference sequence or pattern is typically found in a discovery database and then exported into an analytical database for use in medical practice. The flow of reference material is usually one-way from discovery to the analytical database, while the sequence or pattern flow that must be determined in the future as all or part of the reference sequence or pattern begins with entry into the analytical database and ends with discovery. The export to the database can be followed, otherwise it may be entered directly in the discovery database.

【0023】「外部データベース」は、内部データベー
スの外側に置かれるデータベースを意味する。標準的に
はこれは、内部データベースを維持する企業とは異なる
企業によって維持される。本発明の情況下では、外部デ
ータベースは、まず第1に内部データベース内に記憶さ
れたさまざまな配列について情報を得るために使用され
る。外部データベースは、遺伝子発現データベース内に
記憶されたいくつかの記述的情報を提供するために使用
することができる。好ましい実施形態においては、外部
データベースは、国立医学図書館の一部である国立バイ
オテクノロジー情報センタ(NCBI)によって維持さ
れているGen Bank及びそれに付随するデータベースであ
る。Gen Peptは、Gen Bankからの全てのタンパク質デー
タベースを含む付随する公用タンパク質配列データベー
スである。その他の外部データベース例としては、シア
トルのFred Hutchinson ガン研究センタにより維持され
ているBlocks データベース及びジュネーブ大学により
維持されているSwiss Proteサイトがある。
"External database" means a database located outside the internal database. Typically this is maintained by a different company than the one that maintains the internal database. In the context of the present invention, the external database is used first of all to obtain information about the various sequences stored in the internal database. External databases can be used to provide some descriptive information stored within gene expression databases. In a preferred embodiment, the external database is GenBank and its associated databases maintained by the National Center for Biotechnology Information (NCBI), which is part of the National Library of Medicine. Gen Pept is a companion public protein sequence database that includes all protein databases from Gen Bank. Other examples of external databases are the Blocks database maintained by the Fred Hutchinson Gunn Research Center in Seattle and the Swiss Prote site maintained by the University of Geneva.

【0024】「記録」というのは、データベーステーブ
ル内の1つのエントリを意味する。各記録は単数又は複
数のフィールド又は属性を含んでいる。一定の与えられ
た記録は、その記録の1次キーとして知られているフィ
ールド又は属性のうちの1つ又は組合せによって一意的
に特定され得る。
"Record" means an entry in a database table. Each record contains one or more fields or attributes. A given record may be uniquely identified by one or a combination of fields or attributes known as the record's primary key.

【0025】核酸の場合における「配列」という語は、
単数又は複数のヌクレオチドが核酸を構成する順序でか
かる核酸を含んで成るかかるヌクレオチドを意味してい
る。タンパク質の場合、それは、その構成順でタンパク
質を含む単数又は複数のアミノ酸を意味する。
The term "sequence" in the case of nucleic acids refers to
By such nucleotides is meant comprising the nucleic acids in the order in which the nucleotide or nucleotides constitute the nucleic acid. In the case of a protein, it means the amino acid or amino acids that comprise the protein in its constitutional order.

【0026】「パターン」というのは、既知の及び標本
の遺伝物質又はタンパク質構造(例えばアミノ酸配列)
の間の比較の基礎を形成する配列又は配列グループを意
味する。パターンは、遺伝子配列グループの挙動であり
得る。たとえば、パターンは、観察される挙動が、アポ
プトーシスといったような特定の生理学的活性の特徴又
は診断又は一つの疾病の発達の特徴である、1組の明確
な遺伝子の相対的遺伝子発現活性であり得る。その上相
対的遺伝子発現レベルのパターンは、ガン細胞又はガン
性組織の考えられる発達過程を表示するものであり得
る。このタイプのパターンは時として、細胞又は腫瘍プ
ロフィール、遺伝的シグニチュア又は発現プロフィール
と呼ばれる。従ってパターン決定の行為は、一般にプロ
ファイリングと呼ばれる。さらに、パターンには後成的
改変といったような遺伝物質のその他の構造上又は挙動
上の同定用特長が含まれていてよい。例えば、パターン
は、遺伝子グループのDNAメチル化の状態であり得
る。メチル化パターンは、多数の遺伝子の相対的高又は
低メチル化状態であり得、メチル化パターンは、アポプ
トーシスといったような特定の生理学的活性の特徴又は
診断、又は1つの疾病の発達の特徴であり得る。その
上、DNAメチル化のパターンは、ガン細胞又はガン性
組織の考えられる発達過程を表示するものであり得る。
パターンは、単一ヌクレオチド多形現象(SNP)グル
ープといったような遺伝的変化又は突然変異グループで
もあり得る。例えば、SNPが1つの個体ゲノム内で共
存することからみて再生可能である場合、そしてこれら
のSNPグループが相関的及び/又は予言的であるとい
う確信が存在する場合、これらのSNPは1つのパター
ンを構成する。SNPパターンは、ゲノム全体を通して
間隔どりされているSNPを含むことができ、そうでな
ければSNPパターンは、同時遺伝したSNPが連鎖不
平衡状態にあるハプロタイプを形成しうる。パターンに
は同様に、上述の遺伝学事象のいずれかから引き出され
得る保存された併発的事象も内含され得、例えば、1つ
のパターンは、特異的遺伝子内のSNP,20の明確な
遺伝子の特異的相対発現レベル、染色体欠失の再生可能
な欠失(例えばヘテロ接合性喪失における)及び明確な
染色体の高メチル化領域を内含しうる。この事象コレク
ションを1つのパターンにする定義づけ特長は、それら
が遺伝的変化の全てを宿す同じ個体内の明白な表現型又
は疾病を予言、診断又は予後するものであるという点に
ある。
"Pattern" refers to known and sample genetic material or protein structure (eg, amino acid sequence).
By sequence or group of sequences that form the basis of the comparison between. The pattern can be the behavior of gene sequence groups. For example, the pattern can be the relative gene expression activity of a set of defined genes whose observed behavior is characteristic of a particular physiological activity such as apoptosis or diagnostic or development of one disease. . Moreover, the pattern of relative gene expression levels may be indicative of possible developmental processes of cancer cells or tissues. This type of pattern is sometimes referred to as a cell or tumor profile, genetic signature or expression profile. Therefore, the act of pattern determination is commonly referred to as profiling. In addition, the pattern may include other structural or behavioral identifying features of the genetic material, such as epigenetic modifications. For example, the pattern can be the status of DNA methylation of a group of genes. The methylation pattern can be the relative hyper- or hypomethylation status of a number of genes, the methylation pattern being characteristic of a particular physiological activity or diagnosis, such as apoptosis, or a characteristic of the development of one disease. obtain. Moreover, the pattern of DNA methylation may be indicative of possible developmental processes of cancer cells or tissues.
The pattern can also be a group of genetic alterations or mutations such as a single nucleotide polymorphism (SNP) group. For example, if the SNPs are reproducible in view of their coexistence within an individual's genome, and there is conviction that these SNP groups are correlative and / or prophetic, then these SNPs will have one pattern Make up. The SNP pattern can include SNPs that are spaced throughout the genome, or the SNP pattern can form a haplotype in which the co-inherited SNPs are in linkage disequilibrium. Patterns can also include conserved concomitant events that can be derived from any of the genetic events described above, eg, one pattern is SNP within a specific gene, of 20 distinct genes. It can include specific relative expression levels, reproducible deletions of chromosomal deletions (eg in loss of heterozygosity) and distinct chromosomal hypermethylated regions. The defining feature of this collection of events into a pattern is that they are predictive, diagnostic or prognostic of overt phenotypes or diseases within the same individual that carry all of the genetic alterations.

【0027】遺伝物質の「挙動」というのは、1つの配
列の判然となる要領を意味する。核酸配列の場合、1つ
の遺伝子又は配列の発現はその配列の挙動の1つの目安
である。
The "behavior" of genetic material means the unambiguous outline of a sequence. In the case of nucleic acid sequences, the expression of a gene or sequence is one measure of the behavior of that sequence.

【0028】配列分析 核酸配列を決定するための方法は現在充分に知られてい
る。一次的ヌクレオチド配列決定は、ジデオキシターミ
ネータ配列決定法を含めたあらゆる数の方法によって補
完されうる。RNA又はDNAの相対的レベルの有無又
は数量化の分析は、全レパートリの1サブセットを挙げ
ただけでも、ノーザン、サザンブロッティング、in sit
u ハイブリダイゼーション、スロット又はドットブロッ
ティングといった数多くの公表された方法によって補完
されうる。より最近では、さまざまな配列が存在するか
否か及び同定された遺伝子が発現されているかを決定す
るために、マイクロアレイ技術が用いられてきている。
かかるマイクロアレイ技術のいくつかの例が、各々本書
に参考として内含されている米国特許第6,004,75
5号;6,051,380号;5,837,832号の中に
見られる。これらの方法は、標準的に標識付けされてい
る一定数のオリゴヌクレオチドが結合されている基板を
利用する。結合したオリゴヌクレオチドに相補的である
配列を含有する標本を、基板に結合したオリゴヌクレオ
チドと接触させる場合、該方法は、ハイブリダイゼーシ
ョンが発生したことを表わすべく或る形態のシグナルを
利用する。例えば、溶液ベースの分子、標準的には標本
は、標識付けすることができ、標識の存在は、螢光顕微
鏡又はX線撮影法によって検出され得る。代替的には、
2つの分子は結合し、螢光といったようないくつかの検
出可能な現象を生み出す。マイクロアレイをベースとす
る方法は、一定数の異なる技術(例えば、受動的なもの
もあれば能動的なものもある)を活用することができる
が、これらは全て一定数の配列を同時に同定し特徴づけ
する潜在能力をもつ。cDNA配列決定、遺伝子発現の
連続分析(SAGE)及び特異的オリゴヌクレオチドが
タグ付き溶球に連鎖されている溶液ベースのアレイの使
用を含め、配列の並列番号を分析するためにその他の方
法を使用することもできる。溶液ハイブリダイゼーショ
ンに続いて、ハイブリダイゼーション行為は、公表され
た一定範囲の方法によって検出される。核酸配列を決定
するためのあらゆる方法を、本発明の実施と合わせて使
用することができるが、マイクロアレイアプローチとい
ったような記述された並行度の高い方法が最も好まし
い。アミノ酸配列を決定するための方法も周知である。
Sequence Analysis Methods for determining nucleic acid sequences are now well known. Primary nucleotide sequencing can be complemented by any number of methods, including dideoxy terminator sequencing. Analysis of the presence or absence or relative quantification of relative levels of RNA or DNA showed that Northern, Southern blotting, in sit
u can be complemented by a number of published methods such as hybridization, slot or dot blotting. More recently, microarray technology has been used to determine whether various sequences are present and whether the identified genes are expressed.
Several examples of such microarray technology are provided in US Pat. No. 6,004,75, each incorporated herein by reference.
5; 6,051,380; 5,837,832. These methods utilize a substrate to which is attached a number of standardly labeled oligonucleotides. When a sample containing a sequence that is complementary to the bound oligonucleotide is contacted with the substrate-bound oligonucleotide, the method utilizes some form of signal to indicate that hybridization has occurred. For example, solution-based molecules, typically specimens, can be labeled and the presence of the label can be detected by fluorescence microscopy or radiography. Alternatively,
The two molecules combine to give rise to some detectable phenomenon such as fluorescence. Microarray-based methods can take advantage of a number of different technologies (eg, some passive and some active), all of which identify and characterize a fixed number of sequences simultaneously. Have the potential to attach. Using other methods to analyze juxtaposed numbers of sequences, including cDNA sequencing, serial analysis of gene expression (SAGE) and use of solution-based arrays in which specific oligonucleotides are linked to tagged lymphocytes You can also do it. Following solution hybridization, hybridization activity is detected by a range of published methods. Although any method for determining nucleic acid sequence can be used in conjunction with the practice of the present invention, the described highly parallel methods such as the microarray approach are most preferred. Methods for determining amino acid sequences are also well known.

【0029】本発明の方法を実践するためには、配列情
報又は遺伝子発現プロフィールが得られる。従って、或
る一定の時点で、患者の標本を獲得しなければならな
い。その標本が配列情報を決定するために検定され得る
ことを条件として、使用可能な標本のタイプに制限はな
い。かくして、循環血、組織生検、洗浄、及び配列を捕
捉することになる他のあらゆる方法から標本を得ること
ができる。かかる標本を抽出するための一揃いの方法が
利用可能である。
To practice the method of the present invention, sequence information or gene expression profile is obtained. Therefore, at some point in time, a sample of the patient must be obtained. There is no limit to the type of sample that can be used, provided that the sample can be assayed to determine sequence information. Thus, specimens can be obtained from circulating blood, tissue biopsies, washes, and any other method that will capture sequences. A complete set of methods for extracting such specimens is available.

【0030】配列情報は、さまざまな方法において生成
され、描写され得る。例えば、結合した螢光標識付きオ
リゴヌクレオチドをもつマイクロアレイが用いられる場
合、各々の結合した標本オリゴヌクレオチドのグラフィ
ック表示を生成するために読取り装置を使用することが
できる。これらのグラフィックスは、各々の検出可能な
事象の強度を測定することができるような形でデジタル
化され得る。これは、RNAセグメントの生成の決定が
重要なインジケータである遺伝子発現分析において非常
に有用であり得る。代替的には、特定のセグメントが存
在するか否かを単に表示するべく、単数又は複数のPC
R反応を使用することも可能である。このとき情報を、
テーブル、データベースなどの形に配列することができ
る。
Sequence information can be generated and rendered in a variety of ways. For example, if a microarray with bound fluorescently labeled oligonucleotides is used, a reader can be used to generate a graphic representation of each bound sample oligonucleotide. These graphics can be digitized in such a way that the intensity of each detectable event can be measured. This can be very useful in gene expression analysis, where the determination of RNA segment production is an important indicator. Alternatively, one or more PCs may be used to simply indicate whether a particular segment is present.
It is also possible to use the R reaction. Information at this time,
It can be arranged in the form of a table, database, etc.

【0031】本発明の実施においては、配列情報又は遺
伝子発現プロフィールのあらゆる提示方法を使用するこ
とができる。
Any method of displaying sequence information or gene expression profile can be used in the practice of the present invention.

【0032】バイオ情報科学 上述のように、バイオ情報科学システムの診断上の有用
性の多くが、標本配列又は発現パターンを既知の配列又
は既知の発現パターンと比較するか又は整合させるプロ
セスに由来している。この目的でさまざまな技術を利用
することができる。既知のパターンと標本パターンの間
のパターン整合が実施されることから、同じ又は類似の
アプローチを用いて、構造データ(例えばゲノム配列)
と発現データ(例えば遺伝子発現プロフィール)の比較
を行なうことができる。照会配列(配列リストの配列)
として患者の標本からのヌクレオチド配列を用いて、以
前に同定された配列を含むデータベースを、相同性(類
似性)部域について探索することができる。かかるデー
タベースの例としてはGenBank 及びEMBLが含まれ
る。
Bioinformatics As noted above, much of the diagnostic utility of bioinformatics systems stems from the process of comparing or matching sample sequences or expression patterns to known sequences or known expression patterns. ing. Various techniques are available for this purpose. Since pattern matching between known patterns and sample patterns is performed, structural data (eg genomic sequences) can be taken using the same or similar approaches.
And expression data (eg, gene expression profile) can be compared. Query array (array of array list)
Using the nucleotide sequences from patient specimens as, databases containing previously identified sequences can be searched for regions of homology. Examples of such databases include GenBank and EMBL.

【0033】使用可能な1つの相同性探索プログラム
は、「迅速かつ感応性の高いタンパク質類似性探索」と
いう題のD.J.Lipman及びW.R. Pearsonの論文(Science,
227,1435(1985))の中で記述されたアル
ゴリズムである。このアルゴリズムにおいては、相同性
領域は、2段階の形で探索される。第1段階では、最高
の相同性領域は、相同性評点テーブルを用いて整合評点
を計算することによって決定される。この段階では、2
つの配列を比較するためにシフトされるべき最小ウィン
ドウサイズを設定するために、パラメータ「Ktup」が
使用される。Ktupは同様に、配列の中から最高の相同
性をもつ領域を抽出するために整合しなければならない
塩基の数をもセットする。この段階においては、いかな
る挿入も欠失も適用されず、相同性は、初期(INI
T)値として表示される。第2段階では、推定上の欠失
部分を加えるためのギャップを挿入することによって最
高の整合評点を得るように相同性領域が整列させられ
る。第1段階で得られた整合評点は、最終的出力中の最
適化された(OTP)値まで相同性評点テーブル及び挿
入評点テーブルを用いて再度計算される。
One homology search program that can be used is a paper by DJ Lipman and WR Pearson entitled "Fast and Sensitive Protein Similarity Search" (Science,
227, 1435 (1985)). In this algorithm, regions of homology are searched in two stages. In the first stage, the region of highest homology is determined by calculating the match score using the homology score table. At this stage, 2
The parameter "Ktup" is used to set the minimum window size that should be shifted for comparing two arrays. Ktup also sets the number of bases that must match to extract the region of highest homology from the sequence. At this stage, no insertions or deletions were applied and the homology was early (INI
T) is displayed as a value. In the second step, the regions of homology are aligned to obtain the best match score by inserting gaps to add putative deletions. The match score obtained in the first stage is recalculated using the homology score table and the insert score table up to the optimized (OTP) value in the final output.

【0034】2つの配列間のDNA相同性は、Harrのド
ットマトリクス相同性プロット構築方法(Needleman,
S.B. 及びWunsch, C,O.,J Mol. Biol48:443(1
970))を用いて図形的に検査することができる。こ
の方法は、相同性領域と反復領域の関係を決定する上で
有用でありうる2次元プロットを生成する。
The DNA homology between two sequences is determined by the method of constructing a dot matrix homology plot by Harr (Needleman,
SB and Wunsch, C, O., J Mol. Biol 48: 443 (1
970)) can be used to graphically inspect. This method produces a two-dimensional plot that may be useful in determining the relationship between regions of homology and repeat regions.

【0035】しかしながら、好ましい実施形態クラスに
おいては、標本から得た核酸配列及び発現データと基準
パターンの間の比較は、Factura ソフトウェア(同じく
Applied Biosystem Inc から入手可能)として知られて
いるソフトウェアを含めた、Applied Biosystems Inc
(Foster City. Calif)から入手可能なINHERIT
670配列分析システムとして知られる市販のコンピュ
ータプログラム内で患者の標本から得たデータを処理す
ることによって実現される。Factura プログラムは、po
ly Aテール及び反復的GAG及びCCC配列といった
ような有利であると思われない部分を「エディットアウ
ト」するため、各々の標本配列を前処理する。かかる
「低情報」配列をマスクアウトするため、ローエンド探
索プログラムを書込むことができ、そうでなければBL
ASTといったプログラムは低情報配列を無視すること
ができる。
However, in a preferred embodiment class, the comparison between the nucleic acid sequence and expression data obtained from the specimen and the reference pattern is performed using Factura software (also
Applied Biosystems Inc, including software known as Applied Biosystems Inc.)
INHERIT available from (Foster City. Calif)
It is accomplished by processing the data obtained from patient specimens in a commercially available computer program known as the 670 Sequence Analysis System. The Factura program is po
Each sample sequence is pre-processed in order to "edit out" those parts that do not appear to be advantageous, such as the ly A tail and repetitive GAG and CCC sequences. Low-end search programs can be written to mask out such "low information" arrays, otherwise BL
Programs such as AST can ignore low information sequences.

【0036】INHERIT670配列分析システムに
よって実現されたアルゴリズムにおいては、相同性領域
を決定するためにパターンスペシフィケーション言語
(TRW Incにより開発されたもの)が使用される。
「INHERIT分析が配列比較をいかに実行するかを
見極めるパラメータは3つ存在する。すなわちサイズ、
ウィンドウオフセット及び誤り許容誤差である。ウィン
ドウサイズは、照会配列が細分されるセグメントの長さ
を特定する。ウィンドウオフセットは、先行セグメント
の始めから計数して〔比較すべき〕次のセグメントをど
こで開始するかを特定する。誤り許容誤差は、特定のワ
ード長全体にわたり許容される挿入、欠失及び/又は置
換の合計数を特定する。誤り許容誤差は、0〜6の間の
任意の整数にセットされ得る。省略時設定値は、ウィン
ドウ許容誤差=20,ウィンドウオフセット=10,そ
して誤り許容誤差=3である」。INHERIT分析ユ
ーザーマニュアルP2〜15,Version1.0,Applied
Biosystems, Inc.1991年10月。これら3つのパラ
メータの組合せを使用して、相同性領域を含む配列につ
いてデータベースを探索することができ、適切な配列は
初期値で評定される。その後、これらの相同性領域は、
相同性領域と反復領域の関係を見極めるためのドットマ
トリクス相同性プロットを用いて検査される。Smith-Wa
termanアラインメントを用いて、相同性探査の結果を表
示することが可能である。INHERITソフトウェア
は、UNIX(登録商標)オペレーティングシステムで
プログラミングされたSunコンピュータシステムによ
って実行され得る。
In the algorithm implemented by the INHERIT 670 Sequence Analysis System, a pattern specification language (developed by TRW Inc) is used to determine regions of homology.
"There are three parameters that determine how INHERIT analysis performs sequence comparisons: size,
Window offset and error tolerance. The window size specifies the length of the segment into which the query array is subdivided. The window offset identifies where to start the next segment [to be compared], counting from the beginning of the preceding segment. The error tolerance specifies the total number of insertions, deletions and / or substitutions allowed over a particular word length. The error tolerance can be set to any integer between 0 and 6. The default settings are window tolerance = 20, window offset = 10, and error tolerance = 3. " INHERIT Analysis User Manual P2-15, Version 1.0, Applied
Biosystems, Inc. October 1991. A combination of these three parameters can be used to search the database for sequences containing regions of homology, with appropriate sequences scored at the initial value. Then, these regions of homology
It is examined using a dot matrix homology plot to determine the relationship between homology and repeat regions. Smith-Wa
It is possible to display the results of homology searches using terman alignment. INHERIT software may be executed by a Sun computer system programmed with the UNIX® operating system.

【0037】INHERITに対する探索の代替案とし
ては、BLASTプログラム、GCG(Genetics Compu
ter Group WIから入手可)及びDaskerプログラム(Temp
le標本ith, Boston University, Boston, MA)が含まれ
る。ヌクレオチド配列は、GenBank,EMBL又はGE
NESEQ(Intelligentics, Mountain View,CAより
入手可)といったような特注の内部データベース又はそ
の他の遺伝子用内部データベースに照らして探索でき
る。
As an alternative to the search for INHERIT, the BLAST program, GCG (Genetics Compu
ter Group WI) and Dasker program (Temp
le sample ith, Boston University, Boston, MA) is included. Nucleotide sequences are GenBank, EMBL or GE
It can be searched against custom built internal databases such as NESEQ (available from Intelligentics, Mountain View, CA) or other internal databases for genes.

【0038】BLAST(Basic Local Alignment Sear
ch Tool)プログラム及びSmith-Waterman アルゴリズム
は、2つの配列間にギャップの無い類似性領域を探す。
これを行なうため、これらは、(1)2つの配列の類似
の領域間のアラインメント及び (2)配列間の同一性
百分率を決定する。アラインメントは、実質的類似性を
もつ領域を塩基毎に整合することにより計算される。こ
れらの領域においては、同一の塩基が+5という値で評
定され、不整合塩基は(核酸について)−4という値で
評定される。充分高い評点をもつ隣接する塩基の領域
が、高評定対(「HSP」)とみされる。BLASTに
おいては、最高のHSPの評点(BLAST評点と呼ば
れる)は、1つの出力として提示される。さらに、各H
SPについて、同一性百分率は、アラインメントと同様
BLAST出力として計算され提示される。最後に、各
HSPについてのP−値が計算される。P−値は、観察
された類似性が無作為出現の結果として得られた確率を
表わしている。低い方のP値は、観察された類似性が無
作為事象に起因しないことのさらに大きい確信を表わ
す。
BLAST (Basic Local Alignment Sear
ch Tool) program and the Smith-Waterman algorithm look for regions of similarity without gaps between two sequences.
To do this, they determine (1) the alignment between similar regions of two sequences and (2) the percent identity between sequences. Alignment is calculated by aligning regions of substantial similarity on a base-by-base basis. In these regions, identical bases are scored with a value of +5 and mismatched bases are rated with a value of -4 (for nucleic acids). Regions of adjacent bases with sufficiently high scores are considered high-scoring pairs ("HSPs"). In BLAST, the highest HSP score (called the BLAST score) is presented as one output. Furthermore, each H
For SP, the percent identity is calculated and presented as the BLAST output as well as the alignment. Finally, the P-value for each HSP is calculated. P-values represent the probability that the observed similarity was a result of random appearance. Lower P-values represent greater confidence that the observed similarities are not due to random events.

【0039】プロダクト評点は、BLAST出力パラメ
ータの正規化された要約を表わし、1つの照会と整合し
た配列の間のアラインメントの値を表現するのに用いら
れる。特定的に言うと、プロダクト評点は、BLAST
整合の強さを表わす、その間の正規化された値である。
これは、分数オーバラップとBLASTアラインメント
の質の間の平衡を表わす。
The product score represents a normalized summary of the BLAST output parameters and is used to express the value of the alignment between a query and the matching sequences. Specifically, the product rating is BLAST
It is a normalized value in between, which represents the strength of the match.
This represents a balance between fractional overlap and BLAST alignment quality.

【0040】数多くのその他の配列整合/分析アルゴリ
ズムが利用可能である。例えばFASTA方法は、まず
最初に、ハッシングと呼ばれるプロセスの中で短かい完
全な配列整合の最大数を比較する。最高の整合を示す配
列は次に、第1の比較で使用されたものとは別の基準に
従って整合を評定する第2の分析に付される。最後に最
高の整合を示す配列が整列させられ、アラインメントの
近さに関するパラメータに基づいて、1評点が与えられ
る。
Many other sequence matching / analysis algorithms are available. For example, the FASTA method first compares the maximum number of short perfect sequence matches in a process called hashing. The sequence showing the highest match is then subjected to a second analysis, which assesses the match according to criteria other than the one used in the first comparison. Finally, the sequence with the highest match is aligned and a score is given based on the parameters for alignment proximity.

【0041】本発明の1つの態様においては、整合アル
ゴリズム及び付随するデータベースは、或る症状又は疾
病状態の診断、予後又は病期決定に到達するのに用いら
れるシステムの一部分を含むことができる。該システム
のもう1つの態様は、各標本の分析中に査定された配列
が、次に続く標本配列を比較するのに用いられる分析デ
ータベース内に取込まれるように連続的に更新される内
部データベースである。すなわち、患者の標本分析から
生成された配列は後に、基準パターン内に取込まれる。
In one aspect of the invention, the matching algorithm and associated database may comprise part of a system used to arrive at the diagnosis, prognosis or staging of a condition or disease state. Another aspect of the system is an internal database that is continuously updated so that the sequence assessed during the analysis of each sample is incorporated into the analytical database used to compare the subsequent sample sequences. Is. That is, the sequences generated from the patient sample analysis are later incorporated into the reference pattern.

【0042】患者の標本核酸配列又は遺伝子発現プロフ
ィールと既知の配列又はプロフィールを整合させるため
に使用されるデータベースは、さらにこれらの配列を臨
床結果と相関させて臨床的意味を同定された配列に起因
すると考える。これらの相関関係は、相同性を決定する
ために使用されるものと同じデータベースに記憶されそ
こから操作され得、又そうでなければ、相同性を決定す
るデータベース及びアルゴリズムとインタフェースする
別のデータベース内に記憶され維持されてもよい。一例
を挙げると、その他のまだ発見されていない核酸配列の
有無と合わせてher−2−neu遺伝子の増幅を表わす核酸
配列は、その患者が侵襲性の乳ガンを発生させているこ
とを表わす可能性がある。同様にして、遺伝子の発現の
増強又は大幅な低減も同様に、1つの細胞型の無制御な
成長を表わし得る。これらの配列又は遺伝子発現プロフ
ィールと患者標本のものとの間にひとたび相同性又はパ
ターン類似性が立証されたならば、該配列又はプロフィ
ールは、分析データベース内でそれらに起因するものと
された臨床的意味と整合させられる。このとき、her−
2−neu 遺伝子の場合、患者が攻撃的乳ガンを発生させ
ていることを示す臨床結果(すなわち情報)が生成され
る。
The databases used to match known sequences or profiles with the patient's specimen nucleic acid sequences or gene expression profiles also result from sequences that have been identified for clinical significance by correlating those sequences with clinical outcome. I think. These correlations can be stored in and manipulated from the same database used to determine homology, or otherwise in another database that interfaces with the homology determining database and algorithm. May be stored and maintained in. In one example, a nucleic acid sequence that represents amplification of the her-2-neu gene, along with the presence or absence of other undiscovered nucleic acid sequences, may indicate that the patient is developing invasive breast cancer. There is. Similarly, increased or significantly reduced expression of a gene may also represent uncontrolled growth of one cell type. Once homology or pattern similarity between these sequences or gene expression profiles and those of patient specimens has been established, the sequences or profiles are clinically attributed to them in the analytical database. Aligned with meaning. At this time, her-
In the case of the 2-neu gene, clinical results (ie, information) are generated indicating that the patient is developing aggressive breast cancer.

【0043】遺伝子発現プロフィールの確立は、腫瘍を
もつ以前に同定された患者が将来再発するか否かを予測
するのに有用なものとなる以下のようなプロセスを通し
て行なわれる。クラス予測モデルを作成する:それにお
いては(1)弁別用関係(例えば再発対生存)を規定
し;(2)望ましいパターンを予測する能力について個
々の遺伝子を評定し及びこれらの評点の統計的意義を評
価し;(3)情報提供遺伝子のサブセットを選択し;
(4)サブセットに基づき予測規則を構築し;(5)初
期データセット及び独立したデータについての規則の妥
当性検査を行なう。かかるスキームは、広範囲の腫瘍か
らのデータを分析する上で成功をおさめてきた。これら
の方法は標準的に、評点の選択、意義の計算及び正確な
規則構築方法に関して変動する。
The establishment of the gene expression profile is performed through the following process, which will be useful in predicting whether a previously identified patient with a tumor will relapse in the future. Create a class prediction model: (1) define discriminatory relationships (eg, recurrence vs. survival); (2) rate individual genes for their ability to predict desired patterns and the statistical significance of these scores. (3) selecting a subset of informative genes;
(4) Build prediction rules based on subsets; (5) Validate rules on initial data set and independent data. Such schemes have been successful in analyzing data from a wide range of tumors. These methods typically vary with respect to score selection, significance calculation and exact rule construction methods.

【0044】特定の遺伝子発現マーカーを選択するため
に、ガンを表示するか又はガンに付随する遺伝子のマイ
クロアレイ上の各遺伝子が、2つのクラスの望ましい弁
別を伴って、各々のかかる遺伝子の「類似性」に従って
評定される。かかる評点として、異なる距離及び測度を
利用することができる。このプロセスから、遺伝子リス
トが生成され、シグニチュアサブセットを生成する目的
で付加的な考慮事項に従ってさらに狭くされる。
In order to select for a particular gene expression marker, each gene on the microarray of genes displaying or associated with cancer is labeled with a "similarity" of each such gene, with two distinct classes of desired discrimination. It is rated according to "sex". Different distances and measures can be used as such scores. From this process, gene lists are generated and further narrowed according to additional considerations for the purpose of generating signature subsets.

【0045】狭くなったシグニチュアサブセットリスト
から予測子が構築される。予測子の中で、各々の遺伝子
は、クラスのうちの1つ(再発又は生存)について重み
づけされた票を投じ、(一定の与えられた勝利マージン
より上の)より多い票を得たクラスがその予測を勝ちと
る。各遺伝子の票の重みは、新しい標本内のその発現レ
ベル及びその評点により反映されるようなその「質」に
よって左右される。各クラスについての票が合計され、
勝利クラスならびに勝利マージンの測度である予測強度
を決定するために比較される。標本は、予測強度が一定
の与えられた予備設定閾値を上回った場合にのみ勝利ク
ラスに割当てられる。
Predictors are constructed from the narrowed signature subset list. Within the predictor, each gene casts a weighted vote for one of the classes (recurrence or survival) and gained more votes (above a given given victory margin) Wins that prediction. The weight of the vote for each gene depends on its expression level in the new specimen and its "quality" as reflected by its score. The votes for each class are summed up,
It is compared to determine the prediction strength, which is a measure of the winning class as well as the winning margin. A sample is assigned to the winning class only if the predicted strength exceeds a given preset threshold.

【0046】その立証に際して使用された例について
は、大部分の分類方法がうまく働くことになるため、予
測子は、好ましくは独立したデータセットと合わせて、
相互妥当性(バリデーション)検査され評価される。妥当
性検査のため、標本は2つ以上のグループに分割され得
る。そうでなければ、リーブ−ワン−アウト(1個抜き
法)相互妥当性検査(LOOCV)といったような一般
的に用いられている相互妥当性検査方法を使用すること
もできる。その後、患者予後データと査定されたマーカ
ー発現の間の結びつきをテストするため、多変数分析を
適用することができる。
For the example used in the demonstration, the predictor is preferably combined with an independent data set, since most classification methods will work.
Mutual validation is checked and evaluated. The sample may be divided into more than one group for validation. Otherwise, commonly used cross validation methods such as leave-one-out cross validation (LOOCV) may be used. Multivariate analysis can then be applied to test the link between patient prognosis data and assessed marker expression.

【0047】発現情報を比較するための方法例は以下の
通りである:標識づけされたcDNA分子を、相補的核
酸配列及び1つの標識(例えば螢光体を用いる)を含有
するマイクロアレイに対しハイブリッド形成させる。次
に、マイクロアレイを走査し、スポットの強度が記録さ
れる。その後、強度データの行列が作成される。
An example method for comparing expression information is as follows: hybridizing labeled cDNA molecules to a microarray containing complementary nucleic acid sequences and one label (eg, using a fluorophore). Let it form. The microarray is then scanned and the intensity of the spots recorded. Then, a matrix of intensity data is created.

【0048】その後基準遺伝子発現ベクトルが作成され
る。分化すべき標本グループを表わすのにA,B…Zが
使用される場合、それぞれ各グループの中で基準遺伝子
を構築するために使用される標本数を表わすのにa,
b,…zが使用される。従って、表記法A21は、グルー
プAの標本1内の2番目の遺伝子からの発現強度を表わ
す。各標本がサイズnの遺伝子を伴うマイクロアレイ上
にハイブリッド形成されたならば、以下の行列A,B,
…ZはそれぞれグループA,B,…Zの全てからの発現
データを表わす。
After that, a reference gene expression vector is created. If A, B ... Z are used to represent the sample groups to be differentiated, then a, B is used to represent the number of samples used in each group to construct the reference gene, respectively.
b, ... Z are used. Therefore, the notation A 21 represents the expression intensity from the second gene in Sample 1 of Group A. If each specimen was hybridized on a microarray with genes of size n, then the matrix A, B,
... Z represent expression data from all of groups A, B, ... Z, respectively.

【0049】[0049]

【数1】 [Equation 1]

【0050】各々の行列内の各遺伝子のための幾何平均
発現値は、このとき、以下の行列が作成されるような形
で計算される(A1(geomean)がセット{A1112…A
1a}の幾何平均であるならば、グループA内の遺伝子
1),
The geometric mean expression value for each gene in each matrix is then calculated in such a way that the following matrix is created (A 1 (geomean) is set {A 11 A 12 ... A
1a } is the geometric mean of genes in group A 1),

【0051】[0051]

【数2】 [Equation 2]

【0052】基準遺伝子発現ベクトルは、これらのベク
トルの幾何平均である。
The reference gene expression vector is the geometric mean of these vectors.

【0053】[0053]

【数3】 [Equation 3]

【0054】なお式中In the formula

【0055】[0055]

【数4】 [Equation 4]

【0056】は{A1(geomean)1(geomean)…Z
1(geomean)}の幾何平均である。
Is {A 1 (geomean) B 1 (geomean) ... Z
It is the geometric mean of 1 (geomean) .

【0057】基準遺伝子発現ベクトルが作成された後、
元のデータセットは、各遺伝子についての基準遺伝子発
現値との関係における比率の対数をとることによって変
換される。こうして行列{A′B′…Z′}が生成され
る。
After the reference gene expression vector is created,
The original data set is transformed by taking the log of the ratio in relation to the reference gene expression value for each gene. In this way, the matrix {A′B ′ ... Z ′} is generated.

【0058】[0058]

【数5】 [Equation 5]

【0059】なおここで、Here,

【0060】[0060]

【数6】 [Equation 6]

【0061】である。このとき値は、各遺伝子について
の平均に対する増減倍数を表わす。
It is At this time, the value represents the fold increase / decrease with respect to the average for each gene.

【0062】このとき弱い分化パワーしかもたない遺伝
子は、行列{A′B′…Z′}から除去される。l〜n
までの遺伝子iについて、無名数で表わしたその値
{A′i1,A′i2…A′ia,B′i1,B′i2…B′ib
it,Zit…Zi2}のいずれも閾値(好ましい実施形態
ではIn3)よりも大きくない場合、全ての行列から遺
伝子iが除去される。換言すると、診断上関連性ある遺
伝子とみなされるためには、この値は、閾値(好ましく
はIn3)以上の絶対値をもつ少なくとも1つの値をあ
らゆる行列の中に有していなくてはならない。弱い分化
パワーしかもたない遺伝子が除去された行列が、ここで
行列{A″B″…Z″}となる。
At this time, genes having weak differentiation power are removed from the matrix {A'B '... Z'}. 1 to n
For the genes i up to, the values {A ′ i1 , A ′ i2 ... A ′ ia , B ′ i1 , B ′ i2 ... B ′ ib , expressed as an anonymous number,
If none of Z it , Z it ... Z i2 } is greater than the threshold (In3 in the preferred embodiment), then gene i is removed from all matrices. In other words, this value must have at least one value in every matrix with an absolute value above the threshold (preferably In3) in order to be considered a diagnostically relevant gene. The matrix from which the genes having only weak differentiation power are removed is the matrix {A ″ B ″ ... Z ″}.

【0063】このとき以下のようにシグニチュアを新規
作成するために、結果として得られた各々の行列
{A″,B″…Z″}に対しシグニチュア抽出アルゴリ
ズムが適用される。この場合、このアルゴリズムは、M
axcor アルゴリズムと呼ばれ、各グループ{A″,B″
…Z″}について別々に作用する。行列内の各列対につ
いて、平均値(以下で定義)に比べ座標的に高く、平均
的に及び低く発現された遺伝子は、それぞれ1,0,及
び−1という値が与えられ、それぞれその対を表わす重
みベクトルを生成する。行列A″については
At this time, the signature extraction algorithm is applied to each of the resulting matrices {A ″, B ″ ... Z ″} in order to newly create a signature as follows. Is M
Called axcor algorithm, each group {A ″, B ″
, Z ″} acts separately. For each column pair in the matrix, genes that are coordinately higher, mean and lower than the mean value (defined below) are 1, 0, and −, respectively. Given a value of 1, each produces a weight vector representing that pair. For the matrix A ″

【0064】[0064]

【数7】 [Equation 7]

【0065】の2つ1組での計算が実施される。グルー
プAについてのシグニチュアと呼ばれる最終平均重みベ
クトルは、行列A″からの全ての
Calculations are performed in pairs of two. The final mean weight vector, called the signature for group A, is

【0066】[0066]

【数8】 [Equation 8]

【0067】重みベクトルの平均をとることにより計算
される。かくして、シグニチュアは、A″と同じ数の遺
伝子を含み、その値は、−1及び1がそれぞれ全てのグ
ループの平均との関係における低及び高レベルで一貫し
て発現された遺伝子を表わすものとして、〔−1,1〕
の内部にあるはずである。
It is calculated by taking the average of the weight vectors. Thus, the signature contains the same number of genes as A ″, the values of which are −1 and 1 respectively representing genes that were consistently expressed at low and high levels in relation to the mean of all groups. , [-1, 1]
Should be inside.

【0068】上述の2つ1組での計算は、座標列c1及び
c2をとり上げそれらの値をcliが
In the above-mentioned two-pair calculation, the coordinate sequences c1 and c2 are taken and cli

【0069】[0069]

【数9】 [Equation 9]

【0070】(なお式中(In the formula

【0071】[0071]

【数10】 [Equation 10]

【0072】は列c1の平均でありSc1は標準偏差で
ある)となるような形で正規化することによって行なわ
れる。c1′及びc2′内の各々の遺伝子対について、
次に、ベクトルp12内に積が記憶され、p12内の各
々の値はこのとき、最低から最高までソートされる。次
に、p12内のより大きな積の値をもつ全ての遺伝子を
収集するために、公称カットオフ値(好ましい実施形態
では0.5)が使用される。次に、列c1及びc2内の
値を用いてこの遺伝子セットについてのPearson相関係
数が計算される。その後、相関係数が統計的に関連性あ
る数(好ましい実施形態では0.8)より大きくなるま
でカットオフ値が増大させられる。これが完了した時点
で、この基準を満たす遺伝子セットには、cl′及びC
2′内の両方の遺伝子値が正である場合には1,両方の
遺伝子値が負である場合には−1が割当てられる。c
1′及びc2′内のその他全ての遺伝子について0が割
当てられる。結果として得られるベクトルは、その対を
表わす重みベルトルである。−1及び1の値は、全グル
ープの平均との関係においてそれぞれ低又は高レベルで
一貫して発現された遺伝子を表わす。
Is the mean of column c1 and Sc1 is the standard deviation). For each gene pair in c1 'and c2',
The products are then stored in vector p12 and each value in p12 is then sorted from lowest to highest. The nominal cutoff value (0.5 in the preferred embodiment) is then used to collect all genes with larger product values in p12. The Pearson correlation coefficient for this gene set is then calculated using the values in columns c1 and c2. The cutoff value is then increased until the correlation coefficient is greater than a statistically relevant number (0.8 in the preferred embodiment). When this is complete, the gene sets that meet this criterion will have cl 'and C
A 1 is assigned if both gene values in 2'are positive, and a -1 is assigned if both gene values are negative. c
0 is assigned for all other genes in 1'and c2 '. The resulting vector is a weighted vector that represents the pair. Values of -1 and 1 represent genes that were consistently expressed at low or high levels respectively in relation to the mean of all groups.

【0073】ひとたびシグニチュアが作成されたなら
ば、次にそれに対して未知の標本を評定することができ
る。評定の前に、弱い分化値をもつ標本S内の遺伝子
は、残りの行がシグニチュアベクトル内のものと同じに
なるような形で除去され、かくして標本ベクトルS″を
新規作成する。評点は、S″内の各遺伝子についての積
とシグニチュアベクトル内のその重みの合計である。例
えば、標本ベクトルS″とシグニチュアベクトルAs
間の評点は
Once the signature has been created, the unknown specimen can then be evaluated against it. Prior to the rating, the genes in the sample S with weak differentiation values are removed in such a way that the remaining rows are the same as those in the signature vector, thus creating a new sample vector S ″. , S ″ for each gene and its weight in the signature vector. For example, the scores between the sample vector S "and signaling Nichua vector A s

【0074】[0074]

【数11】 [Equation 11]

【0075】である。正規化された評点は、(評点−ラ
ンダム化評点)/ランダム化評点の標準偏差であり、こ
こでランダム化評点は、S″とその遺伝子位置がランダ
ム化されたシグニチュアベクトルの間の評点である。標
準的には、平均及び標準偏差を計算するためには、10
0個のランダム化評点が生成される。高い評点は、その
未知の標本が、シグニチュアが由来した標本を含むか又
はそれに関係するものであることを表わしている。
It is The normalized score is the standard deviation of (score-randomized score) / randomized score, where the randomized score is the score between S ″ and the signature vector whose gene position was randomized. There is typically 10 to calculate the mean and standard deviation.
Zero randomized scores are generated. A high score indicates that the unknown specimen contains or is associated with the specimen from which the signature was derived.

【0076】代替的なシグニチュア抽出アルゴリズムも
同様に使用可能である。1つの例としては、平均対数比
方法がある。このアルゴリズムは、各々のグループ/行
列{A″B″…Z″}について別々に働く。
Alternative signature extraction algorithms can be used as well. One example is the average log ratio method. This algorithm works separately for each group / matrix {A ″ B ″ ... Z ″}.

【0077】各行列について、シグニチュアベクトル
は、行列の行平均である。かくして、グループ{A″
B″…Z″}についてのシグニチュアベクトルは、次の
とおりである。
For each matrix, the signature vector is the row mean of the matrix. Thus, the group {A ″
The signature vector for B ″ ... Z ″} is:

【0078】[0078]

【数12】 [Equation 12]

【0079】なおここで[Here]

【0080】[0080]

【数13】 [Equation 13]

【0081】は、{A″11,A″12,…A″1a}の平均
である。
Is the average of {A ″ 11 , A ″ 12 , ... A ″ 1a }.

【0082】このアプローチを用いた未知の標本の評定
は、以下のように行なわれる。評定の前に、標本遺伝子
発現ベクトルは、新規作成された基準遺伝子発現ベクト
ルとの関係における比率の対数をとることによって変換
される。例えば、標本S=
Assessment of unknown samples using this approach is performed as follows. Prior to rating, the sample gene expression vector is transformed by taking the log of the ratio in relation to the newly created reference gene expression vector. For example, sample S =

【0083】[0083]

【数14】 [Equation 14]

【0084】の変換は、S′=The conversion of S '=

【0085】[0085]

【数15】 [Equation 15]

【0086】を導く。なおLead to Note that

【0087】[0087]

【数16】 [Equation 16]

【0088】次に、弱い分化値しかもたない遺伝子は、
残った行がシグニチュアベクトル内のものと同じとなる
ように除去され、標本ベクトルS″を新規作成する。各
シグニチュアに対する評点は次に、S″とシグニチュア
ベクトルの間のユークリッド距離をとることによって計
算される。正規化された評点は、(評点−ランダム化評
点)/ランダム化評点の標準偏差であり、ここでランダ
ム化評点は、S″とその遺伝子位置がランダム化された
シグニチュアベクトルの間のユークリッド距離である。
Next, a gene having a weak differentiation value is
The remaining rows are removed to be the same as in the signature vector, creating a new sample vector S ″. The score for each signature is then the Euclidean distance between S ″ and the signature vector. Calculated by The normalized score is the standard deviation of (score-randomized score) / randomized score, where the randomized score is the Euclidean distance between S ″ and the signature vector whose gene position is randomized. Is.

【0089】患者のデータも同様に、上述のオペレーシ
ョンを実施するために用いられるデータベース(単複)
及びアルゴリズムを改善する目的で使用可能である。デ
ータベースは、ディスカバリーデータベースからの患者
配列又はパターンに関する情報を分析データベース内に
取込むことによって改善される。こうして、標本サイズ
を増大させることにより(臨床的意味と配列の間の)整
合プロセスの統計的信頼性が改善される。これは、結果
が正しいことを条件として、配列又はパターンが負又は
正のいずれの臨床結果を表わすかとは無関係に言えるこ
とである。さらに、一部の標本はそれらと比較されたデ
ータベース内の配列又はパターン内に存在しなかった配
列又はパターンを有することになる。これらの配列又は
パターンは、同じ配列プロフィールをもつ将来の標本が
分析される場合に整合を強化することになる付加的な特
徴を提供することができる。
The patient data is likewise the database (s) used to carry out the operations described above.
And can be used to improve the algorithm. The database is enhanced by incorporating information about patient sequences or patterns from the discovery database into the analysis database. Thus, increasing the sample size improves the statistical reliability of the matching process (between clinical meaning and sequence). This is true regardless of whether the sequence or pattern represents a negative or positive clinical outcome, provided the results are correct. In addition, some specimens will have sequences or patterns that were not present in the sequences or patterns in the database with which they were compared. These sequences or patterns can provide additional features that will enhance matching when future samples with the same sequence profile are analyzed.

【0090】付加的なパターン整合の使用を通して付加
的な確信が達成できるか否かも同様に考慮される。すな
わち、異なる確信レベルは、異なるパターンとの整合に
起因すると考えることができる。かくして、特定の診断
に到達するために、最低限のパターン整合が立証された
可能性はあるものの、Diamond モデル(以下で記述す
る)の下で余分とみなされると思われるさらなる整合の
有無を、結果の確信の改善のために使用することが可能
である。
Whether additional confidence can be achieved through the use of additional pattern matching is also considered. That is, different confidence levels can be attributed to matching different patterns. Thus, in order to arrive at a particular diagnosis, the minimum pattern matching may have been substantiated, but the presence or absence of further matching that would be considered redundant under the Diamond model (described below), It can be used to improve confidence in the results.

【0091】Diamond に対する米国特許第5,692,2
20号は、1つのアルゴリズム内に一定の与えられたパ
ターンを内含すべきか否かを考慮する場合の単純な1組
の質問を提案している。彼はまず最初に、考慮中のパタ
ーンとの正の整合を立証するためにどんな最小限のエン
トリデータセットが存在しなくてはならないかをたずね
る。次に彼は、存在する場合にそのパターンをさらなる
考慮から排除するすなわち除外する何らかの単一のエン
トリデータ片又はエントリデータの組合せが存在するか
否かたずねる。最後に彼は、比較のためにすでにプログ
ラミングされたその他のパターンが、考慮されつつある
パターンに比べ階層上低いものであるか否かをたずね
る。すなわち、考慮中のパターンによってその他のパタ
ーンが「のみ込まれ」得るか否かである。
US Pat. No. 5,692,2 to Diamond
No. 20 proposes a simple set of questions when considering whether to include a given pattern within an algorithm. He first asks what minimal entry data set must exist to establish a positive match with the pattern under consideration. He then asks if there is any single piece of entry data or combination of entry data that excludes or excludes the pattern from further consideration, if any. Finally, he asks if the other patterns already programmed for comparison are hierarchically lower than the pattern being considered. That is, whether other patterns can be "swallowed" by the pattern under consideration.

【0092】該発明においては、最後の2つの質問に対
し、臨床的意味と配列情報を相関するアルゴリズムが修
正されるべきか否かそしていかに修正されるべきかを決
定するためのプロセスの一部として回答が与えられてい
る。Diamondモデルでは、1つのパターンがもう1つの
パターンによってのみ込まれ得る場合には、より広いパ
ターンが使用されることになる。しかしながら、より多
くのパターンを横断して整合するデータに対しより高い
評点を割当てることによって付加的確信を達成できる場
合、両方のパターンの使用を保持することが価値あるこ
とと思われる。同じことが、パターン整合の数ではな
く、単一の見かけ上決定的な整合を使用すべきか否かを
考慮する場合についても言える。Diamond モデルは、可
能な場合に単一の整合の使用のみを示唆している。しか
しながら当該ケースにおいては、多くの比較点の使用を
通してより大きな統計的に有意な確信が達成できるなら
ば、これは望ましいことではないかもしれない。
In the present invention, for the last two questions, part of the process for determining whether and how the algorithm that correlates sequence information with clinical meaning should be modified. The answer is given as. In the Diamond model, a wider pattern will be used if one pattern can only be swallowed by another. However, if additional belief can be achieved by assigning a higher score to data that matches across more patterns, it may be worth retaining the use of both patterns. The same is true when considering whether a single apparently deterministic match should be used rather than the number of pattern matches. The Diamond model only suggests the use of a single match when possible. However, in that case, this may not be desirable if greater statistically significant beliefs can be achieved through the use of many comparison points.

【0093】図1は、確信を増強するべく診断/予後ア
ルゴリズム内に発現プロフィールデータを取込む方法を
例示する流れ図である。確信レベル、適切な標本サイズ
そして類似の考慮事項を計算するための統計ツールは全
て充分に知られている。実行可能なコンピュータコード
に方法をプログラミングすることも同様に従来通りのこ
とであり、コンピュータプログラミングの当事者によっ
て容易に達成される。患者のデータの処理と合わせた連
続的及び/又は予めプログラミングされたプロセスとし
てこのプロセスを実施する行為は、該発明力ある方法の
1つの態様である。このプロセス例は、医療提供者又は
その他の関係当事者が患者標本の分析を要請することに
よりステップ100で開始される。ステップ200で
は、標本が得られ、医療提供者、研究所サービス又はデ
ータベースシステムを運用する当事者のいずれかによっ
て、実験室検定を行なう物理的操作ステップが行なわれ
る。このステップの頂点が、配列情報が由来する遺伝物
質又はタンパク質物質の抽出である。次に、この情報
は、基準配列との比較及びアルゴリズムを介しての問合
せを介してステップ300において分析される。基準配
列は、分析データベース1000内に記憶される。分析
を行なうのに使用されるアルゴリズムは、データベース
1000内のプログラミング命令の一部として実施され
得、そうでなければそれらは、データベース1000を
照会し操作するために作られた独立したコンピュータプ
ログラム内の別の一連の命令を介して動作させることが
できる。ステップ300における分析は、1つの結果を
生成する(ステップ310)。この結果は、診断、予後
又はその他の臨床的に関連性ある情報を提供するのに充
分な基準パターンとの整合が存在するか否かを表示する
ことになる。システムには、整合プロセスが以前に識別
されていないいずれかのパターンを識別したか否か又
は、この標本中の以前に識別されたパターンの識別(又
はその不在)が付加的な統計値を提供することになるか
否かを決定するべく照会が行なわれる(ステップ32
0)。付加的な統計値は、例えば、増大した確信又は予
測パワーが達成されるように標本サイズを増大させるこ
とによって得ることができる。結果は、ステップ400
又はステップ410において、それらを要求した当事者
又は、かかる結果の送信先として指定された場所に報告
される。結果を電子通信又はその他のあらゆる方法で医
療提供者に直接通信することもできる。臨床的意義をも
つものとして以前に識別されていないパターンを提示す
る場合又はさらに通常のケースであるが1つの臨床的状
態に関連する可能性があるものとして以前に識別された
パターンが出現したものの関係の充分な確信がまだ立証
されていない場合、パターンはタグ付けされる。このタ
グ付けはステップ510で行なわれる。タグ付けされた
パターンは、ステップ600において、ディスカバリー
データベースDB2000の中に記憶される。医療提供
者又はそれを提供する立場にあるその他の者から臨床的
状態の確認を受信した時点(ステップ700)で、デー
タからタグが除去される(ステップ800)。このとき
パターンは、ディスカバリーデータベース200から移
動させられ、その後の分析において基準シグニチュアと
して使用されるべく分析データベース1000内に移動
される。プロセスは例えばパターン整合アルゴリズムに
より複数のパターンが識別され、パターンの異なる部分
が、別の確認を必要とする異なる臨床的情報を相関する
場合に、反復的でありうる。
FIG. 1 is a flow chart illustrating a method of incorporating expression profile data within a diagnostic / prognostic algorithm to enhance confidence. Confidence levels, appropriate sample sizes and statistical tools for calculating similar considerations are all well known. Programming the method into executable computer code is likewise conventional and readily accomplished by those skilled in the computer programming arts. The act of performing this process as a continuous and / or pre-programmed process in conjunction with the processing of patient data is one aspect of the inventive method. The example process begins at step 100 with a healthcare provider or other interested party requesting analysis of a patient specimen. At step 200, a sample is obtained and the physical manipulation steps of performing a laboratory assay are performed, either by a health care provider, a laboratory service or a party operating a database system. The culmination of this step is the extraction of the genetic or protein material from which the sequence information is derived. This information is then analyzed in step 300 via comparison with a reference sequence and interrogation via an algorithm. The reference sequence is stored in the analysis database 1000. The algorithms used to perform the analysis may be implemented as part of the programming instructions in the database 1000, or else they are in a separate computer program created to query and manipulate the database 1000. It can be operated via another set of instructions. The analysis in step 300 produces a result (step 310). This result will indicate whether there is sufficient alignment with the reference pattern to provide diagnostic, prognostic or other clinically relevant information. Whether the matching process has identified any previously unidentified patterns, or the identification of previously identified patterns in this sample (or its absence) provides the system with additional statistics. A query is made to determine whether or not (step 32).
0). Additional statistics can be obtained, for example, by increasing the sample size such that increased confidence or prediction power is achieved. The result is step 400
Or, in step 410, they are reported to the party requesting them, or to the location designated as the destination for such results. The results can also be communicated directly to the healthcare provider via electronic communication or any other method. Presenting a pattern that has not previously been identified as of clinical significance, or even more usually the emergence of a pattern previously identified as possibly related to one clinical condition The pattern is tagged if sufficient confidence in the relationship has not yet been substantiated. This tagging is done in step 510. The tagged pattern is stored in the discovery database DB 2000 at step 600. The tag is removed from the data (step 800) upon receipt of a confirmation of the clinical condition (step 700) from the healthcare provider or other person in the position of providing it. The pattern is then moved from the discovery database 200 and into the analysis database 1000 to be used as a reference signature in subsequent analyses. The process can be iterative if multiple patterns are identified, for example by a pattern matching algorithm, and different portions of the pattern correlate different clinical information that requires different confirmation.

【0094】本発明のプロセスは、ANN及び先行技術
で見られる標準的診断方法(例えば臨床化学及びEIA
方法)で用いられたものと同じ意味で、正常範囲の立証
には左右されない。疾病の状態又は症状を表示する単一
の又は決定的な核酸又はタンパク質パターンの場合、マ
ーカー(例えば遺伝子)のあらゆる存在が臨床的意味を
もつ。一方、マーカーの組合せが臨床診断の立証のため
に用いられるか又は、統計的確信が1つのマーカーグル
ープに割当てられる場合、未知のもの又は標本と比較さ
れるパターンは連続的に変化しうる。パターンを「正常
なもの」として見ることができるかぎり、それは、古典
的診断医学において測定された検体に通常結びつけられ
る正常とは異なり、動的正常である。この正常はつねに
更新され妥当性検査される。
The process of the present invention is a standard diagnostic method found in ANN and the prior art (eg clinical chemistry and EIA).
It has the same meaning as that used in (Method) and does not depend on the proof of normal range. In the case of a single or definitive nucleic acid or protein pattern indicative of a disease state or symptom, the presence of any marker (eg gene) has clinical significance. On the other hand, if a combination of markers is used for substantiating a clinical diagnosis, or if statistical beliefs are assigned to one marker group, the pattern compared to the unknown or the sample may change continuously. As long as the pattern can be viewed as "normal", it is a dynamic normal, unlike the normal normally associated with the measured analyte in classical diagnostic medicine. This normal is constantly updated and validated.

【0095】患者の標本からパターンを分析データベー
スの基準パターンのデータベース及びデータベース及び
アルゴリズム内に付加することは、いくつかの取組みが
いのある問題を提示する。例えば、以前見られなかった
パターンを、1つの診断を支持し、1つの診断の確信を
弱め又は以前決定できなかった診断を示唆するために使
用できるようになったときそれはいかにして分かるのか
? 本発明の最も好ましい実施形態においては、初期分
析の時点で、1つのデータベースに対し整合されている
配列には、診断が独立して確認されていないことを示す
いくつかの印(例えばそれらはデータ要素で「タグ付
け」されている)が具備される。この最も好ましい実施
形態においては、タグ付けされた配列は、ディスカバリ
ーデータベース内に常駐している。1つの標本が、既知
のパターンとの整合性をもつ配列を表示し、しかも1つ
の疾病状態又は物理的症状にまだ相関されたことのない
パターンも表示すると仮定しよう。独立して、既知のパ
ターン及び以前には未知のパターンの混合を含むその他
の類似のパターンが実施される。以前の識別されたパタ
ーンとの整合に基づく結果が報告されるが、以前に未知
であったパターンは、なお、後続する標本配列の分析プ
ロセスに取込まれない。タグ付きデータをデータテーブ
ル又はデータベース(例えばディスカバリーデータベー
ス)に割当てることができる。肉体的症状又は疾病状態
を確認する情報を受信した時点及び一定の与えられた臨
床的症状と以前未知のパターンの結びつきを立証した時
点で、印(「タグ」)は除去され、配列は、整合プロセ
ス内に完全に取込まれた状態となるか又は、整合アルゴ
リズムを駆動する統計的値内に取込まれた状態となる。
統計的意義を新たに付加されたパターンに起因するもの
と考えるために、内部レジスタを使用することができ
る。すなわち、パターンの同時出現の最初のこのような
「確認」及び疾病状態の独立した確認には、1つの値が
割当てられてもよいし、或いは又、一定の与えられた診
断に関してそのパターンが疑われていることを示す注記
が付与されてもよい。このパターンが再び見られ、それ
が1つの疾病又は症状の存在に相関される場合、それに
は異なるインジケータ例えば、その疾病状態又は肉体的
症状が考えられることを意味するインジケータが付与さ
れる。パターンの存在と疾病状態又は症状の間の相関関
係が周知の統計的方法及び規準に従って充分立証される
まで、この行程をたどることができる。
Adding patterns from a patient sample into the reference pattern database and database and algorithm of the analysis database presents some challenging problems. For example, how can a previously unseen pattern be known when it can be used to support one diagnosis and weaken the conviction of one diagnosis or to suggest a previously undetermined diagnosis? In the most preferred embodiment of the invention, at the time of the initial analysis, the sequences that are aligned to one database may have some indicia indicating that the diagnosis has not been independently confirmed. "Tagged" with elements). In this most preferred embodiment, the tagged sequence resides in the discovery database. Suppose one sample displays sequences that are consistent with known patterns, and also displays patterns that have not yet been correlated to one disease state or physical condition. Independently, other similar patterns are performed, including a mixture of known patterns and previously unknown patterns. Results based on matches with previously identified patterns are reported, but previously unknown patterns are still not included in the subsequent sample sequence analysis process. The tagged data can be assigned to a data table or database (eg a discovery database). Upon receipt of information confirming a physical condition or disease state and establishing a link between a given clinical condition and a previously unknown pattern, the indicia ("tag") is removed and the sequences are aligned. It can either be fully incorporated into the process, or it can be incorporated into the statistical values that drive the matching algorithm.
Internal registers can be used to attribute the statistical significance to the newly added pattern. That is, a single value may be assigned to the first such "confirmation" of co-occurrence of a pattern and independent confirmation of a disease state, or alternatively, the pattern may be suspect for a given diagnosis. A note may be added to indicate that the information has been broken. If this pattern is seen again and it is correlated with the presence of one disease or condition, it is given a different indicator, eg an indicator that the disease state or physical condition is likely. This process can be followed until the correlation between the presence of the pattern and the disease state or condition is well documented according to well-known statistical methods and criteria.

【0096】データベースに関しては、このプロセスは
以下のように実現できる: 1.配列又はパターンが同定されるように、特徴づけさ
れた患者の標本の大きな1セットが処置される。例え
ば、2つの全く異なる細胞又は組織型を代表する約20
0〜400の標本の大きなコレクションを収集し、配列
又はパターンデータをディスカバリーデータベース内に
入れる。そのデータが有用である場合にそのようにして
細胞又は組織の2つ以上の異なる型を弁別する1つのパ
ターンが検出されるまで、バイオ情報科学方法を用い
て、ディスカバリーデータベースを分析する。 2.問題の変数に関係する全パターン範囲を定義づけす
るのに必要とされるデータセットを分析データベースに
エキスポートする。このデータベースは「ロック」さ
れ、患者の臨床診断のための臨床的基準ツールとして使
用される。 3.予め定められたパターンを測定するように設計され
た装置を用いて新しい患者を分析することにより、診断
が動作する。新しいデータは、分析データベースに対し
比較され、患者の標本と基準パターンの間の類似性につ
いて統計的査定が行なわれる。 4.同時に、患者パターンをディスカバリーデータベー
ス内に挿入する。新しいデータは全ての先行データと結
びつけられる。新パターンについてのディスカバリーデ
ータベースの各々の定期的再検討の間、新たに提出され
たパターンは、新しいデータセット内に内含される。時
間が経つにつれて、ディスカバリーセットの統計的値は
増大し、基準パターンの統計的パワーも増大する。 5.基準パターンがディスカバリーデータベースから導
出され それらが先行パターンよりも統計的に優れてい
る各時点で、新しいパターンが分析データベースに置換
し、基準パターンとして作用する。
For the database, this process can be implemented as follows: A large set of characterized patient specimens are treated so that sequences or patterns are identified. For example, about 20 representing two completely different cell or tissue types
A large collection of 0-400 specimens is collected and sequence or pattern data is placed in the discovery database. Bioinformatics methods are used to analyze the discovery database until one pattern is detected that distinguishes two or more different types of cells or tissues when the data is useful. 2. Export the data set needed to define the full pattern range associated with the variable in question to the analytical database. This database is "locked" and used as a clinical reference tool for clinical diagnosis of patients. 3. The diagnosis works by analyzing a new patient with a device designed to measure a predetermined pattern. The new data is compared against an analytical database and a statistical assessment is made of the similarities between the patient sample and the reference pattern. 4. At the same time, the patient pattern is inserted into the discovery database. The new data is combined with all previous data. During each periodic review of the discovery database for new patterns, newly submitted patterns are included in the new dataset. Over time, the statistical value of the discovery set increases and so does the statistical power of the reference pattern. 5. At each time when the reference pattern is derived from the discovery database and they are statistically superior to the preceding pattern, the new pattern replaces the analysis database and acts as the reference pattern.

【0097】好ましい実施形態においては、ディスカバ
リー及び分析データベース間のインタフェースは「ライ
ブ」である。この場合、2つのデータベースの物理的分
離は全く存在せず、分析ドメインはディスカバリーデー
タベース内のサブセットとして定義づけされる。ディス
カバリーデータベースを分析し分析データベース基準パ
ターンを更新する方法は連続的である。
In the preferred embodiment, the interface between the discovery and analysis databases is "live". In this case, there is no physical separation of the two databases and the analysis domain is defined as a subset within the discovery database. The method of analyzing the discovery database and updating the analysis database reference pattern is continuous.

【0098】該方法に対する1つの重要な変形形態は、
異なるパターンに焦点をあてるいくつかのディスカバリ
ーデータベースが存在するケースである。例えば、別の
ディスカバリーデータベースは、異なる器官のガンに焦
点をあてることができる。つねに改善しつつあるディス
カバリーデータベースから分析データベースまでデータ
をシャフルするのと同様に、1つの大きなディスカバリ
ーデータベースを形成するべく別々のデータベースを併
合することも可能である。多数のパターンを組合せるこ
とにより、特にこれらのパターンに、関係する及び無関
係の表現型特長に関する情報の注釈が付されている場合
に、新しい表現型にとって有用な基準である全く新しい
パターンが出現し得る。
One important variant to the method is:
This is the case when there are several discovery databases that focus on different patterns. For example, another discovery database can focus on cancers of different organs. Similar to shuffling data from ever-improving discovery databases to analytical databases, it is also possible to merge separate databases to form one large discovery database. The combination of multiple patterns creates an entirely new pattern that is a useful reference for new phenotypes, especially when these patterns are annotated with information about related and unrelated phenotypic features. obtain.

【0099】タグ付け/タグ除去プロセスは、数多くの
やり方で達成できる。適切なデジタル化された指令を通
してタグ付け及び/又はタグ除去プロセスを手動で行な
うことが可能である。例えば、分析の受取人に情報を提
供するとき、該受取人は、遺伝的試験(例えば生検及び
細胞分析)とは全く異なる手段を通して確認された時点
で臨床診断についてデータベースオペレータに情報提供
すべきであるとの助言を受ける可能性がある。要請人が
分析提供者と電子通信状態にある場合、要請人が確認デ
ータを直接データベースにエントリするよう単純な接続
を作り上げることができ、かくしてタグは除去される。
当然のことながら、分析の確認ができない状況も考慮し
なければならない。このような場合には、タグ付けされ
たデータは、タグ付けされた状態にとどまってもよい
し、廃棄されてもよいし、或いは又分析に付随する統計
的報告を行なうために使用することもできる(例えば、
結果の確信度を下げるのに使用することができる)。こ
れらのオプションのうちのいずれかを実現することは、
プログラミングの観点から見て単純なことであり、当業
者により容易に達成可能である。
The tagging / tagging process can be accomplished in a number of ways. It is possible to manually perform the tagging and / or tag removal process through the appropriate digitized instructions. For example, when providing information to a recipient of an analysis, the recipient should inform the database operator about the clinical diagnosis once confirmed through a completely different means than genetic testing (eg, biopsy and cell analysis). May be advised. If the requester is in electronic communication with the analysis provider, a simple connection can be created for the requester to enter the verification data directly into the database, thus removing the tag.
Naturally, the situation where the analysis cannot be confirmed must also be considered. In such cases, the tagged data may remain tagged, may be discarded, or may be used to make statistical reports associated with the analysis. Can (for example,
It can be used to reduce confidence in the result). Implementing any of these options is
It is simple from a programming point of view and can be easily achieved by a person skilled in the art.

【0100】好ましい実施形態 本発明の方法は、数多くの異なる要領で実践できる。標
本収集、分析、報告、データ収集、データベース及び分
析改善プロセスの組合せが数多く存在する。最も好まし
い組合せは、その能力を必要とする機能に関与するさま
ざまな当事者の最高の能力に合う組合せである。さら
に、効率も1つの考慮事項である。上述の要領で絶えず
改善されつつある精巧なアルゴリズムを用いて大型デー
タベースを記憶し操作することに付随する必要条件を考
えると、分析プロセスを、1つ又は複数の集中した場所
で行なうのが最も効率のよいことである。こうして、ハ
ードウェア及びソフトウェアのメンテナンス及びグレー
ドアップの問題が容易になり、最も重要なことに、改善
をアルゴリズム及びデータベースに分配することに付随
する必要条件が制限される。同様にして、パターンを得
るための標本試験(すなわち実際の研究所段階)は、一
般にこれらの活動を行なうのに最もうまく構成されかつ
職員を擁しているため現地の病院又は基準研究所におい
て行なうのが最も良いかもしれない。
Preferred Embodiments The method of the present invention can be practiced in many different ways. There are many combinations of sample collection, analysis, reporting, data collection, database and analysis improvement processes. The most preferred combinations are those that match the best capabilities of the various parties involved in the function requiring that capability. In addition, efficiency is another consideration. Given the requirements associated with storing and manipulating large databases with sophisticated algorithms that are constantly being improved in the manner described above, it is most efficient to carry out the analysis process in one or more centralized locations. It is a good thing. This facilitates hardware and software maintenance and upgrade issues and, most importantly, limits the requirements associated with distributing improvements to algorithms and databases. Similarly, sample testing for patterns (ie, the actual laboratory stage) is generally done at the local hospital or reference laboratory because it is the most well-configured and staffed to perform these activities. May be the best.

【0101】最も好ましい方法においては、医療提供者
は適切なフォーマットで患者の標本を入手する。これ
は、疑いを持たれている疾病又は症状に応じて異なるも
のとなる。例えば、乳ガンについて試験する場合、乳ガ
ンの生検標本が適切な標本であり得、一方試験が一般的
スクリーニングである場合には、全血標本が最良であり
得る。あらゆる場合において、適切な標本の選択は、当
事者にとって明白なことであり、利用可能な検定フォー
マットの選択により左右されることだろう。
In the most preferred method, the health care provider obtains the patient specimen in an appropriate format. This will depend on the suspicious disease or condition. For example, when testing for breast cancer, a biopsy specimen of breast cancer may be the appropriate specimen, while a whole blood specimen may be best if the test is general screening. In all cases, the choice of the appropriate sample will be obvious to the parties and will depend on the choice of available assay formats.

【0102】標本を収集した後、医療提供者は、適切な
条件下で(例えば適切な保存剤及び添加剤を含む管に入
った状態で)、本書で記述されているバイオ情報科学シ
ステムを用いた分析に必要とされるパターンを得る能力
をもつ研究所に標本を送る。好ましくは(ただし必ずで
はない)、このパターンを獲得するための検定は、同一
の当事者により提供され、核酸又はタンパク質マイクロ
検定を含む。かかるデバイスは現在周知である。それら
の使用は、本書にその開示が参考として内含されている
米国特許第5,143,854;5,288,644;5,
324,633;5,432,049;5,470,71
0;5,492,806;5,503,980;5,510,
270;5,525,464;5,547,839;5,5
80,732;5,661,028;5,848,659;
及び5,874,219号といった数多くの特許中に記述
されている。好ましくは、データフォーマットは、パタ
ーンのデジタル表示である。これは、Gene Expression
Markup Language(GEMLTM,Rosetta Inpharmatics,
Kirkland, Washington)での付加的なフォーマティン
グに役立つ。この言語は、遺伝子発現システム、データ
ベース及びツールの間での交換を可能にする、公開され
文書化されたオープンフォーマットである。その上、こ
のフォーマットは、無限のタグ数を許容する。「Gene E
xpression Markup Langugage(GEMLTM),遺伝子発
現データ及び注釈の交換のための一般的データフォーマ
ット」Rosetta Inpharmatics, www.geml.org/docs/GEM
L.pdf(2000)を参照のこと。これにより、臨床結
果を後に確認し、各々後掲のとおりにデータを匿名にす
るためのデータのタグ付けが容易になる。
After collecting the specimen, the healthcare provider will use the bioinformatics system described herein under appropriate conditions (eg, in a tube containing appropriate preservatives and additives). The specimen is sent to a laboratory that has the ability to obtain the pattern required for the desired analysis. Preferably, but not necessarily, the assay to obtain this pattern is provided by the same party and includes a nucleic acid or protein microassay. Such devices are now well known. Their use is described in US Pat. Nos. 5,143,854; 5,288,644; 5, the disclosure of which is incorporated herein by reference.
324,633; 5,432,049; 5,470,71
0; 5,492,806; 5,503,980; 5,510,
270; 5,525,464; 5,547,839; 5.5
80,732; 5,661,028; 5,848,659;
And numerous patents such as 5,874,219. Preferably the data format is a digital representation of the pattern. This is Gene Expression
Markup Language (GEML , Rosetta Inpharmatics,
Useful for additional formatting in Kirkland, Washington). This language is an open, documented, open format that allows interchange between gene expression systems, databases and tools. Moreover, this format allows an unlimited number of tags. "Gene E
xpression Markup Langugage (GEML ), a general data format for exchanging gene expression data and annotations "Rosetta Inpharmatics, www.geml.org/docs/GEM
See L.pdf (2000). This facilitates later confirmation of clinical results and tagging of the data to make the data anonymous, as described below.

【0103】得られたパターンは、あらゆるエントリ形
態で提供され(例えば、パターンをデジタル化できるコ
ンピュータ内へとスキャンされる)、その後バイオ情報
科学システムのオペレータによって分析される。分析
(予測される診断又は症状との配列/パターン整合)の
結果は次に要請人に伝達される。同時に、該パターン
は、バイオ情報科学システムに付随するデータベースの
中に試験的に保持される。好ましくは、それは上述のよ
うに試みとしてタグ付けされ、ディスカバリーデータベ
ース内に保持される。要請人は次に確認情報をバイオ情
報科学システムのオペレータに戻す。確認が可能である
場合、パターン及びパターンから探り出すことのできる
あらゆる新情報が、基準配列として、分析データベース
の一部となる。一部のケースでは、発現データの受信
が、すでにその他の臨床評価を行なった医療提供者の診
断を確認することになるため、前記のことは同時に起こ
る。データについて他の何も行なわれなかった場合、分
析の統計的信頼性は、標本サイズの増加を通して改善さ
れることになる。データベースはより頑強なものになっ
ていることだろう。
The resulting pattern is provided in any form of entry (eg, scanned into a computer that can digitize the pattern) and then analyzed by an operator of the bioinformatics system. The results of the analysis (sequence / pattern matching with the expected diagnosis or condition) are then communicated to the requester. At the same time, the pattern is experimentally maintained in a database associated with the bioinformatics system. Preferably it is tagged as an attempt as described above and kept in the discovery database. The requestor then returns the confirmation information to the operator of the bioinformatics system. If so, then the pattern and any new information that can be found from the pattern becomes part of the analytical database as a reference sequence. The above happens at the same time, in some cases the reception of expression data will confirm the diagnosis of the healthcare provider who has already performed other clinical evaluations. If nothing else was done with the data, the statistical reliability of the analysis would improve through increasing sample size. The database will probably be more robust.

【0104】もう1つの好ましい実施形態においては、
研究所又は医療提供者が、必要とされる標本を入手す
る。この標本は、分析を実施する組織と同じ組織によっ
て検定される。検定フォーマット及び分析のための所望
のエントリフォーマットをより容易に調整できることか
ら、これには幾分かの利点がある。このとき、識別され
たパターンの分析及び上述のデータ/アルゴリズムの改
善は、同様の要領で実施することができる。
In another preferred embodiment,
The laboratory or health care provider obtains the required specimen. This specimen is assayed by the same tissue as the one performing the analysis. This has some advantages as the assay format and the desired entry format for analysis can be more easily adjusted. At this time, the analysis of the identified patterns and the above-mentioned data / algorithm refinement can be carried out in a similar manner.

【0105】(例えば1つの研究所が検定を行ない得ら
れたパターンをバイオ情報科学オペレータに送る場合な
ど)分析すべきパターンを異なる場所に伝達されなくて
はならないあらゆる方法において、プロセスを迅速にす
るため電子通信を利用することが可能である。当業者で
あればわかるようにこの目的でインタネット及びその他
のネットワーク化されたシステムを容易に利用すること
ができる。
Speed up the process in any way that the pattern to be analyzed must be communicated to different locations (for example, one laboratory performing the assay and sending the resulting pattern to a bioinformatics operator). Therefore, it is possible to use electronic communication. Those skilled in the art will readily appreciate Internet and other networked systems for this purpose.

【0106】本発明のデバイスは、特別にプログラミン
グされた汎用コンピュータとして構成されたときに最も
うまく作られ使用される。この実施形態では、データベ
ースシステム(上述のように機能するためのプログラミ
ング命令と合わせたディスカバリー及び分析データベー
スの組合せ)は、本書で記述された機能を果たすように
特別にプログラミングされた単数又は複数のコンピュー
タの組合せにより、その機能を果たす。命令は、ハード
ドライブ、ネットワーク、光学、又は磁気光学材料及び
この目的で標準的に使用されるその他のものといったよ
うな、コンピュータオペレーションの実施用のあらゆる
適切な媒体の中に内蔵されうる。本書に記述したプロセ
スを実現するためのコンピュータ命令が記録された媒体
を含む製造品が、本発明のさらなる実施形態である。
The device of the present invention is best made and used when configured as a specially programmed general purpose computer. In this embodiment, a database system (a combination of a discovery and analysis database combined with programming instructions to function as described above) is a computer or computers specially programmed to perform the functions described herein. Fulfills that function. The instructions may be embodied in any suitable medium for performing computer operations, such as a hard drive, network, optical, or magneto-optical material and others commonly used for this purpose. Articles of manufacture that include media bearing computer instructions for implementing the processes described herein are further embodiments of the present invention.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の方法を例示する流れ図である。1 is a flow chart illustrating the method of the present invention.

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G01N 37/00 102 G01N 37/00 102 Fターム(参考) 2G045 AA25 BA13 BB03 DA12 DA13 DA14 DA36 FB02 JA01 4B029 AA08 AA23 BB20 GB10 4B063 QA20 QQ43 QS25 QS39 ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) G01N 37/00 102 G01N 37/00 102 F term (reference) 2G045 AA25 BA13 BB03 DA12 DA13 DA14 DA36 FB02 JA01 4B029 AA08 AA23 BB20 GB10 4B063 QA20 QQ43 QS25 QS39

Claims (20)

【特許請求の範囲】[Claims] 【請求項1】 臨床診断サービスを提供するための方法
において: a) 生体標本を収集する段階; b) その遺伝物質の組成、その挙動又はタンパク質の
少なくとも一部分を決定するべく、前記生体標本を分析
する段階; c) 前記生体標本の分析の結果を報告する段階;及び d) 前記生体標本の分析を通して得られた情報を生体
標本の後続する分析に取込む段階を含んで成る方法。
1. A method for providing a clinical diagnostic service: a) collecting a biological specimen; b) analyzing the biological specimen to determine its genetic material composition, its behavior or at least part of its protein. C) reporting the results of the analysis of the biological specimen; and d) incorporating the information obtained through the analysis of the biological specimen into a subsequent analysis of the biological specimen.
【請求項2】 前記生体標本から遺伝物質を抽出する段
階を内含する、請求項1に記載の方法。
2. The method of claim 1, including the step of extracting genetic material from the biological specimen.
【請求項3】 前記生体標本からタンパク質を抽出する
段階を内含する、請求項1に記載の方法。
3. The method of claim 1, including the step of extracting a protein from the biological specimen.
【請求項4】 生体標本の収集及び前記生体標本からの
遺伝物質の抽出が研究所サービス又は医療の提供者によ
って行なわれ、遺伝物質の組成又は挙動を決定するため
の分析及び後続する分析内へのかかる情報の取込みが、
収集及び抽出段階を実施した研究所サービス又は医療の
提供者ではない1企業主体によって実施される、請求項
2に記載の方法。
4. Collection of a biological specimen and extraction of genetic material from said biological specimen is performed by a laboratory service or health care provider, into an analysis and subsequent analysis to determine the composition or behavior of genetic material. The acquisition of information
The method according to claim 2, wherein the method is performed by one business entity that is not a laboratory service or medical provider who performed the collecting and extracting steps.
【請求項5】 生体標本の収集及び前記生体標本からの
タンパク質の抽出が研究所サービス又は医療の提供者に
よって行なわれ、該タンパク質の組成、濃度又は挙動を
決定するための分析及び後続する分析内へのかかる情報
の取込みが、収集及び抽出段階を実施した研究所サービ
ス又は医療の提供者ではない1企業主体によって実施さ
れる、請求項3に記載の方法。
5. Collection of biological specimens and extraction of proteins from said biological specimens is carried out by laboratory services or medical providers, in order to determine the composition, concentration or behavior of said proteins and in subsequent analyzes. 4. The method according to claim 3, wherein the uptake of such information into the is performed by one business entity that is not the laboratory service or health care provider who performed the collecting and extracting steps.
【請求項6】 遺伝物質の少なくとも1部分を増幅する
段階をさらに含んで成る、請求項2に記載の方法。
6. The method of claim 2, further comprising the step of amplifying at least a portion of the genetic material.
【請求項7】 前記分析段階が、マイクロアレイと合わ
せて行なわれる、請求項2に記載の方法。
7. The method of claim 2, wherein the analyzing step is performed in conjunction with a microarray.
【請求項8】 収集及び抽出段階が研究所サービス又は
医療の提供者によって実施され、遺伝物質の組成又は挙
動を決定するための分析及び後続する分析内へのかかる
情報の取込みが、収集及び抽出段階を実施した研究所サ
ービス又は医療の提供者ではない1企業主体によって実
施される、請求項2に記載の方法。
8. A collection and extraction step is performed by a laboratory service or health care provider, and analysis and subsequent incorporation of such information into the analysis to determine the composition or behavior of genetic material comprises collection and extraction. The method of claim 2, wherein the method is performed by one business entity that is not the laboratory service or healthcare provider that performed the step.
【請求項9】 収集及び抽出段階が研究所サービス又は
医療の提供者によって実施され、分析及び取込み段階
が、収集及び抽出段階を実施した研究所サービス又は医
療の提供者ではない1企業主体によって実施される、請
求項3に記載の方法。
9. The collecting and extracting step is performed by a laboratory service or medical provider, and the analyzing and capturing step is performed by one company entity that is not the laboratory service or medical provider who performed the collecting and extracting step. The method of claim 3, wherein the method is performed.
【請求項10】 前記遺伝物質、その挙動又は前記タン
パク質とパターン情報を含むデータベースとを比較する
ことによって、前記分析が実施される、請求項1に記載
の方法。
10. The method of claim 1, wherein the analysis is performed by comparing the genetic material, its behavior or the protein with a database containing pattern information.
【請求項11】 後続する生体標本分析内への情報の取
込み段階が、分析の結果の統計的妥当性を修正する、請
求項1に記載の方法。
11. The method of claim 1, wherein the step of incorporating information into a subsequent biological specimen analysis modifies the statistical validity of the results of the analysis.
【請求項12】 後続する生体標本分析内への情報の取
込み段階が、データベースを修正する、請求項10に記
載の方法。
12. The method of claim 10, wherein the step of incorporating information into the subsequent biological specimen analysis modifies the database.
【請求項13】 後続する生体標本分析内への情報の取
込み段階が、前記比較段階を実施するために用いられる
アルゴリズムを修正する、請求項10に記載の方法。
13. The method of claim 10, wherein the step of incorporating information into a subsequent biological specimen analysis modifies the algorithm used to perform the comparing step.
【請求項14】 所定の生理学的症状又は疾病の有無又
は程度の確率を決定するため、遺伝物質の組成又は挙動
に基づく分析の結果及び遺伝物質の組成又は挙動に直接
基づかない結果を用いて、遺伝物質の組成又は挙動に直
接基づかない付加的な分析を実施する段階をさらに含ん
で成る、請求項1に記載の方法。
14. Use of the results of analyzes based on the composition or behavior of genetic material and results not directly based on the composition or behavior of genetic material to determine the probability of the presence or degree of a given physiological condition or disease, The method of claim 1, further comprising the step of performing an additional analysis that is not directly based on the composition or behavior of the genetic material.
【請求項15】 ディスカバリーデータベース及び分析
データベースを含む、臨床診断、予後又は治療的監視を
提供するためのデータベースシステムにおいて、ディス
カバリーデータベース内にエントリされた第1のデータ
は、この第1のデータのエントリに後続して提供された
診断、予後又は治療監視情報に異なる統計的妥当性が付
与されるか又は前記第1のデータとは異なる形で分析さ
れるように分析データベースを修正する、データベース
システム。
15. In a database system for providing clinical diagnosis, prognosis or therapeutic monitoring, comprising a discovery database and an analytical database, the first data entered in the discovery database is the entry of this first data. A database system that modifies the analysis database such that the diagnostic, prognostic or therapeutic monitoring information provided subsequently is given different statistical validity or is analyzed differently than the first data.
【請求項16】 請求項15に記載のデータベースシス
テムを通してオペレーションを実行する単数又は複数の
汎用コンピュータを含んで成る機械。
16. A machine comprising one or more general purpose computers for performing operations through the database system of claim 15.
【請求項17】 請求項15に記載のデータベースシス
テムの単数又は複数のコンポーネントでプログラミング
されたコンピュータ読取り可能媒体を含んで成る製造
品。
17. An article of manufacture comprising a computer-readable medium programmed with one or more components of the database system of claim 15.
【請求項18】 生理学的症状又は疾病状態を診断する
方法において、 (a) 被験者から遺伝物質を得る段階; (b) 前記遺伝物質の発現パターンを決定する段階; (c) ディスカバリーデータベース及び分析データベ
ースを含む、臨床診断、予後又は治療的監視を提供する
ためのデータベースシステムを使用することによって、
生理学的症状又は疾病状態と発現パターンを相関させる
段階;及び (d) 分析データベースを修正するように前記データ
ベース内に遺伝物質についての情報を取込む段階、 を含んで成る方法。
18. A method for diagnosing a physiological condition or disease state, comprising: (a) obtaining genetic material from a subject; (b) determining an expression pattern of the genetic material; (c) a discovery database and an analytical database. By using a database system for providing clinical diagnosis, prognosis or therapeutic monitoring, including
Correlating the expression pattern with a physiological condition or disease state; and (d) incorporating information about the genetic material in the database so as to modify the database.
【請求項19】 (e) 正常なヒト組織からの正常な
基準遺伝子の分析及び罹患組織からの罹患した基準遺伝
子の分析を生み出すべく、正常な組織からの正常な標本
及び罹患したヒト組織からの罹患した標本について、段
階(a)〜(d)を実施する段階、 (f) データベース内に前記正常基準遺伝子分析及び
罹患基準遺伝子写し画像分析を記憶する段階、 (g) 被験者から被験者標本を入手し、被験者の標本
から段階(a)〜(d)を実施することにより遺伝子分
析を生成する段階;及び (h) データベースに基づいて患者の標本を近似する
基準分析のうちの少なくとも1つを同定するべく、アル
ゴリズムにより駆動されるデバイスで被験者標本の遺伝
子分析を処理する段階、をさらに含んで成る、請求項1
8に記載の方法。
19. (e) A normal specimen from normal tissue and diseased human tissue to produce an analysis of normal reference genes from normal human tissue and diseased reference genes from diseased tissue. Performing steps (a) to (d) on the affected sample, (f) storing the normal reference gene analysis and the affected reference gene copy image analysis in a database, (g) obtaining a subject sample from a subject And generating a genetic analysis by performing steps (a)-(d) from the subject's sample; and (h) identifying at least one of the reference analyzes that approximate the patient sample based on the database. To do so, further comprising the step of processing the genetic analysis of the subject specimen with an algorithm driven device.
The method according to 8.
【請求項20】 段階(d)が連続的に実施される、請
求項18に記載の方法。
20. The method of claim 18, wherein step (d) is performed continuously.
JP2002078680A 2001-03-20 2002-03-20 Method of providing clinical diagnosing service Pending JP2003021630A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US27723701P 2001-03-20 2001-03-20
US60/277237 2001-03-20

Publications (2)

Publication Number Publication Date
JP2003021630A true JP2003021630A (en) 2003-01-24
JP2003021630A5 JP2003021630A5 (en) 2005-09-08

Family

ID=23059987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002078680A Pending JP2003021630A (en) 2001-03-20 2002-03-20 Method of providing clinical diagnosing service

Country Status (10)

Country Link
US (1) US20020179097A1 (en)
EP (1) EP1244047A3 (en)
JP (1) JP2003021630A (en)
KR (1) KR20020075265A (en)
CN (1) CN1385702A (en)
AR (1) AR033055A1 (en)
AU (1) AU784645B2 (en)
BR (1) BR0201823A (en)
CA (1) CA2377213A1 (en)
MX (1) MXPA02003027A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4647589B2 (en) * 2003-04-07 2011-03-09 グラクソ グループ リミテッド Microfluidic system

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002360532A1 (en) * 2001-12-10 2003-06-23 Ardais Corporation Systems and methods for obtaining data correlated patient samples
AU2003264991A1 (en) * 2002-10-01 2004-04-23 Yonsei University Liver cancer forecasting system for early diagnosis and control method thereof
US20040142326A1 (en) * 2002-10-11 2004-07-22 International Business Machines Corporation Method and apparatus for deriving a reference sequence for expressing a group genome
EP1680011A4 (en) * 2003-10-02 2007-11-21 Univ South Florida Determinationof phenotype of cancer and of precancerous tissue
US7788040B2 (en) 2003-12-19 2010-08-31 Siemens Medical Solutions Usa, Inc. System for managing healthcare data including genomic and other patient specific information
US9191215B2 (en) * 2003-12-30 2015-11-17 Entrust, Inc. Method and apparatus for providing authentication using policy-controlled authentication articles and techniques
US8135595B2 (en) 2004-05-14 2012-03-13 H. Lee Moffitt Cancer Center And Research Institute, Inc. Computer systems and methods for providing health care
US20060136143A1 (en) * 2004-12-17 2006-06-22 General Electric Company Personalized genetic-based analysis of medical conditions
US8768629B2 (en) 2009-02-11 2014-07-01 Caris Mpi, Inc. Molecular profiling of tumors
EP3399450A1 (en) 2006-05-18 2018-11-07 Caris MPI, Inc. System and method for determining individualized medical intervention for a disease state
US7844609B2 (en) 2007-03-16 2010-11-30 Expanse Networks, Inc. Attribute combination discovery
US20090043752A1 (en) * 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US20090198733A1 (en) * 2008-02-01 2009-08-06 Microsoft Corporation Healthcare resource locator
WO2009138909A1 (en) * 2008-05-12 2009-11-19 Koninklijke Philips Electronics N.V. A medical analysis system
US7917438B2 (en) * 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US20100076950A1 (en) * 2008-09-10 2010-03-25 Expanse Networks, Inc. Masked Data Service Selection
US20100063830A1 (en) * 2008-09-10 2010-03-11 Expanse Networks, Inc. Masked Data Provider Selection
US8200509B2 (en) * 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US20100070292A1 (en) * 2008-09-10 2010-03-18 Expanse Networks, Inc. Masked Data Transaction Database
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US20100169313A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Item Feedback System
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8255403B2 (en) * 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
US20100169262A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Mobile Device for Pangenetic Web
EP3276526A1 (en) 2008-12-31 2018-01-31 23Andme, Inc. Finding relatives in a database
EP2636003B1 (en) * 2010-11-01 2019-08-14 Koninklijke Philips N.V. In vitro diagnostic testing including automated brokering of royalty payments for proprietary tests
US10559048B2 (en) * 2011-07-13 2020-02-11 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
US9134202B2 (en) * 2012-01-26 2015-09-15 Cryoxtract Instruments, Llc Robotic end effector for frozen aliquotter and methods of taking a frozen aliquot from biological samples
CN105512508B (en) * 2014-09-22 2018-05-15 深圳华大基因研究院 Automatically generate the method and device of genetic test report
KR101795662B1 (en) * 2015-11-19 2017-11-13 연세대학교 산학협력단 Apparatus and Method for Diagnosis of metabolic disease
US10685744B1 (en) 2017-06-30 2020-06-16 Allscripts Software, Llc Computing system for genetic databank application
CN114023403A (en) 2017-11-13 2022-02-08 多发性骨髓瘤研究基金会公司 Comprehensive, molecular, omics, immunotherapy, metabolic, epigenetic and clinical databases

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5840484A (en) * 1992-07-17 1998-11-24 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
AU1837495A (en) * 1994-10-13 1996-05-06 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
EP0805874A4 (en) * 1995-01-27 1998-05-20 Incyte Pharma Inc Computer system storing and analyzing microbiological data
US5876926A (en) * 1996-07-23 1999-03-02 Beecham; James E. Method, apparatus and system for verification of human medical data
US5966711A (en) * 1997-04-15 1999-10-12 Alpha Gene, Inc. Autonomous intelligent agents for the annotation of genomic databases
US6073140A (en) * 1997-07-29 2000-06-06 Acxiom Corporation Method and system for the creation, enhancement and update of remote data using persistent keys
US6024699A (en) * 1998-03-13 2000-02-15 Healthware Corporation Systems, methods and computer program products for monitoring, diagnosing and treating medical conditions of remotely located patients
US6789069B1 (en) * 1998-05-01 2004-09-07 Biowulf Technologies Llc Method for enhancing knowledge discovered from biological data using a learning machine
ATE521952T1 (en) * 1998-05-01 2011-09-15 Health Discovery Corp PRE-PROCESSING AND POST-PROCESSING OF IMPROVED KNOWLEDGE DISCOVERY USING SUPPORT VECTOR MACHINES
JP2002544632A (en) * 1999-05-19 2002-12-24 ホワイトヘッド・インスティテュート・フォー・バイオメディカル・リサーチ Methods for storing, comparing, and displaying results generated by analysis of gene arrays and related database-related systems
US6716579B1 (en) * 1999-06-11 2004-04-06 Narayan Baidya Gene specific arrays, preparation and use

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4647589B2 (en) * 2003-04-07 2011-03-09 グラクソ グループ リミテッド Microfluidic system

Also Published As

Publication number Publication date
KR20020075265A (en) 2002-10-04
EP1244047A2 (en) 2002-09-25
AU2754002A (en) 2002-09-26
EP1244047A3 (en) 2005-06-01
AR033055A1 (en) 2003-12-03
MXPA02003027A (en) 2003-08-20
BR0201823A (en) 2002-12-10
AU784645B2 (en) 2006-05-18
CA2377213A1 (en) 2002-09-20
CN1385702A (en) 2002-12-18
US20020179097A1 (en) 2002-12-05

Similar Documents

Publication Publication Date Title
JP2003021630A (en) Method of providing clinical diagnosing service
US20200395100A1 (en) Population based treatment recommender using cell free dna
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
JP2024016039A (en) An integrated machine learning framework for estimating homologous recombination defects
US20230114581A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
JP5464503B2 (en) Medical analysis system
US20190172582A1 (en) Methods and systems for determining somatic mutation clonality
US20140040264A1 (en) Method for estimation of information flow in biological networks
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
EP2666115A1 (en) Method for processing genomic data
JP2003508853A (en) Artificial intelligence system for gene analysis
JP2007102709A (en) Gene diagnostic marker selection program, device and system executing this program, and gene diagnostic system
JP7041614B2 (en) Multi-level architecture for pattern recognition in biometric data
EP4260340A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
WO2021258026A1 (en) Molecular response and progression detection from circulating cell free dna
Rosati et al. Differential gene expression analysis pipelines and bioinformatic tools for the identification of specific biomarkers: A Review
Quackenbush From ‘omes to biology
US20230289569A1 (en) Non-Transitory Computer Readable Medium, Information Processing Device, Information Processing Method, and Method for Generating Learning Model
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
Thulasi Integrative Computational Analysis of Complex Human Diseases
Quon Probabilistic Models for the Analysis of Gene Expression Profiles
Schaffer et al. Overview and Research Opportunities
Chattopadhyay Systems Approach to Understanding Oral Diseases
Gelfond Bayesian model-based methods for the analysis of DNA microarrays with survival, genetic, and sequence data
Joshi et al. WHOLE GENOME SEQUENCING DATA ANALYSIS APPROACHES IN MODERN RESEARCH

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070416

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070717