JP2007513328A - 上部気道消化管癌の予測 - Google Patents

上部気道消化管癌の予測 Download PDF

Info

Publication number
JP2007513328A
JP2007513328A JP2006539878A JP2006539878A JP2007513328A JP 2007513328 A JP2007513328 A JP 2007513328A JP 2006539878 A JP2006539878 A JP 2006539878A JP 2006539878 A JP2006539878 A JP 2006539878A JP 2007513328 A JP2007513328 A JP 2007513328A
Authority
JP
Japan
Prior art keywords
cancer
spectral weight
spectral
individuals
weight values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006539878A
Other languages
English (en)
Inventor
リー マオ
デイビッド シドランスキ
Original Assignee
リー マオ
デイビッド シドランスキ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by リー マオ, デイビッド シドランスキ filed Critical リー マオ
Publication of JP2007513328A publication Critical patent/JP2007513328A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

質量分析データの分析に基づく癌スクリーニングモデルを用いて、上部気道消化管癌(肺癌および頭頚部癌を含む)を予測することができる。上部気道消化管癌患者から得られたスペクトルウエイト値と、このような癌のハイリスク患者から得られたスペクトルウエイト値とを比較することによって、モデルを作成することができる。予測変数または共変量の値によって、上部気道消化管癌に関連するスペクトルウエイト値が特定される。

Description

発明の分野
本発明は、一般的に、癌の診断に関する。本発明は、より具体的には、質量スペクトルデータに基づいてヒトまたは動物被検体の癌を早期に予測および検出する方法に関する。なお本出願は、2003年11月12日に出願された仮出願第60/519,340号の恩典を主張するものであり、これは参照により本明細書に組み込まれる。
発明の背景
本項で説明するアプローチは遂行可能であったが、必ずしも、以前に考案または遂行されていたアプローチとは限らない。従って、本明細書において特別の定めのない限り、本項で説明するアプローチは、本願の特許請求の範囲に対する先行技術ではなく、本項に含めることによって先行技術であると認められない。
肺癌は、米国およびその他の主要な先進国における第1の癌関連死因である。過去30年にわたって診断法および治療法の開発に大規模な取り組みがなされたのにもかかわらず、診断の5年後に測定される全生存率は低いままである。生存率の低さは、主として、治癒に十分な早期の段階で肺癌を診断する有効な方法が無いことと、進行した段階の肺癌を有する患者の生活の質を十分に引き延ばすレジメが無いことが原因である。現行の診療では、腫瘍が局在期にある時は肺癌患者の15%しか診断されず、この集団の5年生存率は50%と予想されている。腫瘍が局所領域から散らばると、予後(outcome)は極めて不良になる。
頭頚部扁平上皮癌(「HNSCC」)もまた世界的な健康上の重大問題であり、毎年500,000件を超える症例がある。この疾患を有する患者の5年全生存率は50%しかない。
肺癌および頭頚部癌の発症には、発癌物質(一般的に、タバコの煙からの発癌物質)が長期間にわたって上気道消化管に繰り返し導入されることが必要である。発症プロセス(「発癌」)は何年もかかる場合があり、悪性転換および腫瘍進行の基盤である複数の分子異常の蓄積を細胞にもたらす。
遺伝子異常が慢性喫煙者の肺および口腔の初期発癌プロセスにおいて生じ、喫煙を止めた後でも、ある特定の異常が何年も残り得ることを示す証拠が明らかになっている。多くの遺伝子変化および分子変化(例えば、p53腫瘍抑制遺伝子およびK-rasプロトオンコジーンの変異、p16腫瘍抑制遺伝子のプロモーター高度メチル化、ならびに複数の重要な染色体領域におけるヘテロ接合性の消失)がこの疾患の初期段階で頻繁に特定されている。
従って、多くの研究者らは、これらの変化を、肺癌および頭頚部癌の早期検出およびリスク評価におけるバイオマーカーとして使用する可能性を探っている。ヒトゲノムマッピングの完了とハイスループット技術の進歩によって、発癌プロセスにおける分子変化の発見が加速している。現在、癌早期診断のバイオマーカーの大規模な共同発見およびバリデーションを行う、かなりの取り組みがなされている(例えば、米国では国立癌研究所の支援を受けたEarly Detection Research Network(EDRN))。初期の肺癌および頭頚部癌を有する患者の診断における現行の不十分なツールを増強するために、分子マーカーに基づく新規の診断法が開発され、診療に導入されることが期待されている。
cDNAマイクロアレイもまたヒト悪性腫瘍の分子的分類のために調べられており、将来有望な結果を示している。しかしながら、この方法は、十分な悪性細胞を含む適切な生物材料を必要とするので、肺癌、頭頚部癌の早期診断においてほとんど使うことができない。
最近、血清中タンパク質/ペプチドパターン認識が卵巣癌のハイスループット診断に用いられている。この質量分析計に基づく検査は、卵巣癌患者と非卵巣癌患者の予測において極めて高い検出感度および特異性を示した。
最新の知識に基づけば、単一マーカーでは早期肺癌を高感度かつ特異的に診断を行うことができないようである。従って、肺癌の早期診断のための臨床的に受け入れられる感度および特異性を達成するために、2つ以上のバイオマーカーを分析することが必要な場合がある。
前記に基づけば、肺癌、頭頚部癌などの癌を予測および早期診断する改善された方法が明らかに必要とされている。比較的小さな組織試料における化合物のデータ分析に主に基づいた結果から癌を予測または早期診断する方法があることも望ましい。
発明の詳細な説明
質量スペクトルデータに基づいて哺乳動物における癌を検出する方法および装置が説明される。本発明の方法は、ヒトまたは動物被検体における癌の存在を検出するために、正常被検体の質量スペクトルデータと比較して1つまたは複数の分子種の濃度が上昇または低下しているかどうか、被検体の血清または血液からの質量スペクトルデータを分析することによって実施することができる。
説明を目的とした以下の記載では、本発明を完璧に理解するために非常に多くの具体的な詳細が示されている。しかしながら、これらの具体的な詳細がなくても本発明を実施できることが当業者に明らかであろう。他の例では、本発明を必要以上に不明瞭にしないようにするために、周知の構造および装置がブロック線図の形で示される。
以下の大筋に従って、態様を本明細書において説明する。
1.0 概要
2.0 癌を予測する方法および装置
2.1 試料データの作成
2.2 予測モデルの作成
2.3 予測の実施
2.4 実験結果
2.5 予測を回帰問題として示す
3.0 実行メカニズム-コンピュータハードウェアの概要
4.0 拡張および代替
1.0 概要
前述の背景において特定された必要性ならびに以下の説明のために明らかになるであろう他の必要性および目的は本発明において実現される。本発明は、1つの局面において、哺乳動物において肺癌、頭頚部癌を予測する方法を含む。本明細書で使用する「予測する」は、このような癌を診断すること、このような癌の経過を予測すること、およびこのような癌を発症する可能性を予測することを含む。肺癌として、小細胞癌ならびに非小細胞癌(例えば、扁平上皮癌、腺癌、および大細胞癌)が挙げられる。当技術分野において公知の「頭頚部癌」として、頭部および頚部(口、鼻腔、眼、耳、喉頭、咽頭、および頭蓋底を含む)において生じる全ての悪性腫瘍が挙げられる。頭頚部癌の例として、下咽頭癌、喉頭癌、口唇癌、口腔癌、悪性黒色腫、鼻咽頭癌、口腔咽頭癌、副鼻腔癌、鼻腔癌、唾液腺癌、および甲状腺癌が挙げられるが、これに限定されない。
1つの態様によれば、肺、頭部、または頚部の癌に関して既知の病態を有するヒト集団から得られた血清からスペクトル試料データが作成される。試料データは訓練データセットと試験データセットに分けられる。訓練セットから試料データ値のサブセットが選択される。さらに最高スペクトルウエイト値を選択するために、このサブセットに対して特徴抽出が行われる。次いで、試料データ値の選択されたスペクトルウエイトに対して線形判別分析が適用され、これにより、条件付き分布に関連する1つまたは複数の推定パラメータ値が作成される。すなわち、このモデルによって、血清が得られた癌陽性ヒト集団に関連する試料データ値が作成される。推定パラメータ値は、癌陽性ヒト集団の中の1つまたは複数の真の陽性および偽陽性を特定することによって修正される。結果として、試験データにおける各試料または他の任意のスペクトルデータ試料(発癌個体もしくは非発癌個体のいずれかに相当する)を分類するのに使用することができる予測モデルが作成される。
このプロセスの1つの特徴では、データ分析に関数判別分析が2段階で用いられる。特に、癌個体と健常個体を区別する潜在的なプロファイルを特定する訓練目的で、ある試料パネルが用いられる。訓練セットから得られた発見をバリデートする試験目的で、異なる個体から得られた第2のパネルが用いられる。遺伝子1つ1つが指数値として働く遺伝子発現データ分析とは異なり、質量分析計データ分析では、それぞれのスペクトル値は連続している。従って、最適クラス予測のために特定のスペクトル値を有する分子を特定する特徴選択と一緒に、関数の形をした線形判別分析が用いられる。正確な予測は、癌個体と健常個体のパーセントを正しく特定することと定義される。このモデルは試験データに対してバリデートされた後、モデルと新たなデータセットを付き合わせることによって他の集団において癌を予測するのに使用することができる。
例えば、マトリックス支援レーザー脱離イオン化法(「MALDI」)またはマトリックス支援レーザー脱離イオン化法-時間飛行型質量分析(MALDI-TOFMS)を使用すると、肺癌または頭頚部癌の個体および健常個体を示す血清において別個のタンパク質/ペプチドパターンまたは他の分子パターンを特定することができる。強力なコンピュータによる分析ツールと組み合わせると、数百個の試料を処理することができ、診断情報を比較的短時間で得ることができる。本発明はまた、SELDI(surface enhanced laser desorption/ionization)および他の任意の形のMALDIを含む他の形のプロファイリングを含むことも理解される。別の局面において、本発明は、癌個体または癌のリスクのある個体における血中または血清中の濃度が正常個体と比較して増加または減少していると、癌であることが分かる、または癌が予測される、1つまたは複数の特定の分子を含む。他の局面において、本発明は、前記の工程を実施するような構成をしているコンピュータ装置、コンピュータ可読媒体、および搬送波を含む。
本発明の癌予測モデルの決定は以下の実施例によって説明される。このような癌予測モデルは、特定用スペクトルウエイトに対応する癌予測変数スペクトルウエイト値のパターンを含む。特定用スペクトルウエイトは、5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdを含む。上部気道消化管癌(upper aerodigestive tract cancer)の予測モデルは、好ましくは、111kdに対応する癌予測変数スペクトルウエイト値を含む。しかしながら、本発明の予測モデルは、これらの特定用スペクトルウエイトの2個、3個、4個、5個、6個、7個、8個、もしくは9個の任意の組み合わせに対応する癌予測変数スペクトルウエイト値、または10個全てに対応する癌予測変数スペクトルウエイト値を含んでもよい。当業者であれば、ウエイトを測定するのに用いられる特定の計器における固有実験誤差のために、あるモデル(または試験試料)における正確な特定用スペクトルウエイトが5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdからわずかに外れてもよいことを理解するだろう。
本発明の癌予測モデルの作成において用いられる試料データまたは上部気道消化管癌の予測において用いられる試料データは、血清、痰、気管支洗浄試料、または生検試料などの生物学的試料から入手することができる。癌予測モデルの作成において用いられる対照集団は、好ましくは、上部気道消化管癌を発症するリスクが高いが(例えば、ヘビースモーカー)、気道消化管癌を有さないことが臨床的に確かめられている個体を含む。上部気道消化管癌の有無は、一般的に、病歴および身体検査に基づいている。身体検査は、X線、CT、またはMRIスキャン、血液検査、気管支洗浄、および生検などの診断検査を含んでもよい。好ましくは、対照集団の各個体は、上部気道消化管癌のリスクが高いが、上部気道消化管癌を有さない。
2.0 癌を予測する方法および装置
今から、例示的な態様を、図1A、図1B、図2A、および図2Bに関して説明する。図1Aは、癌スクリーニングモデルを作成する方法の例示的な態様の概要を示す流れ図である。図1Bは、図1Aの方法におけるデータおよび関連要素の使用を示すデータ流れ図である。図2Aは、哺乳動物における肺癌、頭頚部癌を予測する方法の例示的な態様の概要を示す流れ図である。図2Bは、図2Aの方法におけるデータおよび関連要素の使用を示すデータ流れ図である。
2.1 試料データの作成
最初に図1Aを見ると、ブロック102において、試料集団の血清からスペクトル試料データが作成される。図1Bに示したように、癌個体および正常個体の両方からなる集団120において、個体1人1人から血清試料122が得られる。血清試料122を質量分析計130にかけて、それぞれの血清試料124のスペクトルウエイト値を得る。
例えば、MALDI-TOFMSを用いて、別個の血清中タンパク質/ペプチドパターンに相当するスペクトル試料データセットを作成する。ある臨床試験では、外科的処置の前に、肺癌もしくは頭頚部癌を有する患者または健常対照から血清を入手する。全ての最終診断は組織病理学によって確認され、全ての対照はヘビースモーカーであったが、臨床症状およびCTスキャン検査に基づいて肺癌の証拠も頭頚部癌の証拠も認められなかった。
質量分析計による評価のために、血清試料のマトリックスを作成することによって、血清を調製した。質量分析計マトリックスは、30%アセトニトリル-1%トリフルオロ酢酸に溶解した50%飽和シナピン酸を含んでいた。血清を0.1%n-オクチルβ3-D-グルコピラノシドで1:1000に希釈した。マトリックス5μlを、384の定められた区画を有する試料プレートの定められた区画1つ1つに入れ、各個体からの血清0.5μlを定められた区画に添加した後に、風乾した。正確なデータ解釈のために、試料と、試料プレート上の試料の位置を記録した。Kratos Analytical Inc.製のAxima-CFR MALDI-TOF質量分析計を使用した。この計器は以下のように設定した:チューナーモード、直線;質量範囲、0〜180,000;レーザー出力、90;プロファイル、300;ショット/スポット、5。質量分析計の出力を試料データセットの形でコンピュータ記憶装置に保存した。
2.2 予測モデルの作成
本明細書に記載のプロセスの用途の1つは、スペクトルデータ値を、正常個体と、肺、頭部、または頚部の扁平上皮癌(「SCC」)を発症する個体を表す複数の二値予後(binary outcome)の1つに分類することである。数学的分析のために、スペクトルデータ値はXで表され、予後はYで表される。本明細書のプロセスは、スペクトルデータ値を用いて、これらの予後を予測しようとする。それぞれのスペクトルXは、一般的に、Pで表される多数の値を含んでいる。例えば、ある検査では、スペクトルは、それぞれ個々のスペクトルのP=284,027のスペクトルデータ値で数値化された。
任意に、個々のスペクトルの100番ごとにくる値のみを考慮することによって、データを単純化することができる。これによって、最終結果に影響を及ぼすことなく、複雑さと計算時間がかなり減少する。
本明細書のプロセスは、予後値、スペクトル値、およびその分布が無作為プロセスから生じたものであることを前提とする。この無作為は、抽出方式、測定誤差、および研究されている天然化合物が本質的に無作為であるという理由から出たものであると考えられる。この前提に基づくと、スペクトル値は予測変数または共変量と考えることができる。個々のスペクトル値(または「スペクトルウエイト値」)はX1、...、Xpで表される。
スペクトル値は、平均-分散依存性を小さくするために対数変換することができる。質量スペクトルを用いて予後を予測するために、対数変換されたスペクトルは、例えば、X=X1、...X2840で表される予測変数または共変量と呼ぶことができる。
本明細書のプロセスはモデルのフィッティングおよびパラメータの解釈に関するものではなく、予後の予測に関するものである。従って、本明細書のプロセスは、共変量を、正常形態が予測される人およびSCCが予測される人に分けようとする。後者の共変量は「予測変数」または「分類子(classifier)」と呼ばれる。
あるアプローチでは、予後と共変量の両方が既知のデータに基づいて、分類子を特定または訓練することができた。しかしながら、別のアプローチでは、共変量の数が予後の数よりかなり多く、従って、訓練データを完璧に予測する分類子を構築することができる。
分類子がどのくらい良好に機能するか評価するために、クロスバリデーションを使用することができる。従って、ブロック104において、試料データセットが訓練データセットと試験データセットに分割される。図1Bに示したように、各血清試料124のスペクトルウエイト値は訓練データセット128と試験データセット132に分割される。ある検査では、データの2/3が訓練データセットとして無作為に選択され、もう一方の1/3が試験データセットを含み、本明細書の手順が200回繰り返された。
ブロック106では、訓練セットの各試料から試料スペクトルデータ値のサブセットが選択される。図1Bでは、サブセット選択操作を行うことで、スペクトルウエイト値のサブセット134が作成される。例えば、前記のように、それぞれ個々の試料が284,027のスペクトルデータ値を含むある検査では、個々のスペクトルの100番ごとにくる値のみが考慮された。このアプローチは計算時間をかなり短くし、予測結果の精度に影響を及ぼすと考えられていない。
ブロック108では、各試料において考慮されるものの中から最高スペクトルウエイト値を選択するために、特徴抽出が行われる。図1Bでは、特徴抽出によって、最高スペクトルウエイト値136が得られる。このアプローチは共変量の数を減らし、後の分析段階からの結果を改善する。ある検査では、特徴抽出は、訓練データを用いたt-統計量の計算、等価な群間分散/群内分散比(across-group-variance/within-group-variance ratio)の使用、および正常スペクトルウエイト値とSCCスペクトルウエイト値の比較を伴った。次いで、最も高いt-統計量を有する上位45位のスペクトルウエイト値が用いられた。
具体的には、338の試料および2840の予測変数を用いて、t検定と同等の簡単な特徴選択手順が用いられた。この手順は、群間分散/群内分散比および正常値と癌値の比較に基づいている。全てのスペクトル値は順位付けされ、線形判別分析(LDA)のために上位45位が選択された。
ブロック110では、試料データ値の選択されたスペクトルウエイト値に線形判別分析が適用される。結果として、図1Bの予測モデル138により示されるように、条件付き分布に関連する1つまたは複数の推定パラメータ値を含む予測モデルが作成される。すなわち、このモデルによって、血清が得られた癌陽性ヒト集団に関連する試料データ値が作成される。
線形判別分析(LDA)は、多くの市販の統計解析ソフトウェアアプリケーションにおいて使用することができる分類手順である。例えば、RおよびS-Plus ソフトウェアパッケージはLDAを備えている。LDAは、Ripley B. D. (1996) Pattern Recognition and Neural Networks, Cambridge, U. K. Cambridge University Pressにおいて説明されている。Golub et al. (1999)「Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring」Science 286, 531-537に記載のように、マイクロアレイ技術を用いた分類問題において、LDAと同様の方法が用いられている。さらに、Dudoit, S., Fridlyand, and Speed, T. P. (2002)「Comparison of discrimination methods for the classification of tumors using gene expression data」Journal of the American Statistical Association 97,77-87では、LDAは、マイクロアレイデータの状況において、より複雑な方法より性能が優れていることが示されている。
1つの態様において、ブロック110におけるLDAの使用は、Yの条件であるXが多変量正規分布に従うこと前提としている。従って、ある特定の値のXに対するYを予測するために、本明細書のプロセスは、その値のYを与えるX観測値の事後確率を最大にする、Yの値を見つけ出す。
任意に、ブロック112では、推定パラメータ値は、推定パラメータ値の中の1つまたは複数の真の陽性および偽陽性を特定することによって修正される。
他のLDAの適用において、一般的に、事前確率の値がYのそれぞれの値に割り当てられる。事前確率は事後確率に直接影響を及ぼすので、事前確率を用いて、偽陽性率を調節することができる。それぞれの条件付き分布に関連する平均および共分散行列パラメータを推定するのに、訓練データが用いられる。
2.3 予測の実施
今から、図2Aを参照して、図1Aのプロセスにおいて作成されたモデルを用いて予測を実施するプロセスを説明する。
ブロック202では、例えば、コンピュータ記憶装置に保存したデータ値にアクセスすることによって、試験データセットにアクセスする。ブロック204では、第1の試料値にアクセスする。試料値は、一般的に、多数の個々のスペクトル値を含んでいる。
ブロック206では、第1の試料値が、図1Aのプロセスにおいて開発された癌予測モデルからの推定パラメータ値と一致する任意のスペクトルウエイト値を含むかどうか確かめる試験が行われる。含まなければ、コントロールはブロック208に移動するが、ここでは、試料は正常個体に関連しているとみなされる。一致スペクトルウエイト値が見出されれば、ブロック210において、試料は、癌を発症する個体とみなされる。一般的に、ある特定のスペクトルピークの一致スペクトルウエイト値は、癌予測モデルピークの25%またはそれ以上の範囲内であり、より好ましくは20%またはそれ以上の範囲内であり、さらにより好ましくは15%またはそれ以上の範囲内であり、さらにより好ましくは10%またはそれ以上の範囲内であり、最も好ましくは5%またはそれ以上の範囲内である。前記の方法は、少なくとも1つのピーク、組み合わせて評価された2、3、4、5、7、10、15、20、25、30、もしくは50、またはそれ以上のピークに対して適用することができる。ブロック208およびブロック210は、個体に相当するレコードに関連して、データベースに適切なデータフラグを保存することを伴ってもよい。当業者であれば、ある特定のスペクトルピークの一致スペクトルウエイト値が、癌予測モデルピークのスペクトルウエイト値に近づくにつれて、正しい結果の尤度が高くなることを理解するであろう。本明細書において列挙したパーセントは、うまくいった試験および分析に基づいて有用であることが分かっている基準値である。しかしながら、望ましい誤差範囲に応じて、それより低いまたは高いパーセントを代わりに使用することができる。同様に、前記の方法を1つのピークまたは多くのピークに適用することも本発明の範囲内である。
または、個体が癌を発症するかどうか確かめるために、ブロック206の試料の質量スペクトルデータと、非癌(または正常)予測モデルを比較することができる。不一致スペクトル値が見つかった場合、ブロック210において、試料は癌を発症する個体であるとみなされる。一般的に、ある特定のスペクトルピークの不一致スペクトル値は、非癌予測モデルピークのピークより50%以上高く、より好ましくは100%以上高く、さらにより好ましくは少なくとも150%以上高い。これらのピークは、前の段落で説明したように単独でもしくは組み合わせて評価されてもよく、異なるパーセントの範囲内で評価されてもよい。本発明はまた、本明細書に記載の方法を用いて個体を排除することによって、個体が癌を有さないかどうか、または癌を発症しないかどうか確かめることも意図する。
ブロック212では、さらに多くの試料が試験に使用できるかどうか確かめる試験が行われる。さらに多くの試料があれば、コントロールはブロック204に移動し、次の試料に対してプロセスが繰り返される。試料がなければ、コントロールはブロック214に移動し、出力結果が出される。出力結果を出すことは、結果の1つまたは複数のレポート、グラフ、チャート、または他のレコードを作成することを含んでもよい。出力結果を出すことはまた、メモリー、データベース、または他のコンピュータ記憶装置に結果を保存することを含んでもよい。
図2Aのプロセスは、予測モデルと、個体の病態が既知である試験データセットを比較することによって、予測モデルを改善および修正するのに使用することができる。図1Bに示したように、予測モデル138は試験データセット132と比較され、修正されて、最終予測モデル140が作成される。次いで、図2Aのプロセスは、病態が未知の集団における癌活性を診断または予測するのに使用することができる。または、図2Aのプロセスは、試験データセットに基づいて予測モデルを精巧にすることなく、病態が未知の集団における癌活性を診断または予測するのに用いられてもよい。
次に図2Bを見ると、個体病態が未知である集団150の各個体から血清試料152が得られる。血清試料152は前記のように質量分析計130にかけられ、それぞれの血清試料154のスペクトルウエイト値が作成される。図2Aのブロック204〜210および214に関して述べたようにパターンマッチングを用いて、それぞれの血清試料154のスペクトルウエイト値に最終予測モデル140が適用され、ブロック156に示したように、個体が癌を有するかどうか、または癌を発症するかどうかが診断または予測される。
LDAの特異性および感度は、例えば、簡単な確率モデルを用いて変更することができる。予測変数(X)は、二値予後(Y)の条件付き多変量正規分布に従うことを前提にすることができる。ある特定の値のXに対するYを予測するために、Yの値が与えられた場合、観測値Xの事後確率を最大にする値のYを求めることができる。それぞれの値のYの事前確率を割り当て、感度および特異性を調節するのに使用することができる。
例えば、事前確率が0とすると、偽陽性も真の陽性も存在しない。事前確率が1とすると、偽陽性率と真の陽性率は両方とも100%である。それぞれの条件付き分布に関連する平均および共分散行列パラメータを推定するのに、訓練データを使用することができる。LDAを使用すると、感度と特異性のバランスに直接影響を及ぼすチューニングパラメータ(tuning parameter)を設定することができる。次いで、ある範囲のチューニングパラメータに対するクロスバリデーション結果を用いて、受信者動作特性(ROC)曲線を構築することができる。
2.4 実験結果
肺癌または頭頚部癌を有する191人の患者と143人の対照被験者からなる集団を選択した。対照集団の中には、一般的な集団で見られる頻度より高い頻度で喫煙個体または飲酒個体が含まれていた。希釈した血清試料を、直線モードで操作したMALDI質量分析にかけ、0〜180kdのデータを得た。Vansteenkiste, J. F., Eur Respir J Suppl, 34 :S115-121 (2001)。x軸に沿った0〜180kdの連続曲線としてデータを処理することによって、質量スペクトル全体に沿った点から情報を抽出した。LDAに使用するのに好ましい数のスペクトル特徴を、ピーク高さおよび患者と対照被験者との間で最も異なるように見えたピークに基づいて選択した。Fisher, RA, Ann Eugen, 7: 179-88 (1936)参照。P(特徴の数)のそれぞれの値について、前記のクロスバリデーションを用いて得られたROC曲線下の面積を計算した。これによって、曲線下面積(y軸)と共変量の数(x軸)の関数が得られた。ROC曲線下の面積はROC曲線の代表的な1数要約(one-number summary)である。
LDAを使用すると、感度と特異性のバランスに直接影響を及ぼすチューニングパラメータを設定することができる。Venables, WN,「Modem Applied Statistics」(4th Ed.,NY), Springer (2002)参照。従って、ある範囲のチューニングパラメータに対するクロスバリデーション結果を用いて、受信者動作特性(ROC)曲線を構築することができる。「P」値は200回のシミュレーションに基づいて推定した。
偽陽性率および真の陽性率の平均は、200回のシミュレーションにわたって正しい判定および間違った判定がなされた回数を考慮することによって得られた。「R」の一般線形法関数(general linear methods function)を用いて、これらの率を、性別、年齢、疾患段階、喫煙歴、および飲酒歴に基づいて異なる群の間で比較した。Ihaka and Gentleman, Graph Stat, 5: 299-314 (1996)参照。
高い特異性のために、10%までの偽陽性率の曲線下面積を考えた。これらの面積を、LDAによって用いられた特徴の数に対してプロットした。ROC曲線下面積の最大値は、45の特徴を使用した時に得られた。図3参照。従って、LDAの予測変数として、t検定の絶対値による順位付けにおいて上位45位のスペクトルウエイトを選択する特徴選択手順を定義した。
次に、この手順を訓練するためにデータの2/3を選択し、この手順を試験するためにもう一方の1/3を選択した。試験セットのみで偽陽性率および真の陽性率を考えることで、試験セットにおける率の平均から予測手段が得られた。
前記のように、試験セットの予後を、無作為に選択したデータ分割に基づいて試験セットについて予測した。予測された予後が数学的アーティファクトの結果でないことを確実にするために、Yの予後を無作為に置換した後に、前記の手順を200回繰り返した。各モデルの特異性および感度を、ある範囲のカットオフ全体にわたって計算した。200回の置換のそれぞれについてROC曲線を作成し、ROC曲線を平均した。図4参照。それぞれの偽陽性率に関連する真の陽性率を平均することによって、平均ROC曲線を算出した。
特異性90%で感度70%の平均予後では、200回の置換は帰無仮説と一度も交わらなかった(P=.01、95%信頼区間=0.00〜0.02)。これらのROC曲線は、モデルを作成したデータとは独立したデータに対して常に計算されたので、実際に予想されるものを反映し、この予測モデルが帰無仮説より統計学的に有意に優れていることを証明している。
図5は、頭頚部癌患者および対照被験者の平均スペクトルの概要である。一般的に、癌患者の血清は、対照被験者の血清より総合的なタンパク質を含有していた。この図の下の部分は個々の点のヒストグラム分布であり、200回の無作為データ分割の間に点が特徴として現れた回数を示している。最も頻繁に現れる点は、頭頚部癌試料においてピークが消失するように見えた位置に対応している。約111kdにある特定のピークの1つは、200回全てのシミュレーションにおいて、症例患者の血清と対照被験者の血清の間で違いがあった。本発明の分析において一般的に有用な他のピークは、約5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、および64kdである。このようなピークは、癌、特に、本明細書に記載のような上部気道消化管癌(例えば、頭頚部癌または肺癌)の血清マーカーである分子に相当する。Srinivas et al., Clin. Chem. 48, 1160-69 (2002);Petricoin et al., Nat. Rev. Drug Discov. 1, 683-95 (2002); Pardanani et al., Mayo Clin.Proc. 7,1185-96 (2002)参照。
本発明は、被検体の血清または血液から質量スペクトルデータを作成し、このデータと、頭部、頚部、または肺の癌を有する1つまたは複数の被検体から作成されたデータを一致させることによって、被検体に頭部、頚部、または肺の癌があると診断することを提供する。「一致」は、1つまたは複数のピークを用いて行われる。ピークの一致は前記のように行われる。好ましくは、2個以上のピークの一致が行われ、より好ましくは、3個、4個、5個、6個、7個、8個、9個、もしくは10個またはそれ以上のピークの一致が行われる。本発明はまた、被検体の血液または血清中の1種類または複数のタンパク質を特定することによって、被検体の頭部、頚部、または肺の癌を診断することを提供する。タンパク質は、一般的に、特定用スペクトルウエイト(すなわち、111kd、5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、または64kd)の2%以内、より好ましくは1.5%以内、さらにより好ましくは1%以内、さらにより好ましくは0.5%以内である。好ましくは、述べられたパラメータの範囲内で、2種類以上のタンパク質が特定され、より好ましくは、3種類、5種類、7種類、もしくは10種類またはそれ以上のタンパク質が特定される。被検体を診断する前記の方法はまた、以前に診断された被検体の再発のモニタリングに適用される。頭部および頚部の症例と健常対照を対象にして開発され、感度73%および特異性90%の最適カットオフを使用した本明細書に記載のモデルを、肺癌患者に適用した。同じ実例検査のために、表1は、各診断のパーセント感度と実際の症例の数を示している。
Figure 2007513328
および他の炎症疾患
**2症例の小細胞癌、1症例のリンパ腫、および1症例のカルチノイド
表1の診断の基本的な組織学的多様性と、モデルが頭部および頚部の症例から開発されたことを考えると、予測の感度は首尾よいものであった。具体的には、偽陽性率が10%の時、肺SCCの感度は52%であり、肺腺癌の感度は34%であり、大細胞癌の感度は40%であった。さらに、急性肺炎または他の肺炎症症状を有するが、癌を有さない7人の個体に本発明のモデルを適用した時には、全員陰性と判定された。
従って、本発明は、ある特定の共存症が偽陽性率を高めないことを示している。さらに、頭頚部癌集団でも肺癌集団でも、疾患段階、人種、民族、性別、または喫煙歴に基づいて予測の違いは見られなかった。
2.5 予測を回帰問題として表す
本明細書のアプローチをさらに理解するために、本明細書において表された予測問題を回帰問題として表すことができる。回帰の考えでは、この問題は、共変量Xjが観測される場合のYの期待値を推定することである。統計的な表記では、回帰問題は、
μ(Y|X1,...X?)=E[Y|X1,...,X?]
で表される。従って、本明細書のアプローチの目的は、観測データを用いて、yiおよびxij (i=1、...、Nおよびj=1、...、?)で表される、μ(Y|X1,...X?)を推定することである。
前記問題の解決では、共変量が予後より多いので、ロジスティック回帰の通常のアプローチは適切でない。結果として得られるフィットは完全な予測を生じるが、数学的アーティファクトとして生じるのにすぎない。さらに、ロジスティックスケール線形関係の前提を正当化する科学的知識がない。最後に、この問題において、正確な予測はモデルパラメータの解釈より重要であるので、一般的な線形回帰モデルには利点がない。パラメータの解釈可能性(interpretability)にかかわらず、予後を確実に予測することができる手順が有用であるとみなされる。従って、本明細書に記載の計算プロセスは分類法として最適であると考えられ、ここでは、スペクトルが与えられた場合にYを確実に予測することができるプロセスが捜し求められる。
3.0 実行メカニズム-コンピュータハードウェアの概要
図6は、本発明の1つの態様を実行することができるコンピュータシステム500を示すブロック線図である。コンピュータシステム500は、バス502または情報を通信するための他の通信機構、およびバス502と連結している、情報を処理するためのプロセッサ504を備える。コンピュータシステム500はまた、バス502と連結している、プロセッサ504によって実行される情報および命令を保存するためのメインメモリー506(例えば、ランダムアクセスメモリー(「RAM」)または他の動的記憶装置)を備える。メインメモリー506はまた、プロセッサ504によって実行される命令を実行する間に一時変数または他の中間情報を保存するのに使用することができる。コンピュータシステム500は、さらに、バス502と連結している、プロセッサ504用の静的情報および命令を保存するための読み出し専用メモリー(「ROM」)508または他の静的記憶装置を備える。記憶装置510(例えば、磁気ディスク、光ディスク、固体記憶装置など)が情報および命令を保存するために設けられ、バス502に連結される。
コンピュータシステム500は、バス502を介して、情報をコンピュータユーザーに表示するためのディスプレイ512(例えば、ブラウン管(「CRT」)、液晶ディスプレイ(「LCD」)、プラズマディスプレイ、テレビなど)に連結されてもよい。情報およびコマンド選択をプロセッサ504に通信するための入力装置514(英数字キーおよび他のキーを含む)がバス502が連結される。方向の情報およびコマンド選択をプロセッサ504に通信し、ディスプレイ512上のカーソル移動をコントロールするための別のタイプのユーザー入力装置がカーソルコントロール516(例えば、マウス、トラックボール、ペン、またはカーソル方向キー)である。この入力装置は、一般的に、2つの軸(第1の軸(例えば、x)および第2の軸(例えば、y))において二自由度を有し、これにより平面上での位置を特定することができる。
本発明は、頭部、頚部、および肺の癌を予測するためのコンピュータシステム500の使用に関する。本発明の1つの態様によれば、頭部、頚部、および肺の癌の予測は、メインメモリー506に含まれる1つまたは複数の命令の1つまたは複数のシーケンスを実行するプロセッサ504に応答してコンピュータシステム500によって行われる。このような命令は、記憶装置510などの別のコンピュータ可読媒体からメインメモリー506に読み込まれてもよい。メインメモリー506に含まれる命令のシーケンスが実行されると、プロセッサ504は本明細書に記載のプロセス工程を行う。別の態様では、本発明を実施するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。従って、本発明の態様は、ハードウェア回路とソフトウェアのどの組み合わせにも限定されない。
本明細書で使用する用語「コンピュータ可読媒体」は、実行のためにプロセッサ504へ命令を出すことに関係する任意の媒体を意味する。このような媒体は多くの形をとってもよく、不揮発性媒体、揮発性媒体、および伝送媒体を含むが、これらに限定されない。不揮発性媒体として、例えば、光ディスクまたは磁気ディスク、固体記憶装置など(例えば、記憶装置510)が挙げられる。揮発性媒体として、動的記憶装置(例えば、メインメモリー506)が挙げられる。伝送媒体として、同軸ケーブル、銅線および光ファイバー(バス502を備えるワイヤを含む)が挙げられる。伝送媒体はまた、音波または光波(例えば、電波および赤外線データ通信の間に発生する波)の形をとってもよい。
一般的な形のコンピュータ可読媒体として、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは他の任意の磁気媒体、CD-ROM、他の任意の光学媒体、固体記憶装置、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的媒体、RAM、PROM、およびEPROM、FLASH-EPROM、他の任意のメモリーチップもしくはカートリッジ、以下で説明する搬送波、またはコンピュータが読み取ることができる他の任意の媒体が挙げられる。実行のために1つまたは複数の命令の1つまたは複数のシーケンスをプロセッサ504に搬送する際に様々な形のコンピュータ可読媒体が関与してもよい。
コンピュータシステム500はまた、バス502に連結している通信インターフェイス518を備えてもよい。通信インターフェイス518は、ローカルネットワーク522と接続しているネットワークリンク520との双方向データ通信をつなぐ。例えば、通信インターフェイス518は、対応するタイプの電話回線へデータ通信を接続する総合デジタル通信網(「ISDN」)カードまたはモデムでもよい。別の例として、通信インターフェイス518は、互換性のあるローカルエリアネットワーク(「LAN」)または広域ネットワーク(「WAN」)(例えば、インターネット)へデータ通信を接続するネットワークカード(例えば、Ethernetカード)でもよい。ワイヤレスリンクも実施することができる。このようなどの実施でも、通信インターフェイス518は、様々なタイプの情報であるデジタルデータストリームを搬送する電気信号、電磁気信号、または光信号を送受信する。
ネットワークリンク520は、一般的に、1つまたは複数のネットワークを介してデータ通信を他のデータ装置に送る。例えば、ネットワークリンク520は、ローカルネットワーク522とホストコンピュータ524とを接続してもよく、または、インターネットサービスプロバイダ(「ISP」)が運営しているデータ設備とを接続してもよい。次に、ISPは、世界パケットデータ通信ネットワーク(現在、「インターネット」528と一般に知られている)を介したデータ通信サービスを提供している。ローカルネットワーク522およびインターネット528は両方とも、デジタルデータストリームを搬送する電気信号、電磁気信号、または光信号を利用している。様々なネットワークを通る信号、ならびにネットワークリンク520上の信号および通信インターフェイス518(コンピュータシステム500へ、およびコンピュータシステム500からデジタルデータを搬送する)を通る信号は、情報を運ぶ搬送波の例示的な形である。
コンピュータシステム500は、ネットワーク、ネットワークリンク520、および通信インターフェイス518を介してメッセージを送信し、データ(プログラムコードを含む)を受信することができる。インターネットを例にとると、サーバー530は、インターネット528、ホストコンピュータ524、ローカルネットワーク522、および通信インターフェイス518を介して、アプリケーションプログラムの要求コードを伝送することができる。本発明によれば、このようなダウンロードされたアプリケーションは、本明細書に記載のように頭部、頚部、および肺の癌を予測する。
受信コードは受信時にプロセッサ504によって実行されてもよく、および/または後で実行されるために記憶装置510もしくは他の有形のコンピュータ可読媒体(例えば、不揮発性記憶装置)に保存されてもよい。このように、コンピュータシステム500は、無形のコンピュータ可読媒体(例えば、搬送波、変調データ信号、または他の伝搬搬送信号)の形でアプリケーションコードおよび/またはデータを取得してもよい。
4.0 拡張および代替
前記の明細書において、本発明は、その特定の態様および実施例を参照して説明された。しかしながら、本発明のより広い精神および範囲から逸脱することなく、本発明に様々な修正および変更を加えることが可能なことは明らかであろう。従って、明細書および図面は、限定的な意味ではなく例示的な意味で考慮されなければならない。
本明細書において引用された参考文献は全て、その全体が参照として本明細書に組み入れられる。
本発明は、添付の図面の図において例示として図示され、限定として図示されない。
図1Aは、癌スクリーニングモデルを作成するための方法の1つの態様の概要を示す流れ図である。図1Bは、図1Aに図示した方法におけるデータおよび関連要素の使用を示すデータ流れ図である。 図2Aは、哺乳動物における肺癌、頭頚部癌を予測する方法の1つの態様の概要を示す流れ図である。図2Bは、図2Aに図示した方法におけるデータおよび関連要素の使用を示すデータ流れ図である。 線形判別分析(LDA)において用いられた特徴の数 (P)に対してプロットした0〜1の偽陽性率の受信者動作特性(ROC)曲線下の面積(実線)と、0〜0.10の偽陽性率のROC曲線下の面積(破線)を示す。垂直線は、それぞれの曲線の最大出現を示す。データは、それぞれのP値の全ての頭頚部癌患者を含む。ROC曲線下の面積は、本明細書に記載のクロスバリデーション法を用いて計算した。 観測データの平均ROC曲線(実線)および帰無仮説の平均ROC曲線(破線)を示す。太い破線の対角線は、帰無仮説の下での期待ROC曲線を示している。ここで、XおよびYは独立しており、スペクトルにおいて予後に関する情報はない。灰色の破線はヌル置換(null permutation)を示し、灰色の実線はスペクトルデータ置換を示す。曲線上に示した数値は、それぞれの黒色の正方形によって表され、本明細書に記載のクロスバリデーション法によって作成される特異性および感度を生じた、LDAチューニングパラメータの値を示している。 症例患者の平均質量スペクトル(実線)と対照被験者の平均質量スペクトル(破線)との違いを示している。平均スペクトルは、99人の頭頚部癌患者および143人の対照被験者から得られた。データが訓練セットおよび試験セットに無作為に200回分割される間に特徴が選択された頻度を下パネルに示した。y軸の範囲(0%〜100%)は、対照被験者ではなく症例患者において生じたスペクトルピークの範囲である。 本発明の例示的な態様に従って使用することができるハードウェア環境のブロック線図を示す。

Claims (44)

  1. 癌スクリーニングモデルを保存するためのデータ構造が保存されているコンピュータ可読媒体であって、癌スクリーニングモデルが、5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdからなる群より選択される複数の特定用スペクトルウエイトに対応する癌予測変数スペクトルウエイト値のパターンを含み、データ構造が、複数のデータフィールドを含み、各データフィールドが、特定用スペクトルウエイトに対応するスペクトルウエイト値を保存する、コンピュータ可読媒体。
  2. 保存されているスペクトルウエイト値の少なくとも1つが111kdの特定用スペクトルウエイトに対応する、請求項1記載のコンピュータ可読媒体。
  3. データ構造が5つのデータフィールドを含む、請求項1記載のコンピュータ可読媒体。
  4. データ構造が7つのデータフィールドを含む、請求項1記載のコンピュータ可読媒体。
  5. 複数のデータフィールドが、
    5kdに対応する第1のスペクトルウエイト値を保存する第1のデータフィールド;
    10kdに対応する第2のスペクトルウエイト値を保存する第2のデータフィールド;
    12kdに対応する第3のスペクトルウエイト値を保存する第3のデータフィールド;
    15kdに対応する第4のスペクトルウエイト値を保存する第4のデータフィールド;
    20kdに対応する第5のスペクトルウエイト値を保存する第5のデータフィールド;
    45kdに対応する第6のスペクトルウエイト値を保存する第6のデータフィールド;
    47kdに対応する第7のスペクトルウエイト値を保存する第7のデータフィールド;
    54kdに対応する第8のスペクトルウエイト値を保存する第8のデータフィールド;
    64kdに対応する第9のスペクトルウエイト値を保存する第9のデータフィールド;および
    111kdに対応する第10のスペクトルウエイト値を保存する第10のデータフィールド
    を含む、請求項1記載のコンピュータ可読媒体。
  6. 上部気道消化管癌(upper aerodigestive tract cancer)を予測するための癌スクリーニングモデルを作成する方法であって、以下の工程を含む方法:
    (a)第1の個体集団に由来する生物学的試料から得られたスペクトルウエイト値の第1のセットと、第2の個体集団に由来する生物学的試料から得られたスペクトルウエイト値の第2のセットとを比較する工程であって、
    第1の集団の個体は、上部気道消化管癌を発症するリスクが高いが、上部気道消化管癌を有さないことが臨床的に確かめられており、かつ、
    第2の集団の個体は、上部気道消化管癌を有することが臨床的に確かめられている、工程;ならびに
    (b)工程(a)に基づいて、第1の集団の個体と第2の集団の個体を区別しかつ5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdからなる群より選択される特定用スペクトルウエイトに対応する複数の癌予測変数スペクトルウエイト値のパターンを含む、癌スクリーニングモデルを作成する工程。
  7. 第2の集団の個体が、肺癌を有することが臨床的に確かめられている、請求項6記載の方法。
  8. 肺癌が小細胞癌を含む、請求項7記載の方法。
  9. 肺癌が非小細胞癌を含む、請求項7記載の方法。
  10. 非小細胞癌が扁平上皮癌を含む、請求項9記載の方法。
  11. 非小細胞癌が腺癌を含む、請求項9記載の方法。
  12. 非小細胞癌が大細胞癌を含む、請求項9記載の方法。
  13. 第2の集団の個体が頭頚部癌を有することが臨床的に確かめられている、請求項6記載の方法。
  14. 頭頚部癌が、下咽頭癌、喉頭癌、口唇癌、口腔癌、悪性黒色腫、鼻咽頭癌、口腔咽頭癌、副鼻腔癌、鼻腔癌、唾液腺癌、および甲状腺癌からなる群より選択される、請求項13記載の方法。
  15. 生物学的試料が血清を含む、請求項6記載の方法。
  16. 生物学的試料が気管支洗浄試料を含む、請求項6記載の方法。
  17. 生物学的試料が痰を含む、請求項6記載の方法。
  18. 生物学的試料が生検試料を含む、請求項6記載の方法。
  19. スペクトルウエイト値の第1のセットを作成する工程をさらに含む、請求項6記載の方法。
  20. スペクトルウエイト値の第2のセットを作成する工程をさらに含む、請求項6記載の方法。
  21. スペクトルウエイト値の第1のセットおよび第2のセットを作成する工程をさらに含む、請求項6記載の方法。
  22. 上部気道消化管癌の有無の確認が病歴および身体検査に基づく、請求項6記載の方法。
  23. 身体検査が診断検査を含む、請求項22記載の方法。
  24. 個体における上部気道消化管癌の予測に用いられるデータを保存しているコンピュータ可読媒体製品であって、以下の工程を含む方法によって製造される、コンピュータ可読媒体製品:
    (a)第1の個体集団に由来する生物学的試料から得られたスペクトルウエイト値の第1のセットと、第2の個体集団に由来する生物学的試料から得られたスペクトルウエイト値の第2のセットとを比較する工程であって、
    第1の集団の個体は、上部気道消化管癌を発症するリスクが高いが、上部気道消化管癌を有さないことが臨床的に確かめられており、かつ、
    第2の集団の個体は、上部気道消化管癌を有することが臨床的に確かめられている、工程;
    (b)工程(a)に基づいて、第1の集団の個体と第2の集団の個体を区別しかつ5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdからなる群より選択される特定用スペクトルウエイトに対応する複数の癌予測変数スペクトルウエイト値のパターンを含む、癌スクリーニングモデルを作成する工程;ならびに
    (c)癌スクリーニングモデルに対応する情報をコンピュータ可読媒体に保存する工程。
  25. 個体における上部気道消化管癌を予測する方法であって、以下の工程を含む方法:
    (a)個体に由来する生物学的試料から得られた試験スペクトルウエイト値と、5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdからなる群より選択される特定用スペクトルウエイトに対応する複数の癌予測変数スペクトルウエイト値を含む癌スクリーニングモデルにおける癌予測変数スペクトルウエイト値とを比較する工程;ならびに
    (b)複数の試験スペクトルウエイト値が、その対応する癌予測変数スペクトルウエイト値の25%またはそれ以上の範囲内であれば、個体を、上部気道消化管癌を有するとまたはその発症の可能性が高いと特定する工程。
  26. 複数の癌予測変数スペクトルウエイト値の少なくとも1つが111kdの特定用スペクトルウエイト値に対応する、請求項25記載の方法。
  27. 癌スクリーニングモデルが5つのスペクトルウエイト値を含む、請求項25記載の方法。
  28. 癌スクリーニングモデルが7つのスペクトルウエイト値を含む、請求項25記載の方法。
  29. 癌スクリーニングモデルが10つのスペクトルウエイト値を含む、請求項25記載の方法。
  30. 複数の試験スペクトルウエイト値が、その対応する癌予測変数スペクトルウエイト値の20%またはそれ以上の範囲内である、請求項25記載の方法。
  31. 複数の試験スペクトルウエイト値が、その対応する癌予測変数スペクトルウエイト値の15%またはそれ以上の範囲内である、請求項25記載の方法。
  32. 複数の試験スペクトルウエイト値が、その対応する癌予測変数スペクトルウエイト値の10%またはそれ以上の範囲内である、請求項25記載の方法。
  33. 複数の試験スペクトルウエイト値が、その対応する癌予測変数スペクトルウエイト値の5%またはそれ以上の範囲内である、請求項25記載の方法。
  34. 生物学的試料から試験スペクトルウエイト値を得る工程をさらに含む、請求項25記載の方法。
  35. 生物学的試料が血清を含む、請求項25記載の方法。
  36. 生物学的試料が痰を含む、請求項25記載の方法。
  37. 生物学的試料が気管支洗浄試料を含む、請求項25記載の方法。
  38. 生物学的試料が生検試料を含む、請求項25記載の方法。
  39. 以下の工程を含む方法によって癌スクリーニングモデルを作成する工程をさらに含む、請求項25記載の方法:
    (a)第1の個体集団に由来する生物学的試料から得られたスペクトルウエイト値の第1のセットと、第2の個体集団に由来する生物学的試料から得られたスペクトルウエイト値の第2のセットとを比較する工程であって、
    第1の集団の個体は、上部気道消化管癌を発症するリスクが高いが、上部気道消化管癌を有さないことが臨床的に確かめられており、かつ、
    第2の集団の個体は、上部気道消化管癌を有することが臨床的に確かめられている、工程;ならびに
    (b)工程(a)に基づいて、第1の集団の個体と第2の集団の個体を区別しかつ5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdからなる群より選択される特定用スペクトルウエイトに対応する複数の癌予測変数スペクトルウエイト値のパターンを含む、癌スクリーニングモデルを作成する工程。
  40. スペクトルウエイト値の第1のセットを作成する工程をさらに含む、請求項39記載の方法。
  41. スペクトルウエイト値の第2のセットを作成する工程をさらに含む、請求項39記載の方法。
  42. スペクトルウエイト値の第1のセットおよび第2のセットを作成する工程をさらに含む、請求項39記載の方法。
  43. 以下の工程を含む方法を実施するための、コンピュータにより実行可能な命令を保存しているコンピュータ可読媒体:
    (a)個体に由来する生物学的試料から得られた試験スペクトルウエイト値と、5kd、10kd、12kd、15kd、20kd、45kd、47kd、54kd、64kd、および111kdからなる群より選択される特定用スペクトルウエイトに対応する複数の癌予測変数スペクトルウエイト値を含む癌スクリーニングモデルにおける癌予測変数スペクトルウエイト値とを比較する工程;ならびに
    (b)複数の試験スペクトルウエイト値が、その対応する癌予測変数スペクトルウエイト値の25%またはそれ以上の範囲内であれば、個体を、上部気道消化管癌を有するとまたはその発症の可能性が高いと特定する工程。
  44. 無形のコンピュータ可読媒体を含む、請求項43記載のコンピュータ可読媒体。
JP2006539878A 2003-11-12 2004-11-12 上部気道消化管癌の予測 Pending JP2007513328A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US51934003P 2003-11-12 2003-11-12
PCT/US2004/037727 WO2005048165A2 (en) 2003-11-12 2004-11-12 Method to predict upper aerodigestive tract cancer

Publications (1)

Publication Number Publication Date
JP2007513328A true JP2007513328A (ja) 2007-05-24

Family

ID=34590395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006539878A Pending JP2007513328A (ja) 2003-11-12 2004-11-12 上部気道消化管癌の予測

Country Status (8)

Country Link
US (1) US20050196773A1 (ja)
EP (1) EP1685515A2 (ja)
JP (1) JP2007513328A (ja)
KR (1) KR20070012320A (ja)
AU (1) AU2004290440A1 (ja)
CA (1) CA2556643A1 (ja)
MX (1) MXPA06005404A (ja)
WO (1) WO2005048165A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1730160A4 (en) * 2004-03-17 2008-04-09 Univ Johns Hopkins Neoplasia diagnostic compositions and methods of use
US8794979B2 (en) * 2008-06-27 2014-08-05 Microsoft Corporation Interactive presentation system
US8945511B2 (en) 2009-06-25 2015-02-03 Paul Weinberger Sensitive methods for detecting the presence of cancer associated with the over-expression of galectin-3 using biomarkers derived from galectin-3

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0753146A4 (en) * 1994-03-28 1999-05-26 Pacific Northwest Research Fou TECHNIQUES FOR DETERMINING DNA DAMAGE DUE TO OXIDATION
US6675104B2 (en) * 2000-11-16 2004-01-06 Ciphergen Biosystems, Inc. Method for analyzing mass spectra

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JPN6010048639, M.K.MARKEY,et al., ""Decision tree classification of proteins identified by mass spectrometry of blood serum samples fr", Proteomics, 200309, No.3, p.1678−1679 *
JPN6010048640, H.J.ISSAQ,et al., ""The SELDI−TOF MS Approach to Proteomics: Protein Profiling and Biomarker Identification"", Biochemical and Biophysical Research Communications, 2002, Vol.292, p.587−592 *
JPN6010048642, Liu q,et al., ""Identification of Differentially Expressed Proteins Using MALDI−TOF Mass Spectra"", Signals, Systems and Computers, IEEE Conference Record of the Thirty−Seventh Asilomar Conference, 20031112, Vol.2, p.1323−1327 *
JPN7010002638, ROGERS MARK A,et al., ""Proteomic profiling of Urinary Proteins in Renal Cancer by Surface Enhanced Laser Deroption Ioniza", CANCER RESEARCH, 20031015, Vol.63, No.12, p.6971−6983 *
JPN7010002639, E.F. PETRICOIN,et al., ""Clinical Applications of Proteomics: Proteomic Pattern Diagnostics"", Journal of Mammary Gland Biology and Neoplasia, 200210, Vol.7, No.4, p.433−440 *
JPN7010002640, P.NEVILLE,et al., ""Generalizable mass spectrometry mining used to identify disease state biomarkers from blood serum", Proteomics, 2003, No.3, p.1710−1715 *

Also Published As

Publication number Publication date
WO2005048165A3 (en) 2006-03-09
CA2556643A1 (en) 2005-05-26
KR20070012320A (ko) 2007-01-25
WO2005048165A2 (en) 2005-05-26
AU2004290440A1 (en) 2005-05-26
EP1685515A2 (en) 2006-08-02
MXPA06005404A (es) 2007-03-01
US20050196773A1 (en) 2005-09-08

Similar Documents

Publication Publication Date Title
CN109859801B (zh) 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN112048559B (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
CN110958853B (zh) 用于鉴定或监测肺病的方法和系统
Ye et al. Predicting hepatitis B virus–positive metastatic hepatocellular carcinomas using gene expression profiling and supervised machine learning
Kim et al. Cancer‐associated molecular signature in the tissue samples of patients with cirrhosis
US8478534B2 (en) Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
Christensen et al. Differentiation of lung adenocarcinoma, pleural mesothelioma, and nonmalignant pulmonary tissues using DNA methylation profiles
WO2017192965A2 (en) Compositions, methods and kits for diagnosis of lung cancer
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
CN115482880A (zh) 一种头颈鳞癌糖酵解相关基因预后模型及构建方法和应用
US20170168058A1 (en) Compositions, methods and kits for diagnosis of lung cancer
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
Nath et al. A survey on cancer prediction and detection with data analysis
CN114171200A (zh) Ptc预后标志物及其应用、ptc的预后评估模型的构建方法
JP2007513328A (ja) 上部気道消化管癌の予測
Ragazzi et al. Multivariate analysis approach to the plasma protein profile of patients with advanced colorectal cancer
WO2023230617A2 (en) Bladder cancer biomarkers and methods of use
CN115029442A (zh) 基于m6A相关lncRNA的浆液性卵巢癌预后模型的构建及其临床应用
Chen et al. Development of a Set of DNA Methylation Markers in the Diagnosis and Prognosis of Papillary Thyroid Carcinoma by Machine Learning
Liu et al. Uncovering nasopharyngeal carcinoma from chronic rhinosinusitis and healthy subjects using routine medical tests via machine learning
US20230274794A1 (en) Multiclass classification model for stratifying patients among multiple cancer types based on analysis of genetic information and systems for implementing the same
CN118726583A (zh) 用于预测早期非小细胞肺癌复发预后的标记基因及其应用
Liu et al. Construction and validation a Nomogram for Predicting Cancer-Specific Survival for patients with Ependymoma: An Analysis of the Surveillance, Epidemiology, and End Results Database

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100823

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101122

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110427