本明細書に記載されたいくつかの方法は、特定の薬物の治療の効能、患者の病歴、並びに治療前、治療中及び治療後の患者の分子的プロファイルデータを含む広範囲の医療データを効率的に統合して、これらの因子間の新規の関係を識別することを可能にする。例えば、患者から取得した試料をオミクス技術を使用して分析することにより、治療の経過の全体にわたって、タンパク質、脂質及び代謝産物レベルの幅広い規模の分析を実行することが可能である。いくつかの実施形態では、これらのオミクスデータを、人口統計的情報、病歴、治療の効能の測定及び投与された薬物の薬物動態などの他の臨床データと組み合わせて、薬物に対する患者反応を示す潜在的バイオマーカーを同定する。これらの潜在的バイオマーカーを、ある範囲の異なる用途に使用することができる。そのような用途には、薬物によって効果的に治療される可能性が高い患者又は薬物に反応して有害事象を経験する可能性が高い患者を選択することが含まれる。
本明細書に記載された実施形態は、作用剤の投与に関係した臨床的結果の1つ以上の潜在的バイオマーカーを同定する方法、システム及びコンピュータ可読媒体、並びに例えば後続の臨床試験において患者を層別化する方法、システム及びコンピュータ可読媒体、又は臨床的治療を施す患者を選択する方法、システム及びコンピュータ可読媒体を含む。いくつかの実施形態は、複数の対象に作用剤を投与する前、投与している間、及び/又は投与した後に採取された試料の測定により取得された臨床記録データ及び分子的プロファイルデータを処理及び統合し、統合されたデータを分析して、作用剤の投与に関係した臨床的結果(例えば作用剤の効能、作用剤に関係した有害事象)の1つ以上の潜在的バイオマーカーを同定する方法及びシステムを提供する。いくつかの実施形態では、この分析が、統合されたデータのスライスから関係ネットワーク(例えば因果関係ネットワーク、ベイジアンネットワーク又はベイジアン因果関係ネットワーク)を生成すること、及びそれらの因果関係ネットワークのトポロジ特徴を分析することを含む。いくつかの実施形態では、因果関係ネットワークのトポロジ特徴の分析により、対象反応を決定するためのin silico計算診断患者マップが生成される。いくつかの実施形態では、作用剤の投与に対する患者反応を予測する目的に、作用剤の投与に関係した臨床的結果の同定された潜在的バイオマーカーが使用される。いくつかの実施形態では、臨床試験の部分として作用剤が対象に投与される。潜在的バイオマーカー、及びスライスされた統合後の分子的プロファイルデータと臨床記録データの分析は、例えば後続の臨床試験において患者を層別化するための情報、又は臨床的治療を施す患者を選択するための情報を提供しうる。
以下の説明は、本明細書に記載の方法及びシステムを当業者が作製し使用できるようにするために提示するものである。実施形態に対する様々な変形は、当業者にとって明らかである。本明細書が定義する一般原理は、本発明の原理と範囲から逸脱することなく、他の実施形態や用途に対して適用することができる。以下の説明において、説明のため様々な詳細部分を記載している。しかし、そのような特定の詳細部分がなくとも本発明を実施できることを、当業者は理解するであろう。したがって本文書は、実施形態を限定するためのものではなく、本明細書の原理と特徴に準じて最も広く解釈されるべきである。
定義
本明細書で使用するとき、具体的に定義することを意図しているが本明細書の他の部分においてまだ定義されていないいくつかの用語を、ここで定義する。
本明細書で使用するとき、用語「統合したデータセットをスライス(スライシング)する」とは、1以上の基準を用いて統合データの1つ以上のサブセットを選択することを指す。本明細書で使用するとき、用語「スライスされたデータセット」又は「データセットのスライス」とは、スライス操作から得られる統合データセットのサブセットであるデータセットを指し、本明細書では選択されたデータセットとも呼ばれる。
冠詞「a」及び「an」は、冠詞の文法的目的語のうち1種又は2種以上(すなわち、少なくとも1種)を指すために本明細書で使用される。例として「要素(an element)」は、1種の要素又は2種以上の要素を意味する。
用語「包含する(挙げられる)(including)」は、語句「包含するがこれに限定されない」を意味するために本明細書で使用され、これと互換的に用いられている。
用語「又は」は、文脈がこれ以外を明らかに示さない限り、用語「及び/又は」を意味するために本明細書で使用され、これと互換的に用いられている。
用語「等(例えば)(such as)」は、語句「等が挙げられるがこれに限定されない」を意味するために本明細書で使用され、これと互換的に用いられている。
用語「マイクロアレイ」は、紙、ナイロン若しくは他の種類の膜、フィルター、チップ、ガラススライド又はその他の適した固体支持体等、基板上に合成された別個のポリヌクレオチド、オリゴヌクレオチド、ポリペプチド(例えば、抗体)又はペプチドのアレイを指す。
用語「障害」及び「疾患」は、包括的に用いられ、身体のいずれかの部分、器官又は系(又はこれらのいずれかの組み合わせ)の正常構造又は機能からの何らかの逸脱を指す。特定の疾患は、生物学的、化学的及び物理学的変化を包含する特徴的な症状及び兆候により顕在化され、多くの場合、人口統計学的、環境的、職業的(employment)、遺伝的及び病歴的因子が挙げられるがこれらに限定されない種々の他の因子に関連する。特定の特徴的な兆候、症状及び関係する因子を種々の方法により定量化して、重要な診断情報を得ることができる。
本明細書で使用するとき、「癌」とは、ヒトに見られる、あらゆる種類の癌又は新生物又は悪性腫瘍を指し、限定されるものではないが、白血病、リンパ腫、黒色腫、癌腫及び肉腫が挙げられる。本明細書で使用するとき、「癌」、「新生物」及び「腫瘍」なる用語又は言葉は、互換的に、及び単数又は複数形で使用され、これらを宿主生物に対して病的にする悪性形質転換を受けた細胞を指す。原発性癌細胞(すなわち、悪性形質転換部位の近傍から得られた細胞)は、十分に確立された技術、特に組織学的検査により、非癌性細胞と容易に区別することができる。癌細胞の定義は、本明細書で使用するとき、原発性癌細胞だけでなく、癌幹細胞、並びに癌前駆細胞又は癌細胞の祖先に由来する任意の細胞も含む。これは、転移した癌細胞、癌細胞由来のin vitro培養物及び細胞株を含む。「固形腫瘍」は、例えば、CATスキャン、MRイメージング、X線、超音波若しくは触診などの手法によって腫瘍塊を基準にして検出可能であり、及び/又は患者から得ることができる試料中の1種以上の癌特異的抗原の発現に起因して検出可能である腫瘍である。腫瘍は、測定可能な寸法を有する必要はない。
用語「発現」は、DNA等のポリヌクレオチドからポリペプチドが産生されるプロセスを包含する。このプロセスは、遺伝子からmRNAへの転写及びこのmRNAからポリペプチドへの翻訳を含み得る。「発現」は、これが用いられる文脈に応じて、RNA、タンパク質又はその両方の産生を指すことができる。
用語「遺伝子の発現のレベル」又は「遺伝子発現レベル」は、細胞におけるmRNA並びにプレmRNA新生転写物(複数可)、転写物プロセシング中間体、成熟mRNA(複数可)及び分解産物のレベル、あるいは遺伝子にコードされるタンパク質のレベルを指す。
用語「ゲノム」は、生物学的実体(細胞、組織、器官、系、生物)の遺伝情報の全体を指す。これは、DNA又はRNA(例えば、特定のウイルスにおける)のいずれかにおいてコードされる。ゲノムは、DNAの遺伝子及び非コード配列の両方を包含する。
用語「プロテオーム」は、所定の時間においてゲノム、細胞、組織又は生物により発現されるタンパク質の全セットを指す。より具体的には、これは、所定の時間に定義された条件下で所定の種類の細胞又は生物において発現されたタンパク質の全セットを指すことができる。プロテオームは、例えば、遺伝子の選択的スプライシング及び/又は翻訳後修飾(グリコシル化又はリン酸化等)によるタンパク質バリアントを包含することができる。
用語「トランスクリプトーム」は、所定の時間において1個の細胞又は細胞集団において産生される、mRNA、rRNA、tRNA、及び他の非コードRNAを包含する転写されたRNA分子の全セットを指す。この用語は、所定の生物における転写物の総セット、又は特定の細胞型に存在する転写物の特異的なサブセットに適用することができる。所定の細胞株に緩やかに固定された(突然変異を除く)ゲノムとは異なり、トランスクリプトームは、外部環境条件に伴って変動し得る。これは、細胞におけるあらゆるmRNA転写物を包含するため、トランスクリプトームは、転写減衰等、mRNA分解現象を例外として、所定の時間において活発に発現されている遺伝子を反映する。
発現プロファイリングとも称されるトランスクリプトミクスの研究は、多くの場合、DNAマイクロアレイ技術に基づくハイスループット技法を用いて、所定の細胞集団におけるmRNAの発現レベルを試験する。
用語「メタボローム」は、所定の時間に所定の条件下で、生物学的試料内に見出された小分子代謝物(代謝性中間体、ホルモン及び他のシグナル伝達分子並びに二次代謝物等)の完全セットを指す。メタボロームは動的であり、刻一刻と変化し得る。
用語「リピドーム(lipidome)」は、所定の時間に所定の条件下で、生物学的試料内に見出された脂質の完全セットを指す。リピドームは動的であり、刻一刻と変化し得る。
本明細書で使用するとき、作用剤(物質)は対象に投与される何かを意味する。用語「作用剤(agent)」には、限定されるものではないが、疾患又は障害のための治療又は可能性ある治療、及び疾患又は障害の治療のための可能性ある又は公知の医薬剤が挙げられる。
本出願において明確に定義されていない他の用語は、当業者によって理解され得る意義を有する。
下の説明は、一部において個別のステップとして提示されているが、これは例証目的及び単純性のためであり、よって、現実的には、ステップのかかる厳正な順序及び/又は区分を暗示しない。更に、本発明のステップは別々に実施することができ、本明細書に提供されている本発明は、個々のステップそれぞれ別々を、また、残りのステップと独立的に行ってよい1種以上のステップ(例えば、いずれか1、2、3、4、5、6又は全7ステップ)の組み合わせを包含することが企図されている。
図1は、例示的な実施形態に基づく、分子的プロファイルデータと臨床記録データとを統合して、作用剤の投与に関係した臨床的結果の潜在的バイオマーカーを生成する方法100の例示的なフロー図を示す。この方法は、コンピュータによって実施される方法(computer-implemented method)である。以下では、方法100を実施する例示的なシステムを、図2、3及び49に関して説明する。しかしながら、他の1つ以上のシステムを使用してこの方法を実施することもできることを当業者は理解する。
ステップ102で、複数の対象のうちのそれぞれの対象の分子的プロファイルデータを処理する。いくつかの実施形態では、それぞれの対象の分子的プロファイルデータが、当該対象から取得した複数の試料の分析によって生成されたプロテオミクス、メタボロミクス、リピドミクス、ゲノミクス、トランスクリプトミクス、マイクロアレイ及び配列決定データのうちの1つ以上のデータを含む。いくつかの実施形態では、それぞれの対象の分子的プロファイルデータが、当該対象から取得した複数の試料の分析によって生成されたプロテオミクス、メタボロミクス、リピドミクス、ゲノミクス、トランスクリプトミクス、マイクロアレイ及び配列決定データのうちの2つ以上のデータを含む。いくつかの実施形態では、それぞれの対象の分子的プロファイルデータが、当該対象から取得した複数の試料の分析によって生成されたプロテオミクス、メタボロミクス、リピドミクス、ゲノミクス、トランスクリプトミクス、マイクロアレイ及び配列決定データのうちの3つ以上のデータを含む。
それぞれの対象について、これらの複数の試料は、当該対象に作用剤を投与する前、投与している間及び/又は投与した後に取得した試料を含む。例えば、いくつかの実施形態では、これらの複数の試料が、当該対象に作用剤を投与する前及び投与している間に取得した試料を含む。いくつかの実施形態では、これらの複数の試料が、当該対象に作用剤を投与している間及び投与した後に取得した試料を含む。いくつかの実施形態では、これらの複数の試料が、当該対象に作用剤を投与する前及び投与した後に取得した試料を含む。いくつかの実施形態では、これらの複数の試料が、当該対象に作用剤を投与する前、投与している間及び投与した後に取得した試料を含む。
いくつかの実施形態では、この作用剤が、疾患又は障害に対する潜在的な治療法として評価されている。いくつかの実施形態では、この作用剤が、臨床試験の部分としてこれらの複数の対象に投与される。いくつかの実施形態では、この作用剤が、フェーズI臨床試験の部分としてこれらの複数の対象に投与される。いくつかの実施形態では、この方法が、これらの複数の対象にこの作用剤を投与することを含む。
いくつかの実施形態では、それぞれの対象からの試料が、血液、組織、尿、分泌物、汗、痰、糞便及び粘液試料、並びにこれらの試料の培養物のうちの1つ以上を含む。いくつかの実施形態では、それぞれの対象からの試料が、血液、組織、尿、分泌物、汗、痰、糞便及び粘液試料、並びにこれらの試料の培養物のうちの2つ以上を含む。いくつかの実施形態では、血液試料が、全血、血清、血漿及びバフィーコート(buffy coat)からなる群から選択される。いくつかの実施形態では、組織が、生検によって取得される。ある種の実施形態では、組織が腫瘍組織である。
いくつかの実施形態では、この方法がさらに、対象ごとに、当該対象から取得した複数の試料を分析して分子的プロファイルデータを取得することを含む。分子的プロファイルデータを取得する方法のさらなる説明は、「分子的プロファイルデータの生成」と題された後の項に出ている。
いくつかの実施形態では、分子的プロファイルデータを処理することが、複数の対象に対する治療の過程中の異なる時点において収集されたデータを組み合わせること、フィルタにかけて、まれにしか測定されなかった変数を除外すること、データの測定中に利用された異なるバッチ間で試料が比較可能であることを保証するために、系統的偏り(systematic bias)を除去することによってデータを正規化すること、及び複数の対象のうちの特定の対象に対して測定されなかった変数を代入することのうちの1つ以上を含む。分子的プロファイルデータの処理の追加の説明は、「オミクスデータ処理」と題された後の項に出ている。
ステップ104で、これらの複数の対象の臨床記録データを処理する。本明細書では臨床記録データを「臨床データ」とも呼ぶ。それぞれの対象の臨床記録データは、作用剤を投与する前、投与している間及び/若しくは投与した後に当該対象から取得した試料並びに/又は作用剤を投与する前、投与している間及び/若しくは投与した後に実施した当該対象の測定に基づくデータを含む。例えば、いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与する前及び投与している間に取得した試料に基づくデータを含む。いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与している間及び投与した後に取得した試料に基づくデータを含む。いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与する前及び投与した後に取得した試料に基づくデータを含む。いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与する前、投与している間及び投与した後に取得した試料に基づくデータを含む。いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与する前及び投与している間に実施した当該対象の測定に基づくデータを含む。いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与している間及び投与した後に実施した当該対象の測定に基づくデータを含む。いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与する前及び投与した後に実施した当該対象の測定に基づくデータを含む。いくつかの実施形態では、臨床記録データが、当該対象に作用剤を投与する前、投与している間及び投与した後に実施した当該対象の測定に基づくデータを含む。
臨床記録データは、対象から取得した試料に対して実施された臨床的測定、及び/或いは対象の全般的な健康状態の評価又は関心の疾患若しくは障害の状態の評価に関連する、対象に対して実施された臨床的測定を含む。例えば、全般的な健康状態の評価に関する臨床的測定は、体重、身長、ボディーマスインデックス(BMI)、グルコースレベル、コレステロールレベル、血圧及びこれらの変化のうちの一部又は全部を含む。例えば、癌の状態の評価に関する臨床的測定は、腫瘍サイズ、PETスキャン、FDE−PETスキャン、癌生検、潜在的な癌治療薬又は知られている癌治療薬の薬物動態、血中グルコース(GLUC)、ヘマトクリット(HCT)、アスパラギン酸トランスアミナーゼ(AST)、アラニントランスアミナーゼ(ALT)のレベル、及びこれらの変化のうちの一部又は全部を含む。いくつかの実施形態では、臨床記録データが、対象の病歴データ及び/又は人口統計的データを含む。人口統計的データは、限定はされないが、年齢、性及びエスニシティ(ethnicity)のうちの1つ又は全部を含む。臨床記録データは臨床的結果データを含む。いくつかの実施形態では、臨床的結果データが、疾患又は障害の治療に対する作用剤の効能に関係したデータを含む。例えば、臨床的結果データは、治療前、治療中及び/又は治療後の特定の時刻における対象の疾患又は障害の状況又は状態に関するデータを含みうる。いくつかの実施形態では、臨床的結果データが、作用剤の投与に関連した有害事象に関係したデータを含む。例えば、臨床的結果データは、作用剤の投与中又は投与後の有害事象の発生に関係した情報を含みうる。いくつかの実施形態では、作用剤が、疾患又は障害の治療又は潜在的治療であり、臨床的結果データが、作用剤を用いた治療に反応して対象が総合的臨床的利益を示したのか又は臨床的利益を示さなかったのかを示すデータを含む。実施形態では、臨床記録データが、従来の病歴記録から又はモバイルウェアラブルデバイスから検索又は取得される。
いくつかの実施形態では、臨床記録データがさらに、薬物動態データ、病歴データ、臨床検査データ、人口統計的データ及びモバイルウェアラブルデバイスからのデータのうちの1つ以上のデータを含む。
いくつかの実施形態では、臨床データが臨床データモニタによって提供される。臨床データの処理が、分子的プロファイルデータと臨床記録データの効率的な統合を可能にすることがある。例えば、臨床データは、異なる対象に対して標準化する必要がある多数の異なるフォーマット(例えばナラティブ(narrative)、連続(continuous)、離散(discrete)、ブール(Boolean))で提供されることがある。臨床データの処理の追加の説明は後の図4の説明に出ている。
ステップ106で、処理された分子的プロファイルデータと処理された臨床記録データとを統合し、併合データとしてデータベースに記憶する。いくつかの実施形態では、処理された分子的プロファイルデータと処理された臨床記録データとを統合することが、重複した臨床記録データを照合し、相違点を解消することを含む。いくつかの実施形態では、処理された分子的プロファイルデータと処理された臨床記録データとを統合することが、併合データをフィルタにかけて、対応する臨床記録データを欠く分子的データを除外することを含む。いくつかの実施形態では、異なる頻度でデータタイプが収集されるため、必要に応じて、腫瘍サイズなどの定量的な全ての臨床記録が、補間(例えば線形補間)によってオミクス試料の時点にマッチングされる。いくつかの実施形態では、特定の対象について、薬物動態(PK)用の試料と分子的プロファイルデータ用の試料とが同じ時点において(例えば同じ日に)取得される。このことは、臨床データと分子的プロファイルデータとの統合を助け、分子的プロファイル試料の収集に対応する時点に対して補間されたPK値を求める必要性を回避する。
処理された臨床データと処理された記録データの統合の追加の説明は後の図4の説明に出ている。
ステップ108で、臨床記録データから取得した1つ以上の判定基準に基づいて併合データをスライスして、2つ以上のスライスされたデータセットを生成する。本明細書で使用されるとき、スライシング(スライス)は、判定基準又は特徴に基づいてデータを複数の群に分割することを指す。いくつかの実施形態では、併合データをスライスするための1つ以上の判定基準が、年齢、性又はエスニシティなどの表現型分類を含む。いくつかの実施形態では、併合データをスライスするための1つ以上の判定基準が、作用剤に対する見かけの反応性又は有害事象の発生などの臨床的結果データを含む。例えば、いくつかの実施形態では、有害事象を経験した対象に基づいて併合データをスライスして、スライスされた2つのデータセット、すなわち有害事象を経験した対象のデータに対応する1つのデータセット及び有害事象を経験しなかった対象のデータに対応する1つのデータセットを生成する。別の例として、いくつかの実施形態では、癌薬物の臨床試験のための治療時の腫瘍サイズの変化などの判定基準によってデータをスライスして、作用剤に対して反応性である(例えば総合的臨床的利益を示した)対象(例えば患者)及び非反応性であった(例えば臨床的利益を示さなかった)対象(例えば患者)のスライスされたデータセットを生成する。別の実施形態では、対象によって併合データをスライスして、それぞれの個々の対象(例えば患者)に対するスライスされたデータセットを生成する。いくつかの実施形態では、年齢、性又はエスニシティなどの人口統計的特性によってデータがスライスされる。いくつかの実施形態では、ボディーマスインデックス、高グルコースレベルの存在、高血圧の存在、病歴におけるある種の事象などの判定基準によってデータがスライスされる。
いくつかの実施形態では、異なる判定基準に基づいて併合データが複数回にわたってスライスされる。例えば、併合データを、全ての対象のデータを含む1つのスライスにスライスし、さらに臨床的結果データに基づいて(例えば作用剤を用いた治療に反応して総合的臨床的利益を示した対象のデータを含む1つのスライス及び作用剤を用いた治療に反応して臨床的利益を示さなかった対象のデータを含む別のスライスに)スライスすることができる。
ステップ110で、スライスされたデータセットのうちの1つ以上のデータセットを分析して、作用剤の投与に関係した臨床的結果の1つ以上の潜在的バイオマーカーを同定する。いくつかの実施形態では、作用剤の投与に関係した臨床的結果の潜在的バイオマーカーを同定するために、スライスされたデータセットが、人工知能法(例えばAIネットワーク)、統計的方法(例えば差次的発現)及び機械学習法のうちの1つ以上の方法を使用して分析される。いくつかの実施形態では、作用剤の投与に関係した臨床的反応の潜在的バイオマーカーを同定するために、スライスされたデータセットが、人工知能法、統計的方法及び機械学習法のうちの2つ以上の方法を使用して分析される。人工知能法(例えばベイジアン因果関係ネットワークの生成)、統計的方法(例えば差次的に発現された変数の統計分析)、及び機械学習法(例えば他の技法によって生成された可能なバイオマーカーのセットから比較的に相関しない潜在的バイオマーカーを選択する回帰分析)を使用して、作用剤の効能の潜在的バイオマーカー及び有害反応の潜在的バイオマーカーを同定する例が、図4及び実施例1及び2に関して後に説明される。
いくつかの実施形態では、スライスされたデータセットのうちの1つ以上のデータセットを分析して1つ以上の潜在的バイオマーカーを同定することが、スライスされたデータセットのうちの1つ以上のデータセットに基づく1つ以上の関係ネットワーク(例えばベイジアン因果関係ネットワーク又はベイジアンネットワーク)の生成を含む。ベイジアン因果関係ネットワークの生成については、「AIに基づくシステムを使用したベイジアン因果関係ネットワークの生成」と題された項で後に説明する。
1つ以上の因果関係ネットワークの生成を利用する実施形態では、生成された1つ以上の因果関係ネットワークの分析によって、1つ以上の出力動因に対応する1つ以上のノードを同定する。いくつかの実施形態では、1つ以上の出力動因に対応する1つ以上のノードを同定するために、因果関係ネットワークのトポロジ特徴の分析が使用される。いくつかの実施形態では、同定された1つ以上の出力動因が、作用剤の投与に関係した臨床的結果の1つ以上の潜在的バイオマーカーである。いくつかの実施形態では、出力動因が可能なバイオマーカーとして同定され、一群の可能なバイオマーカーから1つ以上の潜在的バイオマーカーを選択するための追加の分析が実施される。そのような実施形態では、1つ以上の出力動因を含む一群の可能なバイオマーカーから1つ以上の潜在的バイオマーカーが選択される。
いくつかの実施形態では、生成された1つ以上の因果関係ネットワークの分析が、生成された因果関係ネットワークのうちの1つ以上の因果関係ネットワーク内の臨床的結果に対応するノードに、nよりも小さい接続度を有する関係によって接続されたノードに対応する変数を結果動因として同定することを含む。例えば、nが1である場合には、結果動因が、1つの関係によって結果ノードに直接に接続された変数ノードである。別の例として、nが2である場合には、結果動因が、2つの関係及び介在するノードによって結果ノードに接続された変数ノードである。さまざまな実施形態において、nは、1、2、3、4、5、6、7、8、9又は10である。いくつかの実施形態では、nが、3又は2又は1である。
いくつかの実施形態では、対象によってデータがスライスされる。いくつかの実施形態では、臨床的結果を示した対象に対応する第1の複数のスライスされたデータセットのうちの1つのデータセットにそれぞれ基づいて第1の複数の因果関係ネットワークが生成され、臨床的結果を示さなかった対象に対応する第2の複数のスライスされたデータセットのうちの1つのデータセットにそれぞれ基づいて第2の複数の因果関係ネットワークが生成される。第1の複数の因果関係ネットワーク間の1つ以上の第1の共通性が同定され、第2の複数の因果関係ネットワーク間の1つ以上の第2の共通性が同定される。1つ以上の結果動因を同定するために、第1の共通性と第2の共通性の比較が使用される。
いくつかの実施形態では、臨床的結果によって併合データがスライスされ、生成された2つ以上のスライスされたデータセットが、臨床的結果を示した一人以上の対象に対応するデータを含む第1のスライスされたデータセットと、臨床的結果を示さなかった一人以上の対象に対応するデータを含む第2のスライスされたデータセットとを含む。いくつかの実施形態では、臨床的結果を示した対象に対応する第1のスライスされたデータセットに基づいて第1の因果関係ネットワークが生成され、臨床的結果を示さなかった対象に対応する第2のスライスされたデータセットに基づいて第2の因果関係ネットワークが生成される。いくつかの実施形態では、1つ以上の結果動因が、臨床的結果を示した対象に対応する第1の因果関係と臨床的結果を示さなかった対象に対応する第2の因果関係との比較に基づいて同定される。いくつかの実施形態では、第1の因果関係ネットワーク及び第2の因果関係ネットワークに基づいて差次的(デルタ)ネットワークが生成され、1つ以上の結果動因が、生成された差次的因果関係ネットワークから同定される。
いくつかの実施形態では、スライスされたデータセットのうちの1つ以上のデータセットを分析して、作用剤の投与に関係した臨床的結果の1つ以上の潜在的バイオマーカーを同定することが、臨床的結果に基づいてスライスされたスライスされたデータセット間の差次的に発現された1つ以上の変数を統計分析によって同定することをさらに含む。いくつかの実施形態では、差次的発現のこのような統計分析が、2標本t検定又はlimma法を利用する。いくつかの実施形態では、差次的に発現された変数のこのような統計分析が、回帰分析を実行することを含む。いくつかの実施形態では、この統計分析が、臨床的結果に基づいてスライスされたデータセット間の発現の最大差を示す変数のリストを生成する。それらの変数は、可能なバイオマーカーとして同定され、それらの可能なバイオマーカーの中から、潜在的バイオマーカーのサブセットが同定される。
いくつかの実施形態では、多くの(例えば数十から数百の)結果動因及び多くの(例えば数十から数百の)差次的に発現された変数が、可能なバイオマーカーとして同定されるが、これらの可能なバイオマーカーの多くはおそらく互いに強く相関している。効率のためには、関心の臨床的結果を強く予測し、関心の臨床的結果と強く相関するが、互いに比較的に相関せず、その結果、それぞれの追加のバイオマーカーが追加情報を提供する一組のバイオマーカー(例えば直交する(orthogonal)バイオマーカー)を同定することが有利である。いくつかの実施形態では、同定された可能なバイオマーカーの中から互いに比較的に相関しない(例えば直交する)1つ以上の潜在的バイオマーカーを決定するために追加の分析が実行される。
いくつかの実施形態では、生成されたネットワーク及び上位の差次的に発現された変数から同定された結果動因が、一群の可能なバイオマーカーを形成し、また、機械学習を使用することにより、その一群の可能なバイオマーカーのサブセットとして、1つ以上の潜在的バイオマーカーが同定される。例えば、いくつかの実施形態では、同定された結果動因及び差次的に発現された1つ以上の変数を可能なバイオマーカーとして分析し、この分析に基づいて、可能なバイオマーカーのサブセットを1つ以上の潜在的バイオマーカーとして選択するために、機械学習が使用され、この機械学習が、他の可能なバイオマーカーに強く相関した可能なバイオマーカーにペナルティを課し、臨床的結果との相関レベルに基づいて可能なバイオマーカーに報酬を与え、それによって臨床的結果の1つ以上の潜在的バイオマーカーを同定する。いくつかの実施形態では、可能なバイオマーカーを分析するために利用される機械学習が、イラスティックネットペナルティを用いたロジスティック回帰を適用する。これについては、「潜在的バイオマーカー(例えばコンパニオン診断CDx)の決定」と題された項で後に説明する。
いくつかの実施形態では、1つ以上の潜在的バイオマーカーが、作用剤の効能又は有害事象の潜在的バイオマーカーである。いくつかの実施形態では、方法100が、作用剤の投与に関係した有害事象の発生の1つ以上の潜在的バイオマーカーを同定する方法である。
作用剤が、疾患又は障害の潜在的治療であるときには、方法100が、作用剤による治療に対してどの患者が反応性であるのかを予測するため、若しくは作用剤で治療されたときにどの患者が有害事象を経験する可能性が高いのか予測するため、又はその両方のための患者層別化の方法である。いくつかの実施形態では、この方法がさらに、同定された1つ以上の潜在的バイオマーカーを、患者層別化、例えば後続の臨床試験における患者層別化、又は臨床治療に参加する患者を選択するための患者層別化に利用することを含む。いくつかの実施形態では、後続の臨床試験にどの患者を参加させるのかを決定するための患者層別化に潜在的バイオマーカーを使用することができる。いくつかの実施形態では、後続の臨床試験において作用剤を受け入れる患者を決定するための患者層別化に潜在的バイオマーカーを使用することができる。
いくつかの実施形態では、方法100がさらに、対象特異的プロファイルを表示装置(ディスプレイデバイス)上に表示することを含む。対象特異的プロファイルは臨床記録データの図表現を含む。対象特異的プロファイルは、当該対象の人口統計的情報の図表現、及び当該対象の結果情報の図表現を含む。当該対象の結果情報の図表現は、当該対象の有害事象情報の図表現、及び作用剤に対する反応性に関する情報の図表現を含むことができる。患者プロファイルの形態の対象特異的プロファイルについては図28に関して示し、説明する。別の患者ファイルを実施例1に関して後に説明し、図40A〜40Dに示す。
いくつかの実施形態は、上で説明した方法100に従って実行される、処理された分子的プロファイルデータと処理された臨床記録のスライスされた併合データセットから生成された因果関係ネットワーク(例えばベイジアン因果関係ネットワーク)のトポロジ特徴の分析によって、対象反応を決定するためのin silico計算診断患者マップを生成する方法を含む。
いくつかの実施形態では、疾患又は障害のin vitro細胞モデルを確立し、ベイジアン因果関係ネットワークを作成して、疾患若しくは障害に関連する分子ハブ、又は疾患若しくは障害の潜在的なモジュレーターを同定することができる。in vitro細胞モデルに基づくベイジアン因果関係ネットワークを使用して疾患又は障害のモジュレーターを同定するための方法及びシステムに関する詳細は、「照合による細胞に基づくアッセイ及びその使用」と題する米国特許出願公開第2012/0258874号A1に見られる(その内容全体が参照により本明細書に組み込まれる)。いくつかの実施形態では、in vitro細胞モデルを使用して同定された疾患又は障害の潜在的モジュレーターは、スライスされたデータの分析から同定された潜在的バイオマーカーと比較して、潜在的バイオマーカーの作用機序に関する情報を得ることができる。in vitro細胞モデルは、Berg Interrogative Biology(TM)Informatics Suiteを用いて分析することができる。これは、多様な生物学的プロセスを理解するためのツールである。生物学的プロセスとは例えば、病態生理や、生物学的プロセスの基盤にある重要な分子動因であり、病態プロセスを形成する因子を含むものである。いくつかの例示的な実施形態は、Berg Interrogative Biology(TM)Informatics Suiteを用いて、他の病気、医薬品、生物学的プロセスなどに対する疾患の相互作用に関する新たな知見を得る。いくつかの例示的な実施形態は、Berg Interrogative Biology(TM)Informatics Suiteの少なくとも一部又は全部を組み込んだシステムを含む。
図2は、システム200の例のネットワーク図を示す。システム200は、その一部又は全体が本実施形態に基づく本明細書に記載の方法を実行するために使用され得る。システム200は、ネットワーク205、デバイス210、デバイス215、デバイス220、デバイス225、サーバ230、サーバ235、データベース240、及びデータベースサーバ245を備え得る。デバイス210、215、220、225、サーバ230、サーバ235、データベース240、及びデータベースサーバ245は、それぞれネットワーク205と接続されている。
実施形態において、ネットワーク205の1以上の部分は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク(VPN)、ローカルエリアネットワーク(LAN)、無線LAN(WLAN)、ワイドエリアネットワーク(WAN)、無線ワイドエリアネットワーク(WWAN)、メトロポリタンエリアネットワーク(MAN)、インターネットの一部、公衆電話網(PSTN)の一部、携帯電話ネットワーク、無線ネットワーク、WiFiネットワーク、WiMaxネットワーク、その他任意タイプのネットワーク、又はこれらネットワークの2以上の組み合わせである。
デバイス210、215、220、225としては、以下が挙げられるがこれに限定されるものではない:ワークステーション、パーソナルコンピュータ、汎用目的コンピュータ、インターネットアプライアンス、ラップトップ、デスクトップ、マルチプロセッサシステム、セットトップボックス、ネットワークPC、無線デバイス、ポータブルデバイス、ウェアラブルコンピュータ、携帯電話、携帯電子個人端末(PDA)、スマートフォン、タブレット、ウルトラブック、ネットブック、マルチプロセッサシステム、マイクロプロセッサベース又はプログラム可能電子機器、ミニコンピュータ、など。デバイス210、215、220、225のそれぞれは、有線又は無線接続を介してネットワーク205と接続することができる。
一部の実施形態において、サーバ230とサーバ235は、分散コンピュータ環境の一部であってもよい。そこでタスク/機能の一部はサーバ230と235の間で分散される。一部の実施形態において、サーバ230とサーバ235は、並列コンピュータ環境の一部であり、サーバ230とサーバ235はタスク/機能を並列実施して、本明細書が記載するベイジアン因果関係ネットワークを生成するために必要なコンピュータリソースと処理リソースを提供する。
一部の実施形態において、サーバ230、235、データベース240、データベースサーバ245はそれぞれ、有線接続によりネットワーク205と接続される。これに代えて、サーバ230、235、データベース240、又はデータベースサーバ245のうち1以上は、無線接続によりネットワーク205と接続することもできる。図示していないが、データベースサーバ245は、データベース240と直接接続することができ、あるいはサーバ230、235はデータベースサーバ245及び/又はデータベース240と直接接続することができる。サーバ230、235は、ネットワーク205を介してデバイス210、215、220、225と通信するように構成された1以上のコンピュータ又はプロセッサを備える。サーバ230、235は、デバイス210、215、220、及び225がアクセスする1以上のアプリケーション又はウェブサイトをホストし、及び/又はデータベース240のコンテンツにアクセスできるようにする。データベースサーバ245は、データベース240のコンテンツにアクセスできるようにするように構成された1以上のコンピュータ又はプロセッサを備える。データベース240は、サーバ230、235、データベース245、及び/又はデバイス210、215、220、225が用いるデータ及び/又は命令を格納する1以上のストレージデバイスを備える。データベース240、サーバ230、235、及び/又はデータベースサーバ245は、1以上の地理的に互いに分散した場所に配置し、又はデバイス210、215、220、225から地理的に分散した場所に配置することができる。これに代えてデータベース240は、サーバ230、若しくは235、又はデータベースサーバ245に含めることができる。
図3は、実施形態にしたがってモジュールで実装されたシステム300を示すブロック図である。いくつかの実施形態においてモジュールは、オミクスモジュール310、臨床記録モジュール320、統合モジュール330、スライシングモジュール340、ベイジアンネットワークモジュール350、及び分析モジュール360を含む。実施形態の例において、モジュール310、320、330、340、350及び360のうち1以上は、サーバ230及び/又はサーバ235に含まれる。モジュール310、320、330、340、350及び360のうちその他のものは、デバイス210、215、220、225において提供される。
別の実施形態において、モジュールはデバイス210、215、220、225のいずれかが実装することができる。モジュールは、デバイス210、215、220、225が備える1以上のプロセッサが実行するように構成された1以上のソフトウェアコンポーネント、プログラム、アプリケーション、apps、その他のコードベースユニット又は命令を備える。
図3においてモジュール310、320、330、340、350、360は個別のモジュールとして示しているが、モジュール310、320、330、340、350及び360は図示するよりも少ない又は多いモジュールとして実装できることを理解されたい。モジュール310、320、330、340、350及び360は、1以上の外部コンポーネントと通信できることを理解されたい。例えばデータベース、サーバ、データベースサーバ、又は他のデバイスである。
いくつかの実施形態では、オミクスモジュール310が、ハードウェアによって実施されたモジュール(以後、ハードウェア実施モジュール)であって、複数の対象の試料の分析によって取得された分子的プロファイルデータを受け取り、管理するように構成されたモジュールである。オミクスモジュール310は、試料に関するプロテオミクス、メタボロミクス、リピドミクス、ゲノミクス、トランスクリプトミクス、マイクロアレイ及び配列決定データのうちの任意のデータを受け取るように構成することができる。いくつかの実施形態では、オミクスモジュール310が、オミクスデータを生成する目的に使用されているシステムからオミクスデータを受け取るように構成されている。オミクスモジュール310はさらに、分子的プロファイルデータを処理して、処理された分子的プロファイルデータを生成するように構成されている。いくつかの実施形態では、オミクスモジュール310が、複数の対象に対する治療の過程中の異なる時点において収集されたデータを組み合わせるように構成されている。いくつかの実施形態では、オミクスモジュール310が、データをフィルタにかけて、まれにしか測定されなかった変数を除外するように構成されている。いくつかの実施形態では、オミクスモジュール310が、データを生成するための試料の分析中に利用された異なるバッチ間で試料が比較可能であることを保証するために、系統的偏りを除去することによってデータを正規化するように構成されている。いくつかの実施形態では、オミクスモジュール310が、複数の対象のうちの特定の対象に対して測定されなかった変数を代入するように構成されている。いくつかの実施形態では、オミクスモジュール310が、データを組み合わせ、データをフィルタリングし、データを正規化し、測定されなかった変数を代入するように構成されている。
いくつかの実施形態では、臨床記録モジュール320が、複数の対象の臨床記録データを受け取り、管理するように構成されたハードウェア実施モジュールである。臨床記録モジュール320はさらに、臨床記録データを処理するように構成されている。
いくつかの実施形態では、統合モジュール330が、複数の対象の処理された分子的プロファイルデータと処理された臨床記録データとを統合し、統合されたデータを併合データとしてデータベースに記憶するように構成されたハードウェア実施モジュールである。
いくつかの実施形態では、スライシングモジュール340が、臨床記録から取得された判定基準に基づいて併合データをスライスして、2つ以上のスライスされたデータセットを生成するように構成されたハードウェア実施モジュールである。
いくつかの実施形態は、スライスされたデータセットのうちの1つ以上のデータセットからベイジアン因果関係ネットワークを生成するように構成されたハードウェア実施モジュールであるベイジアンネットワーク生成モジュール350を含む。いくつかの実施形態では、ベイジアンネットワークモジュール350がさらに、生成されたベイジアン因果関係ネットワークから結果動因を同定するように構成されている。
分析モジュール360は、作用剤の投与に関係した臨床的結果を予測するためのバイオマーカーを同定するように構成されたハードウェア実施モジュールとすることができる。いくつかの実施形態では、生成されたベイジアンネットワークを分析して結果動因を同定することが、ベイジアンネットワークモジュール350の代わりに、又はベイジアンネットワークモデルとともに分析モジュール360によって実施される。いくつかの実施形態では、分析モジュール360が、統計分析を実施して、差次的に発現された変数を同定するように構成されている。いくつかの実施形態では、分析モジュール360がさらに、機械学習アルゴリズムを管理し、機械学習アルゴリズムを可能なバイオマーカーに適用して、作用剤の投与に関係した臨床的結果を予測するための潜在的バイオマーカー(予測子(predictor))を同定するように構成されている。同定された潜在的バイオマーカー(予測子)を作用剤の後続の臨床試験に適用するように、分析モジュール360を構成することもできる。いくつかの実施形態では、分析モジュール360が、異なる態様の分析を実行する多数の異なるモジュール(例えば結果動因同定モジュール、差次的発現モジュール及び機械学習モジュール)を含む。
図4は、一実施形態に基づく、臨床試験によって取得されたデータを分析する臨床試験分析ワークフロー(clinical trial analytics workflow:CTAW)400の例示的なフロー図を示す。方法400は臨床試験の文脈で説明されるが、臨床試験の文脈外でも、複数の対象に作用剤が投与される他の何らかの試験、実験又は研究にこの方法を適用することができることを当業者は理解する。臨床試験中の複数の対象に作用剤を投与する前、投与している間、及び/又は投与した後に、複数の対象から試料を収集する。例示的な実施形態では、対象(例えば患者)から試料(例えば血液、組織、尿試料)を取得し、オミクスプロファイリング(omics profiling)によって、リピドミクスデータ402、メタボロミクスデータ404及びプロテオミクスデータ406を生成するよう問い合わせる。収集した試料を処理してリピドミクスデータ402、メタボロミクスデータ404及びプロテオミクスデータ406を生成することのさらなる詳細については、「分子的プロファイルデータの生成」と題された項で後に説明する。いくつかの実施形態では、試料の分析により、ゲノミクスデータ及びトランスクリプトミクスデータなどの追加のデータも生成する。
ステップ408で、リピドミクスデータ402、メタボロミクスデータ404及びプロテオミクスデータ406を入力としてとるオミクスデータ処理を実行する。ゲノミクスデータ及び/又はトランスクリプトミクスデータを含む実施形態では、これらのデータもオミクスデータ処理に含める。特定技術の(technology-specific)パイプラインが、臨床試験中の異なる時点において収集されたデータを組み合わせる併合によって、これらの未処理のオミクス測定値を、処理された分子的プロファイルデータに変換する。いくつかの実施形態では、この処理が、まれにしか測定されなかった変数を除外するフィルタリングを含む。さらに、必要に応じて、バッチ間で試料が比較可能であることを保証するために、系統的偏りを除去することによってデータを正規化する。いくつかの実施形態では、必要に応じて、代入(imputation)を使用して、特定の試料中で測定されなかった変数のレベルを推測する。オミクス処理に関するさらなる詳細は、「オミクスデータ処理」と題された後の項に含まれている。
ステップ410で、いくつかの実施形態では、品質管理ステップによって、オミクスデータ処理のデータ処理信頼性を保証する。品質管理ステップは、未処理データファイルが期待されるフォーマットに従っているかどうかを試験するステップ、及びオミクスデータ処理のそれぞれのステップを追跡する直観的な視覚化を実施するステップを含む。トレーサビリティを保証するため、いくつかの実施形態では、品質管理ステップからの全ての出力が(例えばオミクスモジュール310によって)中央ログファイルに書き込まれる。
臨床データ412を取得する。臨床データの入力に関する追加情報は「臨床記録データ」と題された後の項に示されている。いくつかの実施形態では、分子プロファイリングに使用したどの試料がどの患者に対応するのか及びどの時点で試料を採取したのかを同定するマスタファイル414を作成又は取得する。この時点は、特定の対象の関連する出発時点に対して記録することができる(例えば、時間0を治療サイクルの始まりに対応させることができる)。いくつかの実施形態では薬物動態データ416も取得する。本明細書では薬物動態データ416を一種の臨床記録データとみなし、いくつかの実施形態では、臨床データ412と一緒に薬物動態データ416を提供する。臨床データの入力及びマスタファイルの生成に関する追加情報は「臨床記録データ」と題された後の項に示されている。
ステップ418で、処理された分子的プロファイルデータを臨床データと統合する。いくつかの実施形態では、対象を(例えば患者IDによって)指定し、さらに収集されたそれぞれの試料に対応する時点を指定するマスタファイル414を用いて、処理された分子的プロファイルデータ(例えばオミクスデータ)を臨床記録と併合する。次いで、臨床データモニタによって提供された、臨床記録の形態の臨床データ412を、処理された分子的プロファイルデータと併合し、併合データをデータベースに記憶する。臨床データ412は薬物動態データ416を含むことができる。患者ID及び収集時刻が与えられている場合には、利用可能な臨床記録をオミクスデータと時間的にマッチングさせて、オミクスデータ及び臨床記録を含む統合されたデータセットを生成することができる。その結果生成されるデータベース中の併合データは、時間を横切って収集された全ての対象(例えば臨床試験に参加した患者)の人口統計、治療、疾患又は障害の状態、臨床的結果データ(例えば癌治療の臨床試験における腫瘍サイズ測定値、有害事象など)、検査室測定値、薬物動態データ、プロテオミクス、リピドミクス及びメタボロミクスデータのうちの任意の又は全てのデータを含むことができる。上述のとおり、補間(例えば線形補間)を利用して、腫瘍サイズなどの定量的な臨床記録を、オミクス試料の時点にマッチングさせることができる。
いくつかの実施形態では、ステップ420で、併合データに対して品質管理ステップを実行する。品質管理ステップが、重複した臨床記録を照合するステップとデータ源間の相違点を解消するステップのうちの一部又は全部を含むことができる。いくつかの実施形態では、このような不一致及びそれらの解消が全て(例えば統合モジュール330によって)ログファイルに記録される。いくつかの実施形態では、このステップが省略され、又は他の品質管理ステップと組み合わされる。
ステップ422で、併合データをフィルタにかける。このフィルタリングでは、対応する臨床情報を欠く時点の試料を同定し、それらの試料を併合データから除外する。いくつかの実施形態では、このステップが省略され、又は他のステップと組み合わされる。
ステップ424で、臨床データに基づく1つ以上の判定基準を使用して併合データをスライスして2つ以上のデータセット(スライス)を生成し、それによりスライスされたデータセットを形成する。異なる判定基準を使用して複数回にわたってデータをスライスして、多数のスライスされたデータセットを形成することができる。スライシングのためのさまざまな判定基準については図1のステップ108に関して上で説明した。例示的なデータスライスが後の実施例2で列挙される。
ステップ426で、スライスされたデータセットの基礎をなすデータを表すベイジアン因果関係ネットワークを生成する。これを、入力データに基づいてベイジアンネットワークを「学習する」と記述することができる。ベイジアンネットワークは、入力データ中の基礎をなす相関構造を最もよく記述する原因−結果グラフ(cause-and-effect graph)である。これらのネットワークはノード及びエッジ(edge)からなる。ネットワークノードは、分子的特徴(タンパク質、脂質、代謝産物)、臨床的変数(臨床検査、腫瘍反応)及び患者人口統計(治療群、年齢、人種)を表す。エッジは、ネットワークノード間の原因−結果関係を表す。
ベイジアン学習の前に、データスライス中のそれぞれの変数をミドル(middle)、トップ(top)又はボトム(bottom)変数として指定する。この定義は、それぞれの変数に許された接続のタイプを指す。ミドル変数は、子又は親ノードの役目を果たすことができるという点で制約がない。トップ変数は親ノードにしかなりえず、したがって子ノードの役目を果たすという点では制約がある。反対に、ボトム変数は子ノードにしかなりえず、したがって親ノードの役目を果たすという点では制約がある。例示的な実施形態では、トップ変数が、後に論じる実施例1及び2に割り当てられた試験群などの患者人口統計及び臨床的介入からなる。ボトム変数は、後に論じる実施例1及び2の腫瘍サイズ及び腫瘍反応など、臨床的結果に関係した特徴を含む。臨床検査及びオミクス変数はミドル変数とみなされ、したがって、それらは親又は子ノードの役目を果たすことができる。
いくつかの実施形態では、CTAWが利用するベイジアンネットワークアルゴリズムが、それぞれのデータスライスからのネットワークの集合を学習する。ネットワークの集合は、データスライスのベイジアンネットワークを集合的に表す。例示的な集合では、学習するネットワークの数が500個のネットワークを含むことがある。他の実施形態では、CTAWが学習する集合中のネットワークの数が500〜1000個のネットワークを含む。他の実施形態では、CTAWが学習するネットワークの数が1000個を超えるネットワークを含む。いくつかの実施形態では、ベイジアンネットワークを生成するためのプラットホームとして、リコンストラクティングインテグレイティブモレキュラーベイジアンネットワーク(Reconstructing Integrative Molecular Bayesian Network:RIMBANet)が使用される。
いくつかの実施形態では、ベイジアン学習に続いて、以下の後処理ステップを適用する。500個のネットワークのうち収束するネットワークの数が300未満である集合中のネットワークは無視する。任意の集合ネットワークに含まれるエッジを組み合わせ、エッジの出現頻度を算出する。20%のエッジ頻度要件を課すことにより、ネットワークの集合を横切ってまれにしか生じないエッジは除外する。親ノードデータセットを子ノードデータセットに関係づけるピアソン相関係数を計算することによって、それぞれのエッジの方向性を連続変数に割り当てる。1つ以上の離散変数を接続するエッジは「離散的(discrete)」とみなす。0.2よりも大きな相関係数は「直接(direct)」とみなし、−0.2よりも小さな相関係数は「逆(reverse)」とみなす。「直接」でも又は「逆」でもない相関係数は「因果(causal)」とみなす。例示的なデータセットからのネットワークの図表現が図22に示されている。ベイジアン因果関係ネットワークの生成に関するさらなる詳細は、「AIに基づくシステムを使用したベイジアン因果関係ネットワークの生成」と題された後の項に出ている。生成されたベイジアンネットワークのさらなる議論及び例は、「出力AIネットワーク」と題された後の項に出ている。
いくつかの実施形態では、CTAW400によって学習されたそれぞれのネットワークのトポロジ特徴を分析することによって、可能なバイオマーカー又は潜在的なバイオマーカーである結果動因を同定する。スライスされたデータセットからベイジアン因果関係ネットワークを生成した後、そのネットワークのトポロジを分析して、関心の結果の潜在的バイオマーカーを示すことができる。例えば、全ての患者を含むスライスされたデータセットを使用して、ベイジアン因果関係ネットワークを生成することができる。ベイジアン因果関係ネットワークでは、関心の結果変数の周囲のサブネットワークを同定することができる。例えば、投与された作用剤が、固形腫瘍を生じさせる条件を治療することを意図したものである場合には、腫瘍サイズを関心の結果変数とすることができる。サブネットワークは、関心の結果変数と第1度の関係(first degree relationship)を有する変数(例えば、腫瘍サイズ変数に1つの関係によって直接に接続された変数。図表現では、この変数が、「エッジ」によって腫瘍サイズ変数に接続された変数として示される)を含む。サブネットワークはさらに、関心の結果変数と第2度の関係を有する変数(例えば、腫瘍サイズ変数と1つの関係によって接続された変数に1つの関係によって接続された変数)を含むことがある。いくつかの実施形態では、サブネットワークがさらに、関心の結果変数と第3度の関係を有する変数を含む。次いで、サブネットワーク中の変数を、関心の結果の(例えば作用剤による治療に対する反応性の)可能なバイオマーカー又は潜在的なバイオマーカーとして分析する。例えば、ベイジアン因果関係ネットワークを使用したシミュレーションを利用して、関心の結果変数(例えば腫瘍サイズ)に対するサブネットワーク中の変数の影響を調べる。
いくつかの実施形態では、反応性の患者(以後、反応性患者)と非反応性の患者(以後、非反応性患者)とによってデータをスライスし、それらのスライスされたデータセットに基づいてベイジアン因果関係ネットワークを生成する。反応性患者のデータに基づくベイジアン因果関係ネットワーク中の関心の結果変数の周囲でサブネットワークを同定することができる。例えば、反応性患者のデータに基づくベイジアン因果関係ネットワークの腫瘍サイズ変数の周囲でローカルネットワークを同定することができる。
反応性患者に対するベイジアン関係ネットワーク及び非反応性患者に対するベイジアン関係ネットワークを、反応性の潜在的バイオマーカーを強調する差と比較することができる。いくつかの実施形態では、このような比較が、反応性患者に対するベイジアン関係ネットワーク及び非反応性患者に対するベイジアン関係ネットワークに基づく差次的(デルタ)ネットワークの形成を含む。生成差次的(デルタ)ネットワークに関するさらなる詳細は、「AIに基づくシステムを使用したベイジアン因果関係ネットワークの生成」と題された後の項に出ている。
さらに、いくつかの実施形態では、それぞれのノードについて、単独で及び用語「癌」又は「ミトコンドリア」と組み合わせて文献探索を実行する。いくつかの実施形態では、200を超える発表文献が存在するノードを可能なバイオマーカーのセットから除外する。それらのノードは、新規の薬物治療又は相互作用の発見に寄与しないためである。
ステップ432で、コンパニオン診断マーカー(CDx)を同定する。CDxは、作用剤の投与に関係した臨床的結果のバイオマーカー又は潜在的バイオマーカーである。CDxは、治療前又は患者結果を予測する試験が始まった後の任意の時期に測定することができる。具体的には、CDxマーカーは、作用剤を用いて治療された患者の結果に関する予測を実施する目的に使用することができる分子的特徴及び/又は臨床検査のパネルである。理想的には、1つのパネルの中で使用されるCDxは、関心の結果を予測し又は関心の結果と高い相関を有するが、互いに比較的に相関しない(例えば直交する)。CDxマーカーは3つの構成要素、すなわち(1)測定すべき一組の特徴、(2)それらの特徴を測定する時点、及び(3)予測する臨床的出力を有する。例えば、患者結果を予測するCDxマーカーを導き出すシナリオは次のとおりである。測定するマーカーのパネルは、バフィーコート中で測定された7つのタンパク質のレベル、血漿中で測定された2つの脂質のレベル及び血漿中で測定された1つの代謝産物のレベルからなる。測定の時点は、作用剤の最初の投与を始める直前(例えばCoQ10の最初の注入の直前)である。これらのCDxマーカーの予測力(predictive power)は、これらの分子的特徴を使用して、治療に対して患者が反応性なのか又は非反応性なのかを予測することであり、試験に参加した時間の長さを患者反応の代用物ととらえる。その結果得られた一組のCDxマーカーを、図31に示されているいような箱ひげ図として視覚化することができる。
同様に、重度の有害事象を予測するCDxマーカーを見出すことができる。ここで、CDxマーカーのパネルは、血漿中で測定された1つのタンパク質、血漿中で測定された1つの代謝産物及びバフィーコート中で測定された8つのタンパク質からなることができる。治療を開始する前にこれらのCDxマーカーを測定することによって、重度の有害事象を経験する一組の患者を予測することができ、残りの患者は、重度の有害事象を経験しないと予測される。図32は、有害事象を予測するCDxマーカーを示す。
本明細書で使用されるとき、コンパニオン診断(CDx)は、作用剤の投与に関係した臨床的結果の潜在的バイオマーカー又はバイオマーカーである。患者結果は例えば、総合的臨床的利益を得た患者を臨床的利益を示さなかった患者から区別することによって、又は有害事象を経験した患者を経験しなかった患者から区別することによって定義することができる。この例示的な方法400では、総合的臨床的利益428を示した患者と臨床的利益430を示さなかった患者とによってスライスされたデータセットの分析を使用して、作用剤の投与に対する患者反応を予測するCDxバイオマーカーを同定する。CTAWを使用して、治療を開始する前に患者結果を予測する一組のCDxマーカーを同定することができる。いくつかの実施形態では、生成された因果関係ネットワークのトポロジ特徴を使用してCDx又は候補CDxを同定する。いくつかの実施形態では、ネットワークトポロジ特徴と統計分析との組合せを使用して候補CDxを同定する。候補CDxマーカーは可能なバイオマーカーであり、その中からCDx潜在的バイオマーカーが同定される。例えば、患者が重度の有害事象を経験するかどうかを予測する候補CDxマーカーを見出すことができる。図35は、差次的発現から決定された上位10個の候補CDxマーカーの箱ひげ図を示す。
いくつかの実施形態では、ネットワークトポロジ特徴(例えば結果動因を決定するため)、統計分析(例えば差次的に発現された変数を見つけるため)及び機械学習法の組合せを使用してCDxを同定する。
いくつかの実施形態では、ネットワークトポロジ特徴及び統計分析を使用して可能なバイオマーカー(例えば候補CDxマーカー)のセットを同定し、それらの可能なバイオマーカーのセットを、機械学習を使用して分析して、互いに比較的に相関しないが、結果と強く相関し又は結果を強く予測するサブセットを選択する。それらのサブセットがCDxマーカーである。例えば、そのような一実施形態では、CDxマーカーの同定に含まれるステップが、(1)関連したAIネットワーク中の予測対象に関係した主要な出力の動因である変数を獲得するステップ、(2)指定された時点における患者層別化群間の差次的に発現された変数を同定するステップ、及び(3)ステップ(1)及び(2)の結果を、どの特徴が表現型結果をロバストに予測するのかを判定する機械学習アルゴリズム(例えばイラスティックネットを使用した回帰)に入力するステップである。コンパニオン診断を決定するための分析のさらなる議論は、「潜在的バイオマーカー(例えばコンパニオン診断)の決定」と題された後の項に示されている。
図4に戻る。CDxパイプラインに続いて、ステップ434で、品質管理ステップが、同定されたバイオマーカーの信頼性を、CDxパイプラインに入力された処理後のデータセット中のそれらのバイオマーカーの測定値を確認することによって保証する。いくつかの実施形態では、これらの品質管理ステップ434が省略され、又は他のステップと組み合わされる。いくつかの実施形態では、品質管理手順の最初のステップが、10個の候補CDxマーカーを無作為に選択するステップである。品質管理のために選択したそれらの候補CDxマーカーについて、患者層別化群(有害事象を経験した患者及び経験有害事象を経験しなかった患者など)の要約統計量(平均及び標準偏差)を計算する。次いで、正しいデータ点が選択されていること、及び適正な処理ステップが適用されていることを保証するために、算出された要約統計量を、CTAWパイプラインによって以前に計算された値と比較する。加えて、所与のCDx分析に関する詳細な品質管理リポートを作成する。
オミクスデータ処理
バフィーコート及び血漿プロテオミクスデータの処理
いくつかの実施形態では、バフィーコート及び血漿プロテオミクスデータファイルを以下の方法に従って処理する。以下の方法では、どちらのタイプの試料を指すときでも用語「プロテオミクス」を使用する。いくつかの実施形態では、処理されたバフィーコート及び血漿プロテオミクスデータをプロテオミクスデータ406としてCTAW400に入力する。いくつかの実施形態では、データ処理が、CTAW400との適合性(compatibility)を保証するために構文解析ツール(parsing tool)によって注釈が付けられたプロテオミクスデータファイルから始まる。次いで、多数のバッチを横切って収集された注釈付きのデータを併合して、収集された任意の試料中で測定された全てのタンパク質を含む図5に示されているような単一のデータフレーム500を生成する。図5では、2つの未処理データファイル中に存在する試料が水平線520によって分離されている。一方の未処理データファイルでは一意的に測定されているが、もう一方のデータファイルではそうされていないタンパク質が垂直線510によって分離されている。
いくつかの実施形態では、log2変換を適用することによってプロテオミクスデータを変換する。2回以上測定されたタンパク質識別子(identifier)は、それらの中央値によってまとめられ、それによって一意のタンパク質識別子だけが残ることを保証する。いくつかの実施形態では、60%を超える試料に欠測値があるタンパク質を信頼できないとみなし、したがって、図6のデータ表現600に示されているようにそれらのタンパク質をさらなる分析から除外する。図6では、維持されたタンパク質及び除外されたタンパク質がそれぞれ、一番上の列610のより明灰色及びより暗灰色の陰影によって示されている。いくつかの実施形態では、バフィーコートプロテオミクス試料を処理するときに、タンパク質レベルがそれらのQCP試料に対して首尾一貫して測定されたものであることを保証する追加のフィルタリングステップ(QCPフィルタリング)を適用する。いくつかの実施形態では、60−lessと呼ばれる手法によってデータを正規化する。この手法は、最初に特徴ごとに変動係数を計算し、次に変動係数が下から60%に入る特徴を不変であるとみなすことを含む。次いで、それぞれの試料の中心を不変のタンパク質の中央値に置き、試料ごとに、平均四分位範囲(mean interquartile range:IQR)を四分位範囲で除した値でスケーリングする。正規化プロセス(60−less手法)前の試料にわたるタンパク質分布が図7Aに示されている。図7Bは、正規化プロセスが適用された後の試料にわたるタンパク質分布を示す。その平均よりも低い2つの標準偏差及びその平均よりも高い2つの標準偏差から自動的に一意的にサンプリングするスクリプト、プログラム又はソフトウェアコードを使用して、欠測値を代入する。図8は、代入の前後のデータセットを示す。この図では、正規化されたプロテオミクスデータセット中の欠測データが代入されている。代入前のデータセットは線810の上に示されており、代入後の対応するデータセットは線810の下に示されている。
構造リピドミクス
いくつかの実施形態では、構造リピドミクスデータファイルに構文解析ツールによって注釈を付けて、未処理データをCTAW400に適合するフォーマットに変換する。処理されたリピドミクスデータはリピドミクスデータ402としてCTAW400に入力することができる。いくつかの実施形態では、データ処理が、個々のリピドミクスデータファイル中に見られる欠測データに対して代入を実行することから始まる。いくつかの実施形態では、脂質クラス中で観察された最も低い値とその値の半値との間で一意的にサンプリングすることによって欠測値を代入する。図9は、代入の前後のデータセットを示す。代入前のデータセットが水平線910の上に示されており、代入後のデータセットが水平線910の下に示されている。いくつかの実施形態では、代入が、それぞれのリピドミクスデータの処理で観察された最小値に対するものになるように、代入がデータファイルごとに実行される。
代入に続いて、データファイルを併合して脂質クラスの単一のリストとし、log2変換する。いくつかの実施形態では、脂質クラスごとに正規化を実行する。この正規化では、クラスごとに最適なラムダ(λ)値を決定する。このクラスの中の脂質値をglog変換によって変換し、変換された脂質の中心を中央値に置く。正規化プロセスのそれぞれのステップ後のデータセットが図10に示されている。次に、欠測データを含む任意の脂質を除外する。欠測データの存在は、バッチを横切って首尾一貫しては検出されなかった脂質を示すためである。最後に、前もって不安定であることが判明した脂質を除外し、それによって処理されたデータセットのロバストネス(robustness)を保証する。
血漿シグナリングリピドミクス
いくつかの実施形態では、シグナリングリピドミクスファイルに構文解析ツールによって注釈を付けて、未処理データをCTAW400に適合するフォーマットに変換する。処理されたリピドミクスデータはリピドミクスデータ402としてCTAW400に入力することができる。いくつかの実施形態では、それぞれのファイル中で観察される最も低い値とこの値の半値との間で一意的にサンプリングすることによって、個々の脂質ファイル中に存在する一切の欠測データを代入する。代入されたデータセットが図11に示されている。この図では、代入前のデータセットが水平線1110の上に示されており、代入後のデータセットが水平線1110の下に示されている。この代入は、データファイルごとに実行し、それによって代入されたデータが、それぞれのリピドミクス処理に対して適切な範囲内にあることを保証する。いくつかの実施形態では、代入後、データを併合し、バッチ中の全ての試料を横切っては測定されなかった脂質を除外する。いくつかの実施形態では、次いでデータをlog2変換及び正規化する。正規化は、最適なラムダ(λ)値を決定し、glog変換を適用し、中央値に中心を置くことによって実施する。正規化プロセスのそれぞれのステップ後のデータセットが図12に示されている。いくつかの実施形態では、正規化に続いて、前もって不安定であるとのフラグが立てられた脂質を除去する。
尿プロテオミクス
いくつかの実施形態では、データ処理が、CTAW400との適合性を保証するためにカスタムの構文解析ツールによって注釈が付けられたプロテオミクスデータファイルから始まる。処理されたプロテオミクスデータはプロテオミクスデータ406としてCTAW400に入力することができる。いくつかの実施形態では、次いで、多数のバッチを横切って収集された注釈付きのデータを併合して、収集された任意の試料中で測定された全てのタンパク質を含む図13に示されているような単一のデータフレーム1300を生成する。図13では、2つの未処理データファイル中に存在する試料が水平線1320によって分離されている。一方の未処理データファイルでは一意的に測定されているが、もう一方のデータファイルではそうされていないタンパク質が垂直線1310によって分離されている。いくつかの実施形態では、75%を超える試料に欠測値があるタンパク質を信頼できないとみなし、したがって、図14のデータ表現1400に示されているようにそれらのタンパク質をさらなる分析から除外する。図14では、維持されたタンパク質及び除外されたタンパク質がそれぞれ、一番上の列1410の明灰色及び暗灰色によって示されている。
いくつかの実施形態では、水分補給の差に起因する変動性を低減させるように設計された手順によって尿プロテオミクスデータを正規化する。この正規化は、値が希釈レベルだけに依存し、互いの値の相関が高く、それぞれの尿試料中で検出可能である安定したタンパク質を同定することによって実施する。安定したタンパク質を同定する最初のステップは、97%を超える尿試料に存在するタンパク質を考慮するステップである。次に、この一組の候補安定タンパク質に、マルチスケールブートストラップリサンプリング(multiscale bootstrap resampling)を使用した階層的クラスタ化(hierarchical clustering)を適用して、クラスタ化結果の中のそれぞれのクラスタの有意性(significance)を推定する。次いで、クラスタを組み合わせ、一組の安定した尿タンパクとして働くそれらのメンバの能力を、正規化された値と正規化された値の平均値との間の絶対偏差の和を計算することによって評価する。絶対偏差の和が最も小さくなる一組の尿タンパクを最適な一組の安定した尿タンパクとして選択する。この一組の安定した尿タンパクが選択されたら、試料を横切って安定したタンパク質の中央値を計算し、それぞれの安定したタンパク質の発現レベルをこの値で除し、安定したタンパク質の試料当たりの平均発現を計算することによって、乗数(multiplier)を算出する。その結果得られる値は、試料ごとに全ての尿タンパク値に適用され、正規化された尿プロテオミクスデータを生成する除数(divisor)として機能する。正規化プロセス前の試料にわたるタンパク質分布が図15Aに示されている。図15Bは、正規化プロセスが適用された後の試料にわたるタンパク質分布を示す。図15A及び15Bの「abs. dif」値はそれぞれ、未処理データと正規化されたデータの値と平均値の間の絶対偏差の和を指す。正規化に続いて、タンパク質値をlog2変換する。いくつかの実施形態では、次いで、正規化されたプロテオミクスデータフローの欠測データを代入する。図16は、代入の前後のデータセットを示す。欠測値は、その平均よりも低い2つの標準偏差及びその平均よりも高い2つの標準偏差から一意的にサンプリングすることによって代入される。代入前のデータセットは線1610の上に示されており、代入後のデータセットは線1610の下に示されている。
血漿メタボロミクス
いくつかの実施形態では、分光計を使用して試料を分析する前に試料に実行する手順(クロマトグラフィ)に応じた異なる3つの技法によって血漿メタボロミクスデータを取得する。これらの3つの技法は、液体クロマトグラフィ−タンデム型質量分析法(liquid chromatography-tandem mass spectrometry:LCMSMS)、液体クロマトグラフィ−質量分析法(LCMS)及びガスクロマトグラフィ−質量分析法(GCMS)である。それぞれの技法による血漿メタボロミクスデータファイルを以下の方法に従って独立に処理し、最終的に併合する。処理されたメタボロミクスデータはメタボロミクスデータ404としてCTAW400に入力することができる。データ処理は、CTAW400との適合性を保証するためにカスタムの構文解析ツールによって注釈が付けられたメタボロミクスデータファイルから始まる。
いくつかの実施形態では、次いで、多数のバッチを横切って収集された注釈付きのデータを併合して、特定の手順のために収集された任意の試料中で測定された全ての代謝産物を含む単一のデータフレームを生成する。いくつかの実施形態では、代謝産物名の代わりに、メタボロミクスデータベースから検索することができる一意の識別子が使用される。いくつかの実施形態では、60%を超える試料に欠測値がある代謝産物を信頼できないとみなし、したがって、図17のデータ表現1700に示されているようにそれらの代謝産物をさらなる分析から除外する。図17では、維持された代謝産物及び除外された代謝産物がそれぞれ、一番上の列1710の明灰色及び暗灰色によって示されている。
いくつかの実施形態では、欠測値を含む代謝産物の欠測値を、その平均よりも低い2つの標準偏差及びその平均よりも高い2つの標準偏差から均一にサンプリングすることによって代入する。代入されたデータセットが図18に示されている。この図では、代入前のデータセットが水平線1810の上に示されており、代入後のデータセットが水平線1810の下に示されている。
いくつかの実施形態では、log2変換を適用することによってメタボロミクスデータを変換する。いくつかの実施形態では、60−lessと呼ばれる手法を使用してデータを正規化する。この手法は、最初に特徴ごとに変動係数を計算し、次に変動係数が下から60%に入る特徴を不変であるとみなすことを含む。次いで、それぞれの試料の中心を不変の代謝産物の中央値に置き、試料ごとに、平均四分位範囲(IQR)を四分位範囲で除した値でスケーリングする。正規化プロセス(60−less手法)前の試料にわたる代謝産物分布が図19Aに示されている。図19Bは、正規化プロセスが適用された後の試料にわたる代謝産物分布を示す。
正規化後、全ての3つの技法による代謝産物データを1つに併合する。その結果得られたデータセットが図20に示されている。この図では、2つの正規化されたデータファイル中に存在する試料が垂直線2010によって分離されている。一方の未処理データファイルでは一意的に測定されているが、もう一方のデータファイルではそうされていない代謝産物が垂直線2010によって分離されている。いくつかの実施形態では、2つ以上の技法で測定された代謝産物識別子/代謝産物を優先度に従ってフィルタリングする。技法間の代謝産物に対する優先度は次のとおりである:LCMSMS>LCMS>GCMS。したがって、LCMSMSデータセット及びLCMSデータセット中に代謝産物識別子/代謝産物が存在する場合には、LCMS値を除外し、それにより代謝産物識別子当たり一組の値だけが存在することを保証する。
オミクスデータコンソリデーション
いくつかの実施形態では、オミクス技術によって測定され、処理された分子的特徴を組み合わせて1つのリストにする。一意の試料だけが保持されるように、重複する試料は平均する。欠測データが多すぎることに起因する低い変動性を有する脂質を含むことを防ぐため、図21に示されているようにして不変の脂質を除去する。このフィルタリングに続いて、収集時刻に関する表現型情報の注釈をオミクス試料に付け、オミクス試料を単一のデータフレームに併合する。
未処理オミクスデータの入力
いくつかの実施形態では、ユーザ(例えば臨床試験管理者)が、未処理のオミクスデータを安全な共用ドライブ内に置き、これらのデータファイルを、CTAW400による処理について評価する。本明細書に記載されたシステムは、どのファイルがデータを含むのかを識別し、それらのデータファイルに、それらのオミクス技術、試料タイプ及びバッチの注釈を付ける。この手法は、ブラックリストに記載されたキーワードをファイル名が含まない限り、共用ドライブ内に存在する全てのファイルは有効なデータファイルであると仮定することから始まる。表1(下記)は、排除されるブラックリスト用語を含むファイル名を列挙したものである。さらに、接尾辞「all」又は「all−annotated」によって指定された併合されたプロテオミクス未処理ファイルは、個別のファイルが他に存在する場合には無視される。
有効な未処理のオミクスデータファイルを識別した後、使用されたオミクス技術とそれぞれの未処理データファイルに対応する試料タイプとを指定するコード化された名称を有するシンボリックリンク(symbolic link)を生成する。それぞれのファイルに対応するオミクス技術は、元のファイル名中に存在するキーワードに従って、又は個々の技術に固有の特徴の存在によって識別され、試料タイプは主として、ファイル名中のキーワード(尿、血漿、組織又はバフィーコート)の存在によって決定される。ファイル名から試料タイプを決定することができない場合には、マスタファイル中に存在する試料を探索することによって試料タイプを識別する。データタイプを識別した後にシンボリックリンクを生成する。表2(下記)は、本明細書に記載されたシステムによって分析される例示的なシンボリックリンクを示す。この例示的なシンボリックリンクは、105_ST_LP_CT_UR_169_02_01.xlsxである。
入力臨床記録データ
いくつかの実施形態では、臨床データが、一連のコンマセパレーテッドバリュー(comma-separated value:CSV)ファイルとしてCTAW400に入力される。下表3は、例示的な入力臨床データファイルを示す。これらの入力データファイルは、クリニカルデータインターチェンジスタンダーズコンソーシアム(Clinical Data Interchange Standards Consortium:CDISC)によって定義されたスタディデータタブレーションモデル(Study Data Tabulation Model:SDTM)に準拠している。
分子的プロファイルデータの生成
患者試料から分子的プロファイルデータを生成するためのシステム及び方法は、質量分析に基づくプロテオミクス、マイクロアレイ遺伝子発現、qPCR遺伝子発現、質量分析に基づくメタボロミクス、及び質量分析に基づくリピドミクス、SNPマイクロアレイ、並びに他のプラットフォーム及び技術のためのシステム及び方法を含み得る。患者サンプルを分析するために、大規模ハイスループット定量的プロテオーム分析を使用することができる。
一部の例の実施形態において、定量的ポリメラーゼ連鎖反応(qPCR)及びプロテオミクスが実施されて、定量的ポリメラーゼ連鎖反応(qPCR)及びプロテオミクスによる細胞mRNA及びタンパク質発現の変化をプロファイリングする。全RNAは、市販のRNA単離キットを用いて単離することができる。cDNA合成後に、血管新生、アポトーシス及び糖尿病等、疾患領域又は細胞プロセスに特異的な市販のqPCRアレイ(例えば、SA Biosciences製)を用いて、メーカーの説明書に従って予め定められた遺伝子のセットをプロファイリングすることができる。例えば、Biorad cfx−384増幅システムは、あらゆる転写プロファイリング実験に用いることができる。データ収集(Ct)後に、メーカーのプロトコールに概要が述べられているδCt方法を用いて、対照に対する最終変化倍数を決定することができる。プロテオミクスサンプル解析は、後続のセクションに記載されている通りに実施することができる。
この目的に適した多数の当該技術分野において認識されている技術が存在する。例示的な技法である、質量分析と組み合わせたiTRAQ解析を下に簡潔に記載する。
定量的プロテオミクスアプローチは、8−plex iTRAQ試薬による安定的同位体標識と、ペプチド同定及び定量化のための2D−LC MALDI MS/MSに基づく。この技法による定量化は相対的である。すなわちペプチド及びタンパク質は、参照サンプルに相対的な存在比を割り当てられる。複数のiTRAQ実験における共通参照サンプルは、複数のiTRAQ実験にわたるサンプルの比較を容易にする。
例えば、この解析スキームを実行するため、メーカーの示唆するところに従って、6種の一次サンプル及び2種の対照プールサンプルを8−plex iTRAQミックスに組み合わせることができる。続いて、8種のサンプルのこの混合物を二次元液体クロマトグラフィー(一次元目に強(strong)カチオン交換(SCX)、二次元目に逆相HPLC)により分画することができ、次いで質量分析による解析に付すことができる。
用いることのできる例示的な研究室手順の概略は、本明細書に提供されている。
タンパク質抽出:細胞をプロテアーゼ阻害剤(Thermo Scientific Haltプロテアーゼ阻害剤EDTAフリー)を含む8M尿素溶解バッファーにより溶解し、10分毎に5秒間ボルテックス(vertex)しつつ、氷上で30分間インキュベートすることができる。5秒間パルスの超音波処理により溶解を完了することができる。細胞ライセートを14000×gで15分間(4℃)遠心分離して、細胞デブリを除去することができる。ブラッドフォード(Bradford)アッセイを行って、タンパク質濃度の決定を実施することができる。各サンプル由来の100μgのタンパク質を還元(10mMジチオスレイトール(DTT)、55℃、1時間)し、アルキル化(25mMヨードアセトアミド、室温、30分間)し、トリプシンで消化(1:25w/w、200mM重炭酸トリエチルアンモニウム(TEAB)、37℃、16時間)することができる。
iTRAQ 8 Plex標識:各実験セットにおける各トリプシン消化物由来のアリコートを一体にプールして、プールされた対照サンプルを作製することができる。メーカーのプロトコール(AB Sciex)に従ってiTRAQ 8 Plex試薬により、各サンプル及びプールされた対照サンプル由来の等量のアリコートを標識することができる。反応物を組み合わせ、減圧乾固し、0.1%ギ酸を添加することにより再懸濁し、LC−MS/MSにより解析することができる。
2D−NanoLC−MS/MS:全標識ペプチド混合物を、オンライン2D−nanoLCにより分離し、エレクトロスプレータンデム質量分析により解析することができる。実験は、ナノエレクトロスプレーイオン源(Thermo Electron、ドイツ、ブレーメン)を備えるLTQ Orbitrap Velos質量分析計に接続されたEksigent 2D NanoLC Ultraシステムにおいて行うことができる。
ペプチド混合物を、5cm SCXカラム(300μm ID、5μm、ポリスルホエチルアスパルトアミド(PolySULFOETHYL Aspartamide)カラム、PolyLC製、メリーランド州コロンビア)に流速4μL/分で注入し、10個のイオン交換溶出セグメントにおいてC18トラップカラム(2.5cm、100μm ID、5μm、300Å ProteoPep II、New Objective製、マサチューセッツ州ウォバーン)へと溶出させ、H2O/0.1%FAで5分間洗浄することができる。続いて、2〜45%のB(H2O/0.1%FA(溶媒A)及びACN/0.1%FA(溶媒B))の勾配を用いて300nL/分で120分間、15cm溶融石英カラム(75μm ID、5μm、300Å ProteoPep II、New Objective製、マサチューセッツ州ウォバーン)において分離を更に行うことができる。
Orbitrapにおいて分解能30,000により、フルスキャンMSスペクトル(m/z 300〜2000)を取得することができる。高エネルギーC−トラップ解離(HCD)を用いてフラグメント化のために最も強いイオン(最大10種)を連続して単離し、30秒間動的に除外することができる。HCDは、単離幅1.2Daで行うことができる。orbitrapにおいて分解能7500により、得られたフラグメントイオンをスキャンすることができる。LTQ Orbitrap Velosは、Xcalibur2.1とfoundation1.0.1により制御することができる。
ペプチド/タンパク質同定及び定量化:ペプチド及びタンパク質は、SwissProtデータベースに対するMascot検索エンジンを備えるProteome Discovererソフトウェア(Thermo Electron)を用いた自動データベース検索により同定することができる。検索パラメータは、MSトレランス(tolerance)に対し10ppm、MS2トレランスに対し0.02Da及び最大2個の切断見逃しを許す完全トリプシン消化を包含し得る。カルバミドメチル化(Carbamidomethylation)(C)は、固定された修飾として設定することができる。酸化(M)、TMT6及び脱アミド(NQ)は、動的な修飾として設定することができる。ペプチド及びタンパク質同定は、Mascot有意閾値(p<0.05)によりフィルターをかけることができる。フィルターは、タンパク質同定の99%信頼レベルを許可することができる(1%FDA)。
Proteome Discovererソフトウェアは、レポーターイオンに補正因子を適用することができ、あらゆる定量化チャネルが存在する訳でなければ、あらゆる定量化値を拒絶することができる。相対的タンパク質定量化は、平均強度における正規化により成し遂げることができる。
AIに基づくシステムを使用したベイジアン因果関係ネットワークの生成
ベイジアン因果関係ネットワークの生成を、説明目的のため、以下でAIに基づくインフォマティクスシステムについて詳細に説明する。ただし当業者は、ベイジアン分析を用いる他のシステムを用いることができることを理解するであろう。
人工知能(AI)に基づくインフォマティクスシステム又はプラットフォームを用いて、スライスされたデータセットに基づくベイジアン因果関係ネットワークの生成を実施することができる。実施形態の例において、AIに基づくシステムは、数学的アルゴリズムを用いて入力変数(例えば、加工された臨床記録データ及び加工された分子的プロファイルデータ)間の因果関係を確立する。このプロセスは、潜在的な、確立された及び/又は確認された生物学的関係性に関する先行する既存の知識を考慮することなく、入力データ単独のみに基づく。上記のように、生物学的データからのベイジアン因果関係ネットワークの生成に関するさらなる詳細は、「照合による細胞に基づくアッセイ及びその使用」という名称の米国特許出願公開第2012/0258874号A1に記載されている(その全内容を参照により本明細書に組み入れる)。
一部の実施形態において、ベイジアン因果関係ネットワークの生成のためのかかるAIに基づくシステムの顕著な利点は、得られるネットワークが、生物学的プロセスに関する当該技術分野におけるいかなる既存の知識に頼る又は考慮することもなく、専らスライスされたデータに基づくことである。更に、好ましくはデータ点は、統計的に又は人為的にカットオフされず、代わりに、スライスされたデータは全て、変数間の関連を決定するためにAIシステムに読み込まれる。従って、作成されたベイジアン因果関係ネットワークの形態での得られた統計モデルは、入力データ間のいかなる公知の生物学的関係性も考慮しないため先入観のない(不偏性)ものである。
具体的には、スライスされたデータセットは、データ関連に基づき統計モデルを組み立てるAIに基づく情報システムに入力される。続いて、シミュレーションに基づくネットワークが、統計モデルから導かれる。
スライスされたデータを、必要があれば正規化し、入力データセットとしてAIに基づくインフォマティクスシステム(例えば、ベイジアンネットワークモジュール350)に入力する。一部の実施形態において、AIに基づくインフォマティクスシステムは入力データを使用するものであり、入力データの小さなセット(例:2〜3メンバーセット又は2〜4メンバーセット)間の定量的関係を定義する可能性あるネットワークフラグメントのライブラリ又はリストを構築するために使用される。異なる種類の入力データは、それらが個々の患者において異なり得るかどうかにかかわらず、「変数」と呼ばれる。例えば、性別、年齢、民族、血圧、及び特定のタンパク質の発現レベルはすべて、この文脈では「変数」と呼ばれるだろう。ネットワークフラグメント内の変数間の関係は、線形、ロジスティック、多項式、優性ホモ接合、又は劣性ホモ接合、などである。各フラグメントにおける関係は、ベイジアン確率スコアを割り当てられる。このスコアは、関係候補が入力データを与えられる可能性を反映したものであり、数学的複雑さによって関係に対してペナルティを与える。スコアに基づいて、ライブラリ内の最も可能性のあるフラグメントを識別することができる(尤もらしいフラグメント)。フラグメント列挙において様々なモデルタイプを用いることができる。例えば以下が挙げられるがこれに限定されない:ロジスティック回帰、(分散分析)ANOVAモデル、(共分散分析)ANCOVAモデル、非線形/多項回帰モデル、ノンパラメトリック回帰。モデルパラメータに対する従来の仮定は、モデルにおいて用いるパラメータ数に関してGull分散又はベイジアン情報量基準(BIC)ペナルティを想定している。
ネットワーク推論(inference)プロセスでは、フラグメントライブラリ内又は又はフラグメントのリスト内のフラグメントのサブセットから構築された集合内の各ネットワークを用いて初期試行ネットワークの集合が構築され、初期試行ネットワークが進化する。いくつかの実施形態では、初期試行ネットワークの集合内の各初期試行ネットワークは、フラグメントライブラリ又はフラグメントリストからのフラグメントの異なるサブセットを用いて構築される。最終的には、ライブラリ内のネットワークフラグメントの異なるサブセットから初期試行ネットワークの集合が作成される(例えば、500ネットワーク又は1000ネットワーク)。このプロセスは、並列集合サンプリングと呼ばれることがある。いくつかの実施形態では、集合内の各試行ネットワークは、ライブラリから追加のネットワークフラグメントを追加、減算、及び/又は置換することによって進化又は最適化される。いくつかの実施形態では、追加のデータが得られる場合、追加のデータはライブラリ内又はリスト上のネットワークフラグメントに組み込まれてもよく、各試行ネットワークの進化を通じて試行ネットワークの集合に組み込まれてもよい。最適化/進化プロセスの完了後、試行ネットワークの集合は、生成されたネットワークとして説明されることがある。
Xingら、「Causal Modeling Using Network Ensemble Simulations of Genetic and Gene Expression Data Predicts Genes Involved in Rheumatoid Arthritis」、PLoS Computational Biology、7巻、3号、1〜19(2011年3月)(e100105)に基づく、ベイジアンネットワーク及びネットワークフラグメントの根底にある数学的表現の概説を下に提示する。
ランダム変数 X = X1, ..., Xn による多変量システムは、多数のパラメータΘを包含する多変量確率分布関数 P(X1, ..., Xn;Θ)により特徴付けることができる。多変量確率分布関数を因数分解し、ローカル条件付き確率分布の積により表すことができる:
(式中、各変数 Xiは、Yj1, ..., YjKiである、そのKi親変数を与えられたその非派生(descendent)変数とは独立的である)。因数分解後に、各ローカル確率分布は、それ自身のパラメータΘiを有する。
多変量確率分布関数は、異なる仕方で因数分解することができ、各特定の因数分解及び対応するパラメータは、別個の確率的モデルである。各特定の因数分解(モデル)は、変数 Xi毎の頂点及びローカル条件付き分布
における変数間の依存性を表す頂点間の有向性エッジを有する、有向非巡回グラフ(Directed Acrylic Graph)(DAC)で表すことができる。それぞれ頂点及び関連する有向性エッジを包含するDAGの部分グラフは、ネットワークフラグメントである。
モデルは、入力データを仮定したとき、最も尤もらしい因子分解又は最も尤もらしいパラメータを判定することにより、進化又は最適化される。これは、“ベイジアンネットワークを学習する”と呼ぶことができる。換言すると、入力データのトレーニングセットを与えられると、その入力データに最も合致するネットワークを発見することである。これは、各ネットワークを入力データに対して評価するスコアリング関数を用いることにより実現される。
ベイジアンフレームワークを用いて、入力データを与えられたときの因子分解の尤度を判定することができる。ベイズの定理によれば、モデルM、所与のデータDの事後確率P(D|M)は、想定モデルP(D|M)を与えられるとき、データの事後確率とモデルの事前確率P(M)の積の積に比例する。データの確率P(D)はモデル全体にわたって一定であると仮定する。これは以下の式により表される:
モデルを想定したデータの事後確率は、パラメータの事前分布でデータ尤度を積分することにより得られる:
全てのモデルが均等尤度(すなわちP(M)が一定)であると仮定すると、モデルM、所与のデータDの事後確率は、各ローカルネットワークフラグメントMiについてのパラメータの積分の積に因子分解することができる:
上記数式において、主要定数項は省略している。いくつかの実施形態において、ベイジアン情報量基準(BIC)はモデルの事後確率P(D|M)の負対数をとり、各モデルを以下のように「スコアリング」するために用いることができる:
モデルMについての総スコアStotは、ローカルスコアSiの各ローカルネットワークフラグメントについての合計である。BICはさらに、各ネットワークフラグメントのスコアを判定する数式を与えている:
κ(Mi)は、モデルMiにおけるフィッティングパラメータの個数である。Nはサンプル(データ点)の個数である。SMLE(Mi)は、ネットワークフラグメントの尤度関数の負対数であり、各ネットワークフラグメントについて用いる関数関係から計算することができる。BICスコアについて、スコアが低いほどモデルは入力データに合致する尤度が高い。
試行ネットワークの集合はグローバル最適化され、これはネットワークを最適化又は進化させると呼ぶ。例えば、一部の実施形態において、試行ネットワークは、メトロポリスモンテカルロサンプリングアルゴリズムにしたがって進化し最適化される。シミュレーテッドアニーリングを用いて局所変換することにより、集合内の各試行ネットワークを最適化又は進化させることができる。シミュレーテッドアニーリングプロセスの例において、各試行ネットワークは、ライブラリからネットワークフラグメントを追加することにより、削除された試行ネットワークからネットワークフラグメントにより、ネットワークフラグメントを置き換えることにより、又はネットワークトポロジーを変更することにより変更され、ネットワークの新たなスコアが計算される。一般に、スコアが改善すると変更が維持され、スコアが悪化すると変更は拒否される。“温度”パラメータにより、悪化するスコアを維持するようなローカル変更を実施することができる。これは、最適化プロセスが局所解を回避するためのものである。“温度”パラメータは時間にともなって減少し、これにより最適化/進化プロセスを収束させることができる。
ネットワーク推定プロセスの全部又は一部は、異なる試行ネットワークについて並列実施することができる。各ネットワークは別のプロセッサ及び/又は別のコンピュータデバイス上で並行して最適化される。いくつかの実施形態において、最適化プロセスは、並列動作する数百から数千のプロセッサを組み込んだスーパーコンピュータ上で実施することができる。情報は、並列プロセッサ上で実施される最適化プロセス間で共有することができる。
最適化プロセスは、ネットワークフィルタを含むことができる。ネットワークフィルタは、総合スコアが閾値基準を満たさないネットワークを集合から除去する。除去されたネットワークは新たな試行ネットワークによって置き換えられる。“スケールフリー”でないネットワークも集合から除去することができる。ネットワーク集合が最適化又は進化完了すると、その結果は生成されたネットワークの集合と呼ぶことができる。これは生成されたコンセンサスネットワークと呼ぶことができる。
予測のための定量的関係情報を抽出するためのシミュレーション
生成したネットワークの集合を用いて、生物学的システムの挙動をシミュレーションし得る。各ノードに対して個々にシミュレートされる摂動を適用する一方で生成したネットワーク内の他のノードに対する影響を観察することにより、生成したネットワーク内の関係の定量的パラメータを抽出することができる。例えば定量情報抽出のシミュレーションは、ネットワーク内の各ノードを10倍摂動させるステップ(増やす又は減らす)、モデル内の他ノード(例えばタンパク質)について事後分散を計算するステップ、を含む。終端はt検定によって、群あたり100サンプル、有意度0.01カットオフで比較される。t検定統計は、100個のt検定の中央値である。このシミュレーション技術を用いて、予測の強度を表すAUC(曲線下面積)と、終端を構築するノードのin silico値(magnitude)を表す変化倍率とが、ネットワーク集合内の各関係について生成される。
ローカルコンピュータシステムの関係定量化モジュールを用いて、摂動をAIに基づくシステムに実施させ、AUC情報と比(倍率)情報を抽出することができる。抽出した定量情報は、親ノードを子ノードと接続する各エッジについての変化倍率とAUCを含む。いくつかの実施形態において、カスタム構築したRプログラムを用いて、定量情報を抽出することができる。
いくつかの実施形態において、生成した細胞モデルネットワークの集合をシミュレーションで用いて、結果を予測することができる。
AIに基づくシステムの出力は、定量関係パラメータ及び/又はその他シミュレーション予測であってもよい。
得られたベイジアン因果関係ネットワーク
シミュレーションから得られた定量的関係情報を伴う又は伴わない生成されたネットワークの結果として生じる集合は、スライスされたデータセットを表すベイジアン因果関係ネットワークと呼ばれることがある。このネットワークは、スライスされたデータセットの変数を表すノードと、変数間の関係を表す方向性エッジを含む。
一部には、接続が、コンピュータアルゴリズムにより「学習」された観察データセット間の相関に基づき得るため、スライスされたデータセットにおける種々の変数に関するノード表示(node representing)データ間のネットワーク接続は「確率的」である。例えば、タンパク質Xの発現レベル及びタンパク質Yの発現レベルが、データセットの統計解析に基づき、正に又は負に相関する場合、因果関係を割り当て、タンパク質XとYの間のネットワーク接続を確立することができる。かかる推定因果関係の信頼性は、p値(例えば、p<0.1、0.05、0.01等)により測定することのできる接続の尤度により更に定義することができる。
スライスされたデータセット内の異なる変数に対するデータを表すノード間のネットワーク接続は、部分的には、リバースエンジニアリングプロセスによって決定されるネットワーク接続が、接続された変数間の関係の原因及び影響を反映するために、「方向性(directional)」又は「因果的(causal)」である。その結果、変数の発現レベルを上げると、接続が刺激的であるか抑制的であるかに応じて、他方の発現レベルが上昇するか、又は下降し得る。
一部には、該プロセスにより決定されるネットワーク接続が、既存のデータセット及びこれに関連する確率的尺度に基づきin silicoでシミュレートすることができるため、スライスされたデータにおける種々の変数に関するノード表示(node representing)データ間のネットワーク接続は「定量的」である。例えば、確立されたネットワーク接続において、所定のタンパク質(又はネットワークにおける「ノード」)の発現レベルを理論的に増加又は減少(例えば、1、2、3、5、10、20、30、50、100倍以上)させ、ネットワークにおける他の接続されたタンパク質に対するその影響を定量的にシミュレートすることが可能となり得る。
少なくとも一部には、データ点は統計的に又は人為的にカットオフされないため、また一部には、対象の生物学的プロセスに関する既存の知識を参照することなく、ネットワーク接続が入力データ単独に基づくため、スライスされたデータにおける種々の変数に関するノード表示(node representing)データ間のネットワーク接続は「先入観のない(不偏性の)もの(unbiased)」である。
一部には、あらゆる入力変数間の広範な可能性ある接続は、先入観のない(unbiased)様式で体系的に探られたものであるため、データにおける分子測定値間のネットワーク接続は「体系的」及び(不偏性)である。かかる体系的探索を実行する演算能力における確実性は、入力変数の数が増加するにつれて指数関数的に増加する。
一般に、ほぼ500〜1,000種のネットワークの集合は通常、スライスされたデータセット内の変数の全ての間の確率的な因果関係がある定量的関係性の予測に十分である。ネットワークの集合は、データにおける不確定性を捕捉し、モデル予測毎の信頼測定基準の計算を可能にする。予測は、ネットワークの集合を一体的に用いて作成され、集合における個々のネットワーク由来の予測の差は、予測における不確定性の度合いを表す。この特色は、ネットワークに基づく臨床結果の予測の信頼測定基準の割り当てを可能にする。
モデルがリバースエンジニアリングされると、さらなるシミュレーションクエリーをモデルの集合において行い、対象の臨床結果に関する可能性あるバイオマーカーを決定することができる。
差次的(デルタ)ネットワークの生成
差次的ネットワーク創出モジュールを用いて、種々のスライスされたデータセットに関するベイジアン因果関係ネットワーク間で差次的(デルタ)ネットワークを作成することができる。差次的ネットワークは、種々のスライスされたデータセットに関するベイジアン因果関係ネットワークにおける関係性の定量的パラメータの全てを比較する。差次的ネットワークにおける関係性毎の定量的パラメータは、比較に基づく。一部の実施形態において、差次は、デルタ−デルタネットワークと呼ぶことのできる様々な差次的ネットワークの間で実施することができる。
そのような差分ネットワークは、1つのスライスデータセットにおいて他のスライスデータセットと比較して関係がどのように変化するかを強調する。例えば、反応性患者(例えば、全体的な臨床的利益を示す)に関するスライスデータと非反応性患者(例えば、臨床的利益を示さない)に関するスライスデータとに基づくベイジアン因果関係ネットワーク間の差分ネットワークを用いて、2つの患者群の変数間の関係における相違(差)を強調することができる。
ネットワークの可視化
ネットワークの集合及び差次的ネットワークの関係性の値は、ネットワーク可視化プログラム(例えば、複雑なネットワーク解析のためのサイトスケープ(Cytoscape)オープンソースプラットフォーム及びサイトスケープ(Cytoscape)コンソーシアムからの可視化)を用いて可視化することができる。ネットワークの視覚的描写において、各エッジ(例えば、タンパク質を接続する各線)の密集度は、倍数変化の強度を表す。エッジは、因果関係を示す方向性でもあり、各エッジは、関連した予測信頼レベルを有する。
CTAWの出力
臨床試験の統計分析の結果はさまざまなファイルとして記憶される。いくつかの実施形態では、記憶されたファイルが、作用剤の試験と参加したそれぞれの患者内への投与の時間の分子的相関物(molecular correlate)を同定する回帰分析の完全な出力である結果を含む。回帰手順は次のように実施される。最初に、全ての患者試料の利用可能なオミクスデータを決定する。次に、それぞれの患者内で回帰分析を実行する。回帰分析に続いて、有意な結果を同定し、それらを編集してスプレッドシートにする。いくつかの実施形態では、スプレッドシートに加えて、有意な結果をヒートマップとして視覚化する。
いくつかの実施形態では、プロテオミクス回帰分析によって同定された経路メンバ(pathway member)の頻度を視覚化するためのワードクラウド(word cloud)を生成する。この手法は、最初に、経路を、生物学的機能を実行する一組のタンパク質であると考える。経路メンバシップ(membership)は、BioCarta及びKEGGなどの公開されたデータベースから取得する。経路メンバシップについてのこの以前の知識が与えられたら、臨床試験患者からの回帰ヒット(regression hit)中の経路タンパク質の発生を計算する。ワードクラウドは、最も頻繁に見出される経路タンパク質を最も大きなテキストで示し、まれにしか見出されない経路タンパク質をより小さなテキストで示すことによって、この情報を視覚的な形態で表現する。色の使用により、プロテオミクス回帰ヒットの方向性がワードクラウド上に示される。患者試料中で首尾一貫してアップレギュレートされた回帰ヒットは赤で示され、ダウンレギュレートされたタンパク質は緑で示される。患者中でダウンレギュレートと同じくらいの頻度でアップレギュレートされた回帰ヒットは黒で示される。
いくつかの実施形態では、統計分析パイプラインの完了後に患者リポートが自動的に生成される。患者リポートには例えば、分析で使用された方法、利用可能なオミクスデータ、並びにアップレギュレートされたオミクスヒット及びダウンレギュレートされたオミクスヒットが記載される。加えて、いくつかの実施形態では、患者リポートに、ヒートマップ及び経路マップ視覚化が含まれる。
出力AIネットワーク
いくつかの実施形態では、CTAW400の1つの出力が、ベイジアン学習によって生成された一組の人工知能(AI)ネットワークである。AIネットワークは、生成されたデータスライスごとに生成され、臨床的変数と分子的変数の間の原因−結果関係を明らかにする。例えば、重度の有害事象の場合には、2つのデータスライス、すなわち(1)患者が毒性グレード3の有害事象を経験したデータ、及び(2)患者が毒性グレード3の有害事象を経験しなかったデータが生成される。ベイジアン学習を適用することによって、毒性グレード3以上の有害事象からの患者データ、及びこれらの重度の有害事象のない患者データを表現するように、ネットワークが学習される。
図25は、血液及びリンパ系の障害に関係した重度の有害事象を患者が経験している間にそれらの患者から収集されたデータを表すネットワークの集合であるAIネットワークを示す。重度の有害事象は、グレード3の毒性を有する有害事象と定義されている。その集合中で頻度が40%未満のネットワークエッジはネットワーク視覚化の前に除去した。
図26は、血液及びリンパ系の障害に関係した重度の有害事象を患者が経験していない間にそれらの患者から収集されたデータを表すネットワークの集合であるAIネットワークを示す。上と同じく、重度の有害事象は、グレード3の毒性を有する有害事象と定義されている。ネットワークの集合中で頻度が40%未満のネットワークエッジはネットワーク視覚化の前に除去した。
個々のデータスライスによって学習されたネットワークに加え、ネットワークを組み合わせて、表現型状況間のトポロジの差に対するさらなる洞察を得ることもできる。例えば、2つのネットワークからなるネットワーク対からデルタネットワークを生成することができる。デルタネットワークは、一方のネットワークには存在するがもう一方のネットワークには存在しないエッジからなるネットワーク、又は、一方のネットワーク中のパラメータがもう一方のネットワークに対して有意に異なるネットワークである。図25及び26に関して上で説明した一対の有害事象ネットワークについて言えば、毒性グレード3の有害事象を表すネットワーク中には存在するが、毒性グレード3の有害事象がないことを表すネットワーク中には存在しないエッジを含むデルタネットワークを生成することができる。図27は、この血液及びリンパ系の障害に関係した重度の有害事象象の存在又は不在に起因するネットワークの対から生成されたデルタネットワークを示す。このネットワークは、有害事象ネットワーク中に存在するエッジであり、患者が重度の有害事象を経験しなかったデータによって学習されたネットワーク中に存在しないエッジに限定される。
ログ
いくつかの実施形態では、CTAW400が実行されたときに自動的にログファイルが生成される。ワークフローの実行中に、ログファイルは、ワークフローの進捗をユーザが監視することを可能にする。ログファイルを確認することにより、ユーザは、データ処理及びその後のステップが、ワークフローの実行を停止させたであろう予想外の入力に遭遇することなく適時に進んでいることを確信することができる。加えて、ログファイルの監視は、ワークフローの実行が完了するまでにどのくらいの時間がかかるのかをユーザが推定することを可能にする。ログファイルはさらに、CTAW400の実行中に実施されたアクションを文書化する記録を提供する。文書化は、CTAWによって生成された結果の信頼性をユーザが過去に遡って検査することを可能にする。
患者ダッシュボード
いくつかの実施形態では、臨床データの直観的な視覚化を提供する患者ダッシュボードがCTAWから出力される。図28は、例示的な患者ダッシュボードを示す。人口統計的情報に加えて、患者ダッシュボードは、初期腫瘍位置、割り当てられた試験群、以前の治療、参加した時間の長さ及び素質事象に関する静的情報を提供する。試験参加の全体にわたって収集された臨床情報が縦にプロットされている。プロットに含まれる動的臨床情報の例は、腫瘍サイズ、腫瘍反応、検査室測定及び有害事象の存在である。さらに、作用剤注入及びサイクル開始日が患者プロファイル上に示されている。例示的な実施形態では、腫瘍サイズの低減が最も大きな患者が最初にプロットされるような形で、その時点の腫瘍サイズの順番に、患者が患者ダッシュボードにプロットされる。
試料マップ
いくつかの実施形態では、対話式視覚化(interactive visualization)試料データを可能にする試料マップがCTAWから出力される。図29は、例示的な試料マップを示す。この視覚化は、患者試料ごとの利用可能なオミクスデータを対話式グリッド(grid)として示している。上述のとおり、いくつかの実施形態では、それぞれの患者が、患者の試験参加の全体にわたって収集された血漿、バフィーコート、尿及び組織試料を有する。この視覚化では、患者試料が行(row)によって示されており、時点が列(column)として示されている。オミクスデータの利用可能性が色によって示されており、8つの色レベルが、3つのオミクス技術、すなわちリピドミクス、プロテオミクス及びメタボロミクスの存在の有無を表している。
試料マップは、ユーザが、視覚化されたデータと対話することを可能にする。これは以下のように実施される。試料タイプ、患者又は他の判定基準に従ってデータ行の順序を並び替えることができる。試料タイプによる順序付けでは、一番上にバフィーコート試料を示し、続いて血漿、組織、尿を試料を示す。患者による順序付けでは、最初の患者の全ての試料を列挙し、続いて2番目の患者の全ての試料を列挙し、以下同様にして最後に最後の患者の全ての試料を列挙する。試料マップはさらに、視覚化が、特定の行(患者試料)及び列(時点)によって順序付けされることを可能にすることもできる。
患者マップ
例示的な実施形態では、患者マップウェブページが、臨床試験に参加した全ての患者に対して実施された腫瘍測定の対話式視覚化を提供する。図30は、例示的な患者マップウェブページを示す。この視覚化は、CTAWの部分として自動的に生成される。患者マップウェブページとの対話は、関心の患者サブセットの腫瘍成長をユーザが見ることを可能にする。
この患者マップウェブページに掲載されるためには、患者は、試験開始前に少なくとも1回及び試験開始後に少なくとも1回、腫瘍を測定をしなければならない。腫瘍サイズは、腫瘍部位を横切る幾何学的平均となるように測定される。患者試験群情報及び人口統計的情報は臨床記録から取得される。治療群が未定義の患者はこの視覚化から省かれる。人種情報を欠く患者にはプレースホルダ値「未指定(Not specified)」が与えられる。
ユーザは、患者腫瘍反応を着色するために使用されたカラースキーム(color scheme)を選択することによって患者マップと対話することができる。「治療(Treatment)」又は「研究群(Study Arm)」によって着色するオプションは、どの患者が単独治療群に割り当てられたのか、又は併用治療群で使用されている特定の化学療法剤をユーザが知ることを可能にする。さらに、線の色で、患者の性、人種、年齢又はエスニシティを示すこともできる。「結果(Outcome)」を選択すると、患者が試験から離脱した理由によって線が着色される。
潜在的バイオマーカー(例えばコンパニオン診断)の決定
上述のとおり、いくつかの実施形態では、潜在的バイオマーカー(例えばコンパニオン診断マーカーCDx)の決定が、結果動因を同定するためのAI−ネットワーク(例えばベイジアンネットワーク)の分析、差次的に発現された変数を同定するための統計分析及び機械学習のうちの一部又は全部を含む。上述のとおり、いくつかの実施形態では、潜在的バイオマーカーの決定が、(1)関連したAIネットワーク中の予測対象に関係した主要な出力の動因である変数を獲得するステップ、(2)指定された時点における患者層別化群間の差次的に発現された変数を同定するステップ、及び(3)ステップ(1)及び(2)の結果を、どの特徴が表現型結果をロバストに予測するのかを判定する機械学習アルゴリズムに入力するステップを含む。
AIネットワーク(例えばベイジアンネットワーク)による結果動因の同定
以前の項で説明したとおり、CDxマーカーを使用して、臨床的反応、有害事象の存在又は他の判定基準に基づいて患者を層別化することができる。候補CDxマーカーを選択する1つの方法は、結果動因を見つけることによる方法である。結果動因は、臨床的結果を生じさせる確率が高いことがAIネットワークによって推測されるノードと定義される。例示的な実施形態では、結果動因の決定が、特に所望の患者層別化のために実行され、3つの仕様(specification)を実施することを要求する。
第1の仕様は、関心の層別化に関係した臨床的結果変数のセットである。例えば、臨床反応に関して患者を層別化すると、臨床的結果変数の選択が例えば腫瘍サイズ、腫瘍反応及び相対的腫瘍サイズになる。層別化が、有害事象の存在又は不在に従って実施される場合には、臨床的結果変数が適切な有害事象変数を含むであろう。
第2の仕様は、その中から結果動因を獲得すべきAIネットワークのセットである。作用剤の投与前に特徴を測定することによって患者結果を予測する目的を有するCDxパネルは、第1の治療サイクル(例えば1サイクル目)中に個々の患者からのAIネットワークから導出された結果動因を考慮する可能性がある。
最後の仕様は、結果動因と臨床的結果変数の間で実施される接続のタイプである。接続のタイプは、接続度及び方向性を含む。第1度の近傍である直接接続は、結果動因と臨床的結果変数の間の直接の因果相関を暗示する。第2度以上の接続は、間接的に接続する追加の変数を含む。方向性は、親−子ノードに関して臨床的結果変数に影響を与えるのにユーザが結果動因を必要とするかどうか、又は、逆に、ユーザがさらに、臨床的結果変数が結果動因に影響を与えることを許すかどうかを指定する。
結果動因を決定する手順は、次の2つのケーススタディによって示される:(1)治療に対する患者の反応による患者の層別化、及び(2)重度の有害事象の存在に基づく患者の層別化。患者反応に関係したCDxマーカーを予測する第1のケーススタディに関しては、図33に示されているように、1サイクル目に収集された患者データを表す32個のAIネットワークのうちの少なくとも1つのAIネットワーク中の臨床的結果変数に対する1次親ノード(first-order parent node)の役目を果たす68個の結果動因が見つかる。患者有害事象を予測する第2のケーススタディに関しては、図34に示されているように、有害事象に関係した結果変数に対する1次親ノードの役目を果たす115個の結果動因が見つかる。両方のケーススタディで、1サイクル目に収集された患者データを表す32個のAIネットワーク中の結果動因をそれから獲得するネットワークのセット。
差次的に発現された変数の同定
いくつかの実施形態では、臨床試験中に投与された作用剤に反応してその存在量が変化するオミクス特徴(タンパク質、脂質及び代謝産物)を、回帰分析を利用して見つける。回帰分析は、CTAWの部分として、以下の3つの主要なステップで実施される:(1)ハウスキーピング(housekeeping)ステップ、(2)統計的モデル化ステップ、及び(3)結果を要約するステップ。
いくつかの実施形態では、回帰分析を始める前に、ハウスキーピングステップを実行して、以前の結果をアーカイブし、空の結果ディレクトリを生成する。回帰用の適切なデータセットをマップするため、オミクスデータ中の試料を、更新されたマスタファイル中の注釈とリンクさせる。次いで、患者、試料タイプ及び治療レジメンの組合せごとに回帰分析を実行する。例えば、2つの異なる治療レジメンがあり、1つの治療レジメンから始め、次いで別の治療レジメンに移った患者がいる試験では、患者が第1のレジメンに従っているときのデータを使用して回帰を実行し、患者が第2のレジメンに従っているときのデータを使用して別の回帰を実行する。これらの回帰はそれぞれ、オミクスデータセットの利用可能性に基づいてさらに分割される。
回帰分析は、所与のデータセットに対する多数の異なるモデルに基づくことができる。例えば、所与のデータセットを、特定のレジメン(例えば単独治療)の間に患者01−001に対して測定された血漿メタボロミクス試料とすることができる。第1の2つのモデルは、1サイクル目に収集された利用可能な試料を考慮する。モデル1は、オミクス特徴を、固定された期間(以後、固定期間)である週及び週内の時間に関係づける回帰である。モデル2は、1週目に限定され、したがってオミクス特徴を固定期間である時間に関係づける。第3のモデルは、投与前試料(pre-dose sample)に対する回帰であり、オミクス特徴を固定期間であるサイクル及び日(例えば1日目又は15日目)に関係づける。第4のモデルは、最終サイクル試料(例えば22日95.5時間目)に対する回帰であり、オミクス特徴を固定期間であるサイクルに関係づける。第5の回帰は、利用可能な全てのデータを使用して、オミクス特徴に対する注入の効果を比較する。最後に、第6の回帰は、組織試料だけに使用されて、2週目をオミクス特徴のベースラインレベルと比較する。
回帰モデル化に続いて、個々の患者について分析結果を要約する。これは、有意な特徴の発生を要約して、それぞれの患者の統計分析リポートに含める(統計分析リポートの項)。加えて、有意な特徴に関して特定の群の要約を作成する。最後に、KEGG、BioCarta、Reactome及びNCIからの経路メンバシップ情報を使用した経路分析を有意な特徴に適用する。
全ての患者試料を使用して試験時間及び用量に対する追加の回帰を実行する。この回帰は、固定された効果と考えられる時間及び用量並びにランダムな効果と考えられる患者内の混合モデルを使用する。
候補CDxマーカー(可能なバイオマーカー)を選択する追加の方法は、統計的に有意なオミクス変数又は臨床検査を同定する方法である。統計的に有意な特徴は、所望の患者層別化において差次的に発現された特徴、又は回帰分析によって以前に同定された特徴と定義される。統計的に有意な特徴を潜在的CDxマーカーとして同定するためには2つの仕様を実施する必要がある。第1の仕様は、どの統計分析法を利用するかである。2つの患者層別化間で差次的に発現されたマーカーを同定する古典的な統計分析手法は、2標本t検定を実行する手法である。或いは、その代わりに、バイオインフォマティクス(bioinformatics)の分野で確立された方法であるlimma法を、差次的発現分析に使用することもできる。回帰分析の以前の結果を調べて、候補CDxマーカーの統計的に有意な特徴を見つけることができる。この手法は、回帰ヒットを統計的に有意とみなし、したがって全ての回帰ヒットが候補CDxマーカーとして評価される。
例示的な実施形態では、統計的に有意な候補CDxマーカーを同定するのに必要な第2の仕様が、統計的有意性をどのように定義するかである。差次的発現法が利用される場合には、有意性を、p値又は偽発見率(false discovery rate:FDR)カットオフに関して定義することができ、これは、カットオフよりも小さなp値又はFDRを有する特徴が有意とみなされるように定義される。有意なp値及びFDRの一般的なカットオフはそれぞれ0.05及び0.1である。或いは、最上位の特徴が有意とみなされるように、p値によって特徴をランク付けすることもできる。この手法を使用して、実際の有意性が特定のカットオフよりも小さいことを要求することなしに上位100個の特徴を有意と定義することができる。回帰ヒットが潜在的CDxマーカーとして調べられる場合には、特定のカットオフに関するFDR値又はランク付けされたリストに従って統計的有意性を定義することもできる。個々の患者の回帰結果に回帰ヒットが存在することを要求するのではなく大部分の患者の回帰結果に回帰ヒットが存在することを要求するなど、回帰ヒットに関する追加の要件を課すことができる。
機械学習
いくつかの実施形態では、機械学習手法を適用することによって、潜在的バイオマーカーである有望な(Prospective)CDxマーカーを同定する。いくつかの実施形態では、AI−ネットワークを使用して同定された結果動因及び統計的方法を使用して同定された差次的に発現された変数が、一組の可能なバイオマーカーを形成し、機械学習を使用して、可能なバイオマーカーのサブセットを、出力を予測するが他の可能なバイオマーカーとは比較的に相関しない可能なバイオマーカーに対して選択する潜在的バイオマーカー又は有望なCDxマーカーとして選択する。分子的特徴及び臨床検査の数は通常、患者の数よりもはるかに大きいことを考えると、例示的な実施形態では、患者層別化を予測する適切な機械学習手法が、イラスティックネットペナルティを用いたロジスティック回帰である。ロジスティック回帰はしばしば、予測子pの数が変数nの数よりも大きいときに縮退(degeneracy)に悩まされ、nがpに近いときであっても不安定な挙動を示す。イラスティックネットペナルティはこれらの問題を緩和し、同様に変数を正則化(regularization)及び選択する。
イラスティックネットは、収縮(shrinkage)、正則化及び変数選択法である。イラスティックネットは、自動変数選択及び連続的な収縮を同時に実行し、相関した変数の群を選択することによってCDxマーカーのセットを同定するために使用される。イラスティックネットは、優れた予測正確度を有する粗なイラスティックネットモデルを生成し、さらに、強く相関した予測子(すなわちCDxマーカー)が一緒にモデル内又はモデル外にある傾向があるグルーピング効果を促進する。予測子(p)の数が観察(n)の数よりもはるかに大きいとき、例えば分子的特徴及び臨床検査の数が一般に患者の数よりもはるかに大きい場合に、イラスティックネットは特に有用である。
このシステムは、イラスティックネット回帰分析を連続測定に利用するカテゴリモデリングアプローチを適合させる。イラスティックネットペナルティは、式(1−α)|β|1+α|β|2によって記述される。イラスティックネットパラメータα及びλは、逸脱度ペナルティ(deviance penalty)を最小化することを目的とするリーブワンアウト交差検証(leave-one-out cross-validation)によって決定される。探索のためのαの値は、0.01刻みで0.05から0.95までと指定される。探索のためのλ値のシーケンスは、glmnet関数によって自動的に指定される。glmnetは、Rプログラミングシステムで実施されるパッケージである。glmnetは、lasso回帰、リッジ(ridge)回帰、及び正則化経路に沿って計算された循環座標降下(cyclical coordinate descent)を使用する2つのペナルティ(イラスティックネット)の混合物を用いて、一般化された線形モデルを推定する、高速アルゴリズムを含む。イラスティックネットパラメータの2つ以上のセットが同じ交差検証ペナルティを与える(すなわち最小逸脱度が結合される)場合には、λの最大値が選択され、このλ値に対応するα値が選ばれる。
最適なイラスティックネットパラメータが与えられたら、ブートストラップリサンプリングを利用して候補バイオマーカーのロバストネスを評価する。このプロセスは、入力データセットを置換(replacement)によってリサンプリングすること、及び最適なα及びλ値を使用してイラスティックネットモデルを再訓練することを含む。このブートストラップリサンプリングを500回実行することによって、予測子としてのそれぞれの入力特徴のロバストネスを、リサンプリングされたデータセットによって当てはめられたモデルがどれくらいの頻度でモデル係数(β)中に非ゼロ値を含むのかをカウントすることにより評価することができる。最もロバストな特徴は、リサンプリングされたデータセットによって当てはめられたモデルの大部分に存在する特徴である。現在、このロバストネスカットオフは、リサンプリングされたデータセットによって訓練されたモデルで生じる入力特徴がロバストとみなされるようにセットされる。
さまざまな疾患及び障害に対する適用可能性
固形腫瘍を有する患者の候補バイオマーカーを同定する、後述する実施例1及び2に記載された方法は、他の障害を有する患者にも適用することができる。このような障害には、限定はされないが、感染症、自己免疫疾患(例えば多発性硬化症及びエリテマトーデス)、神経変性障害(例えばアルツハイマー病及びパーキンソン病)、脱毛症、炎症、糖尿病(例えばI型及びII型糖尿病、妊娠糖尿病)、糖尿病前症、メタボリックシンドローム、及び心臓血管疾患(例えば冠状動脈性心疾患(CHD)、脳卒中、頚動脈疾患及び末梢血管病(PVD))が含まれる。
癌患者の候補バイオマーカーを同定する実施例1及び2に記載された分析法は一般に他の障害にも適用可能だが、それぞれの患者から収集される臨床データは障害によってさまざまである。例えば、糖尿病の候補バイオマーカーを同定するために患者から収集される臨床データには、血中グルコース(例えば空腹時血中グルコース、食後血中グルコース)、グルコース耐性、血中グルカゴン、インスリン、インスリン感受性、ヘモグロビンA1c(HbA1c)レベル、体重、胴囲(waist circumference)、高比重リポタンパク質(HDL)コレステロール、低比重リポタンパク質(LDL)コレステロール、総コレステロール、トリグリセリド、血圧、排尿頻度、及び血中グルコース低下薬の使用などがある。糖尿病を患っている患者の臨床的評価法は当技術分野で知られており、例えば米国特許出願公開第2016/0058769号及び第2015/0359861号に記載されている。これらの文献はその全体が参照により本明細書に組み込まれている。
心臓血管疾患の候補バイオマーカーを同定するために患者から収集される臨床データには、HDLコレステロール、LDLコレステロール、総コレステロール、リポタンパク質a、アポリポタンパク質(apo A−I)、トリグリセリド、血圧、体重、胴囲、心電図(EKG又はECG)、心臓ストレステスト、喫煙歴、糖尿病歴、並びに降圧剤、血中グルコース低下薬及びコレステロール低下薬の使用などがある。心臓血管疾患を患っている患者の臨床的評価法は当技術分野で知られており、例えば米国特許出願公開第2016/0139160号に記載されている。この文献はその全体が参照により本明細書に組み込まれている。
ある種の実施形態では、本明細書に記載された方法を使用して、特定の障害の治療剤に対する患者の反応を予測する潜在的バイオマーカーを同定する。例えば、いくつかの実施形態では、候補バイオマーカーを使用して、障害を治療する際の治療剤の効能又は治療剤に反応して有害事象が生じる可能性を予測する。
ある種の実施形態では、この障害が糖尿病(例えばI型糖尿病、II型糖尿病又は妊娠糖尿病)である。糖尿病の適当な治療剤には、限定はされないが、メグリチニド、スルホニル尿素、ジペプチジルペプチダーゼ−4(DPP−4)阻害薬、ビグアニド、チアゾリジンジオン、αグルコシダーゼ阻害薬、アミリン模倣薬(amylin mimetic)、インクレチン模倣薬、インスリン及びこれらの任意の組合せなどがある。特定の実施形態では、糖尿病治療用の治療剤がHSP90阻害薬、例えばHSP90β阻害薬である。別の実施形態では、糖尿病治療用の治療剤がEN01又はEN01を含む分子である。
ある種の実施形態では、この障害が心臓血管疾患である。心臓血管疾患の適当な治療剤には、限定はされないが、スタチン(HMG−CoAレダクターゼ阻害薬)、抗高血圧薬、血栓溶解薬、並びに抗血小板及び抗凝血療法などがある。スタチンには例えばアトルバスタチン、フルバスタチン、ロバスタチン、ピタバスタチン、プラバスタチン、ロスバスタチン及びシンバスタチンなどがある。抗高血圧薬には例えばアンギオテンシン変換酵素(ACE)阻害薬、アドレナリン作用性神経系の遮断薬(β及びαアドレナリン作用遮断薬)、カルシウムチャネル遮断薬及びアンギオテンシン受容体遮断薬(ARB)などがある。抗血小板及び抗凝血療法には例えばヘパリン、糖タンパク質IIb/IIIa阻害薬、クロピドグレル及びワルファリンなどがある。
ある種の実施形態では、この障害が癌である。ある種の実施形態では、この癌が、中枢神経系(CNS)の癌ではない、すなわち脊髄、脳及び眼のうちの少なくとも1つに存在する腫瘍の癌ではない。ある種の実施形態では、原発癌がCNS癌ではない。ある種の実施形態では、この癌が血液腫瘍(すなわち非固形腫瘍)である。ある種の実施形態では、この癌が固形腫瘍を含む。ある種の実施形態では、この固形腫瘍が、癌腫、黒色腫、肉腫及びリンパ腫からなる群から選択される。ある種の実施形態では、この固形腫瘍が、乳癌、膀胱癌、大腸癌、直腸癌、子宮内膜癌、腎(腎細胞)癌、肺癌、黒色腫、膵臓癌、前立腺癌、甲状腺癌、皮膚癌、骨癌、脳癌、子宮頸癌、肝臓癌、胃癌、口腔癌、神経芽細胞腫、精巣癌、子宮癌、甲状腺癌及び外陰部癌からなる群から選択される。ある種の実施形態では、皮膚癌が、黒色腫、扁平上皮癌又は皮膚T細胞リンパ腫(CTCL)である。
癌治療用の適当な治療剤には、限定はされないが、小分子化学療法剤及び生物製剤が含まれる。特定の実施形態では、癌治療用の治療剤がコエンザイムQ10である。
小分子化学療法剤は、概して、例えば、以下を含む様々なクラスに属する:1.トポイソメラーゼII阻害剤(細胞傷害性抗生物質)、例えば、アントラサイクリン/アントラセンジオン、例えば、ドキソルビシン、エピルビシン、イダルビシン及びネモルビシン、アントラキノン、例えば、ミトキサントロン及びロソキサントロン、並びにポドフィロトキシン、例えば、エトポシド及びテニポシド;2.微小管形成に影響を及ぼす薬剤(分裂阻害剤)、例えば、植物アルカノイド(例えば、生物学的に活性かつ細胞傷害性である、植物由来のアルカリ性含窒素分子のファミリーに属する化合物)、例えば、タキサン、例えば、パクリタキセル及びドセタキセル、及びビンカアルカロイド、例えば、ビンブラスチン、ビンクリスチン、及びビノレルビン、並びにポドフィロトキシンの誘導体;3.アルキル化剤、例えば、ナイトロジェンマスタード、エチレンイミン化合物、アルキルスルホネート及びアルキル化作用を有する他の化合物、例えば、ニトロソウレア、ダカルバジン、シクロホスファミド、イホスファミド及びメルファラン;4.代謝拮抗物質(ヌクレオシド阻害剤)、例えば、葉酸塩、例えば、葉酸、フルオロピリミジン、プリン又はピリミジンアナログ、例えば、5−フルオロウラシル、カペシタビン、ゲムシタビン、メトトレキサート及びエダトレキサート;5.トポイソメラーゼI阻害剤、例えば、トポテカン、イリノテカン、及び9−ニトロカンプトテシン、カンプトテシン誘導体及びレチノイン酸;並びに6.白金化合物/錯体、例えば、シスプラチン、オキサリプラチン、及びカルボプラチン。
例示的な化学療法剤としては、限定されるものではないが、以下が挙げられる:アミホスチン(エチオール)、シスプラチン、ダカルバジン(DTIC)、ダクチノマイシン、メクロレタミン(ナイトロジェンマスタード)、ストレプトゾシン、シクロホスファミド、カルムスチン(carrnustine)(BCNU)、ロムスチン(CCNU)、ドキソルビシン(アドリアマイシン)、ドキソルビシンリポ(ドキシル)、ゲムシタビン(ジェムザール)、ダウノルビシン、ダウノルビシンリポ(ダウノキソーム)、プロカルバジン、マイトマイシン、シタラビン、エトポシド、メトトレキサート、5−フルオロウラシル(5−FU)、ビンブラスチン、ビンクリスチン、ブレオマイシン、パクリタキセル(タキソール)、ドセタキセル(タキソテール)、アルデスロイキン、アスパラギナーゼ、ブスルファン、カルボプラチン、クラドリビン、カンプトテシン、CPT−I1、10−ヒドロキシ−7−エチル−カンプトテシン(SN38)、ダカルバジン、S−Iカペシタビン、フトラフール、5’デオキシフルオロウリジン、UFT、エニルウラシル、デオキシシチジン、5−アザシトシン、5−アザデオキシシトシン、アロプリノール、2−クロロアデノシン、トリメトレキサート、アミノプテリン、メチレン−10−デアザアミノプテリン(MDAM)、オキサプラチン、ピコプラチン、テトラプラチン、サトラプラチン、白金−DACH、オルマプラチン、CI−973、JM−216、及びそれらの類似体、エピルビシン、エトポシドリン酸塩、9−アミノカンプトテシン、10,11−メチレンジオキシカンプトテシン、カレニテシン、9−ニトロカンプトテシン、TAS 103、ビンデシン、L−フェニルアラニンマスタード、イホスファミド、メホスファミド(ifosphamidemefosphamide)、ペルホスファミド、トロホスファミド、カルムスチン、セムスチン、エポチロンA〜E、トムデックス、6−メルカプトプリン、6−チオグアニン、アムサクリン、エトポシドリン酸塩、カレニテシン、アシクロビル、バラシクロビル、ガンシクロビル、アマンタジン、リマンタジン、ラミブジン、ジドブジン、ベバシズマブ、トラスツズマブ、リツキシマブ、5−フルオロウラシル、カペシタビン、ペントスタチン、トリメトレキサート、クラドリビン、フロクスウリジン、フルダラビン、ヒドロキシウレア、イホスファミド、イダルビシン、メスナ、イリノテカン、ミトキサントロン、トポテカン、ロイプロリド、メゲストロール、メルファラン、メルカプトプリン、プリカマイシン、ミトタン、ペグアスパルガーゼ、ペントスタチン、ピポブロマン、プリカマイシン、ストレプトゾシン、タモキシフェン、テニポシド、テストラクトン、チオグアニン、チオテパ、ウラシルマスタード、ビノレルビン、クロラムブシル、シスプラチン、ドキソルビシン、パクリタキセル(タキソール)、ブレオマイシン、mTor、上皮成長因子受容体(EGFR)及び線維芽細胞成長因子(FGF)、並びに特定の腫瘍又は癌のためのケアの適切な標準に基づいて、当業者に容易に明らかであるそれらの組み合わせ。
生物学的薬剤(生物製剤とも称される)とは、生物系、例えば、生物、細胞、又は組換え系の製品である。癌の治療のための好適な生物学的薬剤の例としては、核酸分子(例えば、アンチセンス核酸分子)、インターフェロン、インターロイキン、コロニー刺激因子、抗体、例えば、モノクローナル抗体、抗体薬物コンジュゲート、抗血管新生剤、及びサイトカインが挙げられる。例示的な生物学的薬剤は、概して、例えば以下の様々なクラスに属する:1.ホルモン、ホルモン類似体、及びホルモン複合体、例えば、エストロゲン及びエストロゲン類似体、プロゲステロン、プロゲステロン類似体及びプロゲスチン、アンドロゲン、副腎皮質ステロイド、抗エストロゲン、抗アンドロゲン、抗テストステロン、副腎ステロイド阻害剤、及び抗黄体化ホルモン;並びに2.酵素、タンパク質、ペプチド、ポリクローナル及び/又はモノクローナル抗体、例えば、インターロイキン、インターフェロン、コロニー刺激因子など。
本発明の予測方法
本発明は、少なくとも部分的には、バイオマーカータンパク質ジスルフィドイソメラーゼファミリーAメンバー3(本明細書ではPDIA3とも称する)が、コエンザイムQ10(CoQ10)を用いた癌の治療に対して臨床的に反応性である対象の血清中の平均レベルより高いレベルで発現され、そしてCoQ10を用いた癌の治療に対して非反応性である対象の血清中の平均レベルより低いレベルで発現されるという知見に基づく。癌を有する対象由来の試料中のPDIA3の発現レベルを決定することにより、医師はより情報に基づく治療決定を下すこと、及び癌の治療を個々の対象のニーズに合わせてカスタマイズすることが可能になり、それによって患者の治療利益を最大化しかつ患者の不必要な治療(何らの有意な利益をもたらさず、しばしば毒性副作用による重篤なリスクがある)に対する曝露を最小化する。
したがって、本発明は、対象から得られた試料中のPDIA3の発現レベルに基づいて、CoQ10による治療に対する癌を有する対象の反応を予測し、CoQ10による癌の治療のための良好な候補として癌を有する対象を選択し、CoQ10による癌を有する対象を治療するための方法を提供する。
一態様において、本発明は、コエンザイムQ10(CoQ10)を用いた癌の治療のための対象の選択方法であって、(a)対象の生物学的試料中のPDIA3のレベルを検出すること、及び(b)生物学的試料中のPDIA3のレベルを所定の閾値と比較することを含み、PDIA3のレベルが所定の閾値より高い場合、対象はCoQ10を用いた癌の治療のために選択される、上記方法を提供する。
別の態様では、本発明は、癌を有する対象がコエンザイムQ10(CoQ10)による治療に対して反応性であるか非反応性であるかを予測するための方法であって、(a)対象の生物学的試料中のPDIA3のレベルを検出すること、及び(b)生物学的試料中のPDIA3のレベルを所定の閾値と比較することを含み、所定の閾値より高いPDIA3のレベルは、対象がCoQ10を用いた癌の治療に反応する可能性があることを示す、上記方法を提供する。
別の態様では、(a)対象から生物学的試料を入手すること、(b)対象からの生物学的試料を提出してPDIA3のレベルに関する診断情報を入手すること、(c)生物学的試料中のPDIA3のレベルが閾値レベルより高い場合、治療有効量のCoQ10を対象に投与することを含む、対象において癌を治療する方法が提供される。
さらに別の態様では、(a)対象からの生物学的試料中のPDIA3のレベルに関する診断情報を得ること、及び(b)生物学的試料中のPDIA3のレベルが閾値レベルより高い場合に、対象にCoQ10を投与することを含む、対象において癌を治療する方法が提供される。
さらに別の態様では、本発明は、(a)PDIA3のレベルに関する診断情報の同定に使用するために、対象から生物学的試料を取得すること、(b)対象からの生物学的試料中のPDIA3のレベルを測定すること、(c)PDIA3のレベルが閾値レベルより高い場合に、健康管理提供者にCoQ10を対象に投与することを推奨することを含む、対象において癌を治療する方法を提供する。
本明細書中で使用される場合、PDIA3の「閾値」又は「閾値」とは、対象(例えば、同じ状況の対象、例えば同じ癌を有しまだCoQ10による治療を受けていない対象)又は正常若しくは健常対象(例えば、癌を有しない対象)から得られた対応する対照/正常試料又は対照/正常試料の群におけるPDIA3のレベル(例えば、生物学的試料中の発現レベル又は量(例えば、ng/ml))をいう。所定の閾値は、生物学的試料中のPDIA3レベルの測定の前又はそれと同時に決定し得る。対照試料は、以前の時点の同じ対象からのものでも異なる対象からのものでもよい。
PDIA3の遺伝子及びタンパク質配列は当技術分野において公知であり、例えば、UniProtKB P30101又はEntrez Gene 2923、ならびにNCBI参照配列NP_005304.3に見出すことができる。
いくつかの実施形態では、治療対象の癌は固形腫瘍である。固形腫瘍は、本明細書に記載の任意の種類の固形腫瘍を含む、任意の種類の固形腫瘍であり得る。特定の実施形態では、治療対象の癌は、扁平上皮癌、膠芽腫、及び膵臓癌からなる群から選択される。
特定の実施形態では、生物学的試料は、血液、血清、尿、臓器組織、生検組織、糞便、皮膚、毛髪、及び頬組織からなる群から選択される。
他の実施形態では、対象における癌治療のための治療の臨床経過を決定する方法が開示される。特定の実施形態において、本方法は、対象から得られた生物学的試料中の対象のPDIA3発現レベルを決定すること、及び対象のPDIA3発現レベルに基づいて治療の臨床経過を同定することを含む。具体的な実施形態では、生物学的試料中のPDIA3のレベルが閾値レベルより高いときに、CoQ10による治療が選択される。
一実施形態では、CoQ10に加えて、1又は複数の追加の抗癌治療薬を患者に(順次又は同時に)投与することができ、そのような治療薬としては化学療法又は放射線が挙げられるがこれらに限定されない。
組織試料
本発明を、PDIA3、例えば、PDIA3ポリペプチド、核酸、mRNA、又はマイクロRNAを潜在的に含有する、発現する、含む任意の好適な生物学的試料を用いて実行することができる。例えば、全血及び血清を含む供給源から、疾患(例えば、膵臓の腫瘍、膠芽腫、又は扁平上皮癌などの腫瘍)を有する及び/又は健康な組織まで、生物学的試料を取得することができる。一実施形態において、生物学的試料は、血液、血清、尿、臓器組織、生検組織、糞便、皮膚、毛髪、及び頬組織からなる群より選択される。好ましい実施形態では、生物学的試料は血清試料である。別の実施形態においては、本発明を、新鮮に単離された、又は対象から収集された後、凍結若しくは保存された任意の好適な組織試料、あるいは例えば、診断、処置及び/又は結果の履歴がわかっている保管組織試料を用いて実行することができる。組織を、例えば、微細針吸引及び針生検などの任意の非侵襲的な手段により、又はあるいは、例えば、外科生検などの侵襲的な方法により収集することができる。
本発明の方法を、単一細胞レベルで実施することができる(例えば、癌性細胞の単離及び試験)。しかしながら、好ましくは、本発明の方法は、多くの細胞を含む試料を用いて実施され、アッセイは、試料中に存在する細胞及び組織の全収集物にわたって発現を「平均化」する。PDIA3の発現レベルを正確かつ信頼性をもって決定するのに十分な組織試料があるのが好ましい。特定の実施形態においては、複数の試料を同じ組織から採取して、組織の代表的サンプリングを得ることができる。さらに、十分な生物学的材料を取得して、2回、3回又はさらなる周回の試験を実施することができる。
組織及び/若しくは血液若しくは他の生物学的産物を単離及び/若しくは取得するため、並びに/又は検出反応を行う前に前記材料を処理するための任意の市販のデバイス又はシステムが企図される。
特定の実施形態においては、本発明は、PDIA3核酸分子(例えば、PDIA3をコードするmRNA)の検出に関する。そのような実施形態においては、分析の前に、生物学的試料から、RNAを抽出することができる。RNA抽出のための方法は、当業界で周知である(例えば、J. Sambrookら、「Molecular Cloning: A Laboratory Manual」、1989、第2版、Cold Spring Harbour Laboratory Press: New Yorkを参照されたい)。体液又は組織からのRNA単離の多くの方法は、RNaseを迅速かつ効率的に不活化するタンパク質変性剤の存在下での組織の破壊に基づく。一般に、RNA単離試薬は、いくつかある成分の中でも、RNase阻害剤として作用することが知られる、グアニジニウムチオシアネート及び/又はベータ−メルカプトエタノールを含む。次いで、単離された全RNAを、タンパク質夾雑物からさらに精製し、選択的エタノール沈降、フェノール/クロロホルム抽出、次いで、イソプロパノール沈降(例えば、P. Chomczynski及びN. Sacchi、Anal. Biochem.、1987、162: 156-159を参照されたい)又は塩化セシウム、塩化リチウム若しくはトリフルオロ酢酸セシウム勾配遠心分離によって濃縮する。
いくつかの異なる多用途のキットを用いて、体液又は組織(例えば、前立腺組織試料)からRNA(すなわち、全RNA又はmRNA)を抽出することができ、それらは、例えば、Ambion, Inc.(Austin, Tex.)、Amersham Biosciences(Piscataway, N.J.)、BD Biosciences Clontech(Palo Alto, Calif.)、BioRad Laboratories(Hercules, Calif.)、GIBCO BRL(Gaithersburg, Md.)、及びGiagen, Inc.(Valencia, Calif.)から市販されている。通常、行おうとするプロトコールを非常に詳細に説明するユーザーガイドがこれらのキット全てに含まれる。感度、処理時間及び費用は、キット間で異なり得る。当業者であれば、特定の状況にとって最も適切なキットを容易に選択することができる。
特定の実施形態においては、抽出後、mRNAは増幅され、cDNAに転写された後、これは適切なRNAポリメラーゼによる複数回の転写のための鋳型として役立ち得る。増幅方法は、当業界で周知である(例えば、A. R. Kimmel及びS. L. Berger、Methods Enzymol. 1987、152: 307-316; J. Sambrookら、「Molecular Cloning: A Laboratory Manual」、1989、2.sup.nd Ed.、Cold Spring Harbour Laboratory Press: New York; 「Short Protocols in Molecular Biology」、F. M. Ausubel (編)、2002、5.sup.th Ed.、John Wiley & Sons;米国特許第4,683,195号;第4,683,202号及び第4,800,159号を参照されたい)。固定されたオリゴ−dTプライマー、若しくはランダム配列プライマーなどの非特異的プライマーを用いて、又はモニタリングしようとするそれぞれの遺伝子プローブのためのRNAに対して相補的な標的特異的プライマーを用いて、又は熱安定性DNAポリメラーゼ(ニワトリ骨髄芽球症ウイルス逆転写酵素若しくはモロニーマウス白血病ウイルス逆転写酵素など)を用いて、逆転写反応を実行することができる。
特定の実施形態においては、試料から単離されたRNA(例えば、cDNA又はcRNAへの増幅及び/又は変換の後)を、分析する前に検出剤で標識する。検出剤の役割は、RNAの検出を容易にするか、又はハイブリダイズした核酸断片(例えば、アレイに基づくアッセイにおいて遺伝子プローブにハイブリダイズした核酸断片)の可視化を可能にすることである。好ましくは、検出剤は、それが測定することができるシグナルを生成し、その強度が分析される試料中に存在する標識された核酸の量と関連するように選択される。アレイに基づく分析方法においては、検出剤はまた、好ましくは、それが局在化されたシグナルを生成し、それによって、アレイ上の各スポットからのシグナルの空間的分解を可能にするように選択される。
核酸分子を標識するための方法は、当業界で周知である。標識化プロトコール、標識検出技術及び当業界における最近の開発の概説については、例えば、L. J. Kricka、Ann. Clin. Biochem. 2002、39: 114-129; R. P. van Gijlswijkら、Expert Rev. Mol. Diagn. 2001、1: 81-91;及びS. Joosら、J. Biotechnol. 1994、35: 135-153を参照されたい。標準的な核酸標識化方法は、放射活性剤の組込み、蛍光色素(例えば、L. M. Smithら、Nucl. Acids Res. 1985、13: 2399-2412を参照されたい)又は酵素(例えば、B. A. Connoly及びP. Rider、Nucl. Acids. Res. 1985、13: 4485-4502を参照されたい)の直接的結合;免疫化学的に、又は他の親和性反応により検出可能にする核酸断片の化学的修飾(例えば、T. R. Brokerら、Nucl. Acids Res. 1978、5: 363-384; E. A. Bayerら、Methods of Biochem. Analysis、1980、26: 1-45; R. Langerら、Proc. Natl. Acad. Sci. USA、1981、78: 6633-6637; R. W. Richardsonら、Nucl. Acids Res. 1983、11: 6167-6184; D. J. Brigatiら、Virol. 1983、126: 32-50; P. Tchenら、Proc. Natl Acad. Sci. USA、1984、81: 3466-3470; J. E. Landegentら、Exp. Cell Res. 1984、15: 61-72; 及びA. H. Hopmanら、Exp. Cell Res. 1987、169: 357-368を参照されたい);並びにランダムプライミング、ニックトランスレーション、PCR及びターミナルトランスフェラーゼを用いるテーリングなどの酵素媒介性標識化方法(酵素的標識化に関する概説については、例えば、J. Temsamani及びS. Agrawal、Mol. Biotechnol. 1996、5: 223-232を参照されたい)を含む。
様々な検出剤のいずれかを、本発明の実施において用いることができる。好適な検出剤としては、限定されるものではないが、様々なリガンド、放射性核種、蛍光色素、化学発光剤、微粒子(例えば、量子ドット、ナノ結晶、リン光体など)、酵素(例えば、ELISAにおいて用いられるもの、すなわち、西洋わさびペルオキシダーゼ、ベータ−ガラクトシダーゼ、ルシフェラーゼ、アルカリホスファターゼなど)、比色標識、磁気標識、及びビオチン、ジオキシゲニン若しくは他のハプテン並びに抗血清若しくはモノクローナル抗体が利用できるタンパク質が挙げられる。
しかしながら、いくつかの実施形態においては、PDIA3発現レベルは、PDIA3遺伝子産物(例えば、PDIA3タンパク質)の発現を検出することによって決定され、それにより、対象の試料から遺伝子試料(例えば、RNA)を取得する必要性を排除する。
本発明の全ての方法に用いることができる保管組織試料は、典型的には、供給源から得られ、保存されたものである。好ましい保存方法としては、当業界で公知であるように、限定されるものではないが、パラフィン包埋、エタノール固定並びにホルムアルデヒド及び他の誘導体を含むホルマリンによる固定が挙げられる。組織試料は、一時的に「古い」ものであってもよく、例えば、数カ月若しくは数年古いもの、又は最近固定されたものであってもよい。例えば、術後手順は一般に、組織学的分析のための切り出された組織に対する固定ステップを含む。好ましい実施形態においては、組織試料は、疾患を有する組織試料、例えば、一次及び二次腫瘍組織並びにリンパ節組織及び転移組織を含む癌組織である。
かくして、保管試料は異種性であってもよく、1種を超える細胞型又は組織型、例えば、腫瘍及び非腫瘍組織を包含する。好ましい組織試料は、限定されるものではないが、膵臓の腫瘍、膠芽腫又は扁平上皮癌などの固形腫瘍試料を含む。膵臓の腫瘍、膠芽腫又は扁平上皮癌以外の状態への本発明の適用において、腫瘍供給源は、脳、骨、心臓、乳房、卵巣、前立腺、子宮、脾臓、膵臓、肝臓、腎臓、膀胱、胃及び筋肉であってもよいことが理解される。同様に、状態に応じて、好適な組織試料は、限定されるものではないが、体液(限定されるものではないが、実質的に任意の生物の、血液、尿、血清、リンパ、唾液、肛門及び膣分泌物、汗及び精液を含み、哺乳動物試料が好ましく、ヒト試料が特に好ましい)を含む。
バイオマーカーの検出及び/又は測定
本発明は、PDIA3を検出及び/又は測定するための任意の好適な手段、技術、及び/又は手順を企図する。当業者であれば、PDIA3を測定するために用いられる方法は、検出又は測定されるPDIA3の種類(例えば、mRNA又はポリペプチド)及び生物学的試料の供給源に少なくとも依存することを理解できる。特定の生物学的試料はまた、PDIA3を測定する前に、特定の特殊な処理、例えば、PDIA3 mRNAが測定される場合、生検組織からのmRNAの調製も必要とし得る。
一実施形態では、本発明は、CoQ10を用いた癌の治療のために対象を選択するための方法であって、(a)生物学的試料をPDIA3に選択的に結合する試薬と接触させること、(b)試薬とPDIA3との間で複合体を形成させること、(c)複合体のレベルを検出すること、及び(d)複合体のレベルを所定の閾値と比較することを含み、複合体のレベルが所定の閾値より高い場合、対象はCoQ10を用いた癌の治療のために選択される、上記方法を提供する。
他の実施形態では、本発明は、癌を有する対象がCoQ10による治療に反応するかどうかを予測する方法であって、(a)生物学的試料をPDIA3に選択的に結合する試薬と接触させること、(b)試薬とPDIA3との間で複合体を形成させること、(c)複合体のレベルを検出すること、及び(d)複合体のレベルを所定の閾値と比較することを含み、所定の閾値より高いPDIA3のレベルは、対象がCoQ10による癌の治療に反応する可能性が高いことを示す、上記方法を提供する。
一実施形態では、複合体のレベルを検出することは、複合体を検出可能な二次抗体と接触させること、及び二次抗体のレベルを測定することをさらに含む。
一実施形態において、試薬は、PDIA3の少なくとも1つのエピトープに選択的に結合する抗PDIA3抗体である。別の実施形態では、生物学的試料中のPDIA3タンパク質は、イムノアッセイ又はELISAによって決定することができる。別の実施形態では、生物学的試料中のPDIA3タンパク質もまた質量分析法によって決定することができる。
他の実施形態では、対象の生物学的試料中のPDIA3のレベルを検出することは、生物学的試料中のPDIA3 mRNAの量を決定することを含む。例えば、生物学的試料中のPDIA3 mRNAの量を決定するために増幅反応が使用される。増幅反応は、例えば、ポリメラーゼ連鎖反応(PCR);核酸配列に基づく増幅アッセイ(NASBA);転写媒介増幅(TMA);リガーゼ連鎖反応(LCR);又は鎖置換増幅(SDA)を含み得る。
別の実施形態では、ハイブリダイゼーションアッセイが、生物学的試料中のPDIA3 mRNAの量を決定するために使用される。例えば、PDIA3 mRNAの一部に相補的なオリゴヌクレオチドをハイブリダイゼーションアッセイに使用して、PDIA3 mRNAを検出することができる。
PDIA3タンパク質及びmRNAのレベルを決定するための様々な方法を以下に詳細に記載する。
1.核酸バイオマーカーの検出
特定の実施形態においては、本発明は、PDIA3核酸の検出を含む。様々な実施形態においては、本発明の診断/予後診断方法は、一般に、組織試料中のPDIA3の発現レベルの決定を含む。本発明の方法の実行における遺伝子発現レベルの決定を、任意の好適な方法によって実施することができる。例えば、遺伝子発現レベルの決定を、目的の遺伝子から発現されるmRNAの発現を検出することによって、及び/又は遺伝子によりコードされるポリペプチドの発現を検出することによって実施することができる。
PDIA3をコードする核酸を検出するために、限定されるものではないが、サザンブロット分析、ノーザンブロット分析、ポリメラーゼ連鎖反応(PCR)(例えば、米国特許第4,683,195号;第4,683,202号、及び第6,040,166号;「PCR Protocols: A Guide to Methods and Applications」、Innisら(編)、1990、Academic Press: New Yorkを参照されたい)、逆転写酵素PCR(RT−PCR)、アンカーPCR、競合的PCR(例えば、米国特許第5,747,251号を参照されたい)、cDNA末端の迅速増幅(RACE)(例えば、「Gene Cloning and Analysis: Current Innovations」、1997、pp. 99-115を参照されたい);リガーゼ連鎖反応(LCR)(例えば、EP01320308を参照されたい)、片側PCR(Oharaら、Proc. Natl. Acad. Sci.、1989、86: 5673-5677)、in situハイブリダイゼーション、Taqmanに基づくアッセイ(Hollandら、Proc. Natl. Acad. Sci.、1991、88: 7276-7280)、ディファレンシャルディスプレイ(例えば、Liangら、Nucl. Acid. Res.、1993、21: 3269-3275を参照されたい)及び他のRNAフィンガープリンティング技術、核酸配列に基づく増幅(NASBA)及び他の転写に基づく増幅系(例えば、米国特許第5,409,818号及び第5,554,527号を参照されたい)、Qベータレプリカーゼ、鎖置換増幅(SDA)、修復鎖反応(RCR)、ヌクレアーゼ保護アッセイ、差分法、Rapid−Scan(登録商標)などの、任意の好適な方法を用いることができる。
他の実施形態においては、PDIA3の遺伝子発現レベルを、mRNAから産生された相補的DNA(cDNA)又は相補的RNA(cRNA)を増幅させること、及びマイクロアレイを用いてそれを分析することによって決定することができる。いくつかの異なるアレイ構成及びその製造方法が、当業者には公知である(例えば、米国特許第5,445,934号;第5,532,128号;第5,556,752号;第5,242,974号;第5,384,261号;第5,405,783号;第5,412,087号;第5,424,186号;第5,429,807号;第5,436,327号;第5,472,672号;第5,527,681号;第5,529,756号;第5,545,531号;第5,554,501号;第5,561,071号;第5,571,639号;第5,593,839号;第5,599,695号;第5,624,711号;第5,658,734号;及び第5,700,637号を参照されたい)。
増幅のための鋳型として用いられる核酸を、標準的な方法に従って、生物学的試料中に含有される細胞から単離することができる(Sambrookら、1989)。核酸は、ゲノムDNA又は分画された若しくは全細胞RNAであってもよい。RNAを用いる場合、RNAを相補的cDNAに変換することが望ましい場合がある。一実施形態においては、RNAは、全細胞RNAであり、増幅のための鋳型として直接的に用いられる。
PDIA3ヌクレオチド配列に対応する核酸に選択的にハイブリダイズするプライマー対を、選択的ハイブリダイゼーションを許容する条件下で単離された核酸と接触させる。一度ハイブリダイズしたら、核酸:プライマー複合体を、鋳型依存的核酸合成を容易にする1種以上の酵素と接触させる。「サイクル」とも呼ばれる、複数回の増幅を、十分な量の増幅産物が産生されるまで行う。次に、増幅産物を検出する。特定の適用においては、検出は、視覚的手段によって実施してもよい。あるいは、検出は、化学発光、取り込まれた放射標識若しくは蛍光標識の放射性シンチグラフィー又はさらには、電気若しくは熱インパルスシグナルを用いるシステム(Affymax技術;Bellus、1994)による、産物の間接的同定を含んでもよい。検出後、所与の患者において見られた結果と、正常な患者及び癌患者の統計的に有意な参照群とを比較することができる。このように、検出された核酸の量と、様々な臨床状態とを相関させることが可能である。
本明細書で定義される用語「プライマー」は、鋳型依存的プロセスにおける新生核酸の合成をプライミングすることができる任意の核酸を包含することを意味する。典型的には、プライマーは、10〜20塩基対長のオリゴヌクレオチドであるが、より長い配列を用いてもよい。プライマーを、二本鎖又は一本鎖の形態で提供することができるが、一本鎖形態が好ましい。
いくつかの鋳型依存的プロセスが、所与の鋳型試料中に存在する核酸配列を増幅するために利用可能である。最もよく知られた増幅方法の1つは、それぞれ全体が参照により本明細書に組込まれる、米国特許第4,683,195号、第4,683,202号及び第4,800,159号、並びにInnisら、1990に詳細に記載されているポリメラーゼ連鎖反応(PCRと呼ばれる)である。
PCRにおいては、標的核酸配列の反対の相補鎖上の領域と相補的である2つのプライマー配列を調製する。過剰のデオキシヌクレオシド三リン酸を、DNAポリメラーゼ、例えば、Taqポリメラーゼと共に反応混合物に添加する。標的核酸配列が試料中に存在する場合、プライマーは標的核酸に結合し、ポリメラーゼは、ヌクレオチド上に付加することにより標的核酸配列に沿ってプライマーの伸長を引き起こすであろう。反応混合物の温度を上昇及び低下させることにより、伸長されたプライマーは標的核酸から解離して、反応産物を形成し、過剰のプライマーは標的核酸及び反応産物に結合し、プロセスが繰り返される。
逆転写酵素PCR増幅手順を実施して、増幅されたmRNAの量を定量することができる。RNAをcDNAに逆転写する方法は、周知であり、Sambrookら、1989に記載されている。逆転写のための代替的な方法は、熱安定性DNAポリメラーゼを用いるものである。これらの方法は、1990年12月21日に出願されたWO90/07641に記載されている。ポリメラーゼ連鎖反応法は、当業界で周知である。
増幅のための別の方法は、全体が参照により本明細書に組込まれる欧州特許出願第320 308号に開示されたリガーゼ連鎖反応(「LCR」)である。LCRにおいては、2つの相補的プローブ対を調製し、標的配列の存在下で、各対は、それらが隣接するように標的の反対の相補鎖に結合する。リガーゼの存在下で、2つのプローブ対は連結して、単一のユニットを形成する。PCRにおけるような、温度サイクリングにより、結合しライゲートされたユニットは標的から解離し、次いで、過剰のプローブ対のライゲーションのための「標的配列」として働く。米国特許第4,883,750号は、プローブ対を標的配列に結合させるためのLCRと類似する方法を記載する。
PCT出願PCT/US87/00880に記載されたQベータレプリカーゼを、本発明におけるさらに別の増幅方法として用いることもできる。この方法においては、標的のものと相補的な領域を有するRNAの複製配列を、RNAポリメラーゼの存在下で試料に添加する。ポリメラーゼは、複製配列をコピーした後、これを検出することができる。
制限エンドヌクレアーゼ及びリガーゼを用いて、制限部位の一方の鎖中にヌクレオチド5’−[α−チオ]−三リン酸を含有する標的分子の増幅を達成する、等温増幅法も、本発明における核酸の増幅において有用であり得る。全体が参照により本明細書に組込まれるWalkerら(1992)。
鎖置換増幅(SDA)は、複数回の鎖置換及び合成を含む核酸の等温増幅、すなわち、ニックトランスレーションを実行する別の方法である。修復鎖反応(RCR)と呼ばれる、類似の方法は、増幅のために標的化される領域を介するいくつかのプローブのアニーリング、次いで、4つの塩基のうちの2つのみが存在する修復反応を含む。他の2つの塩基は、容易な検出のためにビオチン化誘導体として添加することができる。同様の手法がSDAにおいて用いられる。標的特異的配列を、サイクルプローブ反応(CPR)を用いて検出することもできる。CPRにおいては、非特異的DNAの3’及び5’配列並びに特異的RNAの中央配列を有するプローブを、試料中に存在するDNAにハイブリダイズさせる。ハイブリダイゼーションの際に、反応物をRNase Hで処理し、プローブの産物を、消化後に遊離される異なる産物として同定する。元の鋳型を別のサイクリングプローブにアニーリングさせ、反応を繰り返す。
それぞれ、その全体が参照により本明細書に組込まれるGB出願第2202328号、及びPCT出願第PCT/US89/01025号に記載されたさらに他の増幅方法を、本発明に従って用いることができる。前者の出願においては、「改変」プライマーが、PCRのような、鋳型及び酵素依存的合成において用いられる。プライマーを、捕捉部分(例えば、ビオチン)及び/又は検出部分(例えば、酵素)で標識することによって改変することができる。後者の出願においては、過剰の標識されたプローブを試料に添加する。標的配列の存在下で、プローブが結合し、触媒的に切断される。切断後、標的配列は、過剰のプローブによって結合されて無傷のまま遊離する。標識されたプローブの切断は、標的配列の存在についてシグナルを発する。
他の企図される核酸増幅手順は、転写に基づく増幅系(TAS)、例えば、核酸配列に基づく増幅(NASBA)及び3SRを含む。その全体が参照により本明細書に組込まれるKwohら(1989); Gingerasら、PCT出願WO88/10315。
Daveyら、欧州特許出願第329822号(その全体が参照により本明細書に組込まれる)は、一本鎖RNA(「ssRNA」)、ssDNA、及び二本鎖DNA(dsDNA)を周期的に合成することを含む核酸増幅プロセスを開示し、これを本発明に従って用いることができる。ssRNAは、第1のプライマーオリゴヌクレオチドのための第1の鋳型であり、逆転写酵素(RNA依存的DNAポリメラーゼ)によって伸長する。次いで、リボヌクレアーゼH(RNase H、DNA又はRNAのいずれかとの二本鎖中のRNAに特異的なRNase)の作用により、得られるDNA:RNA二本鎖からRNAを除去する。得られるssDNAは、第2のプライマーのための第2の鋳型であり、鋳型とのその相同性に対して5’側にRNAポリメラーゼプロモーター(例えば、T7 RNAポリメラーゼ)の配列も含む。このプライマーを、DNAポリメラーゼ(例えば、大腸菌DNAポリメラーゼ1の大きい「Klenow」断片)により伸長させ、プライマー間に元のRNAのものと同一の配列を有し、さらに、一方の末端に、プロモーター配列を有する、二本鎖DNA(「dsDNA」)分子をもたらす。このプロモーター配列を、適切なRNAポリメラーゼによって用いて、DNAの多くのRNAコピーを作ることができる。次いで、これらのコピーは、非常に敏速な増幅をもたらすサイクルに再進入することができる。酵素を適切に選択すれば、各サイクルで酵素を添加することなく、等温的にこの増幅を行うことができる。このプロセスの循環的性質のため、DNA又はRNAのいずれかの形態であるように出発配列を選択することができる。
Millerら、PCT出願WO89/06700(その全体が参照により本明細書に組込まれる)は、プロモーター/プライマー配列の標的一本鎖DNA(「ssDNA」)へのハイブリダイゼーション、次いで、配列の多くのRNAコピーの転写に基づく核酸配列増幅スキームを開示する。このスキームは循環的ではない、すなわち、新しい鋳型は得られるRNA転写物から産生されない。他の増幅方法は、「race」及び「片側PCR.TM」を含む。それぞれその全体が参照により本明細書に組込まれる、Frohman(1990)及びOharaら(1989)。
得られる「ジ−オリゴヌクレオチド」の配列を有する核酸の存在下での2個(以上)のオリゴヌクレオチドのライゲーションによるジ−オリゴヌクレオチドの増幅に基づく方法を、本発明の増幅ステップにおいて用いることもできる。その全体が参照により本明細書に組込まれる、Wuら(1989)。
本発明のオリゴヌクレオチドプローブ又はプライマーは、特定のアッセイ形式及び特定の必要性及び用いられる標的配列に応じて、任意の好適な長さのものであってもよい。好ましい実施形態においては、オリゴヌクレオチドプローブ又はプライマーは、少なくとも10ヌクレオチド長(好ましくは、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32...)であり、それらを、選択される核酸増幅系及び/又は用いられるハイブリダイゼーション系に特に適するように適合させることができる。当業界で周知の通り、より長いプローブ及びプライマーも、本発明の範囲内にある。30を超える、40を超える、50を超えるヌクレオチドを有するプライマー及び100を超える、200を超える、300を超える、500を超える、800を超える、1000を超えるヌクレオチド長を有するプローブも、本発明によって包含される。勿論、より長いプライマーは、より高価であるという欠点を有し、かくして、当業界では12〜30ヌクレオチド長を有するプライマーが通常設計され、用いられる。当業界では周知の通り、10〜2000を超えるヌクレオチド長のプローブを、本発明の方法において用いることができる。上記の同一性の%に関して、プローブ及びプライマーの非特異的に記載されるサイズ(例えば、16、17、31、24、39、350、450、550、900、1240ヌクレオチド...)も、本発明の範囲内にある。一実施形態においては、本発明のオリゴヌクレオチドプローブ又はプライマーは、PDIA3 RNA(若しくはその相補配列)又はPDIA3 mRNAと特異的にハイブリダイズする。
他の実施形態においては、検出手段は、例えば、特異的プライマー又はプローブを選択して、目的の標的バイオマーカー、例えば、PDIA3にアニーリングさせた後、選択的ハイブリダイゼーションの検出を行うハイブリダイゼーション技術を用いることができる。当業界で一般に公知であるように、オリゴヌクレオチドプローブ及びプライマーを、その標的配列とのハイブリダイゼーションの融点を考慮に入れることによって設計することができる(以下及びSambrookら、1989、Molecular Cloning--A Laboratory Manual、第2版、CSH Laboratories; Ausubelら、1994、Current Protocols in Molecular Biology、John Wiley & Sons Inc., N.Y.を参照されたい)。
本発明のアッセイ条件下でハイブリダイゼーションを起こさせるために、オリゴヌクレオチドプライマー及びプローブは、PDIA3又は本発明の別のバイオマーカーのポリヌクレオチドの一部に対して少なくとも70%(少なくとも71%、72%、73%、74%)、好ましくは、少なくとも75%(75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%)、より好ましくは、少なくとも90%(90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%)の同一性を有するオリゴヌクレオチド配列を含むべきである。本発明のプローブ及びプライマーは、ストリンジェントなハイブリダイゼーション条件下でハイブリダイズするもの、及び少なくとも中程度にストリンジェントな条件下で本発明のバイオマーカー相同体にハイブリダイズするものである。特定の実施形態においては、本発明のプローブ及びプライマーは、本発明のバイオマーカー(PDIA3、遺伝子配列(例えば、cDNA又はmRNA)に対する完全な配列同一性を有する。当業界で公知のコンピュータアラインメント及び配列分析の方法を用いることにより、本明細書に開示される本発明のバイオマーカーに基づいて本発明において他のプローブ及びプライマーを容易に設計及び使用することができることが理解されるべきである(Molecular Cloning: A Laboratory Manual、第3版、Cold Spring Harbor Laboratory(編)、2000を参照されたい)。
2.ポリペプチドバイオマーカーの検出
本発明は、本発明のPDIA3ポリペプチドを検出するための任意の好適な方法を企図する。特定の実施形態においては、検出方法は、PDIA3に特異的に結合する抗体を含む免疫検出方法である。様々な有用な免疫検出方法のステップが、例えば、参照により本明細書に組込まれるNakamuraら(1987)などの科学文献に記載されている。
一般に、免疫結合方法は、バイオマーカータンパク質、ペプチド又は抗体を含有すると疑われる試料を取得すること、及び場合により、免疫複合体の形成を可能にするのに有効な条件下で、該試料を、本発明による抗体又はタンパク質又はペプチドと接触させることを含む。
免疫結合方法は、試料中の反応成分の量を検出又は定量するための方法であって、結合プロセス中に形成される任意の免疫複合体の検出又は定量を必要とする方法を含む。ここで、前立腺特異的なタンパク質、ペプチド又は対応する抗体を含有すると疑われる試料を取得し、場合により、該試料を抗体又はコードされるタンパク質若しくはペプチドと接触させた後、特定の条件下で形成される免疫複合体の量を検出又は定量することができる。
バイオマーカー検出に関して、分析される生物学的試料は、PDIA3を含有すると疑われる任意の試料であってもよい。免疫複合体(一次免疫複合体)の形成を可能にするのに有効な条件下での、十分な時間にわたる、選択された生物学的試料と、タンパク質(例えば、PDIA3又は血液中の抗PDIA3抗体と結合するその抗原)、ペプチド(例えば、血液中の抗PDIA3抗体と結合するPDIA3断片)、又は抗体(例えば、生物学的試料中のPDIA3に結合する検出試薬として)との接触。一般に、複合体形成は、単に生物学的試料に組成物を添加し、存在する任意の抗原と抗体が免疫複合体を形成する、すなわち、それに結合するのに十分な時間にわたって混合物をインキュベートすることである。この時間の後、一般には、組織切片、ELISAプレート、ドットブロット又はウェスタンブロットなどの試料−抗体組成物を洗浄して、任意の非特異的に結合した抗体種を除去し、検出しようとする一次免疫複合体内にこれらの抗体のみを特異的に結合させることができる。
一般に、免疫複合体形成の検出は、当業界で周知であり、いくつかの手法の適用によって達成することができる。これらの方法は、一般に、当業界で標準的に使用される放射性、蛍光、生物学的若しくは酵素的タグ又は標識などの、標識又はマーカーの検出に基づく。そのような標識の使用に関する米国特許としては、参照により本明細書に組込まれる米国特許第3,817,837号;第3,850,752号;第3,939,350号;第3,996,345号;第4,277,437号;第4,275,149号及び第4,366,241号が挙げられる。勿論、当業界で公知のように、第2の抗体又はビオチン/アビジンリガンド結合配置などの第2の結合リガンドの使用によってさらなる利点を見出すことができる。
検出において用いられる、コードされたタンパク質(例えば、PDIA3)、ペプチド(例えば、PDIA3ペプチド)又は対応する抗体(検出試薬としての抗PDIA3抗体)を、それ自身、検出可能な標識に連結してもよく、その後、この標識を単に検出し、それによって、組成物中の一次免疫複合体の量を決定することができる。
あるいは、一次免疫複合体内に結合するようになる第1の添加された成分を、コードされたタンパク質、ペプチド又は対応する抗体に対する結合親和性を有する第2の結合リガンドによって検出することができる。これらの場合、第2の結合リガンドを、検出可能な標識に連結することができる。第2の結合リガンドはそれ自身、抗体であることが多く、かくして、「第2」の抗体と呼ぶことができる。二次免疫複合体の形成を可能にするのに有効な条件下、及び十分な時間にわたって、一次免疫複合体を、標識された、二次結合リガンド、又は抗体と接触させる。次いで、一般的には、二次免疫複合体を洗浄して、非特異的に結合した標識された第2の抗体又はリガンドを除去した後、二次免疫複合体中の残存する標識を検出する。
さらなる方法は、2ステップの手法による一次免疫複合体の検出を含む。コードされたタンパク質、ペプチド又は対応する抗体に対する結合親和性を有する、抗体などの第2の結合リガンドを用いて、上記のような二次免疫複合体を形成する。洗浄後、二次免疫複合体を、再度、免疫複合体(三次免疫複合体)の形成を可能にするのに有効な条件下、及び十分な時間にわたって、第2の抗体に対する結合親和性を有する第3の結合リガンド又は抗体と接触させる。第3のリガンド又は抗体を検出可能な標識に連結し、かくして形成された三次免疫複合体の検出を可能にする。この系は、これが望ましい場合、シグナル増幅を提供することができる。
本発明の免疫検出方法は、前立腺癌などの状態の診断における明らかな有用性を有する。ここで、コードされたタンパク質又はペプチド又は対応する抗体のいずれかを含有すると疑われる生物学的試料又は臨床試料を用いる。しかしながら、これらの実施形態はまた、抗原又は抗体試料の滴定、ハイブリドーマの選択などにおける、非臨床試料への適用も有する。
本発明は、特に、免疫検出アッセイの型としてのELISAの使用を企図する。本発明のバイオマーカータンパク質又はペプチドは、前立腺癌の診断及び予後モニタリングにおけるELISAアッセイにおける免疫原として有用であることが企図される。イムノアッセイは、その最も単純かつ直接的な意味において、結合アッセイである。特定の好ましいイムノアッセイは、当業界で公知の様々な型の酵素結合免疫吸着アッセイ(ELISA)及びラジオイムノアッセイ(RIA)である。組織切片を用いる免疫組織化学的検出も特に有用である。しかしながら、検出はそのような技術に限定されず、ウェスタンブロッティング、ドットブロッティング、FACS分析なども用いることができることが容易に理解されるであろう。
1つの例示的なELISAにおいては、本発明のバイオマーカーに結合する抗体を、ポリスチレンマイクロタイタープレート中のウェルなどの、タンパク質親和性を示す選択された表面上に固定する。次いで、臨床試料などの、前立腺癌マーカー抗原を含有すると疑われる試験組成物を、ウェルに添加する。結合させ、洗浄して非特異的に結合した免疫複合体を除去した後、結合した抗原を検出することができる。検出は、一般に、検出可能な標識に連結された標的タンパク質に特異的な第2の抗体の添加によって達成される。この型のELISAは、単純な「サンドイッチELISA」である。検出はまた、第2の抗体の添加、次いで、第2の抗体に対する結合親和性を有する、検出可能な標識に連結された第3の抗体の添加により達成することもできる。
別の例示的なELISAにおいては、前立腺癌マーカー抗原を含有すると疑われる試料を、ウェル表面上に固定した後、本発明の抗バイオマーカー抗体と接触させる。結合させ、洗浄して、非特異的に結合した免疫複合体を除去した後、結合した抗原を検出する。初期の抗体を検出可能な標識に連結する場合、免疫複合体を直接的に検出することができる。再度、免疫複合体を、第1の抗体に対する結合親和性を有する、検出可能な標識に連結された第2の抗体を用いて検出することができる。
用いられる形式とは関係なく、ELISAは一般に、コーティング、インキュベート又は結合、非特異的に結合した種を除去するための洗浄、及び結合した免疫複合体の検出などの特定の特徴を有する。これらのものは、以下のように記載される。
プレートを抗原又は抗体でコーティングする際に、一般に、プレートのウェルを、抗原又は抗体の溶液と共に、一晩又は特定の時間にわたってインキュベートする。次いで、プレートのウェルを洗浄して、不完全に吸着した材料を除去する。次いで、ウェルの残りの利用可能な表面を、試験抗血清に関して抗原的に中性である非特異的タンパク質で「コーティング」する。これらのものとしては、ウシ血清アルブミン(BSA)、カゼイン及びミルク粉末の溶液が挙げられる。コーティングは、固定化表面上の非特異的吸着部位のブロッキングを可能にし、かくして、表面上への抗血清の非特異的結合を原因とするバックグラウンドを軽減することができる。
ELISAにおいては、直接的手順よりもむしろ、二次又は三次検出手段を使用することがおそらくより慣用的である。かくして、タンパク質又は抗体のウェルへの結合、バックグラウンドを軽減するための非反応性材料によるコーティング、未結合の材料を除去するための洗浄の後、固定化表面を、試験しようとする対照ヒト前立腺、癌及び/又は臨床試料若しくは生物学的試料と、免疫複合体(抗原/抗体)形成を可能にするのに有効な条件下で接触させる。次いで、免疫複合体の検出には、標識された二次結合リガンド若しくは抗体、又は二次結合リガンド若しくは抗体と共に、標識された三次抗体若しくは第3の結合リガンドが必要である。
語句「免疫複合体(抗原/抗体)形成を可能にするのに有効な条件下」とは、その条件が、好ましくは、抗原及び抗体を、BSA、ウシガンマグロブリン(BGG)及びリン酸緩衝生理食塩水(PBS)/Tweenなどの溶液で希釈することを含むことを意味する。これらの添加される薬剤もまた、非特異的バックグラウンドの軽減を援助する傾向がある。
「好適な」条件はまた、インキュベーションが有効な結合を可能にするのに十分な温度で、及び時間にわたって行われることを意味する。インキュベーションステップは、好ましくは、25〜27℃の温度で、典型的には、約1〜2〜4hであるか、又は約4℃で一晩などであってもよい。
ELISAにおける全てのインキュベーションステップの後、接触した表面を洗浄して、複合体化されていない材料を除去する。好ましい洗浄手順は、PBS/Tween、又はホウ酸バッファーなどの溶液を用いる洗浄を含む。試験試料と元々結合した材料との特異的な免疫複合体の形成、及びその後の洗浄の後、さらに微量の免疫複合体の出現を決定することができる。
検出手段を提供するために、第2又は第3の抗体は、検出を可能にする関連する標識を有する。好ましくは、これは、適切な発色基質とのインキュベーションの際に発色現像を生成する酵素である。かくして、例えば、さらなる免疫複合体形成の発達に都合が良い時間及び条件下で、第1又は第2の免疫複合体を、ウレアーゼ、グルコースオキシダーゼ、アルカリホスファターゼ又は水素ペルオキシダーゼ結合抗体と接触させ、インキュベートすることを望むであろう(例えば、PBS−TweenなどのPBS含有溶液中、室温で2hのインキュベーション)。
標識された抗体とのインキュベーション、未結合の材料を除去するためのその後の洗浄の後、例えば、尿素及びブロモクレゾールパープルなどの発色基質とのインキュベーションにより、標識の量を定量する。次いで、例えば、可視スペクトル分光光度計を用いて、色の生成の程度を測定することにより、定量を達成する。
PDIA3を、タンパク質質量分析法及び機器を用いて測定、定量、検出、及びさもなければ分析することもできる。タンパク質質量分析とは、タンパク質の試験への質量分析の適用を指す。限定を意図するものではないが、質量分析を用いてタンパク質を特徴付けるために、典型的には2つの手法が用いられる。第1には、無傷のタンパク質をイオン化した後、質量分析器に導入する。この手法は、タンパク質分析の「トップダウン」戦略と呼ばれる。全タンパク質のイオン化のための2つの主要な方法は、電子スプレーイオン化(ESI)及びマトリックス支援レーザー脱離/イオン化(MALDI)である。第2の手法においては、タンパク質を、トリプシンなどのプロテアーゼを用いてより小さいペプチドに酵素的に消化する。続いて、これらのペプチドを、質量分析計に導入し、ペプチド質量フィンガープリンティング又はタンデム質量分析により同定する。従って、この後者の手法(「ボトムアップ」プロテオミクスとも呼ばれる)は、ペプチドレベルでの同定を使用し、タンパク質の存在を推察するものである。
本発明のバイオマーカーの全タンパク質質量分析を、飛行時間(TOF)MS、又はフーリエ変換イオンサイクロトロン共鳴(FT−ICR)を用いて行うことができる。これらの2つの型の機器は、その広い質量範囲のため、FT−ICRの場合、その高い質量精度のため有用である。ペプチド質量分析のために最も広く用いられる機器は、それらが高いペースでペプチド質量フィンガープリント(PMF)の獲得を可能にするため(1PMFを約10secで分析することができる)、MALDI飛行時間機器である。多段階四重極飛行時間及び四重極イオントラップも本出願において有用である。
PDIA3を、タンパク質と生物学的媒体又は試料中に同時に存在する分子との複雑な混合物中で測定することもできるが、試料の分画化が必要であることもあり、本明細書で企図される。タンパク質の複雑な混合物のイオン化は、多い方のタンパク質が同じ試料中の少ない方のタンパク質からシグナルを「かき消す」又は抑制する傾向を有する状況をもたらし得ることが理解されるであろう。さらに、複雑な混合物に由来する質量スペクトルは、圧倒的な数の混合物成分のため、解釈するのが難しいことがある。分画化を用いて、最初にタンパク質の複雑な混合物を分離した後、質量分析を行うことができる。酵素消化物からタンパク質、又はそのペプチド産物を分画するために2つの方法が広く用いられている。第1の方法は、全タンパク質を分画し、二次元ゲル電気泳動と呼ばれる。第2の方法である高速液体クロマトグラフィー(LC又はHPLC)は、酵素的消化の後にペプチドを分画するために用いられる。いくつかの状況においては、これらの技術の両方を組合わせることが望ましい場合がある。タンパク質混合物を分画するための当業界で公知の任意の他の好適な方法も、本明細書で企図される。
2Dゲル上で同定されるゲルスポットは通常、1つのタンパク質に起因する。タンパク質の同一性が望ましい場合、通常は、目的のタンパク質スポットが切り出され、タンパク質分解的に消化される、ゲル内消化の方法が適用される。消化の結果得られるペプチド質量を、ペプチド質量フィンガープリンティングを用いる質量分析によって決定することができる。この情報がタンパク質の明確な同定を可能にしない場合、そのペプチドを、de novo配列決定のためにタンデム質量分析にかけることができる。
HPLC/MSを用いたタンパク質混合物の特性決定を、当業界では「ショットガンプロテオミクス」及びMuDPIT(多次元タンパク質同定技術)と呼ぶこともできる。タンパク質混合物の消化の結果生じるペプチド混合物を、1又は2ステップの液体クロマトグラフィー(LC)によって分画する。クロマトグラフィー段階からの溶離液を、電子スプレーイオン化によって質量分析器に直接導入するか、又はMALDIを用いるレーザー質量分析のために一連の小スポット上に沈着させることができる。
PDIA3を、様々な技術を用いるMSを用いて同定することができ、全て本明細書で企図される。ペプチド質量フィンガープリンティングは、既知のタンパク質の一覧の消化から生じた予測質量のデータベースの検索への入力としてタンパク質分解ペプチドの質量を使用する。参照一覧中のタンパク質配列が、実験値と一致する有意数の予測質量を生じる場合、このタンパク質が元の試料中に存在していたことのいくつかの証拠がある。マイクロキャピラリー液体クロマトグラフィー(LC)及びデータベース検索と組合わせた自動化データ依存的電子スプレーイオン化(ESI)タンデム質量分析(MS/MS)のための方法及び機器の開発は、ゲル分離されたタンパク質の同定の有意に高い感度及び速度を有することをさらに理解されるであろう。マイクロキャピラリーLC−MS/MSは、ゲル電気泳動分離を用いることなく混合物から直接的に個々のタンパク質を大規模に同定するために上手く用いられてきた(Linkら、1999; Opitekら、1997)。
いくつかの最近の方法は、質量分析によるタンパク質の定量を可能にする。例えば、安定な(例えば、非放射性の)より重い炭素(13C)又は窒素(15N)のアイソトープを、1つの試料中に組込むことができるが、他のものを対応する軽いアイソトープ(例えば、12C及び14N)で標識することができる。2つの試料を、分析前に混合する。異なる試料に由来するペプチドを、その質量の差異のため識別することができる。そのピーク強度の比は、ペプチド(及びタンパク質)の相対存在量に対応する。アイソトープ標識化のための最も有名な方法は、SILAC(細胞培養物中のアミノ酸による安定アイソトープ標識化)、トリプシン触媒された18O標識化、ICAT(アイソトープコード親和性タグ付け)、iTRAQ(相対的及び絶対的定量のための等圧タグ)である。「半定量的」質量分析は、試料を標識することなく実施することができる。典型的には、これはMALDI分析を用いて行われる(線形モードで)。個々の分子(典型的には、タンパク質)に由来する、ピーク強度、又はピーク面積は、ここで、試料中のタンパク質の量と相関する。しかしながら、個々のシグナルは、タンパク質の一次構造、試料の複雑性、及び機器の設定に依存する。他の型の「標識を含まない」定量的質量分析は、相対タンパク質量を決定するための手段として消化されたタンパク質のスペクトル計数(又はペプチド計数)を用いる。
PDIA3を、発明を限定することを意図しない、以下の例示的な方法に従う質量分析を用いて、又は他の質量分析に基づく方法を用いて、複雑な生物学的試料から同定及び定量することができる。
この実施形態の第1のステップにおいては、(A)タンパク質の複雑な混合物(少なくとも1種の目的のバイオマーカーを含む)を含む生物学的試料を、断片化し、安定アイソトープXで標識する。(B)次に、少なくとも1種の目的の標的バイオマーカーと同一である標準タンパク質を断片化することにより調製され、安定アイソトープYで標識された、既知量の内部標準を生物学的試料に添加する。(C)次いで、得られたこの試料を、LC−MS/MS装置に導入し、多反応モニタリング(MRM)分析を、MRMクロマトグラムを得るための内部標準について選択されたMRM遷移を用いて実施する。(D)次いで、MRMクロマトグラムを見て、内部標準(内部標準ペプチド)に由来するペプチドと同じ保持時間を示す生物学的試料に由来する標的ペプチドバイオマーカーを同定し、内部標準ペプチドのピーク面積と、標的ペプチドバイオマーカーのピーク面積とを比較することにより試験試料中の標的タンパク質バイオマーカーを定量する。
血液、尿、唾液、毛髪、細胞、細胞組織、生検材料、及びその処理産物に由来する生物学的試料;並びに遺伝子組換え技術により調製されたタンパク質含有試料などの、任意の好適な生物学的試料を、LC−MS/MS/MRM分析のための出発点として用いることができる。
上記ステップ(A)〜(D)のそれぞれを、以下でさらに説明する。
ステップ(A)(断片化及び標識化)。ステップ(A)においては、標的タンパク質バイオマーカーをペプチドの収集物に断片化した後、安定アイソトープXで標識する。標的タンパク質を断片化するために、例えば、標的タンパク質をトリプシンなどのタンパク質分解酵素(プロテアーゼ)で消化する方法、及び臭化シアンを用いる方法などの化学的切断方法を用いることができる。プロテアーゼによる消化が好ましい。タンパク質分解的消化を完了まで進行させた場合、所与のモル量のタンパク質は、同じモル量の各トリプシンペプチド切断産物を産生することが公知である。かくして、所与のタンパク質に対するトリプシンペプチドのモル量の決定は、試料中の元のタンパク質のモル量の決定を可能にする。標的タンパク質の絶対的定量を、プロテアーゼ消化物(ペプチドの収集物)中に含まれる標的タンパク質由来ペプチドの絶対量を決定することによって達成することができる。従って、タンパク質分解的消化を完了まで進行させるために、還元及びアルキル化処理を実施した後、トリプシンによるプロテアーゼ消化を行って、標的タンパク質中に含まれるジスルフィド結合を還元及びアルキル化するのが好ましい。
続いて、得られた消化物(生物学的試料中の標的バイオマーカーのペプチドを含む、ペプチドの収集物)を、安定アイソトープXによる標識化にかける。安定アイソトープXの例としては、水素原子については1H及び2H、炭素原子については12C及び13C、並びに窒素原子については14N及び15Nが挙げられる。任意のアイソトープを、それらから好適に選択することができる。安定アイソトープXによる標識化を、消化物(ペプチドの収集物)を、安定アイソトープを含有する試薬と反応させることによって実施することができる。市販のそのような試薬の好ましい例としては、アミン特異的な安定アイソトープ試薬キットである、mTRAQ(登録商標)(Applied Biosystemsにより製造)が挙げられる。mTRAQは、アイソトープ標識化の結果としてそれらの間で一定の質量差を有し、ペプチドのN末端又はリシン残基の一次アミンに結合する2又は3つの型の試薬(mTRAQ−light及びmTRAQ−heavy;又はmTRAQ−D0、mTRAQ−D4、及びmTRAQ−D8)から構成される。
ステップ(B)(内部標準の添加)。ステップ(B)においては、既知量の内部標準を、ステップ(A)で得られた試料に添加する。本明細書で用いられる内部標準は、測定しようとする標的タンパク質(標的バイオマーカー)と同じアミノ酸配列からなるタンパク質(標準タンパク質)を断片化すること、及び得られた消化物(ペプチドの収集物)を安定アイソトープYで標識化することにより得られる消化物(ペプチドの収集物)である。断片化処理を、標的タンパク質について上記されたのと同じ様式で実施することができる。安定アイソトープYによる標識化も、標的タンパク質について上記されたのと同じ様式で実施することができる。しかしながら、本明細書で用いられる安定アイソトープYは、標的タンパク質消化物を標識するために用いられる安定アイソトープXのものと異なる質量を有するアイソトープでなければならない。例えば、上記のmTRAQ(登録商標)(Applied Biosystemsにより製造)を用いる場合、mTRAQ−lightを用いて標的タンパク質消化物を標識する時は、mTRAQ−heavyを用いて標準タンパク質消化物を標識するべきである。
ステップ(C)(LC−MS/MS及びMRM分析)。ステップ(C)においては、ステップ(B)で得られた試料を最初にLC−MS/MS装置に入れた後、内部標準のために選択されたMRM遷移を用いて、多反応モニタリング(MRM)分析を実施する。LC−MS/MS装置を用いるLC(液体クロマトグラフィー)により、ステップ(B)で得られた試料(安定アイソトープで標識されたペプチドの収集物)を、最初に一次元又は多次元高速液体クロマトグラフィーによって分離する。そのような液体クロマトグラフィーの特定例としては、ペプチド間の電荷差を用いることによって分離を行う陽イオン交換クロマトグラフィー;及びペプチド間の疎水性の差を用いることによって分離を行う逆相クロマトグラフィーが挙げられる。これらの方法は両方とも、組合わせて用いてもよい。
続いて、それぞれの分離されたペプチドを、直列に接続した2つの質量分析計を含むタンデム質量分析計(MS/MS分光計)を用いることによるタンデム質量分析にかける。そのような質量分析計の使用により、数fmolレベルの標的タンパク質の検出が可能となる。さらに、MS/MS分析により、ペプチド上の内部配列情報の分析が可能になり、かくして、偽陽性なしに同定が可能となる。磁気セクター質量分析計(Sector MS)、四重極質量分析計(QMS)、飛行時間質量分析器(TOFMS)、及びフーリエ変換イオンサイクロトロン共鳴質量分析計(FT−ICRMS)、並びにこれらの分析器の組合せなどの、他の型のMS分析を用いることもできる。
続いて、得られたデータを、検索エンジンに通し、スペクトルの割り当てを実施し、それぞれのタンパク質について実験的に検出されたペプチドを列挙する。好ましくは、検出されたペプチドをそれぞれのタンパク質についてグループ化し、好ましくは、前駆体イオンのものよりも大きいm/z値を有する少なくとも3つのフラグメント及び好ましくは、500以上のm/z値を有する少なくとも3つのフラグメントを、スペクトル上でのシグナル強度の降順にそれぞれのMS/MSスペクトルから選択する。これらのものから、強度の降順に2つ以上のフラグメントを選択し、強度の平均を、MRR遷移の予想感度と定義する。1つのタンパク質から複数のペプチドが検出される場合、最も高い感度を有する少なくとも2つのペプチドを、指標としての予想感度を用いて標準ペプチドとして選択する。
ステップ(D)(試験試料中の標的タンパク質の定量)。ステップ(D)は、ステップ(C)で検出されたMRMクロマトグラム中で、内部標準に由来するペプチド(内部標準ペプチド)と同じ保持時間を示す標的タンパク質(目的の標的バイオマーカー)に由来するペプチドを同定すること、及び内部標準ペプチドのピーク面積と、標的ペプチドのピーク面積とを比較することにより、試験試料中の標的タンパク質を定量することを含む。事前に調製された標準タンパク質の較正曲線を用いることによって、標的タンパク質を定量することができる。
較正曲線を、以下の方法によって調製することができる。最初に、標的バイオマーカータンパク質のものと同一であるアミノ酸配列からなる組換えタンパク質を、上記のように、トリプシンなどのプロテアーゼで消化する。続いて、既知の濃度の前駆体−フラグメント遷移選択標準(PFTS)を、2つの異なる型の安定アイソトープで個別に標識する(すなわち、一方は内部標準ペプチドを標識するために用いられる安定異性体で標識される(ISで標識される)が、他方は標的ペプチドを標識するために用いられる安定異性体で標識される(Tで標識される))。特定の量のIS標識されたPTFSを、様々な濃度のT標識されたPTFSと混合することにより、複数の試料を作製する。これらの試料を、上記のLC−MS/MS装置に入れて、MRM分析を実施する。得られたMRMクロマトグラム上でのT標識されたPTFSとIS標識されたPTFSとの面積比(T標識されたPTFS/IS標識されたPTFS)を、T標識されたPTFSの量に対してプロットして、較正曲線を調製する。試験試料中に含まれる標的タンパク質の絶対量を、較正曲線を参照することにより算出することができる。
3.抗体及び標識
いくつかの実施形態においては、本発明は、PDIA3の高感度検出及び定量のための標識を含む方法及び組成物を提供する。当業者であれば、粒子の混合物(例えば、標識された抗PDIA3抗体若しくは標識された二次抗体、又はPDIA3 mRNAに特異的にハイブリダイズする標識されたオリゴヌクレオチドプローブ)中でのその検出又は識別を可能にする標的分子を標識するために多くの戦略を用いることができることを認識できる。標識を、標識と標的との非特異的又は特異的相互作用を用いる方法などの、任意の公知の手段によって結合させることができる。標識は、検出可能なシグナルを提供するか、又は電界中での粒子の移動性に影響し得る。さらに、直接的に、又は結合パートナーを介して、標識化を達成することができる。
いくつかの実施形態においては、標識は、目的のバイオマーカーに結合する結合パートナーを含み、結合パートナーは蛍光部分に結合している。本発明の組成物及び方法は、高度に蛍光性の部分、例えば、レーザーが部分を含む直径約5μm以上のスポットに集中し、レーザーによってスポットを指向する総エネルギーが約3マイクロジュール以下である、部分の励起波長で光を放出するレーザーによってシミュレートした場合に少なくとも約200個の光子を放出することができる部分を用いてもよい。本発明の組成物及び方法にとって好適な部分を、以下でより詳細に説明する。
いくつかの実施形態においては、本発明は、蛍光部分が、部分の励起波長で光を放出するレーザーによりシミュレートした場合に少なくとも約200個の光子を放出することができ、レーザーが、部分を含む直径約5μm以上のスポットに集中し、レーザーによってスポットを指向する総エネルギーが約3マイクロジュール以下である、蛍光部分に結合する生物分子のための結合パートナーを含む生物分子を検出するための標識を提供する。いくつかの実施形態においては、部分は、複数の蛍光実体、例えば、約2〜4、2〜5、2〜6、2〜7、2〜8、2〜9、2〜10、又は約3〜5、3〜6、3〜7、3〜8、3〜9、又は3〜10個の蛍光実体を含む。いくつかの実施形態においては、部分は、約2〜4個の蛍光実体を含む。いくつかの実施形態においては、生物分子は、タンパク質又は小分子である。いくつかの実施形態においては、生物分子は、タンパク質である。蛍光実体は蛍光色素分子であってもよい。いくつかの実施形態においては、蛍光色素分子は、インドリウム環の3炭素上の置換基が化学反応基又はコンジュゲートした物質を含有する、少なくとも1個の置換されたインドリウム環系を含む。いくつかの実施形態においては、色素分子は、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 647、Alexa Fluor 680又はAlexa Fluor 700からなる群より選択されるAlexa Fluor分子である。いくつかの実施形態においては、色素分子は、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 680又はAlexa Fluor 700からなる群より選択されるAlexa Fluor分子である。いくつかの実施形態においては、色素分子は、Alexa Fluor 647色素分子である。いくつかの実施形態においては、色素分子は、第1の型及び第2の型の色素分子、例えば、第1の型及び第2の型の色素分子が異なる放出スペクトルを有する、例えば、2つの異なるAlexa Fluor分子を含む。第1の型の色素分子の数と第2の型の色素分子の数との比は、例えば、4:1、3:1、2:1、1:1、1:2、1:3又は1:4であってもよい。結合パートナーは、例えば、抗体であってもよい。
いくつかの実施形態においては、本発明は、標識が、マーカーのための結合パートナー及び蛍光部分を含み、蛍光部分が部分の励起波長で光を放出するレーザーによってシミュレートした場合に少なくとも約200個の光子を放出することができ、レーザーが部分を含む直径約5μm以上のスポットに集中し、レーザーによってスポットを指向する総エネルギーが約3マイクロジュール以下である、本発明の生物学的マーカーの検出のための標識を提供する。いくつかの実施形態においては、蛍光部分は、蛍光分子を含む。いくつかの実施形態においては、蛍光部分は、複数の蛍光分子、例えば、約2〜10、2〜8、2〜6、2〜4、3〜10、3〜8、又は3〜6個の蛍光分子を含む。いくつかの実施形態においては、標識は、約2〜4個の蛍光分子を含む。いくつかの実施形態においては、蛍光色素分子は、インドリウム環の3炭素上の置換基が化学反応基又はコンジュゲートした物質を含有する、少なくとも1個の置換されたインドリウム環系を含む。いくつかの実施形態においては、蛍光分子は、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 647、Alexa Fluor 680又はAlexa Fluor 700からなる群より選択される。いくつかの実施形態においては、蛍光分子は、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 680又はAlexa Fluor 700からなる群より選択される。いくつかの実施形態においては、蛍光分子は、Alexa Fluor 647分子である。いくつかの実施形態においては、結合パートナーは、抗体を含む。いくつかの実施形態においては、抗体は、モノクローナル抗体である。他の実施形態においては、抗体は、ポリクローナル抗体である。
様々な実施形態においては、PDIA3を検出するための結合パートナーは、抗体又はその抗原結合フラグメントである。本明細書で用いられる用語「抗体」は、広い用語であり、限定されるものではないが、天然の抗体並びに非天然の抗体、例えば、一本鎖抗体、キメラ、二官能性及びヒト化抗体、並びにその抗原結合フラグメントなどを指すように、その通常の意味で用いられる。抗体の「抗原結合フラグメント」とは、抗原結合に関与する抗体の部分を指す。抗原結合部位は、重(「H」)鎖及び軽(「L」)鎖のN末端可変(「V」)領域のアミノ酸残基によって形成される。抗体が生じる分子のエピトープ又は領域の選択は、例えば、存在する場合、様々な形態の分子に対する、又は全部(例えば、分子の全部、若しくは実質的に全部)に対する、その特異性を決定づけることが理解されるであろう。
抗体を製造するための方法は、確立されている。当業者であれば、例えば、Antibodies, A Laboratory Manual、Harlow及びDavid Lane(編)、Cold Spring Harbor Laboratory (1988)、Cold Spring Harbor、N.Y.に記載のような、抗体の製造のための多くの手順が利用可能であることを認識するであろう。当業者であれば、抗体を模倣する結合フラグメント又はFabフラグメントを、様々な手順によって遺伝子情報から調製することもできることもまた認識するであろう(Antibody Engineering: A Practical Approach (Borrebaeck, C.(編))、1995、Oxford University Press、Oxford; J. Immunol. 149、3914-3920 (1992))。分子、例えば、タンパク質に対するモノクローナル及びポリクローナル抗体、並びにマーカーも市販されている(R and D Systems、Minneapolis、Minn.; HyTest、HyTest Ltd.、Turku Finland; Abcam Inc.、Cambridge、Mass.、USA、Life Diagnostics, Inc.、West Chester、Pa.、USA; Fitzgerald Industries International, Inc.、Concord、Mass. 01742-3049 USA; BiosPacific、Emeryville、Calif.)。
いくつかの実施形態においては、抗体は、ポリクローナル抗体である。他の実施形態においては、抗体は、モノクローナル抗体である。
さらに他の実施形態においては、特に、mRNAバイオマーカー又は他の核酸系バイオマーカーを検出し、これにハイブリダイズする結合パートナーとしてオリゴヌクレオチドを用いる場合、結合パートナー(例えば、オリゴヌクレオチド)は、標識、例えば、蛍光部分又は色素を含んでもよい。さらに、本発明の任意の結合パートナー、例えば、抗体を、蛍光部分で標識することもできる。前記部分の蛍光は、本明細書に記載の単一分子検出器などの、単一分子検出器における検出を可能にするのに十分なものである。本明細書で用いられる用語「蛍光部分」は、全蛍光が、本明細書に記載の単一分子検出器中で部分を検出することができるようなものである1つ以上の蛍光実体を含む。かくして、蛍光部分は、単一の実体(例えば、量子ドット若しくは蛍光分子)又は複数の実体(例えば、複数の蛍光分子)を含んでもよい。本明細書で用いられる用語「部分」が蛍光実体の群、例えば、複数の蛍光色素分子を指す場合、それぞれ個々の実体を別々に結合パートナーに結合させるか、又は群としての実体が検出しようとする十分な蛍光を提供する限り、実体を一緒に結合させることができることが理解される。
キット/パネル
本発明はまた、対象(例えば、癌を有し、コエンザイムQ10による癌のための治療が必要な対象)からの生物学的試料中のPDIA3のレベルを測定するための組成物及びキットも提供する。これらのキットは、1つ以上の以下のもの:PDIA3に特異的に結合する検出可能抗体、染色のための対象組織試料を取得及び/又は調製するための試薬、並びに使用のための説明書を含む。
本発明はまた、生物学的試料中のPDIA3タンパク質又は核酸の存在を検出するためのキットも包含する。そのようなキットを用いて、癌に罹患した対象がコエンザイムQ10による治療に対して反応性であるかどうかを予測することができる。かかるキットはまた、コエンザイムQ10による治療のための対象を選択するために用いることができる。例えば、キットは、生物学的試料中のPDIA3タンパク質又は核酸を検出することができる標識された化合物又は薬剤と、試料中のタンパク質又はmRNAの量を決定するための手段(例えば、タンパク質若しくはその断片に結合する抗体、又はタンパク質をコードするDNA若しくはmRNAに結合するオリゴヌクレオチドプローブ)とを含んでもよい。キットはまた、本明細書に提供される方法のいずれかを実施するため、又は本明細書に提供される教示に基づいてキットを用いて得られた結果を解釈するための、キットの使用のための説明書を含んでもよい。キットはまた、試料中に存在するマーカーの量の正規化のための、試料中の対照タンパク質、例えば、組織試料のためのアクチン、血液若しくは血液由来試料中のアルブミンの検出のための試薬を含んでもよい。キットはまた、対照としての使用のための検出のため、又はキットを用いて行われたアッセイの定量のための精製されたマーカーを含んでもよい。
抗体に基づくキットについては、キットは、例えば、(1)PDIA3タンパク質に結合する第1の抗体(例えば、固相支持体に結合した);及び場合により、(2)PDIA3又は第1の抗体のいずれかに結合し、検出可能な標識にコンジュゲートされた第2の異なる抗体を含んでもよい。
オリゴヌクレオチドに基づくキットについては、キットは、例えば、(1)PDIA3タンパク質をコードする核酸配列にハイブリダイズするオリゴヌクレオチド、例えば、検出可能に標識されたオリゴヌクレオチド又は(2)マーカー核酸分子を増幅するのに有用な一対のプライマーを含んでもよい。
クロマトグラフィー方法について、キットは、クロマトグラフィーによる、PDIA3の検出及び同定を可能にする、標識されたマーカーなどのマーカーを含んでもよい。特定の実施形態においては、クロマトグラフィー方法のためのキットは、PDIA3の誘導体化のための化合物を含む。特定の実施形態においては、クロマトグラフィー方法のためのキットは、方法のマーカーを分析(resolve)するためのカラムを含む。
PDIA3の検出にとって特異的な試薬により、複雑な混合物、例えば、血清、組織試料中のマーカーの検出及び定量が可能になる。特定の実施形態においては、試薬は、種特異的である。特定の実施形態においては、試薬は、種特異的ではない。特定の実施形態においては、試薬は、アイソフォーム特異的である。特定の実施形態においては、試薬は、アイソフォーム特異的ではない。特定の実施形態においては、試薬は、全PDIA3を検出する。
特定の実施形態においては、対象(例えば、癌を有し、CoQ10による治療の必要がある対象)からの生物学的試料中のPDIA3を検出するためのキットは、PDIA3の発現のレベルの検出にとって特異的な少なくとも1つの試薬を含む。特定の実施形態においては、キットは、対象からの生物学的試料中のPDIA3のレベルをPDIA3の閾値と比較するための説明書をさらに含む。特定の実施形態においては、キットは、PDIA3の発現レベル(例えば閾値を超えるレベル)に基づいてCoQ10に対して反応性であると予測される対象の同定のための説明書をさらに含む。特定の実施形態においては、キットは、PDIA3の発現レベル(例えば閾値を超えるレベル)に基づいてCoQ10による治療のための対象を選択するための説明書をさらに含む。
特定の実施形態においては、キットは、例えば、緩衝剤、保存剤、タンパク質安定化剤、反応バッファーを含んでもよい。キットは、検出可能な標識(例えば、酵素又は基質)を検出するのに必要な成分をさらに含んでもよい。キットはまた、アッセイし、試験試料と比較することができる対照試料又は一連の対照試料を含有してもよい。対照は、必要に応じて、既知のレベルの標的マーカーを含む、精製されたタンパク質又は核酸の対照血清又は対照試料であってもよい。キットの各成分を、個々の容器内に封入してもよく、全ての様々な容器が、キットを用いて行われるアッセイの結果を解釈するための説明書と共に、単一のパッケージ内にあってもよい。本発明のキットは、場合により、本発明の方法を実施するために有用なさらなる成分を含んでもよい。
本発明は、限定と解釈されるべきではない以下の実施例によってさらに例示される。本出願を通して引用される全ての参考文献並びに公開された特許及び特許出願の内容は、参照により本明細書に組込まれるものとする。
[実施例1]
進行した固形腫瘍の治療用のコエンザイムQ10の進行中のフェーズI臨床試験における候補バイオマーカーの同定
癌治療のためのコエンザイムQ10の使用を誘導するための候補バイオマーカーを同定するために、進行した固形腫瘍の治療用のコエンザイムQ10の進行中のフェーズI臨床試験に参加した患者を評価した。この実施例は、試験の進行中に実施された予備的分析を含む。実施例2は、同じ臨床試験のより遅い期間に実施されたより徹底した分析を含み、この期間には、より多くの患者が参加し、より多くのデータが利用可能となった。
試験設計
この臨床試験は、固形腫瘍を有する患者の単独治療(治療群1)及び化学療法との併用治療(治療群2)として、144時間連続静脈内(IV)注入として投与されたコエンザイムQ10の用量制限毒性(dose limiting toxicity:DLT)を調べる、多施設(multicenter)、非盲検(open-label)、非ランダム化(non-randomized)、用量漸増(dose-escalation)型の試験である。下表1及び2に示されているように、前立腺、結腸、乳房、肺及び膵臓腫瘍を含む広範囲の固形腫瘍を評価した。コエンザイムQ10は、用量レベルに応じて3回の連続48時間用量又は2回の連続72時間用量で投与した。ゲムシタビン、5−フルオロウラシル又はドセタキセルの3つの標準週1回化学療法レジメンを、コエンザイムQ10との併用で評価した。適格患者は、固形腫瘍を有し、標準治療に対して再発性/非反応性である18才以上の患者である。85人の患者が試験に参加した。単独治療群は、連続注入で6日間、28日サイクルでコエンザイムQ10を受け取り、併用群(ゲムシタビン、5−フルオロウラシル又はドセタキセル)は、標準化学療法の開始前にコエンザイムQ10で3週間プライミングし、続いて6週サイクルで週1回投薬した。治療群の概要が図36に示されている。
この試験は、それぞれ3〜6人の患者の連続するコホート(cohort)で用量を漸増させる標準3+3用量漸増設計である。それぞれの用量レベルにおける毒性は、米国国立がん研究所有害事象共通用語規準(National Cancer Institute Common Terminology Criteria for Adverse Events)(CTCAE v4.02)に従ってグレード分けされる。安全性の管理は、コホートレビューコミッティー(Cohort Review Committee:CRC)によって提供される。コホートの3人の患者がいずれも1サイクル目にDLTを経験しなかった場合には、安全性及びより低いコホートからのPKデータのCRC審査の後に、次に高い用量レベルで3人の新たな患者を参加させることができる。この臨床試験は、国際公開第2015/035094号パンフレットにより詳細に記載されている。この文献はその全体が参照によって本明細書に組み込まれている。
患者評価
2週目に腫瘍反応を評価し、その後は2サイクルごとに腫瘍反応を評価した。66人の患者うち16人(24%)は、≧4サイクルの間、最低限の安定疾患(Stable Disease)を維持した。腫瘍反応データを使用して患者を、「総合的臨床的利益」群又は「非臨床的利益」群に層別化した。
試験全体にわたるいくつかの時点において患者から血液試料を採取した。血液試料を遠心処理して、さらなる分析のために血漿/血清及び(白血球及び血小板を含む)バフィーコートを得た。単独治療及び併用治療の1サイクル目に尿試料を採取した。コエンザイムQ10治療を始める2週間前及びコエンザイムQ10治療を始めて2週間後に、フルオロデオキシグルコース(fluorodeoxyglucose:FDG)取込みを伴うPETスキャン及び癌生検を実行した。FDG−PETスキャンを使用してコエンザイムQ10に対する腫瘍反応を評価した。FDG−PETスキャンを使用して腫瘍の代謝状態を判定することもできる。例えば、図37は、手術を受け、それぞれイリノテカン及びアバスチンと組み合わせた複数のFOLFIRI及びFOLFOXレジメンで重く予備的に治療された転移性虫垂癌を有する患者のコエンザイムQ10単独治療前及びコエンザイムQ10単独治療後2、10、19及び29週のFDG−PETスキャンを示す。コエンザイムQ10単独治療は、66mg/kgの用量で開始し、22週に88mg/kg用量に移行した。
サンプリング及びFDG PET−スキャンのスケジュールの概要が図38に示されている。
患者ごとに、後述する用量制限毒性(DLT)、薬物動態(pK)及び有害事象を含む広範囲の臨床データを記録した。臨床データはさらに、年齢、性及びエスニシティなどの人口統計的データ;上述の腫瘍の状態;並びに腫瘍のタイプ、位置及びに以前の治療を含む病歴を含む。
用量制限毒性
DLTは、コエンザイムQ10単独治療群では171mg/kg、ゲムシタビン群では137mg/kg(最大投与量)で報告され、凝固障害(coagulopathy)に関係していた。下表1、2及び3を参照されたい。実施例1がカバーする期間に3つのDLTが報告された。1つのDLT(グレード3の部分トロンボプラスチン時間(PTT)異常)は、単独治療の用量レベル5(171mg/kg)で報告された。この事象は、ビタミンK及び新鮮凍結血漿(FFP)の投与後、2日で解消した。この用量レベルで3人の追加の患者が参加した。追加のDLTは報告されなかった。ゲムシタビンを用いた併用治療の用量レベル137mg/kgで2つのDLT(グレード3のアスパラギン酸トランスアミナーゼ(AST)の上昇及びグレード4の血小板減少)が報告された。試験設計に従って、患者は、次に低い用量レベル(110mg/kg)に参加した。
最も一般的な関連有害事象は、ビタミンK投与後に緩和されたグレード1〜2のプロトロンビン時間(PT)/部分トロンボプラスチン時間(PTT)/国際標準化比(International Normalized Ratio:INR)の延長であった。グレード3の4つの事象が報告された。実施例1がカバーする期間に1503の有害事象が報告された。75の事象は重篤(serious)と報告された。重篤な有害事象のうち、27はnot related、38はunlikely related、8つはpossibly related、1つはprobably related、1つはdefinitely relatedであった(活性化部分トロンボプラスチン時間(APTT)の延長)。
薬物動態
時間ゼロ並びにコエンザイムQ10を用いた144時間連続静脈内(IV)注入中及び注入後のいくつかの時点において、患者体内のコエンザイムQ10の薬物動態を測定した。群1(単独治療)に関して、コエンザイムQ10の平均濃度は、コエンザイムQ10の平均濃度が同様であった96時間のサンプリング時間を除いて、用量342mg/kg/週の方が用量274mg/kg/週よりも高かった。群2(化学療法併用治療)に関して、血漿プロファイルは、注入の最初の72時間、用量274mg/kg/週の方が用量220mg/kg/週よりもわずかに高く、注入の次の72時間は、用量274mg/kg/週の方が明らかに高かった。図39A〜39C及び表5を参照されたい。どの用量レベルでも群1と群2の間に薬物動態プロファイルの明らかな差はなかった。このことは、コエンザイムQ10の薬物動態に対して化学療法の併用は明らかな効果を持たないことを示している。
表4.コエンザイムQ10単独治療に対する用量制限毒性。括弧内に、それぞれの用量レベル(DL)に参加した患者の数が示されている。DL4及びDL5は2回の連続72時間IV注入で投与した。他の用量レベルは全て3回の連続48時間IV注入によって投与した。
*プロトコル治療に対してunlikely related、疾患進行に対してlikely relatedに、毒性を判定しなおした。
下表は、ゲムシタビン、5−フルオロウラシル(5FU)又はドセタキセルを用いたコエンザイムQ10併用治療に対する用量制限毒性を示す。括弧内に、それぞれの用量レベル(DL)に参加した患者の数が示されている。DL4及びDL5は2回の連続72時間注入で投与した。他の用量レベルは全て3回の連続48時間注入で投与した。5FU用量レベルは全て100mg/m2のロイコボリンを含む。
下の表は、4%以上の頻度を有すると報告された有害事象を含む。
候補バイオマーカーの同定
データの分析を容易にするため、臨床データを「患者ダッシュボード」に表示した。自動的に生成されるダッシュボードは、試験に参加したそれぞれの患者の人口統計及び臨床的結果の包括的な視覚化を可能にした。患者ダッシュボードの例が図40A〜40Dに示されている。例えば、図40Aは、患者02−014の人口統計的情報及び試験結果の概要を示す。図40Bは、参加時間に対する患者02−014の腫瘍サイズの進行を示す。図40Cは、患者02−014の血中グルコース(GLUC)、ヘマトクリット(HCT)、アスパラギン酸トランスアミナーゼ(AST)及びアラニントランスアミナーゼ(ALT)比の検査室測定値を示す。図40Dに示されているように、患者02−014は、臨床試験に参加している間にグレード2の有害事象を経験した。図40Eは、コエンザイムQ10を用いた治療の前後のFDG−PETスキャンを示す。
患者から採取した血液(血漿及びバフィーコート)及び尿試料のプロテオミクス、メタボロミクス及びリピドミクス分析を実行して、治療の前後のタンパク質、代謝産物及び脂質レベルの変化を求め、総合的臨床的利益患者群と非臨床的利益患者群との差を同定した。特定技術のパイプラインを使用し、(1)異なる時点において収集されたデータを組み合わせ、(2)まれにしか測定されなかった変数を除外し、(3)バッチ間で試料が比較可能であることを保証するために系統的偏りを除去し、(4)特定の試料中で測定されなかった変数のレベルを推測することによって、これらの未処理の測定値を処理されたデータに変換した。品質管理(QC)ステップによってデータ処理の信頼性を保証した。このQCステップは、(1)未処理データファイルが期待されるフォーマットに従っているかどうかを試験するステップ、及び(2)オミクスデータ処理のそれぞれのステップを追跡する直観的な視覚化を実施するステップを含む。トレーサビリティを保証するため、品質管理からの全ての出力を中央ログファイルに書き込んだ。それぞれの試料が採取された患者及び時点を定義したマスタファイルによって、処理された分子的特徴を実施可能(actionable)にした。
次いで、処理されたデータを上述の臨床データと統合した。その結果得られるデータベースは、時間にわたって収集された試験に参加した全ての患者の人口統計、治療、疾患の状態、腫瘍サイズ測定、有害事象、検査室測定、臨床的結果、薬物動態データ、プロテオミクス、リピドミクス及びメタボロミクスを含む。この統合されたデータを使用して、患者ダッシュボード、数学的プロファイル及びAI推測マップ(AI-inferred Map)を作成した。次いでこれらを調べて候補バイオマーカーを同定した。この分析プロセスの概要が、図41及び以前に説明した図4に示されている。
例えば、3タイプの分析、具体的にはベイジアンネットワーク分析、統計分析及び機械学習を使用して、総合的臨床的利益患者を非臨床的利益患者から区別することができる、治療前に測定された分子的特徴を同定した。試験開始後の持続した時間の間に、何種類かのタンパク質、脂質及び代謝産物のレベルの患者群間の差を同定した。Interrogative Biology(登録商標)プラットホームの統合されたオミクス及び人工知能(AI)プロファイリングから、反応及び安全性の分子シグナチャを導出した。機械学習を使用して、試料(患者)が総合的臨床的利益群に属するのか又は非臨床的利益群に属するのかを予測することができるマルチオミクス変数(multi-omic variable)を同定した。
都合のよい(favorable)臨床反応及び安全性と相関するバイオマーカー候補を同定した。例えば、図42Aは、最初のコエンザイムQ10治療前に測定された血液中の分子のうち、コエンザイムQ10治療の効能を潜在的に予測する可能性がある上位10個の分子を示す。コエンザイムQ10のpKレベルは都合のよい反応の動因であった。これらの分子的相関物は腫瘍タイプ及び以前の治療から独立していた。このことはコエンザイムQ10の幅広い抗癌効果を示している。新規のマルチオミクスパネルは、治療前及び治療開始から24時間後の反応をAUC>0.85で層別化することができた。
タンパク質ジスルフィドイソメラーゼA3(protein disulfide-isomerase A3:PDIA3)は、この分析で同定された1つの候補バイオマーカーである。図42Bを参照されたい。ベイジアンネットワーク分析は、PDIA3のバイオネットワーク内で、総合的臨床的利益患者群と非臨床的利益患者群の間の明白な差を同定した。総合的臨床的利益患者と非臨床的利益患者の間の量的な差をコエンザイムQ10治療前に示したいくつかの追加の候補バイオマーカーも同定された。これらのマーカーを使用して、コエンザイムQ10治療に反応する可能性が高い固形腫瘍を有する対象を同定することができる。上で説明した分析を使用して、コエンザイムQ10治療によって潜在的に引き起こされる有害事象を予測する候補バイオマーカー、又はコエンザイムQ10の薬物動態(PK)を予測する候補バイオマーカーを同定することもできる。
候補バイオマーカーを同定するための分析
以下では、併合データのスライシングの説明及びスライスされたデータセットの分析を説明する。
併合された患者データを、複数のスライシングステップでスライスした。全ての患者のデータを含むスライスされたデータセットを生成した。臨床出力データを分析して、総合的臨床的利益患者及び非臨床的利益患者を同定した。併合データを、治療に反応して総合的臨床的利益を示すと同定された患者のデータを含むスライスされたデータセットと、治療に反応して臨床的利益を示さないと同定された患者のデータを含むスライスされたデータセットとにスライスした。
全ての患者のスライスされたデータセットから、ベイジアン因果関係ネットワークを生成した。図43に概略的に示されているように、ベイジアン因果関係ネットワークのトポロジ分析を使用して、腫瘍サイズの潜在的な調節因子(regulator)を同定した。腫瘍サイズの潜在的な調節因子を編集してリストにした。
図44に概略的に示されているように、時間ゼロ(治療前)に対応する分子的プロファイルデータを選択し、総合的臨床的利益患者及び非臨床的利益患者の時間ゼロにおけるスライスされたデータセットを準備した。
図45に概略的に示されているように、時間ゼロのスライスされたデータセットを統計的に分析して、総合的臨床的利益患者と非臨床的利益患者の体内で異なって発現された分子的プロファイルの構成要素を同定した。
機械学習法を利用して、患者が総合的臨床的利益群に属するのか又は非臨床的利益群に属するのかを予測するためのマルチオミクス変数を、時間ゼロのスライスされたデータに基づいて同定した。機械学習法は潜在的な反応予測子のリストを与えた。
AIに基づくベイジアンネットワーク分析による腫瘍サイズの調節因子、統計分析による時間ゼロの異なって発現された分子的プロファイル変数、及び機械学習法による潜在的反応予測子のリストを使用して、患者結果(CDx)を予測するために治療前又は試験が始まった後の任意の時刻に測定することができるバイオマーカーを同定した。具体的には、腫瘍サイズの調節因子のリストと異なって発現された分子的プロファイル変数のリスト及び潜在的反応予測子のリストとの重なりに現れる変数を、患者結果を予測するためのコンパニオン診断として同定した。図46は、総合的臨床的利益患者及び非臨床的利益患者内でのこれらのCDxマーカーの発現を示すグラフである。
[実施例2]
固形腫瘍を有する患者の治療用のCoQ10のフェーズ1a/b臨床試験における候補バイオマーカーの同定
実施例2は、固形腫瘍を有する患者の治療用のCoQ10のフェーズI臨床試験における候補バイオマーカーの分析であって、図4に関して上で説明したCTAW400を利用した分析を含む。実施例1は、同じ臨床試験内の同じ患者の一部から取得したデータの予備的分析に基づくものであった。しかしながら、実施例2は、より多くの患者に基づき、追加のデータを含み、追加の分析を組み込む。
試験設計
この試験は、Weill Cornell University Medical Center、Palo Alto Medical Foundation及びMD Anderson Cancer Centerにおいて、固形腫瘍を有する患者に対して36か月間実施した。この試験は、標準3+3用量漸増設計のフェーズ1a/b臨床試験である。この試験の主たる目的は、単独治療及び化学療法との併用治療において114時間静脈内注入として投与したときのCoQ10の最大耐量を決定し、CoQ10の安全性及び忍容性(tolerability)を評価することである。2次的な目的は、CoQ10の単独治療及び併用治療の血漿薬物動態を評価し、腎クリアランスを推定することである。
患者を、群1(単独治療、患者数45)又は群2(CoQ10と化学療法の併用治療、患者数120)に分けた。全ての患者が、28日のそれぞれのサイクルの1、4、8、11、15、18、22及び25日目にCoQ10の2回の連続72時間注入を受けた。最初の注入時に最低8時間、患者をモニタリングした。2サイクル目の終わり及びその後は2サイクルごとにCT又はMRIスキャンを使用して腫瘍サイズを測定した。固形癌の治療効果判定のためのガイドライン(Response Evaluation Criteria in Solid Tumors:RECIST)によってCoQ10に対する反応を測定した。
いずれの群でも、容認できない毒性も又は容認できない疾患進行も経験しなかった患者については、最長1年間、28日サイクルを追加して試験した。進行した群1の患者のうち選択された患者についてはCoQ10治療を続け、さらに化学療法も実施した。CoQ10の用量レベルを評価し、この用量が安全であるとCRCが判定した後、群2のコホート1は患者の増加を受け入れた。これらの患者には、CoQ10と併用してゲムシタビン、5−FU又はドセタキセルを投与した。1サイクル目は、6週間、週2回、火曜日及び金曜日にCoQ10を投与し、月曜日に化学療法を用いた。続く2サイクル目〜12サイクル目の期間は4週間とした。2サイクル目の後に反応を評価し、その後は2サイクルごとに反応を評価した。最初は群1にいた進行した患者は、適格であれば群2に移され、4週間の治療を受けた。併用治療で進行した患者は、化学療法の成分を切り換えるか、又はCoQ10の単独治療を受けた。単独治療との両方の最大耐量が確立された後、患者の拡張コホートを参加させた(単独治療では12〜15人、併用治療では治療法ごとに10人)。
薬物動態学的/薬力学的(PK/PD)モデル化
単独治療及び併用治療のそれぞれのサイクル中に血液試料を採取した。1サイクル目に限り尿試料を収集した。CoQ10を開始する前2週間以内にPETスキャンを実行し、CoQ10治療を始めて2週間後にもPETスキャンを実行した。群1の患者については治療8週時に再びスキャンを実行し、群2の患者については治療10週時にスキャンを実行した。ベースライン及び2週目の終わりに5回のコア生検を実行した。群2に移る患者も、CoQ10を開始して2週間以内及び3週目にPETスキャン及び生検を受けた。
薬物、用量及び投与方法
CoQ10ナノ懸濁液(nanosuspension)注入剤(40mg/ml)を、144時間にわたって出発用量66mg/kgで静脈内投与した。患者はそれぞれ、28日の各サイクル中に毎週2回の連続48時間注入を受けた。用量は、最大耐量に到達するまで25%漸増させることができた。安全なCoQ10用量に到達した後、群2は参加を認め、患者は、確認された用量のCoQ10治療及びゲムシタビン(600mg/m2)、5−FU(350mg/m2)+ロイコボリン(100mg/m2)又はドセタキセル(20mg/m2)を用いた週1度の化学療法を受けた。
試験データを用いたCTAWを使用した候補バイオマーカーの同定
CoQ10固形腫瘍臨床試験に参加した患者の血漿、尿及び組織試料を、治療時間中のそれらの試料の生物学的特徴の高次元ビューを提供するために、マルチオミクスプロファイリングにかけた。図4に関して上で説明したCTAW400は、データ処理に始まり、候補診断バイオマーカーの同定で終わる全てのデータ分析ステップを、信頼性の高い自動化された手法で実行した。データ分析ワークフローを編成してパイプラインにすることによって、追加の対象が参加し、追加の臨床情報が使用可能になったときに、ユーザが、提供物(deliverables)を生成することが可能になった。
薬物動態データを分子的プロファイルデータの時点にマッチングさせるための薬物動態値の補間が必要なくなるように、患者ごとに、薬物動態値を取得するための試料は、分子的プロファイル値を取得するための試料と同じ時点で(例えば同じ日に)取得した。
本明細書に記載されているとおり、試験中に収集したデータをCTAW400に従って処理した。CTAW400の1つのステップは、データをスライスし、ベイジアン学習を使用してネットワークを生成することである。主要な臨床変数の動因を、CTAWによって生成されたAIネットワークから獲得した。この例示的な試験に基づいて、このワークフローは、下表9に示された患者結果変数(TRORRES、TRPCT及びRSORRES)の動因を含む137個のネットワークを生成した。ここでは、動因が、ボトム変数として子ノードに接続することに制約がある患者結果変数に対する親ノードの役目を果たすノードと定義される(図47参照)。
下表8は、この試験中に収集されたデータから生成されたさまざまなデータスライス、及びそれらのデータスライスから生成されたネットワークの数を示す。RSORRESは、RECSIT判定基準による腫瘍反応を指す。TRORRESは、特定の時刻に測定された患者腫瘍サイズの幾何平均である。TRPCTは、それぞれの患者の試験参加時の腫瘍サイズが100%であるような相対的腫瘍サイズである。
例示的なデータスライスが下表8に示されている。
同様に、CTAWによって生成されたAIネットワークから、CoQ10の作用機序(MOA)に対する洞察が見出された。これらの洞察は、AIネットワーク中に、CoQ10の血漿レベルと下流の分子的特徴との間の因果関係として現れた。MOAに対する洞察は、PK測定が使用可能であった1サイクル目に収集された患者データから獲得された(表10)。96時間スケジュールで注入された患者の1サイクル目のデータによって学習されたネットワークからのMOAの例が図48に示されている。
この例示的な試験から取得されたデータから生成された例示的なネットワークが図22〜27に示されている。主要な結果動因を示すサブネットワークが図23、24、33及び34に示されている。重度の有害事象を経験した患者のデータから生成されたネットワークと重度の有害事象を経験しなかった患者のデータから生成されたネットワークとの比較に基づく差次的ネットワーク(デルタ)が生成された。これが図34に示されている。
図4に関して上で説明した回帰分析を使用して、反応性及び効能を予測するための統計的に有意な差次的に発現された変数を同定した。重度の有害事象を治療前に予測するための統計的に有意な差次的に発現された変数を、図35に示されているように決定した。
ブートストラップリサンプリングに結合されたイラスティックネットペナルティを用いた回帰を利用する機械学習を使用して、AIネットワーク分析によって同定された結果動因及び差次的に発現された変数を含む一群の可能なバイオマーカー、具体的には一群の候補CDxマーカーの中から、潜在的バイオマーカー、具体的にはCDxマーカーを同定した。イラスティックネットパラメータ及び機械学習の結果が下表11に示されている。表11は、グレード3以上の有害事象を経験した患者とそれを経験しなかった患者との間で時間ゼロに測定された上位10個のロバストな特徴を示す。ロバストネスは、存在するブートストラップリサンプルの百分率によって定義した。
反応性を予測した治療前に測定するCDxマーカーのスケーリングされた発現値が図31に示されている。
重度の有害事象を予測した治療前に測定するCDxマーカーのスケーリングされた発現値が図32に示されている。
総合的臨床的利益及び非臨床的利益に対する上位10個のCDxマーカーの発現レベルが図46に示されている。
方法を実装するためのシステム
特定の実施形態は、論理回路又はいくつかのコンポーネント、モジュール、メカニズムを含むものとして記載している。モジュールは、ソフトウェアモジュール(例:機械可読媒体又は伝送信号に実装したコード)又はハードウェアモジュールを構成する。ハードウェアモジュールは、動作を実施することができる有体ユニットであり、何らかの態様で構成又は配置することができる。例示的な実施形態において、1以上のコンピュータシステム(例:スタンドアロン、クライアント又はサーバコンピュータシステム)又はコンピュータシステムの1以上のハードウェアモジュール(例:プロセッサ又はプロセッサグループ)は、ソフトウェア(例:アプリケーション又はその一部)によって、本明細書が記載する動作を実施するハードウェアモジュールとして構成することができる。
種々の実施形態において、ハードウェアモジュールは機械的又は電子的に実装することができる。例えばハードウェアモジュールは、特定の動作を実施するように永続的に構成された専用回路又は論理回路(例:特殊用途プロセッサ、例えばフィールドグラマブルゲートアレイ(FPGA)、特定用途集積回路(ASIC)、グラフィック処理装置(GPU))を備えることができる。ハードウェアモジュールは、特定の動作を実施するようにソフトウェアによって一時的に構成されたプログラム可能論理回路又は回路(例:汎用プロセッサその他のプログラム可能プロセッサに包含されるもの)を備えることができる。専用永続構成回路において機械的に又は一時構成回路(例:ソフトウェアによって構成されるもの)においてハードウェアモジュールを実装する決定は、コストと時間によって決まることを理解されたい。
したがって、用語「ハードウェアモジュール」は、有体物を包含するものとして理解されたい。すなわち、本明細書が記載する態様で動作する及び/又は特定の動作を実施するように物理的に構築され、永続的に構成され(例えばハードワイアあれる)、又は一時的に構成された(例えばプログラムされた)物体であるものとして理解されたい。ハードウェアモジュールが一時的に構成された(例:プログラムされた)実施形態を考えると、各ハードウェアモジュールは任意の時点で構成又はインスタンス化する必要はない。例えばハードウェアモジュールがソフトウェアを用いて構成された汎用プロセッサを備える場合、汎用プロセッサは異なる時点において異なるハードウェアモジュールとして構成される。したがってソフトウェアは、ある時点において特定のハードウェアモジュールを構成し、別の時点において別のハードウェアモジュールを構成するようにプロセッサを設定しうる。
ハードウェアモジュールは、他のハードウェアモジュールと情報を送受信する。したがってハードウェアモジュールは、接続されているとみなすことができる。複数のハードウェアモジュールが同時に存在する場合、ハードウェアモジュールを接続する信号伝搬(例:適当な回路又はバスを介して)によって通信を実施できる。複数ハードウェアモジュールが異なる時点において構成され又はインスタンス化される実施形態において、そのハードウェアモジュール間の通信は例えば、複数ハードウェアモジュールがアクセスするメモリ構造において情報を格納取得することにより実施できる。例えばあるハードウェアモジュールがある動作を実施してその出力を接続されたメモリデバイスに書き込む。別のハードウェアモジュールは後にそのメモリデバイスにアクセスし、格納されている出力を取得及び処理する。ハードウェアモジュールは、入力デバイス又は出力デバイスと通信することができ、リソース上(例:情報のコレクション)で動作することもできる。
本明細書が記載する方法例の様々な動作は、関連する動作を実施するように一時的に構成された(例:ソフトウェアによって)又は永続的に構成された1以上のプロセッサによって、少なくとも部分的に実施することができる。一時的又は永続的構成のいずれであっても、そのプロセッサは1以上の動作又は機能を実施するよう動作するプロセッサ実装したモジュールを構成する。ここでいうモジュールは、いくつかの例の実施形態においては、プロセッサ実装したモジュールである。
同様に、本明細書が記載する方法は、少なくとも部分的にプロセッサ実装することができる。例えば方法の少なくとも一部の動作は、1以上のプロセッサ又はプロセッサ実装したモジュールによって実施できる。特定の動作の実施は、1以上のプロセッサ間で分散してもよく、単一マシン内にのみ配置する必要はなく、複数マシンに配置することができる。いくつかの例の実施形態において、プロセッサ(単数又は複数)は1つの位置に配置することができ(例:家庭環境、オフィス環境、サーバファーム)、他実施形態においてプロセッサは複数位置に分散することができる。
1以上のプロセッサは、「クラウドコンピューティング」環境で、又は「ソフトウェアアズアサービス(SaaS)」として、関連の動作の性能をサポートするように動作することができる。例えば少なくとも一部の動作をコンピュータグループ(プロセッサを含むマシンの例として)によって実施し、その動作をネットワーク経由で又は1以上の適当なインターフェース(例:API)経由でアクセス可能にすることができる。
例示的な実施形態は、デジタル電子回路、コンピュータハードウェア、ファームウェア、ソフトウェア、これらの組み合わせに実装することができる。例示的な実施形態は、コンピュータプログラム製品を用いて実装することができる。例えば情報搬送体に実装したコンピュータプログラムである。情報搬送体は例えば、データ処理装置によって実行し又はその動作を制御する機械可読媒体である。データ処理装置は例えば、プログラム可能プロセッサ、コンピュータ、複数コンピュータである。
コンピュータプログラムは、任意のプログラミング言語で記述することができる。これはコンパイル又はインタープリタ言語を含む。コンピュータプログラムは、任意形態で配置することができる。例えばスタンドアロンプログラム、モジュール、サブルーチン、その他のコンピュータ環境において用いるのに適したユニットを含む。コンピュータプログラムを配信して1以上のコンピュータ上で実行することができる。あるいは、複数のコンピュータを1つのサイト上で実行してもよいし、通信ネットワークによって接続された複数サイトにまたがって実行してもよい。
例示的な実施形態において、コンピュータプログラムを実行する1以上のプログラム可能プロセッサによって動作を実施して、入力データを操作し出力を生成することにより、機能を実施することができる。実施形態の方法及び装置は、特定用途論理回路によって実施し、又は特定用途論理回路として実装することができる(例:FPGA又はASIC)。
コンピュータシステムは、クライアントとサーバを含む。クライアントとサーバは一般に、互いに離れており、通常は通信ネットワークを介してやり取りする。クライアントとサーバの関係は、各コンピュータ上で動作するコンピュータプログラムによって生じ、互いにクライアント−サーバ関係を有する。プログラム可能コンピュータシステムを配置する実施形態において、ハードウェアアーキテクチャとソフトウェアアーキテクチャともに考慮を要することを理解されたい。具体的には、ある機能を永続構成ハードウェア(例:ASIC)で実装するか、一時構成ハードウェア(例:ソフトウェアとプログラム可能プロセッサの組み合わせ)で実装するか、永続構成ハードウェアと一時構成ハードウェアの組み合わせで実装するかは、設計選択であることを理解されたい。以下は、設定されたハードウェア(例:マシン)とソフトウェアのアーキテクチャであり、様々な実施形態において用いることができる。
図49は、コンピュータシステム900の形態例のマシンのブロック図である。マシン(例:デバイス110、115、120、125;サーバ130、135;データベースサーバ140;データベース130)に本明細書の1以上の方法を実施させる命令を備える。別の実施形態において、マシンはスタンドアロンデバイスとして動作し、又は他のマシンと接続(例:ネットワーク)することができる。ネットワーク配置において、マシンはサーバとして動作し、又はサーバ−クライアントネットワーク環境におけるクライアントマシンとして動作し、又はピアトゥピア(又は分散)ネットワーク環境におけるピアマシンとして動作する。マシンは例えば、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、PDA、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ又はブリッジ、その他のマシン動作を指定する命令(シーケンシャルでもよいしそうでなくともよい)を実行できるマシンである。さらに、単一マシンのみを示しているが、用語「マシン」は、個別に又は連携して命令セット(又は複数のセット)を実行して本明細書が記載する1以上の方法を実施するマシンコレクションを含むものとして理解されたい。
例示的コンピュータシステム900は、プロセッサ902(例:中央処理装置(CPU)、マルチコアプロセッサ、及び/又はグラフィック処理装置(GPU))、メインメモリ904、スタティックメモリ906を備える。これらはバス908を介して相互通信する。コンピュータシステム900はさらに、ビデオディスプレイユニット910(例:液晶ディスプレイ(LCD)、タッチスクリーン、ブラウン管(CRT))を備える。コンピュータシステム900は、英数字入力デバイス912(例:物理キーボード又は仮想キーボード)、ユーザインターフェース(UI)ナビゲーションデバイス914(例:マウス)、ディスクドライブユニット916、信号生成デバイス918(例:スピーカ)、ネットワークインターフェースデバイス920を備える。
ディスクドライブユニット916は、機械可読媒体922を備える。機械可読媒体922上には、本明細書が記載する方法又は機能の1以上を実装し又はこれを用いる1以上の命令セットとデータ構造(例:ソフトウェア)924が格納される。命令924は、コンピュータシステム900が実行する間に、その全部又は一部をメインメモリ904、スタティックメモリ906、及び/又はプロセッサ902内に配置することができる。メインメモリ904とプロセッサ902は、機械可読媒体を構成する。
機械可読媒体922は、例示的な実施形態において単一媒体として示したが、用語「機械可読媒体」は、1以上の命令又はデータ構造を記憶する単一媒体又は複数媒体(例えば、集中型若しくは分散型データベース、及び/又は関連キャッシュ、及びサーバ)を含み得る。用語「機械可読媒体」はまた、マシンによって実行するための命令を記憶、コード化若しくは保持することができ、マシンに本発明の方法の1つ以上を実施させる、又はかかる命令により使用される若しくはかかる命令に関連するデータ構造を記憶、コード化若しくは保持することができる任意の有形媒体を含むものととらえられる。したがって、用語「機械可読媒体」は、固体メモリ、光媒体、磁気媒体を含むものと解釈されたい。ただしこれらに限るものではない。機械可読媒体の具体例として、不揮発性メモリが挙げられる。例えば以下を含む:半導体メモリデバイス(例:Erasable Programmable Read−Only Memory(EPROM)、Electrically Erasable Programmable Read−Only Memory(EEPROM))、フラッシュメモリデバイス;内部ハードディスクやリムーバブルディスクなどの磁気ディスク;磁気光学ディスク;CD−ROM、DVD−ROMディスク。
通信ネットワーク926上で伝送媒体を用いて命令924をさらに送受信することができる。命令924は、ネットワークインターフェースデバイス920を用いて、任意の既存通信プロトコル(例:HTTP)により送信することができる。通信ネットワークの例として以下が挙げられる:LAN、WAN、インターネット、携帯電話ネットワーク、音声電話(POTS)ネットワーク、無線データネットワーク(例:WiFi、WiMaxネットワーク)。用語「伝送媒体」は、マシンが実行する命令を格納し、コード化し、搬送することができる任意の媒体を含むものとして理解されたい。さらに、デジタル又はアナログ通信信号その他のソフトウェア通信を可能にする媒体を含む。
具体的実施形態を参照して本発明を説明したが、本発明の趣旨と範囲から逸脱することなくこれら実施形態に対して様々な変形や変更が可能であることは明らかである。したがって本明細書と図面は、限定的意味ではなく説明のためのものであると理解されたい。
明確性のため、以上の説明は複数の機能ユニットとプロセッサを参照して実施形態を記載したことを理解されたい。ただし、本発明の機能を損なうことなく、機能を異なる機能ユニット、プロセッサ、又はドメイン間で分散できることは、明らかである。例えば別のプロセッサ又はコントローラが実施するように記載した機能は、同じプロセッサ又はコントローラが実施することもできる。したがって、特定の機能ユニットを参照することは、その機能を提供するのに適した手段を参照しているに過ぎず、厳密な論理的又は物理的構造や組織を示しているのではない。
具体的実施例を参照して実施形態を説明したが、本発明の趣旨と範囲から逸脱することなくこれら実施形態に対して様々な変形や変更をできることは、明らかである。したがって、本明細書と図面は説明目的のものであり、限定的に解するべきではない。添付する図面は、本発明を実施する実施形態を説明するためのものであり、限定のためのものではない。説明した実施形態は、当業者が本明細書の教示を実現できる程度に詳細に記載したものである。他の実施形態を用い又は派生して、本開示の範囲から逸脱することなく構造的又は論理的代替や変更をすることができる。したがって本明細書は、限定的に解するべきではなく、実施形態の範囲は特許請求範囲によってのみ定義され、これと等価な全ての範囲も含まれる。
本発明の実施形態を、個別に及び/又はまとめて説明した。これに際して用語“発明”を用いているが、これは便宜上のものであり、1以上のものが開示されていれば本願の範囲を自発的に単一の概念に制限する意図ではない。したがって、本明細書は具体的な実施形態を説明しているが、同じ目的を実現する構成はその具体的実施形態について置き換えできることを理解されたい。本開示は、様々な実施形態の全ての適用形態及び変形をカバーすることを意図している。上記実施形態の組み合わせ及び本明細書が具体的に記載していない他の実施形態は、本明細書を参照すれば当業者にとって明らかである。
本文書において、特許文書において一般的であるように、用語“a”を用いている。これは“少なくとも1つ”又は“1以上”と明示しなくとも、1以上を含むものである。本文書において、用語“又は”を用いている。これは、非排他的であることを意味しており、“A又はB”は明示しない限り以下を含む:“AであるがBでない”、“BであるがAでない”、“A及びB”。特許請求範囲において、用語“含む”や“において”を用いている。これは “備える”や“であって”と等価である。特許請求範囲において、用語“含む”や“備える”は、無制限のものである。すなわち、請求項においてその語句の後にリストされた要素を備えるシステム、デバイス、物品、プロセスは、その請求項の範囲に含まれる。さらに特許請求範囲において、用語“第1”、“第2”、“第3”などはラベルのためのみに用いており、数的要件を強調する意図するものではない。
要約を提供して、読者が本開示の内容を早く理解できるようにした。これは特許請求範囲の範囲や意味を限定するために用いるものではない。本明細書において、本開示を整理するため、様々な要素を1つの実施形態にグループ化している。この開示方法は、特許請求する実施形態が各請求項によって明示的に記載している以上の要素を必要とすることを表すものではない。特許請求範囲は、本発明が実施形態の全要素よりも少ない要素を備え得ることを反映したものである。したがって特許請求範囲は、個々の請求項が個別の実施形態上に立脚するものである。