JP2016512354A

JP2016512354A - 測定分析物を使用する、疾患診断を改善するための方法

Info

Publication number: JP2016512354A
Application number: JP2016500153A
Authority: JP
Inventors: ガリーナ・クラシック; モーセン・マレファト; キース・リンゲンフェルター
Original assignee: Otraces Inc
Current assignee: Otraces Inc
Priority date: 2013-03-14
Filing date: 2014-03-13
Publication date: 2016-04-25
Anticipated expiration: 2034-03-13
Also published as: EP3734609A1; US11699527B2; IL241327A0; US20160034651A1; JP2019145127A; US20230274838A1; CA2941554A1; EA201591742A1; JP2022020738A; WO2014158287A2; CN105209631A; CN110289092A; IL241327B; JP6554087B2; HK1216765A1; US20170372023A1; WO2014158287A3; EP2971054A2; EP2971054A4; IL289699A

Abstract

臨床診断検査を改善するための方法が、関連診断技術と共に提供される。

Description

本発明は、疾患診断の精度を改善するための方法、および測定分析物と二値アウトカムとの相関を伴う関連診断検査に関する。

３つ以上の独立変数を使用して二値アウトカム（例えば、所与の疾患の存在または非存在）を相関させる相関法は、クラスターまたは近傍検索法、回帰法およびウェーブレット法と共によく使用される。疾患予測の場合、血液または血清の共通成分を測定し、種々の病態（ｄｉｓｅａｓｅｓｔａｔｅ）予測のためにこれらの濃度を独立変数として使用して、相関が試みられている。アウトカムが「疾患である」または「疾患でない」所与の病態の場合、ロジスティック回帰法がよく使用される。他の技術は、例えば、遺伝的アルゴリズムを伴う。これらの方法の予測力は、方法のために選択される成分分析物に大きく依存する。当業者は、予測力を有すると思われる多くの分析物およびパラメーターは実際には診断および分析力を改善しないであろうと認識している。

回帰法は、アウトカムと相関する独立変数の傾向を使用する。線形法は線形傾向に基づき、ロジスティック回帰は対数傾向に基づく。生物学的な疾患予測においては、ロジスティック回帰がよく使用される。

群クラスタリング法は、類似したアウトカムのグループ化のために変数相関トポロジーを調べる。クラスタリング法は、傾向が連続的でないが傾向においてトポロジーの局所反転を有する相関を見出すことができるという利点を有する。この方法は、非線形性が大きく、局所的変動性が大きいアウトカムの影響を受けやすいが、測定誤差が小さく、生物学的使用においてより予測的であり得る。加えて、いずれの方法も、全回帰に対して小規模で適用されるクラスター法とほとんどの場合組み合わせることができる。

しかし、論理的には実際に相関があると思われる一部の独立変数は予測傾向を示さない。したがって、病態の診断にこれまで有用な情報を提供してない、患者特異的および集団特異的な変数を利用することによって診断精度を改善するアプローチが、必要とされている。

臨床的使用に十分な再現性および予測力で病態を単独でまたは組み合わせて予測できるバイオマーカーを見出すために、数多くの研究が行われてきた。この研究は、成功が限られているかまたは全く成功していない。この予測を行うことができる単一タンパク質を見出すために、高含量タンパク質（ＨＡＰ）が大いに研究された。多数の例が見出されたが、患者を疾患についてマーカーによってスクリーニングできるほど十分に低い偽陰性レベルを有するものはなかった。結果的に、このような単一バイオマーカーは、前立腺がんのための、ＰＳＡを除いて唯一の治療法モニタリングに使用されている。この検査は、偽陰性を低下させるために、バイオプシーが適当であることを示す濃度をひどく歪めざるを得ず、結果として擬陽性レベルが非常に高くなる。バイオプシーが必要であることが示された男性の８０％もが、前立腺がんに対して実際には陰性である。

ＤＮＡマーカーもまた、場合によってはがんのサブタイプに非常にふさわしいことが判明しているが、この場合もやはり、上記のＨＡＰと同一の理由でスクリーニングには好適でない。

多種のタンパク質を使用して、プロテオミクスアプローチも検討されている。この仕事は、この場合もやはりＨＡＰにまたは高レベルのフェクタータンパク質に的を絞っている。この仕事は、多重方式のタンパク質測定法、例えば、イムノアッセイ、チップおよび質量分光光度分析（ｍａｓｓｓｐｅｃｔｒｏｐｈｏｔｏｍｅｔｒｙ）が主役となっている。極めて初期の仕事は、卵巣がんで多少の成功を手にした。しかし、全てのこれらの方法に関する問題は、選択されたタンパク質の多くが、健常から疾患への進行と強い相関を示さない（かつ多くが、例えば、質量分析には典型的に見られることであるが、病態との生物学的な関連が知られていない）ことである。さらにまた、質量分析では、全血清試料を分光光度計によってタンパク質レベルについて調べるという事実のため、重大なオーバーサンプリングの問題が生じ、したがって、相関アルゴリズムの訓練は困難である。質量分析の場合、全血清試料は、２００種超のタンパク質を含み、１０，０００個の質量分析ピークを有する可能性がある。

ＨＡＰよりも診断目的で有用なより低含量のタンパク質を利用する技術および低含量バイオマーカーの分析を可能にする分析技術もまた、診断分野において必要とされている。

本発明および種々の実施形態は、本特許出願の一部をなす特許請求の範囲で述べられている。前述のことを限定することなく、好ましい一態様の好ましい一実施形態において、本発明は、多変量（多変数）相関法を使用して病態を予測するための方法の診断力および診断精度を改善することに関する。これらの方法は、プロテオミクス技術、メタボロミクス技術ならびに体液および組織試料中に見られる種々のバイオマーカーのレベルを決定することを伴う他の技術を含む。

本発明者らが企図しかつ本出願において論じる種々の実施形態は、メタ変数の使用、特に、相関スコアに対する、測定されるバイオマーカー分析物の影響を調整する方法の使用を含む。このようなメタ変数は、免疫系応答についての専門知識および生じる可能性がある測定誤差についての知識に基づいて特定し得る。これらの方法は、訓練セットモデルの構築または診断中の盲検試料に適用可能である。

一実施形態において、本発明は、疾患を診断するための方法であって、ａ）対象からの盲検試料において少なくとも３種の所定の分析物の濃度を決定する工程と、ｂ）前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して、対象と関連する集団において変動する、対象と関連する１つまたは複数のメタ変数を選択する工程と、ｃ）前記分析物の濃度を、１つまたは複数の集団分布特性および前記の１つまたは複数のメタ変数の関数として変換して、各分析物を表す擬似濃度を計算する工程と、ｄ）前記擬似濃度を、前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して決定された擬似濃度の訓練セットモデルと比較する工程と、ｅ）前記比較が、対象が前記疾患を有することを示すかどうかを判定する工程とを含む、方法に関する。所定の分析物の濃度（またはレベル）を決定する工程（ａ）は、この方法の残りの工程とは異なる時間および場所において実施できると考えられる。同様に、この方法の他の工程（複数可）は、全体および一部を異なる時間および場所で実施することもできる。したがって、本発明者らは，より少ない工程、特に工程（ｂ）〜（ｅ）のみを含む方法も本発明と考える。

本発明の一態様において、前述の方法は、対象または患者から採取した生体試料中において測定される少なくとも３種、少なくとも４種、少なくとも５種もしくは少なくとも６種またはそれ以上の分析物あるいは前記試料において決定されるそれらのレベルを使用する。別の態様において、前述の方法は、所与の疾患、例えば、乳がん、前立腺がんおよび肺がんを含むがこれらに限定されない固形組織がんの評価または存在もしくは非存在の予測を伴う。

一部の実施形態において、メタ変数は年齢である。特定の実施形態において、メタ変数は、閉経前、閉経前後および閉経後の状況、思春期、体重、試料供給源の地理的な位置、体脂肪率、年齢、人種もしくは人種間混血または民族性、種あるいは期間の時期（または範囲）からなる群から選択される。

別の実施形態において、本明細書中で記載した「比較する」工程は、クラスタリング法、近傍探索法、回帰法またはウェーブレット解析法を含むがこれらに限定されない技術から選択される相関法の使用を伴う。また、不一致訓練セットモデルの使用を適宜含んでもよい。このような不一致訓練セットモジュールは、必要に応じて、本発明の方法のいずれかと共に、例えば、第２の訓練セットモデルを用いて繰り返すことができる、変換する工程、比較する工程および決定する工程に関連して使用できる。この第２の訓練セットモデルは、病態における血清分析物の変化と部分的に似ているが、疾患自体の状態または病理とは対照的に、病態によっては引き起こされない、対象の集団の非疾患状態を同定できるものである。したがって、関連する一実施形態は、第２の訓練セットモデル、ならびに非病態、病態と部分的に似ている非疾患状態、および病態の３つの状態の評価および予測を含む。

本発明の別の態様において、本発明の方法は、マイクロプロセッサーを使用してコンピューターに実装され、医療関係者、例えば、疾患診断を行っている医師にとって有用な形態でスコアを出力する工程をさらに含んでいてもよい。

本発明の特定の実施形態は、濃度を正規化し、濃度の不規則性および不連続分布を平滑化するための数学的方法を利用する。この数学的方法は、個々の試料が予測的である非病態および病態に関するタンパク質の測定濃度および濃度の年齢調整平均値の比ならびに非病態および病態に関するタンパク質の濃度の比の対数であり、その結果、相関において使用される、得られた新しい独立変数の分布が圧縮されて、相関計算を助けるものを含む。

本発明の別の態様において、独立変数とメタ変数との関係は、病態および非病態、１つまたは複数の群（正規または非正規）、群算術平均値（group mean value）、群平均値、群中央値ならびに群ダイナミックレンジ値の間の関係の非線形度と関連する独立変数の集団分布特性を包含する。

本発明の特定の実施形態は、個々のバイオマーカーの上方制御または下方制御特性、例えば、関連集団の典型的な対象における疾患進行の過程におけるサブグループ化または非線形度についての従来の（または専門）知識に基づいて個々のバイオマーカーの影響に重み付けするための、訓練セットモデルの調整を含む。

特定の他の実施形態は、各バイマーカー平面のトポロジーにおける急勾配または深いピークもしくは谷によって引き起こされる、リスクスコアまたは病態予測を有意に変化させるのに十分なバイマーカー平面におけるバイマーカー平面トポロジー不安定性についての従来の（または専門）知識に基づいて個々のバイオマーカーの影響に重み付けするための、訓練セットモデルの調整を含む。

他の実施形態において、訓練セットモデルは、バイオマーカーアッセイの不確実性、例えば、アッセイ結果曲線において非常に低いかまたは非常に高いレベルで起こり得る不確実性についての従来の（または専門）知識に基づいて個々のバイオマーカーの影響に重み付けするために調整する。

本発明の別の態様において、バイマーカー平面のトポロジーにおける急勾配または深いピークもしくは谷によって引き起こされる、所与の盲検試料のリスクスコアを有意に変化させるのに十分なバイマーカー平面におけるトポロジー不安定性により、アウトカム予測における不安定性を示す個々の盲検試料を調整または補正するために、不一致訓練モデルを使用する。

本発明の別の実施形態は、診断および治療法へのより個別化された医学アプローチであって、疾患の存在の予測またはその診断が望まれる疾患に関して、個々のタンパク質（または他の分析物、例えば、代謝産物）濃度のベースライン値を、集団値ではなく、対象が非病態である期間を含むある期間にわたって対象について決定するアプローチに関する。

本発明のさらに別の態様は、免疫系炎症マーカー、腫瘍抗血管新生マーカー、細胞アポトーシスマーカー、血管形成タンパク質関連マーカーおよび組織マーカーを含むカテゴリーのうちの少なくとも３種のそれぞれにおける少なくとも１種のバイオマーカーを含む、シグナル伝達タンパク質を含む低含量バイオマーカーの測定に関する。本発明の一実施形態において、低含量バイオマーカーは、所与の対象の関連集団の少なくとも約２０パーセントから採取された試料中の濃度レベルが約１ｐｇ／ｍｌ未満である極低含量のタンパク質である。

本発明の別の実施形態は、免疫系炎症マーカー、腫瘍抗血管新生マーカー、細胞アポトーシスマーカー、血管形成タンパク質マーカーおよび組織マーカーを含むカテゴリーから選択される少なくとも３種のバイオマーカーの生体試料中の濃度の決定であって、組織マーカー以外の少なくとも３種のバイオマーカーのうちのいずれか１種または複数が、疾患の診断または疾患の可能性の予測が望まれる疾患を有する亜集団において、所与の対象の関連集団の少なくとも約２０パーセントについて決定された濃度が約１ｐｇ／ｍｌ未満である低含量タンパク質である、決定を伴う。

好ましい一実施形態において、疾患は、がん、より特定すると固形腫瘍である。

他の実施形態において、少なくとも２種もしくはそれ以上、少なくとも３種もしくはそれ以上、少なくとも４種もしくはそれ以上、少なくとも５種もしくはそれ以上、少なくとも６種もしくはそれ以上、少なくとも７種もしくはそれ以上、少なくとも８種もしくはそれ以上、少なくとも９種もしくはそれ以上または少なくとも１０種もしくはそれ以上のバイオマーカーを評価する（またはそれらのレベルを決定する）。

本発明のさらに別の態様は、少なくとも１種の決定された（または測定された）分析物の濃度値がＬＯＤ未満であり、このような分析物（複数可）の濃度値が、分析物のＬＯＤと最低読み取り値との間で直線または他の適当な標準曲線フィッティング法によって決定される、評価または分析を含む。好ましくは、ゼロまたは負の値を示す分析物ななく、同様な試料中のその分析物のおよその最低許容値より低い値を示す分析物はない。

その実施形態のその他において、本発明は、分析物のＬＯＤ未満である１種もしくは複数の分析物、２種以上の分析物、３種以上の分析物、４種以上の分析物、５種以上の分析物、６種以上の分析物、７種以上の分析物、８種以上の分析物、９種以上の分析物または１０種以上の分析物を検出するための試薬を含む診断キットを伴う。

本発明の別の実施形態は、本明細書中において論じるいずれか１つまたは複数の工程を含む、本明細書中に記載した方法、診断予測および分析のいずれかを実施するのに有用なコンピューターシステムならびにマイクロプロセッサー介在装置およびシステムを伴う。

以下に説明する、本発明に組み込まれて本明細書の一部を構成する以下の図は、本開示による例示的実施形態を説明するものであり、本発明の範囲を限定するものと考えてはならず、したがって、本発明は、他の均等に効果的な実施形態を受け入れることができる。図は必ずしも原寸に比例せず、図の特定の特徴および特定の視図は、明確および簡潔にするために縮尺および概要が誇張されている場合がある。

訓練セットモデル（または診断モデル）を構築し、次いで病態または非病態を有するリスクを評価する盲検試料のための診断スコアを作成するプロセスを示すフローチャートである。

この場合にはサイトカインであるインターロイキン６に関する、典型的な集団分布を示す図である。

診断法において使用されるバイオマーカーのうち２種の擬似濃度を示す１０個のこのような平面のうち１つに関するバイマーカー平面を示す図である。

訓練セットのデータ点を含むバイマーカー平面を示す図である。

訓練セットのデータ点を含まないバイマーカー平面を示す図である。

免疫系応答に関する影響が低下された網掛け部分を含むバイマーカー平面を示す図である。

トポロジー安定性の問題に関する影響が低下された網掛け部分を含むバイマーカー平面を示す図である。

既知のアッセイ測定の不確実性に関する影響が低下された網掛け部分を含むバイマーカー平面を示す図である。

トポロジー不安性試験に合格せずかつ不一致アルゴリズムを用いて補正された２つの試料を用いた盲検検査の結果を示す図である。

乳がんの臨床研究の結果を示す図である。この場合、１０のバイマーカー平面を使用する訓練セットモデルＩの訓練セットがんスコアが示されている。

乳がんの臨床研究の結果を示す図である。この場合、１０５のバイマーカー平面を使用する訓練セットモデルＩＩの訓練セットがんスコアが示されている。

臨床研究で検査された盲検試料の実際の診断を伴った結果を示す図である。

盲検試料データ点を伴ったタンパク質ＴＮＦαの較正曲線を示す図である。

５％のがんスコア誤差についてのＴＮＦαタンパク質アッセイのエラーバーを示す図である。

表１は、臨床研究からのアルゴリズムＩの安定性計算およびメリットの数字を示す。

表２は、乳がんについての８６８人の女性の臨床前研究の結果を示す。

表３は、８６８人の女性の乳がん研究についての様々な相関法の相対的な予測力を示す。

表４は、卵巣がんについての１０７人の女性の臨床前研究の結果を示す。

表５は、前立腺がんについての２５９人の男性の臨床前研究の結果を示す。

本発明を、詳細な例示的実施形態に関して以下に記載する。本発明を様々な形態で具体化でき、その一部は開示した実施形態の形態とは大きく異なり得ることは、明白である。よって、以下に開示する具体的な構造上および機能上の詳細は本発明を単に代表するものであり、本発明の範囲を限定するものではない。

好ましい一実施形態において、本発明は、以下により詳細に記載する、疾患を診断するための方法に関する。以下の記載に対する導入として、本方法は全体として、疾患を有するかまたは有さないかに関する予測診断が望まれる患者からの盲検試料中の所定の分析物の測定濃度を利用する。本発明の方法によれば、各分析物濃度は、患者に関連する少なくとも１つの選択したメタ変数の使用に基づいて擬似濃度に転換する。このメタ変数もまた、患者と関連する選択した集団において変動する。その選択した集団において、疾患を有するかまたは有さないことが知られている集団のメンバーについて同一の所定の分析物の濃度を測定する。疾患診断のために、以下に記載する方法およびアルゴリズムによって、擬似濃度を処理する。処理した擬似濃度値を、疾患を有するかまたは有さないことが知られている集団のメンバーについての、決定および同様に処理された擬似濃度の診断モデル（または訓練セットモデル）と比較する。最終的に、患者から採取した試料の評価が、患者の状態が非病態または病態を有する集団群にあることを示すか否かを決定する。この決定は、例えば、ヘルスケア提供者による使用のためにコンピューター化システムから出力される結果として見ることができる。

この段階的なプロセスを、図１のフローチャートに示す。訓練セットモデルの構築を最初に行い、その最終的な結果により、盲検試料と称する（これらの盲検試料の分析時点で正確な診断は知られていないため）未知の患者試料についての診断結果をもたらすことが可能である。一般に、本発明は、ヘルスケア提供者にリスクスコアを提供する。ヘルスケア提供者は次に、他の患者因子と共にこのスコアを検討して、所与の病態の存在または非存在についての医学的判断を行う。

定義
「分析感度」は、ゼロ較正物質を上回る３×標準偏差と定義する。診断提示は、このレベル未満の濃度については正確でないと考えられる。したがって、このレベル未満の臨床的に関連する濃度は、正確でないと考えられ、臨床検査室において診断目的で使用されることはない。

「バイマーカー」は、例えば図３に示すような、以下で「バイマーカー平面」と称する２軸グラフ（または格子）においてプロットされる場合に、非病態から病態への生物学的移行に関して正規化されかつメタ変数の変動に機能的に関連付けられる２つの擬似濃度のセットである。

「生体試料」は、対象から採取されて、診断上の情報を提供する分析物（マーカーまたはバイオマーカーとも称する）の濃度またはレベルを決定できる、組織または体液、例えば、血液もしくは血漿を意味する。

「バイオマーカー」または「マーカー」は、対象の生体試料の生物学的成分を意味し、典型的には、体液、例えば、血清タンパク質において測定されるタンパク質またはメタボロミクス分析物である。例としては、サイトカイン、腫瘍マーカーなどが挙げられる。

「盲検試料」は、所与の疾患の診断が知られていない対象であって、その疾患の存在または非存在についての予測が望まれる対象から採取される生体試料である。

「検出限界」（ＬＯＤ）は、「ゼロ」濃度較正物質の値を２×標準偏差上回る濃度値と定義する。通常、ゼロ較正は、測定値の標準偏差の正確な提示を得るために、２０回以上の反復で行う。このレベル以下の濃度決定は、例えば、ウイルスまたは細菌の検出に関してはゼロであるかまたは存在しないと考える。本発明の解釈上、２０回の反復の使用が好ましいが試料を２連で実験する場合には、１．５×標準偏差を使用し得る。濃度の数値を必要とする診断提示は、このレベル未満にしない。

「低含量タンパク質」は、非常に低レベルの血清中タンパク質である。このレベルの定義は、文献において明確に定義されていないが、本明細書中で使用する通り、このレベルは、血清または血漿中および試料を採取する他の体液中で約１ピコグラム／ミリリットル未満であろう。

「メタ変数」は、所与の対象に特徴的な情報であって、分析物およびバイオマーカーの濃度またはレベル以外であって、必ずしもその対象に対して個別化されていないまたは対象に特有でない情報を意味する。このようなメタ変数の例としては、これらに限定するものではないが、対象の年齢、閉経の状況（閉経前、閉経前後および閉経後）ならびに他の状態および特性、例えば、思春期、体重、患者居住地の地理的な位置もしくは地域、生体試料の地理的源、体脂肪率、年齢、人種もしくは人種間混血、または時期が挙げられる。

「集団分布」は、所与の対象集団の生体試料における特定の分析物の濃度の範囲を意味する。具体的な「集団」は、これらに限定するものではないが、地理的地域、特定の人種または特定の性から選択される個人を意味する。また、本出願において記載する使用のために選択される集団分布特性は、所与の病態を有する（疾患亜集団）およびその病態を有さない（非疾患亜集団）と診断されている集団のメンバーである、そのより大きい規定された集団内の２つのはっきり異なる亜集団の使用をさらに企図する。集団は、疾患予測が望まれるいかなる集団であってもよい。さらに、適当な集団は、所与の疾患に関して他の進行期と比較して特定の臨床病期まで進展した疾患を有する対象を含むと考えられる。

「集団分布特性」は、バイオマーカーの集団分布内で決定可能であり、例えば、特定の分析物の濃度の算術平均値、もしくはその濃度中央値、もしくは濃度のダイナミックレンジ、または患者が非病態から病態への生物学的移行もしくは進行を経験する際の疾患の発症もしくは進行によって目的の種々のバイオマーカーもしくはメタ変数の上方制御もしくは下方制御の程度が影響されるときに、はっきり異なるピークとして認識できる群に集団分布がどのように分類されるかである。

「予測力」は、診断アッセイまたは検査の感度および特異性の平均値を意味する。

「擬似濃度」は、測定されるバイオマーカーの濃度の置換値または置き換え値を意味し、実際には、診断相関分析に使用し得る新しい独立変数である。擬似濃度は、測定されるバイオマーカー分析物の濃度に関連付け、それから計算する。この場合、このような分析物は、所与の病態に固有の予測力を有するものである。メタ変数によって調整された、目的の集団分布特性を使用して擬似濃度を計算して、診断が望まれる所与の患者に関する予測バイオマーカーの実測濃度を変換する。

「トポロジー不安定性」は、ほとんどまたは全てのバイマーカー平面の格子上の領域であり、その領域の全ておよびほとんどの点は、トポロジーの急勾配区間に位置している。トポロジーは、測定された独立変数（すなわち、決定されたバイオマーカー濃度）およびメタ変数の全てを考慮する多次元相関計算の形状である。単一のメタ変数値に関するこのトポロジーは、５つのバイオマーカー測定に関して少なくとも５つの次元である（それ以上であり得る）。トポロジーはまた、メタ変数の値が変化するにつれて形状が変化する。この多次元トポロジーは、トポロジーを通る１０個の二平面切片を取ることによって、分解された状態で目測で見えるようにできる。このため、測定ノイズのために、算出された疾患スコアが誤っている「リスク」が生じる。このスコアは、病態および非病態に対する予測力に関して個々のバイマーカープロットに重み付けすることによって、ならびに他の要因、例えば、トポロジー測定不安性および単純な測定誤差を考慮することによって、得ることができる。スコア範囲は、当業者に知られているように、任意であり、その値は、患者が病態または非病態にある確率パーセントを表す。

「訓練セット」は、既知のバイオマーカー濃度、既知のメタ変数値および既知の診断を有する患者（統計的有意性を得るためには、典型的には２００名以上）の群である。訓練セットを使用して、軸の値、「バイマーカー」平面の「擬似濃度」および個々の盲検試料をスコア化するのに使用する、クラスター分析からのスコア格子点を決定する。

「訓練セットモデル」は、対象（または患者）が疾患を有するかまたは有さない確率に関して予測アウトカムについての盲検試料の評価を可能にする訓練セットから構築されたアルゴリズムの群である。そして次に、「訓練セットモデル」を使用して、臨床および診断目的で盲検試料のスコアを計算する。この目的で、疾患もしくは非疾患の可能性パーセントを示すスコア、または患者の診断を開発しているヘルスケア提供者が好む可能性がある他の何らかの読み出し情報を、任意の範囲にわたって提供する。

「不一致訓練セットモデル」（または「二次アルゴリズム」）は、バイマーカー平面の格子上の個々の点が一次相関訓練セットモデルおよびこの二次アルゴリズムの両方において不安定である可能性が低いような、異なる現象論的なデータ削減法を使用する二次訓練セットモデルである。

考察
定義用語を含む本発明の特定の態様を、本発明の実施における当業者に対する指針として、以下により詳細に論じる。

メタ変数
特許請求の範囲に記載した発明は、一つには、メタ変数を使用する相関診断アッセイのための改善された診断方法に関する。このようなメタ変数は、所与の疾患を有するかまたは有さないことが知られている集団のメンバーにおける「正常」値の有意な変動範囲を示す場合に、診断のための予測力に寄与し得る。本明細書中で記載するように、メタ変数を使用して、測定された分析物レベルを「擬似濃度」に変換または転換する。種々の分析物のレベルまたは濃度は、診断分野における当業者に知られている技術によって測定または決定できると考えられる。

メタ変数は、それ自体が特に予測的でないとしても、病態が発現する際の変化を経時的に反映する対象の生物学的な状況と生理学的または物理化学的に関連する場合には、そのメタ変数は比較的に多くの情報を提供する可能性がある。例えば、ボディマスインデックス（ＢＭＩ）は、利用可能なメタ変数であり、体重自体は、心臓疾患において種々のシグナル伝達タンパク質レベルに影響を及ぼす。本発明の方法において、ＢＭＩは、別の独立変数、例えば、種々の循環血液タンパク質の測定レベルのような独立変数としてではなく、メタ変数として使用する場合に、予測アッセイにおいて著しくより有用であり得る。本発明は、一つには、ヒト対象と関連する集団全体にわたる体重の変動が、測定血清タンパク質レベルの決定可能な集団分布パターンとさらに関連するという発見に基づく。これらのタンパク質（またはバイオマーカー）レベルは、所与の対象が非病態から病態への生物学的移行（または進行）を経験する際の、診断目的で測定される独立変数である。

同様に、本発明者らは、対象の年齢は、疾病、例えば、がんの診断において、従来の相関法において測定分析物レベルと共にそれ自体を独立変数として使用する場合には、臨床的に予測的でないことを示している。しかし、年齢を、本発明の方法に従ってメタ変数として使用する場合には、その使用は診断精度を改善する。

一般に、本出願において定義および記載するメタ変数は、測定分析物の集団分布特性が、非疾患および疾患対象と比較して有意な機能分離（または分散）を示すならば、診断目的で予測的であろう。この機能分離は、病態および非病態に関するメタ変数（年齢）と目的の集団特性（集団の算術平均値）との関係が有意に異なることを意味する。

図２のグラフは、がん進行に対する免疫応答を反映する、ＩからＩＶと名前を付けられた４つのはっきり異なる集団亜群を特に含むＩＬ−６の集団分布を示している。より高濃度の群は、免疫刺激、例えば、感染、創傷、アレルギーおよび言うまでもなく、がんに対するより強い免疫応答の結果であると考えられ、最も高い群（ＩＶ）は、ＩＬ６これらの刺激に対するはっきりした非線形反応を示している。これらの集団分布特性および測定分析物のこのようなグループ化を使用して、訓練セット診断モデルの予測力を改善することができる。

本発明のメタ変数診断法は、約８６８個の患者試料の評価を含んだ研究に基づく。それらの試料において、乳がんを有するかまたは有さないと臨床的に診断された対象で５種の、証明力がある（ｐｒｏｂａｔｉｖｅ）低レベルシグナル伝達タンパク質（ＰＳＡ、ＩＬ−６、ＩＬ−８、ＴＮＦαおよびＶＥＧＦ）の濃度を測定した。タンパク質（または分析物）レベルは、疾患診断検査のための古典的な独立変数である。

本発明者らはまた、これらの対象のそれぞれについて年齢情報を入手した。５種のバイオマーカーの古典的なロジスティック回帰分析は約８２％の予測力を達成し、この分析方法における第６の独立変数としての年齢の使用がもたらす予測力の改善はごくわずかであることが判明した。決定されたバイオマーカーのみを使用するデータクラスタリング法は、約８８％のわずかに高い予測力を達成した。この場合もやはり、独立変数としての年齢の使用がより予測的であることは実質的にはなかった。

同様に、古典的なクラスター分析と、対数に転換した濃度値との併用は、約９２％の予測力を達成したが、独立変数としての年齢の使用はその予測力を０．５％未満しか増加しなかった。この種の分析においては、知られているように、試料濃度の対数が使用された。これは、これらの分析物濃度が４つ以上の対数のダイナミックレンジにわたって広がり得るからである。がん患者における５種の分析物の血液レベルが極めて高濃度まで増大する傾向があることも知られているが、必ずしもそうではない。したがって、このアプローチは、多次元クラスタープロット上の訓練セットモデルの点をそばに接近させ、低濃度においてクラスター点をオーバーサンプリングする傾向を回避する。この対数圧縮法は、間隔バイアスを低減するので、よく使用される。

本発明者らは、例えば、個々の対象の年齢を使用して、本明細書中でメタ変数と称するものを作成することができることを確証した。次に、このメタ変数を使用して、本明細書中で擬似濃度と称する新しい独立変数を作成する。擬似濃度は、測定独立変数（この場合、タンパク質濃度）の集団分布特性から計算する。そうすることにより、本明細書中でより詳細に論じるように、２つの分析モデルにおいて約９７％から１００％超までの予測力が得られた。本出願の解釈上、１００％超の予測力とは、「病態」および「非病態」が相関スコアの有意なギャップによって分離されることを意味する。

集団分布特性：
本発明者らが証明力があることを見出した集団分布特性の例は、年齢をメタ変数として選択する場合、疾患を有するかまたは有さない患者の各測定分析物の算術平均濃度値；ならびに図２に示した疾患患者群および非疾患患者群に関する、分離された年齢群の（または全体としての集団の）濃度値のサブグループ化のための濃度中央値である。集団分布プロットにおいて示されるサブグループ化は、数学的に異なって調整する。すなわち、５ｐｇ／ｍｌを上回る群における高レベルの上方制御濃度を高圧縮する。これらの関係により新しい年齢ベースの独立変数が作成され、次に、測定されるバイオマーカー分析物の実際の濃度レベルでなく、これをクラスター分析に直接使用した。

濃度の算術平均値は、非病態および病態にあると診断された患者について、年齢に対して決定する。これを、各状態の年齢調整算術平均と称する。擬似濃度値は、患者についてのこれらの算術平均値および実際濃度から式１（擬似濃度に関するサブセクションに記載）を使用して計算する。

多重独立変数相関分析では一般的であるが、その多重の独立変数は、古典的なクラスター近接分析の基礎となる多次元プロットにおいて対にされる。また、測定変数（すなわち、分析物）のダイナミックレンジの比較的大きい広がりに対処できるように、これらの変数は多くの場合、圧縮される。この場合、我々は本明細書中において、独立変数が年齢または他のメタ変数および実際濃度に基づく「擬似濃度」値である方法を記載する。当業者ならば、予測力を改善する集団分布特性を容易に特定および選択できると考えられる。

擬似濃度：
他の診断アプローチではそれ自体が独立変数として扱われることもある患者の年齢の予測力を引き出すために、本発明者らは、年齢をメタ変数として使用して、決定された分析物の実測濃度の代わりとして次に使用する「擬似濃度」を計算した。全てのメタ変数値、例えば、乳がんの場合は年齢についてその予測力を引き出すためには、メタ変数が、所与の目的集団において非病態と病態との間で分離していなければならないことが重要である。「分離」とは、非疾患亜集団および疾患亜集団の対象の集団特性間で観察される関係が、特定にメタ変数に関して異なることを意味する。これは、測定および計算によって経験的に決定できる。また、目的集団は、望まれる予測アウトカム群の性質によって決定され、それは、これらに限定するものではないが、地理的地域、例えば、米本土など；特定の人種もしくは民族のグループ化；または特定の性、例えば、女性であることができる。

乳がん疾患の予測のための、本発明による方法の実施においては、好ましくは、５種または６種の極めて低いシグナル伝達タンパク質の濃度が診断相関の独立変数である。５種のバイオマーカーのそれぞれを測定し、年齢による変動を検査集団において決定した。検査集団は、３５〜８０才の女性であって、１／２が健康であり、１／２が乳がんと診断されていた。集団内の対象は一般に、疾患を有するかまたは有さないと考えられるが、単一の対象について決定されるバイオマーカーレベルは、対象の疾患が進行するにつれて変化し、全ての対象が、その疾患の発症および進行の前および間においてその種々の病期を通して同一レベルのバイオマーカーを有するとは限らない。したがって、集団分布特性は、非病態の亜集団におけるバイオマーカーの正常な変動性および病態の亜集団におけるバイオマーカーの正常な変動性を反映する。

この場合の集団分布特性は：１）非病態および病態（この場合は、がん）に関する算術平均値対年齢；ならびに２）非疾患から疾患へと移行するバイオマーカーの上方制御の程度および非線形性であった。例えば、サイトカインであるＩＬ−６のレベルはがんによって生じる免疫誘発に対する対象の反応を反映するので、図２にインターロイキン６の上方制御を示す。ＩＬ−６は、免疫系に対するシグナルとして上方制御してその全身性の応答を上向きにする公知の炎症誘発性レスポンダーである。４つの別個のグループ化は、異なる上方制御レベルを示す。擬似濃度を算出する際には、これらのレベルを考慮する。例えば、実際濃度から擬似濃度への移行におけるデータ圧縮度は、グループ化の位置によって異なり、上位の群４では非常に著しい。

前述のことを行うためには、非病態を有する対象と病態を有する対象が等しい数である集団を測定しなければならない。この訓練セットのサイズは最適には、バイオマーカーの使用数によって決定される。好ましいサイズは、訓練セットモデルの予測力が、同様なまたはより大きい盲検集団セットに関して正確な約９５％以内であるものである。次に、これら２つの状態の年齢調整算術平均値を決定することができ、バイオマーカーの上方制御または下方制御の程度に対する疾患の効果を認識することができる。

免疫系は、がんまたは他の炎症誘発性状態の存在によって誘発される場合にタンパク質を上方制御するので、図２は、１つのバイオマーカーＩＬ−６の集団分布特性を示す。測定濃度から擬似濃度への変換は、この場合もやはり非疾患集団および疾患集団の年齢調整算術平均への濃度の正規化、ならびに測定濃度値のダイナミックレンジの圧縮を伴う。例えば１００ｐｇ／ｍｌにまで及ぶ、５ｐｇ／ｍｌを上回るグループ化内の高散乱した範囲外の濃度が高圧縮される。これによって予測力が改善される。その結果、無単位で、正規化されている、本出願において擬似濃度と称する新しい独立変数が得られ、好ましい一実施態様においては、これはバイオマーカーの集団分布の年齢変動を反映する。

非疾患および疾患に関する年齢調整算術平均および患者試料の実際濃度を含む、以下の形態の関係を使用する：
式１：擬似濃度α自然対数（（Ｃｉ／Ｃ_{（ｃまたはｈ）}）−（Ｃ_ｈ／Ｃ_ｃ））^２
［式中、
Ｃ_ｉ＝実際患者分析物の測定濃度
Ｃ（_{ｃまたはｈ}）＝この患者分析物の患者年齢調整濃度（この値は、患者が非病態かまたは病態かについて調整されている）
Ｃ_ｈ＝非疾患患者分析物の患者年齢調整算術平均濃度
Ｃ_ｃ＝疾患患者分析物の患者年齢調整算術平均濃度］。

この式１は、上方制御グループ化に応じて圧縮および拡大を調整するように設計されている。例えば、図２におけるピークを参照のこと。擬似濃度に関する上記式はこの要求を達成するが、この式の多くの他の形態を実装できることは、当業者には明らかであろう。例えば、Ｃ_ｉ、Ｃ_ｈおよびＣ_ｃは直接的に、上記で論じたような、濃度、または算術平均、中位からの濃度距離、または亜群中央値もしくはダイナミックレンジエッジからの距離であることができるであろう。

次に、擬似濃度（無単位、したがって濃度またはレベルでない）を、分析のための相関クラスター多次元プロットに使用する。また、プロットは全て、集団分布の共通する特性；非疾患および疾患（年齢調整したまたはしていない）の年齢算術平均値、中央値またはサブグループ化のダイナミックレンジに対して正規化する。これらの方法は、５パーセントポイント以上の予測力の改善をもたらすことができる。

個別化医療のケースは、人気および有効性が増している。上記の疾患予測方法は、非疾患状態に関する、これらの特許において開発および記載された集団分布特性を、個人の非疾患ベースライン測定値で置換することによって、個別化することができると考えられる。換言すれば、上記式のＣ_ｈ値は、個々の患者の実際ベースライン値であって、非病態の集団算術平均値ではないであろう。その場合、それに応じて、疾患評価は、これらの測定非疾患特性から、一般集団を示す疾患特性への個人の移行に基づくであろう。

バイマーカー平面：
５種のバイオマーカー（および１つのメタ変数）を使用する分析の場合、１０のこのようなバイマーカー平面がある。図３のプロットは、赤色の疾患格子点および黄色の非疾患格子点を示している。訓練セット試料は、測定独立変数（濃度）およびメタ変数（年齢）を使用して、年齢集団特性を決定し、軸上の擬似濃度距離を算出し、これらの擬似濃度を１０個のバイマーカー平面のそれぞれに適用する。このプロットを、合計４０，０００個の格子点について、各軸上の２，０００個の格子に分ける。

格子点が疾患であるかまたは非疾患であるかの決定は、訓練セット試料について個々の格子点から、最も近い測定データ点までの距離を決定することによって、コンピューターで計算する。図３は、一例であり、この場合には、２種のバイオマーカーはＩＬ−６およびＶＥＧＦであり、メタ変数は年齢である。縦座標と横座標はいずれも、上記のようにして決定した擬似濃度である。したがって、メタ変数および測定独立変数は、これらのプロット上の擬似濃度に組み込まれている。格子点をそれぞれ、非疾患および疾患として評価し、対応する数値スコア（実際の数値は任意であるが、例えば、＋１および−１）をそれに与える。このスコアは、非疾患または疾患の２つの訓練セットデータ点への算出距離によって決定する。最短距離がこのスコアを決定する。訓練セット試料の数は、この距離の決定を行うために変更できる（例えば、４から６へ）。図３を参照のこと。比較試料の数が比較的少ないと、予測力が比較的低くなる可能性があるであろう。同様に、比較試料の数を増加させても、格子点の「リーチ」が遠く離れたトポロジー上の非局所領域にまで及ぶので、予測力が低減する可能性がある。最良の数は、実験的な算出によって決定する。

比較試料点の好ましい数は、訓練セットモデルが実際の診断と最もよく一致する場合である。図３は、２種のバイオマーカー、ＩＬ−６およびＶＥＦＧに関するコンピューター計算プロセスを示している。未知の格子点（平面上ｙ軸約１２．００およびｘ軸約４．００の小さい四角）を、この場合には、各非疾患および疾患に関する３つの最も近い訓練セットデータ点へのその距離を決定することによって、非病態または病態に割り当てる。これらの距離を加算し、次いで格子点を、非病態または病態の適当な状態（それぞれ、＋１または−１のコンピューター計算スコア）に割り当てる。将来のいつかの時点で診断される任意の盲検試料は、この格子上の位置に基づいて状態スコアに割り当てられるであろう。各盲検試料もまた、全てのバイマーカー平面に関してスコア化されるであろう。訓練セット試料の総数は、少なくとも２００個以上であり得る。

盲検試料に関する全がんスコアの決定は、全てのバイマーカー平面から、個々の試料に関する個々の格子点決定に個々のバイマーカー平面に関する全予測力を乗じたものを使用することによって決定する。個々の盲検試料格子点値（例えば、＋１または−１）に、個々のバイマーカー平面の予測力（または感度）を乗じる。次に、１０個の平面全てを、一緒に合計する。典型的な線形法および／または二乗和平方根法を使用して、全てのバイマーカー平面に関する最終的な全スコアを得る。スコアを正規化し、０〜２００のスコアを生じるようにシフトさせる。これが、ヘルスケア提供者が使用する出力である。この範囲は任意である。

バイマーカー平面のより大きいセットは、同じ群のバイオマーカーから、それらを数学的に操作することによって構築できる。これらのより大きいバイマーカーセットはおそらくより大きい予測力を有し、または予測力をさらに改善するための不一致訓練セットモデル（または二次アルゴリズム）を構成し得る。例えば、各擬似濃度の構築に５種のバイオマーカーの濃度の比（濃度それ自体ではなく）を使用すると、１０個の擬似濃度値および４５個のバイマーカー平面が作成されるであろう。擬似濃度およびバイマーカー平面の構築はおそらく、より予測的であるが、一般集団と正確に相関するためにはより大きい訓練セットが必要とる可能性がある。例えば、各濃度値を（１−別の濃度値）で除した比を使用することもできるであろう。当業者ならば、データを多次元クラスター分析に対して調整するためのこれらの代替方法がより良好な予測力を有するかどうかを、盲検試料セットに関する予測力について方法（複数可）を試験することによって、容易に判定できる。

予測力をさらに改善するために、これらの年齢調整濃度またはグループ化調整濃度を調整してそれらを正規化し、クラスター近接分析に関する多次元のグループ化されたマーカープロット全体にわたってクラスタリングの間隔バイアスを低減または排除する。ＩＬ−６およびＶＥＧＦに関するバイマーカー平面を示す図３を参照のこと。５バイオマーカー乳がん検査パネルについて１０個のこれらの平面がある。この場合、算出擬似濃度値は正規化されており、ゼロから２０の間の任意の値を生じるようにシフトされており、外れ値である、高く上方制御された濃度が高圧縮されている。

年齢／グループ化分析からの濃度全体にわたる同一正規化間隔への多次元マーカー平面のバイマーカー投影のそれぞれを、圧縮し、年齢調整算術平均および年齢（または全集団）調整サブグループ化に対して正規化する。

調整可能なバイマーカー平面影響レベルを使用する訓練セットモデルの予測力の改善：
典型的には、バイマーカー平面を、非疾患および疾患に関する二値数（例えば、＋１および−１）でスコア化する。本明細書中に記載する擬似濃度法は、これらの２つの二値数の影響レベルを選択的に調整することによって、予測力のさらなる改善に適する。以下の方法を、訓練セットモデルにおいて開発し、いったん設定したら、モデルにおいて固定する。

以下の図４および５は、病態の存在の予測に使用される５種のバイオマーカーの場合の１つのバイマーカー平面の投影（この場合は、５種のマーカー；ＩＬ−６、ＩＬ−８、ＴＮＦα、ＶＥＧＦおよびＰＳＡを使用する乳がん）を示す。図４は、クラスター検索分析によるプロット上の格子点のスコア化に使用されるデータを含む訓練セットモデルを示す。図５は、データを含まない訓練セットモデルを示す。これは訓練セットモデルを構成する。４０，０００個の格子点のそれぞれがスコア化されかつ盲検試料が格子上の位置によってスコア化されるので、モデルの作成に使用する訓練セットデータは必要ない。トポロジーはがんに対して赤色の陽性を示し、青色はがんに対して陰性である。この場合に全スコアをコンピューターで計算する際、非疾患格子点を＋１に設定し、疾患（がん）格子点を−１に設定する。この５種のバイオマーカーの例における各バイマーカーを、５直交空間において分析する。５直交空間のうち、図５は、二次元の１つの投影である。このプロット上には、免疫系応答の種々のサブグループ化のトポロジーが示されている。この場合、全格子スポット（この場合、２０００×２０００または４０，０００）を通常の方法でスコア化し、病態陽性（乳がん）については−１の値を割り当て、非疾患は＋１である。このバイマーカー平面を、擬似濃度間隔によって上記のメタ変数年齢について正規化する。

図６は、同一のバイマーカーモデル、およびさらに網掛け部分内側の免疫応答グループ化（図２を参照のこと）を示す。網掛け部分の影響を、各網掛けブロック化部分が、患者が非疾患であるかまたは疾患である確率に対して若干異なる影響を有するという事実を反映するように調整する。この調整は、訓練セット検証を用いるヒトによる推定によって（調整は、補正された訓練セット結果を生じた）、または厳密なコンピューター多変量増分分析によって行うことができる。２つの別個のバイマーカー平面を、病態および非病態である２つのアウトカムについて作成する。この場合、免疫応答群ＩＶにおける盲検データ点は、疾患である可能性がはるかに高く、影響（絶対値）はわずかに（例えば、−１から−１．１にスコアを変化させることによって）増加するであろう。この増分の実際量は好ましくは、コンピューター分析によってまたは場合によっては厳密な手動法によって決定されるであろう。この方法を相関分析のクラスター検索法に対して実行可能であるが、他の手段も同じ趣旨で使用できるであろう。疾患の関連に関する影響に重み付けするこれらの方法は、約１％の予測力の改善をもたらし得る。９５％を上回る予測力では、これは非常に重要である。

図７もまた、同一のバイマーカー平面を示し、複合領域内において円で囲まれた網掛け部分は、非線形の急変化疾病対非疾病のトポロジーである。このような領域の特定は、ノイズが導入された検査盲検試料値（例えば、＋／−１０％）をモデルに挿入し、次いでノイズの測定量を導入することによって行うことができる。これらの盲検点のほとんどは、疾患（ここでは、がん）スコアを実質的に変化させないであろう。しかし、この種のノイズ調整後に非疾患スコアから疾患スコアに劇的に変化する一部の格子点を認め得る。これらは、バイマーカー平面のほとんどまたは全てが多次元のバイマーカー平面全体とオーバーラップする、急変化するトポロジーを有する領域である。これらの領域における影響を慎重に低減させることによって、少数の関連バイマーカー平面において重み付けを増加させることができ、結果として、ノイズの多いデータが、変化するアウトカム境界に近づくことなく広い平面に位置するようになる。この方法は、誤予測を補正することが示されている。上記の場合、赤色のがん領域の影響は、下方シフトし（絶対値）、例えば、−１．０から−０．９にシフトするであろう。または、青色の非疾患領域が、＋１．０から−０．９に下方シフトするであろう。最適シフトレベルは、厳密なコンピューター分析によって決定できるであろう。

アッセイノイズは、相関分析の精度に影響を与える可能性がある。このノイズは、アッセイの検出限界またはそれ以下のレベルにおいて特に問題となり得る。このノイズはまた、これらの不安定ゾーン中にある個々のバイオマーカーに関する測定点の影響を低減することによって、軽減することができる。図８もまた、乳がんパネルに関するＰＳＡおよびＩＬ−６のバイマーカー平面を示している。この図の左下の網掛け長方形部分内の領域は全て、アッセイの従来の検出限界（ＬＯＤ）未満である。従来、ＬＯＤは、２０個のゼロ較正物質の２つの標準偏差＋２０個のゼロ較正物質の値の平均値と定義されている。このレベルの値の統計的確実性は２つの標準偏差の内側で９５％であり、言うまでもなく、測定試料がＬＯＤより低くなると、測定確実性は低下する。データは依然として有用な情報を有するが、影響をより少なくして分析に適用すべきである。この場合、網掛け部分内の盲検試料データ点に対する影響は、網掛け部分内の訓練セットモデルの格子点に関して、例えば＋１．０から−０．９に低減される。これは、それらの他のバイマーカー面上の、検出限界を上回るこの検査試料のデータ点の影響を増加させる。

前述の方法は、相補的であり、影響のシフトを組み合わせることによって、並行して実装できる。

不安定性に関して盲検試料を試験することによる、予測力を改善するための方法：
訓練セットモデルが完成して固定されたら、それを使用して、盲検患者試料のがんスコアを算出する。本発明者らは、がんスコアを作成するための２つの好ましい方法を使用する。線形法（ＣＳｌ）と称する第１の方法は、トポロジー位置スコア（＋１または−１）にそのバイマーカー平面に関する予測力を乗じたものを採用する。次に、これらを加算し、倍率変更し、シフトさせて、０〜２００のスコアをもたらす。ｑスコア（ＣＳｑ）と称する第２のスコアは、これらの同じ値に対して二乗和平方根法を使用することによって算出する。この第２の方法は、個々のバイマーカースコアの差を強調し、全体的な医師の最終診断において有用である。

相関のクラスタリング法の非線形性が高いため、トポロジー不安定性がバイマーカー平面に依然として残り、完全に排除することができない。これらの不安定性の位置は、各バイマーカー平面全体にわたって擬似濃度の値を段階的に増分させる各格子点のコンピューター計算がんスコアの広範で厳密な評価によって、見出すことができる。これは、多数のコンピューター計算値、４０，０００個の格子点×１０個のバイマーカー平面×バイオマーカー数（５種のバイオマーカーについて２，０００，０００個の計算値）を伴う。不安定な領域は、隣接格子点におけるがんスコアの大きな変動によって明らかになるであろう。これはまた、約5個以上の平面上で健常から疾患（例えば、がん）への近接移行の領域を探す、１０個全てのバイマーカー平面の視覚的オーバーレイによって、それほど厳密でなく行うことができる。これらにより、視覚的に見つかった領域を次に、より少ない数のコンピューター検証計算によって検証できることが判明した。

本発明の別の態様によれば、安定性試験およびノイズの導入を伴う技術を盲検データセットに適用できる。また、不一致訓練セットモデルを使用して、がんスコアを調整または補正することができる。本発明のこの態様では、ノイズの固定レベルを、各盲検患者データセットについて導入する（例えば、プラスまたはマイナス１０％）。盲検試料セットが約１００名の患者である場合には、実際の訓練セットモデルのコンピューターでの実行は、３００個の試料についてそれぞれ３連とする（生データ±ノイズ）。得られた３連データセットを、安定性について試験する（ａは−１０％、ｂは＋１０％、ｃ点は生データである）。表１は、臨床研究からのデータに関する安定性試験の結果を示す。３つの試料はがんスコアにおいて非常に高い不安定性を示すことに注目されたい。試料１３８、２０７、３４および２９は全て、非常に高いメリットの数字を示している。メリットの数字（低いほど良好）は、スコアシフトの程度と、特に、健康を予測するスコアを、がんを予測するスコアにシフトするか否かまたはその逆であるか否かの両方を包含するはずである。盲検試料からのこれらのデータセットは、予測診断においては不正確であるリスクが高い。

不一致訓練モデルを使用して、メリットノイズ試験で不合格になる「リスクのある」患者の試料データセットを調整することができる。これらの点は、全てでないとしてもほとんどのバイマーカー平面の非常に急な勾配上に盲検にした試料データ点が位置するという事実によって引き起こされる極端なトポロジー不安定性と相まって、ランダムまたは規則正しい測定ノイズを避けられないため、リスクがあり、その結果、小さい乱れがスコアの大きい振幅をもたらす。表１は、ノイズが導入された試料を示す。各試料は３つの値、１）プラスノイズ、２）マイナスノイズおよび３）ノイズなしの生データを有する。これらの試料は、±１０％のノイズの導入によって疾患から非疾患まで変化しかつその逆の変化をするがんスコアを示す。これらの試料データは、この場合、不安定と判断できる。不安定性レベルは、正確には規定できないが、種々のノイズ導入レベルについて調整を行うことができる。この場合、これらは、±１０％のノイズおよび２００より大きい安定性スコアで補正される（安定性スコアとがんスコアとは、異なる意味を有する２つの明らかに異なる数値であることに留意されたい）。

測定ノイズは、この不一致第２アルゴリズムによって調整できる。調整に使用される不一致アルゴリズムは、点が正確である見込みを改善するので、主要アルゴリズムに比べて予測力がわずかに低いとしても、これらの「リスクのある」患者の試料を補正するのに使用できる。この場合、２つを補正した（図９を参照のこと）；試料１３８は、８５の非疾患のスコアを有し、不一致アルゴリズムで１９５に補正され（この点は、アルゴリズムＩによって安定であり、試料３４は、１０２のスコアを有し（線形法）、この場合もアルゴリズムＩＩを用いて１９８に補正した。試料２９および２０７は、不一致アルゴリズムによって変化しなかった。

不一致訓練セットモデル（アルゴリズムＩＩ）は１０５個のバイマーカー平面を使用した。これらの同じ試料はアルゴリズムＩＩ安定性試験では安定であることを示すので、不一致訓練セットモデル（アルゴリズムＩＩ）は一次訓練セットモデル（アルゴリズムＩ）に対して不一致である。不一致訓練セットモデルの試験は、一次訓練セットモデルと全く同じ方法で行う。これらのスコアの算出にもロジスィック回帰法を使用できたことに留意されたい。アルゴリズムＩＩは高い予測力を有するので、これを使用した。調整用の訓練セットモデルは、その予測力が主要アルゴリズムよりも低くても（好ましくは予測力は５０％以上ではあるが）、それが不安定性を伴わずに正確である可能性がある結果をもたらしさえすれば、使用できる。ノイズ試験に不合格であった問題の盲検にした試料については、補正が劇的であることに注目されたい。実際には、これらの試料は全て、高スコアを有するがんであった。これらの使用に関する１０個のバイマーカー平面のうち８個は、非常に高い不安定性格子点を有するトポロジー上にあった。したがって、スコアはリスクがあり、実際のところ不正確であった（１つは不正確であり、１つは不確実であり、スコアは１００／１２０であった）。この場合、１つの試料が補正されて、予測力が９７％から９８％に改善され、誤差は非常に著しく低減された（５０％）。１つのサンプルは、不確実であるが、がんに変更され、これも補正された。

一次疾患分析のアウトカム状態の１つと部分的に似ている独立した状態を排除することによる、病態相関二値アウトカムの予測力を改善するための方法：
クラスター分析は一般に、３つ以上の独立変数、多くの場合、患者の血清タンパク質濃度を使用する。相関アルゴリズムは、非疾患または疾患の二値アウトカムのみに作用し得るが、２つの二値状態である実際のアウトカムの確率により密接に関係する連続スコア化をもたらす。場合によっては、使用するバイオマーカーの集団分布内の病態と部分的に似ている、名目上は非疾患と分類される他の状態がある。これらの場合のいくつかは、この非疾患「ＭＩＭＩＣ」状態は、相関分析の擬陽性のアウトカムを引き起こす可能性がある。この種の擬陽性の結果を解決するための解決法は、非疾患または疾患分析とは完全に別個のさらなる新しい相関分析を作成することである。この新しい相関分析は好ましくは、非疾患もしくは疾患相関に関して全く同じバイオマーカー測定データを使用し、または一部のまたは全ての異なるバイオマーカーを使用してもよい。この新しい相関分析は、「非疾患ＭＩＭＩＣ」もしくは「疾患」の結果をもたらし、または少なくとも、患者の真実の状態について判断を行えるようにするスコアを作成する。非疾患または疾患分析に関する不確実なまたは接近した移行スコアは、非疾患ＭＩＭＩＣまたは疾患相関における非常に低いまたは高いスコアと連動して、医療関係者が病態判断を改善しかつ擬陽性スコアを低減する助けとなり得る。

非疾患状態が病態に似ているこの状況の一例は、悪性状態でない良性前立腺肥大症（ＢＰＨ）である。この状態は一般に、前立腺がんの診断に使用される少なくとも１つのバイオマーカーが高レベルを示す。例えば、バイオマーカーである前立腺特異抗原は、ＢＨＰを有する男性で、また前立腺がんを有する男性でも上昇するであろう。表５は、このさらなる相関分析法が、ＢＨＰを有する単性と前立腺がんを有する男性を区別できること、同様に、同一のバイオマーカーを使用するが異なる訓練セットモデルを使用して、非病態にあると推定される男性と、病態にある、前立腺がんと確認されている男性とを区別できることを示している。ほんのわずかの男性では、非疾患対がん訓練セットモデルによって擬陽性が生じたが、これは、ＢＨＰ対がん訓練セットモデルによっては区別されるであろう。これらの場合、１つが推定上の非疾患対がんであり、１つがＢＨＰ対がんである２つのスコアが、医師または他の医療関係者が次の診断工程を決める助けとなるであろう。例えば、両モデルの０〜２００の総スコア化（ＣＳ１またはＣＳｑに関する）に関して、非前立腺がんまたは前立腺がんに関する１１０のスコアは、がん陽性であることに対しては弱いスコアを示すが、３０の第２のスコアをＢＰＨまたはがんと考えれば、ＢＰＨであるががんでない高い可能性が医療関係者に示されるであろう。医療関係者は、この追加された情報を他の医療情報および患者病歴と共に使用して、診断の次の工程を決めることになる。

疾患を診断するための従来のプロテオミクス相関法の予測力を改善するためのいくつかの方法を本明細書中に記載した。これらは、１）相関にメタ変数および擬似濃度を使用すること、ならびに２）訓練セットモデルにおけるバイマーカー平面の影響を調整するためにトポロジー安定性についての専門知識およびアッセイ測定特性を使用することを含む。また、不一致訓練セットモデルを使用して、特定の訓練セットモデルに特有の盲検試料の安定性の問題を発見および補正するための方法も記載されている。加えて、所与の病態に関する訓練セットモデルと部分的に似ている非疾患状態を発見および補正するための方法も記載されている。これらの方法は全て、相補的であり、同時に使用することができる。例えば、不安定性の可能性が高い領域に関して訓練セットモデルを調整しても、盲検試料予測計算からこの問題を完全に取り除くことはできず、したがって、両方法を予測力の改善に使用できる。本発明者らは、これらの方法を組み合わせることによって、９５％を上回る予測力を得ることができること、および実施例１において論じる乳がん研究では、９８％超の予測力（感度１００％、特異性９７．５％）が得られたことがわかった。

臨床研究−乳がん血液検査の評価
ＯＴｒａｃｅｓＢＣＳｅｒａＤｘ検査キットおよびＯＴｒａｃｅｓＣＤｘ免疫化学装置システム（www.otraces.com）の性能を乳がんの存在のリスクを評価する実験で評価した。検査キットは、５種の非常に低レベルのサイトカインおよび組織マーカーの濃度を測定し、乳がんのリスクを評価するためのスコア、すなわちＣＳｌおよびＣＳｑを計算するために上述の通り開発された訓練セットモデルを使用する。測定されたタンパク質は、ＩＬ−６、ＩＬ−８、ＶＥＧＦ、ＴＮＦα、およびＰＳＡであった。実験は、生検で診断された５０％の乳がん患者と推定上非疾患（すなわち、この場合は乳がんがない）とされる５０％の患者とに大ざっぱに分けられる約３００人分の患者試料の測定からなった。この群のうち、２００個の試料の生検結果が、非疾患の５０％と乳がん疾患を有する５０％とに正確に分割され、各群が、さらに特定の年齢群に細分された。

試料分析結果は、病態を予測する訓練セットモデルを開発するのに使用した。次いで、残りの試料（約１１０）を盲検にした試料として訓練セットモデルを通して処理し、結果であるがんリスク数値スコアを得た。これらのスコアは、ホストの診療センターに開示した。これらの盲検試料スコアは、診療センターによって引き続き分析され、結果の臨床精度が評価された。

２つの診断モデルがこの実験用に開発され、それらは、上記に論じた通り、本明細書中、アルゴリズムＩ（または、訓練セットモデルＩ）およびアルゴリズムＩＩ（または、訓練セットモデルＩＩ）と呼ばれる。近傍クラスター分析法を両方のアルゴリズムに使用した。対象の年齢は、独立変数としてではなく、測定濃度を、本明細書中で擬似濃度と呼ばれる新たな独立変数に変換するメタ変数として使用した。この擬似濃度が、相関分析に直接使用された。アルゴリズムＩとアルゴリズムＩＩの相違は、相関に使用される新たな独立変数の数である。アルゴリズムＩは、１０次元のクラスター空間で５つの擬似濃度変数を使用する。この空間は、二次元のバイマーカー平面を見るための、この多次元空間の投影またはそれを横切る切片を介してひとの眼で見ることができる。アルゴリズムＩには、そのような平面が１０ある。

アルゴリズムＩＩは、さらに１０倍多い数の独立変数を生成して使用するので、約１００のバイマーカー平面がある。２００個の試料は、訓練セットモデルに十分であり、一般集団の適度に近似したモデルをもたらすことが予測される。二次または不一致訓練セットモデルを同じ２００個の試料の訓練データセットから開発した。この訓練セットモデルは、本明細書において結果を記載するのに使用する一次スコアリング法である。不一致訓練セットモデルは、一次訓練セットモデルによって計算された不安定であると考えられるがんスコア、すなわち、トポロジカル不安定性の領域にあるスコアを調整するのに使用される。不一致訓練セットモデルは、盲検試料については正確性が幾分劣るが、それでもなお一次訓練セットモデルを調整することができ、それ故、予測力を向上させる。

以上のクラスタリング法の分析には、ロジスティック回帰分析と比較して、計算アウトカムを生成するのに使用される独立変数の高度に非線形的な傾向を収容できるという大きな利点がある。アウトカムは、疾患か非疾患か（この場合はがんか、がんでないか）のいずれかであり、これは、訓練セットモデル計算に対する擬似濃度に基づいている。この方法の欠点は、高度に非線形的な領域が、非常に急なトポロジー勾配に関連付けられうることである。したがって、未知（または盲検）試料が、コンピューターで計算された擬似濃度における小さな誤りを増幅する作用がある急なピークまたは深い急な谷にある可能性がある。本発明者らは、所有権のある安定性試験で計算されたスコアの安定性を評価し、次いでアルゴリズムＩＩが試料について安定性を示した場合にアルゴリズムＩＩを使用してアルゴリズムＩを調整した。

図１０、１１、および１２は、アルゴリズムＩ訓練セットの結果を示す。モデル自体は、それぞれが非疾患および疾患（ここでは、乳がん）についてクラスタリング法によってスコアリングされた４００００のトポロジー点の１０のバイマーカー平面からなる。モデルが非がんおよびがんの２セットを分離する能力をこれらの図に示す。モデルは、２つのアウトカム状態が５０％対５０％に非常に近くなる、好ましくは正確に５０％対５０％になるものから構築されなければならない。また、この方法は、変換メタ変数として年齢を使用する。訓練セット試料は、目的の年齢群全体にわたって分布する試料を有した。アルゴリズム１のモデル（図１０）は、１００人の健常女性および９８人の乳がん女性から構築された。

図１０の要約表は、数値結果を示す。ここで、試料数はＮ＝１９８である。ＣＩは、正しく予測された試料であり、ＦＩは間違って予測された試料であり、４つの試料が不確実とされた。

一次訓練セットモデルを使用した結果生じた４つの不確実な試料を識別するために二次訓練セットモデルを開発した。このモデルは、不一致訓練セットモデルである。この二次モデルは、一次モデルと同じ訓練セットデータを使用する。

図１１は、不一致訓練セットモデル計算の結果を示す。アルゴリズムＩＩは、６０の点を超える分離で１００％分離を示す。

乳がん研究における盲検試料の検査結果：
図１２は、臨床研究で評価された盲検試料の結果を示す。結果は、１００％の感度および９７．５％の特異度を示す。乳がん陽性試料がすべて正しく同定されるように、臨床研究センターの腫瘍専門医が診断移行値を設定した。したがって、２つの非疾患試料が、がん陽性と予測された。陽性と判定された試料はすべて次の診断ステップ、乳房画像検査を受けるので、これは医学的に妥当である。多くの女性は、そのための医療機器を有する施設の十分近くに住んでいないので、乳房画像検査を受けない。しかし、臨床検査室から離れたところでも、それらの女性から採血して、大都市の検査所に氷上で送ることができる。

診断精度を改善するメタ変数「年齢」の使用。
表２は、８６８人の対象試料からなる乳がん臨床研究の結果の表を示す。表３は、相関計算のための様々な方法の比較を示す。標準の方法（ロジスティック回帰分析）は、８２％の予測力しか示さなかった。標準的な近傍クラスター分析は、これを改善し、８８％の予測力をもたらした。メタ変数および重み付けのアプローチ、トポロジー安定性の条件付け、免疫系応答によるグループ化、ならびにアッセイ性能のための重み付けの条件付けを使用する−盲検試料の不安定性試験および不一致アルゴリズム補正と組み合わせた−本明細書に記載の方法は、９７％超の予測力をもたらした。

卵巣がん研究における診断精度を改善するためのメタ変数「年齢」の使用
表４は、卵巣がんを有する、または卵巣がんを有しない１０７人の女性の、本明細書に記載のメタ変数法を使用した研究の結果を示す。この研究は、本明細書に記載の予測力改善のすべてを使用したわけではないが、それでもなお９５％という比較的優れた予測力を実現した。

前立腺がんにおける診断精度を改善するためのメタ変数「年齢」の使用。
表５は、前立腺がんまたは良性前立腺肥大（ＢＰＨ）を有する２５９人の男性の、本明細書に記載のメタ変数法を使用する研究の結果を示す。この研究も、本明細書に記載の予測力改善のすべてを使用したわけではないが、それでもなお９４％という比較的優れた予測力を実現した。ＢＰＨは、前立腺がんについての現在のＰＳＡ検査における偽陽性結果を引き起こす抜群に最もよくある状態であることに留意されたい。前立腺がんの従来の診断において、ＢＰＨを有する男性は、５人の陽性のうち約４人であり、そのため、前立腺がん生検のほとんどは陰性となっている。メタ変数法は、上記に論じたこれらの不正確な診断を補正することができる。

実施例３および４（それぞれ卵巣がんおよび前立腺がんに関する）における以上の結果は、メタ変数も、影響調整法（ＬＯＤ、亜集団グループ化および不安定性）も、盲検試料安定性法も使用しなかった。それらは、このデータが測定されたときにはまだ発明者らによって発見されていなかったからである。

ＩＩ．好ましい分析物カテゴリーおよび従来の検出限界下で測定される分析物を使用する診断方法
本発明は、ある特定の免疫系タンパク質が、商業診断検査で現在利用されている測定濃度よりかなり低い測定濃度で、所与の疾患のリスクの診断を可能にするという発見にも基づいている。これらには、サイトカインが含まれ、サイトカインは、完全にではないが、主にシグナル伝達タンパク質としてのその機能が、免疫系炎症マーカー、腫瘍抗血管新生、細胞アポトーシス、および腫瘍血管形成マーカー、ならびに既知の腫瘍組織マーカーといういくつかの特定の群に属する。

本発明者らは、いくつかの超低含量タンパク質ＬＡＰを選択し、相関分析を行うため、およびイムノアッセイ分析法から濃度を決定するための非伝統的な方法を使用することで、予測力が大きく改善されることを示した。シグナル伝達タンパク質（すなわち、シグナル伝達ネットワークにおけるいくつかのタイプの機能のうちの１つまたは複数の働きをするタンパク質）と呼ばれるこれらの低レベルタンパク質は、腫瘍の存在に対する直接的な免疫系応答から作用しているか、または腫瘍が進行するのに必要とする必要とされる生理反応を提供するように生物に指示する腫瘍による作用である。さらに、いくつかのＬＡＰ（好ましくは６種以下）を選択することによって、試料抽出および訓練セットのサイズ決定に関する難題が解決される。これらのタンパク質が、伝統的に規定されている検出限界以下であるという事実は、これまで、それらの有用性の研究を妨げていた。

本発明は、従来決定されている検出レベルより低い濃度値が、疾患の相関リスク評価における重要な情報を提供するという驚くべき発見に基づいている。そのような情報は、それらが不正確であるため、伝統的には臨床診断に使用されていなかった。しかし、本発明者らは、試験実行におけるＬＯＤ較正点からシグナルの最低値まで直線をカーブフィッティングさせ、それらの値を利用することが有効であることを見出した。そうすることによって、集団分布分析のための平滑なガウス分布が得られ、驚いたことに、正確ながんスコア予測も得られる。この診断方法では、このマーカーの大規模な集団評価で通常に見られるものより低い場合には、いかなるＬＯＤ未満の読み取り値も報告するべきでない。例えば、シグナルレベル（または測定濃度）がＬＯＤ未満である場合、本明細書に記載の技法の使用は、正常血清で見出される最低レベルまで適切である。したがって、ＩＬ−６のＬＯＤが約２５０ｆｇ／ｍｌであるが、１０ｆｇ／ｍｌという低いレベルの血清中の値も報告されている場合、このレベルが、本発明によるアッセイで使用される最低値となるべきである。また、値は、ゼロであることも、負であることもない。このアプローチは、様々な従来の標準曲線作成ストラテジーで機能している。

本発明者らは、驚いたことに、その機能が、免疫系炎症、腫瘍抗発生、細胞アポトーシス、および腫瘍血管形成マーカー、ならびに既知の腫瘍組織マーカーといういくつかの特定の群に属する免疫系タンパク質である、サイトカインを使用して、相関モデルの偽陰性成績が９５％より良く、偽陽性成績も９５％より良いような予測力を実現することができることを見出した。これらのタンパク質は、一部のマーカーについては１ｐｇ／ｍｌよりはるかに低いレベルで、有用な濃度情報を引き出す方法を必要とする。例えば、組織マーカーについてＰＳＡ、炎症応答についてＩＬ−６、炎症および血管形成についてＩＬ−８、血管形成についてＶＥＧＦ、抗腫瘍発生についてＴＮＦαを使用する、乳がんのための特定のプロテオミクス検査パネルに関しては、９８％を超える予測力がもたらされている。これらのマーカーのいくつかは、１ｐｇ／ｍｌ未満（５０ｆｇ／ｍｌ未満までの）の有意な集団分布を有する。このため、研究者は、臨床診断方法にこれらのタンパク質を使用することについて探究していなかった。

本発明は、例えば、免疫系炎症（ＩＬ−６，ＩＬ−８）、血管形成（ＩＬ−８，ＶＥＧＦ）、抗腫瘍発生（ＴＮＦα）タンパク質、および組織マーカー（ＰＳＡ）を使用して乳がんを予測する診断検査を含むことが企図されている。ＰＳＡの代わりの組織マーカーＣＡ１９．９；またはＩＬ−６の代わりの、もしくはこれに加えるＩＬ−１など、これらのカテゴリーに属する他のマーカーも使用できる。前立腺がんには、免疫系炎症マーカー（ＩＬ−６，ＩＬ−１８）、血管形成マーカー（ＩＬ−８，ＶＥＧＦ）、抗腫瘍発生（ＴＮＦα）タンパク質、および組織マーカー（ＰＳＡ）を含む予測アッセイが利用されることが企図されている。これらのカテゴリーに属する他のマーカー（例えばＩＬ−６の代わりの、もしくはこれに加えるＩＬ−１）も使用できる。企図されている卵巣がん状態予測は、免疫系炎症マーカー（ＩＬ−６、ＩＬ−１８）、血管形成（ＩＬ−８、ＶＥＧＦ）、抗腫瘍発生（ＩＬ−１２）タンパク質、および組織マーカー（ＣＡ１２５）を使用して行われる。これらのカテゴリーに属する他のマーカー（例えば、ＴＮＦαの代わりのＩＬ−１２）も使用できる。

本発明者らは、相関分析は、集団の１００％が実用的に正確な測定を有することが必要であり、そうでなければ予測力が損なわれることも見出した。実用的に正確であるとは、これらの測定値の精度が、現在臨床検査室で使用されている臨床診断法に期待される測定値と同等でなければならないことを意味するものではない。臨床検査室では、多数の濃度が診断に必要である場合、アッセイ較正曲線の点が分析感度より高くなければならない。これは、結果における９９．７％の確実性が実際の値の３×標準偏差以内であることを意味する。

いかなる試料も、あるマーカーについての値が不確定または０であると、この試料を完全に不正確であるとする相関計算がアンカーされなくなる。いくつかのＬＡＰシグナル伝達タンパク質と非常に低レベルの濃度測定抽出法の組合せによって、結果が大きく改善される。従来のアッセイ検出限界未満の非常に低いレベルでも、単に、ＬＯＤからシグナルが最低の試料までの直線を使用し、血清中に見出される最低生理レベルを、多くの試料の試験実行におけるこの点の濃度として使用することによって、許容できる精度が得られる。ＬＯＤと最低読み取り値との間の試料点は、この直線上にあると推定される。他の標準曲線フィッティング法を使用することもできる。これらの改善は、十分に大きく、これによって、測定パネルががんのスクリーニングに有用となる（９８％以上の予測力をもたらす）。

本発明者らは、その機能が、免疫系炎症、腫瘍抗発生、細胞アポトーシス、および腫瘍血管形成マーカー、ならびに既知の腫瘍組織マーカーといういくつかの特定の群に属する免疫系タンパク質であるサイトカインを使用して、相関モデルの偽陰性成績が９５％より良く、偽陽性成績も９５％より良いような予測力を実現することができることを見出した。これらのタンパク質は、一部のマーカーについては１ｐｇ／ｍｌよりはるかに低いレベルで、有用な濃度情報を引き出す方法を必要とする。

例えば、組織マーカーについてＰＳＡ、炎症応答についてＩＬ−６，炎症および血管形成についてＩＬ−８，血管形成についてＶＥＧＦ、抗腫瘍発生についてＴＮＦαを使用する、乳がんのための特定のプロテオミクス検査パネルに関しては、９５％を超える予測力がもたらされている。これらのマーカーのすべては、１ｐｇ／ｍｌ未満（１００ｆｇ／ｍｌ未満までの）の有意な集団分布を有する。相関分析は、集団の非常に高い割合（１００％）が実用的に正確な測定を有することが必要であり、そうでなければ相関が失われる。いかなる試料も、あるマーカーについての値が不確定または０であると、この試料を完全に不正確としうる相関計算がアンカーされなくなる。いくつかのＬＡＰシグナル伝達タンパク質と非常に低レベルの濃度測定抽出法の組合せによって、結果が大きく改善される。これは、測定パネルががんのスクリーニングに有用でありうるのに十分に大きい。

図１３は、ＴＮＦαの典型的なＥＬＩＳＡ較正曲線を示す。この場合、検出限界（ＬＯＤ）は約１．０ｐｇ／ｍｌである。これは、現在の急速スクリーニング測定技術で実現可能な、ほぼ最良のものである。集団のかなり割合がＬＯＤ未満であることに留意されたい。驚いたことに、これらのデータ点は非常に有用であり、実際、高い予測力の相関を実現するのに必要である。

臨床検査室では、検出限界を、ゼロ較正物質より２×標準偏差高い値と定義し、標準偏差は、通常、２０個のゼロ標準物質を使用して計算するのが慣例である。このレベル未満の測定結果は、通常、報告されないか、報告されるとしても、ＬＯＤ未満として分類される。臨床診断目的に単一分析物アッセイを使用する場合、そのアッセイは、適切に診断情報を医療関係者に提供するために、ＬＯＤより上の正確な自立型の数値を有しなければならず、また、従来の方法が必要である。

本明細書に記載の通り、低レベルのシグナル伝達タンパク質を使用する診断アッセイの場合、非疾患状態対疾患状態の確率を高い信頼性でスコアリングする目的の測定では、これらのＬＯＤ未満の測定値を使用する。図１４は、図１３からデータを示すが、計算上のがんスコア誤差を５％未満に保つ上で許容可能な誤差の量を示すエラーバーを伴っている。ＬＯＤ以下の極端に低レベルの検出では、比較的に誤差の量が許容される。非常に高い濃度でも同じことが当てはまる。

診断アッセイの較正曲線にとって非常に重要な領域は、診断予測スコアが、明らかに非疾患の状態を示すスコアから明らかに疾患の状態を示すスコアまでの範囲内にあるところである。また、ＬＯＤ未満のデータが排除されるか、０として報告される場合、その患者のスコアリングは、単純に極端な誤差をもたらす可能性があり、低スコアの健常が高スコアのがんとされる可能性があることに留意されたい。これは、アルゴリズムが、５種のマーカーすべてを、極端の値では、何らかの一般的なレベルで「アンカーする」ことができ、移行部では正確でなければならないからである。１つのマーカーがアンカーされない場合、計算結果は、残りの４種のみに基づく。この４種が高い結果ではがんを示さず、５種すべてが必要であり、がんの指示およびスコアの正確な生成には５種すべてが高くなければならない状態が十分に存在しうる。個々のマーカーはそれぞれ、個々のがんスコアに限定された影響を有し、この影響は、マーカーの真の影響および較正曲線におけるその位置に基づいて生じるレベルのノイズによって重み付けされる。

例えば、パネルにＰＳＡを含む、本明細書で論じる乳がん検査パネルは、大きな訓練セット（２００個の試料）の総合分析について、総合的な訓練セットモデル予測力において３〜４％の改善しか示さない。しかし、それを１つの盲検試料から排除すると、訓練セットモデルから、この試料が健常またはがんから他にシフトするのに十分なほど（例えば、０〜２００のスケールで５０スコアから１８０に）、スコアリングを逸脱させてしまう。これらの盲検試料はまれである可能性がある。１００のうち１つのみが１％の予測力で低下を生み出す。これらの方法で、本発明者らは、９８％の予測力を実現した。したがって、１％の低下は非常に重要である。ＰＳＡの盲検試料データ点は、例えば、１０ｆｇ／ｍｌ程度の非常に低いレベルで推定された場合、２０倍離れていても、がんスコアの有意な誤差を生じないことがある。一方、ＰＳＡが省かれるか、またはゼロとされた場合、がんスコアは、低ＰＳＡレベルによって「アンカーされていない」状態になり、含まれていない場合、がんスコアが完全に不正確になるほどシフトしうる。

これらの低測定値レベルには不確実性が関与していることを理解することが重要である。２連で行った測定試料では、名目測定点から１．５×標準偏差における信頼水準が９５％である。名目測定点から０．７５×標準偏差では、信用水準が６７％である。このレベルの精度は、これらの方法における非常に低いレベルでは十二分に適切であり、数値を全く有さないと、この方法を有用にすることができない。

本発明による、相関評価のための測定点の値を評価するための方法は、以下のことを必要としている。
１）伝統的な較正曲線は、開発中に評価されるアッセイのＬＯＤから、集団のダイナミックレンジを通して、典型的なイムノアッセイ法、例えばＥＬＩＳＡを使用して可能な限り高くまで延長するべきである。
２）ＬＯＤ未満では、すべての点が大きなノイズを有するものとみなし、したがって、実際の測定点は、最低較正物質未満でありうる。これらの場合、報告される結果は、以下の通りでなければならない。
ａ．ゼロより上。負の濃度は不可能であり、相関アルゴリズムによるゼロ値は、数値無しと同じ程度に結果の精度に悪影響を与える。
ｂ．決定されていないすべての患者試料点濃度に割り当てられた値を単純に有するのではなく、サブグループ訓練セットモデルの構築に必要である集団分布をどれが歪めるであろうかが決定される。
ｃ．このマーカーの大規模集団評価で通常に見られるものより低い値は報告されない。

本発明者らは、驚いたことに、試験実行におけるＬＯＤ較正点から最低シグナル値まで、単純に直線のカーブフィッティングを使用することが適切であることを見出した。これにより、集団分布分析のための平滑なガウス分布および正確ながんスコア計算がもたらされる。上記規則が守られていれば、このアプローチを使用して、任意の数の異なった標準曲線生成ストラテジーが機能するだろう。

慣例のＬＯＤ未満の分析物濃度も利用するために開示された技法は、例えば患者試料におけるマーカーの測定濃度を利用するいかなるアッセイにも使用できることが企図されている。好ましい実施形態には、前立腺がん、肺がん、乳がん、および卵巣がんを含めた固形腫瘍などの様々な疾患の診断アッセイが含まれる。これらの技法は、任意選択で、しかし好ましくは、本明細書中の他の箇所に記載されている他のデータ分析および診断技法を組み合わせることができる。

また、当業者は、バイマーカー平面トポロジーの不安定性など、利用する相関法または本明細書中の他の箇所に記載されている訓練セットサイズが不十分であることによって、引き起こされる分析誤差は、完全に異なった現象によって引き起こされ、軽減には、完全に異なった方法を必要とすることを理解するであろう。例えば、開示されているある特定の誤差および補正方法は、検査試料点が相関バイマーカートポロジー上にある極端に非線形的な（または非常に急な）勾配に適切である。そして、そのような誤差は、不一致訓練セットモデルで人工ノイズおよび調整を注入することで見出されうる。ここでいうノイズは、実験誤差から生じる、アッセイ測定に固有のものであるが、結果として生じるがんスコアへのこのノイズの影響を理解することが非常に重要である。

ＩＩＩ．コンピューターシステムを介したインプリメンテーション
本明細書に記載の様々な技法のインプリメンテーションは、デジタル電子回路またはコンピューターハードウェア、ファームウェア、ソフトウェア、もしくはこれらの組合せで実装することができる。インプリメンテーションは、コンピュータープログラム製品、例えば、データ処理装置によって実行するため、またはデータ処理装置、例えば、プログラム可能なプロセッサー、コンピューター、または複数のコンピューターの動作を制御するための情報担体、例えば、機械読み取り可能な記憶装置または伝播シグナルに明確に組み入れられたコンピュータープログラムとして実装できる。上述のコンピュータープログラムなど、コンピュータープログラムは、コンパイルまたは解釈された言語を含めた、いかなる形態のプログラミング言語で書かれたものでもよく、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境で使用するのに適した他のユニットを含めた、いかなる形態で配置してもよい。コンピュータープログラムは、１台のコンピューターもしくは１サイトにおける複数台のコンピューターで実行されるように、または複数サイトにわたって分配され、通信ネットワークによって相互接続されるように配置することができる。

方法ステップは、入力データを操作して、出力を作成することによって機能を果たすコンピュータープログラムを実行する１つまたは複数のプログラム可能なプロセッサーによって行われてもよい。方法ステップは、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって行われてもよく、装置は、ＦＰＧＡまたはＡＳＩＣとして実装してもよい。

コンピュータープログラムの実行に適したプロセッサーには、例えば、一般目的および特定目的両方のマイクロプロセッサーならびに任意の種類のデジタルコンピューターの任意の１つまたは複数プロセッサーが含まれる。一般に、プロセッサーは、リードオンリーメモリ、ランダムアクセスメモリー、または両方から指示およびデータを受け取ることになる。コンピューターの要素は指示を実行するための少なくとも１つのプロセッサーならびに指示およびデータを保存するための１つまたは複数の記憶装置を含むことができる。一般に、コンピューターは、データを保存するための１つもしくは複数の大容量記憶装置、例えば、磁気、光磁気ディスク、もしくは光ディスクを含むか、またはこれと、データを受け取る、データを移送する、もしくは両方のために動作可能に結合することができる。コンピュータープログラムの指示およびデータを組み入れるのに適した情報担体には、例えば、半導体記憶装置、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュ記憶装置；磁気ディスク、例えば、内部ハードディスクまたは取外し可能ディスク；光磁気ディスク；ならびにＣＤ−ＲＯＭおよびＤＶＤＲＯＭディスクを含めたすべての形態の非揮発性メモリーが含まれる。プロセッサーおよびメモリーは、専用論理回路によって補完するか、または専用論理回路に組み込むことができる。

ユーザーとの相互作用を提供するために、インプリメンテーションは、ユーザーに情報を提示するためのディスプレイ装置、例えば、ブラウン管（ＣＲＴ）または液晶ディスプレイ（ＬＣＤ）モニターと、それによってユーザーがコンピューターに入力することができるキーボードおよび位置指示装置、例えば、マウスまたはトラックボールとを有するコンピューターに実装することができる。他の種類のデバイスも、ユーザーとの相互作用を提供するのに使用することができる。例えば、ユーザーに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックでよく、ユーザーからの入力は、音響、音声、または触覚入力を含めた、いかなる形態でも受け取ることができる。

インプリメンテーションは、例えばデータサーバーとして、バックエンドコンポーネントを含むコンピューティングシステム、またはミドルウェアコンポーネント、例えばアプリケーションサーバーを含むもの、またはそれを介してユーザーがインプリメンテーションと相互作用することができるフロントエンドコンポーネント、例えば、グラフィカルユーザーインターフェースもしくはウェブブラウザを有するクライアントコンピューターを含むもの、またはそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組合せに実装することができる。コンポーネントは、デジタルデータコミュニケーションの任意の形態または媒体、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）および広域ネットワーク（ＷＡＮ）、例えばインターネットが含まれる。

本明細書に記載の本発明は、一般に、疾患状態を予測するためのプロテオミクスおよびメタボロミック相関法の診断精度または予測力を改善する方法に関する。ある特定の例示的実施形態について上記に上述し、添付図面に示したが、そのような実施形態は、例示でしかなく、広範な発明を制限するものではないと理解されたい。特に、本発明の教示は、様々な疾患に適用されると認識するべきである。また、本発明の好ましい実施形態は、疾患診断が望まれている対象（または患者）におけるヒト疾患の診断に関するが、本明細書に開示された方法およびシステムは、非ヒト種、とりわけ霊長類および他の哺乳動物の診断目的に有用であり、そのようなものも本発明の一部であることが企図されている。

記載のインプリメンテーションのある特定の特徴を、本明細書に記載の通りに例示したが、当業者には多くの変形形態、置換形態、改変形態、および等価形態が想起されるであろう。したがって、本発明は、開示された特定の実施形態または構成に限定されず、添付の特許請求の範囲によって定義されている本発明の趣旨および範囲に包含されるいかなる改変形態、適合形態、または変形形態も包含されるものであることが理解されよう。

参考文献：
以下のものを含めた、本明細書で言及された雑誌論文および他のすべての刊行物、特許、および教科書のすべてを参照により全体として本明細書に組み込む。
(1) Drukier, et al., “High-Sensitivity Blood-Based Detection of Breast Cancer by Multi Photon Detection Diagnostic Proteomics,” Journal of Proteome Research 2006, 5:1908,1915.
(2) Lokshin et al., “Multimarker assay for early diagnosis of ovarian cancer,” American Association for Cancer Research, Amer Assoc Cancer Res 2006, 47:653. CME: Disclosure.
(3) Drukier, et al., Ultra-Sensitive Immunoassays Using Multi Photon Detection in Diagnostic Proteomics of Blood,” Journal of Proteome Research 2005, 4:2375-2378.
(4) Drukier, “Supersensitive Immunoassays,” U.S. Patent No. 7,604,956 (2009).

Claims

疾患を診断するための方法であって、
ａ）対象からの盲検試料において少なくとも３種の所定の分析物の濃度を決定する工程と、
ｂ）前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して、対象と関連する集団において変動する、対象と関連する１つまたは複数のメタ変数を選択する工程と、
ｃ）前記分析物の濃度を、１つまたは複数の集団分布特性および前記１つまたは複数のメタ変数の関数として変換して、各分析物を表す擬似濃度を計算する工程と、
ｄ）前記擬似濃度を、前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して決定された擬似濃度の訓練セットモデルと比較する工程と、
ｅ）前記比較が、対象が前記疾患を有することを示すかどうかを判定する工程と
を含む、方法。
疾患を診断できる訓練セットモデルを作成するための方法であって、
ａ）対象の群からの試料の訓練セットにおいて少なくとも３種の所定の分析物の濃度を決定する工程と、
ｂ）前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して、対象と関連する集団において変動する、対象と関連するメタ変数を選択する工程と、
ｃ）前記分析物の濃度を、１つまたは複数の集団分布特性および前記メタ変数の関数として変換して、各分析物を表す擬似濃度を計算する工程と、
ｄ）前記疾患を有するかまたは有さないことが知られている集団のメンバーに関して決定された前記擬似濃度から訓練セットモデルを作成する工程と
を含む、方法。
前記少なくとも３種の所定の分析物が、少なくとも４種、少なくとも５種および少なくとも６種の分析物からなる群から選択される、前記請求項のいずれかに記載の方法。
前記疾患が、乳がん、前立腺がんおよび肺がんを含むがこれらに限定されない固形組織がんからなる群から選択される、前記請求項のいずれかに記載の方法。
メタ変数が年齢である、前記請求項のいずれかに記載の方法。
比較する工程を有し、比較する工程が、クラスタリング法、近傍探索法、回帰法またはウェーブレット解析法からなる群から選択される相関法を含む、前記請求項のいずれかに記載の方法。
比較工程を有し、比較する工程が、不一致訓練セットモデルの使用をさらに含む、前記請求項のいずれかに記載の方法。
コンピューターに実装され、スコアを出力する工程をさらに含んでもよい、前記請求項のいずれかに記載の方法。
前記変換する工程、比較する工程および決定する工程が、血清分析物の変化と部分的に似ているが病態ではない前記対象の集団において非疾患状態を同定できる第２の訓練セットモデルを用いて繰り返される、前記請求項のいずれかに記載の方法。
第２の訓練セットを含み、前記決定する工程が、非病態、前記病態と部分的に似ている非疾患状態、および病態の３つの状態のリスク評価を提供する、前記請求項のいずれかに記載の方法。
濃度を正規化し、濃度の不規則性および不連続分布を平滑化するための数学的方法が、個々の試料が予測的である非病態および病態に関するタンパク質の測定濃度および濃度の年齢調整平均値の比、ならびに非病態および病態に関するタンパク質の濃度の比の対数であり、その結果、相関において使用される、得られた新しい独立変数の分布が圧縮されて、相関計算を助ける、前記請求項のいずれかに記載の方法。
メタ変数が、閉経前、閉経前後および閉経後状態、思春期、体重、試料供給源の地理的な位置、体脂肪率、年齢、人種もしくは人種間混血または民族性、種あるいは時期からなる群から選択される、前記請求項のいずれかに記載の方法。
独立変数とメタ変数との関係が、病態および非病態、１つまたは複数の群（正規または非正規）、群算術平均値、群平均値、群中央値ならびに群ダイナミックレンジ値の間の関係の非線形度からなる群から選択される独立変数の集団分布特性を包含する、前記請求項のいずれかに記載の方法。
個々のバイオマーカーの上方制御または下方制御特性、例えば、関連集団の典型的な対象における疾患進行の過程におけるサブグループ化または非線形度についての知識に基づいて個々のバイオマーカーの重み付けの影響を調整することにより、訓練セットモデルについて補正する工程をさらに含む、前記請求項のいずれかに記載の方法。
各バイマーカー平面のトポロジーにおける急勾配または深いピークもしくは谷によって引き起こされる、リスクスコアを有意に変化させるのに十分なバイマーカー平面におけるバイマーカー平面トポロジー不安定性についての知識に基づいて個々のバイオマーカーの重み付けの影響を調整することによって、訓練セットモデルについて補正する工程をさらに含む、前記請求項のいずれかに記載の方法。
バイオマーカーアッセイの不確実性、例えば、アッセイ結果曲線において非常に低いかまたは非常に高いレベルで起こり得る不確実性についての知識に基づいて個々のバイオマーカーの重み付けの影響を調整することによって、訓練セットモデルについて補正する工程をさらに含む、前記請求項のいずれかに記載の方法。
各バイマーカー平面のトポロジーにおける急勾配または深いピークもしくは谷によって引き起こされる、リスクスコアを有意に変化させるのに十分なバイマーカー平面におけるトポロジー不安定性により、アウトカム予測における不安定性を示す個々の盲検試料を補正するために不一致訓練セットモデルを使用することによって、訓練セットモデルについて補正する工程をさらに含む、前記請求項のいずれかに記載の方法。
個々のタンパク質濃度のベースライン値が、集団値ではなく、対象が非病態にある期間を含む期間にわたって対象について決定される、前記請求項のいずれかに記載の方法。
測定されるバイオマーカーが、免疫系炎症マーカー、腫瘍抗血管新生マーカー、細胞アポトーシスマーカー、血管形成タンパク質マーカーおよび組織マーカーからなる群から選択されるカテゴリーのうちの少なくとも３種のそれぞれにおける少なくとも１種のバイオマーカーを含む低含量シグナル伝達タンパク質である、前記請求項のいずれかに記載の方法。
１種または複数のバイオマーカーが、所与の対象の関連集団の少なくとも約２０パーセントから採取された約１ｐｇ／ｍｌ未満の濃度レベルを有する超低含量タンパク質である、請求項１９に記載の方法。
疾患を診断するための方法であって、免疫系炎症マーカー、腫瘍抗血管新生マーカー、細胞アポトーシスマーカー、血管形成タンパク質マーカーおよび組織マーカーを含むセットから選択される少なくとも３種のバイオマーカーの生体試料中の濃度を決定することを含み、組織マーカー以外の前記バイオマーカーのいずれか１種または複数が、所与の対象の関連集団の少なくとも約２０％について決定された濃度が約１ｐｇ／ｍｌ未満である低含量タンパク質であり、前記集団が疾患も有する、方法。
前記疾患が、請求項４に記載の固形腫瘍である、前記請求項のいずれかに記載の方法。
前記少なくとも３種のバイオマーカーが、少なくとも４種以上、少なくとも５種以上、少なくとも６種以上、少なくとも７種以上、少なくとも８種以上、少なくとも９種以上または少なくとも１０種以上のバイオマーカーを含む、前記請求項のいずれかに記載の方法。
少なくとも１種の決定された分析物の濃度値がＬＯＤ未満であり、このような分析物（複数可）の濃度値が、分析物のＬＯＤと最低読み取り値との間で直線または他の適当な標準曲線フィッティング法によって決定され、ゼロまたは負の値を示す分析物がなく、同様な試料中のその分析物のおよその最低許容値より低い値を示す分析物がない、前記請求項のいずれかに記載の方法。
請求項１９に記載の分析物を含むＬＯＤ未満の分析物を検出するための試薬を含む診断キット。
前記請求項のいずれかを実施するためにプログラムされたコンピューターシステム。