JP2022546206A

JP2022546206A - 検体レベルの適応正規化のための方法、装置、及びコンピュータ読み取り可能な媒体

Info

Publication number: JP2022546206A
Application number: JP2022506418A
Authority: JP
Inventors: タバックマン，エデュアルド，ダニエル; ズィッチ，ドミニク，アンソニー; ウェスタコット，マシュー，ジョエル; ペリー，ダリル，ジョン
Original assignee: ソマロジック・オペレイティング・カンパニー・インコーポレイテッド
Priority date: 2019-07-31
Filing date: 2020-07-24
Publication date: 2022-11-04
Also published as: US20220293227A1; EP4004559A1; BR112022001579A2; MX2022001336A; IL289847A; AU2020322435A1; WO2021021678A1; CA3147432A1; EP4004559A4; ZA202202429B; CN114585922A; KR20220073732A

Abstract

１つ以上のサンプル中の検体レベルの適応正規化のための方法、装置、及びコンピュータ可読媒体は、１つ以上のサンプル中で検出された１つ以上の検体レベルに対応し、各検体レベルが１つ以上のサンプル中の前記検体の検出された量に対応する１つ以上の検体レベルを受信することと、連続する反復間のスケールファクタの変化が所定の変化閾値以下になるまで、又は１つ以上の反復の量が最大反復値を超えるまで、複数回の反復に亘って１つ以上の検体レベルにスケールファクタを反復的に適用することとを含み、各反復は、１つ以上の検体レベル中の各検体レベルと参照データセット中の前記検体の対応する参照分布との間の距離を決定することと、スケールファクタを、それらの対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいて決定することと、スケールファクタを適用することによって１つ以上の検体レベルを正規化することとを含む。【選択図】図１

Description

本出願は、２０１９年７月３１日に出願された米国仮出願番号６２／８８０，７９１に対する優先権を主張し、その全体が参照により本明細書に組み込まれる。

分析前にデータセットから特定のアッセイアーチファクトを除去するための中央値正規化が開発された。このような正規化は、（例えば、水和状態に起因する）全体的な蛋白質濃度におけるサンプル間の差異、ピペッティングエラー、試薬濃度の変化、アッセイタイミング、及び単一のアッセイラン内の系統的な変動性の他の原因に起因し得るサンプル又はアッセイバイアスを除去し得る。さらに、プロテオミクスアッセイ（例えば、アプタマーベースのプロテオミクスアッセイ）は、相関ノイズを生成し得、そして正規化プロセスは、これらの人為的相関を大幅に軽減することが観察されている。

中央値正規化は、真の生物学的マーカー（基礎となる生理学に関係する）は比較的まれであるため、高度に多重化されたプロテオミクスアッセイにおけるほとんどの蛋白質測定は、対象となる集団において変化しないという概念に依存している。したがって、サンプル内及び目的の集団にわたる蛋白質測定の大部分は、明確な中心及びスケールを有するその検体（analyte）についての共通の集団分布からサンプリングされると考えることができる。これらの仮定が当てはまらない場合、中央値正規化は、データにアーチファクトを導入し、真の生物学的信号を弱め、そしてサンプルセット内で差次的に発現されない検体における系統的差異を導入し得る。

多数の検体が、回転するサンプル、又はバルク流体から分離する前に細胞を溶解させることによって影響を受ける可能性があるため、サンプル収集及び処理に関連するある種の分析前変数が、中央値正規化の仮定に違反することが観察されている。さらに、慢性腎臓病患者の蛋白測定では、何百もの蛋白質レベルがこの状態に影響を受け、腎臓が適切に機能している人と比較して、これらの人の循環蛋白濃度が上昇することが示されている。したがって、アッセイバイアスを適切に除去し、アッセイノイズを無相関化しながら、サンプル収集アーチファクト又は過剰な数の疾患関連プロテオミクス変化に起因するデータ中のアーチファクトの導入を防ぐためのシステムにおける改善が必要とされている。

例示的な実施形態による、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいてスケールファクタを決定するためのフローチャートを示す。参照分布１及び参照分布２をそれぞれ含む例示的な実施形態による、２０１Ａ及び２０２Ａを含む複数の検出された検体を有するサンプル２００の例を示す。例示的な実施形態による、スケールファクタ適用プロセスの各反復のためのプロセスを示す。例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。例示的な実施形態による、２回以上の反復を必要とする適応正規化プロセスの別の例を示す。例示的な実施形態による、２回以上の反復を必要とする適応正規化プロセスの別の例を示す。例示的な実施形態による、２回以上の反復を必要とする適応正規化プロセスの別の例を示す。例示的な実施形態による、２回以上の反復を必要とする適応正規化プロセスの別の例を示す。例示的な実施形態による、２回以上の反復を必要とする適応正規化プロセスの別の例を示す。本明細書に記載される適応正規化プロセスの１回の反復後の全てのサンプルについての検体レベルを示す。本明細書に記載される適応正規化プロセスの１回の反復後の全てのサンプルについての検体レベルを示す。例示的な実施形態による、それらの対応する参照分布から所定の距離内にある検体レベルが、それらの対応する参照分布の一部である確率を最大にするスケールファクタの値を決定するための構成要素を示す。図に示すサンプル４のサンプルデータへの最大尤度による適応正規化の適用を示す。図に示すサンプル４のサンプルデータへの最大尤度による適応正規化の適用を示す。図に示すサンプル４のサンプルデータへの最大尤度による適応正規化の適用を示す。例示的な実施形態による図１０Ａ～１０Ｂに示されるデータへの集団適応正規化の適用を示す。図９は、例示的な実施形態による、１つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。例示的な実施形態による図１０Ａ～１０Ｂに示されるデータへの集団適応正規化の適用を示す。図９は、例示的な実施形態による、１つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。例示的な実施形態による図１０Ａ～１０Ｂに示されるデータへの集団適応正規化の適用を示す。図９は、例示的な実施形態による、１つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。例示的な実施形態による図１０Ａ～１０Ｂに示されるデータへの集団適応正規化の適用を示す。図９は、例示的な実施形態による、１つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。例示的な実施形態による図１０Ａ～１０Ｂに示されるデータへの集団適応正規化の適用を示す。図９は、例示的な実施形態による、１つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。例示的な実施形態による図１０Ａ～１０Ｂに示されるデータへの集団適応正規化の適用を示す。図９は、例示的な実施形態による、１つ以上のサンプル中の検体レベルの適応正規化のための別の方法を示す。例示的な実施形態による、検体レベルの適応正規化のための専用コンピューティング環境を示す。３８の技術的反復検定についての全てのアプタマーベースのプロテオミクスアッセイ測定にわたる変動係数の中央値を示す。最大許容反復に関する、サンプルについての性別特異的バイオマーカーに対するコルモゴロフースミノフ統計量を示す。分析に使用した血漿及び血清についてのサンプルＩＤによるＱＣサンプルの数を示す。中央値正規化及びＡＮＭＬを用いたＱＣサンプルスケールファクタの一致を示す。中央値正規化及びＡＮＭＬを用いた対照サンプルのＣＶ分解を示す。線は、プレート間（インター）及び合計のプレート内（イントラ）における各対照サンプルのＣＶの経験的累積分布関数を示す。中央値正規化及びＡＮＭＬを用いた中央値ＱＣ比を示す。中央値正規化及びＡＮＭＬを用いた尾部におけるＱＣ比を示す。ＳＳＡＮ及びＡＮＭＬを用いたスピン間時間サンプルにおけるスケールファクターコンコーダンスを示す。様々な正規化スキーム下での、タイムトゥスピンにおける、１８人のドナーにわたる検体ＣＶの中央値を示す。ＳＳＡＮ及びＡＮＭＬを用いたコーヴァンス（血漿）からのスケールファクタ間の一致プロットを示す。ＡＮＭＬの前後のコーヴァンスサンプルについての全てのペアワイズ検体相関の分布を示す。いくつかの方法によって正規化されたデータから得られた分布の比較を示す。ＳＳＡＮ及びＡＮＭＬで正規化されたデータを使用するホールドアウト検定セットの喫煙論理回帰分類子モデルのメトリックを示す。収集サイトによって着色された血漿及び血清サンプルにおけるｃ-Ｒａｆ測定のための経験的ＣＤＦを示す。血漿（上）及び血清（下）における標準中央値正規化対適応中央値正規化を用いたスケールファクタの一致プロットを示す。標準正規化スキーム及び適応正規化についてのサイト差によって影響されない検体についてのサイトによるＣＤＦを示す。希釈及びコーヴァンス収集サイトによる血漿サンプル中央値正規化スケールファクタを示す。適応正規化における厳密性を高めるために、中央値正規化スケールファクタの分布が示されている。タイムトゥスピンの関数としてのＲＦＵにおける有意な差を示す検体についての典型的な挙動を示す。タイムトゥスピンに関する希釈による正規化スケールファクタの中央値を示す。正規化スケールファクタの中央値対タイムトゥスピンに対する適応正規化の効果を要約している。ＧＦＲ値によって分割された希釈及び疾患状態による標準正規化スケールファクタの中央値を示す。標準中央値正規化（上）及びカットオフによる適応正規化による希釈及び疾患状態による中央値正規化スケールファクタを示す。これを、種々の正規化手順について、全ての検体とＧＦＲ（ｌｏｇ／ｌｏｇ）とのピアソン相関のＣＤＦと共に示す。非正規化データ、標準中央値正規化及び適応正規化についてのＣＫＤデータセットについての蛋白質間ピアソン相関の分布を示す。

方法、装置、及びコンピュータ可読媒体が、例及び実施形態として本明細書に記載されているが、当業者は、検体レベルの適応正規化のための方法、装置、及びコンピュータ可読媒体が、記載された実施形態又は図面に限定されないことを認識する。図面及び説明は、開示された特定の形態に限定されることを意図していないことを理解されたい。むしろ、本発明は、添付の特許請求の範囲の精神及び範囲内にあるすべての修正、均等物、及び代替物を包含するものである。本明細書で使用される任意の見出しは、組織的な目的のためだけのものであり、説明又は特許請求の範囲の範囲を限定することを意味するものではない。
本明細書で使用されるように、単語「できる（can）」は、強制的な意味（すなわち、意味しなければならない）ではなく、許容的な意味（すなわち、可能性を有する意味）で使用される。同様に、「include）」、「including」、「includes」、「comprise」、「comprises」、「comprising」等は、要素を含むという意味であり、それに限られる意味ではない。

本出願人は、サンプル中で検出された検体レベルの適応正規化のための新規な方法、装置、及びコンピュータ可読媒体を開発した。本明細書に開示され、特許請求の範囲に記載された技術は、アッセイバイアスを適切に除去し、アッセイノイズを非相関化しながら、サンプル収集アーチファクト、又は過剰な数の疾患関連プロテオミクス変化に起因するデータ中のアーチファクトの導入を防ぐ。

この開示された適応正規化技術及びシステムは、対象集団内に収集バイアスが存在するか、又は過剰な数の検体が研究されている集団において生物学的に影響を受け、それによってデータへのバイアスの導入を妨げる場合に、影響を受けた検体を正規化手順から除去する。

適応正規化の指示された側面は、バイアスが疑われ得るサンプルセット内の比較の定義を利用する。これらには、研究内の、特定の蛋白質分布及び重要な臨床変量において大きな変異を示すことが示されている多サイトサンプル収集物中の別個のサイトが含まれる。検定可能な臨床変量は、分析において関心のある臨床変量であるが、他の交絡因子が存在する可能性がある。

適応的正規化の適応的側面は、正規化手順の最初に定義された指示された比較において有意に異なることが見られる、正規化手順からのこれらの検体の除去を指す。臨床サンプルの各収集物はいくらか独特であるので、この方法は、正規化からの除去に必要な検体を学習するように適合し、除去された検体のセットは、異なる研究について異なる。

さらに、中央値正規化から影響を受けた検体を除去することによって、本システム及び方法は、影響を受けた検体を補正することなく、正規化アーチファクトの導入を最小限に抑える。反対に、サンプル処理アーチファクトは、研究における基礎となる生物学と同様に、このような分析によって増幅される。これらの効果については、実施例の項でより詳細に説明する。

適応正規化のための開示された技術は、再帰的方法論に従い、検体ごとのレベルでのユーザにより指示された間の有意差をチェックする。最初に検出されたアッセイノイズ及びバイアスを除去するために、データセットをハイブリダイゼーション正規化し、最初に較正する。次に、このデータセットは、以下のパラメータを用いて適応正規化プロセス（以下により詳細に説明する）に渡される。
(１) 関心のある指示されたグループ、
(２) 指示されたグループ間の差を決定するために使用される検定統計量
(３) 多重検定補正方法
(４) 検定の重要性レベルのカットオフ

ユーザにより指示されるグループのセットは、サンプル自体によって、収集サイト、サンプル品質メトリックなどによって、又は糸球体濾過率（ＧＦＲ）、症例／対照、事象／無事象などの臨床共変量によって定義され得る。Student's T検定、ANOVA、Kruskal－Wallis、又は連続相関など、収集におけるアーチファクトを検出するために多くの検定統計量を用いることができる。複数の検定補正は、いくつか例を挙げると、ボンフェローニ（Bonferroni）、ホーム（Holm）及びベンジャミニ－ホックバーグ（Benjamini-Hochberg）（BH）などである。

適応正規化プロセスは、既にハイブリダイゼーション正規化及び較正されているデータで開始される。単変量検定統計量を、指示された群間の各検体レベルについて計算する。次いで、データを参照（コーヴァンス（Covance）データセット）に対して中央値正規化し、正規化スケールファクタを生成するために使用される測定値のセットから、定義されたグループ間で有意な変動を有するこれらの検体レベルを除去する。この適応ステップによって、本システムは、定義されたグループ間に系統的なバイアスを導入する可能性を有する検体レベルを除去する。結果として得られる適応正規化データは、その後、検定統計を再計算するために使用され、その後、データを正規化するために使用される新しい適応測定セットが続き、以下同様である。

このプロセスは、１つ以上の条件が満たされるまで、複数回の反復に亘って繰り返すことができる。これらの条件は、収束、すなわち、連続する反復から選択される検体レベルが同一である場合、連続する反復間の検体レベルの変化の程度が特定の閾値未満である場合、連続する反復間のスケールファクタの変化の程度が特定の閾値未満である場合、又は特定の反復回数を過ぎることを含むことができる。適応正規化プロセスの出力は、除外された検体／検体レベル、検定統計値、及び対応する統計値（すなわち、調整されたp値）のリストで注釈付けされた正規化ファイルとすることができる。

実施例のセクションでさらに説明するように、極端な数のアーチファクト（生物学的又は収集関連のいずれか）を含むデータセットについて、本システムは、以前の中央値正規化スキームによって検出されなかったアーチファクト及びノイズをフィルタリングすることができる。

図１は、例示的な実施形態による、１つ以上のサンプル中の検体レベルの適応正規化のための方法を示す。１つ以上のサンプル中で検出された１つ以上の検体に対応する１つ以上の検体レベルが受信される。各検体レベルは、１つ以上のサンプル中のその検体の検出された量に対応する。

図２は、例示的な実施形態による、複数の検出された検体を有するサンプル２００の一例を示す。図２に示すように、より大きな円２００はサンプルを表し、より小さな円の各々は、サンプル中で検出された異なる検体についての検体レベルを表す。例えば、円２０１Ａ及び２０２Ａは、２つの異なる検体についての２つの異なる検体レベルに対応する。もちろん、図２に示される検体の量は、例示目的のみのためであり、そして特定のサンプルにおいて検出される検体レベル及び検体の数は、変化し得る。

図２に示されるように、サンプル２００は、検体２０１Ａ及び検体２０２Ａなどの様々な検体を含む。参照分布１は、検体２０１Ａに対応する参照分布であり、参照分布２は、検体２０２Ａに対応する参照分布である。参照分布は、任意の適切なフォーマットをとることができる。例えば、図２に示されるように、各参照分布は、参照集団又は参照サンプルにおいて検出される検体の検体レベルをプロットし得る。もちろん、参照分布は、様々な異なる方法でプロット及び／又は記憶することができる。例えば、参照分布は、検体レベル又は検体レベルの範囲のそれぞれの計数に基づいてプロットすることができる。さらに、参照分布は、平均値、中央値、及び標準偏差値を抽出するために処理することができ、これらの格納された値は、以下で説明するように、距離決定プロセスで使用することができる。多くの変形が可能であり、これらの例は、限定を意図するものではない。

図２に示されるように、サンプル中の各検体（検体２０１A及び２０２Aなど）の検体レベルは、直接的に、又は参照分布（平均、中央値、及び／又は標準偏差など）から抽出された統計的尺度を介して、対応する参照分布（分布１及び２など）と比較され、サンプル中の各検体レベルと、対応する参照分布との間の統計的及び／又は数学的距離が決定される。

検体レベルが検出される１つ以上のサンプルは、血液サンプル、血漿サンプル、血清サンプル、脳脊髄液サンプル、細胞溶解物サンプル、及び／又は尿サンプルなどの生物学的サンプルを含むことができる。さらに、１つ以上の検体は、例えば、蛋白質検体、ペプチド検体、糖検体、及び／又は脂質検体を含み得る。

各検体の検体レベルは、様々な方法で決定することができる。例えば、各検体レベルは、検体の結合パートナーを１つ以上のサンプルに適用することに基づいて決定され得る。結合パートナーの検体への結合は、測定可能な信号を生じる。次いで、測定可能な信号を測定して、検体レベルを得ることができる。この場合、結合パートナーは、抗体又はアプタマーであり得る。各検体レベルは、追加的に又は代替的に、１つ以上のサンプルの質量分析に基づいて決定することができる。

図１に戻ると、ステップ１０２Ｃにおいて、連続する反復間のスケールファクタの変化が所定の変化閾値１０２Ｄ以下になるまで、又は１つ以上の反復の量が最大反復値（１０２Ｆ）を超えるまで、複数回の反復に亘って１つ以上の検体レベルにスケールファクタが反復的に適用される。

スケールファクタは、各反復に対して再計算される動的変数である。後続の反復の間のスケールファクタの変化を決定し、測定することによって、本システムは、さらなる反復が結果を改善しないときを検出し、それによってプロセスを終了することができる。

さらに、スケールファクタ適用プロセスが無限に（無限ループで）繰り返されないことを保証するために、最大反復値をフェールセーフとして利用することができる。最大反復値は、たとえば、１０回の反復、２０回の反復、３０回の反復、４０回の反復、５０回の反復、１００回の反復、２００回の反復のいずれかである。

必要に応じて、最大反復値は省略され得、スケールファクタは、必要とされる反復の数を考慮することなく、連続反復間のスケールファクタの変化が所定の変化閾値以下になるまで、複数回の反復に亘って１つ以上の検体レベルに反復的に適用され得る。

所定の変化閾値は、ユーザが設定することも、何らかのデフォルト値に設定することもできる。例えば、所定の変化閾値は、プロセスが終了するために反復間のスケールファクタの測定可能な変化が非常に少ない「収束」に達するためにスケールファクタが必要とされるように、非常に低い１０進数値（例えば、０．００１）に設定することができる。

後続の反復間のスケールファクタの変化は、パーセンテージ変化として測定することができる。この場合、所定の変化閾値は、例えば、０～４０パーセント（両端を含む）の値、０～２０パーセント（両端を含む）の値、０～１０パーセント（両端を含む）の値、０～５パーセント（両端を含む）の値、０～２パーセント（両端を含む）の値、０～１パーセント（両端を含む）の値、及び／又は０パーセントとすることができる。

ステップ１０２Ａにおいて、１つ以上の検体レベルにおける各検体レベルと、参照データセットにおけるその検体の対応する参照分布との間の距離が決定される。この距離は、統計的又は数学的距離であり、特定の検体レベルがその同じ検体の対応する参照分布と異なる程度を測定することができる。様々な検体レベルの参照分布は、事前にコンパイルされ、データベースに格納され、距離決定プロセス中に必要に応じてアクセスされ得る。参照分布は、参照サンプル又は集団に基づくことができ、手動レビュープロセス又は他の適切な技法によって、汚染又はアーチファクトがないことを検証することができる。

１つ以上の検体レベル中の各検体レベルと、参照データセット中のその検体の対応する参照分布との間の距離の決定は、各検体レベルと参照データセット中のその検体の対応する参照分布との間のマハラノビス距離の絶対値を決定することを含むことができる。マハラノビス距離は、点Ｐと分布Ｄとの間の距離の尺度であり、この尺度を計算するための原点は、分布の重心（質量中心）にあり得る。マハラノビス距離（「Ｍ－距離」）の計算のための原点はまた、以下でさらに議論されるように、分布の平均又は中央値であり得、そして分布の標準偏差を利用し得る。もちろん、サンプル中の検体レベルと、利用することができる対応する参照分布との間の統計的又は数学的距離を測定する他の方法がある。例えば、１つ以上の検体レベル中の各検体レベルと参照データセット中のその検体の対応する参照分布との間の距離を決定することは、各検体レベルと、参照データセット中のその検体の対応する参照分布の平均又は中央値との間の標準偏差の量を決定することを含み得る。

図１に戻ると、ステップ１０２Ｂにおいて、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいて、スケールファクタが決定される。このステップは、対応する参照分布から所定の距離閾値内にあるサンプル中の全ての検体レベルを識別する第１のサブステップを含む。スケールファクタ決定プロセスにおいて使用されるべき検体レベルを同定するためのカットオフとして使用される所定の距離は、ユーザによって設定され得るか、又はいくつかのデフォルト値に設定され得て、及び／又は関与するサンプル及び検体の型にカスタマイズされ得る。

加えて、所定の距離閾値は、検体レベルと対応する参照分布との間の統計的距離がどのように決定されるかに依存するであろう。Ｍ－距離を使用する場合、所定の距離は、０．５以上６以下の範囲の値、１以上４以下の範囲の値、１．５以上３．５以下の範囲の値、１．５以上２．５以下の範囲の値、及び／又は２．０以上２．５以下の範囲の値とすることができる。スケールファクタ決定プロセスにおける使用から検体レベルをフィルタリングするために使用される特定の所定の距離は、基礎となるデータセット及び関連する生物学的パラメータに依存し得る。特定のタイプのサンプルは、他のものよりも大きな固有の変動を有し、より高い所定の距離閾を保証し、他のものは、より低い所定の距離閾を保証し得る。

図１に戻る。ステップ１０２Aにおいて、各検体レベルと、その検体の対応する参照分布との間の距離が計算される。対応する参照分布は、検体に関連する識別子に基づいて確認されてメモリに記憶されるか、又は各タイプの検体を検出する検体識別プロセスに基づいて確認されることができる。距離は、前述のように、例えば、Ｍ－距離として計算することができる。Ｍ－距離は、対応する参照分布の平均、中央値、及び／又は標準偏差に基づいて計算されるので、参照分布全体をメモリに記憶する必要はない。例えば、サンプル中の各検体レベルと対応する参照分布との間のＭ－距離は、次式で与えられる。

ここで、Ｍはマハラノビス距離（「Ｍ-距離」）であり、サンプル中の検体レベルの値であり、ｘ_ｐは、サンプルの検体レベルの値であり、μ_ｒｅｆは、その検体に対応する参照分布の平均であり、σ_{ｒｅｆ，ｐ}はその検体に対応する参照分布の標準偏差である。

図３は、例示的な実施形態による、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいてスケールファクタを決定するためのフローチャートを示す。ステップ３０１では、対応する参照分布から所定の距離内にある各検体レベルについて検体スケールファクタが決定される。この検体スケールファクタは、少なくとも部分的に、検体レベルと、対応する参照分布の平均値又は中央値とに基づいて決定される。例えば、各検体の検体スケールファクタは、対応する参照分布の平均に基づくことができる。

ここで、ＳＦ_{ａｎａｌｙｔｅ}は、対応する参照分布から所定の距離内にある各検体のスケールファクタであり、μ_{ｒｅｆ、ｐ}は、その検体に対応する参照分布の平均であり、ｘ_ｐは、サンプル中の検体レベルの値である。検体スケールファクタはまた、対応する参照分布の中央値に基づき得る。

ここで、ＳＦ_{ａｎａｌｙｔｅ}は、対応する参照分布から所定の距離内にある各検体のスケールファクタであり、~ｘは、その検体に対応する参照分布の中央値であり、ｘｐは、サンプル中の検体レベルの値である。

ステップ３０２では、対応する参照分布から所定の距離内にある検体レベルに対応する検体スケールファクタの平均又は中央値のいずれかを計算することによって、サンプルの全体的なスケールファクタが決定される。したがって、全体的なスケールファクタは、以下の１つによって与えられる。

ここで、ＳＦ_{ａｎａｌｙｔｅ}は、サンプル中の検体レベルに適用されるべき全体的なスケールファクタ（本明細書では「スケールファクタ」と呼ぶ）であり、~ｘ_{ＳＦａｎａｌｙｔｅ}は、検体スケールファクタの平均であり、σ_SFanalyteは、検体スケールファクタの中央値である。

ステップ３０２では、検体レベルと参照分布との間の距離が所定の距離閾値よりも大きいかどうかの判定が行われる。もしそうであれば、ステップ３０３において検体レベルは外れ値としてフラグされ、ステップ３０４において検体レベルはスケールファクタ決定プロセスから除外される。そうではなく、検体レベルと参照分布との間の距離が所定の距離閾値以下である場合、ステップ３０５において検体レベルは許容可能な距離内にあるとしてフラグが立てられ、ステップ３０６において検体レベルがスケールファクタ決定プロセスにおいて使用される。

各検体レベルのフラグ付けは、スケールファクタ適用プロセスの各反復のためのデータ構造によって符号化され、追跡され得る。例えば、各検体レベルについて１又は０を記憶するビットベクトル又は他のブール値によって符号化、追跡され得る。ここでの１又は０は、検体レベルがスケールファクタ決定プロセスで使用されるべきかどうかを示す。対応するデータ構造は、スケールファクタ適用プロセスの新たな反復中に、リフレッシュ／再符号化することができる。

スケールファクタ決定プロセスがステップ３０６で行われる場合、ステップ３０１～３０２における距離閾値評価プロセスの結果を符号化するデータ構造を利用して、サンプル中の検体レベルをフィルタリングして、スケールファクタ決定プロセスで使用される検体レベルのみを抽出及び／又は同定することができる。

各参照分布について所定の距離を計算するための原点は、明確化のために分布の重心として示されているが、分布の平均又は中央値、あるいは分布の標準偏差に基づいて調整された平均又は中央値など、他の原点を利用することができることを理解されたい。

図１に戻ると、ステップ１０２Ｄにおいて、決定されたスケールファクタと、以前に決定されたスケールファクタ（以前の反復のための）との間のスケールファクタの変化が所定の閾値以下であるかどうかに関する決定が行われる。スケーリングプロセスの第１の反復が実行されている場合、このステップは省略することができる。このステップは、現在のスケールファクタを以前の反復からの以前のスケールファクタと比較し、以前のスケールファクタと現在のスケールファクタとの間の変化が所定の閾値を超えるかどうかを判定する。

先に論じたように、この所定の閾値は、１％の変化など、何らかのユーザ定義の閾値とすることができ、かつ／又はスケールファクタが特定の値に収束するようにほぼ同一のスケールファクタ（～０％の変化）を必要とすることができる。

ｉ番目と（ｉ－１）番目の反復回数の間のスケールファクタの変化が所定の閾値以下の場合、ステップ１０２Ｆで適応正化処理が終了する。そうではなく、ｉ番目と（ｉ－１）番目の反復との間のスケールファクタの変化が所定の閾値よりも大きい場合、処理は工程１０２Ｃに進み、そこで、サンプル中の１つ以上の検体レベルが、スケールファクタを適用することによって正規化される。サンプル中の全ての検体レベルは、このスケールファクタを使用して正規化され、スケールファクタを計算するために使用された検体レベルだけではないことに留意されたい。したがって、適応正規化プロセスは、収集サイトのバイアス、又は疾患による蛋白質レベルの差を「補正」せず、むしろ、データにアーチファクトを導入し、所望の蛋白質シグネチャーを破壊するので、正規化中にこのような大きな差効果が除去されないことを保証する。

ステップ１０２Ｃでの正規化ステップの後、任意選択のステップ１０２Ｅで、スケーリングプロセスのもう１回の反復を繰り返すことが最大反復値を超えるかどうか（すなわち、ｉ＋１＞最大反復値であるかどうか）に関する判定が行われる。もしそうであれば、プロセスはステップ１０２Ｆで終了する。そうでなければ、次の反復が初期化され（ｉ＋＋）、手順は、ステップ１０２Ｂの距離決定、スケールファクタ決定、及びステップ１０２Ｃでの正規化（１０２Ｄにおいてスケールファクタの変化が所定の閾値を超える場合）のために、ステップ１０２Ａに戻る。ステップ１０２Ａ～１０２Ｄは、プロセスがステップ１０２Ｆで終了するまで（スケールファクタの変化が所定の閾値内に入るか、又は最大反復値を超えるかのいずれかに基づいて）、各反復について繰り返される。

図４Ａ～４Ｆは、例示的な実施形態による、サンプルデータのセットのための適応正規化プロセスの例を示す。

図４Ａは、スケールファクタの計算及び参照分布に対する検体レベルの距離決定の両方のために使用されるべき参照データ要約統計のセットを図示する。参照データ要約統計は、２５の異なる検体に対応する参照分布についての適切な統計的尺度を要約する。

図４Ｂは、１０個のサンプルに亘って測定された２５個の異なる検体の検体レベルに対応するサンプルデータのセットを示す。検体レベルの各々は、相対蛍光単位として表されるが、他の測定単位を利用することができることが理解される。

適応正規化プロセスは、まず、各検体レベルと対応する参照分布との間のマハラノビス距離（Ｍ-距離）を計算し、各Ｍ-距離が所定の距離内にあるかどうかを判定し、（検体レベル及び全体の両方で）スケールファクタを計算し、検体レベルを正規化し、次いで、スケールファクタの変化が所定の閾値を下回るまでプロセスを繰り返すことによって、各サンプルを通して反復することができる。一例として、図４Ｃ－４Ｆは、図４Ｂのサンプル３の測定値を利用する。図４Ｃに示すように、サンプル３中の各検体レベルと、対応する参照分布との間のＭ-距離を計算する。このＭ－距離は（先に議論した）式で与えられる。

また、図４Ｃの表に示されているのは、ブール変数Within-Cutoffであり、これは、各検体についてのM-距離の絶対値が、スケールファクタ決定プロセスで使用するために必要とされる所定の距離内にあるかどうかを示す。この場合、所定距離は２に設定される。図４Ｃに示すように、検体３、６、７、１１、１７、１８、２０、及び２３は｜２｜のカットオフ距離よりも大きい。したがって、これらは、以下のスケールファクタ決定ステップでは使用されない。

全体的なスケールファクタを決定するために、残りの検体（TRUEのWithin-Cutoff値を有する検体）の各々についてのスケールファクタが、前述のように決定される。図４Ｄは、各検体の検体スケールファクタを示す。次に、これらの検体スケールファクタの中央値を、全体的なスケールファクタに設定する。もちろん、これらの検体スケールファクタの平均も、全体的なスケールファクタとして使用することができる。この場合、スケールファクタは次式で与えられる。

ここで、ＳＦ_{analyte 1, ...p}は、スケールファクタ決定プロセスで使用される検体の各々についての検体スケールファクタである。

次いで、サンプル３についての２５の検体測定値にこのスケールファクタを掛け、このプロセスを繰り返す。図４Ｅに示すように、この正規化されたデータについて新しいＭ-距離が計算され、所定の距離閾値内にある検体が決定される。図４Ｆは、この次の反復のための検体スケール因子をさらに示す。全体的なスケールファクタについての上記の公式を使用して、この反復についての全体的なスケールファクタは、１（検体スケールファクターの中央値）に等しくなるように決定される。

全体的なスケールファクタが１であると決定されるので、このスケールファクタの適用はデータにいかなる変化も生じさせず、次のスケールファクタも１であるので、プロセスを終了することができる。

図５Ａ～５Ｅは、例示的な実施形態による、２回以上の反復を必要とする適応正規化プロセスの別の例を示す。これらの図は、図４Ａ－４Ｂ中のサンプル４に対応するデータを使用する。

図５Ａは、サンプル４中の検体の各々のＭ-距離の値、及び対応するブールＷｉｔｈｉｎ－Ｃｕｔｏｆｆの値を示す。図５Ａに示されるように、検体１、４、６、８、１２、１７、１９、及び２１～２５は、スケールファクタ決定プロセスから除外される。

図５Ｂは、残りの検体の各々についての検体スケールファクタを示す。この反復の全体的なスケールファクタは、前述のように、これらの値の中央値とみなされ、０．９６６３に等しい。

このスケールファクタは、図５Ｃに示される検体レベルを生成するために検体レベルに適用される。図５Ｃはまた、正規化プロセスの第２の反復についてのＭ－距離決定及びカットオフ決定結果を示す。この場合、検体１、４、６、１０、１２、１７、１９、及び２１～２５は、スケールファクタ決定プロセスから除外される。

図５Ｄは、残りの検体の各々についての検体スケールファクタを示す。この反復の全体的なスケールファクタは、前述のように、これらの値の中央値とみなされ、０．８９０３に等しい。このスケールファクタはまだ１の値に収束していない（スケールファクタのさらなる変化がないことを示す）ので、収束に達するまで（又はスケールファクタの変化が何らかの他の所定の閾値内に入るまで）プロセスが繰り返される。

図５Ｅはスケールファクタ決定及び適応正規化プロセスの８回の反復に亘る、図４Ａ～４Ｂに示されている各サンプルについて決定されたスケールファクタを示す図である。図５Ｅに示すように、サンプル４のスケールファクタは、プロセスの５回目の反復まで収束しない。

各サンプルの検体レベルデータは、各反復後に変化する（決定されたスケールファクタが１ではないと仮定する）。例えば、図６Ａは、本明細書に記載される適応正規化プロセスの１回の反復後の全てのサンプルについての検体レベルを示す。図６Ａ～６Ｂは、適応正規化プロセスが完了した後（この例では、すべてのスケールファクタが１に収束した後）のすべてのサンプルの検体レベルを示す。

図１に戻って参照すると、スケールファクタ決定ステップ１０２Ｂは、他の方法で実行することができる。特に、対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいてスケールファクタを決定することは、対応する参照分布から所定の距離内にある検体レベルが対応する参照分布の一部である確率を最大にするスケールファクタの値を決定することを含むことができる。

図７は、所与のサンプル内の検体測定値が参照分布から導出される確率を最大にするスケールファクタの値を決定するための要件を示す。この場合、各検体レベルが対応する参照分布の一部である確率は、スケールファクタ、検体レベル、対応する参照分布の標準偏差、及び対応する参照分布の中央値に少なくとも部分的に基づいて決定することができる。

ステップ７０４において、対応する参照分布から所定の距離内にある全ての検体レベルが対応する参照分布の一部である確率を最大にするスケールファクタの値が決定される。図７に示されるように、この確率関数は、この確率を最大にするスケールファクタ７０１５の値を決定するために、対応する参照分布７０２及び検体レベル７０３の標準偏差を利用する。

スケールファクタ決定のためにこの技法を使用する適応正規化は、本明細書では、最大尤度による適応正規化（ＡＮＭＬ）と呼ばれる。ＡＮＭＬと上述の適応正規化のための以前の技法（単一サンプルに対して動作し、本明細書では単一サンプル適応正規化（ＳＳＡＮ）と呼ぶ）との間の主な相違は、スケールファクタ決定ステップである。

中央値はＳＳＡＮのスケールファクタを計算するために使用されたが、ＡＮＭＬは、サンプルが参照分布から導出される確率を最大化するために参照分布の情報を利用する。

この式は、参照分布が対数正規確率に従うという仮定に依存する。このような仮定は、スケールファクタのための単純な閉形式を可能にするが、必ずしも必要ではない。上述したように、ＡＮＭＬの全体的なスケールファクタは、加重分散平均である。大きな集団分散を示す検体測定値のスケールファクタへの寄与ＳＦ_overallは、より小さな集団分散に由来するものよりも少なく重み付けされる。

図８Ａ～８Ｃは、例示的な実施形態に従う、図４Ａ～４Ｂに示すサンプル４のサンプルデータへの最大尤度による適応正規化の適用を示す。図４Ａは、第１の反復における各検体のＭ-距離値及びＷｉｔｈ-Ｃｕｔｏｆｆ値を示す。図８Ａに示されるように、サンプル４についての最初の反復からの使用不可能な検体は、検体１、４、６、８、１２、１７、１９、２１、２２、２３、２４、及び２５である。スケールファクタの計算のために、log１０変換された参照データ、標準偏差、及びサンプルデータを取得し、スケールファクタ決定のために上記の式を適用する。

この指数を１０の基底に適用すると、このサンプル／反復のスケールファクタは次のように決定される。

ＳＳＡＮの手順と同様に、この中間スケールファクタは、サンプル４からの測定値に適用され、このプロセスは、連続する反復について繰り返される。

図８Ｂは、複数回の反復に亘り、図４Ａ～４ＢのデータにＡＮＭＬを適用することによって決定されるスケールファクタを示す。最初の反復と収束後との間の正規化サンプル測定値の差は、１回を超える反復を必要とするサンプルについて極めて明確である。これらのさらなる反復は、アプタマーベースのプロテオミクスアッセイを用いて生成されたデータにおける利点を示し、これは、実施例のセクションにおいてさらに記載される。図８Ｂに示すように、これらのスケールファクタは、ＳＳＡＮによって決定されたスケールファクタとは異なる（図５Ｅ）。これらの差は、各検体についての重み付けされた集団分散に起因し、これは、参照集団分散が大きい検体についてのスケールファクタ計算のバランスをとるのに役立つ。

図８Ｃは、複数回の反復に亘り、図４Ａ～４Ｂ中のデータへのＡＮＭＬの適用から生じる正規化された検体レベルを示す。図８Ｃに示されるように、正規化された検体レベルは、ＳＳＡＮによって決定されたものとは異なる（図５Ｂ）。

開示された技術を使用して実行されることができる別のタイプの適応正規化は、集団適応正規化（ＰＡＮ）である。ＰＡＮは、１つ以上のサンプルが複数のサンプルを含み、１つ以上の検体に対応する１つ以上の検体レベルが各検体に対応する複数の検体レベルを含む場合に利用することができる。

PANを用いて適応正規化を行う場合、１つ以上の検体レベル中の各検体レベルと、参照データセット中のその検体の対応する参照分布との間の距離は、各検体に対応する複数の検体レベルと参照データセット中の各検体の対応する参照分布との間のStudent's T検定、コルモゴロフ-スミルノフ検定、又はCohen’s D統計を決定することによって決定される。

ＰＡＮについて、臨床データは、集団参照データと有意に異なる検体を検定するために、グループとして扱われる。ＰＡＮは、サンプルのグループが、特定の収集条件下で同じ検定サイトから収集されるような類似の属性のサブセットを有することから同定される場合、又はサンプルのグループが、参照分布とは異なる臨床的区別（疾患状態）を有し得る場合に、使用され得る。

集団正規化スキームの能力は、参照分布に対して同じ検体の多くの測定値を比較する能力である。正規化の一般的な手順は、上述の適応正規化方法と同様であり、再び、各検体測定値と参照分布との初期比較を開始する。

上述したように、複数の統計的検定を使用して、検定データからの検体測定値と、Student's T検定、コルモゴロフ-スミルノフ検定などを含む参照分布との間の統計的差異を決定することができる。

以下の例では、２つの分布間の効果サイズの測定値であり、先に議論したM距離計算に非常に似ている、距離測定に対するCohen's D統計値を利用している。

ここで、Ｄ_ｐは、Cohen's D統計量であり、μ_ｐは特定の検体についての参照分布中央値であり、~ｘ_ｐは全てのサンプルにわたる臨床データ（サンプル）中央値であり、√（σ_ref,p ^２＋σ_ｘ，ｐ ^２））はプールされた標準偏差（又は中央値絶対偏差）である。上記に示すように、Cohen's Dは、プールされた標準偏差（又は絶対偏差の中央値）に亘る参照分布中央値と臨床データ中央値との差として定義される。

図９Ａ～９Ｆは、例示的な実施形態による、図４Ａ～４Ｂに示すデータへの集団適応正規化の適用を示す。図４Ａに示される参照データ及び図４Ｂに示される臨床データについて、２５のCohen's D統計が計算され、１つ１つが各検体に対応する。図９Ａは、全てのサンプルにわたる各検体についてのCohen's D統計量を示す。この計算は、検体測定の正規性を高めるためにlog_１０変換空間で行うことができる。

例示的な実施形態では、検体がスケールファクタ決定プロセスに含まれるべきかどうかを決定するために使用される所定の距離閾値は、｜０．５｜のCohen’s Dである。このウィンドウの外の検体は、スケールファクタの計算から除外される。図９Aに示すように、これにより、検体１、４、５、８、１７、２１、及び２２がスケールファクタ計算から除外される。

図９Ｂは、サンプルにわたる各検体について計算されたスケールファクタを示す。集団適応正規化（ＰＡＮ）と前述の正規化方法との間の差異は、ＰＡＮにおいて、各サンプルが、スケールファクタ計算の間に同じ検体を含め／除外することである。ＰＡＮでは、全てのサンプルのスケールファクタは、残りの検体に基づいて決定される。この例では、スケールファクタは、残りの検体の検体スケールファクタの中央値又は平均によって与えられることができる。上述の適応正規化方法と同様に、スケールファクタは、個々の検体スケールファクタの平均又は中央値として決定することができる。中央値が使用される場合、図９Bに示されるデータのスケールファクタは０．８８７６である。

このスケールファクタは、図９Ｃに示されるように、正規化されたデータ値を生成するために、図４Ｂに示されるデータ値と乗算される。図９Ｄは、各検体についてのCohen’s D値及び各検体についてのｗｉｔｈｉｎ-Ｃｕｔｏｆｆ値を含む、スケールファクタ決定プロセスの第２の反復の結果を示す。

この反復のために、検体１、４、５、８、１６、１７、２０、及び２２は、スケールファクタ決定プロセスから除外されるべきである。第１の反復において除外された検体に加えて、第２の反復は、さらに、スケールファクタの計算から検体１６を除外する。次いで、上記の工程を繰り返して、各サンプルについてのスケールファクタ計算から検体を更に除去する。

ｉ番目の反復から削除された検体が、（ｉ－１）番目の反復と同じであり、すべてのサンプルのスケールファクタが収束したときに適応正規化（予め定義された閾値未満のスケールファクタの変化）の収束は発生する。この例では、収束は５回の反復を必要とする。図９Ｅは、５回の反復の各々におけるサンプルの各々に対するスケールファクタを示す。さらに、図９Ｆは、収束が起こり、すべてのスケールファクタが適用された後の正規化された検体レベルデータを示す。

本明細書に記載のシステム及び方法は、正規化のスケーリング態様に外れ値を含めながら、任意の外れ値検体レベルを識別し、スケールファクタ決定から前記外れ値を除外するために外れ値検出を実行する適応正規化プロセスを実施する。スケールファクタを計算し、スケールファクタを適用する特徴も、前の図に関してより詳細に説明される。さらに、外れ値分析を実行することによる１つ以上の検体レベルにおける外れ値検体レベルの除去は、図１～３に関して記載されるように実施され得る。それらの図及び本明細書の対応するセクションに記載されている外れ値分析方法は、対応する参照分布からの所定の距離閾値に基づいて検体レベルをフィルタリングする、距離に基づく外れ値分析である。

しかしながら、他の形態の外れ値分析もまた、外れ値検体レベルを同定するために利用され得る。例えば、局所外れ値因子（「ＬＯＦ」）などの密度ベースの外れ値分析を利用することができる。ＬＯＦは、分布内のデータ点の局所密度に基づく。各点の局所性はｋ個の最近傍で与えられ、その距離は密度の推定に用いられる。物体の局所密度をその近傍の局所密度と比較することによって、同様の密度の領域、ならびにそれらの近傍よりも低い密度を有する点を識別することができる。これらは、外れ値であると考えられる。

密度ベースの外れ値検出は、所与のノードからそのＫ個の最近傍（「Ｋ－ＮＮ」）までの距離を評価することによって実行される。Ｋ－ＮＮ法は、クラスタシステム内のすべてのクラスタについてユークリッド距離行列を計算し、次に、各クラスタの中心からそのＫ個の最近傍までの局所到達可能距離を評価する。前記距離行列の局所到達可能距離に基づいて、各クラスタについて密度が計算され、各データ点についての局所外れ値因子（「ＬＯＦ」）が決定される。ＬＯＦ値が大きいデータ点を外れ値候補とみなす。この場合、ＬＯＦは、その参照分布に関してサンプル中の各検体レベルについて計算することができる。

複数回の反復に亘って１つ以上の検体レベルを正規化するステップは、図１に関して前述したように、連続する反復間のスケールファクタの変化が所定の変化閾値以下になるまで、又は１つ以上の反復の量が最大反復値を超えるまで、追加の反復を実行することを含むことができる。

図１０は、例示的な実施形態による、検体レベルの適応正規化のための専用コンピューティング環境を示す。計算環境１０００は、一時的でないコンピュータ読み取り可能媒体であるメモリ１００１を含み、揮発性メモリ（例えば、レジスタ、キャッシュ、ＲＡＭ）、不揮発性メモリ（例えば、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなど）、又はこれら２つの何らかの組み合わせとすることができる。

図１０に示されるように、メモリ１００１は、検体レベルとそれらの対応する参照分布との間の統計的／数学的距離を決定するための距離決定ソフトウェア１００１Ａ、所定の距離閾値外である検体レベルを同定するための外れ値検出ソフトウェア１００１Ｂ、検体スケールファクタ及び全体スケールファクタを決定するためのスケールファクタ決定ソフトウェア１００１Ｃ、本明細書に記載される適応正規化技術をデータセットに適用するための正規化ソフトウェア１００１Ｄを記憶する。

メモリ１００１は、さらに、参照データ分布、参照データに関する統計的尺度、スケールファクタ及びブールデータ構造などの変数、適応正規化プロセスの各反復から得られる中間データ値又は変数を記憶するために使用することができる記憶装置１００１を含む。
メモリ１００１内に記憶されたすべてのソフトウェアは、コンピュータ読み取り可能命令として記憶することができ、それは、１つ以上のプロセッサ１００２によって実行されると、プロセッサが本明細書に記載する機能を実行するようにする。

プロセッサ１００２は、コンピュータ実行可能命令を実行し、実プロセッサ又は仮想プロセッサとすることができる。マルチプロセッシングシステムでは、複数のプロセッサ又はマルチコアプロセッサを使用して、コンピュータ実行可能命令を実行し、処理能力を向上させ、及び／又は特定のソフトウェアを並列実行することができる。

コンピューティング環境は、さらに、ネットワーク通信を監視し、コンピュータネットワーク又はコンピューティングシステム上の装置、アプリケーション、又はプロセスと通信し、ネットワーク上の装置からデータを収集し、コンピュータネットワーク内のネットワーク通信又はコンピュータネットワークのデータベースに格納されたデータ上のアクションを実行するために使用される、ネットワークインターフェースなどの通信インターフェース５０３を含む。通信インターフェースは、コンピュータ実行可能命令、オーディオ又はビデオ情報、又は変調データ信号中の他のデータなどの情報を伝達する。変調されたデータ信号は、信号内の情報を符号化するようにその特性の１つ又は複数が設定又は変更された信号である。限定ではなく例として、通信媒体には、電気、光学、RF、赤外線、音響、又は他の搬送波で実施される有線又は無線技術が含まれる。

コンピューティング環境１０００は、さらに、ユーザ（システム管理者など）がシステムに入力を提供し、ユーザに表示するための情報を表示又はその他の方法で送信することを可能にする入出力インターフェース１００４を含む。例えば、入出力インターフェース１００４は、設定及び閾値の構成、データセットのロード、及び結果の表示に使用することができる。

バス、コントローラ、又はネットワークなどの相互接続機構（図１０に実線で示す）が、コンピューティング環境１０００の構成要素を相互接続する。入出力インターフェース１００４は、入出力デバイスに結合することができる。入力デバイスは、キーボード、マウス、ペン、トラックボール、タッチスクリーン、又はゲームコントローラなどのタッチ入力デバイス、音声入力デバイス、スキャンデバイス、デジタルカメラ、リモコン、又はコンピューティング環境に入力を提供する別のデバイスとすることができる。出力デバイスは、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、又はコンピューティング環境１０００からの出力を提供する別のデバイスとすることができる。ディスプレイには、適応正規化プロセスを設定するためのオプションをシステム管理者などのユーザに提示するグラフィカルユーザーインタフェース（GUI）を含めることができる。

計算環境１０００は、磁気ディスク、磁気テープ又はカセット、ＣＤ－ＲＯＭ、ＣＤ－ＲＷ、ＤＶＤ、ＵＳＢドライブ、又は情報を記憶するために使用することができ、計算環境１０００内でアクセスすることができる他の任意の媒体のような、取り外し可能又は取り外し不可能な記憶装置を追加的に利用することができる。コンピューティング環境１０００は、セットトップボックス、パーソナルコンピュータ、クライアント装置、データベース又はデータベース、又は１つ以上のサーバ、例えば、ネットワーク化されたサーバのファーム、クラスタ化されたサーバ環境、又はコンピューティング装置及び／又は分散データベースのクラウドネットワークであることができる。

本明細書中で使用される場合、「核酸リガンド」、「アプタマー」、「ＳＯＭＡｍｅｒ」及び「クローン」は、標的分子に対して所望の作用を有する天然に存在しない核酸をいうために互換的に使用される。望ましい作用には、標的の結合、標的を触媒的に変化させること、標的を改変又は又は標的の機能的活性を改変する方法で標的と反応させること、（自殺阻害剤におけるように）標的に共有結合すること、及び標的と別の分子との間の反応を促進することが含まれるが、これらに限定されない。一実施形態では、作用は、標的分子に対する特異的結合親和性である。このような標的分子は、ワトソン／クリック塩基対形成又は三重らせん形成とは独立した機構を介してアプタマーに結合するポリヌクレオチド以外の三次元化学構造である。また、アプタマーは、標的分子によって結合される既知の生理学的機能を有する核酸ではない。所与の標的に対するアプタマーは、核酸の候補混合物から同定される核酸を含む。

アプタマーは、（a）候補混合物を標的と接触させ（候補混合物中の他の核酸と比較して標的に対して増加した親和性を有する核酸は、候補混合物の残りから分配され得る）、（b）増加した親和性核酸を候補混合物の残りから分配し、及び（c）増加した親和性核酸を増幅して、核酸のリガンド富化混合物を生じさせ、それによって標的分子のアプタマーが同定される方法による、標的のリガンド混合物である。親和性相互作用は、程度の問題であることが認識されるが、この文脈において、アプタマーのその標的に対する「特異的結合親和性」は、アプタマーが、一般に、混合物又はサンプル中の他の非標的成分に結合するよりもはるかに高い親和性でその標的に結合することを意味する。「アプタマー」、「ＳＯＭＡｍｅｒ」、又は「核酸リガンド」は、特定のヌクレオチド配列を有する核酸分子の１つの型又は種のコピーのセットである。アプタマーは、任意の適切な数のヌクレオチドを含み得る。「アプタマー」は、２つ以上のこのような分子セットを指す。異なるアプタマーは、同じ又は異なる数のヌクレオチドを有し得る。アプタマーは、ＤＮＡ又はＲＮＡであってよく、一本鎖、二本鎖、又は二本鎖もしくは三本鎖領域を含み得る。いくつかの実施形態において、アプタマーは、本明細書中に記載されるか、又は当該分野で公知のＳＥＬＥＸプロセスを使用して調製される。本明細書中で使用される場合、ＳＯＭＡｍｅｒ又は遅いオフレート修飾アプタマーは、改善されたオフレート特性を有するアプタマーをいう。ＳＯＭＡｍｅｒは、"ＭｅｔｈｏｄｆｏｒＧｅｎｅｒａｔｉｎｇＡｐｔａｍｅｒｓｗｉｔｈＩｍｐｒｏｖｅｄＯｆｆ－Ｒａｔｅｓ"と題する米国特許第７，９４７，４４７号に記載されている改良されたSELEX法を用いて生成することができる（その開示は、その全体が参照により本明細書に組み込まれる）。アプタマー－塩基プロテオミクスアッセイに関するさらなる詳細は、米国特許第７，８５５，０５４、７，９６４，３５６、７及び８，９４５，８３０、米国特許出願第１４／５６９，２４１号及びPCT出願PCT／US２０１３／０４４７９２に記載されている（これらの開示は、その全体が参照により本明細書に組み込まれる）。

［精度向上］
図１１は、３８の技術的反復検定についての全てのアプタマーベースのプロテオミクスアッセイ測定にわたる変動係数の中央値を示す。出願人は、１３回のアプタマーベースのプロテオミクスアッセイラン（品質管理（ＱＣ）サンプル）から３８回の技術的反復を行い、測定値の平均／中央値にわたり、測定値の標準偏差として定義される変動係数（CV）を、アプタマーベースのプロテオミックアッセイメニューに亘る各検体について計算した。ＡＮＭＬを使用して、出願人は、各サンプルを正規化し、その一方で、各サンプルが正規化プロセスの下で許容される反復の最大数を制御した。反復の中央値CVは、許容可能な反復の最大数が増加するにつれて減少したCVを示し、反復が収束することを許容されるにつれて増加する精度を示す。

［バイオマーカー識別の改善］
図１２は、最大許容反復に関する、サンプルについての性別特異的バイオマーカーに対するコルモゴロフ－スミルノフ統計量を示す。

出願人は、アプタマーに基づくプロテオミクスアッセイメニューにおいて知られている性特異的バイオマーカーの識別力を調べた。本出願人は、この検体間の分離の程度を定量化するために、５６９の雌及び４６０の雄サンプルの経験的分布関数間の距離を定量化するためのコルモゴロフ－スミノフ（Ｋ．Ｓ．）検定を計算した。Ｋ．Ｓ．距離＝１は、分布の完全な分離（良好な識別特性）を意味し、０は分布の完全な重複（不良な識別特性）を意味する。上記の例のように、出願人は、グループのＫ．Ｓ．距離を計算する前に、各サンプルが実行できる反復の数を制限した。このデータは、男性／女性の性別決定のためのバイオマーカーの識別特性が、サンプルが反復正規化プロセスにおいて収束することを可能にされるにつれて増加することを示す。

［ＡＮＭＬのＱＣサンプルへの適用］
６６２回（BI、Boｕｌｄｅｒにて）、２０６６ＱＣサンプルを用いて実施する。これらの反復は、４つの異なるＱＣロットを含む。図１３は、分析に使用した血漿及び血清についてのサンプルＩＤによるＱＣサンプルの数を示す。

正規化集団参照の新しいバージョンを生成した（ＡＮＭＬと一致させ、参照ＳＤに対する推定値を生成するため）。上記のデータは、V４正規化のための標準的な手順に従って、ハイブリダイゼーション正規化され、そして較正された。その時点で、それは、元の集団参照及び新しい集団参照の両方に対し、ＡＮＭＬを使用して（集団参照に対する正規化における適応及び最大尤度変化の両方による差を示す）正規化された中央値（参照の中央値の変化による差を示す）であった。

［正規化スケールファクタ］
第１の比較は、異なる正規化基準／方法間のスケールファクタの一致を調べることである。僅かな差しかない場合には、他のすべてのメトリックの良好な一致が期待される。図１は、血漿及び血清中のＱＣサンプルについてのスケールファクタを示し、これは、ＱＣ＿１７１０２５５（これについて、本出願人は、はるかに最大の反復数を有する）について、大部分について、大きな差異は存在しない（破線は、スケールファクタにおける０．１の差異を表す。したがって、差異は、ほとんど０．０５未満である）。

図１４は、中央値正規化及びＡＮＭＬを用いたＱＣサンプルスケールファクタの一致を示す。実線は同一性を示し、破線は同一性を上回る／下回る０．１の差を示す。

［ＣＶ（変動係数）］
次いで、我々は、正規化中央値及びＡＮＭＬにおいて、血漿及び血清サンプル中の対照サンプルについてＣＶ分解を計算した。図１５は、中央値正規化及びＡＮＭＬを用いた対照サンプルのＣＶ分解を示す。線は、プレート内（ｉｎｔｒａ）、プレート間（ｉｎｔｅｒ）、及び全体での各対照サンプルについてのＣＶの経験的累積分布関数を示す。ＡＮＭＬが対照サンプルの再現性を変化させないことを示す２つの正規化ストラテジーの間には、（もしあるとしても）識別可能な差はほとんどない。
［ＱＣ比率（参照に対する）］
ＡＮＭＬ後、ＱＣロットの各々について参照を計算し、これらの参照値を使用して、各ランにおける中央値ＱＣ値と比較する。血漿及び血清中のＱＣサンプルの経験的累積分布関数。図１６は、中央値正規化及びＡＮＭＬを用いた中央値ＱＣ比を示す。各ラインは、個々のプレートを示す。これらの比率分布は、我々が「良好である」分布を有する場合、ＡＮＭＬを使用した場合に分布があまり変化しなかったことを示す。一方、一対の異常な分布（明るい青色のプラズマ）は、ＡＮＭＬ下では幾分良好になる。テールはあまり影響を受けていないように思われるが、どちらの方法についても、それらの差及び比率と同様に、テールの％を下回るようにプロットすることを確実にする。図１７は、中央値正規化及びＡＮＭＬを用いたテール部におけるＱＣ比を示す。各ドットは個々のプレートを示し、黄色の線はプレート破損基準を示し、デルタプロットの点線は＋－０．５％であり、一方、比プロットの点線は０．９、１．１である。本出願人は、失敗に変化がないことを確認する（テール部において１５％を超えた唯一のプロットされたランはそこに残存し、プロットされなかった異常なものは異常なままである）。さらに、テール部における差異は、ほとんど全てのランについて０．５％をはるかに下回る。

［データセットへのＡＮＭＬの適用］
出願人は、正規化中の検体排除について２．０の一貫したマハラノビス距離カットオフを用いて、臨床（Covance）及び実験（タイムトゥスピン）データセットにおけるＳＳＡＮに対するＡＮＭＬの効果を比較した。

［タイムトゥスピン（time-to-spin）］
タイムトゥスピンの実験は、１８の固体を用いて行われた。６本のＫ２ＥＤＴＡ－血漿採血管の各々は、処理の前に、０、０．５、１．５、３、９、２４時間放置された。
、数千の検体は、信号の変化が処理時間の関数となることを示す。同一の検体は、制御されないプロトコル、又はSomaLogic収集プロトコルと一致しない処理プロトコルを用いて、臨床サンプルと類似した動きを示す。ＳＳＡＮからのスケールファクタをＡＬＭＮと比較した。図１８は、ＳＳＡＮ及びＡＮＭＬを用いたタイムトゥスピンのサンプルにおけるスケールファクタの一致を示す。各ドットは、個々のサンプルを示す。２つの方法の間には非常に良好な一致がある。

このデータセットは、次第に悪化するサンプル品質の下でも、同じ個体の複数の測定値の点で独特である。多くの検体信号は、タイムトゥスピンによって影響を受けるが、同様に影響を受けない信号も数千ある。増加するタイムトゥスピンに亘るこれらの測定の再現性は、複数の正規化スキーム（標準中央値正規化、単一サンプル適応中央値正規化、及び最大尤度による適応正規化）に亘って定量化することができる。本出願人は、タイムトゥスピンに亘って１８のドナーの各々についてCVを計算し、タイムトゥスピンに対するそれらの感度によって検体を分離した。図１９は、様々な正規化スキーム下での、タイムトゥスピンにおける、１８人のドナーに亘る検体ＣＶの中央値を示す。各ドットは、変化する正規化を横切る破線によって結合された１個の個体を示す。タイムトゥスピンに対する感度を示さない検体に対する期待は、６つの条件に亘って各ドナーについて高い再現性であるべきであり、したがって、適応正規化戦略は、CVを低下させるべきである。

ＡＮＭＬは、標準中央値正規化及びＳＳＡＮの両方に対して改善されたＣＶを示し、この正規化手順は、有害なサンプル処理アーチファクトに対して再現性を増加させていることを示す。逆に、検体は、６回のタイムトゥスピンの条件に亘って増幅されるタイムトゥスピンによって影響を受けた（図１９）。これは、適応正規化スキームが真の生物学的効果を増強するという以前の観察と一致する。この場合、サンプル処理アーチファクトは拡大されるが、多くの検体が影響を受ける慢性腎臓病のような他の場合において、我々は、影響を受けた検体についての効果サイズの同様の拡大を期待する。

[Ｃｏｖａｎｃｅ（コーヴァンス）]
次に、本出願人は、集団参照を導出するために使用されたコーヴァンス血漿サンプルにおいてＡＮＭＬを検定した。単一サンプル適応スキームを用いて得られたスケールファクタの比較が、希釈群によって図２０に示されている。図２０は、ＳＳＡＮ及びＡＮＭＬを用いたコーヴァンス（血漿）からのスケールファクタ間の一致プロットを示す。各ドットは個体を示し、実線は同一性を示す。２つの方法の間で非常に良好な一致が再び得られる。

正規化のゴールは、アプタマーベースのプロテオミクスアッセイの間に生じる相関ノイズを除去することである。図２１は、ＡＮＭＬの前後のコーヴァンスサンプルについての全ての一対の検体相関の分布を示す。赤色曲線は、検体間の負の相関がほとんどないか全くない、明確な正の相関バイアスを示す較正データの相関構造を示す。正規化後、この分布は、正及び負の相関を有する検体の異なる集団に再度中心合わせ（re-centered）される。

次に、コーヴァンス喫煙状況を用いた洞察の生成及び検定について、ＡＮＭＬがＳＳＡＮとどのように比較されたかを調べた。図２２は、いくつかの方法によって正規化されたデータから得られた分布の比較を示す。これらの２つの検体についてのタバコ使用者（点線）及び非使用者（実線）についての分布は、ＡＮＭＬとＳＳＡＮとの間で実質的に同一である。図２２に示すアルカリホスファターゼの分布は、喫煙状況の最高の予測因子であり、ＡＮＭＬ下で良好な識別を示す。

本出願人は、ＳＡＭＮ正規化データ及びＡＮＭＬ正規化データ下の１０検体の複雑さを用いて喫煙状態を予測するためのロジスティック回帰分類子を、８０／２０／検定分割を用いて訓練した。各正規化の性能計測の要約を図２３に示す。図２３は、ＳＳＡＮ及びＡＮＭＬで正規化されたデータを使用するホールドアウト検定セットの喫煙論理回帰分類子モデルの計測を示している。ＡＮＭＬの下では、喫煙予測の性能に損失はなく、潜在的にわずかな利益が見られる。

最大尤度による適応正規化は、基礎となる検体分布の情報を使用して、単一サンプルを正規化する。適応スキームは、影響を受けていない検体からのバイアス信号からの大きな事前分析変動を伴う検体の影響を防ぐ。ＡＮＭＬと単一サンプル正規化との間のスケールファクタの高い一致は、小さな調整が行われている間に、それらが再現性及びモデル性能に影響を及ぼし得ることを示す。さらに、対照サンプルからのデータは、プレートの破損又はＱＣ及び校正ーサンプルの再現性に変化を示さない。

[ＰＡＮのデータセットにおける適用]
分析は、ハイブリダイゼーション正規化され、内部的に校正されたデータから開始する。以下の全ての研究において、特に断らない限り、適応正規化法は、BH多重検定補正と共に、定義された群における差を検出するためにStudent's T検定を使用する。典型的には、正規化は、挙動を調べるために異なるカットオフ値で繰り返される。すべての場合において、適応正規化は、標準中央値正規化スキームと比較される。

[Ｃｏｖａｎｃｅ(コーヴァンス)]
コーヴァンスは、５つの異なる収集サイト（サンディエゴ、ホノルル、ポートランド、ボイシ、及びオースチン／ダラスに亘って健康な個体から血漿及び血清サンプルを収集した。テキサスサイトからの１つのサンプルのみがアッセイされ、従って、この分析から取り除かれた。各行列についての１６７コーヴァンスのサンプルをアプタマーベースのプロテオミクスアッセイ（V３アッセイ；５kメニュー）で泳動した。ここで、指示されたグループは、最初の４つの収集サイトによって定義される。

適応正規化を用いてコーヴァンス血漿サンプル中で除去された検体の数は、２５００以下、すなわち検体メニューの半分であるが、コーヴァンス血清サンプルについての測定は、有意な量のサイトバイアスを示さず、２００未満の検体が除去された。検体測定ｃ-ＲＡＦのための収集サイトによる経験的累積分布関数（ｃｄｆｓ）は、血漿測定について観察されたサイトバイアス、及び血清におけるそのようなバイアスの欠如を示す。図２４は、収集サイトによって着色された血漿及び血清サンプルにおけるｃ-Ｒａｆ測定のための経験的CDFを示す。血漿サンプル分布（左）における顕著な差は、血清サンプル（右）において崩壊している。適応正規化は、統計学的検定によって問題があると思われる検定内の検体を除去するだけであり、したがって、コーヴァンスの血漿及び血清正規化は、観察された差に感度よく合わせられる。

中央値正規化を伴う中心的な仮定は、臨床転帰（すなわち、この場合収集サイト）が、比較的少数の検体（例えば、＜５％）に影響を及ぼし、検体信号にバイアスを導入することを回避することである。この仮定は、コーヴァンス血清測定について十分に当てはまり、コーヴァンス血漿測定については明らかに有効ではない。本出願人らの標準手順からの中央値正規化スケールファクタと適応正規化のそれとの比較は、血清について、適応正規化が標準スキームについてのスケールファクタを忠実に再現することを明らかにする。しかし、血漿については、多くの検体測定値は、標準的な正規化手順を使用することによって導入されるサイト依存性のバイアスを有する。図２５は、血漿（上）及び血清（下）における標準中央値正規化及び適応中央値正規化を用いたスケールファクタの一致プロットを示す。血漿中では、数千の検体が、適応スキームを用いて説明され、補正される有意なサイトバイアスを示す。血清において、２００未満の検体は、２つの正規化スキームの間でスケールファクタの変化をほとんど又は全くもたらさない有意なサイトバイアスを示す。個々の点は、収集サイトによって着色された各サンプルについてのスケールファクタを表す。黒い線は同一性を示す。

例えば、血漿中の４つのサイトの間で異なる信号を伝達しない検体を考える。ホノルル、ポートランド、及びサンディエゴのサンプルにおいてより高い信号伝達をする多数の他の検体に起因して、標準中央値正規化後のこれらの検体についての測定は、ボイシのサイトについて膨張され、一方、同時に、残りの３つのサイトについて収縮され、データに明確なアーチファクトを導入する。これは、図２５において、対角線の下に現れるボイズサンプルについての血漿スケールファクタ、対角線の上に残りのものが現れることにより観察される。図２６において、標準中央値正規化の誤適用が誘発し得るバイアスを説明するために、サイト差によって影響されない検体についてのサイトによるＣDFが、標準正規化スキーム及び適応正規化について示される。適応正規化は、収集サイトバイアスに起因して正規化中にデータにアーチファクトが導入されることを阻止するために良好に動作する。強いサイトバイアスを示す検体については、適応正規化は差を保存するが、標準的な中央値正規化はこれらの差を減衰させる傾向がある（図２６のc－RAF参照）。ボイシを除くすべてのサイトの中央値RFUは、標準と比較して適応正規化セットの方が高い。

コーヴァンスの結果は、適応正規化アルゴリズムの２つの重要な特徴を示す。
（１）収集サイトバイアス又は生物学的バイアスのないデータセットについて、適応正規化は、血清測定について示されるように、標準正規化中央値の結果を忠実に再現する。複数のサイト又は分析前変動又は他の臨床共変量が多くの検体測定値に影響を及ぼす状況では、適応正規化は、スケールファクタ決定中に変更された測定値を除去することによって、データを正しく正規化する。スケールファクタが計算されると、サンプル全体がスケーリングされる。

実際には、中央値正規化におけるアーチファクトは、正規化中に生成されたスケールファクタのセットにおけるバイアスを探すことによって検出され得る。標準正規化中央値では、４つの収集サイト間でスケールファクタ分布に有意差があり、ポートランドとサンディエゴはボイズとホノルよりも類似している。図２７は、希釈及びコーヴァンス収集サイトによる血漿サンプル中央値正規化スケールファクタを示す。サイトによるスケールファクタのバイアスは、１％及び４０％混合物における測定で最も明白である。サイト別のスケールファクタの分布に関する簡単なＡＮＯＶＡ検定は、２．４×１０^-7及び４．３×１０^-6のp値での１％及び４０％希釈測定について統計的に有意な差を示し、一方、０．００５％希釈における測定は、０．４５のp値でバイアスがないことを示す。適応正規化のために定義されたグループ間のスケールファクタバイアスのためのＡＮＯＶＡ検定は、バイアスを導入することなく正規化を評価するための重要なメトリックを提供する。

これは、図２８に示されており、ここでは、適応正規化における厳密さを増大させるために、q値カットオフを０．０（標準正規化中央値）から、０．０５、０．２５、及び０．５とした、正規化スケールファクタの中央値の分布が示されている。０．０５カットオフでは、２５５７（～５０％）の検体が、収集サイトとの可変性を示すものとして同定された。カットオフを０．２５及び０．５に増加させると、３４７９及び４１３３の検体が同定される。しかしながら、カットオフを増加させることが中央値スケールファクタにおけるサイト特異的差異を除去する程度は無視できる。１％希釈における測定は、スケールファクタにおけるサイト特異的差異をもはや示さず、４０％希釈におけるサイトバイアスは、q値において４logだけ有意に減少し、そして０．００５％分布は、変化せず、そして最初にバイアスされなかった。

［サンプル処理／タイムトゥスピン］
個体当たり複数のチューブを有する１８個体から採取したサンプルを、室温で０、０．５、１．５、３、９、及び２４時間回転させる前に載置させた。サンプルは、標準的なアプタマーベースのプロテオミクスアッセイを使用して測定された。

特定の検体の信号は、サンプル処理アーチファクトによって劇的に影響される。具体的には、血漿サンプルについては、スピン前にサンプルを置いたままにしておく持続時間は、迅速に処理されるサンプルの１０倍を超えて信号を増加させることができる。図２９は、タイムトゥスピンの関数としてのＲＦＵにおける有意な差を示す検体についての典型的な挙動を示す。

タイムトゥスピンが増加するにつれて信号が増加することが見られる検体の多くは、血小板活性化に依存する検体として同定されている（データは示さず）。正規化の中央値内でこのような検体についての測定値を使用することは、プロセスに劇的なアーチファクトを導入し、タイムトゥスピンによって影響されないサンプル全体を負に変化させることができる。逆に、図２９は、タイムトゥスピンに影響される正規化手順に検体を含めることによって測定値が歪められる可能性がある、タイムトゥスピンに感受性のないサンプル検体も示す。残りの測定値の完全性を保証するために、正規化手順から、何らかの理由で異常な測定値を除去することが重要である。

このタイムトゥスピンデータセットに亘る標準正規化中央値は、タイムトゥスピングループにわたる中央値正規化スケールファクタにおける有意且つ系統的な差をもたらす。図３０は、タイムトゥスピンに関し、希釈による正規化スケールファクタの中央値を示す。スピン前に長期間載置されたサンプルは、より高いＲＦＵ値をもたらし、より低い中央値スケールファクタをもたらす。

０．００５％希釈のスケールファクタは、１％及び４０％希釈よりもタイムトゥスピンの影響がはるかに少ない。これは、おそらく２つの明らかに異なる理由によるものであろう。１つめの理由は、血小板中にも存在する高度に豊富な循環検体の数が比較的少なく、したがって、０．００５％希釈液中の血漿検体が血小板活性化によって影響を受けることが少ないことである。さらに、極端な処理時間は、サンプル中の細胞死及び溶解をもたらし、極めて基礎的な核蛋白質（例えば、ヒストン）を放出し、ネガティブコントロール上の信号によって証明されるように、非特異的結合（ＮＳＢ）を増加させ得る。

大きな希釈のために、ＮＳＢの効果は、０．００５％希釈では観察されない。１％及び４０％希釈についての正規化スケールファクタの中央値は、スピン時間に対して非常に強いバイアスを示す。スピン時間の増加に伴う信号の顕著な増加のために、短いタイム時間サンプルは、１よりも高いスケールファクタを有し、信号は中央値正規化によって増加される。そして、より長いタイムトゥスピンを有するサンプルは、１よりも低いスケールファクタを有し、信号は減少する。正規化スケールファクタにおけるこのような観察されたバイアスは、コーヴァンスサンプルにおいて上記で例示されたものと同様に、タイムトゥスピンによって影響されないこれらの検体についての測定におけるバイアスを生じる。

多くの検体は、血漿サンプル中の血小板活性化によって影響を受ける。このため、これらのデータは、適応正規化法の極端な検定を表す。影響を受けた検体の数及び効果サイズの大きさの両方が非常に大きいからである。我々は、我々の適応正規化手順が、中央値正規化スケールファクタとタイムトゥスピンとの間のこの固有の相関を除去することができるかどうかを検定した。

Kruskal－Wallisを用いて血漿のタイムトゥスピンサンプルに対して適応正規化を実行し、有意差を検定し、ＢＨを用い多重比較のための制御を行った。Bonferroni多重比較補正も使用し、同様の結果を得た（図示せず）。カットオフp＝０．０５、１０２０、又は２３％において、検体は、タイムトゥスピンと共に有意な変化を示すと特定された。カットオフを０．２５、及び０．５に増加させると、有意な検体の数がそれぞれ１３４４及び１５９８に増加する。中央値正規化スケールファクタ対タイムトゥスピンにおける適応正規化の効果を図３１に纏めた。

０．００５％希釈内の検体は、標準中央値正規化でバイアスがなく、それらの値は、適応正規化によって影響を受けなかった。全てのカットオフレベルにおいて、１％希釈のためのスピン時間によるスケールファクタの変動性は除去されるが、４０％希釈においては、それが劇的に減少されているにもかかわらず、いくらかの残留バイアスが依然として存在する。残存バイアスが血小板活性化及び／又は細胞溶解によって誘発されたＮＳＢのせいである可能性を示唆する証拠がある。

要約すると、適応正規化のために０．２５というかなり厳しいカットオフを使用することは、標準正規化スキームにおいて観察されるバイアスを減少させるサンプルセットにわたる正規化をもたらすが、全てのアーチファクトを完全には軽減しない。これは、ここでは交絡因子であるＮＳＢに起因し得、適応正規化は、平均してこの信号を除去し、これにより、スケールファクタにおける残りのバイアスを生じるが、検体信号におけるバイアスを潜在的に除去する。

[ＣＫＤ/ＧＦＲ（ＣＬ-13-069）]
ＰＢＡＮの有用性の最終例には、おそらく一貫した収集であるが、対象となる基礎的な生理学的状態である慢性腎臓病（ＣＫＤ）のために、極めて大きな生物学的作用を有する単一サイトからのデータセットが含まれる。

３５７の血漿サンプルを含むＣＫＤ研究を、アプタマーベースのプロテオミクスアッセイ（Ｖ３アッセイ；１１２９-plexメニュー）で行った。サンプルを、健康な個体についてＧＦＲが＞９０mls／min／１．７３m^２の範囲で、腎機能の尺度としての糸球体濾過速度（ＧＦＲ）と共にサンプルが収集された。ＧＦＲは、採血前又は採血後のいずれかにイオヘキソールを用いて各サンプルについて測定した。本出願人は、イオヘキソール処理前／後の分析において区別を行わなかったが、対になったサンプルを分析から除いた。

ＧＦＲの減少は、ほとんどの検体にわたる信号の増加をもたらし、したがって、標準的中央値正規化は問題となる。適応変数は現在では連続的であるため、データをＧＦＲ率（９０超えの健常例、６０～９０の軽症例、４０～６０の症例、０～４０の重症例）で細分化し、これらの群を適応正規化手順に含めて解析した。
標準的な正規化中央値を用いて、全希釈を通じた疾患（ＧＦＲ）状態別の正規化尺度の中央値因子の有意差を観察し、ＧＦＲと血漿中の蛋白質濃度との間に強い逆相関があることを示している。図３２は、ＧＦＲ値によって分割された希釈及び疾患状態による標準正規化スケールファクタの中央値を示す。この効果は、３つの希釈液全てに存在するが、０．００５％混合液で最も弱く、観察されたバイアスのいくつかは、上記の例のようにＮＳＢによるものであることを示唆している。

疾患関連の指示された群及びp＝０．０５カットオフでの適応正規化を使用して、７３８（１２１１のうち）、又は６１％の検体測定値を正規化中央値から除外した。正規化から除去された検体の数は、p＝０．２５及びp＝０．５でそれぞれ１０８１（８９％）及び１１４７（９５％）に増加する。２つの他の研究におけるように、適応正規化は、p＝０．０５の保存的カットオフ値を使用して、０．００５％及び１％希釈における疾患重症度とのスケールファクタの相関を除去したが、残存するが有意に減少した相関は４０％希釈内に残った。p＝０．５において、我々は、全てのＧＦＲバイアスを除去したが、中央値の正規化から全ての検体のほぼ９５％を除外したという犠牲を払った。図３３は、標準中央値正規化（上）及びカットオフによる適応正規化による希釈及び疾患状態による中央値正規化スケールファクタを示す。

標準中央値正規化の仮定が無効である場合、標準中央値正規化を使用してデータにアーチファクトが導入される。検体測定値の大部分がＧＦＲと相関するこの極端な場合には、標準中央値正規化は、すべての測定値が同じ基礎となる分布から引き出されるように見えるようにすることを試み、したがって、ＧＦＲとの検体相関を除去し、分析の感度を低下させる。ＣＫＤ中のより高い信号伝達検体を「補正する」結果として、生物学によって影響されない検体信号を移動させることによって、さらなる歪みが導入される。これらの歪みは、真の生物学的信号とは反対に、蛋白質レベルとＧＦＲとの間に正の相関を有する検体として観察される。

図３４は、これを、種々の正規化手順について、全ての検体とＧＦＲ (log/log)とのPearson相関のＣＤＦと共に示す。標準中央値正規化（HybCalMed）は、分布を０にシフトさせ、検体信号とＧＦＲとの間に偽陽性相関を導入する。適応正規化を使用すると、選択したカットオフ値の関数としてこの効果が減少する。

ＧＦＲと検体レベルとの間の真の生物学的相関を保存することに加えて、適応正規化はまた、図３１に示されるように、アプタマーベースのプロテオミクスアッセイにおける相関ノイズから生じるアッセイ誘導蛋白質－蛋白質相関を除去する。非正規化データ、標準中央値正規化及び適応正規化についてのＣＫＤデータセットについての蛋白質間ピアソン相関の分布を図３５に示す。

正規化されていないデータは、～０．２を中心とし、～－０．３～＋０．７５の範囲の蛋白質間相関を示す。正規化されたデータでは、これらの相関は、０．０及び－０．５から＋０．５の範囲にかなり集中している。多くの疑似相関は適応正規化によって除去されるが、適応正規化が蛋白質レベル及びＧＦＲとの生理学的相関を保存することをすでに実証しているので、意味のある生物学的相関は保存されている。

［ＰＢＡＮ法分析］
集団ベースの適応正規化の使用は、データセットに関連するメタデータに依存する。実際には、臨床変数、アウトカム、又は収集プロトコルが多数の検体測定に影響を及ぼす場合、標準的なデータワークアッププロセスから分析ツールに正規化を移動させる。本出願人は、分析前の変動ならびに極端な生理学的変動を有する検定を検討し、この手順は、性能の尺度としてスケールファクタにおけるバイアスを使用して良好に機能する。

アプタマーベースのプロテオミクスアッセイデータ標準化は、ハイブリダイゼーション標準化、プレートスケーリング、キャリブレーション、及び標準中央値標準化からなり、おそらく、ソマロジックサンプル収集及び処理プロトコルに十分に準拠したものを使用して、収集され、社内で実行されるサンプルに十分である。コーヴァンス検定で使用された４つのサイトのように、遠隔で収集されたサンプルについては、サンプルが有意なサイトの差異（おそらくサイト間の匹敵するサンプル集団からのもの）を示すことができるので、この標準化プロトコルは当てはまらない。各臨床サンプルセットは、品質管理ステップとして、正規化スケールファクタの中央値におけるバイアスについて検査される必要がある。このようなバイアスを探索する指標には、標準的な正規化のための基本的な仮定に違反する可能性のある他の臨床的変量と同様に、既知であれば明確なサイトを含めるべきである。

コーヴァンスの例は、適応正規化方法の能力を示す。血清検体の場合、標準正規化尺度の中央値の因子にサイト依存性のバイアスはほとんど観察されず、適応正規化手順は標準正規化の中央値の結果を本質的に再現する。しかし、コーヴァンス血漿サンプルの場合、標準正規化スケールファクタの中央値に極端なバイアスが観察された。適応正規化手順は、収集差によって影響されない検体測定値にアーチファクトを導入することなく、データを正規化する結果となる。適応正規化手順の力は、バイオマーカーがほとんどない十分に収集されたサンプルからのデータ、ならびに重篤な収集又は生物学的効果を有する研究からのデータを正規化する能力にある。この方法は、影響を受ける検体のみを除外しながら、関心のある測定基準によって影響を受けないすべての検体を含むように容易に適応する。これにより、適応正規化技術は、ほとんどの臨床研究への適用に非常に適したものとなる。

正規化アーチファクトをアプタマーベースのプロテオミクスアッセイデータに導入するのを防ぐことに加えて、適応正規化方法は、生のアプタマーベースのプロテオミクスアッセイデータにおいて観察される相関ノイズによる偽相関を除去する。このことは、非正規化相関が０．０を中心とする一方で、蛋白質レベル及びＧＦＲとの重要な生物学的相関が十分に保存されているＣＫＤデータセットにおいて十分に示されている。
最後に、適応正規化は、収集サイトに亘って一致しないか、又は疾患状態と強く相関する検体を正規化計算から除去することによって機能するが、そのような差は、正規化後に保存され、さらには増強される。この手順は、収集サイトのバイアス、又はＧＦＲに起因する蛋白質レベルを「補正」しない。むしろ、このような大きな差異効果が、データ中にアーチファクトを導入し、そして蛋白質シグネチャーを破壊するので、正規化の間に除去されないことを確実にする。逆も真であり、殆どの差は適応正規化後に強調され、一方、未分化測定はより一貫して行われる。

［結論］
出願人は、少数の検体（例えば、測定値の５％未満）を含む生物学的応答を有する一貫して収集されたサンプルを用いて、データセットの標準正規化を再現するロバストな正規化手順（集団ベースの適応正規化、aka PBAN)を開発した。サイト依存性のバイアス（分析前の変動）を有する収集物について、又は多くの検体が影響を受ける臨床集団の研究について、適応正規化手順は、意図しないサンプルバイアスに起因するアーチファクトの導入を防ぎ、そして生物学的応答を弱めない。ここに提示された分析は、正規化の間、主要な臨床変数もしくは収集サイト、又はその両方を使用して正規化を導くための適応正規化の使用を支持する。

本明細書に記載される３つの正規化技術は、それぞれの利点を有する。適切な手技は、利用可能な臨床データ及び参考データの程度に依存する。例えば、ＡＮＭＬは、参照集団に対する検体測定値の分布が既知である場合に使用することができる。さもなければ、ＳＳＡＮは、サンプルを個別に正規化するための近似として使用されることができる。さらに、集団適応正規化技術は、サンプルの特定のコホートを正規化するために有用である。

適応プロセスと反復プロセスとの組み合わせは、サンプル測定が、バイアススケールファクタからの参照分布外の検体測定の潜在的な影響なしに、参照分布の周りに再センタリングされることを確実にする。

記載された実施形態を参照して本発明の原理を記載し、図示したが、記載された実施形態は、そのような原理から逸脱することなく、配置及び詳細において修正され得ることが認識されるであろう。ソフトウェアで示される実施形態の要素は、ハードウェアで実現することができ、その逆も可能である。

本発明の原理を適用することができる多くの可能な実施形態を考慮して、本発明は、以下の特許請求の範囲及びその均等物の範囲及び精神内に入ることができるようなすべての実施形態を本発明として請求する。

Claims

１つ以上のサンプル中の検体レベルの適応正規化のために１つ以上のコンピューティングデバイスによって実行される方法であって、
１つ以上のコンピューティングデバイスのうちの少なくとも１つによって、１つ以上のサンプル中で検出された１つ以上の検体に対応する１つ以上の検体レベルを受信し、各検体レベルは、前記１つ以上のサンプル中の前記検体の検出された量に対応するステップと、
複数回の反復に亘って１つ以上の検体レベルを正規化し、正規化は、各反復について、前記１つ以上の検体レベル中の任意の外れ値検体レベルを除去し、前記１つ以上の検体レベル中の少なくとも１つの残りの検体レベルの少なくとも一部に基づいてスケールファクタを計算し、前記１つ以上の検体レベルにスケールファクタを適用することによって行われるステップと
を備え、
前記１つ以上の検体レベルにおける外れ値検体レベルは、各検体レベルと、参照データセットにおけるその検体の対応する参照分布との間の外れ値分析に少なくとも部分的に基づいて決定される方法。
前記外れ値分析は、距離ベースの外れ値分析を含む、請求項１に記載の方法。
前記外れ値分析は、密度ベースの外れ値分析を含む、請求項１に記載の方法。
前記複数回の反復に亘って１つ以上の検体レベルを正規化することは、連続する反復間のスケールファクタの変化が所定の変化閾値以下になるまで、又は１つ以上の反復の量が最大反復値を超えるまで、追加の反復を実行することを含む、請求項１～３のいずれか１項に記載の方法。
１つ以上のサンプル中の検体レベルの適応正規化のためのコンピュータ実行方法であって、その方法は、
１つ以上のサンプル中で検出された１つ以上の検体に対応する１つ以上の検体レベルを受け取り、各検体レベルは、前記１つ以上のサンプル中の前記検体の検出された量に対応するステップと、
連続する反復間のスケールファクタの変化が所定の変化閾値以下になるまで、又は１つ以上の反復の量が最大反復値を超えるまで、複数回の反復に亘ってスケールファクタを前記１つ以上の検体レベルに反復的に適用することを反復するステップと
を含み、
前記複数回の反復における各反復は、
前記１つ以上の検体レベルにおける各検体レベルと、参照データセットにおける前記検体の対応する参照分布との間の距離を決定するステップと、
対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいてスケールファクタを決定するステップと、
前記スケールファクタを適用することによって１つ以上の検体レベルを正規化するステップと
を含む、コンピュータ実行方法。
前記１つ以上の検体レベルにおける各検体レベルと、前記参照データセットにおける前記検体の対応する参照分布との間の距離を決定することは、各検体レベルと、前記参照データセット内の前記検体の対応する参照分布との間のマハラノビス距離の絶対値を決定するステップを含む、請求項５に記載の方法。
前記１つ以上の検体レベルにおける各検体レベルと、前記参照データセットにおける前記検体の対応する参照分布との間の距離を決定することは、各検体レベルと、前記参照データセット内の前記検体の対応する参照分布の平均又は中央値との間の標準偏差の量を決定することを含む、請求項５に記載の方法。
前記所定の距離は、０．５～６の範囲の値を含む、請求項５～７のいずれか１項に記載の方法。
前記所定の距離は、１～４の範囲の値を含む、請求項５～８のいずれか１項に記載の方法。
前記所定の距離は、１．５～３．５の範囲の値を含む、請求項５～９のいずれか１項に記載の方法。
前記所定の距離は、１．５～２．５の範囲の値を含む、請求項５～１０のいずれか１項に記載の方法。
前記所定の距離は、２．０～２．５の範囲の値を含む、請求項５～１１のいずれか１項に記載の方法。
対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいて前記スケールファクタを決定するステップは、
対応する参照分布から所定の距離内にある各検体レベルの検体スケールファクタを決定するステップであって、前記検体スケールファクタは、前記検体レベルと、対応する参照分布の平均値又は中央値とに少なくとも部分的に基づいて決定されるステップと、
それら対応する参照分布から所定の距離内にある検体レベルに対応する検体スケールファクタの平均又は中央値のいずれかを計算することによってスケールファクタを決定するステップと
を含む、請求項５～１２のいずれか１項に記載の方法。
それら対応する参照分布から所定の距離内にある検体レベルに少なくとも部分的に基づいて前記スケールファクタを決定するステップは、それら対応する参照分布から所定の距離内にある検体レベルが、対応する参照分布の一部である確率を最大にするスケールファクタの値を決定することを含む、請求項５～１２のいずれか１項に記載の方法。
各検体レベルが対応する参照分布の一部である確率が、前記スケールファクタ、前記検体レベル、前記対応する参照分布の標準偏差、及び前記対応する参照分布の中央値に少なくとも部分的に基づいて決定される、請求項１４に記載の方法。
前記後続の反復の間の前記スケールファクタの変化は、パーセンテージ変化として測定され、前記所定の変化閾値は、０パーセントと４０パーセントとの間の値を含む、請求項４～１５のいずれか１項に記載の方法。
前記所定の変化閾値は、０％と２０％との間の値を含む、請求項４～１６のいずれか１項に記載の方法。
前記所定の変化閾値は、０％と１０％との間の値を含む、請求項４～１７のいずれか１項に記載の方法。
前記所定の変化閾値は、０％と５％との間の値を含む、請求項４～１８のいずれか１項に記載の方法。
前記所定の変化閾値は、０％と２％との間の値を含む、請求項４～１９のいずれか１項に記載の方法。
前記所定の変化閾値は、０パーセントと１パーセントとの間の値を含む、請求項４～２０のいずれか１項に記載の方法。
前記所定の変化閾値は、０パーセントを含む、請求項４～２１のいずれか１項に記載の方法。
前記最大反復値は、１０回の反復、２０回の反復、３０回の反復、４０回の反復、５０回の反復、１００回の反復、又は２００回の反復のうちの１つを含む、請求項４～２２のいずれか１項に記載の方法。
前記スケールファクタは、前記少なくとも１つの残りの検体レベルを、それらの対応する参照分布の中央値又は平均値に正規化することによって計算される、請求項１～４のいずれか１項に記載の方法。
前記残りの検体レベルがそれらの対応する参照分布の一部である確率を最大化することによって前記スケールファクタが計算される、請求項１～４のいずれか１項に記載の方法。
前記１つ以上のサンプルが生物学的サンプルを含む、請求項１～２５のいずれか１項に記載の方法。
前記生物学的サンプルが、血液サンプル、血漿サンプル、血清サンプル、脳脊髄液サンプル、細胞溶解物サンプル、又は尿サンプルのうちの１つ以上を含む、請求項２６に記載の方法。
前記１つ以上のサンプル中で検出された前記１つ以上の検体に対応する前記１つ以上の検体レベルが、前記１つ以上のサンプル中で検出された複数の検体に対応する複数の検体レベルを含む、請求項１～２７のいずれか１項に記載の方法。
１つ以上の検体が、蛋白質検体、ペプチド検体、糖検体、又は脂質検体のうちの１つ以上を含む、請求項１～２８のいずれか１項に記載の方法。
各検体レベルが、前記検体の結合パートナーを１つ以上のサンプルに適用することに基づいて決定され、
前記結合パートナーの検体への結合は、測定可能な信号を生じさせ、
前記測定可能な信号は、前記検体レベルを生じさせる、請求項１～２９のいずれか１項に記載の方法。
前記結合パートナーが抗体又はアプタマーである、請求項３０に記載の方法。
各検体レベルが、１つ以上のサンプルの質量分析に基づいて決定される、請求項１～３１のいずれか１項に記載の方法。
前記１つ以上のサンプルが複数のサンプルを含み、前記１つ以上の検体に対応する１つ以上の検体レベルが、各検体に対応する複数の検体レベルを含み、
前記１つ以上の検体レベル内の各検体レベルと、前記参照データセット内の前記検体の対応する参照分布との間の距離を決定するステップが、
Student's T検定、コルモゴロフ‐スミノフ検定、又は各検体に対応する複数の検体レベルと、参照データセット中の各検体の対応する参照分布との間のCohenのD統計量を決定することを含む、請求項１～３２のいずれか１項に記載の方法。
１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、請求項１～３３のいずれか１つによる方法を実行させるコンピュータプログラム。
請求項１～３３のいずれか１項に記載の方法を実行するように構成された装置。