JP2008533558A - 遺伝子型分析のための正規化方法 - Google Patents

遺伝子型分析のための正規化方法 Download PDF

Info

Publication number
JP2008533558A
JP2008533558A JP2007555177A JP2007555177A JP2008533558A JP 2008533558 A JP2008533558 A JP 2008533558A JP 2007555177 A JP2007555177 A JP 2007555177A JP 2007555177 A JP2007555177 A JP 2007555177A JP 2008533558 A JP2008533558 A JP 2008533558A
Authority
JP
Japan
Prior art keywords
analysis
signal values
sample
data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007555177A
Other languages
English (en)
Inventor
ジェフリー エー. マークス,
Original Assignee
アプレラ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アプレラ コーポレイション filed Critical アプレラ コーポレイション
Publication of JP2008533558A publication Critical patent/JP2008533558A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Complex Calculations (AREA)

Abstract

アレイおよび他の高密度分析において、データポイント間および/またはデータセット間のプラットフォーム変動が、多くの理由で生じ得る。これらの変動を扱うための方法およびデータを、期待分布または所望される分布に一致させることに用いられ得る補正因子を生成する方法が開示される。該方法は、現存するデータ分析アプローチおよびソフトウェアアプリケーションに共に動作するように適合され得ることにより、下流側の分析を改良する。

Description

本教示は、広く、遺伝子分析の分野に関し、さらに特に、遺伝子型分析の正規化の方法に関する。
オリゴヌクレオチドマイクロアレイおよびマルチプレックスPCRアッセイのような高密度分析プラットフォームは、複雑な生物学的サンプルの研究に広く使用される。これらの技術は、実験における使用のために適合され、複数のサンプルからの非常に多くの遺伝子またはタンパク質は、比較されおよび/または評価される。さらに、これらの技術は種々のエリアにおける適用を見出す。種々のエリアには、発現プロファイリング、シーケンシング、突然変異分析、遺伝子型、および生物/疾病同定を含む。通常は、蛍光、放射性または化学発光ラベル/タグが、観測された信号強度ベースで検出および定量のためのメカニズムとして使用される。数千ではなくとも数百の異なるターゲットが、この方法で同時に評価されるが、データ分解能および分析は、しばしば、非線形のスペクトルシフトを含むサンプルごとのばらつきによって混乱させられる。この問題は、複数のサンプルまたは実験にわたって、データを比較することを試みる場合に、特に明らかである。従来の正規化およびスケーリング方法は、比較の分析において使用され得るように未加工(raw)データを調節するが、それは、量的な精度を減らし、全体としての結果の信頼性を減らす、望ましくないエラーまたはバイアスをしばしば誘起する。結果として、信号/強度データが、評価され得、補正され得かつ比較され得る改良された方法に対するニーズがある。
様々な実施形態において、本教示は、データセット間の変動/偏差を同定し、説明する方法を記載する。これらの方法は、数値的アプローチをインプリメントすることにより、1つ以上の連続/集まりのデータポイント間の関係を分析する(例えば、マイクロアレイまたはマルチプレックスPCRアッセイからの信号または強度データ)。これらの処理が、アレイベースのデータまたはマルチコンポーネントの分析に適用され得ることにより、2つ以上のサンプルセットから生じる処理の比較または処理を容易にする。補正因子は、互いにに関するデータセットの正規化において開発され、使用されることにより、比較分析を容易にする。このアプローチは、相対的に簡単で効果的なメカニズムを提供することにより、データを評価し、関連付ける。さらに、本開示される方法は、量的な精度を高め、分析における全体の信頼性を向上する。
特定の実施形態において本開示される方法は、遺伝子型データの評価に向けられ得る。この状況において、データ処理は、1つ以上のクラスタにグループ化された複数のデータセットにわたって分析を行うことを含み得、クラスタデータの標準偏差は、非線形のスペクトルシフトのような変動を含む。観測された変動は、角度値として表現され得、グラフに表され得る。本明細書で記載される方法は、正規化処理を行うために、制御サンプル情報を必ずしも必要とせず、サンプル情報が他の方法、例えば、アッセイの性能を評価することにおいて使用されることを可能にする。このアプローチは、制御サンプル情報が、補正因子の精度を個別に確認するように保持され得るので、望ましいものであり、さらに、本開示された方法は、自動化方法でデータ正規化を行うための新しいデータ分析ソフトウェアおよび既存のデータ分析ソフトウェアと共に使用するように容易に適合され得るか、該ソフトウェアに容易に統合され得る。
様々な実施形態において、生物学的な分析の間に情報を評価する方法が開示される。この方法は、少なくとも1つのサンプルに関連する複数の信号値を備えているデータコレクションを同定することと、信号値の共通表現を提供し、該信号値の該共通表現に適用されるソート基準を決定することと、該信号値の期待分布を決定することと、該複数の信号値の少なくとも1つに適用される少なくとも1つの補正因子を決定することにより、該少なくとも1つの信号値を該期待分布に一致させることとを包含する。
さらに他の実施形態においては、生物学的な分析の間に情報を評価するシステムが開示される。該システムは、少なくとも1つのサンプルに関連する複数の信号値を備えているデータコレクションを同定する機能性を提供するデータコレクションコンポーネントと、該信号値の共通表現を生成し、該信号値の該共通表現に適用されるソート基準を決定し、該信号値の期待分布を決定する機能性を提供する計算コンポーネントと、該複数の信号値の少なくとも1つに適用される少なくとも1つの補正因子を決定することにより、該少なくとも1つの信号値を該期待分布に一致させる機能性を提供する分析コンポーネントとを備えている。
他の実施形態において、ヌクレオチド配列情報を分析するためにそこに格納された命令を有するコンピュータ読み取り可能な媒体を備えている装置が開示される。該分析は、少なくとも1つのサンプルに関連する複数の信号値を備えているデータコレクションを同定するステップと、該信号値の共通表現を提供し、該信号値の該共通表現に適用されるソート基準を決定するステップと、該信号値の期待分布を決定するステップと、該複数の信号値の少なくとも1つに適用される少なくとも1つの補正因子を決定することにより、該少なくとも1つの信号値を該期待分布に一致させるステップとを行うことを包含する。
さらに他の実施形態において、遺伝子分析の方法が開示される。この方法は、複数のサンプル種に関連する複数の信号値を備えているサンプルセットを同定することと、該サンプルセットに対する該複数の信号値に対応する角度測定値を生成することと、該サンプル種の各々に対して該角度測定値をソートすることと、該サンプル種の各々に対する該ソートされた角度測定値に対する平均角度を計算することと、該サンプルセットの他のサンプル種に対する平均角度におけるその平均角度の計算された百分位数に対する各平均角度についての多項式フィットを決定することと、選択されたサンプル種に関連する複数の信号値に対する期待角度分布を計算することと、角度測定値に対する少なくとも1つの補正因子を同定するために、選択されたサンプル種に対するソートされた角度測定値に対する期待角度分布を計算することと、補正因子を選択されたサンプル種に関連する角度測定値に適用することにより、角度分布を期待分布に一致させることとを包含する。
参照が、様々な実施形態に対してなされ、実施形態の実施例は添付する図面に図示される。
本教示は、例えば、対立遺伝子分析および一ヌクレオチド多型性(SNP)分析による手順を含む、遺伝子型分析手順についての使用のために構成され得るデータ正規化および/または信号補正手法をインプリメントするシステムおよび方法を記載する。さらに、本方法は、蛍光ラベル、放射性ラベルおよび/または化学発光ラベルによって信号を生成する分析プラットフォームに関連するデータセットを含む種々の異なるデータセットについて使用され得る。様々な実施形態において、これらの方法によって動作されるデータは、データ獲得機器によって獲得された強度/信号情報を含み、これは1つ以上のサンプルに含まれる選択された標的分子の存在および/または濃度を決定するために使用される。一つの特定の実施形態において、本方法は、高マルチプレックス蛍光遺伝子型アッセイにおいて遭遇する、スペクトル特性におけるシフトまたはばらつきを補正するために使用され得る。本開示されたデータ分析アプローチは、実質的に自動化された方法で動作されるようにさらに適合され得、標的の定量および/または評価に使用される既存のソフトウェアベースの解決法に統合され得る。
本教示の機能的な詳細を図示するために、本方法は、遺伝子型分析および突然変異分析において使用される一ヌクレオチド多型性の同定に関する信号データの分析に関係して記載される。しかしながら、これらの方法は、生物/疾病同定、配列決定、ヌクレオチド/タンパク質定量およびその他を含む他の分析例に適合され得ることが認識される。
本明細書で使用される場合、用語「マイクロアレイ」は、広範囲の様々な技術まで拡大され、該技術は、例えば、合成オリゴヌクレオチドベースアレイ(例えば、Affymetrix Inc.によって製造されたGeneChip(登録商標))、ファイババンドルビーズアレイ/ランダム組み立てアレイ(例えば、Illumina Inc.によって製造されたBeadArraysTM)、スライドアレイ、スポテッドアレイ(例えば、Applied Biosystems Inc.によって製造された化学発光マイクロアレイ)ならびに標的分子を同定し、分解するためのメカニズムとして使用される信号の検出(例えば、蛍光ラベル、化学発光ラベル、放射性ラベルまたは他のラベル)に基づいた他の技術および製品を含み得る。
本開示された方法は、前述のマイクロアレイプラットフォームおよび他の技術について使用するために適合され得、これらにおいて、信号は、望ましくは正規化されかつ評価されるべき複数のサンプルに対して獲得され、これらは例えば、Taqman(登録商標)またはSNPlex(登録商標)化学に基づくリアルタイム定量分析のようなリアルタイム定量分析を含む、PCRベースのアプリケーションを含む。従って、サンプルおよび結果のデータはマイクロアレイプラットフォームに関連するものに限定される必要はなく、例えば、多重反応、マルチウェルマイクロタイタプレート、および望ましくは、共に評価されるか、または互いに比較されるべき複数のサンプルデータセットである他の供給源から発生し得ることが認識される。本開示された方法は、これらおよび他に関連して動作可能なように考案され、必ずしも、何らかの特定のプラットフォームまたは信号ベースの分析技術に対する範囲に限定される必要はない。
一局面において、本教示は、サンプルごとの変動の原因を説明するメカニズムを提供し、一連の獲得された信号間またはデータポイント間の関係を評価する分析方法を用いた正規化アプローチを提供する。補正因子を開発するために公知の基準または制御を用いてこのような変動の原因を説明することを試みる多くの従来の方法とは異なり、本明細書で開示される方法の動作は、必ずしも内部制御に依存しない。このような制御独立は、多くの理由において望ましくあり得、多くの理由は、アッセイ確認の制御の有効性を増加させることと、未知のサンプルまたは制御または内部基準を欠くサンプル群に対して改善された正規化または比較能力を提供することと、を含む。
アレイベース/マルチプレックス分析または複数のサンプルを含む分析を行う場合、サンプルごとの変動がしばしば観測されるので、獲得されたデータの有意義な比較を容易化するように、サンプル間で検出された信号が正規化されることが望ましい。例えば、マルチプレックスSNP(一ヌクレオチド多型性)アッセイを行う場合、1000以上のSNPコールまたは同定が、実験的サンプルデータセットに関連し得る。包括的なSNP分析は、複数のデータセットまたは実験にわたって進行し得、各データセットに関連する獲得された信号間のランダムでない偏差または系統的な偏差が観測される。これらの偏差は、プラットフォーム変動(例えば、製造、準備、処理)、サンプル変動(例えば、準備、濃度、組成)、系統変動(例えば、検出差、機器間差、環境差)および信号特性における差を生じるか、またはサンプルデータセット間の標準偏差を増加させる、変動の他の供給源を含む多くの異なる因子から生じ得る。このような発生は、1つのデータセットから次のデータセットへデータを関連させることを試みる場合に、潜在的な困難を示す。データセット変動に寄与する他の因子は、機器/信号検出器の移動またはシフト、焦点または光学配列変動、1つ以上の選択されたサンプル内でのクロスハイブリッド形成、標的または検体の非特異性結合、分析手順における特定性の欠如、サンプル増幅および/またはラベル統合におけるバイアス、ラベルまたはダイの劣化、サンプル不純物の存在または反応副生成物の存在が含まれるがこれらに限定はされない。
図1A、図1Bは、2つの例示的なデータセット100、105を図示し、これらの図において、スペクトルシフトから生じるばらつきが観測される。各データセット100、105は、例えば、対立遺伝子同定分析(この場合には公知のサンプルを用いる)から取得された複数のデータポイントを表し得、データポイントは、それらの組成に従って望ましく分類される。一局面においては、対立遺伝子の分類は、サンプルが本質的に同型接合か、または異型接合かを決定することを包含する。例示的な分類は、公知の方法を用いて観測された信号に従って決定され得、公知の方法において、プローブまたはラベルは、サンプルに組み込まれ、各プローブは、様々な対立遺伝子に特有の別々のマーカまたはレポータダイ備えている。その組成に従った、各サンプルの差分ラベリング(differential labeling)は、選択された対立遺伝子に特有のプローブを、サンプルの対立遺伝子の組成に従って、サンプルに組み込むことによって達成される。結果のサンプル製品の信号生成特性は、次いで、サンプルが第1の対立遺伝子に対して同型接合(例えば、A/A)であり、第2の対立遺伝子に対して同型接合(例えば、B/B)であり、または異型接合対立遺伝子の組み合わせ(例えば、A/B)であるかを決定するために、評価され得る。
上記された対立遺伝子区別は、様々なマルチプレックス分析製品を用いてインプリメントされ得る。それぞれに関連する化学および組成のさらなる詳細は、市販の製品文献/マニュアルにおいて見出され得る。一つの例示的な分析例において、同型接合のサンプルは、一方または他方のラベルに関連する増加した信号または強度を示す傾向がある。対立するラベル(例えば、他の対立遺伝子コンポーネント)に関連する信号は、非常に減少するか、または完全になくなる。反対に、サンプル異型接合組成(例えば、2つ以上の対立遺伝子を有する)は、両方のラベルから生じる相当な信号を示し得る。本方法の商用のインプリメンテーションは、Applied BiosystemsのTaqman(登録商標)プラットフォームであり、これは、特定の対立遺伝子組成に関連するラベルを含む増幅されたサンプルに対する蛍光をモニタし、記録するために、Applied BiosystemsのPrism 7700および7900HT配列検出システムを使用する。同様に、遺伝子型分析またはSNP分析に関連する信号データの生成および解釈を含み得る分析方法の別の例は、高マルチプレックスアレイベースアッセイである。これらの方法の商用のインプリメンテーションは、ファイババンドルアレイまたはオリゴヌクレオチドアレイに基づき得る。このようなインプリメンテーションにおいて、ラベルされたサンプル分子は、ヌクレオチド、ペプチドまたはタンパク質種の間の相補的結合を介してマイクロアレイの被覆されたビーズまたは選択された位置(例えば、特徴)に対してハイブリッド形成する。続いて、各ビーズまたは特徴に関連する信号が検出され、サンプルの内容を評価するためのメカニズムとして使用される。これらのアプローチのインプリメンテーションを記載する追加の詳細に対しては、読み手はそれぞれの製品文献およびマニュアルを参照する。
サンプルデータセット100、105に対する図示された例示的な散布図は、前述の主題に従う、デュアルラベル信号の例示的な分布を反映し、複数のサンプルに対するラベルされたサンプル製品からの信号データは、互いに対して評価され得る。各散布図のx−軸110は、第1のマーカから検出される信号強度(例えば、第1の信号強度)に関連し、y−軸112は、第2のマーカの信号強度(例えば、第2の信号強度)を表す。従って、各データポイントは、他のデータポイントに対して、測定された信号強度値に基づいて、プロットされ得る。
サンプルセット内の個別のサンプルの対立遺伝子の分類は、所望されるサンプルセットに対する信号値を別の信号値に対して評価することにより行われ得る。散布図100を介する例示的なデータの視覚化は、データポイントが、集団115、120、125にクラスタする傾向があることを示す。これらの集団115、120、125は、示されるように、特定の対立遺伝子組成または遺伝子型にさらに関連し得る。一局面において、第1のグループまたはクラスタ115は、同型接合の対立遺伝子組成(例えば、[A/A])を有するサンプルを表し得、第2のグループ120は、異型接合の対立遺伝子組成(例えば、[A/B])を有するサンプルを表し得、第3のグループ125は、同型接合の対立遺伝子組成(例えば、[B/B])を有するサンプルを表し得る。
第1の散布図100に対して示されるデータは、選択された数の増幅サイクルに対して上記のようにラベルされ、検出されたサンプルを示し得る。第2の散布図105は、増幅の追加のラウンドに供された類似のサンプルをさらに表し得る。2つの散布図100、105を比較して、信号強度の分布は、同一の組成を有するにもかかわらず、2つのサンプルセット間で類似しないことが観測され得る。特に、各対立遺伝子集団115、120、および125を比較する場合には、スペクトルシフトが観測され得、散布図100、105におけるデータポイントの分布は、ある程度変化する。従って、[B/B]の同型接合の対立遺伝子に対応する対立遺伝子集団125において、信号におけるx−軸110への一般化シフトが、散布図110、115を比較する場合に観測され得る。同様に、それぞれ同型接合の対立遺伝子[A/A]、異型接合の対立遺伝子[A/B]に対応する対立遺伝子集団115、120もまた、信号分布において観測可能なシフトを示す。
上記の方法におけるスペクトルシフトは、類似のデータセット間でさえ生じ得る差がどのくらいであるかの一例を表し、これらは、データの比較または評価において潜在的な困難という結果を生じる。このような差はまた、複数のデータセットを関係付け、かつ評価することにおける困難さを生成する上記したようなばらつきおよびエラーの他の潜在的な供給源から生じ得る。このような問題は、例えば、パラメータおよび閾値が1つのデータセットから次のデータセットへ非常に変化する傾向があり得る選択された対立遺伝子コール方法を適用する場合に、関心事である。結果として、対立遺伝子同定のための基準は、データセット間で異なり得、かつデータが十分に正規化スケールされ(normalized scaled)または正規化補正され(normalized corrected)得ない限りは、データを高度な信頼性または精度で関連付ける困難さを生成し得る。
先に示したように、サンプルごとの偏差を扱う一般的に利用される従来の方法は、両方のデータセットに存在する1つ以上の制御サンプルの使用を組み込み、データまたは散布図を互いにスケール化/比較する目的で使用され得る。しかしながら、非常に多くの制御が、それらを実験データセットまたは散布図全体に分布させる獲得された信号強度と共に要求され得る場合には、このアプローチは常に効果的なものまたは望ましいものではない。さらに、適切な制御サンプルによって表されない散布図の領域は、このアプローチのみを用いて不適切に補正され得る望ましくない変動の影響を残す。
制御サンプル補正アプローチはまた、制御サンプルが正規化/スケール化データセットにおいて互いに対して使用される場合には、これらの制御は実験的な成功またはモニタリング指示子としてはもはや利用可能であり得ないという観点からは、望ましくあり得ない。結果として、追加の制御が要求され得、分析のコストおよび複雑さを望ましくなく増加させる。さらに、上記の方法において制御サンプルの使用が必須条件であることは、望ましくなく、実験的設計を制約し得る。
様々な実施形態において、本教示は、データセットの正規化、スケーリングおよび比較の目的で、制御サンプルへの依存を望ましく低減または緩和する。制御情報が必要とされるというよりむしろ、データセット自体からの情報は、データセット間のスペクトルシフトおよび他のばらつきを補正するための改良されたメカニズムを提供するために、本開示された正規化方法によって利用され得る。一局面において、本開示されたデータ正規化アプローチは、複数のサンプルセットにわたる分析を行うための制御サンプルへの依存性を緩和するアレイベースの分析のようなアプリケーションに特に適切である。
一局面において、本教示のデータ正規化方法は、1つ以上の選択されたデータセットに適用することより情報を比較し、相関付ける能力を改良する複数の補正因子の開発を含む。補正因子は、サンプルセットの、データポイントに対する角度測定値を用いてさらに計算され得、角度測定値は手段を提供し、該手段によって、散布図または対立遺伝子クラスタ内のデータポイントの相対的な位置を数字的に関連させる。角度測定値は、データポイントおよび対立遺伝子クラスタを特徴付けかつ互いに区別するために使用され得る。
図1Cの例示的な散布図170に示されるように、各クラスタまたは対立遺伝子集団は、選択されたクラスタの特定の特性に基づいて別々の角度値175、180、185に関連し得る。例えば、角度値175は、クラスタ内に含まれるデータポイントに対する信号強度比の平均(average or mean)を評価することによって、および結果の値を散布図173における選択された原点190と関連付けることによって、同型接合のクラスタ[A/A]に対して決定され得る。同様に、角度値180および185は、対応する異型接合[A/B]および同型接合[B/B]集団に基づく類似の方法で決定され得る。同様に、角度値は、各データポイントに対して決定され得、角度値はデータポイントに対する信号強度比を評価することによって決定される。以下にさらに詳細に記載されるように、角度値の決定は、サンプルセットのデータポイントが互いに対して評価され得る便利な手段であり、便利な手段によって、これらの値は正規化方法において利用され得る。
特定の実施形態において、信号強度評価に対する他のアプローチが、角度値の決定に加えて、または角度値の決定の代用として利用され得る。例えば、各サンプルのデータポイントに対する信号情報は、角度値のログ関数によって表され得る。さらに他の実施形態において、サンプルセットの信号情報を表す他のアプローチが使用され得、本教示の正規化方法に適合され得る。結果として、本明細書に記載される方法は、信号情報の表示の様々な方法に適合され得、このようにデータ表現を違えること、本教示の範囲および実施形態の範囲内であると考えられる。
図2は、遺伝子型分析のサンプル間でのスペクトルシフトを説明するために使用されるアプローチの概略を図示する。様々な実施形態においては、本明細書において記載される方法は、1つ以上の補正因子の生成に向けられ、該補正因子は、選択されたデータセットに適用されることにより、データを望ましい基準(standard or reference)に一致させることを助ける。これらの方法は、アレイベースデータ獲得プラットフォームと共に作用する場合に取得されるようなSNP遺伝子型データを処理するために特に適切であるが、他の高マルチプレックスアッセイにも容易に適用され得る。
一局面において、これらのステップは、次いで他のデータセットを表すデータと比較され得る選択されたデータセットに関する情報を評価するために使用され得る正規化アプローチ200を提供する。以下にさらに詳細に記載されるように、アプローチ200は、状態205において、期待データ分布の決定を開始する。様々な実施形態において、期待データ分布は、「ベースライン」または「基準」として役立ち、これは選択されたデータの質および一致性を評価するため、かつ引き続く選択されたデータセットと他のデータセットから取得されたデータとの比較に影響し得る変動を同定するために使用され得る。
期待データ分布の決定に続き、1つ以上の補正因子が状態210において選択されたデータに対して計算される。様々な実施形態において、補正因子は、選択されたデータセットに対するデータ分布に関して期待データ分布を評価することによって決定される。一局面において、補正因子は、選択されたデータセット分布を期待データセット分布に関係させ、その2つの間の変動の説明をする。
一旦選択されたデータセットに対する適切なセットの補正因子が開発されると、状態215において、それらは選択されたデータセットに適用され、該データを期待分布に一致させる。通常、補正因子の適用は、計算のオーバヘッドを元に戻す(undo)ことなしに、容易に行われ得、望ましく正規化することにより、別々のまたは異種のデータセットの比較を容易にする。様々な実施形態において、このような正規化アプローチは、スペクトルシフトの影響およびデータセット間のばらつきを同定しかつ減少させるために望ましく利用され得る。
図3は、補正因子を生成し、SNP分析の間にアレイ間のスペクトルシフトを説明するための方法300の詳細を図示する。このアプローチを用いて、複数のデータセット(例えば、マルチプレックスデータ)によって提供されるデータおよび情報は、素早くかつ便利に正規化されることにより、スペクトルシフトおよびばらつきにより生じる望ましくない影響を減少し得る。この方法300に従って決定された補正因子の結果の適用は、分析の質を向上させ、データセット間のデータにおけるばらつきから生じる不一致を減少させるために使用され得る。
一局面において、SNP分析において使用される各アレイに関連するデータおよび情報は、1つ以上のサンプルに対する1つ以上のSNPに関連するラベルまたはマーカに対する相対的な観測された信号強度複数の角度測定値を備えている。各サンプルは、典型的に、複数の非SNPヌクレオチドを、配列が変化し得る1つ以上のSNPヌクレオチドと共に備えている。上記したように、選択されたサンプルに対するSNPヌクレオチドの組成は、サンプルの対立遺伝子の組成を、先に示された同型接合または異型接合として特徴付けるために使用され得る。
以下の方法の記載において、角度測定値は、アレイ間のデータを関連させるため、および補正因子を生成するための便利な手段を提供し、補正因子は、各アレイの角度測定値を調節するために使用され、その結果、生じるデータが他のアレイに対して正規化され得る。角度測定値決定は、アレイベースのデータを評価しかつ比較するための1つの方法ではあるが、データ表現に対する他のアプローチが本教示で動作するように容易に適合され得ることが当業者によって認識される。従って、本明細書に記載される方法で使用するように適合されるデータ表現の他の方法は、本教示の他の実施形態と考えられる。
再び図3を参照して、データ補正/正規化方法300は、状態305において開始され、角度測定値が生成される。一局面においては、これらの角度測定値は各データセットの信号強度情報から導かれ、複数の別々のサンプル種(例えば、DNA、RNA、遺伝子、対立遺伝子など)に対する複数のSNPを表し得る。角度測定値を決定するための様々な方法が、当該分野で公知であり、このような情報は、アレイ分析機器に関連するデータ獲得/ソフトウェアアプリケーションから取得され得る。
先に示したように、各サンプル種は、一般的に複数のSNPに関連され、状態310において、対応する角度測定値がソートされる。一局面において、各サンプル種に対して、関連する角度測定値は、小さい方から大きい方まで、値によってソートされ、順序付けられたセットの角度測定値を生成する。この方法で順序付けられるSNP角度は、各サンプル種に関連するこれらのSNPに対する角度測定値に基づいてサンプル種を組織化するためにさらに使用され得る。従って、サンプル種は、サンプル種の構成成分SNP角度測定値に従って、配列され得るか、またはグループ化され得る。
引き続いて、状態315において、平均角度決定が行われ、角度測定値の選択された範囲が同定され、選択された範囲に分類入る角度測定値を有するSNPを含むそれらのサンプル種が収集され、平均角度が決定される。一局面において、平均角度決定が引き続いて行われ得、平均角度は、全サンプル種に対する最も小さい角度(または角度範囲)に対して計算される。引き続いて、平均角度は、2番目に小さい角度(または角度範囲)に対して計算され、そのようにして、最も大きい角度(または角度範囲)まで工程を反復する。
一局面において、結果の平均角度決定は、状態320において、引き続く一連の計算に対する基準を提供する。この状態において、平均角度値は、角度分布全体におけるその角度に対する計算された発生の百分位数に対して評価される。一局面において、角度分布全体におけるその角度の百分位数に対する選択された平均角度について最小二乗多項式フィットを行うようなカーブフィッティングアプローチが使用され得る。一般に、多項式の次数は、データセットに存在するデータポイントの数または量に依存し得、一次、二次、三次、四次などであり得る。前述のカーブフィッティングアプローチを角度値に対する百分位数指数に適用することは、期待平均分布を評価するためのメカニズムを提供し、様々なアレイまたは実験から獲得されるデータを関連させるために有用であり得る。
状態325において、角度の期待分布は、特定のアレイまたは実験に関連する選択されたサンプル種に対して決定される。一局面において、角度の期待分布は、選択された百分位数集団に従ってデータポイントのサブセットを形成することにより決定され得る。例えば、データポイントのサブセットは、選択されたサンプル種に対してある角度の数とほぼ同じ数のデータポイントを有する、0%から100%まで等間隔の百分位数を取ることによって同定され得る。続いて、データサブセットに関連する期待角度は、先の状態320において取得された多項式の値を用いて計算され得る。
状態330において、先の状態325において導かれた期待値に対する選択されたサンプル種のソートされた角度についての最小二乗多項式フィットが決定される。前述のように、多項式の次数は、一般的に、データポイントの数に依存し、1つの分析から次の分析までに変化し得る。この状態330において決定される多項式の係数は、選択されたアレイ、データセットまたは実験に対する「補正因子」を表し、これらの補正因子は、状態335において、選択されたサンプル種に対する角度測定値に適用され得る。様々な実施形態において、補正因子の角度測定値に対する適用は、選択されたアレイに対する角度の分布を、状態320において決定されるような期待分布と調和するように調節するためのメカニズムを提供する。
一実施形態において、前述された方法は、実質的に正規分布のパターンを備えているデータセットの分析のために使用され得る。例えば、SNPまたは遺伝子型データは、典型的に同型接合または異型接合の間で正規分布を表示する。別の実施形態において、正規分布は、実質的にベル型形状のカーブによって表現され得る。このカーブは、特定の場合において、さらに(例えば、右または左へ)非対称に歪められ得る。さらなる実施形態において、正規分布は、ほぼ0の平均と、ほぼ1の標準偏差とを有し得る。さらなる実施形態において、本方法は、実質的に全ての分布を生成するために十分な数のデータポイントを有するアッセイまたはアレイに対して使用され得る。
他の実施形態において、本開示される方法は、ほぼ100倍かそれ以上に多重化されるそれらのデータセットまたはアレイに使用され得る。さらなる実施形態において、本方法は、少なくとも200倍、300倍、400倍かそれ以上に多重化されるそれらのアッセイのために使用され得る。これらの関係において、多重化は、少なくとも「X」個の異なる解または各アッセイに対する可能性のある結果というある方法で規定されるように規定され得、ここで「X」は多重化の大きさを表す。あるいは多重化は、アッセイごとに分析するための、少なくとも「X」個の異なるデータポイントがあることを意味し得る。
様々な実施形態において、本明細書において上記の図3に関連して記載される方法は、調査者の好みにいくぶん従って、変更され得る。例えば、分布を確立するために計算された平均角度に対する多項式フィットの決定を導く動作を行うことよりもむしろ、分布決定に対する別のメカニズムが代用として選択され得る。例えば、様々な実施形態において、分布範囲または閾値のセットは、0度と90度との間の実質的に等間隔の増加量を規定することによって、決定され得る。例えば、分布増加量は、範囲0度〜25度、25度〜50度、50度〜75度および75度〜90度を備え得る。さらに、他の等間隔の、または不等間隔の増加量が使用され得る。選択された分布範囲に対して、サンプル種は選択された範囲および基準を一致させることにより、他のサンプル種またはデータ分布に対する適切な評価および正規化が可能になり得る。
上記の方法に対する別の可能性のある変更例は、多項式フィッティングを省略し得、一定間隔の角度値をソートされた角度のリストに割り当てることであり得る。例えば、−2と2との間の等間隔の値が、選択され得、各データセットから、必要な多項式フィッティング動作なしに、ソートされた角度の値に割り当てられ得る。分布決定および補正因子計算は、次いで前述と類似の方法で進行し得る。
本開示された補正因子決定に対する代替的なアプローチの各々は、本明細書に記載されるような、特に計算オーバヘッドを減少または最少化させることが望ましい場合のデータ正規化と関連して使用され得る有用なメカニズムを提供する。様々な実施形態において、計算性能は、精度においてほとんどロスがない、または全くロスのない代替的なアプローチのうちの1つを適用することによって強化され得る。
図4A、図4Bは、選択されたデータセットからのデータが、どのように平均/合成データセット(例えば、アレイまたはバンドルセット)を表すデータと比較され得るかをグラフで表示し、データはグラフ上に単一のデータセットに対する百分位数対ログ比として、複数のデータセットを平均化したものと比較されるようにプロットされる。図4Aに示されるグラフにおいて、x−軸402は、単一のデータセットにおいて表せる全てのANPに対するログ比の百分位数(0−1)を表し、y−軸404は、データセットに対する様々な選択された百分位数の値におけるログ比を表す。このグラフ401において図示されるデータは、アレイにわたる情報の比較に対する基準としてログ比を使用するが、角度値はまた類似の方法で利用され得ることが認識される。
一局面において、合成データ分布405は、複数のデータセットに対するソートされたデータの正規分布を表す。より具体的には、この例において、合成データ分布405は、ほぼ130の別々のデータセットに対する正規分布を表す。サンプルデータ分布406は、例示的なデータセットからの情報を表し、データは、スペクトルシフトまたは他のデータのばらつきによって影響されている。2つのデータ分布405、406を比較すると、差が見られる。特に、サンプルデータ分布406全体にわたって、合成データ分布と比較する場合に、有意なばらつきが観測され得る。これらのばらつきは、当業者によって認識されるように、SNP同定の本質に望ましくない影響を与え得、コール信頼性および/または精度を減少させ得る。
一局面において、本教示のデータ正規化の方法がサンプルデータ分布406に適用されることにより、適切な補正因子を開発し得、該適切な補正因子は、サンプルデータ分布406を合成データ分布405に一致させる方法でサンプルデータ分布406を変えるために使用され得る。正規化されたグラフ408を表す図4Bに示されるように、これらの補正因子が選択されたデータセットのデータに適用される場合、2つのデータ分布405、406間のばらつきは、非常に減少し得る。グラフ的に、データ分布変動の減少は、サンプルデータ分布406と合成データ分布405との「マージ」として視覚化され得、データセット405、406の間の差は、かなり減少される。この正規化手順の1つの望ましい利点は、異なるデータセット(例えば、アレイまたは実験)からのデータが、向上した精度および信頼性を有して容易に比較され得ることである。さらに、正規化手順を行うことにおいて、制御サンプルまたは情報の必須な使用が必要でないことは、1つのアレイから次のアレイまでのデータを比較することにおいて時間が費される必要がある自由度を減らし、それによって分析の柔軟さを増加させる。一局面において、制御サンプルおよび情報は、それゆえ、アッセイの性能における信頼性を向上させる、補正因子の正確さおよび精度を個別に確認するために保存され得る。
この上記の方法は、広範囲のタイプまたは様々なタイプのサンプル同定技術と関連して使用され得る。該技術とは、DNA、RNA、オリゴヌクレオチド、ペプチド、タンパク質、化学的、薬学的、抗体、SNP遺伝子型、感染症診断、高スループットタンパク質および遺伝子分析、薬理遺伝学、父系試験および法医学試験を含むがこれらに限定はされない。様々な実施形態において、本明細書において記載される方法の使用は、より多くのSNPが高マルチプレックスSNP遺伝子型システムにおいて利用されることを望ましく可能にし、かつ個体が有し得る信頼性を向上させる。なぜならば、制御が補正因子の正確さを個別に確認するために使用され得るからである。
これらの方法が適用され得る技術の一分類は、マイクロアレイまたはオリゴヌクレオチドアレイを含む。典型的なアレイは、基質上に合成され得るか、または固定され得(例えば、スポットされるか、またはプリントされる)、相補的ハイブリッド形成の原理に基づいて複合体ヌクレオチド母集団に照会するために使用され得る非常に多くのプローブを利用する。この関係におけるデータ正規化は、一般的に、各アレイ内に存在する統合された従来の制御の使用を必要とする。しかしながら、本開示の方法を用いて、このような制御は、アッセイ性能分析に対して保持され得、必ずしも複数のアレイにわたるデータ正規化に必要とはされない。
さらに、本教示の正規化方法と関連して動作するように、かつ該方法から利益を得るようにも適合され得る他のプラットフォームタイプおよび構成がある。例示的なプラットフォームは、タンパク質検出プラットフォーム、抗体検出プラットフォーム、発現検出プラットフォーム、法医学/父系試験プラットフォーム、疾病特有の検出プラットフォーム、薬理遺伝学分析プラットフォームおよび薬理学的分析プラットフォームを含むがこれらに限定はされない。
例えば、特定タンパク質の分析プラットフォームは、1つの実験において、数千のパラメータの同時分析を可能にする。さらに、捕獲分子のマイクロスポットは、固体支持上の行および列において固定され得、対応する結合分子を含むサンプルに露出され得る。蛍光、化学発光、放射性および電気化学に基づく検出システムは、各マイクロスポット内の複雑な構成を検出するために使用され得る。タンパク質分析プラットフォームの分野における最近の開発は、酵素−基質、DNA−タンパク質および様々なタイプのタンパク質−タンパク質相互作用に対する適用を示す。
本教示の方法で使用するように適合され得る前述の技術および適用に加えて、データ正規化における国際的な分布評価から利益を受け得る他の技術およびプラットフォームは、OLAプロトコル、PCRプロトコル、精製プロトコル、ハイブリッド形成プロトコル、マトリックス分析プロトコルおよびSNP分析プロトコルを含む。本開示される方法はまた、広範囲の様々なデータ分析機器タイプと組み合わせて使用され得る。一インプリメンテーションにおいて、本教示は核酸分析器と関連して使用され、別々のサンプルまたはデータセットを評価する手段を提供するために関連する分析ソフトウェアに統合される。あるいは、本開示される方法は、分離されたソフトウェア製品として提供され得、該ソフトウェア製品において、選択された機器によって生成されたデータは、処理およびレビューのためにソフトウェアアプリケーションにインポートされる。
図5は、本教示に従うデータ分析を行う例示的なシステム500のブロック図を図示する。一局面において、システム500は、データコレクションコンポーネント510と、計算コンポーネント520と、データ分析コンポーネント530とを含むコンポーネント/モジュールを備えている。
上記の方法に従って、データコレクションコンポーネント510は、対立遺伝子同定分析または一ヌクレオチド多型性(SNP)分析に関連し得るデータポイントのような複数のデータポイントに関連する分析情報を備えているデータコレクションを収集、選択および/または提供する機能性を提供するように構成され得る。この情報は、正規化されるべき所望の分析または実験情報を含むデータベースまたはデータストア535から取得され得る。あるいは、この情報は、データ獲得において使用される機器類536によって直接的にまたは間接的に提供され得る。データコレクションコンポーネント510は、様々なハードウェアまたは他のソフトウェアコンポーネントと相互作用するソフトウェアコンポーネントをさらに備え得、分析情報の送信/コレクションを達成する指令/命令を提示する機能性を提供する。データコレクションコンポーネント510は、様々な予備処理ステップをさらに行い、計算コンポーネント520による引き続く正規化のためにデータコレクションを準備し得る。
計算コンポーネント520は、上記のように方法をインプリメントするデータコレクションを正規化する機能性を提供する。一局面において、計算コンポーネント520は、補正因子を決定することに関連する正規化動作を行う機能性を有して構成され得、選択された分布はデータコレクションを適合させるように使用される。選択された分布は、例えば、約0度から90度までの間の等間隔の分布として構成され得る。さらに、計算コンポーネントは、実質的に各データポイントまたはデータコレクションの構成要素(member)に適用される期待分布を決定し得る。一局面において、計算コンポーネント520は、計算コンポーネント520が、データコレクションを、所望の量(quantity or amount)の実質的に均等な分布にソートし、分類しおよび/またはカテゴリ化するように構成され得る。例えば、計算コンポーネント520は、約−2と2との間の実質的に等間隔の値を、多項式フィッティングをすることなく、複数の角度値によって表されるソートされたデータコレクションに割り当て得る。所望の動作を行うと、計算コンポーネント520は、次いで、データ分析コンポーネント530によって送信され得るか、または利用され得る補正因子を、上記のように決定し/計算する。
データ分析コンポーネント530は、補正因子をデータコレクションに適用する機能性を提供する。先に記載したように、補正因子のデータコレクションへの適用は、データコレクションを期待分布に一致させるメカニズムを提供する。その後、データ分析コンポーネント530は、追加の所望の分析動作を行い得るか、または処理されたデータが、さらなる分析に対して他のコンポーネントを利用可能なようにさせる。一局面において、データ分析コンポーネント530は、データ正規化動作の適用前後に選択されたデータをレビューすることのようなデータコレクションの局面を見る機能性をさらに提供し得る。この機能性は、選択されたグラフ的なデータの表現または絵を用いたデータの表現を調整することを含み得るか、またはデータコレクションに関連する数値的な情報または他の情報を見ることを可能にし得る。上記の機能性は、所望される場合には、データの一部分または実質的に全てについてさらに動作し得る。
例示的なシステム500の主な動作が上記されたが、様々な変更および追加の機能性が、本教示の範囲から逸脱することなくシステム500内に存在し得ることが認識される。さらに、システム500のコンポーネント510、520、530は別々に表示されているが、コンポーネント510、520、530が、分離して、組み合わされてまたは、一つのまたは複数成分のコンポーネントまたはモジュールによって提供される機能性の様々な組み合わせを表してインプリメントされ得ることが認識される。
高マルチプレックスSNP分析またはアレイベースの分析プラットフォームは、1つ以上のサンプル(例えば、DNA、RNA、ペプチド、タンパク質など)を表す1つ以上のデータセットに関連する多くのデータポイントに関連して生成または動作し得る。2つ以上のサンプル、データセット、アレイおよび/または実験を表すデータのコレクションにわたる分析は、観測されたスペクトルまたはデータの分布における偏差という結果を生じ得る。これらの偏差は、上記のように、例えば、第2のラベルに対する信号(例えば、波長B)に対する第1のラベルに対する信号(例えば、波長A)のプロットの角度として表現され得る。(例えば、標準偏差分析を用いて)データを評価することは、データの少なくとも一部分(例えば、クラスタ)が、様々な変動、例えば、アレイごとの変動、実験ごとの変動などに起因して増加することを示す。これらの変動は、変動を補正し、かつ調査者がデータを集団で分析する能力を向上させるメカニズムを提供するために信号を望ましくさせるデータの信号特性(例えば、スペクトル特性)に影響し得る。
本教示に従って、これらの変動に対処することは、本開示のアプローチの適用によって達成され得る。一局面において、方法、システムおよび/またはソフトウェアアプリケーションは、角度測定値が2つ以上のサンプル、データセットなどにわたって上記されるように生成されるアプローチの適用によって構成され得る。一局面において、2つ以上のサンプルは、複数のサンプルに関連する複数のSNPを表し得る。選択されたサンプルに関連する複数のSNPに対する角度測定値は(例えば、最小から最大まで)ソートされ、処理は、それぞれの残りのサンプルに対し繰り返される。その後、全サンプルに対する最小の角度のSNPに対する平均角度がこの処理で決定され得、該処理は、2番目に小さい角度のSNPなどに対して、最大の角度のSNPまで繰り返される。
続いて、実質的に全ての平均角度における、その角度の百分位数に対する平均角度についての最小二乗多項式フィットが、決定され得る。一局面において、多項式の次数は、データコレクション内のデータポイントの数に依存し、多項式フィットは期待平均分布の表現を提供する。この決定から、1つのサンプルに関連するデータポイントの数の角度の期待分布が評価され得、例えば、選択されたサンプルに対して角度と実質的に同数のデータポイントを有する0%から100%までの百分位数の実質的に等間隔のリストを得ること、および以前に決定された多項式の値から期待角度を計算することにより、評価され得る。
各サンプルに対して、最小二乗多項式フィットは、次いで、上記の期待値に対するこのサンプルのソートされた角度に対して決定され得る。この多項式フィットの係数は、選択されたサンプル(例えば、アレイ)に対する補正因子を表すと考えられ得る。選択されたサンプルと関連する各角度測定値に対してこれらの補正因子を適用することが、サンプルに関連する角度分布を以前に決定された期待分布に一致させるために使用され得る。
以下の実施例は、様々な関係において使用する方法のいくつかの適合を評価するために行われる選択された実験の詳細を提供する。これらの実施例は、例示の目的でのみ提供され、本教示を制限するようには解釈されるべきではないことが認識される。
第1の実施例は、相対的に小さなデータセットと関連する正規化方法の使用を図示する。第2の実施例は、正規化方法の別の適合の結果を提供する。第3の実施例は、本明細書において記載される方法の選択された適合を用いることによって、取得される相対的に高い精度を図示する。
(実施例1)
実施例1は、6個のサンプル内に5個の異なるSNPを備えている相対的に小さなデータセットに対して取得された結果を表す。2つの対立遺伝子間の各SNPに対する蛍光強度が決定された。蛍光強度がグラフに示されることにより、一方の対立遺伝子がx−軸上に表され、第2の対立遺伝子がy−軸上に表された。この情報から、極角が決定された。これらの動作は各サンプルにおける各SNPに対して行われた(表1を参照)。
Figure 2008533558
前述のランキングアプローチを用いて、各データポイントは、表2に示されるようにデータポイントのそれぞれのサンプル内の蛍光強度に従ってランクされた。この場合において、データポイントは最小の角度から最大の角度までランクされた。しかしながら、ランク付けは、最大から最小までで同様に行われ得る。通常は、ランク付けの方法は、各サンプルに対して同様である。
Figure 2008533558
各サンプル内でSNPのランク付けの後に、ランクは、表3に示されるように各データポイントに対して各サンプル内の百分位数の範囲または閾値に変換された。例えば、サンプル1において、「1」というランク付けは、0%の範囲に変換され、「2」というランキングは、25%の範囲に変換された、などである。範囲または閾値が指定される方法や変換が行われる処理は柔軟であり、関係の間の均一性を維持する一般的な目的を有する。このようにして、データは、アレイごとの変動に対して補正され、結果は1つのサンプルから次のサンプルまでの比較を可能にする。
Figure 2008533558
(実施例2)
実施例2は、より大きなデータセットに対して取得された結果を表し、SNP分析は667個の検出可能なSNPから取得された蛍光データを用いて行われた。この情報を用いて、近似された精度評価が、図3に関連して記載された補正因子決定方法を用いた補正の前後に決定された。この方法を用いて、公知のSNPは、コール精度に対してテストされ、結果は円グラフにプロットされた(図6Aおよび図6Bを参照)。
補正因子を適用することなしに、SNPの選択されたセットに対する全ての座(all loci)上のコール精度を評価する場合には、SNPの約42%(例えば、283個のSNP)は、95%未満のコール精度を表示した。残りのSNPの24%(例えば、161個のSNP)は、95%から99%までのコール精度を示し、33%(例えば、223個のSNP)は、99%よりも大きいコール精度を示す。
しかしながら、本教示によって記載されるように補正因子の計算および適用の後に、コール精度における有意な向上が観測された。図6Bに示されるように、補正因子が適用された同一のデータセットに対して、99%よりも大きいコール精度を示すそれらのSNPが55%(例えば、365個のSNP)まで増加した。同様に、95%から99%の間のコール精度を示すSNPの数における増加が観測された(例えば、165個のSNP)。まとめて考えると、これらの向上は、95%未満のコール精度を有するSNPの数において有意な減少(例えば、137個のSNP)という結果を生じた。
前述の例示的なデータは、コール精度における著しい改良が、本教示の正規化アプローチを適用する場合に、非常に高いコール精度閾値(例えば、99%より大きい)を有するSNPに対して注意すべき最大の改善を伴って観測された。この例示的なデータによって示されるように、本教示は、結果として、SNPおよび遺伝子型分析の間にコール精度における実質的な改良を現実化する簡単なアプローチを提供する。これらの方法のインプリメンテーションは、典型的に、データ分析フローに対する大きな計算オーバヘッドをさらに招かず、多くの様々な関係に容易にインプリメントされ得る。
上記の様々な方法および技術は、本教示がどのようにインプリメントされ得るか、それらを適用する場合に現実化される可能性のある利益の多くの実施例を提供する。必ずしも全ての記載される目標または利点が、本明細書に記載される任意の特定の実施形態に従って達成される必要があり得るわけではないことが理解されるべきである。従って、例えば、本方法が、本明細書で教示され得るか、または示唆され得るような目標または利点を必ずしも達成する必要なしに、本明細書で教示されるように1つの利点または1群の利点を達成または最適化する方法で行われ得ることを、当業者は認識する。
さらに、当業者は、異なる実施形態からの様々な特徴の交換可能性を認識する。同様に、上で議論された様々な特徴およびステップ、ならびに各特徴またはステップに対する他の公知の均等物は、本明細書に記載される原理に従って方法を行うように、当業者によって混合され得かつ適合され得る。
本発明は、特定の実施形態および実施例に関係して開示されたが、本発明は、具体的に開示された実施形態を越えて他の代替的な実施形態および/または、使用および明白な変更およびその均等物まで拡張することが、当業者によって理解される。従って、本発明は、本明細書の好ましい実施形態の特定の開示によって限定されることは意図されず、本明細書に添付される特許請求の範囲によってのみ限定される。
図1Aは、例示的なデータセットにおけるスペクトルシフトの特性および影響を図示する。 図1Bは、例示的なデータセットにおけるスペクトルシフトの特性および影響を図示する。 図1Cは、例示的な散布図を図示し、散布図において、角度値が決定され、角度値は対立遺伝子の同定に使用される。 図2は、データセット間のスペクトルシフトの原因を説明するための補正因子を決定する方法全体を図示する。 図3は、データセット間のスペクトルシフトの原因を説明するための補正因子を決定する方法の一実施形態を図示する。 図4Aは、データセット内のスペクトルシフトの原因を説明するための補正因子の例示的な適用をグラフで示す。 図4Bは、データセット内のスペクトルシフトの原因を説明するための補正因子の例示的な適用をグラフで示す。 図5は、本教示に従う分析を行うシステムのブロック図を図示する。 図6Aは、本教示の正規化方法の適用前の例示的なSNPデータの対立遺伝子コールの例示的な結果を図示する。 図6Bは、本教示の正規化方法の適用後の例示的なSNPデータの対立遺伝子コールの例示的な結果を図示する。

Claims (23)

  1. 生物学的な分析の間に情報を評価する方法であって、該方法は、
    少なくとも1つのサンプルに関連する複数の信号値を備えているデータコレクションを同定することと、
    該信号値の共通表現を提供し、該信号値の該共通表現に適用されるソート基準を決定することと、
    該信号値の期待分布を決定することと、
    該複数の信号値の少なくとも1つに適用される少なくとも1つの補正因子を決定することにより、該少なくとも1つの信号値を該期待分布に一致させることと
    を包含する、方法。
  2. 前記少なくとも1つの補正因子の適用は、前記複数の信号値に関連する系統偏差を補償するメカニズムを提供する、請求項1に記載の方法。
  3. 前記系統偏差は、プラットフォーム変動、サンプル変動、および機器変動からなるグループから選択される変動を備えている、請求項2に記載の方法。
  4. 信号値の前記共通表現は、各信号値の角度表現を決定することを包含し、前記信号値に適用される前記ソート基準は、少なくとも一部は該角度表現に基づいている、請求項1に記載の方法。
  5. 前記信号値に適用される前記ソート基準は、各サンプルに関連する信号値の前記角度表現を、大きさに基づいてソートすることを包含する、請求項4に記載の方法。
  6. 信号値の前記期待分布を決定することは、前記信号値の前記共通表現を用いて、少なくとも1つの多項式フィッティング動作を行うことを包含し、該多項式フィッティング動作の係数は、前記少なくとも1つの補正因子を提供する、請求項1に記載の方法。
  7. 前記少なくとも1つの補正因子の適用は、機器の動き、光学的配列変動、焦点変動、サンプルクロスハイブリッド形成、非特異的結合、増幅バイアス、ラベル組み込みバイアス、ラベル劣化および不純物の存在からなるグループから選択されるデータセット変動に対する補償のためのメカニズムを提供する、請求項1に記載の方法。
  8. 前記データコレクションは、蛍光ラベル、放射性ラベルおよび化学発光ラベルからなるグループから選択されるラベルによって生成される信号情報を備えている、請求項1に記載の方法。
  9. 前記データコレクションは、遺伝子型分析、一ヌクレオチド多型性分析、ハプロタイプ分析、対立遺伝子分析、突然変異分析、ヌクレオチド分析、タンパク質分析、ペプチド分析、および疾病分析からなるグループから選択される生物学的な分析に使用される、請求項1に記載の方法。
  10. 生物学的な分析の間に情報を評価するシステムであって、該システムは、
    少なくとも1つのサンプルに関連する複数の信号値を備えているデータコレクションを同定する機能性を提供するデータコレクションコンポーネントと、
    該信号値の共通表現を生成するため、該信号値の該共通表現に適用されるソート基準を決定するため、および該信号値の期待分布を決定する機能性を提供する計算コンポーネントと、
    該複数の信号値の少なくとも1つに適用される少なくとも1つの補正因子を決定することにより、該少なくとも1つの信号値を該期待分布に一致させるための機能性を提供する分析コンポーネントと
    を備えている、システム。
  11. 前記計算コンポーネントによって提供される信号値の前記共通表現は、各信号値の角度表現として決定され、該信号値に適用される前記ソート基準は、少なくとも一部は該角度表現に基づいている、請求項10に記載のシステム。
  12. 前記信号値に適用される前記ソート基準は、各サンプルに関連する信号値の前記角度表現を、大きさに基づいてソートすることを包含する、請求項11に記載のシステム。
  13. 前記計算コンポーネントによって決定される信号値の前記期待分布は、該信号値の前記共通表現を用いて少なくとも1つの多項式フィッティング動作を介して行われ、該多項式フィッティング動作の係数は、前記少なくとも1つの補正因子を提供する、請求項10に記載のシステム。
  14. 前記分析コンポーネントによる少なくとも1つの補正因子の適用は、機器の動き、光学的配列変動、焦点変動、サンプルのクロスハイブリッド形成、非特異性結合、増幅バイアス、ラベル組み込みバイアス、ラベル劣化、および不純物の存在からなるグループから選択されたデータセット変動を補償するメカニズムを提供する、請求項10に記載のシステム。
  15. 前記データコレクションは、蛍光ラベル、放射性ラベルおよび化学発光ラベルからなるグループから選択されたラベルによって生成された信号情報を備えている、請求項10に記載のシステム。
  16. 前記データコレクションは、遺伝子型分析、一ヌクレオチド多型性分析、ハプロタイプ分析、対立遺伝子分析、突然変異分析、ヌクレオチド分析、タンパク質分析、ペプチド分析、および疾病分析からなるグループから選択される生物学的な分析に使用される、請求項10に記載のシステム。
  17. コンピュータ読み取り可能な媒体を備えている装置であって、該媒体は、該媒体に格納された命令を有し、該命令は、
    少なくとも1つのサンプルに関連する複数の信号値を備えているデータコレクションを同定するステップと、
    該信号値の共通表現を提供し、該信号値の該共通表現に適用されるソート基準を決定するステップと、
    該信号値の期待分布を決定するステップと、
    該複数の信号値の少なくとも1つに適用される少なくとも1つの補正因子を決定することにより、該少なくとも1つの信号値を該期待分布に一致させるステップと
    によって、ヌクレオチド配列情報を分析する、
    装置。
  18. 前記データコレクションは、蛍光ラベル、放射性ラベルおよび化学発光ラベルからなるグループから選択されるラベルによって生成される信号情報を備えている、請求項17に記載の装置。
  19. 前記データコレクションは、遺伝子型分析、一ヌクレオチド多型性分析、ハプロタイプ分析、対立遺伝子分析、突然変異分析、ヌクレオチド分析、タンパク質分析、ペプチド分析、および疾病分析からなるグループから選択される生物学的な分析に使用される、請求項17に記載の装置。
  20. 遺伝子分析のための方法であって、該方法は、
    複数のサンプル種に関連する複数の信号値を備えているサンプルセットを同定することと、
    該サンプルセットに対する該複数の信号値に対応する角度測定値を生成することと、
    該サンプル種の各々に対する該角度測定値をソートすることと、
    該サンプル種の各々に対する該ソートされた角度測定値に対する平均角度を計算することと、
    計算された百分位数に対する各平均角度に対して多項式フィットを決定することであって、該計算された百分位数は、該サンプルセットの他のサンプル種に対する平均角度に関して、その平均角度に対して計算される、多項式フィットを決定することと、
    選択されたサンプル種に関連する該複数の信号値に対する期待角度分布を計算することと、
    該期待角度分布に対する該選択されたサンプル種に対する該ソートされた角度測定値について多項式フィットを計算することにより、該角度測定値に対する少なくとも1つの補正因子を同定することと、
    補正因子を選択されたサンプル種に関連する該角度測定値に適用することにより、該角度分布を該期待分布に一致させることと
    を包含する、方法。
  21. 前記サンプルセットは、遺伝子型分析、一ヌクレオチド多型性分析、ハプロタイプ分析、対立遺伝子分析、突然変異分析、ヌクレオチド分析、タンパク質分析、ペプチド分析、および疾病分析からなるグループから選択される生物学的な分析に使用される、請求項20に記載の方法。
  22. 前記期待角度測定値の分布は、等間隔の百分位数のリストを評価すること、および各平均角度測定値に対する前記多項式フィットを用いて該期待角度測定値を計算することによって決定される、請求項20に記載の方法。
  23. 前記サンプルセットは、蛍光ラベル、放射性ラベルおよび化学発光ラベルからなるグループから選択されたラベルによって生成される信号情報を備えている、請求項20に記載の方法。
JP2007555177A 2005-02-10 2006-02-08 遺伝子型分析のための正規化方法 Pending JP2008533558A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/057,321 US20060178835A1 (en) 2005-02-10 2005-02-10 Normalization methods for genotyping analysis
PCT/US2006/004328 WO2006086406A2 (en) 2005-02-10 2006-02-08 Normalization methods for genotyping analysis

Publications (1)

Publication Number Publication Date
JP2008533558A true JP2008533558A (ja) 2008-08-21

Family

ID=36780967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007555177A Pending JP2008533558A (ja) 2005-02-10 2006-02-08 遺伝子型分析のための正規化方法

Country Status (4)

Country Link
US (1) US20060178835A1 (ja)
EP (1) EP1846861A4 (ja)
JP (1) JP2008533558A (ja)
WO (1) WO2006086406A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013530434A (ja) * 2010-04-08 2013-07-25 ライフ テクノロジーズ コーポレーション 角度構成の検索による遺伝子型決定のためのシステムおよび方法
WO2016157473A1 (ja) * 2015-04-01 2016-10-06 株式会社 東芝 遺伝子型判定装置及び方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120100548A1 (en) 2010-10-26 2012-04-26 Verinata Health, Inc. Method for determining copy number variations
EP2526415B1 (en) 2010-01-19 2017-05-03 Verinata Health, Inc Partition defined detection methods
ES2704701T3 (es) 2010-01-19 2019-03-19 Verinata Health Inc Nuevo protocolo de preparación de bibliotecas de secuenciación
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
DK2652155T3 (en) 2010-12-16 2017-02-13 Gigagen Inc Methods for Massive Parallel Analysis of Nucleic Acids in Single Cells
CA2832468C (en) 2011-04-12 2023-10-31 Verinata Health, Inc. Resolving genome fractions using polymorphism counts
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
US20150031555A1 (en) * 2012-01-24 2015-01-29 Gigagen, Inc. Method for correction of bias in multiplexed amplification
WO2013167143A2 (en) 2012-05-10 2013-11-14 Lattec I/S Method and apparatus for determining normalized signal values
US9422547B1 (en) 2015-06-09 2016-08-23 Gigagen, Inc. Recombinant fusion proteins and libraries from immune cell repertoires
JP6599727B2 (ja) * 2015-10-26 2019-10-30 株式会社Screenホールディングス 時系列データ処理方法、時系列データ処理プログラム、および、時系列データ処理装置
JP7080065B2 (ja) * 2018-02-08 2022-06-03 株式会社Screenホールディングス データ処理方法、データ処理装置、データ処理システム、およびデータ処理プログラム
EP3941491A4 (en) 2019-03-21 2023-03-29 Gigamune, Inc. ENGINEERED CELLS EXPRESSING ANTIVIRAL T-CELL RECEPTORS AND METHODS OF USE

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040126782A1 (en) * 2002-06-28 2004-07-01 Holden David P. System and method for SNP genotype clustering

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096850A1 (en) * 2003-11-04 2005-05-05 Center For Advanced Science And Technology Incubation, Ltd. Method of processing gene expression data and processing program
US7035740B2 (en) * 2004-03-24 2006-04-25 Illumina, Inc. Artificial intelligence and global normalization methods for genotyping

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040126782A1 (en) * 2002-06-28 2004-07-01 Holden David P. System and method for SNP genotype clustering
JP2005531853A (ja) * 2002-06-28 2005-10-20 アプレラ コーポレイション Snp遺伝子型クラスタリングのためのシステムおよび方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013530434A (ja) * 2010-04-08 2013-07-25 ライフ テクノロジーズ コーポレーション 角度構成の検索による遺伝子型決定のためのシステムおよび方法
WO2016157473A1 (ja) * 2015-04-01 2016-10-06 株式会社 東芝 遺伝子型判定装置及び方法
GB2551091A (en) * 2015-04-01 2017-12-06 Toshiba Kk Genotype determination device and method
JPWO2016157473A1 (ja) * 2015-04-01 2017-12-21 株式会社東芝 遺伝子型判定装置及び方法

Also Published As

Publication number Publication date
WO2006086406A3 (en) 2009-06-04
EP1846861A2 (en) 2007-10-24
WO2006086406A9 (en) 2006-10-12
EP1846861A4 (en) 2009-12-30
WO2006086406A2 (en) 2006-08-17
US20060178835A1 (en) 2006-08-10

Similar Documents

Publication Publication Date Title
JP2008533558A (ja) 遺伝子型分析のための正規化方法
US10991453B2 (en) Alignment of nucleic acid sequences containing homopolymers based on signal values measured for nucleotide incorporations
US8521441B2 (en) Method and computer program product for reducing fluorophore-specific bias
AU2021200154B2 (en) Somatic copy number variation detection
Cooper et al. Detection of copy number variation using SNP genotyping
US6502039B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
US20030194711A1 (en) System and method for analyzing gene expression data
US7912652B2 (en) System and method for mutation detection and identification using mixed-base frequencies
US20100304395A1 (en) Method, Program, and System for Normalizing Gene Expression Amounts
US20050123971A1 (en) System, method, and computer software product for generating genotype calls
EP1630709B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
WO2012019190A1 (en) Compositions and methods for high-throughput nucleic acid analysis and quality control
EP1722309A1 (en) Method of normalizing gene expression data
JP6055200B2 (ja) 異常なマイクロアレイの特徴部を特定する方法及びその読み取り可能な媒体
US20040138821A1 (en) System, method, and computer software product for analysis and display of genotyping, annotation, and related information
JP2006506605A (ja) mRNAの絶対量を測定する方法及びシステム
Vernesi et al. Recent developments in molecular tools for conservation
Knudtson et al. The ABRF MARG microarray survey 2005: taking the pulse of the microarray field
Agapito et al. Parallel and Distributed Analysis of Microarray Data
Buss et al. Expression profiling using SAGE and cDNA arrays
Snyder et al. Appendix 2: Comparative genomics. The nature of CGH analysis and data interpretation
Palta Statistical methods for DNA copy-number detection
ZA200110490B (en) Mathematical analysis for the estimation of changes in the level of gene expression.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100723

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101022

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101029

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101122

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101222

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110317