JP2006114037A - 比較ゲノムハイブリダイゼーション(cgh)データの見かけ上の異常を統計的に分析しプロットするためのシステムおよび方法 - Google Patents
比較ゲノムハイブリダイゼーション(cgh)データの見かけ上の異常を統計的に分析しプロットするためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2006114037A JP2006114037A JP2005294347A JP2005294347A JP2006114037A JP 2006114037 A JP2006114037 A JP 2006114037A JP 2005294347 A JP2005294347 A JP 2005294347A JP 2005294347 A JP2005294347 A JP 2005294347A JP 2006114037 A JP2006114037 A JP 2006114037A
- Authority
- JP
- Japan
- Prior art keywords
- cgh
- data
- values
- score
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
【課題】遺伝子に関するデータの異常値が統計的に有効かどうかを正確に判定する。
【解決手段】CGHデータ内の見かけ上の異常を統計的に分析するための方法に関する。CGHデータは、該CGHデータが取得されたところの染色体上の物質の位置に対応して配列される。1組のCGH比率値が検討されて、Z−スコア値が各CGH比率値について計算される(106)。Z−スコア値は、所定のカットオフ値に基づいて分類される(108)。所定のカットオフ値よりも大きいZ−スコアの数が計数され、所定のカットオフ値の負数よりも小さいZ−スコアの数が計数され、Z−スコアの総数が計数される。1組のCGH比率のサブセットが検討されるが、サブセットは所定のサイズのウインドウによって画定される。2次的なZ−スコアが計算されて、サブセットにおける有意な正偏差と有意な負偏差の少なくとも一方についての過剰と不足の少なくとも一方の有意度が求められる。
【選択図】図1
【解決手段】CGHデータ内の見かけ上の異常を統計的に分析するための方法に関する。CGHデータは、該CGHデータが取得されたところの染色体上の物質の位置に対応して配列される。1組のCGH比率値が検討されて、Z−スコア値が各CGH比率値について計算される(106)。Z−スコア値は、所定のカットオフ値に基づいて分類される(108)。所定のカットオフ値よりも大きいZ−スコアの数が計数され、所定のカットオフ値の負数よりも小さいZ−スコアの数が計数され、Z−スコアの総数が計数される。1組のCGH比率のサブセットが検討されるが、サブセットは所定のサイズのウインドウによって画定される。2次的なZ−スコアが計算されて、サブセットにおける有意な正偏差と有意な負偏差の少なくとも一方についての過剰と不足の少なくとも一方の有意度が求められる。
【選択図】図1
Description
本発明は、遺伝子に関するデータの異常値が統計的に有効かどうかを決定するための技術に関する。
DNAのコピー数における変動は多くのガンタイプの特徴であり、いくつかのガンの病原化プロセスを促進すると考えられている。これらの変動には大きな染色体の増加および/または損失ならびに、より小さいスケールでの増幅および/または欠失が含まれる。
共通のゲノムマッピングの異常は、ガン関連遺伝子を発見するための有用な1方法である。ゲノムの不安定性は、発ガン遺伝子の過剰発現または活性化を引き起こす可能性を有し、また、腫瘍抑制遺伝子およびDNA修復遺伝子のサイレンシング(silencing)を引き起こす可能性を有する。DNAのコピー数における変動測定において、局所蛍光in−situハイブリダイゼーションに基づく技術が早期に使用された。
ガンにおける染色体変異を同定するために、比較ゲノムハイブリダイゼーション(CGH)と称されるゲノム全体に関する測定技術が現在使用されている(例えば、非特許文献1、2参照)。CGHを使用して、異なる標識を施された腫瘍および正常DNAを正常な分裂中期染色体に対し共ハイブリダイゼーションを行う。腫瘍と正常標識との割合(比)が、ガン遺伝子および腫瘍抑制遺伝子を含み得る領域における染色体の増幅および欠失の検出を可能にする。しかし、この方法は、約10〜20Mbp(メガベースペア)のみの限定された回答量(または分解能。以下同じ)を有する。提供されるこの回答量は染色体の変化の境界を決定可能にするには、あるいは、単一遺伝子および小さなゲノム領域のコピー数における変化を同定するためには不十分である。
アレイCGH(aCGH)と称されるより先進的な測定技術は、比較的小さな染色体領域のDNAのコピー数における変化を決定することができる。aCGHを使用して、腫瘍および正常DNAを、数千のBACのゲノムクローン、cDNAまたはオリゴヌクレオチドプローブのマイクロアレイに対し共ハイブリダイゼーションさせる(非特許文献3〜5参照)。オリゴヌクレオチドアレイを使用することにより、提供される回答量は、単一遺伝子を同定するのに必要な回答量よりも、理論上優れたものとなり得る。
aCGHデータについて継続中の課題は、現在のところ非常にノイズが多く、そのために、異常データ値が被験物質中で生じている現実の異常(増幅または欠失)の結果なのかどうか、または異常が大部分はノイズの結果であり、かつ現実の異常は存在していないのかどうかの決定が困難であるということである。aCGH データを操作または分析するための現在の方法は、異常の実際の発生からノイズを切り離すための努力とともに行われている。Ben-Dorらにより論じられたこのような1つの方法(非特許文献6参照)は、データから超幾何学的なp−値を計算することに基づく。いくつかの場合において、この方法は、結果をさらに洗練させるためのダイナミックプログラミングを使用する。この方法は高度に厳密な結果を提供するが、実行されるこのコンピューター計算はかなり集約的なものであり、動的でインタラクティブな表示において容易にサポートされるものではない。
Crawleyらは、遺伝子発現マイクロアレイデータを考慮して、aCGHデータの解釈に伴う問題を回避することにより、細胞遺伝的な異常の同定を試みている(特許文献7参照)。遺伝子発現値は分析され、有意の上方または下方バイアスが発現値中に存在するかどうかを同定するために符号検定(sign test)が適用される。これは統計的に根拠のある測定基準ではない。次いで、実際のZ−スコアに対する近似が、符号検定の結果に基づき生成される。
aCGHデータの分析のための、迅速で普遍的に利用可能な技術へのニーズは現在も引き続き存在する。現在のアレイは典型的に非常にノイズの多い結果を生じ、劇的ではあるが統計的に関連のない偏差を生物学的に関連のあるものとして解釈してしまわないための注意が払われねばならないからである。
CGHデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体を提供する(以下、「見かけ上の異常」は明白な異常であってもよいし、それを含むものであってもよい)。この場合、CGHデータが、該CGHデータが由来した染色体上の物質の位置に対応して配列される。CGH割合値のセット(1組のCGH割合値)を検討し、各CGH割合値に対するZ−正規化値(Z−normalized value)を計算する。Z−正規化値を、所定のカットオフ値に基づき分類し、さらに、所定のカットオフ値より大きなZ−正規化値の数、所定のカットオフ値の負数(すなわち、-(所定のカットオフ値))より小さなZ−正規化値の数、およびZ−正規化値の総数を計数する。CGH割合値のセットのサブセットを検討する。該サブセットは所定の大きさのウインドウによって画定される。サブセットにおける、少なくとも1つの有意な正の偏差および有意な負の偏差における、少なくとも1つの過剰および不足の有意性(または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性)を測定するためにZ−スコア(Z−score)を、次いで計算する(以下、「有意」とは「顕著」な場合を含む)。
CGHデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体を提供する。この場合、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含み、各CGH割合値に対するZ−正規化値が計算され、そのZ−正規化値を所定のカットオフ値に基づき分類し、所定のカットオフ値より大きなZ−正規化値の数、所定のカットオフ値の負数より小さなZ−正規化値の数、およびZ−正規化値の総数を計数する。CGH割合値のセットのサブセットを、所定の大きさのウインドウによって画定されたものとして考慮する。サブセットにおける、少なくとも1つの有意な正の偏差および有意な負の偏差における、少なくとも1つの過剰および不足の有意性(または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性)を測定するために、Z−スコアを、次いで計算する。
CGHデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体を提供する。この場合、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含む。CGH割合値のセットのサブセットが、所定の大きさのウインドウによって画定され、検討される。ウインドウ内のデータ間のZ−テスト(Z−test)と、CGH割合値のセットに由来する統計値は以下の式から計算される。
尚、以下では便宜上、
を、Xバーと記載する。式中、
ZはZ−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
σは前記セットにおける値の標準偏差である。
ウインドウ内における値のサブセットの移動平均も計算される。
を、Xバーと記載する。式中、
ZはZ−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
σは前記セットにおける値の標準偏差である。
ウインドウ内における値のサブセットの移動平均も計算される。
CGHデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体が提供される。ここで、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含む。所定の大きさのウインドウによって画定されたCGH割合値のセットのサブセットが検討される。ウインドウ内のデータ間のt−テスト(t−test)と、CGH割合値のセットに由来する統計値は以下の式に従って計算される。
式中、
tはt−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
sは前記ウインドウ内における値の標準偏差である。
ウインドウ内における値のサブセットの移動平均も計算される。
tはt−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
sは前記ウインドウ内における値の標準偏差である。
ウインドウ内における値のサブセットの移動平均も計算される。
染色体地図を表示するための手段および、CGHデータ値が由来した物質の位置に対応する領域に、前記CGHデータ値を特徴づける異常の統計値を染色体地図に隣接してプロットするための手段を介して、CGHデータ値の各種図式的な表現、および、CGHデータ値における見かけ上の異常を表示するためのユーザーインターフェース、方法およびコンピューター読み取り可能媒体が提供される。
CGHデータ値の各種図式的な表現および、CGHデータ値における見かけ上の異常を表示するためのユーザーインターフェース、方法およびコンピューター読み取り可能媒体が提供される。この場合、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含み、各CGH割合値に対するZ−正規化値が計算され、そのZ−正規化値を所定のカットオフ値に基づき分類し、所定のカットオフ値より大きなZ−正規化値の数、所定のカットオフ値の負数より小さなZ−正規化値の数、およびZ−正規化値の総数を計数し、さらにこの場合、サブセットにおける、少なくとも1つの有意な正の偏差および有意な負の偏差の、少なくとも1つの過剰および不足の有意性(または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性)を測定するために、所定の大きさのウインドウによって1つずつ画定されたCGH割合値のセットのサブセットに対してZ−スコアが計算され、ここで、ユーザーインターフェースは、染色体地図を表示するための手段と、ウインドウ内のCGHデータ値が由来した物質の位置に対応する領域に、Z−スコアを、各Z−スコアについて、染色体地図に隣接してプロットするための手段を含む。
CGHデータ値の各種図式的な表現および、CGHデータ値における見かけ上の異常を表示するためのユーザーインターフェース、方法およびコンピューター読み取り可能媒体が提供される。この場合、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含み、該ユーザーインターフェースは、染色体地図を表示するための手段、CGHデータ値から計算された少なくとも1つの移動平均値と、CGHデータ値(または、移動平均値とCGHデータ値の一方)を表示するための手段、およびCGHデータ値における見かけ上の異常を特徴付ける統計値をオーバーレイするための手段を含む。
本発明の上記およびその他の利点と特徴は、システム、ユーザーインターフェース、方法およびコンピューター読み取り可能媒体の詳細についての、以下のより詳細な記載から当業者には明らかになるであろう。
本特許または特許出願は、少なくとも1つの彩色されて作成された図を含む。彩色された図を伴うこの特許または特許出願の複写は、申請および必要とされる料金の納付を米国特許庁に行うことにより提供される。
本発明の方法、システム、およびコンピューター読み取り可能媒体について記載する前に、本発明は、記載された特定の実施形態に限定されるものでなく、当然、変更しうるものであることを理解すべきである。また、本明細書中で使用される用語は、特定の実施形態のみを記載することを目的とするものであり、限定を意図するものではない。本発明の範囲は、添付の特許請求の範囲によってのみ限定されるからである。
ある範囲の値が与えられた場合、文脈上別様に明確に示されていない限り、下限値の単位の1/10までの各介在値が、また、その範囲の上限および下限の間で明確に開示されることを理解されたい。ある規定された範囲における任意の規定値または介在値の間の、より小さい各々の範囲、および、その規定された範囲における任意のその他の規定値もしくは介在値が、本発明の範囲内に包含される。これらのより小さい範囲における上限および下限を個別にこの範囲に含めることも、含まれないようにすることもでき、より小さい範囲内にいずれかの限界が含まれ、または、いずれの限界も含まれず、または、両方の限界が含まれるといった各範囲もまた本発明の範囲内に包含されるものであり、規定された範囲において任意の限界を明確に除外することができる。規定された範囲が1つまたは両方の限界を含む場合、含まれるこれらの限界のいずれかもしくは両方を除外する範囲もまた、本発明に包含される。
別様に定義しない限り、本明細書中で使用する全ての技術的および科学的用語は、本発明が属する技術分野の当業者に一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと類似または等価な任意の方法および材料を、本発明の実施または試験において使用することができるが、好ましい方法および材料について以下に記載する。本明細書中で言及する全ての刊行物は、引用した刊行物と関連する方法および/または材料を開示および説明するために、参照により本明細書に組み込まれるものとする。
本明細書および添付の特許請求の範囲で使用する場合、単数形の「1つの」(英文表記では、aまたはan)、「及び」、「その」、「前記」、または「上記」(以上、英文表記ではthe)は、文脈上明確に他のものを表していない限り、複数の対象も含むことに留意すべきである。したがって、例えば、「データ値」と言及した場合には複数の該データ値を含み、また、その(または前記または上記)アレイ、または、単にアレイと言及した場合には、1以上のアレイおよび当業者に公知のそれの均等物などへの参照を含む。
本明細書中において参照した刊行物は、本出願の出願日前のその内容の開示のみのために提供される。本明細書において、先行発明に基づいて本発明が該刊行物の内容に先行する資格を有しないことを認めるものとして解釈すべきものは何もない。さらに、示された出版日は、実際の出版日と異なるかもしれず、個別に確認する必要がある場合がある。
定義
「マイクロアレイ」、「バイオアレイ」または「アレイ」とは、他の意図が明らかでない限り、その領域に関連する特定の化学的部分(または特定の複数の化学的部分)を担持(または保持)するアドレス指定可能な領域の1次元、2次元、または3次元的配列を包含する。マイクロアレイ上の特定の所定位置にある領域が、特定の標的または標的群を検出するように複数の領域の部分を有するという点において、マイクロアレイは「アドレス指定可能」である(一つの特徴部がその特徴部の標的でないものを偶然に検出する場合はあるが)。アレイの特徴部は通常、(必ずしもその必要はないが)介在する空間により分離されている。アレイの場合、「標的」とは、プローブによって検出される移動相中の部分(moiety)を意味し、プローブは様々な領域において基質と結合する。しかしながら、「標的」または「標的プローブ」の一方は、他方により評価されるものでありうる。
「マイクロアレイ」、「バイオアレイ」または「アレイ」とは、他の意図が明らかでない限り、その領域に関連する特定の化学的部分(または特定の複数の化学的部分)を担持(または保持)するアドレス指定可能な領域の1次元、2次元、または3次元的配列を包含する。マイクロアレイ上の特定の所定位置にある領域が、特定の標的または標的群を検出するように複数の領域の部分を有するという点において、マイクロアレイは「アドレス指定可能」である(一つの特徴部がその特徴部の標的でないものを偶然に検出する場合はあるが)。アレイの特徴部は通常、(必ずしもその必要はないが)介在する空間により分離されている。アレイの場合、「標的」とは、プローブによって検出される移動相中の部分(moiety)を意味し、プローブは様々な領域において基質と結合する。しかしながら、「標的」または「標的プローブ」の一方は、他方により評価されるものでありうる。
アレイの製造方法については、米国特許第6,242,266号、 同6,232,072号、 同6,180,351号、 同6,171,797号および同6,323,043号に詳細に記載されている。すでに述べたように、これらの参考文献は参照により本明細書中に組み入れるものとする。本明細書中で従前に記載したように、その他の滴下沈着方法も製造に使用することができる。また、滴下沈着方法の代わりに、フォトリソグラフィーアレイ製造方法を使用してもよい。前記特許文献中に記載されているように、特に、アレイがフォトリソグラフィー法によって製造されている場合には、特徴間の領域は存在する必要はない。
ユーザーによる受け取り後、通常、アレイはサンプルに曝され、次に読み取られる。アレイの読み取りは、アレイに光を照射し、該アレイの各特徴部における複数の領域で、生じた蛍光の位置および強度を読み取ることにより行うことができる。例えば、本目的のために使用しうるスキャナーは、Agilent Technologies(カリフォルニア州, Palo, Alto)によって製造されたAGILENT MICROARRAY SCANNER、またはその他の同様のスキャナーである。その他の好適な装置および方法については、米国特許第6,518,556号、同6,486,457号、同6,406,849号、同6,371,370号、同6,355,921号、同6,320,196号、同6,251,685号、および同6,222,664号に記載されている。しかしながら、アレイは、上記以外の任意の他の方法または装置により読み取ることもでき、その他の読み取り方法としては他の光学的技法または電気的技法(この場合、米国特許第6,251,685号、同6,221,583号、および他の文献に開示されているように、各特徴部には、その特徴部における結合を検出するための電極が提供される)が含まれる。
略語「CGH」は、比較ゲノムハイブリダイゼーション(Comparative Genomic Hybridization)を意味する。
略語「aCGH」は、マイクロアレイベースのCGHを意味する。
用語「aCGHアレイ」は、aCGH実験を実施するために使用されるマイクロアレイを意味する。通常、aCGHアレイまたはaCGHマイクロアレイはCGH測定のために特別に設計され、この場合、プローブはゲノムDNAとハイブリダイゼーションを行うように設計される。しかしながら、RNAを測定するために設計されたDNAプローブは、それらの転写産物に対するゲノムDNAコーディングに対しても相補的であることから、いくつかの場合においては、標準的発現アレイを使用することも可能である。
1つの要素がもう一方から「離れた」ものとして示される場合、これは、2つの要素が少なくとも異なる構造物中にあり、少なくとも1マイル、10マイル、または少なくとも100マイル離れている場合があることを意味する。
情報を「伝達する」とは、適切な伝達チャネル(例えば、民間または公共のネットワーク)上の電気信号として、その情報を表すデータを伝達することを意味する。
要素を「転送する」とは、その要素を物理的に移動させるか、または(可能であれば)その他の方法により、その要素を1つの位置から次の位置へ移動させる任意の手段を意味し、少なくともデータの場合には、データを運搬するまたはデータを伝達する媒体を物理的に移動させることを含む。
「処理装置(プロセッサー)」とは、要求された機能を実行する任意のハードウェアおよび/またはソフトウェアの組合せを意味する。例えば、本明細書における任意の処理装置は、メインフレーム、サーバー、またはパーソナルコンピューターの形態において利用可能であるような、プログラム可能なディジタルマイクロプロセッサーであってもよい。該処理装置がプログラム可能である場合、適切なプログラミングを、離れた場所からこの処理装置に伝達し、またはコンピュータープログラム製品中に予め保存することができる。例えば、磁気的なまたは光学的なディスクはプログラミングを保持することができるとともに、各処理装置とそれの対応する位置において交信する適切なディスクリーダーにより、読み取られることができる。
単数の要素について言及した場合には、複数の同一の要素が存在する可能性が含まれる。
「・・・ことができる」、「・・・場合がある」、または、「・・・得る」とは、任意選択的であることを意味する。
本明細書において記載した方法は、事象を記載の順序ばかりでなく、論理的に可能な任意の順番で実行することができる。
本出願において引用した全ての特許文献およびその他の参考文献は、本出願の内容と矛盾する場合を除き(その場合には、本出願が優先する)、参照により本出願に組み込まれるものとする。
本発明は、aCGHデータなどのCGHデータからの見かけ上の異常値が、例えば統計的に有効かどうか、あるいは、データに伴うノイズの分布範囲内にあるのかを決定するための方法、システムおよびコンピューター読み取り可能媒体を提供する。
図1に、CGHデータにおける見かけ上の異常を統計的に分析するために、本発明のシステムで実行できる処理ステップのフローチャートを示す。事象102において、例えば、aCGHアレイから読み取られるようなCGH割合値(割合値は比率値ともいう。以下同じ)のデータセットが入力される。このCGH割合値は次に、ステップ104において対数割合値へと変換される。該データセットにおける各対数割合値は次いで、以下の式のように、各対数割合値xに対するZ−正規化値を演算(または計算。以下同じ)することにより、Z−正規化される。
式中、
xは測定されたCGH割合の対数であり、
μは前記対数割合値の平均値であり、
σは前記対数割合値の集団における標準偏差である。
xは測定されたCGH割合の対数であり、
μは前記対数割合値の平均値であり、
σは前記対数割合値の集団における標準偏差である。
μおよびσの値を、単一染色体、全アレイ、または実験の全体の収集物にわたって得られた集合に基づいて計算することができる。代替的には、μおよびσの値を、これらの統計的パラメーターを特徴付けるために特別に設計された特定の較正実験から得ることができる。使用する集合の選択は実験の状況に依存し得る。例えば、もしCGH割合が得られた全てのアレイが同一の構成であり、かつ類似のプロトコールで処理されるのであれば、全アレイに渡る平均化がμおよびσの値のより正確な見積もり値を与え得る。しかし、もし使用されるアレイのタイプおよび/またはプロトコールや条件が異なり、その場合において、いくつかのアレイで他のアレイよりも値の分布が広くなるような場合は、アレイ毎に、あるいはアレイの部類毎に、値を計算することにより、より正確なμおよびσの見積もり値を得ることができる。さらに、XおよびY染色体(性別)についての、追加の検討/修正を行う必要があり得る。これらの値もまた、潜在的にμおよびσを間違って歪める可能性があるためである。即ち、通常は、XおよびY染色体についての値は、平均値および標準偏差値の較正のためには考慮されない。XおよびY染色体からの値を使用しないことにより、検討されるデータ間の性差は平均値および標準偏差値の計算に影響しなくなるであろう。しかし、男性および女性の情報源の間におけるこれらの染色体から生じる相違の数に対する補正が行われるならば、XおよびY染色体からのデータを平均および標準偏差の計算のために含めることができる。簡単のためには、記載されたように、検討されるデータに対しユーザーが性別の追跡を必要としなくてすむように、XおよびY染色体の値は考慮されない。
事象108において、Z−正規化値は、その値と所定のカットオフ値Zc(例えば、Zc=3)とを比較することにより、平均値μを大きく上回るか下回るか、もしくは、それらのいずれでもないかに分類される。所定のカットオフ値は3に限定されないが、ユーザーにより設定することができる。即ち、ユーザー指定値とすることができる。本システムは次いで、Zcより大きいか、またはZcの負数(すなわち、−Zc)より小さい値が、それぞれ平均値を顕著に上回るまたは下回るかどうかを決定する。
3つの分類におけるエントリの数は、次いで事象110において、事象108における分類の結果に基づき以下のように決定される。
R=Zcより大きいエントリの数(値の数)、
R’=−Zcより小さいエントリの数(値の数)、
N=測定(値)の総数
である。Z−正規化値(即ち、Z(x))およびR、R’およびNの数を、下記に示す次なる計算のために保存することができる。さらに、もし、ユーザーがZcの値を変更し、次いで事象108および 110を再計算することを決定した場合には、事象106において計算されたスコアを次なる処理のために再利用することができる。
R=Zcより大きいエントリの数(値の数)、
R’=−Zcより小さいエントリの数(値の数)、
N=測定(値)の総数
である。Z−正規化値(即ち、Z(x))およびR、R’およびNの数を、下記に示す次なる計算のために保存することができる。さらに、もし、ユーザーがZcの値を変更し、次いで事象108および 110を再計算することを決定した場合には、事象106において計算されたスコアを次なる処理のために再利用することができる。
理想的には、μおよびσに対するグローバルな統計は、μおよびσが病的でない試料の分布を表すように、遺伝的な異常を有しない試料に基づくものとすることができる。これらの全体的な統計を、例えば、コピー数の異常を有しないユーザーに対し入手可能な全てのアレイから、またはユーザーが定義したキャリブレーション(較正)アレイのセットから、計算することができる。しかし、全セット中に存在するなんらかの遺伝的異常が、全アレイに渡り平均化され、言い換えれば全染色体(XおよびY染色体を除く)に渡り平均化された時にμおよびσに対し小さなぶれのみを与えるという期待を伴って、アレイの全セットに対する統計をとるために近似の単純化を用いることができる。いくつかの染色体のみが、アレイの全セットにおける異常な挙動を典型的に示すので、統計値の平均化(または平均化統計)に対する増幅および欠失の寄与に対する期待は、全体的なグローバルな挙動と比較して小さいものと予測される。
aCGHデータに関して現在計算されている共通の統計は移動平均である。移動平均を計算する時、ポイントの小さなサブセットにわたって、対数割合(対数比)が平均化される。移動平均“ウインドウ”は、ウインドウの各位置について移動平均が計算されるデータ値のサブセットを画定するために、データ値のセットを通過する。この移動平均ウインドウ は、隣接する測定値の、いくつかの所定の数を単純に識別することができ、または、例えば、1メガベースを超えるような、ポジショナルウインドウ(positional window。または位置決めウインドウ)を覆う場合がある。これらの各ウインドウについてn個のエントリがある。
本発明のシステムは、事象106において計算された平均値から有意に逸脱し、かつウインドウ wの範囲内に位置する対数割合の過剰または不足を分析するためにウインドウ wを使用する。該ウインドウwに基づいて、この処理が行われると同時に移動平均を任意選択的に計算することができる。ウインドウ wの各々の位置に対して、事象110において計算されたものと類似の計数が行われ(事象112)、この時のみ、ウインドウ wにより同定されたサブセットについてのみ、計数は以下の通りである。
rはwにおけるZcより大きいエントリの数(値の数)であり、
r’はwにおける−Zcより小さいエントリの数(値の数)であり、
nはwにおける測定(値)の総数であり、
Rは全てのデータセットにおけるZcより大きいエントリの数(値の数)であり、
R’は全てのデータセットにおける−Zcより小さいエントリの数(値の数)であり、
Nは測定(値)の総数である。
rはwにおけるZcより大きいエントリの数(値の数)であり、
r’はwにおける−Zcより小さいエントリの数(値の数)であり、
nはwにおける測定(値)の総数であり、
Rは全てのデータセットにおけるZcより大きいエントリの数(値の数)であり、
R’は全てのデータセットにおける−Zcより小さいエントリの数(値の数)であり、
Nは測定(値)の総数である。
これらの数から、有意な正の偏差(即ち、推定上の増幅)を有する、wにおける過剰/不足の有意性を測定するためにZ−スコアを、以下のように計算することができる(事象114)。
同様に、有意な負の偏差(即ち、推定上の欠失)を有する、wにおける過剰/不足の有意性を測定するために、Z−スコアを、以下のように計算することができる。
式(2)および(3)から計算されたスコアは、移動平均をプロットするのと類似の方法でプロットすることができ(事象116)、該プロットは、次いで、所与の実験における値の典型的分布から逸脱するように見える、統計的に有意なプローブ群を示す。したがって、式(2)および(3)により計算された値から得られるプロットは、CGH研究における潜在的な増幅または欠失事象を識別するための予想ツールとして使用することができる。2次的なカットオフ値またはZ−スコアのカットオフ値であるZc’を、Z−スコアプロットの表示から、変化が統計的に重要でない領域を排除するために使用することができる(事象118)。ZcおよびZc’スコアのいずれかまたは両方を、所望であれば、結果として得られたプロットのユーザーによる視覚的分析にとって好適となるように、ユーザーによって変更または調整することができる。さらに、ユーザはウインドウの大きさwを指定することもできる。したがって、ユーザーはいくつかの合理的なウインドウの大きさを(例えば、アレイのカバー範囲がどのくらい密であるかに基づいて)指定することができ、ユーザーが計算にどのくらい厳密性を望むかに基づいてZcの値を指定することができる。例えば、比較的狭いウインドウサイズ(例えば、5Mb)および高いZc値(例えば、Zc=4)を、ほとんど統計的な異常を示さないように選択することができる。しかしながら、識別された統計的な異常は、それらが真の正の異常であることを非常に高い信頼性で示すであろう。あるいは、より多くの数の異常を識別するために、パラメーターをより緩和することができるが、全てが真の異常であるという信頼性は低くなる。上記したように、これらの計算は移動平均の計算と並行して容易に行うことができ、あるいは、その他の任意の計算と独立して行うことが可能である。
ウインドウの大きさおよびZc値についてのユーザーの選択は、そのパラメーターで実行した際に得られる視覚化の状態を見るか、または、これらのパラメーターが、検討中のデータの所与の特性を意味しているかを考慮することにより、幾分直感的に決定することができる。上記したように、Zc値は、それがどのような値であれ、ユーザーの所望どおりに決定することができ、すなわち、ユーザーは、統計的に有意であると決定した値にすることができる。典型的には、その値はZc=約2であり、これは、平均を超える2つの標準偏差である任意のポイントが(それは変更しうるが)、有意な偏差または異常を有すると考えられることを意味する。選択されたウインドウの大きさは、有用な測定が行われるようにウインドウサンプル中に十分な数のポイントを含むのに十分なものでなければならない。典型的には、ウインドウあたり約5〜10のデータポイントで十分である。しかし、Z−スコアリングのアルゴリズムは、任意のウインドウが統計的に関連するかどうかを示しうるものであり、ユーザーはさまざまな値で手動で試行し、観察しようとしている異常のタイプを最も良好に反映するための検討に基づいて選択することができる。狭い範囲の増幅または欠失の、その短い範囲は、検出のためには非常に狭いウインドウがあればすむであろうし、一方、全細胞バンド(cytoband)または染色体腕の増幅には、より大きなウインドウが必要とされるかもしれない。他方、1試料あたり1000ポイントを捕捉するためのウインドウの大きさは、ほとんどの場合にはあまりに大きすぎるウインドウであろう。本明細書中で論じられるスコアを迅速に計算し、インタラクティブな処理の一部を実行することができる。さらに、Z−スコアが平均値からの偏差の標準的単位として容易に理解される解釈を有しているために、本発明によるソリューションは、ユーザー/分析者が、直感的にカットオフ値を変更することを可能にし、および/または、彼らの好みに計算を合わせるために移動平均ウインドウの大きさを変更することを可能にする。このような改変の結果は数秒のうちに見ることができ、従って、全体的な試験的な分析の部分として有用である。
加えて、または、上述した2ステージZ−スコアリング手順に対する別の方法として、本システムは、ウインドウwの統計値、全体平均(グローバル平均)、標準偏差値であるμおよびσ(例えば、事象106において計算されたような)間のZ−テストまたはt−テストを計算することができる。前述の手順同様、この手順を、移動平均の計算と並行して実施することも、または独立して実施することも、または2ステージZ−スコアリング手順と共に実施することもできる。1サンプルのZ−テストは下記のように公式化できる。
式中、
nはウインドウwにおけるデータポイント(値)の数であり、
Xバーはウインドウwにおけるデータポイント(値)の平均値であり、
μおよびσは全体の集合、即ち、移動するごとにウインドウwが位置する全データセットにおける平均値および標準偏差である。全体平均(グローバル平均)μおよび全体標準偏差(グローバル標準偏差)σは正常であると仮定する。もしσが未知である場合、試料の標準偏差(即ち、ウインドウw内の値にのみ基づく標準偏差)を使用することができ、この場合、前記手順はZ−テストではなくt−テストとなる。いずれにしてもこの手順は、2ステップZ−スコアリング手順よりも単純かつ速い統計的なスコアリングの計算をもたらす。しかし、正常な分析について仮定がなされるために、これらの手順は、2ステップZ−スコアリング手順よりは、潜在的に正確性が低いものとなり得る。
nはウインドウwにおけるデータポイント(値)の数であり、
Xバーはウインドウwにおけるデータポイント(値)の平均値であり、
μおよびσは全体の集合、即ち、移動するごとにウインドウwが位置する全データセットにおける平均値および標準偏差である。全体平均(グローバル平均)μおよび全体標準偏差(グローバル標準偏差)σは正常であると仮定する。もしσが未知である場合、試料の標準偏差(即ち、ウインドウw内の値にのみ基づく標準偏差)を使用することができ、この場合、前記手順はZ−テストではなくt−テストとなる。いずれにしてもこの手順は、2ステップZ−スコアリング手順よりも単純かつ速い統計的なスコアリングの計算をもたらす。しかし、正常な分析について仮定がなされるために、これらの手順は、2ステップZ−スコアリング手順よりは、潜在的に正確性が低いものとなり得る。
いずれの方法であれ、一旦、最終的なZ−スコアを計算したならば、該Z−スコアを、移動平均をプロットするのと同様に、折れ線グラフとしてプロットすることができる。図2は典型的な表示(ディスプレイ)200を示し、該ディスプレイ上には、描画を可能な限り単純化するために、ある実験におけるZ−スコア212が移動平均210と比較してプロットされている。当然、本発明のシステムは、(しばしばそうなのであるが)複数の実験に対するZ−スコアおよび移動平均をプロットすることが可能である。
図示の例では、移動平均210およびZ−スコア212は選択された染色体(この例では、染色体17であり、各染色体のズームされていないビューを含む全体的地図中に略記され選択された202として示される)に関してプロットされており、この場合、選択された染色体はズームビュー(拡大または縮小表示であり、ここでは拡大表示)205中に示されている。Z−スコアのプロット212は、移動平均プロット210との間のより簡単な視覚的識別のため、ヒストグラムのようにより見えるようにするために、もともとのプロットに彩色してもよい。さらに、1以上の実験についてプロットする場合、彩色されたZ−スコアプロットは、透明性のためにアルファブレンドしてもよく、それにより、プロットが重なりあった場合に、データが不明瞭になるのを最小限にし、重なりあっている部分の検出が可能となる。2または3の同時に存在するプロットに対しては、重なっていて、異なって彩色されているプロットの色の配合に基づいて、様々な生じうる交差部分を識別することが可能である。図示の例では、Z−スコアプロット212は10分の1に減じられており、したがって、それにより、グラフスケールの位置(すなわち、±2、±4等)を挿入し、次いで、この値を10倍することにより、ユーザーが実際の値を読み取ることを可能にする。グラフスケール215は、移動平均の値については直接読み取ることができる。
染色体マッピングおよび特徴部分(または構造)の拡大化・縮小化についての詳細な記載は、米国特許出願番号第10/817,244号中に含まれており、当該文献はこの参照により本明細書に組み入れるものとする。この例では、ディスプレイ200の領域204は、実験データのアノテーション(注釈)、例えば、"Unigene ID" 241、"染色体" 242、"開始(hg16)" 243、"終了(hg16)" 244、名称 (hg16) 245、CLID 246、および名称247を表示するが、表示されるアノテーションは違うものであってもよい。また、描画の要件に合致させるにはあまりにも小さすぎることから、これらの各ヘッダー部分の下にある行の入力部(エントリ)250は省略される。カラム248は、種々の実験用アレイから収集した実際の実験データ値249を含む(数値およびテキストが描画の要件に合致させるにはあまりにも小さすぎることから、データ値は図示せず)。アレイを表示目的のために選択するとき(例えば、図示の例では実験「BT474」が選択された)、ディスプレイ上においてその実験に対するデータを識別するために色を割り当ててもよい。このことは、複数の実験についてのデータを表示する場合(例えば、図3に示すようなケースの場合)に特に有用である。
ボックス218は、上記の分類ステージに対して使用されたユーザー指定のZ−値またはZ−レベル(すなわちZc)を表示する。これは、上記のようなZ−正規化値を分類するためにユーザー指定のカットオフ値を、ユーザーが入力することを可能にする。異なるカットオフ値にしたがって同一のデータを処理するために、この値を変更することができ、この場合、調査対象のデータおよびユーザーの現在の目的のためにどの値が最も適切であるかを決定するために、ユーザーは、異なるカットオフ値による各測定実行から、ディスプレイを視覚的に分析することができる。
サイドバー214は、有意と考えられるZ−スコアに隣接してプロットされる。図示の例では、ゼロより大きいZ−スコアのみをプロットする。推定上の増幅に対応するスコアをゼロの右にプロットし、推定上の欠失に対応するスコアをゼロの左にプロットする。例えば、2以上の実験をプロットし、図3に示すように、複数のZ−スコアプロット212(および、任意選択的に、複数の移動平均プロット210)が存在する場合は、各実験に関するサイドバーのために個別のカラムを使用する。さらに、プロット210および212を、各実験がカラーキーの隣に現れるように表示して、各実験に対してカラーコード化することができる。次に、サイドバー214を、同じスキームにしたがってカラーコード化することができる。また、サイドバー214は、サイドバーを表示するための要件を満たすデータが存在する全体ビューの中の全ての染色体地図に対してプロットされる。典型的には、移動平均プロット210およびZ−スコアプロット212は、全体ビュー中でより小さな染色体と隣接しては含まれない。なぜならば、それらは、例えば、図2および3に示されるように、そのようにオプションとして表示できる場合もあるが、読み取りが困難となるからである。そのようなオプションは、例えば、単一の実験についてのみ表示するような場合、すなわち、比較的単純な表示が存在する場合に、採用することができる。
移動平均プロット210、Z−スコアプロット212、およびサイドバー214のディスプレイにおけるズームビューを230に示す。カーソル213は、図示されているものに関して展望するためのズームビュー中のカーソル233として、染色体に対して同一の位置に対応している。このビューにおける他のデータに沿って、転写産物236を、それらが染色体上で見られる場所に対応する位置にプロットすることができることを知りうる程度に、このビューは十分な細部と空間を含む。このビューはさらに、大きく変化していることが予想される1以上の転写産物についてユーザーがよく知っている場合があるので、ユーザーの視覚的分析に役立ち、また、視覚化が、それを有意な値のZ−スコアプロット212の1つの近くに見えるように示す場合は、生じているメカニズムを説明しようとする際に、分析に使用する更なる確証/情報として機能する。実験で使用されたマイクロアレイが注釈付きの転写産物をたとえ含んでいなくても、ゲノムが知られているから、本発明のシステムは依然として影響を受けた転写産物を同定することができる。
さらに、オプションとして、全ての実験データ値220の散布点を、図4に示すようにビュー205および230の両方にプロットすることもできる。
図5は、図3のディスプレイの部分205および230のズームビューを示し、そこでは、全ての染色体の全体ビューは示されていないが、移動平均データ210、Z−スコアデータ212、およびサイドバー214などのデータはより詳細に見ることができる。図6は同様のズームビューを示すが、「selected experiment」(選択された実験)表示部)222に示されるように、8つの実験に対するデータを示す。移動平均データは、表示されないように選択され、Z−スコアデータ212のより明確な視覚化がもたらされる。
さらに、本発明のシステムは、生データ(例えば、Z−スコアに隣接するアレイデータ)をスプレッドシート形式ファイル(例えば、Microsoft Excel(登録商標)ファイルなど)で出力するテキスト記録装置(テキストリポーター)を提供する。そのように出力された生データの例としての部分400を図7に示す。さらにまた、本発明のシステムは、例えば、ヒートマップ(heat map)またはその他の視覚的グラフ表現の形式などの図式形態で異常の要約を表示することができる。同時係属中の、同一出願人による、2004年9月29日に出願された、「Method and System for Analysis of Array−Based Comparative−Hybridization Data」と題する米国特許出願(出願番号はまだ割り当てられておらず、代理人整理番号はNo.10040244-2)には、異常の要約における異常のデータのグラフ表示についてより詳細に記載されている。この米国特許出願(出願番号はまだ割り当てられていないが、代理人整理番号がNo.10040244-2)は参照により本明細書中にその全内容を組み込むものとする。
例えば、ビュー204のカラム上をクリックすることにより実験データを単純に選択する(この実験データから、Z−スコアプロット212、および必要に応じて移動平均プロット210をプロットする)ための代替手段として、本発明のシステムはまたインターフェース500(図8参照)を提供し、この場合、ユーザーが、506で選択された染色体の入力に関する実験値の選択のために、増幅Z−スコア閾値502および欠失Z−スコア閾値504を入力することができる。特定の実験からのデータを表示するためには、その実験に対する少なくとも1つのZ−スコア値が、入力された増幅Z−スコア閾値502を超える必要があり、あるいは、その実験に対する少なくとも1つのZ−スコア値が、入力された欠失Z−スコア閾値504を超える必要がある。一旦、ある実験が、記載された基準の一つを満たすことによって「承認」されれば、その実験に対する全データセットが表示される。
図9は、本発明の1実施形態にしたがった典型的なコンピューターシステムを示す。コンピューターシステム1000は、任意の数のプロセッサー1002(中央演算装置(CPU)とも称される)を含み、それらは、一次記憶装置1006(通常、ランダムアクセスメモリー(RAM))、一次記憶装置1004(通常、読み取り専用メモリ(ROM))などの記憶装置と接続している。当技術分野においては周知であるように、一次記憶装置1004はデータと命令をCPUへ一方方向で転送するように機能し、一次記憶装置1006は通常、データと命令を双方向で転送するために使用される。これら両方の一次記憶装置は、上記したようないずれかの適切なコンピューター読み取り可能媒体を含んでもよい。大容量記憶装置1008も双方向的にCPU1002に接続し、付加的データ記憶容量を提供し、上記したコンピューター読み取り可能媒体の任意のものを含むことができる。大容量記憶装置1008は、プログラム、データ等を保存するために使用されることができ、通常は、一次記憶装置よりは遅いハードディスクなどの二次的な記憶媒体である。適切なケースにおいては、大容量記憶装置1008内に保持されている情報を、仮想メモリとしての一次記憶装置1006の一部として、標準的な様式で組み込めることが理解されるであろう。CD−ROMまたはDVD−ROM 1014などの特定の大容量記憶装置もデータをCPUへ一方方向に伝達することができる。
また、CPU1002は、例えば、ビデオモニター、トラックボール、マウス、キーボード、マイクロフォン、タッチセンシティブ・ディスプレイ、トランスデューサーカード・リーダー、磁気製もしくは紙製テープリーダー、タブレット、スタイラス、音声または手書き認識装置、または他のよく知られた入力装置(当然、例えば、他のコンピューター)などの1以上の入力/出力装置を含むインターフェース1010と接続している。最後に、オプションとして、CPU1002は、1012において一般的に示されるようなネットワーク接続を用いてコンピューターまたは通信ネットワークに接続していてもよい。そのようなネットワーク接続を用いることにより、CPUが、上述の方法ステップを実行している間に、ネットワークから情報を受信するか、またはネットワークへ情報を発信しうることが意図されている。上記装置および物質(または材料)は、コンピューターハードウェアおよびソフトウェア技術分野の当業者にはよく知られたものであろう。
上記ハードウェア要素は、本発明の機能/動作を実行するための複数のソフトウェアモジュールの命令を実行することができる。例えば、Z−スコアを計算するための命令を、大容量記憶装置1008または1014に保存し、一次メモリ1006と協働してCPU 1008において実行することができる。
CGHデータにおける見かけ上の異常を統計的に分析する方法を、ハードウェアおよび/またはソフトウェアにおいて実行することができ、この場合、前記CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含む。この方法は、所定の大きさのウインドウによって画定されたCGH割合値のセットのサブセットを考慮するステップと、前記CGH割合のセットに由来する統計に対する、上記ウインドウ内のデータ間のZ−テストを以下の式により演算するステップを含む。
式中、
ZはZ−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
σは前記セットにおける値の標準偏差である。ウインドウ内における値のサブセットの移動平均も計算される。
ZはZ−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
σは前記セットにおける値の標準偏差である。ウインドウ内における値のサブセットの移動平均も計算される。
さらにこのような方法は、CGH割合のセットの他のサブセットを画定するために所定の量だけ増分式に所定の大きさのウインドウを移動させるステップと、前記の演算ステップ及び計算ステップを繰り返すステップを含むことができる。
上記移動させるステップおよび繰り返すステップを、セットの全要素が、少なくとも1つのサブセットにおいて、検討されるまで繰り返すことができる。
本発明の方法はさらに、Z−テストの計算値および移動平均の計算値をプロットするステップを含む。
このプロットするステップは、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、染色体地図に隣接してZ−テスト値および移動平均値をそれぞれプロットするステップを含むことができる。
ウインドウの大きさは変更することができ、この場合、上記の演算ステップ及び計算ステップを実施するために処理を繰り返すことができる。
CGHデータはaCGHデータであり得る。
CGH割合値は対数割合であり得る。
CGHデータにおける見かけ上の異常を統計的に分析する方法を実行することができ、この場合、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含む。この方法は、所定の大きさのウインドウによって画定されたCGH割合のセットのサブセットを考慮するステップと、CGH割合のセットに由来する統計に対するウインドウ内のデータ間のt−テストを、以下の式により演算するステップを含む。
式中、
tはt−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
sは前記ウインドウ内における値の標準偏差である。ウインドウ内における値のサブセットの移動平均も計算される。
tはt−テストの計算値であり、
nは前記ウインドウ内の値の数であり、
Xバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
sは前記ウインドウ内における値の標準偏差である。ウインドウ内における値のサブセットの移動平均も計算される。
所定の大きさのウインドウを、CGH割合のセットの他のサブセットを画定するために所定の量だけ増分式に移動させることができ、この場合、上記演算ステップ及び計算ステップを繰り返すことができる。
上記移動させるステップおよび繰り返すステップを、セットの全要素が、少なくとも1つのサブセットにおいて検討されるまで繰り返すことができる。
さらに、t−テストの計算値および移動平均の計算値をプロットすることができる。
このプロットには、t−テスト値および移動平均値を、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、染色体地図に隣接してそれぞれプロットすることを含めることができる。
さらに、ウインドウの大きさを変更することができ、次いで上記演算ステップ及び計算ステップを繰り返すことができる。
CGHデータはaCGHデータであり得る。
CGH割合値は対数割合であり得る。
CGHデータにおける見かけ上の異常を統計的に分析するための方法が提供される。ここで、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列される。この方法は、CGH割合値のセットを検討し、各CGH割合値に対するZ−正規化値を演算するステップ、Z−正規化値を、所定のカットオフ値に基づき分類するステップ、所定のカットオフ値より大きなZ−正規化値の数、所定のカットオフ値の負数より小さなZ−正規化値の数、およびZ−正規化値の総数を数えるステップ、所定の大きさのウインドウによって画定されたCGH割合のセットのサブセットを検討するステップ、および、サブセットにおける、少なくとも1つの有意な正の偏差および有意な負の偏差における、少なくとも1つの過剰および不足の有意性(または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性)を測定するためにZ−スコアを演算するステップを含む。
このような方法はさらに、CGH割合のセットの他のサブセットを画定するために所定の量だけ増分式に所定の大きさのウインドウを移動させるステップと、上記演算ステップを繰り返すステップを含むことができる。
上記移動させるステップおよび繰り返すステップを、セットの全要素が、少なくとも1つのサブセットにおいて検討されるまで繰り返すことができる。
本発明の方法はさらに、少なくとも1つのZ−スコアをプロットするステップを含むことができる。
このプロットするステップは、少なくとも1つのZ−スコアを、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、染色体地図に隣接してプロットするステップを含むことができる。
さらに、ウインドウ内の値のサブセットの移動平均を計算することができる。このような計算をウインドウによって増分式に画定された各サブセットについて実行することができる。
Z−スコアおよび移動平均を、同じ表示部にプロットすることができる。
Z−スコアおよび移動平均を、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、少なくとも1つの染色体地図に隣接してそれぞれプロットすることができる。
所定のカットオフ値は変更することができ、この場合、Z−正規化値を分類し、Z−正規化値の数を数え、さらにZ−スコアを演算するステップを、変更された所定のカットオフ値に基づき繰り返すことができる。
さらに、ウインドウの大きさを変更することができ、CGH割合のセットのサブセットを検討するステップを、大きさが変更されたウインドウにより画定されたサブセットについて繰り返すことができる(これから、Z−スコアを演算することができる)。
CGHデータはaCGHデータであり得る。
CGH割合値は対数割合であり得る。
各Z−正規化値は下式により計算することができる。
式中、
Z(x)は前記Z−正規化値であり、
xは測定されたCGH割合の対数であり、
μは対数割合値の平均値であり、
σは前記セットにおける対数割合値の集合の標準偏差である。
Z(x)は前記Z−正規化値であり、
xは測定されたCGH割合の対数であり、
μは対数割合値の平均値であり、
σは前記セットにおける対数割合値の集合の標準偏差である。
Z−スコアは下式により計算することができる。
式中、
Z(w)はZ−スコアであり、
Rは所定のカットオフ値より大きい計数されたZ−正規化値の数であり、
NはZ−正規化値の総数であり、
rは所定のカットオフ値より大きいウインドウ内のZ−正規化値の数であり、
nはウインドウ内のZ−正規化値の総数である。
Z(w)はZ−スコアであり、
Rは所定のカットオフ値より大きい計数されたZ−正規化値の数であり、
NはZ−正規化値の総数であり、
rは所定のカットオフ値より大きいウインドウ内のZ−正規化値の数であり、
nはウインドウ内のZ−正規化値の総数である。
さらに、Z−スコアは下式により演算することができる。
式中、
Z(w)はZ−スコアであり、
R’は所定のカットオフ値の負数より小さい計数されたZ−正規化値の数であり、
NはZ−正規化値の総数であり、
r’は所定のカットオフ値の負数より小さいウインドウ内におけるZ−正規化値の数であり、
nはウインドウ内のZ−正規化値の総数である。
Z(w)はZ−スコアであり、
R’は所定のカットオフ値の負数より小さい計数されたZ−正規化値の数であり、
NはZ−正規化値の総数であり、
r’は所定のカットオフ値の負数より小さいウインドウ内におけるZ−正規化値の数であり、
nはウインドウ内のZ−正規化値の総数である。
本発明の方法はさらに、データのセットに由来する統計に対する、ウインドウ内のデータ間におけるZ−テストを以下の式により演算するステップを含むことができる。
式中、
ZはZ−テストの計算値であり、
nはウインドウ内の値の数であり、
Xバーはウインドウ内の値の平均値であり、
μはセットにおける値の平均値であり、
σはセットにおける値の標準偏差である。
ZはZ−テストの計算値であり、
nはウインドウ内の値の数であり、
Xバーはウインドウ内の値の平均値であり、
μはセットにおける値の平均値であり、
σはセットにおける値の標準偏差である。
本発明の方法はさらに、データのセットに由来する統計に対する、ウインドウ内のデータ間におけるt−テストを以下の式により演算するステップを含むことができる。
式中、
tはt−テストの計算値であり、
nはウインドウ内の値の数であり、
Xバーはウインドウ内の値の平均値であり、
μはセットにおける値の平均値であり、
sはウインドウ内における値の標準偏差である。
tはt−テストの計算値であり、
nはウインドウ内の値の数であり、
Xバーはウインドウ内の値の平均値であり、
μはセットにおける値の平均値であり、
sはウインドウ内における値の標準偏差である。
本システムはさらに、CGH割合のセットの他のサブセットを画定するために所定の量だけ増分式に所定の大きさのウインドウを移動させるための手段と、前記演算ステップを繰り返すための手段を含むことができる。
本発明のシステムはさらに、Z−スコアをプロットするための手段を含むことができる。
さらに、本発明のシステムは、染色体地図を表示するための手段を含むことができ、その場合、プロットするための手段は、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、Z−スコアを、各Z−スコアについて、染色体地図に隣接してプロットする。
ウインドウ内の値のサブセットの移動平均を計算するための手段を、本システムにより提供することができる。
この計算するための手段は、ウインドウの各々の移動により画定された値の各サブセットにおける移動平均を計算するための手段を含むことができる。
本システムは、Z−スコアおよび移動平均をプロットするための手段を含むことができる。
本システムは、さらに、染色体地図を表示するための手段を含むことができ、この場合、プロットするための手段が、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、Z−スコアおよび移動平均を、各Z−スコアについて染色体地図に隣接してプロットする。
本システムは、さらに、所定のカットオフ値を変更するための手段および、変更された所定のカットオフ値に基づくZ−スコア値の分類、Z−スコア数の計数、及びZ-スコア処理の演算を繰り返すための手段を含むことができる。
さらに、本システムはウインドウの大きさを変更し、大きさが変更されたウインドウにより画定されたCGH割合のセットのサブセットの検討およびZ−スコアの演算を繰り返すための手段を含むことができる。
本システムにより処理されるCGHデータは、aCGHデータであり得る。
本システムはさらに、CGH割合値からCGH対数割合を計算するための手段を含むことができる。
本システムは、CGHデータのセットに由来する統計(値)に対する、ウインドウ内のデータ間のZ−テストを演算するための手段を含むことができる。
本システムはさらに、データのセットに由来する統計(値)に対する、ウインドウ内のデータ間のt−テストを演算するための手段を含むことができる。
CGHデータにおける見かけ上の異常を統計的に分析するためのシステムを提供することができる。この場合、CGHデータは、CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含む。各CGH割合値に対するZ−スコア値が演算され、Z−スコアが所定のカットオフ値に基づいて分類され、さらに、所定のカットオフ値より大きなZ−スコアの数、所定のカットオフ値の負数より小さなZ−スコアの数、およびZ−スコアの総数が計数される。システムは、所定の大きさのウインドウによって画定されたCGH割合のセットのサブセットを検討するための手段、および、サブセットにおける、少なくとも1つの有意な正の偏差および有意な負の偏差における、少なくとも1つの過剰および不足の有意性(または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性)を測定するためにZ−スコアを演算するための手段を含む。
このようなシステムはさらに、CGH割合のセットの他のサブセットを画定するために、CGH割合のセットに伴って所定の量だけ増分式に所定の大きさのウインドウを移動させるための手段、および、Z−スコアの演算を繰り返すための手段を含むことができる。
本システムはさらに、セットの全要素が、少なくとも1つのサブセットにおいて検討されるまで、上記繰り返し及び移動の処理を繰り返すことができる。
本システムはさらに、単数または複数のZ−スコアをプロットするための手段を含むことができる。
本システムは、染色体地図を表示するための手段を含むことができる。この場合、プロットするための手段は、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、Z−スコアを、各Z−スコアについて、染色体地図に隣接してプロットする。
本システムはさらに、ウインドウ内の値のサブセットにおける移動平均を計算するための手段を含むことができる。
本システムはさらに、ウインドウの各々の移動により画定された値の各サブセットの移動平均を計算するための手段を含むことができる。
本システムはさらに、Z−スコアおよび移動平均をプロットするための手段を含むことができる。
本システムはさらに、染色体地図を表示するための手段を含むことができる。この場合、プロットするための手段は、ウインドウ内のCGHスコアが由来した物質の位置に対応する領域に、Z−スコアおよび移動平均を、各移動平均およびZ−スコアについて、染色体地図に隣接してプロットする。
本システムはさらに、ウインドウの大きさを変更し、さらに、大きさが変更されたウインドウにより画定されたCGH割合のセットのサブセットの検討(考慮)及びZ−スコアの演算を繰り返すための手段を含むことができる。
本システムにより処理されるCGHデータは、aCGHデータであり得る。
本システムはさらに、CGH割合値をCGH対数割合値に変換するための手段を含むことができる。
本システムはさらに、所定のカットオフ値を超える正の値を有するプロットされたZ−スコアに隣接して、および、所定のカットオフ値の負数を下回る(または上回る)負の値を有するZ−スコアに隣接して、インジケーターを表示するための手段を含むことができる。
本システムは、サイドバーをインジケーターとして表示することができる。
本システムはさらに、プロットされたZ−スコアのズームビューを表示するための手段を含むことができる。
本システムは、既知の転写産物を、それらが存在する染色体上の位置に隣接させて、ズームビュー内に表示するための手段を含むことができる。
本システムは、図式的な(グラフィカルな)異常の要約(概要)を表示するための手段を含むことができる。
図式的な異常の要約を表示するための前記手段は、前記の図式的な異常の要約を、色符号化(カラーコード化)されたヒートマップの形式で表示することができる。
図式的な異常の要約の表示とプロットされたZ−スコアの表示をリンクすることができ、これにより、表示部の1つにおいてエントリ(入力部)を選択すると、他方の表示部のカーソルを同じエントリへとナビゲート(または移動)させる。
本システムはaCGHデータを処理することができ、さらに、Z−スコアを演算するためにaCGHデータの複数のアレイを検討(考慮)し、処理することができ、さらに、本システムは、複数のアレイに関する前記Z−スコアの複数のプロットをプロットするための手段を含むことができる。
本システムはさらに、複数のアレイのどれがZ−スコアをプロットするためのものであるかを決定するための基準をユーザーが選択するためのインターフェースを含むことができる。
本発明の実施形態はさらに、コンピューターで実行される各種処理を実行するための、プログラム命令および/またはデータ(データ構造を含む)を含む、コンピューター読み取り可能媒体またはコンピュータープログラム製品に関する。媒体およびプログラム命令は、本発明の目的のために特別に設計され、作成されたものであってよく、または、コンピューターソフトウエア分野における当業者には周知であると共に利用可能な種類のものであってよい。コンピューター読み取り可能媒体の例は、限定はしないが、ハードディスク、フロッピーディスクおよび磁気テープなどの磁気的な媒体、CD−ROM、CD−RW、DVD−ROM、またはDVD−RWディスクのような光学的な媒体、フロプティカル・ディスクのような光磁気的な媒体、およびリードオンリーメモリーデバイス(ROM)およびランダムアクセスメモリー(RAM)などの、プログラム命令を保存および実行するために特別に構成されたハードウエアデバイスを含む。プログラム命令の例は、コンパイラにより作成された等の機械コードと、インタープリタ(解釈プログラム)を用いてコンピューターによって実行することができるより高レベルのコードを含むファイルとの両方を含む。
このようなコンピューター読み取り可能媒体は、CGHデータにおける見かけ上の異常を統計的に分析するための1以上の命令のシーケンスを保持することができる。この場合、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列される。1以上の処理装置による1以上の命令のシーケンスの実行によって、その1以上の処理装置に、CGH割合値のセットを考慮して、各CGH割合値に対するZ−スコア値を演算するステップ、Z−スコア値を所定のカットオフ値に基づき分類するステップ、所定のカットオフ値より大きなZ−スコアの数、所定のカットオフ値より小さなZ−スコアの数、およびZ−スコアの総数を数えるステップ、所定の大きさのウインドウによって画定されたCGH割合のセットのサブセットを検討する(考慮する)ステップ、そして、サブセットにおける、少なくとも1つの有意な正の偏差および有意な負の偏差における、少なくとも1つの過剰および不足の有意性(または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性)を測定するためにZ−スコアを演算するステップを実行させる。
このようなコンピューター読み取り可能媒体は、CGHデータにおける見かけ上の異常を統計的に分析するため1以上の命令のシーケンスを保持することができる。この場合、CGHデータは、該CGHデータが由来した染色体上の物質の位置に対応して配列されたCGH割合値のセットを含み、Z−スコア値が各CGH割合値に対して演算され、そのZ−スコアが所定のカットオフ値に基づき分類され、所定のカットオフ値より大きなZ−スコアの数、所定のカットオフ値の負数より小さなZ−スコアの数、およびZ−スコアの総数が数えられる。1以上の処理装置による1以上の命令のシーケンスの実行によって、1以上の処理装置に、所定の大きさのウインドウによって画定されたCGH割合のセットのサブセットを検討するステップと、サブセットにおける、少なくとも1つの有意な正の偏差および有意な負の偏差における、少なくとも1つの過剰および不足の有意性(または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性)を測定するためにZ−スコアを演算するステップを実行させる。
Z−値の有意性に関する閾値は、ユーザーによって幾分主観的に設定され得る。典型的には、3より大きいZ−値は有意であると考えられるが、2より大きいZ−値が有意であると考えるユーザーもいる。したがって、Z−正規化値を分類するためにZcの値を選択する時には、ユーザーは典型的に2または3の値を選択するであろう。しかし、それらのほとんどが常に有意なZ−スコアを示すように、本発明のシステムおよび方法で決定されるほとんどの最終的なZ−スコア(即ち、Zcではなく、計算されたZ−スコア)は5〜15またはそれ以上である。3というZ−スコアは(この値が行き当たりばったりのものではなく)約95%の信頼性レベルに相当する。従って、10というZ−スコアは通常、観察された異常がでたらめに生じているのではないという、非常に高い可能性に相当する。しかし、通常、Z−スコアは、異常が現実であるという確実な証拠であることを意図したものではなく、重要な異常が存在する場所を統計的に示すことを意図している。したがって、異常が適切に統計的に有意であるかどうかを決定すること、および、(より重要なことであるが)そのような異常が生物学的に有意(顕著)であり、目前の研究に関連しているかどうかを決定することは、ユーザーに依存している。本発明の方法は、分析が多くの実験とともに行われ、結果が、全てある統計的に重要な異常に合致している時に特に興味深い。このような場合において、検討対象とする疾患のメカニズムに、重要となる場合がある共通の異常が強く示唆される。
本発明は、CGHデータ内の見かけ上の異常を統計的に分析するための方法、システム、及びコンピュータ読み取り可能媒体に関する。CGHデータは、該CGHデータが取得されたところの染色体上の物質の位置に対応して配列される。1組のCGH比率値が検討されて(すなわち、考慮されて)、Z−スコア値が各CGH比率値について計算される(106)。Z−スコア値は、所定のカットオフ値に基づいて分類される(108)。所定のカットオフ値よりも大きいZ−スコアの数が計数され、所定のカットオフ値の負数よりも小さいZ−スコアの数が計数され、Z−スコアの総数が計数される。1組のCGH比率のサブセットが検討されるが、サブセットは所定のサイズのウインドウによって画定される。2次的なZ−スコアが計算されて、サブセットにおける有意な正偏差と有意な負偏差の少なくとも一方についての過剰と不足の少なくとも一方の有意度が求められる。
本発明を特定の実施形態を参照して説明したが、当業者には、各種の変更が可能であり、本発明の真の思想および範囲を逸脱することなく等価物での置換が可能であることが理解されるべきである。さらに、本発明の目的、思想および範囲に対して、特定の状況、素材、物質の組成、処理、処理ステップ(複数も含む)に適合させるための多くの変更が可能である。このような全ての変更は本明細書に添付の特許請求の範囲の範囲内であることが意図されている。
210 移動平均
212 Z−スコア
214 サイドバー
230 ズームビュー
1002 プロセッサ
1004、1006 一次記憶装置
1008 大容量記憶装置
1010 インターフェース
212 Z−スコア
214 サイドバー
230 ズームビュー
1002 プロセッサ
1004、1006 一次記憶装置
1008 大容量記憶装置
1010 インターフェース
Claims (24)
- CGHデータにおける見かけ上の異常を統計的に分析するためのシステムであって、1組のCGHデータが染色体上の物質の位置に対応して配列され、前記CGHデータは前記物質から得られ、
1組のCGH割合値を入力するための手段(102)と、
各CGH割合値に対するZ−正規化値を計算するための手段(106)と、
所定のカットオフ値に基づいて前記Z−正規化値を分類するための手段(108)と、
前記所定のカットオフ値より大きなZ−正規化値の数、前記所定のカットオフ値の負数より小さなZ−正規化値の数、およびZ−正規化値の総数を数えるための手段と、
所定の大きさのウインドウによって画定された1組のCGH割合のサブセットを考慮するための手段(112)と、
前記サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意度を測定するためにZ−スコアを計算するための手段(114)
を備える、システム。 - 前記1組のCGH割合のセットの他のサブセットを画定するために、所定の増分量だけ所定の大きさのウインドウを移動させるための手段と、前記計算するステップを繰り返すための手段をさらに備える、請求項1に記載のシステム。
- 前記ウインドウ内における値のサブセットの移動平均を計算するための手段をさらに備える、請求項1または2に記載のシステム。
- 前記ウインドウの各々の移動により画定された値の各サブセットの移動平均を計算するための手段をさらに備える、請求項2に記載のシステム。
- 前記Z−スコア(212)をプロットするための手段をさらに備える、請求項2〜4のいずれか1項に記載のシステム。
- 染色体地図を表示するための手段をさらに備える請求項5に記載のシステムであって、前記プロットするための手段が、前記ウインドウ内の前記CGHスコアが由来した物質の位置に対応する領域に、前記Z−スコア(212)を、各Z−スコアについて、染色体地図(205)に隣接してプロットすることからなる、システム。
- 前記移動平均(210)をプロットするための手段をさらに備える、請求項3〜6のいずれか1項に記載のシステム。
- 前記所定のカットオフ値を変更するための手段と、変更された所定のカットオフ値、Z−正規化値の数の前記計数、およびZ−スコアの前記計算に基づいて、前記Z−正規化値の分類を繰り返すための手段とをさらに備える、請求項1〜7のいずれか1項に記載のシステム。
- 前記ウインドウの大きさを変更し、大きさが変更されたウインドウにより画定された1組のCGH割合のサブセットの前記考慮とZ−スコアの前記計算とを繰り返すための手段をさらに備える、請求項1〜8のいずれか1項に記載のシステム。
- 前記CGHデータがaCGHデータである、請求項1〜9のいずれか1項に記載のシステム。
- 前記CGH割合値からCGH対数割合を計算するための手段をさらに備える、請求項1〜10のいずれか1項に記載のシステム。
- 前記1組のCGHデータから得られた統計に対して、前記ウインドウ内のデータ間のZ−テストを計算するための手段をさらに備える、請求項1〜11のいずれか1項に記載のシステム。
- 前記1組のデータから得られた統計に対して、前記ウインドウ内のデータ間のt−テストを計算するための手段をさらに備える、請求項1〜11のいずれか1項に記載のシステム。
- 前記所定のカットオフ値を上回る値を有するプロットされたZ−スコアに隣接してインジケーターを表示するための手段をさらに備える、請求項1〜13のいずれか1項に記載のシステム。
- 前記インジケーターがサイドバー(214)を含む、請求項14に記載のシステム。
- Z−スコアのズームビュー(230)を表示するための手段をさらに備える、請求項1〜15のいずれか1項に記載のシステム。
- 既知の転写産物を、それらが存在する染色体上の位置に隣接して、前記ズームビュー(230)内に、表示するための手段をさらに備える、請求項16に記載のシステム。
- 前記CGHデータがaCGHデータであり、aCGHデータの複数のアレイを考慮し、処理してZ−スコアを計算し、前記システムが、前記複数のアレイに関連した前記Z−スコアの複数のプロットをプロットするための手段を備えることからなる、請求項1〜17のいずれか1項に記載のシステム。
- 前記複数のアレイのどれがZ−スコアをプロットするためのものであるかを決定するための基準をユーザーが選択するためのインターフェースをさらに備える、請求項18に記載のシステム。
- CGHデータ値の種々の図式的な表現、および、前記CGHデータ値における見かけ上の異常を表示するためのユーザーインターフェースを含む請求項1〜18のいずれか1項に記載のシステムであって、前記ユーザーインターフェースが、
染色体地図(205)を表示するための手段と、
前記CGHデータ値が得られた物質の位置に対応する領域に、該CGHデータ値を特徴づける異常の統計的なスコアを前記染色体地図に隣接してプロットするための手段
を備えることからなる、システム。 - 前記ユーザーインターフェースが、前記CGHデータ値における見かけ上の異常を特徴付ける統計的なスコア(210、212)をオーバーレイするための手段をさらに備える、請求項20に記載のシステム。
- 前記ユーザーインターフェースが、前記CGHデータ値を散布図として表示する、請求項20または21に記載のシステム。
- CGHデータにおける見かけ上の異常を統計的に分析する方法であって、前記CGHデータが、該CGHデータが得られた染色体上の物質の位置に対応して配列され、該方法が、1組のCGH割合値を考慮し、各CGH割合値に対するZ−正規化値を計算するステップ(106)と、
所定のカットオフ値に基づいて前記Z−正規化値を分類するステップ(108)と、
前記所定のカットオフ値より大きなZ−正規化値の数、前記所定のカットオフ値の負数より小さなZ−正規化値の数、およびZ−正規化値の総数を数えるステップと、
所定の大きさのウインドウによって画定された1組のCGH割合のサブセットを考慮するステップと、
前記サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意度を測定するためにZ−スコアを計算するステップ(114)
を含む、方法。 - CGHデータにおける見かけ上の異常を統計的に分析する方法であって、前記CGHデータが、該CGHデータが得られた染色体上の物質の位置に対応して配列された1組のCGH割合値を含み、各CGH割合値に対するZ−スコア値が計算されており、該Z−スコアが所定のカットオフ値に基づいて分類されており、さらに、前記所定のカットオフ値より大きなZ−スコアの数、前記所定のカットオフ値の負数より小さなZ−スコアの数、およびZ−スコアの総数が計数されており、
所定の大きさのウインドウによって画定された1組のCGH割合のサブセットを考慮するステップと、
前記サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意度を測定するために2次的なZ−スコア(114)を計算するステップ
を含む、方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/964,524 US20050112689A1 (en) | 2003-04-04 | 2004-10-12 | Systems and methods for statistically analyzing apparent CGH data anomalies and plotting same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006114037A true JP2006114037A (ja) | 2006-04-27 |
Family
ID=35708388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005294347A Pending JP2006114037A (ja) | 2004-10-12 | 2005-10-07 | 比較ゲノムハイブリダイゼーション(cgh)データの見かけ上の異常を統計的に分析しプロットするためのシステムおよび方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050112689A1 (ja) |
EP (1) | EP1647911A3 (ja) |
JP (1) | JP2006114037A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021510435A (ja) * | 2018-01-10 | 2021-04-22 | メモリアル スローン ケタリング キャンサー センター | 生ゲノムデータに基づく構成可能テキスト文字列の生成 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060173634A1 (en) * | 2005-02-02 | 2006-08-03 | Amir Ben-Dor | Comprehensive, quality-based interval scores for analysis of comparative genomic hybridization data |
JP2008161056A (ja) * | 2005-04-08 | 2008-07-17 | Hiroaki Mita | Dna配列解析装置、dna配列解析方法およびプログラム |
US20070136115A1 (en) * | 2005-12-13 | 2007-06-14 | Deniz Senturk Doganaksoy | Statistical pattern recognition and analysis |
US20090030752A1 (en) * | 2007-07-27 | 2009-01-29 | General Electric Company | Fleet anomaly detection method |
KR20100097139A (ko) * | 2007-11-08 | 2010-09-02 | 유니버시티 오브 워싱톤 | 균형성 전좌 중지점의 dna 마이크로어레이 기반의 확인 및 맵핑 |
US20110301862A1 (en) * | 2010-06-04 | 2011-12-08 | Anton Petrov | System for array-based DNA copy number and loss of heterozygosity analyses and reporting |
CN105814409B (zh) | 2013-12-19 | 2017-10-13 | 三菱电机株式会社 | 图表生成装置、图表显示装置、图表生成方法以及图表显示方法 |
US10387412B1 (en) * | 2015-02-12 | 2019-08-20 | Cloud & Stream Gears Llc | Incremental Z-score calculation for big data or streamed data using components |
US10394810B1 (en) * | 2015-02-12 | 2019-08-27 | Cloud & Stream Gears Llc | Iterative Z-score calculation for big data using components |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4383994A (en) * | 1982-01-19 | 1983-05-17 | Mccully Kilmer S | Homocysteine thiolactone salts and use thereof as anti-neoplastic agents |
US6096273A (en) * | 1996-11-05 | 2000-08-01 | Clinical Micro Sensors | Electrodes linked via conductive oligomers to nucleic acids |
DE69823206T2 (de) * | 1997-07-25 | 2004-08-19 | Affymetrix, Inc. (a Delaware Corp.), Santa Clara | Verfahren zur herstellung einer bio-informatik-datenbank |
US6320196B1 (en) * | 1999-01-28 | 2001-11-20 | Agilent Technologies, Inc. | Multichannel high dynamic range scanner |
US6251685B1 (en) * | 1999-02-18 | 2001-06-26 | Agilent Technologies, Inc. | Readout method for molecular biological electronically addressable arrays |
US6323043B1 (en) * | 1999-04-30 | 2001-11-27 | Agilent Technologies, Inc. | Fabricating biopolymer arrays |
US6242266B1 (en) * | 1999-04-30 | 2001-06-05 | Agilent Technologies Inc. | Preparation of biopolymer arrays |
US6355921B1 (en) * | 1999-05-17 | 2002-03-12 | Agilent Technologies, Inc. | Large dynamic range light detection |
US6371370B2 (en) * | 1999-05-24 | 2002-04-16 | Agilent Technologies, Inc. | Apparatus and method for scanning a surface |
US6180351B1 (en) * | 1999-07-22 | 2001-01-30 | Agilent Technologies Inc. | Chemical array fabrication with identifier |
US6222664B1 (en) * | 1999-07-22 | 2001-04-24 | Agilent Technologies Inc. | Background reduction apparatus and method for confocal fluorescence detection systems |
WO2001012786A1 (en) * | 1999-08-16 | 2001-02-22 | Human Genome Sciences, Inc. | Retinoid receptor interacting polynucleotides, polypeptides, and antibodies |
US6486457B1 (en) * | 1999-10-07 | 2002-11-26 | Agilent Technologies, Inc. | Apparatus and method for autofocus |
US6232072B1 (en) * | 1999-10-15 | 2001-05-15 | Agilent Technologies, Inc. | Biopolymer array inspection |
US6171797B1 (en) * | 1999-10-20 | 2001-01-09 | Agilent Technologies Inc. | Methods of making polymeric arrays |
US6406849B1 (en) * | 1999-10-29 | 2002-06-18 | Agilent Technologies, Inc. | Interrogating multi-featured arrays |
US20030009295A1 (en) * | 2001-03-14 | 2003-01-09 | Victor Markowitz | System and method for retrieving and using gene expression data from multiple sources |
AU2002316267A1 (en) * | 2001-06-14 | 2003-01-02 | Rigel Pharmaceuticals, Inc. | Multidimensional biodata integration and relationship inference |
EP1432976A4 (en) * | 2001-09-05 | 2007-11-28 | Genicon Sciences Corp | DEVICE FOR READING SIGNALS EMITTED BY RESONANCE LIGHT DISPERSION PARTICLES USED AS MARKERS |
US20040229245A1 (en) * | 2003-01-06 | 2004-11-18 | Anton Bittner | Methods and algorithms for performing quality control during gene expression profiling on DNA microarray technology |
-
2004
- 2004-10-12 US US10/964,524 patent/US20050112689A1/en not_active Abandoned
-
2005
- 2005-09-29 EP EP05256067A patent/EP1647911A3/en not_active Withdrawn
- 2005-10-07 JP JP2005294347A patent/JP2006114037A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021510435A (ja) * | 2018-01-10 | 2021-04-22 | メモリアル スローン ケタリング キャンサー センター | 生ゲノムデータに基づく構成可能テキスト文字列の生成 |
JP7074861B2 (ja) | 2018-01-10 | 2022-05-24 | メモリアル スローン ケタリング キャンサー センター | 生ゲノムデータに基づく構成可能テキスト文字列の生成 |
Also Published As
Publication number | Publication date |
---|---|
EP1647911A2 (en) | 2006-04-19 |
EP1647911A3 (en) | 2007-12-05 |
US20050112689A1 (en) | 2005-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jamshidi et al. | Evaluation of cell-free DNA approaches for multi-cancer early detection | |
JP2006114037A (ja) | 比較ゲノムハイブリダイゼーション(cgh)データの見かけ上の異常を統計的に分析しプロットするためのシステムおよび方法 | |
Lai et al. | Comparative analysis of algorithms for identifying amplifications and deletions in array CGH data | |
US20200255909A1 (en) | Integrated machine-learning framework to estimate homologous recombination deficiency | |
Parmigiani et al. | A cross-study comparison of gene expression studies for the molecular classification of lung cancer | |
US9898578B2 (en) | Visualizing expression data on chromosomal graphic schemes | |
Li et al. | Machine learning for lung cancer diagnosis, treatment, and prognosis | |
Rosa et al. | VAMP: visualization and analysis of array-CGH, transcriptome and other molecular profiles | |
Van de Wiel et al. | Preprocessing and downstream analysis of microarray DNA copy number profiles | |
Kim et al. | rSW-seq: algorithm for detection of copy number alterations in deep sequencing data | |
Liu et al. | 3D radiomics predicts EGFR mutation, exon-19 deletion and exon-21 L858R mutation in lung adenocarcinoma | |
Broët et al. | Detection of gene copy number changes in CGH microarrays using a spatially correlated mixture model | |
US20020169730A1 (en) | Methods for classifying objects and identifying latent classes | |
Zhong et al. | Image-based computational quantification and visualization of genetic alterations and tumour heterogeneity | |
Whitford et al. | Evaluation of the performance of copy number variant prediction tools for the detection of deletions from whole genome sequencing data | |
Esteves et al. | Probability distribution of copy number alterations along the genome: an algorithm to distinguish different tumour profiles | |
Park et al. | Highly accurate diagnosis of papillary thyroid carcinomas based on personalized pathways coupled with machine learning | |
Rajaby et al. | SurVIndel: improving CNV calling from high-throughput sequencing data through statistical testing | |
Vanderstichele et al. | Nucleosome footprinting in plasma cell-free DNA for the pre-surgical diagnosis of ovarian cancer | |
Rymarczyk et al. | Deep learning models capture histological disease activity in Crohn’s disease and ulcerative colitis with high fidelity | |
Zhao et al. | Bayesian risk prediction model for colorectal cancer mortality through integration of clinicopathologic and genomic data | |
US20030023385A1 (en) | Statistical analysis method for classifying objects | |
JP2007520829A (ja) | アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム | |
US20070031883A1 (en) | Analyzing CGH data to identify aberrations | |
Yang et al. | Establishing a predictive model for tumor mutation burden status based on CT radiomics and clinical features of non-small cell lung cancer patients |