JP2006114037A

JP2006114037A - 比較ゲノムハイブリダイゼーション（ｃｇｈ）データの見かけ上の異常を統計的に分析しプロットするためのシステムおよび方法

Info

Publication number: JP2006114037A
Application number: JP2005294347A
Authority: JP
Inventors: Robert Kincaid; ロバート・キンケイド
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2004-10-12
Filing date: 2005-10-07
Publication date: 2006-04-27
Also published as: EP1647911A2; EP1647911A3; US20050112689A1

Abstract

【課題】遺伝子に関するデータの異常値が統計的に有効かどうかを正確に判定する。
【解決手段】ＣＧＨデータ内の見かけ上の異常を統計的に分析するための方法に関する。ＣＧＨデータは、該ＣＧＨデータが取得されたところの染色体上の物質の位置に対応して配列される。１組のＣＧＨ比率値が検討されて、Ｚ−スコア値が各ＣＧＨ比率値について計算される(106)。Ｚ−スコア値は、所定のカットオフ値に基づいて分類される(108)。所定のカットオフ値よりも大きいＺ−スコアの数が計数され、所定のカットオフ値の負数よりも小さいＺ−スコアの数が計数され、Ｚ−スコアの総数が計数される。１組のＣＧＨ比率のサブセットが検討されるが、サブセットは所定のサイズのウインドウによって画定される。２次的なＺ−スコアが計算されて、サブセットにおける有意な正偏差と有意な負偏差の少なくとも一方についての過剰と不足の少なくとも一方の有意度が求められる。
【選択図】図１

Description

本発明は、遺伝子に関するデータの異常値が統計的に有効かどうかを決定するための技術に関する。

ＤＮＡのコピー数における変動は多くのガンタイプの特徴であり、いくつかのガンの病原化プロセスを促進すると考えられている。これらの変動には大きな染色体の増加および／または損失ならびに、より小さいスケールでの増幅および／または欠失が含まれる。

共通のゲノムマッピングの異常は、ガン関連遺伝子を発見するための有用な１方法である。ゲノムの不安定性は、発ガン遺伝子の過剰発現または活性化を引き起こす可能性を有し、また、腫瘍抑制遺伝子およびＤＮＡ修復遺伝子のサイレンシング（silencing）を引き起こす可能性を有する。ＤＮＡのコピー数における変動測定において、局所蛍光ｉｎ−ｓｉｔｕハイブリダイゼーションに基づく技術が早期に使用された。

ガンにおける染色体変異を同定するために、比較ゲノムハイブリダイゼーション（ＣＧＨ）と称されるゲノム全体に関する測定技術が現在使用されている（例えば、非特許文献１、２参照）。ＣＧＨを使用して、異なる標識を施された腫瘍および正常ＤＮＡを正常な分裂中期染色体に対し共ハイブリダイゼーションを行う。腫瘍と正常標識との割合（比）が、ガン遺伝子および腫瘍抑制遺伝子を含み得る領域における染色体の増幅および欠失の検出を可能にする。しかし、この方法は、約１０〜２０Ｍｂｐ（メガベースペア）のみの限定された回答量（または分解能。以下同じ）を有する。提供されるこの回答量は染色体の変化の境界を決定可能にするには、あるいは、単一遺伝子および小さなゲノム領域のコピー数における変化を同定するためには不十分である。

アレイＣＧＨ（ａＣＧＨ）と称されるより先進的な測定技術は、比較的小さな染色体領域のＤＮＡのコピー数における変化を決定することができる。ａＣＧＨを使用して、腫瘍および正常ＤＮＡを、数千のＢＡＣのゲノムクローン、ｃＤＮＡまたはオリゴヌクレオチドプローブのマイクロアレイに対し共ハイブリダイゼーションさせる（非特許文献３〜５参照）。オリゴヌクレオチドアレイを使用することにより、提供される回答量は、単一遺伝子を同定するのに必要な回答量よりも、理論上優れたものとなり得る。

ａＣＧＨデータについて継続中の課題は、現在のところ非常にノイズが多く、そのために、異常データ値が被験物質中で生じている現実の異常（増幅または欠失）の結果なのかどうか、または異常が大部分はノイズの結果であり、かつ現実の異常は存在していないのかどうかの決定が困難であるということである。ａＣＧＨデータを操作または分析するための現在の方法は、異常の実際の発生からノイズを切り離すための努力とともに行われている。Ｂｅｎ-Ｄｏｒらにより論じられたこのような１つの方法（非特許文献６参照）は、データから超幾何学的なｐ−値を計算することに基づく。いくつかの場合において、この方法は、結果をさらに洗練させるためのダイナミックプログラミングを使用する。この方法は高度に厳密な結果を提供するが、実行されるこのコンピューター計算はかなり集約的なものであり、動的でインタラクティブな表示において容易にサポートされるものではない。

Ｃｒａｗｌｅｙらは、遺伝子発現マイクロアレイデータを考慮して、ａＣＧＨデータの解釈に伴う問題を回避することにより、細胞遺伝的な異常の同定を試みている（特許文献７参照）。遺伝子発現値は分析され、有意の上方または下方バイアスが発現値中に存在するかどうかを同定するために符号検定（ｓｉｇｎｔｅｓｔ）が適用される。これは統計的に根拠のある測定基準ではない。次いで、実際のＺ−スコアに対する近似が、符号検定の結果に基づき生成される。

米国特許第６,２４２,２６６号明細書米国特許第６,２３２,０７２号明細書米国特許第６,１８０,３５１号明細書米国特許第６,１７１,７９７号明細書米国特許第６,３２３,０４３号明細書米国特許第６,５１８,５５６号明細書米国特許第６,４８６,４５７号明細書米国特許同６,４０６,８４９号明細書米国特許第６,３７１,３７０号明細書米国特許第６,３５５,９２１号明細書米国特許第６,３２０,１９６号明細書米国特許第６,２５１,６８５号明細書米国特許第６,２２２,６６４号明細書米国特許第６,２２１,５８３号明細書米国特許出願第１０／８１７,２４４号明細書Ｂａｌｓａｒａ等による"Ｃｈｒｏｍｏｓｏｍａｌｉｍｂａｌａｎｃｅｓｉｎｈｕｍａｎｌｕｎｇｃａｎｃｅｒ"，Ｏｎｃｏｇｅｎｅ，２１（４５）:６８７７-８３, ２００２Ｍｅｒｔｅｎｓ等による"Ｃｈｒｏｍｏｓｏｍａｌｉｍｂａｌａｎｃｅｍａｐｓｏｆｍａｌｉｇｎａｎｔｓｏｌｉｄｔｕｍｏｒｓ：Ａｃｙｔｏｇｅｎｅｔｉｃｓｕｒｖｅｙｏｆ３１８５ｎｅｏｐｌａｓｍｓ"，ＣａｎｃｅｒＲｅｓｅａｒｃｈ，５７（１３）:２７６５-８０, １９９７Ｐｏｌｌａｃｋ等による"Ｇｅｎｏｍｅ-ｗｉｄｅａｎａｌｙｓｉｓｏｆｄｎａｃｏｐｙｎｕｍｂｅｒｃｈａｎｇｅｓｕｓｉｎｇｃｄｎａｍｉｃｒｏａｒｒａｙｓ"，ＮａｔｕｒｅＧｅｎｅｔｉｃｓ，２３（１）：４１-６, １９９９Ｐｉｎｋｅｌ等による"ＨｉｇｈｒｅｓｏｌｕｔｉｏｎａｎａｌｙｓｉｓｏｆＤＮＡｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎｕｓｉｎｇｃｏｍｐａｒａｔｉｖｅｇｅｎｏｍｉｃｈｙｂｒｉｄｉｚａｔｉｏｎｔｏｍｉｃｒｏａｒｒａｙｓ"，ＮａｔｕｒｅＧｅｎｅｔｉｃｓ，２０（２）：２０７-２１１, １９９８Ｈｅｄｅｎｆａｌｋら， "Ｍｏｌｅｃｕｌａｒｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｆａｍｉｌｉａｌｎｏｎ-ｂｒｃａ１／ｂｒｃａ２ｂｒｅａｓｔｃａｎｃｅｒ"，ＰＮＡＳＢｅｎ−Ｄｏｒら，"ＡｎａｌｙｓｉｓｏｆＡｒｒａｙＢａｓｅｄＣｏｍｐａｒａｔｉｖｅＧｅｎｏｍｉｃＨｙｂｒｉｄｉｚａｔｉｏｎＤａｔａ−ＴｈｅｏｒｙａｎｄＶａｌｉｄａｔｉｏｎ" Ｃｒａｗｌｅｙ等による"Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｆｒｅｑｕｅｎｔｃｙｔｏｇｅｎｅｔｉｃａｂｅｒｒａｔｉｏｎｓｉｎｈｅｐａｔｏｃｅｌｌｕｌａｒｃａｒｃｉｎｏｍａｕｓｉｎｇｇｅｎｅ−ｅｘｐｒｅｓｓｉｏｎｍｉｃｒｏａｒｒａｙｄａｔａ"

ａＣＧＨデータの分析のための、迅速で普遍的に利用可能な技術へのニーズは現在も引き続き存在する。現在のアレイは典型的に非常にノイズの多い結果を生じ、劇的ではあるが統計的に関連のない偏差を生物学的に関連のあるものとして解釈してしまわないための注意が払われねばならないからである。

ＣＧＨデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体を提供する（以下、「見かけ上の異常」は明白な異常であってもよいし、それを含むものであってもよい）。この場合、ＣＧＨデータが、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列される。ＣＧＨ割合値のセット（１組のＣＧＨ割合値）を検討し、各ＣＧＨ割合値に対するＺ−正規化値（Ｚ−normalized value）を計算する。Ｚ−正規化値を、所定のカットオフ値に基づき分類し、さらに、所定のカットオフ値より大きなＺ−正規化値の数、所定のカットオフ値の負数（すなわち、-（所定のカットオフ値））より小さなＺ−正規化値の数、およびＺ−正規化値の総数を計数する。ＣＧＨ割合値のセットのサブセットを検討する。該サブセットは所定の大きさのウインドウによって画定される。サブセットにおける、少なくとも１つの有意な正の偏差および有意な負の偏差における、少なくとも１つの過剰および不足の有意性（または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性）を測定するためにＺ−スコア（Ｚ−score）を、次いで計算する（以下、「有意」とは「顕著」な場合を含む）。

ＣＧＨデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体を提供する。この場合、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含み、各ＣＧＨ割合値に対するＺ−正規化値が計算され、そのＺ−正規化値を所定のカットオフ値に基づき分類し、所定のカットオフ値より大きなＺ−正規化値の数、所定のカットオフ値の負数より小さなＺ−正規化値の数、およびＺ−正規化値の総数を計数する。ＣＧＨ割合値のセットのサブセットを、所定の大きさのウインドウによって画定されたものとして考慮する。サブセットにおける、少なくとも１つの有意な正の偏差および有意な負の偏差における、少なくとも１つの過剰および不足の有意性（または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性）を測定するために、Ｚ−スコアを、次いで計算する。

ＣＧＨデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体を提供する。この場合、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含む。ＣＧＨ割合値のセットのサブセットが、所定の大きさのウインドウによって画定され、検討される。ウインドウ内のデータ間のＺ−テスト（Ｚ−test）と、ＣＧＨ割合値のセットに由来する統計値は以下の式から計算される。

尚、以下では便宜上、

を、Ｘバーと記載する。式中、
ＺはＺ−テストの計算値であり、
ｎは前記ウインドウ内の値の数であり、
Ｘバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
σは前記セットにおける値の標準偏差である。
ウインドウ内における値のサブセットの移動平均も計算される。

ＣＧＨデータにおける見かけ上の異常を統計的に分析するための方法、システムおよびコンピューター読み取り可能媒体が提供される。ここで、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含む。所定の大きさのウインドウによって画定されたＣＧＨ割合値のセットのサブセットが検討される。ウインドウ内のデータ間のｔ−テスト（t−test）と、ＣＧＨ割合値のセットに由来する統計値は以下の式に従って計算される。

式中、
ｔはｔ−テストの計算値であり、
ｎは前記ウインドウ内の値の数であり、
Ｘバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
ｓは前記ウインドウ内における値の標準偏差である。
ウインドウ内における値のサブセットの移動平均も計算される。

染色体地図を表示するための手段および、ＣＧＨデータ値が由来した物質の位置に対応する領域に、前記ＣＧＨデータ値を特徴づける異常の統計値を染色体地図に隣接してプロットするための手段を介して、ＣＧＨデータ値の各種図式的な表現、および、ＣＧＨデータ値における見かけ上の異常を表示するためのユーザーインターフェース、方法およびコンピューター読み取り可能媒体が提供される。

ＣＧＨデータ値の各種図式的な表現および、ＣＧＨデータ値における見かけ上の異常を表示するためのユーザーインターフェース、方法およびコンピューター読み取り可能媒体が提供される。この場合、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含み、各ＣＧＨ割合値に対するＺ−正規化値が計算され、そのＺ−正規化値を所定のカットオフ値に基づき分類し、所定のカットオフ値より大きなＺ−正規化値の数、所定のカットオフ値の負数より小さなＺ−正規化値の数、およびＺ−正規化値の総数を計数し、さらにこの場合、サブセットにおける、少なくとも１つの有意な正の偏差および有意な負の偏差の、少なくとも１つの過剰および不足の有意性（または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性）を測定するために、所定の大きさのウインドウによって１つずつ画定されたＣＧＨ割合値のセットのサブセットに対してＺ−スコアが計算され、ここで、ユーザーインターフェースは、染色体地図を表示するための手段と、ウインドウ内のＣＧＨデータ値が由来した物質の位置に対応する領域に、Ｚ−スコアを、各Ｚ−スコアについて、染色体地図に隣接してプロットするための手段を含む。

ＣＧＨデータ値の各種図式的な表現および、ＣＧＨデータ値における見かけ上の異常を表示するためのユーザーインターフェース、方法およびコンピューター読み取り可能媒体が提供される。この場合、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含み、該ユーザーインターフェースは、染色体地図を表示するための手段、ＣＧＨデータ値から計算された少なくとも１つの移動平均値と、ＣＧＨデータ値（または、移動平均値とＣＧＨデータ値の一方）を表示するための手段、およびＣＧＨデータ値における見かけ上の異常を特徴付ける統計値をオーバーレイするための手段を含む。

本発明の上記およびその他の利点と特徴は、システム、ユーザーインターフェース、方法およびコンピューター読み取り可能媒体の詳細についての、以下のより詳細な記載から当業者には明らかになるであろう。

本特許または特許出願は、少なくとも１つの彩色されて作成された図を含む。彩色された図を伴うこの特許または特許出願の複写は、申請および必要とされる料金の納付を米国特許庁に行うことにより提供される。

本発明の方法、システム、およびコンピューター読み取り可能媒体について記載する前に、本発明は、記載された特定の実施形態に限定されるものでなく、当然、変更しうるものであることを理解すべきである。また、本明細書中で使用される用語は、特定の実施形態のみを記載することを目的とするものであり、限定を意図するものではない。本発明の範囲は、添付の特許請求の範囲によってのみ限定されるからである。

ある範囲の値が与えられた場合、文脈上別様に明確に示されていない限り、下限値の単位の１／１０までの各介在値が、また、その範囲の上限および下限の間で明確に開示されることを理解されたい。ある規定された範囲における任意の規定値または介在値の間の、より小さい各々の範囲、および、その規定された範囲における任意のその他の規定値もしくは介在値が、本発明の範囲内に包含される。これらのより小さい範囲における上限および下限を個別にこの範囲に含めることも、含まれないようにすることもでき、より小さい範囲内にいずれかの限界が含まれ、または、いずれの限界も含まれず、または、両方の限界が含まれるといった各範囲もまた本発明の範囲内に包含されるものであり、規定された範囲において任意の限界を明確に除外することができる。規定された範囲が１つまたは両方の限界を含む場合、含まれるこれらの限界のいずれかもしくは両方を除外する範囲もまた、本発明に包含される。

別様に定義しない限り、本明細書中で使用する全ての技術的および科学的用語は、本発明が属する技術分野の当業者に一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと類似または等価な任意の方法および材料を、本発明の実施または試験において使用することができるが、好ましい方法および材料について以下に記載する。本明細書中で言及する全ての刊行物は、引用した刊行物と関連する方法および／または材料を開示および説明するために、参照により本明細書に組み込まれるものとする。

本明細書および添付の特許請求の範囲で使用する場合、単数形の「１つの」（英文表記では、ａまたはａｎ）、「及び」、「その」、「前記」、または「上記」（以上、英文表記ではｔｈｅ）は、文脈上明確に他のものを表していない限り、複数の対象も含むことに留意すべきである。したがって、例えば、「データ値」と言及した場合には複数の該データ値を含み、また、その（または前記または上記）アレイ、または、単にアレイと言及した場合には、１以上のアレイおよび当業者に公知のそれの均等物などへの参照を含む。

本明細書中において参照した刊行物は、本出願の出願日前のその内容の開示のみのために提供される。本明細書において、先行発明に基づいて本発明が該刊行物の内容に先行する資格を有しないことを認めるものとして解釈すべきものは何もない。さらに、示された出版日は、実際の出版日と異なるかもしれず、個別に確認する必要がある場合がある。

定義
「マイクロアレイ」、「バイオアレイ」または「アレイ」とは、他の意図が明らかでない限り、その領域に関連する特定の化学的部分（または特定の複数の化学的部分）を担持（または保持）するアドレス指定可能な領域の１次元、２次元、または３次元的配列を包含する。マイクロアレイ上の特定の所定位置にある領域が、特定の標的または標的群を検出するように複数の領域の部分を有するという点において、マイクロアレイは「アドレス指定可能」である（一つの特徴部がその特徴部の標的でないものを偶然に検出する場合はあるが）。アレイの特徴部は通常、（必ずしもその必要はないが）介在する空間により分離されている。アレイの場合、「標的」とは、プローブによって検出される移動相中の部分（moiety）を意味し、プローブは様々な領域において基質と結合する。しかしながら、「標的」または「標的プローブ」の一方は、他方により評価されるものでありうる。

アレイの製造方法については、米国特許第６,２４２,２６６号、同６,２３２,０７２号、同６,１８０,３５１号、同６,１７１,７９７号および同６,３２３,０４３号に詳細に記載されている。すでに述べたように、これらの参考文献は参照により本明細書中に組み入れるものとする。本明細書中で従前に記載したように、その他の滴下沈着方法も製造に使用することができる。また、滴下沈着方法の代わりに、フォトリソグラフィーアレイ製造方法を使用してもよい。前記特許文献中に記載されているように、特に、アレイがフォトリソグラフィー法によって製造されている場合には、特徴間の領域は存在する必要はない。

ユーザーによる受け取り後、通常、アレイはサンプルに曝され、次に読み取られる。アレイの読み取りは、アレイに光を照射し、該アレイの各特徴部における複数の領域で、生じた蛍光の位置および強度を読み取ることにより行うことができる。例えば、本目的のために使用しうるスキャナーは、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ（カリフォルニア州, Ｐａｌｏ, Ａｌｔｏ）によって製造されたＡＧＩＬＥＮＴＭＩＣＲＯＡＲＲＡＹＳＣＡＮＮＥＲ、またはその他の同様のスキャナーである。その他の好適な装置および方法については、米国特許第６,５１８,５５６号、同６,４８６,４５７号、同６,４０６,８４９号、同６,３７１,３７０号、同６,３５５,９２１号、同６,３２０,１９６号、同６,２５１,６８５号、および同６,２２２,６６４号に記載されている。しかしながら、アレイは、上記以外の任意の他の方法または装置により読み取ることもでき、その他の読み取り方法としては他の光学的技法または電気的技法（この場合、米国特許第６,２５１,６８５号、同６,２２１,５８３号、および他の文献に開示されているように、各特徴部には、その特徴部における結合を検出するための電極が提供される）が含まれる。

略語「ＣＧＨ」は、比較ゲノムハイブリダイゼーション（ＣｏｍｐａｒａｔｉｖｅＧｅｎｏｍｉｃＨｙｂｒｉｄｉｚａｔｉｏｎ）を意味する。

略語「ａＣＧＨ」は、マイクロアレイベースのＣＧＨを意味する。

用語「ａＣＧＨアレイ」は、ａＣＧＨ実験を実施するために使用されるマイクロアレイを意味する。通常、ａＣＧＨアレイまたはａＣＧＨマイクロアレイはＣＧＨ測定のために特別に設計され、この場合、プローブはゲノムＤＮＡとハイブリダイゼーションを行うように設計される。しかしながら、ＲＮＡを測定するために設計されたＤＮＡプローブは、それらの転写産物に対するゲノムＤＮＡコーディングに対しても相補的であることから、いくつかの場合においては、標準的発現アレイを使用することも可能である。

１つの要素がもう一方から「離れた」ものとして示される場合、これは、２つの要素が少なくとも異なる構造物中にあり、少なくとも１マイル、１０マイル、または少なくとも１００マイル離れている場合があることを意味する。

情報を「伝達する」とは、適切な伝達チャネル（例えば、民間または公共のネットワーク）上の電気信号として、その情報を表すデータを伝達することを意味する。

要素を「転送する」とは、その要素を物理的に移動させるか、または（可能であれば）その他の方法により、その要素を１つの位置から次の位置へ移動させる任意の手段を意味し、少なくともデータの場合には、データを運搬するまたはデータを伝達する媒体を物理的に移動させることを含む。

「処理装置（プロセッサー）」とは、要求された機能を実行する任意のハードウェアおよび／またはソフトウェアの組合せを意味する。例えば、本明細書における任意の処理装置は、メインフレーム、サーバー、またはパーソナルコンピューターの形態において利用可能であるような、プログラム可能なディジタルマイクロプロセッサーであってもよい。該処理装置がプログラム可能である場合、適切なプログラミングを、離れた場所からこの処理装置に伝達し、またはコンピュータープログラム製品中に予め保存することができる。例えば、磁気的なまたは光学的なディスクはプログラミングを保持することができるとともに、各処理装置とそれの対応する位置において交信する適切なディスクリーダーにより、読み取られることができる。

単数の要素について言及した場合には、複数の同一の要素が存在する可能性が含まれる。

「・・・ことができる」、「・・・場合がある」、または、「・・・得る」とは、任意選択的であることを意味する。

本明細書において記載した方法は、事象を記載の順序ばかりでなく、論理的に可能な任意の順番で実行することができる。

本出願において引用した全ての特許文献およびその他の参考文献は、本出願の内容と矛盾する場合を除き（その場合には、本出願が優先する）、参照により本出願に組み込まれるものとする。

本発明は、ａＣＧＨデータなどのＣＧＨデータからの見かけ上の異常値が、例えば統計的に有効かどうか、あるいは、データに伴うノイズの分布範囲内にあるのかを決定するための方法、システムおよびコンピューター読み取り可能媒体を提供する。

図１に、ＣＧＨデータにおける見かけ上の異常を統計的に分析するために、本発明のシステムで実行できる処理ステップのフローチャートを示す。事象１０２において、例えば、ａＣＧＨアレイから読み取られるようなＣＧＨ割合値（割合値は比率値ともいう。以下同じ）のデータセットが入力される。このＣＧＨ割合値は次に、ステップ１０４において対数割合値へと変換される。該データセットにおける各対数割合値は次いで、以下の式のように、各対数割合値ｘに対するＺ−正規化値を演算（または計算。以下同じ）することにより、Ｚ−正規化される。

式中、
ｘは測定されたＣＧＨ割合の対数であり、
μは前記対数割合値の平均値であり、
σは前記対数割合値の集団における標準偏差である。

μおよびσの値を、単一染色体、全アレイ、または実験の全体の収集物にわたって得られた集合に基づいて計算することができる。代替的には、μおよびσの値を、これらの統計的パラメーターを特徴付けるために特別に設計された特定の較正実験から得ることができる。使用する集合の選択は実験の状況に依存し得る。例えば、もしＣＧＨ割合が得られた全てのアレイが同一の構成であり、かつ類似のプロトコールで処理されるのであれば、全アレイに渡る平均化がμおよびσの値のより正確な見積もり値を与え得る。しかし、もし使用されるアレイのタイプおよび／またはプロトコールや条件が異なり、その場合において、いくつかのアレイで他のアレイよりも値の分布が広くなるような場合は、アレイ毎に、あるいはアレイの部類毎に、値を計算することにより、より正確なμおよびσの見積もり値を得ることができる。さらに、ＸおよびＹ染色体（性別）についての、追加の検討／修正を行う必要があり得る。これらの値もまた、潜在的にμおよびσを間違って歪める可能性があるためである。即ち、通常は、ＸおよびＹ染色体についての値は、平均値および標準偏差値の較正のためには考慮されない。ＸおよびＹ染色体からの値を使用しないことにより、検討されるデータ間の性差は平均値および標準偏差値の計算に影響しなくなるであろう。しかし、男性および女性の情報源の間におけるこれらの染色体から生じる相違の数に対する補正が行われるならば、ＸおよびＹ染色体からのデータを平均および標準偏差の計算のために含めることができる。簡単のためには、記載されたように、検討されるデータに対しユーザーが性別の追跡を必要としなくてすむように、ＸおよびＹ染色体の値は考慮されない。

事象１０８において、Ｚ−正規化値は、その値と所定のカットオフ値Ｚ_ｃ（例えば、Ｚ_ｃ＝３）とを比較することにより、平均値μを大きく上回るか下回るか、もしくは、それらのいずれでもないかに分類される。所定のカットオフ値は３に限定されないが、ユーザーにより設定することができる。即ち、ユーザー指定値とすることができる。本システムは次いで、Ｚ_ｃより大きいか、またはＺ_ｃの負数（すなわち、−Ｚ_ｃ）より小さい値が、それぞれ平均値を顕著に上回るまたは下回るかどうかを決定する。

３つの分類におけるエントリの数は、次いで事象１１０において、事象１０８における分類の結果に基づき以下のように決定される。
Ｒ＝Ｚ_ｃより大きいエントリの数（値の数）、
Ｒ’＝−Ｚ_ｃより小さいエントリの数（値の数）、
Ｎ＝測定（値）の総数
である。Ｚ−正規化値（即ち、Ｚ（ｘ））およびＲ、Ｒ’およびＮの数を、下記に示す次なる計算のために保存することができる。さらに、もし、ユーザーがＺ_ｃの値を変更し、次いで事象１０８および１１０を再計算することを決定した場合には、事象１０６において計算されたスコアを次なる処理のために再利用することができる。

理想的には、μおよびσに対するグローバルな統計は、μおよびσが病的でない試料の分布を表すように、遺伝的な異常を有しない試料に基づくものとすることができる。これらの全体的な統計を、例えば、コピー数の異常を有しないユーザーに対し入手可能な全てのアレイから、またはユーザーが定義したキャリブレーション（較正）アレイのセットから、計算することができる。しかし、全セット中に存在するなんらかの遺伝的異常が、全アレイに渡り平均化され、言い換えれば全染色体（ＸおよびＹ染色体を除く）に渡り平均化された時にμおよびσに対し小さなぶれのみを与えるという期待を伴って、アレイの全セットに対する統計をとるために近似の単純化を用いることができる。いくつかの染色体のみが、アレイの全セットにおける異常な挙動を典型的に示すので、統計値の平均化（または平均化統計）に対する増幅および欠失の寄与に対する期待は、全体的なグローバルな挙動と比較して小さいものと予測される。

ａＣＧＨデータに関して現在計算されている共通の統計は移動平均である。移動平均を計算する時、ポイントの小さなサブセットにわたって、対数割合（対数比）が平均化される。移動平均“ウインドウ”は、ウインドウの各位置について移動平均が計算されるデータ値のサブセットを画定するために、データ値のセットを通過する。この移動平均ウインドウは、隣接する測定値の、いくつかの所定の数を単純に識別することができ、または、例えば、１メガベースを超えるような、ポジショナルウインドウ（positional window。または位置決めウインドウ）を覆う場合がある。これらの各ウインドウについてｎ個のエントリがある。

本発明のシステムは、事象１０６において計算された平均値から有意に逸脱し、かつウインドウｗの範囲内に位置する対数割合の過剰または不足を分析するためにウインドウｗを使用する。該ウインドウｗに基づいて、この処理が行われると同時に移動平均を任意選択的に計算することができる。ウインドウｗの各々の位置に対して、事象１１０において計算されたものと類似の計数が行われ（事象１１２）、この時のみ、ウインドウｗにより同定されたサブセットについてのみ、計数は以下の通りである。
ｒはｗにおけるＺ_ｃより大きいエントリの数（値の数）であり、
ｒ’はｗにおける−Ｚ_ｃより小さいエントリの数（値の数）であり、
ｎはｗにおける測定（値）の総数であり、
Ｒは全てのデータセットにおけるＺ_ｃより大きいエントリの数（値の数）であり、
Ｒ’は全てのデータセットにおける−Ｚ_ｃより小さいエントリの数（値の数）であり、
Ｎは測定（値）の総数である。

これらの数から、有意な正の偏差（即ち、推定上の増幅）を有する、ｗにおける過剰／不足の有意性を測定するためにＺ−スコアを、以下のように計算することができる（事象１１４）。

同様に、有意な負の偏差（即ち、推定上の欠失）を有する、ｗにおける過剰／不足の有意性を測定するために、Ｚ−スコアを、以下のように計算することができる。

式（２）および（３）から計算されたスコアは、移動平均をプロットするのと類似の方法でプロットすることができ（事象１１６）、該プロットは、次いで、所与の実験における値の典型的分布から逸脱するように見える、統計的に有意なプローブ群を示す。したがって、式（２）および（３）により計算された値から得られるプロットは、ＣＧＨ研究における潜在的な増幅または欠失事象を識別するための予想ツールとして使用することができる。２次的なカットオフ値またはＺ−スコアのカットオフ値であるＺ_ｃ’を、Ｚ−スコアプロットの表示から、変化が統計的に重要でない領域を排除するために使用することができる（事象１１８）。Ｚ_ｃおよびＺ_ｃ’スコアのいずれかまたは両方を、所望であれば、結果として得られたプロットのユーザーによる視覚的分析にとって好適となるように、ユーザーによって変更または調整することができる。さらに、ユーザはウインドウの大きさｗを指定することもできる。したがって、ユーザーはいくつかの合理的なウインドウの大きさを（例えば、アレイのカバー範囲がどのくらい密であるかに基づいて）指定することができ、ユーザーが計算にどのくらい厳密性を望むかに基づいてＺ_ｃの値を指定することができる。例えば、比較的狭いウインドウサイズ（例えば、５Ｍｂ）および高いＺ_ｃ値（例えば、Ｚ_ｃ＝４）を、ほとんど統計的な異常を示さないように選択することができる。しかしながら、識別された統計的な異常は、それらが真の正の異常であることを非常に高い信頼性で示すであろう。あるいは、より多くの数の異常を識別するために、パラメーターをより緩和することができるが、全てが真の異常であるという信頼性は低くなる。上記したように、これらの計算は移動平均の計算と並行して容易に行うことができ、あるいは、その他の任意の計算と独立して行うことが可能である。

ウインドウの大きさおよびＺ_ｃ値についてのユーザーの選択は、そのパラメーターで実行した際に得られる視覚化の状態を見るか、または、これらのパラメーターが、検討中のデータの所与の特性を意味しているかを考慮することにより、幾分直感的に決定することができる。上記したように、Ｚ_ｃ値は、それがどのような値であれ、ユーザーの所望どおりに決定することができ、すなわち、ユーザーは、統計的に有意であると決定した値にすることができる。典型的には、その値はＺ_ｃ＝約２であり、これは、平均を超える２つの標準偏差である任意のポイントが（それは変更しうるが）、有意な偏差または異常を有すると考えられることを意味する。選択されたウインドウの大きさは、有用な測定が行われるようにウインドウサンプル中に十分な数のポイントを含むのに十分なものでなければならない。典型的には、ウインドウあたり約５〜１０のデータポイントで十分である。しかし、Ｚ−スコアリングのアルゴリズムは、任意のウインドウが統計的に関連するかどうかを示しうるものであり、ユーザーはさまざまな値で手動で試行し、観察しようとしている異常のタイプを最も良好に反映するための検討に基づいて選択することができる。狭い範囲の増幅または欠失の、その短い範囲は、検出のためには非常に狭いウインドウがあればすむであろうし、一方、全細胞バンド（cytoband）または染色体腕の増幅には、より大きなウインドウが必要とされるかもしれない。他方、１試料あたり１０００ポイントを捕捉するためのウインドウの大きさは、ほとんどの場合にはあまりに大きすぎるウインドウであろう。本明細書中で論じられるスコアを迅速に計算し、インタラクティブな処理の一部を実行することができる。さらに、Ｚ−スコアが平均値からの偏差の標準的単位として容易に理解される解釈を有しているために、本発明によるソリューションは、ユーザー／分析者が、直感的にカットオフ値を変更することを可能にし、および／または、彼らの好みに計算を合わせるために移動平均ウインドウの大きさを変更することを可能にする。このような改変の結果は数秒のうちに見ることができ、従って、全体的な試験的な分析の部分として有用である。

加えて、または、上述した２ステージＺ−スコアリング手順に対する別の方法として、本システムは、ウインドウｗの統計値、全体平均（グローバル平均）、標準偏差値であるμおよびσ（例えば、事象１０６において計算されたような）間のＺ−テストまたはｔ−テストを計算することができる。前述の手順同様、この手順を、移動平均の計算と並行して実施することも、または独立して実施することも、または２ステージＺ−スコアリング手順と共に実施することもできる。１サンプルのＺ−テストは下記のように公式化できる。

式中、
ｎはウインドウｗにおけるデータポイント（値）の数であり、
Ｘバーはウインドウｗにおけるデータポイント（値）の平均値であり、
μおよびσは全体の集合、即ち、移動するごとにウインドウｗが位置する全データセットにおける平均値および標準偏差である。全体平均（グローバル平均）μおよび全体標準偏差（グローバル標準偏差）σは正常であると仮定する。もしσが未知である場合、試料の標準偏差（即ち、ウインドウｗ内の値にのみ基づく標準偏差）を使用することができ、この場合、前記手順はＺ−テストではなくｔ−テストとなる。いずれにしてもこの手順は、２ステップＺ−スコアリング手順よりも単純かつ速い統計的なスコアリングの計算をもたらす。しかし、正常な分析について仮定がなされるために、これらの手順は、２ステップＺ−スコアリング手順よりは、潜在的に正確性が低いものとなり得る。

いずれの方法であれ、一旦、最終的なＺ−スコアを計算したならば、該Ｚ−スコアを、移動平均をプロットするのと同様に、折れ線グラフとしてプロットすることができる。図２は典型的な表示（ディスプレイ）２００を示し、該ディスプレイ上には、描画を可能な限り単純化するために、ある実験におけるＺ−スコア２１２が移動平均２１０と比較してプロットされている。当然、本発明のシステムは、（しばしばそうなのであるが）複数の実験に対するＺ−スコアおよび移動平均をプロットすることが可能である。

図示の例では、移動平均２１０およびＺ−スコア２１２は選択された染色体（この例では、染色体１７であり、各染色体のズームされていないビューを含む全体的地図中に略記され選択された２０２として示される）に関してプロットされており、この場合、選択された染色体はズームビュー（拡大または縮小表示であり、ここでは拡大表示）２０５中に示されている。Ｚ−スコアのプロット２１２は、移動平均プロット２１０との間のより簡単な視覚的識別のため、ヒストグラムのようにより見えるようにするために、もともとのプロットに彩色してもよい。さらに、１以上の実験についてプロットする場合、彩色されたＺ−スコアプロットは、透明性のためにアルファブレンドしてもよく、それにより、プロットが重なりあった場合に、データが不明瞭になるのを最小限にし、重なりあっている部分の検出が可能となる。２または３の同時に存在するプロットに対しては、重なっていて、異なって彩色されているプロットの色の配合に基づいて、様々な生じうる交差部分を識別することが可能である。図示の例では、Ｚ−スコアプロット２１２は１０分の１に減じられており、したがって、それにより、グラフスケールの位置（すなわち、±２、±４等）を挿入し、次いで、この値を１０倍することにより、ユーザーが実際の値を読み取ることを可能にする。グラフスケール２１５は、移動平均の値については直接読み取ることができる。

染色体マッピングおよび特徴部分（または構造）の拡大化・縮小化についての詳細な記載は、米国特許出願番号第１０／８１７,２４４号中に含まれており、当該文献はこの参照により本明細書に組み入れるものとする。この例では、ディスプレイ２００の領域２０４は、実験データのアノテーション（注釈）、例えば、"Unigene ＩＤ" ２４１、"染色体" ２４２、"開始（ｈｇ１６）" ２４３、"終了（ｈｇ１６）" ２４４、名称（ｈｇ１６）２４５、ＣＬＩＤ２４６、および名称２４７を表示するが、表示されるアノテーションは違うものであってもよい。また、描画の要件に合致させるにはあまりにも小さすぎることから、これらの各ヘッダー部分の下にある行の入力部（エントリ）２５０は省略される。カラム２４８は、種々の実験用アレイから収集した実際の実験データ値２４９を含む（数値およびテキストが描画の要件に合致させるにはあまりにも小さすぎることから、データ値は図示せず）。アレイを表示目的のために選択するとき（例えば、図示の例では実験「ＢＴ４７４」が選択された）、ディスプレイ上においてその実験に対するデータを識別するために色を割り当ててもよい。このことは、複数の実験についてのデータを表示する場合（例えば、図３に示すようなケースの場合）に特に有用である。

ボックス２１８は、上記の分類ステージに対して使用されたユーザー指定のＺ−値またはＺ−レベル（すなわちＺ_ｃ）を表示する。これは、上記のようなＺ−正規化値を分類するためにユーザー指定のカットオフ値を、ユーザーが入力することを可能にする。異なるカットオフ値にしたがって同一のデータを処理するために、この値を変更することができ、この場合、調査対象のデータおよびユーザーの現在の目的のためにどの値が最も適切であるかを決定するために、ユーザーは、異なるカットオフ値による各測定実行から、ディスプレイを視覚的に分析することができる。

サイドバー２１４は、有意と考えられるＺ−スコアに隣接してプロットされる。図示の例では、ゼロより大きいＺ−スコアのみをプロットする。推定上の増幅に対応するスコアをゼロの右にプロットし、推定上の欠失に対応するスコアをゼロの左にプロットする。例えば、２以上の実験をプロットし、図３に示すように、複数のＺ−スコアプロット２１２（および、任意選択的に、複数の移動平均プロット２１０）が存在する場合は、各実験に関するサイドバーのために個別のカラムを使用する。さらに、プロット２１０および２１２を、各実験がカラーキーの隣に現れるように表示して、各実験に対してカラーコード化することができる。次に、サイドバー２１４を、同じスキームにしたがってカラーコード化することができる。また、サイドバー２１４は、サイドバーを表示するための要件を満たすデータが存在する全体ビューの中の全ての染色体地図に対してプロットされる。典型的には、移動平均プロット２１０およびＺ−スコアプロット２１２は、全体ビュー中でより小さな染色体と隣接しては含まれない。なぜならば、それらは、例えば、図２および３に示されるように、そのようにオプションとして表示できる場合もあるが、読み取りが困難となるからである。そのようなオプションは、例えば、単一の実験についてのみ表示するような場合、すなわち、比較的単純な表示が存在する場合に、採用することができる。

移動平均プロット２１０、Ｚ−スコアプロット２１２、およびサイドバー２１４のディスプレイにおけるズームビューを２３０に示す。カーソル２１３は、図示されているものに関して展望するためのズームビュー中のカーソル２３３として、染色体に対して同一の位置に対応している。このビューにおける他のデータに沿って、転写産物２３６を、それらが染色体上で見られる場所に対応する位置にプロットすることができることを知りうる程度に、このビューは十分な細部と空間を含む。このビューはさらに、大きく変化していることが予想される１以上の転写産物についてユーザーがよく知っている場合があるので、ユーザーの視覚的分析に役立ち、また、視覚化が、それを有意な値のＺ−スコアプロット２１２の１つの近くに見えるように示す場合は、生じているメカニズムを説明しようとする際に、分析に使用する更なる確証／情報として機能する。実験で使用されたマイクロアレイが注釈付きの転写産物をたとえ含んでいなくても、ゲノムが知られているから、本発明のシステムは依然として影響を受けた転写産物を同定することができる。

さらに、オプションとして、全ての実験データ値２２０の散布点を、図４に示すようにビュー２０５および２３０の両方にプロットすることもできる。

図５は、図３のディスプレイの部分２０５および２３０のズームビューを示し、そこでは、全ての染色体の全体ビューは示されていないが、移動平均データ２１０、Ｚ−スコアデータ２１２、およびサイドバー２１４などのデータはより詳細に見ることができる。図６は同様のズームビューを示すが、「selected experiment」（選択された実験）表示部）２２２に示されるように、８つの実験に対するデータを示す。移動平均データは、表示されないように選択され、Ｚ−スコアデータ２１２のより明確な視覚化がもたらされる。

さらに、本発明のシステムは、生データ（例えば、Ｚ−スコアに隣接するアレイデータ）をスプレッドシート形式ファイル（例えば、ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ（登録商標）ファイルなど）で出力するテキスト記録装置（テキストリポーター）を提供する。そのように出力された生データの例としての部分４００を図７に示す。さらにまた、本発明のシステムは、例えば、ヒートマップ（heat map）またはその他の視覚的グラフ表現の形式などの図式形態で異常の要約を表示することができる。同時係属中の、同一出願人による、２００４年９月２９日に出願された、「ＭｅｔｈｏｄａｎｄＳｙｓｔｅｍｆｏｒＡｎａｌｙｓｉｓｏｆＡｒｒａｙ−ＢａｓｅｄＣｏｍｐａｒａｔｉｖｅ−ＨｙｂｒｉｄｉｚａｔｉｏｎＤａｔａ」と題する米国特許出願（出願番号はまだ割り当てられておらず、代理人整理番号はＮｏ.１００４０２４４-２）には、異常の要約における異常のデータのグラフ表示についてより詳細に記載されている。この米国特許出願（出願番号はまだ割り当てられていないが、代理人整理番号がＮｏ.１００４０２４４-２）は参照により本明細書中にその全内容を組み込むものとする。

例えば、ビュー２０４のカラム上をクリックすることにより実験データを単純に選択する（この実験データから、Ｚ−スコアプロット２１２、および必要に応じて移動平均プロット２１０をプロットする）ための代替手段として、本発明のシステムはまたインターフェース５００（図８参照）を提供し、この場合、ユーザーが、５０６で選択された染色体の入力に関する実験値の選択のために、増幅Ｚ−スコア閾値５０２および欠失Ｚ−スコア閾値５０４を入力することができる。特定の実験からのデータを表示するためには、その実験に対する少なくとも１つのＺ−スコア値が、入力された増幅Ｚ−スコア閾値５０２を超える必要があり、あるいは、その実験に対する少なくとも１つのＺ−スコア値が、入力された欠失Ｚ−スコア閾値５０４を超える必要がある。一旦、ある実験が、記載された基準の一つを満たすことによって「承認」されれば、その実験に対する全データセットが表示される。

図９は、本発明の１実施形態にしたがった典型的なコンピューターシステムを示す。コンピューターシステム１０００は、任意の数のプロセッサー１００２（中央演算装置（ＣＰＵ）とも称される）を含み、それらは、一次記憶装置１００６（通常、ランダムアクセスメモリー（ＲＡＭ））、一次記憶装置１００４（通常、読み取り専用メモリ（ＲＯＭ））などの記憶装置と接続している。当技術分野においては周知であるように、一次記憶装置１００４はデータと命令をＣＰＵへ一方方向で転送するように機能し、一次記憶装置１００６は通常、データと命令を双方向で転送するために使用される。これら両方の一次記憶装置は、上記したようないずれかの適切なコンピューター読み取り可能媒体を含んでもよい。大容量記憶装置１００８も双方向的にＣＰＵ１００２に接続し、付加的データ記憶容量を提供し、上記したコンピューター読み取り可能媒体の任意のものを含むことができる。大容量記憶装置１００８は、プログラム、データ等を保存するために使用されることができ、通常は、一次記憶装置よりは遅いハードディスクなどの二次的な記憶媒体である。適切なケースにおいては、大容量記憶装置１００８内に保持されている情報を、仮想メモリとしての一次記憶装置１００６の一部として、標準的な様式で組み込めることが理解されるであろう。ＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭ１０１４などの特定の大容量記憶装置もデータをＣＰＵへ一方方向に伝達することができる。

また、ＣＰＵ１００２は、例えば、ビデオモニター、トラックボール、マウス、キーボード、マイクロフォン、タッチセンシティブ・ディスプレイ、トランスデューサーカード・リーダー、磁気製もしくは紙製テープリーダー、タブレット、スタイラス、音声または手書き認識装置、または他のよく知られた入力装置（当然、例えば、他のコンピューター）などの１以上の入力／出力装置を含むインターフェース１０１０と接続している。最後に、オプションとして、ＣＰＵ１００２は、１０１２において一般的に示されるようなネットワーク接続を用いてコンピューターまたは通信ネットワークに接続していてもよい。そのようなネットワーク接続を用いることにより、ＣＰＵが、上述の方法ステップを実行している間に、ネットワークから情報を受信するか、またはネットワークへ情報を発信しうることが意図されている。上記装置および物質（または材料）は、コンピューターハードウェアおよびソフトウェア技術分野の当業者にはよく知られたものであろう。

上記ハードウェア要素は、本発明の機能／動作を実行するための複数のソフトウェアモジュールの命令を実行することができる。例えば、Ｚ−スコアを計算するための命令を、大容量記憶装置１００８または１０１４に保存し、一次メモリ１００６と協働してＣＰＵ１００８において実行することができる。

ＣＧＨデータにおける見かけ上の異常を統計的に分析する方法を、ハードウェアおよび／またはソフトウェアにおいて実行することができ、この場合、前記ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含む。この方法は、所定の大きさのウインドウによって画定されたＣＧＨ割合値のセットのサブセットを考慮するステップと、前記ＣＧＨ割合のセットに由来する統計に対する、上記ウインドウ内のデータ間のＺ−テストを以下の式により演算するステップを含む。

式中、
ＺはＺ−テストの計算値であり、
ｎは前記ウインドウ内の値の数であり、
Ｘバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
σは前記セットにおける値の標準偏差である。ウインドウ内における値のサブセットの移動平均も計算される。

さらにこのような方法は、ＣＧＨ割合のセットの他のサブセットを画定するために所定の量だけ増分式に所定の大きさのウインドウを移動させるステップと、前記の演算ステップ及び計算ステップを繰り返すステップを含むことができる。

上記移動させるステップおよび繰り返すステップを、セットの全要素が、少なくとも１つのサブセットにおいて、検討されるまで繰り返すことができる。

本発明の方法はさらに、Ｚ−テストの計算値および移動平均の計算値をプロットするステップを含む。

このプロットするステップは、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、染色体地図に隣接してＺ−テスト値および移動平均値をそれぞれプロットするステップを含むことができる。

ウインドウの大きさは変更することができ、この場合、上記の演算ステップ及び計算ステップを実施するために処理を繰り返すことができる。

ＣＧＨデータはａＣＧＨデータであり得る。

ＣＧＨ割合値は対数割合であり得る。

ＣＧＨデータにおける見かけ上の異常を統計的に分析する方法を実行することができ、この場合、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含む。この方法は、所定の大きさのウインドウによって画定されたＣＧＨ割合のセットのサブセットを考慮するステップと、ＣＧＨ割合のセットに由来する統計に対するウインドウ内のデータ間のｔ−テストを、以下の式により演算するステップを含む。

式中、
ｔはｔ−テストの計算値であり、
ｎは前記ウインドウ内の値の数であり、
Ｘバーは前記ウインドウ内の値の平均値であり、
μは前記セットにおける値の平均値であり、
ｓは前記ウインドウ内における値の標準偏差である。ウインドウ内における値のサブセットの移動平均も計算される。

所定の大きさのウインドウを、ＣＧＨ割合のセットの他のサブセットを画定するために所定の量だけ増分式に移動させることができ、この場合、上記演算ステップ及び計算ステップを繰り返すことができる。

上記移動させるステップおよび繰り返すステップを、セットの全要素が、少なくとも１つのサブセットにおいて検討されるまで繰り返すことができる。

さらに、ｔ−テストの計算値および移動平均の計算値をプロットすることができる。

このプロットには、ｔ−テスト値および移動平均値を、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、染色体地図に隣接してそれぞれプロットすることを含めることができる。

さらに、ウインドウの大きさを変更することができ、次いで上記演算ステップ及び計算ステップを繰り返すことができる。

ＣＧＨデータはａＣＧＨデータであり得る。

ＣＧＨ割合値は対数割合であり得る。

ＣＧＨデータにおける見かけ上の異常を統計的に分析するための方法が提供される。ここで、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列される。この方法は、ＣＧＨ割合値のセットを検討し、各ＣＧＨ割合値に対するＺ−正規化値を演算するステップ、Ｚ−正規化値を、所定のカットオフ値に基づき分類するステップ、所定のカットオフ値より大きなＺ−正規化値の数、所定のカットオフ値の負数より小さなＺ−正規化値の数、およびＺ−正規化値の総数を数えるステップ、所定の大きさのウインドウによって画定されたＣＧＨ割合のセットのサブセットを検討するステップ、および、サブセットにおける、少なくとも１つの有意な正の偏差および有意な負の偏差における、少なくとも１つの過剰および不足の有意性（または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性）を測定するためにＺ−スコアを演算するステップを含む。

このような方法はさらに、ＣＧＨ割合のセットの他のサブセットを画定するために所定の量だけ増分式に所定の大きさのウインドウを移動させるステップと、上記演算ステップを繰り返すステップを含むことができる。

本発明の方法はさらに、少なくとも１つのＺ−スコアをプロットするステップを含むことができる。

このプロットするステップは、少なくとも１つのＺ−スコアを、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、染色体地図に隣接してプロットするステップを含むことができる。

さらに、ウインドウ内の値のサブセットの移動平均を計算することができる。このような計算をウインドウによって増分式に画定された各サブセットについて実行することができる。

Ｚ−スコアおよび移動平均を、同じ表示部にプロットすることができる。

Ｚ−スコアおよび移動平均を、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、少なくとも１つの染色体地図に隣接してそれぞれプロットすることができる。

所定のカットオフ値は変更することができ、この場合、Ｚ−正規化値を分類し、Ｚ−正規化値の数を数え、さらにＺ−スコアを演算するステップを、変更された所定のカットオフ値に基づき繰り返すことができる。

さらに、ウインドウの大きさを変更することができ、ＣＧＨ割合のセットのサブセットを検討するステップを、大きさが変更されたウインドウにより画定されたサブセットについて繰り返すことができる（これから、Ｚ−スコアを演算することができる）。

ＣＧＨデータはａＣＧＨデータであり得る。

ＣＧＨ割合値は対数割合であり得る。

各Ｚ−正規化値は下式により計算することができる。

式中、
Ｚ（ｘ）は前記Ｚ−正規化値であり、
ｘは測定されたＣＧＨ割合の対数であり、
μは対数割合値の平均値であり、
σは前記セットにおける対数割合値の集合の標準偏差である。

Ｚ−スコアは下式により計算することができる。

式中、
Ｚ（ｗ）はＺ−スコアであり、
Ｒは所定のカットオフ値より大きい計数されたＺ−正規化値の数であり、
ＮはＺ−正規化値の総数であり、
ｒは所定のカットオフ値より大きいウインドウ内のＺ−正規化値の数であり、
ｎはウインドウ内のＺ−正規化値の総数である。

さらに、Ｚ−スコアは下式により演算することができる。

式中、
Ｚ（ｗ）はＺ−スコアであり、
Ｒ’は所定のカットオフ値の負数より小さい計数されたＺ−正規化値の数であり、
ＮはＺ−正規化値の総数であり、
ｒ’は所定のカットオフ値の負数より小さいウインドウ内におけるＺ−正規化値の数であり、
ｎはウインドウ内のＺ−正規化値の総数である。

本発明の方法はさらに、データのセットに由来する統計に対する、ウインドウ内のデータ間におけるＺ−テストを以下の式により演算するステップを含むことができる。

式中、
ＺはＺ−テストの計算値であり、
ｎはウインドウ内の値の数であり、
Ｘバーはウインドウ内の値の平均値であり、
μはセットにおける値の平均値であり、
σはセットにおける値の標準偏差である。

本発明の方法はさらに、データのセットに由来する統計に対する、ウインドウ内のデータ間におけるｔ−テストを以下の式により演算するステップを含むことができる。

式中、
ｔはｔ−テストの計算値であり、
ｎはウインドウ内の値の数であり、
Ｘバーはウインドウ内の値の平均値であり、
μはセットにおける値の平均値であり、
ｓはウインドウ内における値の標準偏差である。

本システムはさらに、ＣＧＨ割合のセットの他のサブセットを画定するために所定の量だけ増分式に所定の大きさのウインドウを移動させるための手段と、前記演算ステップを繰り返すための手段を含むことができる。

本発明のシステムはさらに、Ｚ−スコアをプロットするための手段を含むことができる。

さらに、本発明のシステムは、染色体地図を表示するための手段を含むことができ、その場合、プロットするための手段は、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、Ｚ−スコアを、各Ｚ−スコアについて、染色体地図に隣接してプロットする。

ウインドウ内の値のサブセットの移動平均を計算するための手段を、本システムにより提供することができる。

この計算するための手段は、ウインドウの各々の移動により画定された値の各サブセットにおける移動平均を計算するための手段を含むことができる。

本システムは、Ｚ−スコアおよび移動平均をプロットするための手段を含むことができる。

本システムは、さらに、染色体地図を表示するための手段を含むことができ、この場合、プロットするための手段が、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、Ｚ−スコアおよび移動平均を、各Ｚ−スコアについて染色体地図に隣接してプロットする。

本システムは、さらに、所定のカットオフ値を変更するための手段および、変更された所定のカットオフ値に基づくＺ−スコア値の分類、Ｚ−スコア数の計数、及びＺ-スコア処理の演算を繰り返すための手段を含むことができる。

さらに、本システムはウインドウの大きさを変更し、大きさが変更されたウインドウにより画定されたＣＧＨ割合のセットのサブセットの検討およびＺ−スコアの演算を繰り返すための手段を含むことができる。

本システムにより処理されるＣＧＨデータは、ａＣＧＨデータであり得る。

本システムはさらに、ＣＧＨ割合値からＣＧＨ対数割合を計算するための手段を含むことができる。

本システムは、ＣＧＨデータのセットに由来する統計（値）に対する、ウインドウ内のデータ間のＺ−テストを演算するための手段を含むことができる。

本システムはさらに、データのセットに由来する統計（値）に対する、ウインドウ内のデータ間のｔ−テストを演算するための手段を含むことができる。

ＣＧＨデータにおける見かけ上の異常を統計的に分析するためのシステムを提供することができる。この場合、ＣＧＨデータは、ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含む。各ＣＧＨ割合値に対するＺ−スコア値が演算され、Ｚ−スコアが所定のカットオフ値に基づいて分類され、さらに、所定のカットオフ値より大きなＺ−スコアの数、所定のカットオフ値の負数より小さなＺ−スコアの数、およびＺ−スコアの総数が計数される。システムは、所定の大きさのウインドウによって画定されたＣＧＨ割合のセットのサブセットを検討するための手段、および、サブセットにおける、少なくとも１つの有意な正の偏差および有意な負の偏差における、少なくとも１つの過剰および不足の有意性（または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性）を測定するためにＺ−スコアを演算するための手段を含む。

このようなシステムはさらに、ＣＧＨ割合のセットの他のサブセットを画定するために、ＣＧＨ割合のセットに伴って所定の量だけ増分式に所定の大きさのウインドウを移動させるための手段、および、Ｚ−スコアの演算を繰り返すための手段を含むことができる。

本システムはさらに、セットの全要素が、少なくとも１つのサブセットにおいて検討されるまで、上記繰り返し及び移動の処理を繰り返すことができる。

本システムはさらに、単数または複数のＺ−スコアをプロットするための手段を含むことができる。

本システムは、染色体地図を表示するための手段を含むことができる。この場合、プロットするための手段は、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、Ｚ−スコアを、各Ｚ−スコアについて、染色体地図に隣接してプロットする。

本システムはさらに、ウインドウ内の値のサブセットにおける移動平均を計算するための手段を含むことができる。

本システムはさらに、ウインドウの各々の移動により画定された値の各サブセットの移動平均を計算するための手段を含むことができる。

本システムはさらに、Ｚ−スコアおよび移動平均をプロットするための手段を含むことができる。

本システムはさらに、染色体地図を表示するための手段を含むことができる。この場合、プロットするための手段は、ウインドウ内のＣＧＨスコアが由来した物質の位置に対応する領域に、Ｚ−スコアおよび移動平均を、各移動平均およびＺ−スコアについて、染色体地図に隣接してプロットする。

本システムはさらに、ウインドウの大きさを変更し、さらに、大きさが変更されたウインドウにより画定されたＣＧＨ割合のセットのサブセットの検討（考慮）及びＺ−スコアの演算を繰り返すための手段を含むことができる。

本システムはさらに、ＣＧＨ割合値をＣＧＨ対数割合値に変換するための手段を含むことができる。

本システムはさらに、所定のカットオフ値を超える正の値を有するプロットされたＺ−スコアに隣接して、および、所定のカットオフ値の負数を下回る（または上回る）負の値を有するＺ−スコアに隣接して、インジケーターを表示するための手段を含むことができる。

本システムは、サイドバーをインジケーターとして表示することができる。

本システムはさらに、プロットされたＺ−スコアのズームビューを表示するための手段を含むことができる。

本システムは、既知の転写産物を、それらが存在する染色体上の位置に隣接させて、ズームビュー内に表示するための手段を含むことができる。

本システムは、図式的な（グラフィカルな）異常の要約（概要）を表示するための手段を含むことができる。

図式的な異常の要約を表示するための前記手段は、前記の図式的な異常の要約を、色符号化（カラーコード化）されたヒートマップの形式で表示することができる。

図式的な異常の要約の表示とプロットされたＺ−スコアの表示をリンクすることができ、これにより、表示部の１つにおいてエントリ（入力部）を選択すると、他方の表示部のカーソルを同じエントリへとナビゲート（または移動）させる。

本システムはａＣＧＨデータを処理することができ、さらに、Ｚ−スコアを演算するためにａＣＧＨデータの複数のアレイを検討（考慮）し、処理することができ、さらに、本システムは、複数のアレイに関する前記Ｚ−スコアの複数のプロットをプロットするための手段を含むことができる。

本システムはさらに、複数のアレイのどれがＺ−スコアをプロットするためのものであるかを決定するための基準をユーザーが選択するためのインターフェースを含むことができる。

本発明の実施形態はさらに、コンピューターで実行される各種処理を実行するための、プログラム命令および／またはデータ（データ構造を含む）を含む、コンピューター読み取り可能媒体またはコンピュータープログラム製品に関する。媒体およびプログラム命令は、本発明の目的のために特別に設計され、作成されたものであってよく、または、コンピューターソフトウエア分野における当業者には周知であると共に利用可能な種類のものであってよい。コンピューター読み取り可能媒体の例は、限定はしないが、ハードディスク、フロッピーディスクおよび磁気テープなどの磁気的な媒体、ＣＤ−ＲＯＭ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、またはＤＶＤ−ＲＷディスクのような光学的な媒体、フロプティカル・ディスクのような光磁気的な媒体、およびリードオンリーメモリーデバイス（ＲＯＭ）およびランダムアクセスメモリー（ＲＡＭ）などの、プログラム命令を保存および実行するために特別に構成されたハードウエアデバイスを含む。プログラム命令の例は、コンパイラにより作成された等の機械コードと、インタープリタ（解釈プログラム）を用いてコンピューターによって実行することができるより高レベルのコードを含むファイルとの両方を含む。

このようなコンピューター読み取り可能媒体は、ＣＧＨデータにおける見かけ上の異常を統計的に分析するための１以上の命令のシーケンスを保持することができる。この場合、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列される。１以上の処理装置による１以上の命令のシーケンスの実行によって、その１以上の処理装置に、ＣＧＨ割合値のセットを考慮して、各ＣＧＨ割合値に対するＺ−スコア値を演算するステップ、Ｚ−スコア値を所定のカットオフ値に基づき分類するステップ、所定のカットオフ値より大きなＺ−スコアの数、所定のカットオフ値より小さなＺ−スコアの数、およびＺ−スコアの総数を数えるステップ、所定の大きさのウインドウによって画定されたＣＧＨ割合のセットのサブセットを検討する（考慮する）ステップ、そして、サブセットにおける、少なくとも１つの有意な正の偏差および有意な負の偏差における、少なくとも１つの過剰および不足の有意性（または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性）を測定するためにＺ−スコアを演算するステップを実行させる。

このようなコンピューター読み取り可能媒体は、ＣＧＨデータにおける見かけ上の異常を統計的に分析するため１以上の命令のシーケンスを保持することができる。この場合、ＣＧＨデータは、該ＣＧＨデータが由来した染色体上の物質の位置に対応して配列されたＣＧＨ割合値のセットを含み、Ｚ−スコア値が各ＣＧＨ割合値に対して演算され、そのＺ−スコアが所定のカットオフ値に基づき分類され、所定のカットオフ値より大きなＺ−スコアの数、所定のカットオフ値の負数より小さなＺ−スコアの数、およびＺ−スコアの総数が数えられる。１以上の処理装置による１以上の命令のシーケンスの実行によって、１以上の処理装置に、所定の大きさのウインドウによって画定されたＣＧＨ割合のセットのサブセットを検討するステップと、サブセットにおける、少なくとも１つの有意な正の偏差および有意な負の偏差における、少なくとも１つの過剰および不足の有意性（または、サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意性）を測定するためにＺ−スコアを演算するステップを実行させる。

Ｚ−値の有意性に関する閾値は、ユーザーによって幾分主観的に設定され得る。典型的には、３より大きいＺ−値は有意であると考えられるが、２より大きいＺ−値が有意であると考えるユーザーもいる。したがって、Ｚ−正規化値を分類するためにＺ_ｃの値を選択する時には、ユーザーは典型的に２または３の値を選択するであろう。しかし、それらのほとんどが常に有意なＺ−スコアを示すように、本発明のシステムおよび方法で決定されるほとんどの最終的なＺ−スコア（即ち、Ｚ_ｃではなく、計算されたＺ−スコア）は５〜１５またはそれ以上である。３というＺ−スコアは（この値が行き当たりばったりのものではなく）約９５％の信頼性レベルに相当する。従って、１０というＺ−スコアは通常、観察された異常がでたらめに生じているのではないという、非常に高い可能性に相当する。しかし、通常、Ｚ−スコアは、異常が現実であるという確実な証拠であることを意図したものではなく、重要な異常が存在する場所を統計的に示すことを意図している。したがって、異常が適切に統計的に有意であるかどうかを決定すること、および、（より重要なことであるが）そのような異常が生物学的に有意（顕著）であり、目前の研究に関連しているかどうかを決定することは、ユーザーに依存している。本発明の方法は、分析が多くの実験とともに行われ、結果が、全てある統計的に重要な異常に合致している時に特に興味深い。このような場合において、検討対象とする疾患のメカニズムに、重要となる場合がある共通の異常が強く示唆される。

本発明は、ＣＧＨデータ内の見かけ上の異常を統計的に分析するための方法、システム、及びコンピュータ読み取り可能媒体に関する。ＣＧＨデータは、該ＣＧＨデータが取得されたところの染色体上の物質の位置に対応して配列される。１組のＣＧＨ比率値が検討されて（すなわち、考慮されて）、Ｚ−スコア値が各ＣＧＨ比率値について計算される(106)。Ｚ−スコア値は、所定のカットオフ値に基づいて分類される(108)。所定のカットオフ値よりも大きいＺ−スコアの数が計数され、所定のカットオフ値の負数よりも小さいＺ−スコアの数が計数され、Ｚ−スコアの総数が計数される。１組のＣＧＨ比率のサブセットが検討されるが、サブセットは所定のサイズのウインドウによって画定される。２次的なＺ−スコアが計算されて、サブセットにおける有意な正偏差と有意な負偏差の少なくとも一方についての過剰と不足の少なくとも一方の有意度が求められる。

本発明を特定の実施形態を参照して説明したが、当業者には、各種の変更が可能であり、本発明の真の思想および範囲を逸脱することなく等価物での置換が可能であることが理解されるべきである。さらに、本発明の目的、思想および範囲に対して、特定の状況、素材、物質の組成、処理、処理ステップ（複数も含む）に適合させるための多くの変更が可能である。このような全ての変更は本明細書に添付の特許請求の範囲の範囲内であることが意図されている。

ＣＧＨデータにおける見かけ上の異常を統計的に分析するための、本システムにより実行可能な処理ステップのフローチャートである。移動平均に関して、１実験についてのＺ−スコアがプロットされた典型的な表示図である。図２に示すものと類似する表示であるが、複数の実験に関するデータがプロットされた表示図である。図２および図３に示すものと類似する他の表示画面であって、データポイントの散布図が付加的に表示されている。プロットされたデータをより詳細に示すためのズームビューである。図５に示すものと類似であるが、移動平均データがプロットされていない、または表示されていない別のズームビューである。本発明により提供されるテキストレポーターによって出力され表示されたデータの一部を示す。Ｚ−スコアを選択してプロットするための実験データを決定するために、ユーザーに提供されるインターフェースを示す。本発明の１実施形態に従う典型的なコンピューターシステムを示す。

符号の説明

２１０移動平均
２１２Ｚ−スコア
２１４サイドバー
２３０ズームビュー
１００２プロセッサ
１００４、１００６一次記憶装置
１００８大容量記憶装置
１０１０インターフェース

Claims

ＣＧＨデータにおける見かけ上の異常を統計的に分析するためのシステムであって、１組のＣＧＨデータが染色体上の物質の位置に対応して配列され、前記ＣＧＨデータは前記物質から得られ、
１組のＣＧＨ割合値を入力するための手段（１０２）と、
各ＣＧＨ割合値に対するＺ−正規化値を計算するための手段（１０６）と、
所定のカットオフ値に基づいて前記Ｚ−正規化値を分類するための手段（１０８）と、
前記所定のカットオフ値より大きなＺ−正規化値の数、前記所定のカットオフ値の負数より小さなＺ−正規化値の数、およびＺ−正規化値の総数を数えるための手段と、
所定の大きさのウインドウによって画定された１組のＣＧＨ割合のサブセットを考慮するための手段（１１２）と、
前記サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意度を測定するためにＺ−スコアを計算するための手段（１１４）
を備える、システム。
前記１組のＣＧＨ割合のセットの他のサブセットを画定するために、所定の増分量だけ所定の大きさのウインドウを移動させるための手段と、前記計算するステップを繰り返すための手段をさらに備える、請求項１に記載のシステム。
前記ウインドウ内における値のサブセットの移動平均を計算するための手段をさらに備える、請求項１または２に記載のシステム。
前記ウインドウの各々の移動により画定された値の各サブセットの移動平均を計算するための手段をさらに備える、請求項２に記載のシステム。
前記Ｚ−スコア（２１２）をプロットするための手段をさらに備える、請求項２〜４のいずれか１項に記載のシステム。
染色体地図を表示するための手段をさらに備える請求項５に記載のシステムであって、前記プロットするための手段が、前記ウインドウ内の前記ＣＧＨスコアが由来した物質の位置に対応する領域に、前記Ｚ−スコア（２１２）を、各Ｚ−スコアについて、染色体地図（２０５）に隣接してプロットすることからなる、システム。
前記移動平均（２１０）をプロットするための手段をさらに備える、請求項３〜６のいずれか1項に記載のシステム。
前記所定のカットオフ値を変更するための手段と、変更された所定のカットオフ値、Ｚ−正規化値の数の前記計数、およびＺ−スコアの前記計算に基づいて、前記Ｚ−正規化値の分類を繰り返すための手段とをさらに備える、請求項１〜７のいずれか1項に記載のシステム。
前記ウインドウの大きさを変更し、大きさが変更されたウインドウにより画定された１組のＣＧＨ割合のサブセットの前記考慮とＺ−スコアの前記計算とを繰り返すための手段をさらに備える、請求項１〜８のいずれか1項に記載のシステム。
前記ＣＧＨデータがａＣＧＨデータである、請求項１〜９のいずれか１項に記載のシステム。
前記ＣＧＨ割合値からＣＧＨ対数割合を計算するための手段をさらに備える、請求項１〜１０のいずれか1項に記載のシステム。
前記１組のＣＧＨデータから得られた統計に対して、前記ウインドウ内のデータ間のＺ−テストを計算するための手段をさらに備える、請求項１〜１１のいずれか1項に記載のシステム。
前記１組のデータから得られた統計に対して、前記ウインドウ内のデータ間のｔ−テストを計算するための手段をさらに備える、請求項１〜１１のいずれか1項に記載のシステム。
前記所定のカットオフ値を上回る値を有するプロットされたＺ−スコアに隣接してインジケーターを表示するための手段をさらに備える、請求項１〜１３のいずれか1項に記載のシステム。
前記インジケーターがサイドバー（２１４）を含む、請求項１４に記載のシステム。
Ｚ−スコアのズームビュー（２３０）を表示するための手段をさらに備える、請求項１〜１５のいずれか1項に記載のシステム。
既知の転写産物を、それらが存在する染色体上の位置に隣接して、前記ズームビュー（２３０）内に、表示するための手段をさらに備える、請求項１６に記載のシステム。
前記ＣＧＨデータがａＣＧＨデータであり、ａＣＧＨデータの複数のアレイを考慮し、処理してＺ−スコアを計算し、前記システムが、前記複数のアレイに関連した前記Ｚ−スコアの複数のプロットをプロットするための手段を備えることからなる、請求項１〜１７のいずれか1項に記載のシステム。
前記複数のアレイのどれがＺ−スコアをプロットするためのものであるかを決定するための基準をユーザーが選択するためのインターフェースをさらに備える、請求項１８に記載のシステム。
ＣＧＨデータ値の種々の図式的な表現、および、前記ＣＧＨデータ値における見かけ上の異常を表示するためのユーザーインターフェースを含む請求項１〜１８のいずれか１項に記載のシステムであって、前記ユーザーインターフェースが、
染色体地図（２０５）を表示するための手段と、
前記ＣＧＨデータ値が得られた物質の位置に対応する領域に、該ＣＧＨデータ値を特徴づける異常の統計的なスコアを前記染色体地図に隣接してプロットするための手段
を備えることからなる、システム。
前記ユーザーインターフェースが、前記ＣＧＨデータ値における見かけ上の異常を特徴付ける統計的なスコア（２１０、２１２）をオーバーレイするための手段をさらに備える、請求項２０に記載のシステム。
前記ユーザーインターフェースが、前記ＣＧＨデータ値を散布図として表示する、請求項２０または２１に記載のシステム。
ＣＧＨデータにおける見かけ上の異常を統計的に分析する方法であって、前記ＣＧＨデータが、該ＣＧＨデータが得られた染色体上の物質の位置に対応して配列され、該方法が、１組のＣＧＨ割合値を考慮し、各ＣＧＨ割合値に対するＺ−正規化値を計算するステップ（１０６）と、
所定のカットオフ値に基づいて前記Ｚ−正規化値を分類するステップ（１０８）と、
前記所定のカットオフ値より大きなＺ−正規化値の数、前記所定のカットオフ値の負数より小さなＺ−正規化値の数、およびＺ−正規化値の総数を数えるステップと、
所定の大きさのウインドウによって画定された１組のＣＧＨ割合のサブセットを考慮するステップと、
前記サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意度を測定するためにＺ−スコアを計算するステップ（１１４）
を含む、方法。
ＣＧＨデータにおける見かけ上の異常を統計的に分析する方法であって、前記ＣＧＨデータが、該ＣＧＨデータが得られた染色体上の物質の位置に対応して配列された１組のＣＧＨ割合値を含み、各ＣＧＨ割合値に対するＺ−スコア値が計算されており、該Ｚ−スコアが所定のカットオフ値に基づいて分類されており、さらに、前記所定のカットオフ値より大きなＺ−スコアの数、前記所定のカットオフ値の負数より小さなＺ−スコアの数、およびＺ−スコアの総数が計数されており、
所定の大きさのウインドウによって画定された１組のＣＧＨ割合のサブセットを考慮するステップと、
前記サブセットにおける、有意な正の偏差と有意な負の偏差の少なくとも一方についての、過剰と不足の少なくとも一方の有意度を測定するために２次的なＺ−スコア（１１４）を計算するステップ
を含む、方法。