JP4414419B2

JP4414419B2 - 可変クラスタ終点を用いるクラスタ分析によるｃｔ測定

Info

Publication number: JP4414419B2
Application number: JP2006262485A
Authority: JP
Inventors: クルニクロナルド
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2005-09-29
Filing date: 2006-09-27
Publication date: 2010-02-10
Anticipated expiration: 2026-09-27
Also published as: EP1770172B1; US7991561B2; JP2007095070A; EP1770172A3; CA2561458A1; HK1105030A1; EP1770172A2; US20070073490A1

Description

本発明は、大別して、Ｓ字型曲線または成長曲線を表すデータを処理するためのシステム及び方法に関し、より詳細には、リアルタイムＰＣＲ増幅曲線における特徴的なサイクル値（Ｃｔ）またはエルボー値を決定するためのシステム及び方法に関する。

ポリメラーゼ連鎖反応（ＰＣＲ）は、特定の核酸配列を酵素により合成または増幅するためのインビトロ法（体外的方法）である。この反応は、通常、相対するストランドに交雑しかつ増幅対象の鋳型または標的ＤＮＡ配列と側面を接する二つのオリゴヌクレオチドプライマーを使用する。プライマーの伸長は耐熱性ＤＮＡポリメラーゼの触媒作用によってなされる。鋳型変性、プライマーアニーリング及びアニーリングされたプライマーのポリメラーゼによる延長を含む一連の反復的サイクルの結果として、特定のＤＮＡ断片を指数的に蓄積させる。リアルタイムＰＣＲまたは動的ＰＣＲでは、一般に、増幅プロセスの検出及び定量化を容易にするために、蛍光プローブまたはマーカー（標識）が使用される。

典型的な動的ＰＣＲ曲線が図１に示されており、この図において蛍光強度値が典型的なＰＣＲ法についてのサイクル数（サイクル番号）に対してプロットされている。この場合、ＰＣＲ生成物の形成はＰＣＲ法の各サイクルにおいて監視される。増幅は、通常、増幅反応中に蛍光信号を測定するためのコンポーネント及び装置を含むサーモサイクラにおいて測定される。この種のサーモサイクラの一例はＲｏｃｈｅＤｉａｇｎｏｓｔｉｃｓＬｉｇｈｔＣｙｃｌｅｒ（Ｃａｔ．Ｎｏ．２０１１０４６８）である。増幅生成物は、例えば、標的核酸配列に結合されその後ＤＮＡポリメラーゼの５’から３’のヌクレアーゼ活性により劣化した後は蛍光信号しか発しない蛍光消光標識交雑プローブによって検出される。他の例としては、核酸増幅中に生成される蛍光信号があり、この場合、蛍光染料は二本鎖ＤＮＡに結合して、その蛍光量子収率を増加させる。

典型的な動的ＰＣＲ成長曲線の場合、一般にエルボー値またはサイクル値（Ｃｔ）と呼称される遷移点を特定することは、ＰＣＲ増幅プロセスの特徴を理解する上で非常に有益である。Ｃｔ値は、ＰＣＲ法の効率の尺度として使用することができる。例えば、ある特定の信号閾値が分析対象の全ての反応について定められる。次に、その信号閾値に達するために必要とされるサイクル数（Ｃｔ）が、標的核酸について、並びに、標準またはハウスキーピング遺伝子のような基準核酸について定められる。標的分子の絶対的または相対的な複製数は、標的核酸及び基準核酸について得られるＣｔ値に基づいて定められ得る（Ｇｉｂｓｏｎら、ＧｅｎｏｍｅＲｅｓｅａｒｃｈ６：９９５-１００１；Ｂｉｅｃｈｅら、ＣａｎｃｅｒＲｅｓｅａｒｃｈ５９：２７５９-２７６５，１９９９；ＷＯ９７／４６７０７；ＷＯ９７／４６７１２；ＷＯ９７／４６７１４）。図１では、符号２０によってほぼ３５のエルボー値が示されている。

動的ＰＣＲ曲線におけるより正確なエルボー値は、いくつかの既存の方法を用いて定めることができる。例えば、様々な方法が、蛍光がＡＦＬ（任意蛍光値）と呼称される予め定められた信号レベルに達する値としてエルボーの実効値（Ｃｔ）を決定する。他の方法は、蛍光対サイクル番号の二次導関数が最大値に達するサイクル番号（サイクル数）を使用する。これらの方法は全て欠点を有する。例えば、微分法は異常値データ（ノイズデータ）に対して敏感であり、ＡＦＬ法はプレエルボーＰＣＲサイクルにおける平均ベースライン蛍光レベルの変化に対して敏感である。データの標準化も問題を追加する。さらに、これらのアルゴリズムは、一般に、最適化することが多くの場合困難である多数のパラメータを有する。その結果、感度と偽陽性の間の二律背反となり、これらのアルゴリズムの効果を減じざせることになる。

したがって、これら及びその他の欠点を克服する、Ｓ字型曲線及び特に動的ＰＣＲ曲線におけるエルボー値を決定するための新規のシステム及び方法を提供することが望まれる。

本発明は、Ｓ字型曲線または成長曲線におけるエルボー値など特徴的遷移値を決定するための新規の効率的な方法を提供する。一つの実施形態において、本発明の方法は、特に動的ＰＣＲ増幅曲線におけるサイクル値（Ｃｔ）を決定するために有益である。

本発明の一つの態様によれば、曲線のある領域における特定の関心点を決定するためのコンピュータで実行される方法であって、
−曲線を表すデータセットを受け取るステップであって、データセットが各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含み、二次座標系において見るとこのデータセットが関心領域を含む、ステップと、
−少なくとも関心領域を含むデータセットの部分に変換を加えて、変換データセットを生成するステップであって、変換データセットが各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含み、第二のデータ点のｙ’座標値が対応する第一のデータ点のｙ座標値であり、第二のデータ点のｙ*座標値が後続の第一のデータ点のｙ座標値である、ステップと
−変換データセットにおいて第二のデータ点の複数のクラスタを特定するステップと、
−クラスタの各々の線形勾配を決定するステップと、
−各クラスタについてこのクラスタの勾配と隣接するクラスタの勾配との比率を決定するステップと、
−比率を比較するステップと、
を含み、最大または最小比率を有するクラスタの終点がデータ曲線の特定の関心点を表すようになっている方法が提供される。

本発明の他の態様によれば、動的ＰＣＲ増幅曲線におけるサイクル値（Ｃｔ）を決定するためにプロセッサを制御するためのコードを含むコンピュータ読み取り可能な媒体が提供される。このコードは、
−データ曲線を表すデータセットを受け取るための命令であって、データセットが各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含み、二次座標系で見るとデータセットが関心領域を有する、命令と、
−少なくとも関心領域を含むデータセットの部分に変換を加えて、変換データセットを生成するための命令であって、変換データセットが各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含み、第二のデータ点のｙ’座標値が対応する第一のデータ点のｙ座標値であり、第二のデータ点のｙ*座標値が後続の第一のデータ点のｙ座標値である、命令と
−変換データセットにおいて第二のデータ点の複数のクラスタを特定するための命令と、
−各クラスタの線形勾配を決定するための命令と、
−各クラスタについてこのクラスタの勾配と隣接するクラスタの勾配の比率を決定するための命令と、
−比率を比較するための命令と、
を含み、最大または最小比率を有するクラスタの終点はデータ曲線における特定の関心点を表している。

本発明のさらに別の態様によれば、動的ＰＣＲシステムが提供される。このシステムは、
−動的ＰＣＲ増幅曲線を表すＰＣＲデータセットを生成するＰＣＲ分析モジュールであって、データセットが各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含み、データセットがサイクル値（Ｃｔ）を含む関心領域においてデータ点を含む、ＰＣＲ分析モジュールと、
−ＰＣＲデータセットを処理してＣｔ値を決定するように構成されているインテリジェントモジュールであって、
少なくとも関心領域を含むＰＣＲデータセットの部分に変換を加えて、変換データセットを生成するステップであって、変換データセットが各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含み、第二のデータ点のｙ’座標値が対応する第一のデータ点のｙ座標値であり、第二のデータ点のｙ*座標値が後続の第一のデータ点のｙ座標値であるステップと、
変換データセットにおいて第二のデータ点の複数のクラスタを特定するステップと、
各クラスタの線形勾配を決定するステップと、
各クラスタについてこのクラスタの勾配と隣接するクラスタの勾配の比率を決定するステップと、
比率を比較するステップと、
によってＣｔ値を決定する、インテリジェントモジュールと、
を含み、最大または最小比率を有するクラスタの終点はＰＣＲ増幅曲線におけるＣｔ値を表す。

図面及び特許請求の範囲を含めて明細書の残りの部分を参照することによって、本発明の他の特徴及び利点が判るであろう。本発明のさらなる特徴及び利点並びに本発明の様々な実施形態の構造及び作用については、添付図面を参照しながら以下に詳しく説明する。図面において、同様の参照番号は同じまたは機能的に類似する要素を指す。

本発明は、ベースライン領域の終端または動的ＰＣＲ増幅曲線のエルボー値またはＣｔ値のようなＳ字型曲線または成長曲線における遷移値を決定するためのシステム及び方法を提供する。本発明のシステム及び方法は、データ信号がノイズ信号であるか否かについての表示も提供する。一部の態様においては、信号における複数のデータクラスタを特定するためにクラスタ分析アルゴリズムがデータ信号に適用される。クラスタのうち一つの終点はＣｔ値を表す。すなわち、このシステム及び方法は、その終点がＣｔ値を表す特定のクラスタを特定するためのロバスト技法（エラーに強い技法）を提供する。Ｃｔ値は返されて、表示されるか、さもなくば、その後の処理のために使用され得る。ある態様においては、リーベンベルグ−マルクワルト（ＬＭ）回帰法によって決定されるパラメータを持つ二重シグモイド関数が曲線の近似を見つけるために使用される。ある態様においては、曲線近似及びパラメータは、データ信号の前処理のため、例えばデータ信号を標準化しかつ／またはデータ信号に存在する可能性のあるスパイク部すなわち異常データ点を除去するために使用される。

本発明に従った動的ＰＣＲ増幅曲線データセットにおいてエルボーまたはＣｔ値を決定するための特定の方法において、ＰＣＲデータセットは蛍光強度（ｙ軸）対サイクル数（ｘ軸）の二次元プロットにおいて視覚化することができる。データセットは、第一のカラムがサイクルｎの蛍光すなわちｙ（ｎ）を含みかつ第二のカラムがサイクル（ｎ+ｉ）の蛍光すなわちｙ（ｎ+ｉ）を含む、データ点のパーティションテーブルを生成するように変換される。ここで、ｉは典型的には１またはこれより大きい数である。クラスタ分析プロセス（クラスタ分析処理）は、パーティションテーブルデータセットにおいて複数のクラスタを決定するために、パーティションテーブルデータセットに適用される。クラスタ分析は、異なる対象、例えばデータ点またはベクトルを、二つの対象が同じグループに属する場合には二つの対象間の関連度が極大になりそうでなければ極小になるように、グループに仕分けるための分析ツールである。一つの態様において、使用されるクラスタ化プロセス（クラスタ化処理）は、ｋ平均クラスタ化アルゴリズムを含む。ここで、特定されるクラスタの数ｋは３以上の整数である。他の態様においては、３個またはそれ以上のクラスタを特定するためにメドイド周辺分割（ＰＡＭ：ＰａｒｔｉｔｉｏｎｉｎｇＡｒｏｕｎｄＭｅｄｏｉｄｓ）アルゴリズムが使用される。特定されたクラスタを用いて、各クラスタの線形勾配が決定される。例えば、あるクラスタの勾配は、そのクラスタの各点についてのｙ（ｎ+１）対ｎに基づいて決定される。各クラスタについて、そのクラスタの勾配と隣接するクラスタの勾配の比率が決定される。次に、比率が比較される。最大または最小比率を有するクラスタの終点がデータ曲線の特定の関心点を表す。ＰＣＲ曲線のエルボーまたはＣｔ値を表すデータ点は特定されたクラスタのうちの一つの終点として特定され、このデータ点に対応するサイクル数が返されるか、表示される。

動的ＰＣＲ法における増幅曲線１０の一例が図１に示されている。示されているように、曲線１０は、誘導期領域１５と，対数期領域２５とを含む。このような曲線は、誘導期と対数期を結びつける関心遷移領域２０を含む。関心遷移領域２０は、一般に、エルボーまたはエルボー領域と呼称される。エルボー領域２０は、典型的には、基礎となるプロセスの成長または増幅速度の過渡期を形成し、エルボー領域２０における特定の遷移点の特定は、基礎となるプロセスの挙動を分析するために有益である。典型的なＰＣＲ曲線において、エルボー値またはサイクル値（Ｃｔ）と呼称される遷移点を特定することは、ＰＣＲ法の効率特性を理解するうえで非常に有益である。同様のＳ字型曲線または成長曲線を示すその他のプロセスとしては、細菌増幅プロセス（細菌増幅処理）、酵素増幅プロセス（酵素増幅処理）及び結合プロセス（結合処理）がある。例えば細菌増幅曲線においては、関心遷移点は誘導期における時間λとして言及されてきた。したがって、本明細書の残りにおいてＰＣＲ曲線への適用に関して本発明を説明するが、本発明は他のプロセスに関するデータ曲線に適用できることが判るであろう。

本発明に従って分析され得るデータ曲線を生じるその他の特定のプロセスには、ストランド変位増幅（ＳＤＡ）プロセス（ストランド変位増幅処理）、核酸配列ベース増幅（ＮＡＳＢＡ）プロセス（核酸配列ベース増幅処理）及び転写媒介増幅（ＴＭＡ）プロセス（転写媒介増幅処理）が含まれる。ＳＤＡ及びＮＡＳＢＡプロセス及びデータ曲線の例は、それぞれＷａｎｇ，Ｓｈａ-Ｓｈａらの「ＢＤＰｒｏｂｅＴｅｃＥＴシステムにおけるストランド変位増殖による単一ヌクレオチド多形現象の均質リアルタイム検出」、ＣｌｉｎＣｈｅｍ２００３４９（１０）：１５９９、及びＷｅｕｓｔｅｎ，ＪｏｓＪ．Ａ．Ｍらの「分子ビーコンを用いる均質検出と組み合わせた核酸配列ベース増幅を用いるウィルス負荷の計量の原理」、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，２００２３０（６）：２６において見ることができる。

図１に示されているように、典型的なＰＣＲ成長曲線のデータは、例えばＰＣＲサイクル数をｘ軸とし、累積ポリヌクレオチド増幅の指数をｙ軸とする二次元座標系に表すことができる。典型的には、図１に示されているように、蛍光マーカーが最も広範に使用される標識方式なので、累積増幅の指標は蛍光強度である。ただし、使用される特定の標識及び／または検出方式に応じて他の指標を使用することができることが判るはずである。累積信号増幅の他の有益な指標の例としては、発光強度、化学発光強度、生体発光強度、燐光強度、電荷移動、電圧、電流、電力、エネルギー、温度、粘度、光拡散、放射能強度、反射率、透過度及び吸収度がある。サイクルの定義は、時間、処理周期、単位操作周期及び生殖周期も含むことができる。

クラスタ分析プロセス及び変形
本発明によれば、動的ＰＣＲ増幅曲線のエルボー値またはＣｔ値のようなＳ字型曲線における遷移値を決定するためのプロセスの一つの実施形態は、簡単に以下のように記載することができる。典型的には、ＰＣＲデータは図１に示されているようにプロットされ、蛍光がサイクル数との対比でプロットされる。この表示は重要な情報を与えるが、連続的な点が相互にどの程度近いかについての情報を与えない。その代わりに、サイクル（ｎ+１）における蛍光がサイクル（ｎ）における蛍光に対比してプロットされれば、図２に示されているグラフが得られる。データがこのようにプロットされると、データのクラスタがあることが明白となる。３個のクラスタが異なる標識を付された領域によって示されている。すなわち、低蛍光値の領域３５はベースライン領域を表し、高蛍光値の領域４５はプラトー領域を表し、領域４０は対数領域を表している。明らかなように、データで表される様々な領域のさらに正確な区分（カットオフ）を示すために、付加的なクラスタによってデータを表すこともできる。これらのクラスタはＰＣＲ増幅曲線のＣｔ値を特定するために有利に使用することができる。ある態様においては、５個のクラスタが定められる。

動的ＰＣＲ曲線におけるエルボー値を決定するためのプロセス１００の一つの実施形態が図３に示されている。ステップ１１０において、データセットが取得される。本発明の例示の実施形態では、この方法は、キーボード、マウスなどのようなデータセットを入力するための入力装置、モニタのような曲線のある領域における特定の関心点を表すためのディスプレイ装置、ＣＰＵのようなこの方法の各ステップを実行するために必要な処理装置、モデムのようなネットワークインテーフェイス、データセットを記憶するためのデータ記憶装置、プロセッサ上で実行されるコンピュータコードなどを含む（しかしながら、これに限定されるものではない）従来のパソコンシステムを用いて実行することができる。さらに、この方法はＰＣＲ装置において実行することもできる。プロセス１００がサーモサイクラのようなＰＣＲデータ取得装置に内蔵されるインテリジェントモジュール（例えば,命令を実行するプロセッサ）において実行される場合、データが収集されると、データセットがリアルタイムでインテリジェントモジュールに提供されてもよく、メモリユニットまたはバッファにこれを記憶して、実験が完了した後にこれをインテリジェントモジュールに提供してもよい。同様に、データセットは、ネットワーク接続（例えば、ＬＡＮ、ＶＰＮ、イントラネット、インターネットなど）通じてまたは取得装置への直接接続（例えば、ＵＢＳまたはその他の直接配線または無線接続）を通じてデスクトップコンピュータのような別個のシステムに提供されてもよく、また、ＣＤ、ＤＶＤ、フロッピー（登録商標）ディスクのような携帯可能な媒体で提供されてもよい。インテリジェントモジュールは、動的ＰＣＲ分析モジュールに接続されたまたはこれと別個のコンピュータシステムのプロセッサを含むこともできるし、あるいは動的ＰＣＲ分析モジュールに直接結合されるプロセッサを含むことができる。例えば、両方のコンポーネントが動的ＰＣＲサーモサイクラを構成してもよい。ある態様においては、データセットはサイクル数及び蛍光強度値を表す１対の座標値（または二次元ベクトル）を有するデータ点を含む。

データセットがステップ１１０において受け取られるか取得された後、クラスタ分析を用いてデータセットが分析され得る。データセットにおいて取得されたデータ点の数に応じて、プロセス１００によって決定されるＣｔ値の解像度を改良するためにデータ点の数を増大することが望ましいであろう。したがって、一つの実施形態では、ステップ１２０において、既存のデータ点の間で補間を行うことによって追加のデータ点が定められる。ステップ１２０では、線形補間関数、三次スプライン関数または最小二乗適合関数のような関数がデータ点に適している。これは、ソフトウェアアプリケーションＭａｔｈｅｍａｔｉｃａ（登録商標）またはその他のアプリケーションを用いて行うことができる。例えば、一つの態様では、データ点は、例えば線形補間関数を用いてまたは三次スプライン関数または最小二乗適合関数を用いて、１．０またはこれより小さいサイクル数間隔、例えば０．０５または０．０１サイクル数間隔で、既存のデータ点の間で補間される。一つの態様では、データ値を補間するためにリーベンベルグ−マルクワルト回帰法が使用される。より詳細には、リーベンベルグ−マルクワルト回帰法によって決定されるパラメータを持つ二重シグモイド関数のような適合関数は、データ曲線の近似を見つけるために使用される。曲線の近似が決定されたら、所望の補間間隔でデータ値を補間することができる。リーベンベルグ−マルクワルト回帰法を用いて曲線近似及び適合パラメータを決定するための有益なシステム及び方法は当該技術分野において公知である。

ステップ１２０では、補間データ点も実データ点とともに記憶されて、サイクル数及び蛍光強度を表すより大きなデータ点のテーブルまたはマトリクスを形成する。図４は増幅曲線のデータセットの一例を示し、図５は０．１の増分でデータが補間された図４のデータセットの例を示している。このデータセット（または、補間が行われない当初に取得されたデータセット）、またはその一部は、次に、ステップ１３０において、座標（ｙ’、ｙ*）を有するデータ点の組を生成するように処理される。ここで、ｙ’座標値はテーブルにおいて対応するデータ点のｙ座標値であり、ｙ*座標値はテーブルの次のデータ点のｙ座標値である。例えばＭａｔｈｅｍａｔｉｃａ（登録商標）では、これはパーティションテーブルを生成するためのパーティション関数を用いて行うことができる。一つの態様では、次の点は、サイクル（ｎ+１）における蛍光及びサイクル（ｎ）における蛍光を表すベクトル値を有するパーティションテーブルが生成されるように、連続する一連のデータ点のすぐ次のデータ点となっている。図４及び図５は、それぞれ、非補間データセット及び補間データセットと、各ベクトルが［ｙ（ｎ），ｙ（ｎ+１）］を表すように変換されたこれらのデータセットの対応するパーティションテーブルの例を示しており、ｙはサイクル数である。別の態様では、ベクトル値［ｙ（ｎ），ｙ（ｎ+ｉ）］（ここで、ｉ≧２）を持つパーティションテーブルが生成されるように、後続のデータ点は対応するデータ点のすぐ次ではないデータ点を含む。一般的に言うと、ステップ１３０においては、ベクトル値［ｙ（ｎ），ｙ（ｎ+ｉ）］（ここで、ｉ≧１）を持つパーティションテーブルが生成される。

図３に戻ると、ステップ１４０では、パーティションテーブルデータセットにおいて複数のクラスタを特定するためにクラスタ分析アルゴリズムがパーティションテーブルに適用される。ある態様においては、３個またはそれ以上のデータのクラスタを特定するために、クラスタ化アルゴリズムがパーティションテーブルに適用される。例えば、一つの態様では、ｋ平均クラスタ化アルゴリズムがパーティションテーブルに適用される。ここで、ｋは３かそれ以上である。他の態様では、３個またはそれ以上のクラスタを特定または決定するために、ＰＡＭアルゴリズムがパーティションテーブルに適用される。ステップ１５０において、増幅曲線のＣｔ値が特定される。一つの態様において、Ｃｔ値はステップ１４０において特定されたクラスタにおける始点または終点として特定される。一つの態様においては、ＰＣＲ増幅データの場合、パーティションテーブルデータセットにおいて５個のデータクラスタ（例えば、ｋ＝５）を決定すると有利である。この場合、Ｃｔ値は最初のクラスタ（例えば最も小さい蛍光値を有するクラスタ）の最終データ点によって特定される。一つの態様において、ステップ１２０からの補間データが使用される場合、Ｃｔ値は最初のクラスタの最終値を（１／増分値）で割って０．９を足すことによって特定される。例えば、最初のクラスタの最終値の指数が３５２に等しく、補間増分０．１サイクルが使用されると、Ｃｔ値は（３５２／（１／０．１））+０．９＝３５２／１０+０．９＝３５．２+０．９＝３６．１と演算される。この演算は０．９以外の数を加算（または減算）するように変えることができることが判るはずである。ステップ１６０において、Ｃｔ値は例えばモニタ、プリントアウト、ＬＣＤ画面などに表示されるか、またはその他の方法でシステムのオペレータへ与えられる。Ｃｔ値は、終点以外のクラスタの点、例えば終点の次の点（終点−１）、終点から２つ目の点（終点−２）などを用いて得ることができることが判るはずである。付加データ点を得るために補間（ステップ１２０）が使用されるとき、補間増分が充分に小さければ、終点−１、−２などを使用して、「充分に正確な」Ｃｔ値を得ることができる。例えば、０．０１の増分で補間し、終点−１を使用したとすると、Ｃｔは０．０１だけ「はずれる」ことになり、これはほとんど問題にならない。

図６及び図７は、図１のデータセットに適用されたプロセス１００の例を示している。図６は、０．１の増分の線形補間を含む図１のデータを示しており、サイクル数（サイクル番号）は１０倍になっている。図７は、ｘ値がサイクル（ｎ）のときの蛍光を表し且つｙ値がサイクル（ｎ+１）のときの蛍光を表すようにプロットされた図６の補間データの蛍光値を示している。５個のクラスタが異なる色で示されている。このデータのＣｔ値は、プロセス１００を用いてＣｔ＝３５．９と求められた。

Ｃｔ決定プロセス１００またはその一部は、コンピュータシステムのプロセッサ上で実行されるコンピュータコードにおいて実行されることが判るはずである。コードは決定プロセス１００の様々な態様及びステップを実施するようにプロセッサを制御するための命令を含む。コードは、典型的には、ハードディスク、ＲＡＭまたはＣＤ、ＤＶＤなどのような携帯可能な媒体に記憶される。同様に、プロセス１００またはその一部は、プロセッサに結合される記憶ユニットに記憶される命令を実行するプロセッサを含むサーモサイクラのようなＰＣＲ装置において実行されてもよい。このような命令を含むコードは、ネットワーク接続を通じてまたはコードソースへの直接接続によりまたは周知の携帯可能な媒体を用いてＰＣＲ装置記憶ユニットにダウンロードすることができる。

蛍光値のベクトルｙｄに対してプロセス１００の演算を実行するように構成されたＭａｔｈｅｍａｔｉｃａ（登録商標）コードの一例を以下に示す。
ClustMod[yd_] : = Module[｛｝,
IntF = Interpolation［yd, InterpolationOrder → 1];
IntTable = Table[IntF[x], ｛x, 1, Length[yd], 0.1｝];
ParYd = Partition[IntTable, 2, 1];
fc = FindClusters[ParYd -> Range[Length[ParYd]], 5];
N[Last[fc[[1]]] / 10] + 0.9]

ｋ平均クラスタ化アルゴリズムに加えて、他のクラスタ化アルゴリズムを使用できることが当業者には判るであろう。一般的に、クラスタ分析は、多様なアルゴリズムタイプを含み、その各々が、二つの対象が同じグループに属する場合には、二つの対象の間の関連度が極大になりそうでなければ極小になるように様々な対象、例えばデータ点またはベクトルを、グループに仕分けすることを目標とする。クラスタ化アルゴリズムは、距離測定（例えばユークリッド距離）のような定義された類似性規則に従って対象を各クラスタに入れる。得られるクラスタグループの数が演繹的に決定されるｋ平均クラスタ化は、公知のクラスタ化アルゴリズムのうちの一つに過ぎない。ＰＡＭとして知られる別のタイプのクラスタ化アルゴリズムは、残りのデータのクラスタ化の中心となるデータ点（ｍｅｄｏｉｄｓ）を探す。ユーザーはクラスタの数を指定するか、あるいはいくつのクラスタがあるのかアルゴリズムに決定させることができる。さらに別のタイプのクラスタ化アルゴリズムである集塊的階層クラスタ化（ＡＨＣ）は、自身のクラスタにおけるセットの各要素から初めて、ｋ個が残るまで最も近いクラスタを融合する集塊的階層法を用いる。その他のクラスタ化アルゴリズムのタイプには、結合またはツリークラスタ化アルゴリズム及び期待値最大化クラスタ化アルゴリズムが含まれる。当業者には理解できるであろうこれらの及びその他のクラスタ化アルゴリズムに関してさらに詳しくは、「クラスタ分析、第四版」ＢｒａｉｎＳ．Ｅｖｅｒｉｔｔ、ＳａｂｉｎｅＬａｎｄａｕ及びＭｏｒｖｅｎＬｅｅｓｅ著、ＡｒｎｏｌｄＰｕｂｌｉｓｈｅｒｓ，Ｌｏｎｄｏｎ，２００１に示されている。

本明細書において開示されるクラスタ分析プロセスは、特に、分析物がベースラインより著しく蛍光信号を増大させるＰＣＲ成長曲線を分析するために有益である。これは一般的なケースであるが、信号の増大が極小である場合、例えば分析物が緩慢増幅のものであるすなわち強度信号がベースライン値より実質的に増大しない場合があるかも知れない。このような状況においては、第一のクラスタの終点以外のサイクル数でＣｔ値を決定することが望ましいかもしれない。一つの実施形態によれば、決定されたクラスタ例えば５個のクラスタが決定される場合、クラスタ１−５の各々におけるデータ点の線形勾配が演算される。例えば、クラスタの勾配は、そのクラスタの各点について、ｙ（ｎ＋１）対ｎに基づいて決定される。したがって、隣接し合う勾配の比率、例えば勾配２／勾配１、勾配３／勾配２、勾配４／勾配３、勾配５／勾配４が演算される。次に、比率が比較され、最大の比率により、どのクラスタの終点が使用されるかが決定される。例えば、勾配２／勾配１が最大比率である場合にはクラスタ１の終点が使用され、勾配３／勾配２が最大である場合にはクラスタ２の終点が使用される。あるいはまた、比率を下記の通りに決定することができる。勾配１／勾配２、勾配２／勾配３、勾配３／勾配４及び勾配４／勾配５。この場合、最も小さい比率がどれかにより、どのクラスタの終点が使用されるかが決定される。例えば、勾配１／勾配２が最も小さい場合、クラスタ１の終点が使用され、勾配２／勾配３が最も小さい場合にはクラスタ２の終点が使用される。

さらに、本発明のクラスタ分析法を用いて決定された情報を用いて、二つの診断値を演算すると有利である。これらの値は、相対的蛍光増加（ＲＦＩ）及び絶対的蛍光増加（ＡＦＩ）である。一つの実施形態によれば、ＲＦＩ及びＡＦＩ値は、最初及び最後のクラスタ、例えば５個のクラスタが決定される場合にはクラスタ１及びクラスタ５、におけるデータの平均蛍光値を演算することによって決定される。ＲＦＩ及びＡＦＩは下記のように演算される。
ＲＦＩ＝（クラスタ５平均蛍光値）／（クラスタ１平均蛍光値）
ＡＦＩ＝（クラスタ５平均蛍光値）−（クラスタ１平均蛍光値）

検定（アッセイ）開発者は、一般に、データセットの合否を決定するためにＲＦＩ及びＡＦＩの特定の最小カットオフ値を使用する。

一つの実施形態によれば、ステップ１１０において取得されたデータセット（例えばＰＣＲデータセット）が多くのノイズを含むかあるいはある傾向を示すかを決定するためのプロセスが提供される。まず、ステップ１において、本データセット（例えば補間データを含まないもの）がパーティションテーブルに分配され、図３のステップ１３０と同様に、第一のカラムがサイクル（ｎ）のときの蛍光を含み、第二のカラムがサイクル（ｎ＋１）のときの蛍光を含むようにされる。次に、ステップ２において、ｋ平均クラスタ化アルゴリズムのようなクラスタ分析アルゴリズムを用いて、３個またはそれ以上のクラスタがこの分配されたデータセットについて決定される。この分析の結果は本データの指標である。その後、ステップ３において、決定されたクラスタ結果が増加指標順に仕分けられ、ステップ２及び３の結果が同一であるか否かが決定される。同一であれば、これはデータにはっきりとした傾向があることを示す。結果が等しくなければ、データは実質的に純粋のノイズであり、データが実質的にノイズデータであることを示すために所定の値、例えば−１がＣｔ値として返される。データが一つの傾向を示す場合、上述の通りＣｔ値を決定するためにデータの分析が継続される。そうでなければ分析は停止されて、−１のＣｔ値が与えられる。

傾向データ対ノイズデータを決定するためのコードの一例は、下記のＭａｔｈｅｍａｔｉｃａ（登録商標）コードに示される。
ClustModSM[yd_] : = Module[｛｝,
ParYd = Partition[yd, 2, 1];
Fc = FindClusters[ParYd -> Range[Length[ParYd]], 3];
Last[fc[[1]]]
ClustModT[yd_] : = Module[｛｝,
ClustModSM[yd];
fcSM = Flatten[fc];
fcSMSort = Sort[fcSM];
If[fcSM == fcSMSort, ClustMod[yd], -1]]

ある態様においては、データセットが実質的にノイズであり有効な信号ではないか否かを特定することが望ましい。一つの実施形態によれば、ノイズの存在を決定するためにいくつかのチェックを使用することができる。

一つの態様によれば、ノイズの存在を決定するために使用される一つのチェックは、サイクル数間に蛍光信号を補間することなく３個（またはそれ以上）のクラスタを決定するステップを含む。これらのクラスタの各々に対して線形回帰が行われ、蛍光信号対サイクル数の相関係数（Ｒ²）が各々のケースについて演算される。各Ｒ²の相関係数が０．１より小さい場合には、エラーメッセージが生成される。

別のノイズ決定プロセスによれば、各クラスタの最終終点に対応するサイクル数が決定される。その後、ｐｔ１＜ｐｔ２＜ｐｔ３＜ｐｔ４＜ｐｔ５＜（ここで、ｐｔ１は第一のクラスタの終点であり、ｐｔ２は第二のクラスタの終点であり、以下同様である）であるか否かがチェックされる。これに当てはまらない場合、エラーメッセージが生成される。

別のテストによれば、蛍光信号対サイクル数のデータ点の全てが線形であるか否かを決定するためにチェックが行われる。したがって、一つの態様によれば、相関係数（Ｒ²）が全てのデータ点を用いて演算される。値Ｒ²＞０．９９である場合、データは線形であると決定され、適切なエラーメッセージが生成される。

本発明のクラスタ分析方法は、正常データも「問題」データも含めて多様なデータセットについてテストされ、非常にロバストであること（エラーに強いこと）が判明した。さらに、緩慢増幅のものが簡単に特定される。要するに、本発明のクラスタ分析の利点は下記のことを含む。
（１）このアプローチにはパラメータは必要とされず、そのまま機能する。
（２）データセットのドリフトに敏感でない。勾配ベースラインが影響を及ぼさない。
（３）ノイズ、ベースライン傾斜及びスパイクが結果に影響を及ぼさない。
（４）システムが簡単に緩慢増幅か多ノイズデータかを特定できる。
（５）高いベースラインが結果に影響を及ぼさない。
（６）データの標準化が必要とされない。

本発明は、導関数を得る必要を排除する点で有利である。このことは、エルボー値を決定する際にしばしば使用される一次導関数及び特に二次導関数が多ノイズデータに対して非常に敏感なので、利点となる。

したがって、本発明は、先行のアルゴリズムに見られた問題、例えば（１）多ノイズのスパイクデータ、（２）可変的なベースライン、（３）高いベースライン、（４）微分法の感度、及び（５）多数のパラメータの必要性を排除する点で有利である。

本発明の態様（例えば、クラスタ決定、勾配決定、ＲＦＩ及びＡＦＩ決定など）を実施するＭａｔｈｅｍａｔｉｃａ（登録商標）コンピュータプログラムの例を以下に示す。

ClustMod2[yd_] : = Module[｛｝,

Res = 0;
ParYd = Partition[yd, 2, 1];
fc = FindClusters[ParYd -> Range[Length[ParYd]], 3];

If[Length[fc[1]]] > 2,
｛regress1 = Regress[yd[[fc[[1]]]], ｛1,x｝, x];
Rsq1 = RSquared /. regress1;｝,
res = -3];
If[Length[fc[[2]]] > 2,
｛regress2 = Regress[yd[[fc[[2]]]], ｛1,x｝, x];
Rsq2 = RSquared /. regress2;｝,
res = -3];
If[Length[fc[[3]]] > 2,
｛regress3 = Regress[yd[[fc[[3]]]], ｛1,x｝, x];
Rsq3 = RSquared /. regress3;｝,
res = -3];

If[Rsq1 < 0.1 && Rsq2 < 0.1 && Rsq3 < 0.1, Noise = 1, Noise = 0];
If[Noise == 1, res = -3];

data = Table[｛i, yd[[i]]｝, ｛i, 6, Length[yd]｝];
regress = Regress[data, ｛1,x｝, x];
Rsq = RSquared /. regress;
If[Rsq ≧ 0.99, res = "L"];

IntF = Interpolation[yd, InterpolationOrder → 1];
IntTable = Table[IntF[x], ｛x, 1, Length[yd], 0.1｝];
ParYd = Partition[IntTabel, 2, 1];
fc = FindClusters[ParYd -> Range[Length[ParYd]], 5];

pt1 = N[Last[fc[[1]]] / 10];
pt2 = N[Last[fc[[2]]] / 10];
pt3 = N[Last[fc[[3]]] / 10];
pt4 = N[Last[fc[[4]]] / 10];
pt5 = N[Last[fc[[5]]] / 10];

If[pt5 > pt4 > pt3 > pt2 > pt1, pt1 = pt1 * 1, res = -3];

data1 = IntTabel[[fc[[1]]]];
data2 = IntTabel[[fc[[2]]]];
data3 = IntTabel[[fc[[3]]]];
data4 = IntTabel[[fc[[4]]]];
data5 = IntTabel[[fc[[5]]]];

regdata1 = Regress[data1, ｛1,x｝, x];
regdata2 = Regress[data2, ｛1,x｝, x];
regdata3 = Regress[data3, ｛1,x｝, x];
regdata4 = Regress[data4, ｛1,x｝, x];
regdata5 = Regress[data5, ｛1,x｝, x];

slope1 = (ParameterTable /. regdata1)[[1, 2]][[1]];
slope2 = (ParameterTabel /. regdata2)[[1, 2]][[1]];
slope3 = (ParameterTabel /. regdata3)[[1, 2]][[1]];
slope4 = (ParameterTabel /. regdata4)[[1, 2]][[1]];
slope5 = (ParameterTabel /. regdata5)[[1, 2]][[1]];

slopeRatio = ｛slope2 / slope1, slope3 / slope2, slope4 / slope3, slope5 / slope4｝;
MaxRatio = Max[slopeRatio];
EndPoint = Flatten[Position[slopeRatio, MaxRatio]][[1]];

RFI = Mean[IntTable[[fc[[5]]]]] / Mean[IntTable[[fc[[1]]]]];
AFI = Mean[IntTable[[fc[[5]]]]] - Mean[IntTable[[fc[[1]]]]];

If[ (yd[[Length[yd]]] > yd[[1]] && res ≠ -3 && res! = "L",
｛If[EndPoint == 1, res = pt1 + 0.9];
If[EndPoint == 2, res = pt2 + 0.9];
If[EndPoint == 3, res = pt3 + 0.9];
If[EndPoint == 4, res = pt4 + 0.9];｝
];

一つの実施形態によれば、データセットは、これにクラスタ分析プロセスが適用される前に前処理される。前処理は、データ曲線の標準化、スパイク点の除去などを含むことができる。一つの実施形態によれば、例えば後続のベースライン減算による二重シグモイドリーベンベルグ−マルクワルト（ＤＳＬＭ）曲線適合を行うことができる。このような標準化は、ＰＣＲ曲線が著しいベースライン勾配を有する場合に有利であろう。クラスタ分析プロセスは、ベースライン減算によるＤＳＬＭの後に使用される。

別の実施形態によれば、異常値（スパイク）は、ＤＳＬＭまたはクラスタ分析プロセスを行う前に除去される。ＤＳＬＭもクラスタ分析プロセスも異常値に対して多少鈍感であるが、この方法を事前に実施することによってＣｔ決定の精度を増すことができる。

要するに、本発明の態様によれば、曲線のある領域における特定の関心点を決定するためのコンピュータで実行される方法が提供される。この方法は、典型的には、曲線を表すデータセットを受け取るステップを含み、データセットは各々一対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含む。二次元座標系で見ると、このデータセットは関心領域を含む。この方法は、また、一般に、少なくとも関心領域を含むデータセットの部分に変換を加えて、変換データセットを生成するステップを含み、この変換データセットは各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含む。ここで、第二のデータ点のｙ’座標値は対応する第一のデータ点のｙ座標値であり、第二のデータ点のｙ*座標値は後続の第一のデータ点のｙ座標値である。この方法は、典型的には、さらに変換データセットにおいて第二のデータ点の複数のクラスタを特定するステップと、クラスタの各々の線形勾配を決定するステップと、各クラスタについてそのクラスタの勾配と隣接するクラスタの勾配との比率を決定するステップと、それらの比率を比較するステップとを含む。最大比率または最小比率を有するクラスタの終点は、データ曲線における特定の関心点を表す。一つの態様において、隣接するクラスタは後続のクラスタであり、最小比率を有するクラスタの終点が特定の関心点を表す。別の態様において、隣接するクラスタは先行のクラスタであり、最大比率を有するクラスタの終点が特定の関心点を表す。一つの態様において、曲線は動的ポリメラーゼ連鎖反応（ＰＣＲ）プロセスの増幅曲線であり、特定の関心点は、動的ＰＣＲ曲線のエルボー値またはサイクル閾値（Ｃｔ）を表す。特定されるデータ点の座標は、返されるかまたは表示される。一つの態様において、複数のクラスタを特定するステップは、ｋ平均クラスタ化アルゴリズム（ｋ≧３）のようなクラスタ化アルゴリズムを変換データセットに適用するステップを含む。他の態様において、３個またはそれ以上のクラスタを特定するためにＰＡＭアルゴリズムが使用される。別の実施形態では、この方法はさらにデータセットの線形成長部を決定し、データセットから線形成長部を減算することによってデータセットを標準化するステップを含む。

別の実施形態においては、第一の対の座標値はサイクル数及び増幅ポリヌクレオチドの蓄積を表す。増幅ポリヌクレオチドの蓄積は、蛍光強度値、発光強度値、化学発光強度値、燐光強度値、電荷移動値、生体発光強度値または吸収値のうちの一つによって表すことができる。ここでは、複数のクラスタは３個またはそれ以上のクラスタを含むことができる。一つの態様において、複数のクラスタを特定するステップは、ｋ平均クラスタ化アルゴリズム（ｋ≧３）などクラスタ化アルゴリズムを変換データセットに適用するステップを含む。

ある実施形態では、この方法は、さらに、変換を加える前に、少なくとも関心領域における第一のデータ点を用いて付加的な第一のデータ点を補間するステップを含むことができる。補間は、線形補間法、三次スプライン法、リーベンベルグ−マルクワルト回帰法または最小二乗適合法のうちの一つを用いて行うことができ、前記座標のうちの一つに沿って座標間隔当たり約１．０またはこれ以下の増分で第一のデータ点を生成するように補間を行うことができる。特定の実施形態では、増分は約０．１である。別の実施形態では、補間は、リーベンベルグ−マルクワルト（ＬＭ）回帰法を二重シグモイド関数に適用して関数のパラメータを決定することによってデータセットに適合する曲線の近似を演算するステップを含む。特定の実施形態において、二重シグモイド関数は、

となり、演算は、関数のパラメータａ、ｂ、ｃ、ｄ、ｅ、ｆ及びｇのうちの一つまたはそれ以上を反復法（逐次代入法）により決定するステップを含む。

他の実施形態では、この方法は、さらに、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するステップを含む。特定の実施形態では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するステップは、クラスタの各々について相関係数を演算するステップを含み、相関係数が各クラスタについて約０．１未満であれば、データは実質的にノイズである。他の実施形態では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するステップは、各クラスタの終点値を演算するステップと、各終点が次の終点値より大きいか小さいかを決定するステップとを含む。さらに別の特定の実施形態では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するステップは、そのデータセットについて相関係数を演算するステップを含み、相関係数が約０．９９より大きい場合、データは実質的に線形である。

他の実施形態では、この方法は、さらに、
−最終クラスタの平均値を演算し、
−最初のクラスタの平均値を演算し、
−最終クラスタの平均値を最初のクラスタの平均値で割る、
ことによって、データ曲線の相対的蛍光増加（ＲＦＩ）値を演算するステップを含む。

他の実施形態では、この方法は、さらに、
−最終クラスタの平均値を演算し、
−最初のクラスタの平均値を演算し、
−最終クラスタの平均値から最初のクラスタの平均値を減算する、
ことによってデータ曲線の絶対的蛍光増加（ＡＦＩ）値を演算するステップを含む。

この方法は、さらに、前記データセット及び前記変換データセットのうちの一方または両方をディスプレイ装置（表示装置）において二次元座標系に表示するステップを含むことができる。ある実施形態では、この方法は、さらに、ディスプレイ装置に特定の関心点のｙ’座標値を表示するステップを含む。この方法のデータ曲線は、動的ポリメラーゼ連鎖反応（ＰＣＲ）プロセス、細菌増幅プロセス、酵素増幅プロセスまたは結合プロセスのうちの一つについての曲線を表すことができ、Ｓ字型曲線または成長曲線のうちの一つとすることができる。

この方法のある実施形態では、終点はクラスタの最終点である。特定の実施形態では、後続の第一のデータ点は連続する一連のデータ点における次のデータ点である。さらに別の実施形態では、後続の第一のデータ点は連続する一連のデータ点における次のデータ点ではない。

本発明の別の態様によれば、動的ＰＣＲ増幅曲線におけるサイクル数（Ｃｔ）を決定するためにプロセッサを制御するためのコードを含むコンピュータ読み取り可能な媒体が提供される。このコードは、典型的には、動的ＰＣＲ増幅曲線を表すデータセットを受け取るための命令を含み、データセットは各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含む。このデータセットはＣｔ値を含む関心領域にデータ点を含む。コードは、また、典型的には、少なくとも関心領域を含むデータセットの部分に変換を加えて変換データセットを生成するための命令を含む。このコードにおいて、変換データセットは、各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含み、この第二のデータ点のｙ’座標値は対応する第一のデータ点のｙ座標値であり、第二のデータ点のｙ*座標値は後続の第一のデータ点のｙ座標値である。このコードは、一般に、変換データセットにおいてデータ点の複数のクラスタを特定するための命令と、クラスタの各々の線形勾配を決定するための命令と、各クラスタについてそのクラスタの勾配と隣接するクラスタの勾配との比率を決定するための命令と、比率を比較するための命令とを含む。最大比率または最小比率を有するクラスタの終点は、ＰＣＲ増幅曲線におけるＣｔ値を表す。一つの態様において、隣接するクラスタは後続クラスタであり、最小比率を有するクラスタの終点が特定の関心点を表す。他の態様において、隣接するクラスタは先行クラスタであり、最大比率を有するクラスタの終点が特定の関心点を表す。一つの態様において、複数のクラスタを特定するための命令は、ｋ平均クラスタ化アルゴリズム（ｋ≧３）のようなクラスタ化アルゴリズムを変換データセットに適用するための命令を含む。ここでは、複数のクラスタは３個またはそれ以上のクラスタを含むことができる。他の態様において、クラスタを特定するためのコードは、３個またはそれ以上のクラスタを特定するためにＰＡＭアルゴリズムを変換データセットに適用するための命令を含む。他の態様において、終点はクラスタの最終点である。特定の実施形態では、後続の第一のデータ点は連続する一連のデータ点における次のデータ点である。他の特定の実施形態では、後続の第一のデータ点は連続する一連のデータ点における次のデータ点ではない。他の実施形態では、コードは、さらに、データセットの線形成長部を決定する命令と、データセットから線形成長部を減算することによってデータセットを標準化するための命令とを含む。

ある実施形態では、第一の対の座標値はサイクル数及び増幅ポリヌクレオチドの蓄積を表す。増幅ポリヌクレオチドの蓄積は、蛍光強度値、発光強度値、化学発光強度値、生体発光強度値、燐光強度値、電荷移動値または吸収値のうちの一つによって表すことができる。

他の実施形態では、コードは、さらに、少なくとも関心領域における第一のデータ点を用いて付加的な第一のデータ点を補間するための命令を含む。補間は、線形補間法、三次スプライン法、リーベンベルグ−マルクワルト回帰法または最小二乗適合法のうちの一つを用いて行うことができる。ある実施形態では、前記座標のうちの一つに沿って座標間隔当たり約１．０またはこれ以下の増分で第一のデータ点を生成するように補間が行われる。特定の実施形態では、増分は約０．１である。

コンピュータ読み取り可能な媒体の他の実施形態では、補間のための命令は、リーベンベルグ−マルクワルト（ＬＭ）回帰法を二重シグモイド関数に適業して関数のパラメータを決定することによってデータセットに適合する曲線の近似を演算するための命令を含む。ある実施形態では、二重シグモイド関数は、

の形であり、演算は、関数のパラメータａ、ｂ、ｃ、ｄ、ｅ、ｆ及びｇのうち一つまたはそれ以上を反復法により決定することを含む。

他の実施形態では、このコードは、さらに、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するための命令を含む。一つの態様では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するための命令は、クラスタの各々について相関係数を演算するための命令を含み、相関係数が各クラスタについて約０．１未満であれば、データは実質的にノイズである。他の態様では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するための命令は、各クラスタの終点値を演算し、各終点が次の終点値より大きいか小さいかを決定するための命令を含む。他の態様では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定するための命令は、データセットについて相関係数を演算するための命令を含み、相関係数が約０．９９より大きい場合、データは実質的に線形である。

他の実施形態において、コードは、さらに、
−最終クラスタの平均値を演算し、
−最初のクラスタの平均値を演算し、
−最終クラスタの平均値を最初のクラスタの平均値で割る、
ことによってデータ曲線の相対的蛍光増加（ＲＦＩ）値を演算するための命令を含む。

他の実施形態において、コードは、さらに、
−最終クラスタの平均値を演算し、
−最初のクラスタの平均値を演算し、
−最終クラスタの平均値から最初のクラスタの平均値を減算する、
ことによってデータ曲線の絶対的蛍光増加（ＡＦＩ）値を演算するための命令を含む。

さらに別の実施形態において、コードは、さらに、前記データセット及び前記変換データセットのうちの一方または両方をディスプレイ装置において二次元座標系に表示するための命令を含む。他の態様において、コードは、さらに、ディスプレイ装置に特定の関心点のｙ’座標値を表示するための命令を含む。

本発明のさらに別の態様によれば、動的ＰＣＲシステムが提供される。このシステムは、典型的には、動的増幅曲線を表すＰＣＲデータセットを生成するＰＣＲ分析モジュールを含み、データセットは各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含む。このデータセットはサイクル数（Ｃｔ）を含む関心領域においてデータ点を含む。このシステムは、また、典型的には、少なくとも関心領域を含むＰＣＲデータセットの部分に変換を加えて変換データセットを生成することによってＣｔ値を決定するためにＰＣＲデータセットを処理するように構成されたインテリジェントモジュールを含む。この変換データセットは、各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含む。ここで、第二のデータ点のｙ’座標値は対応する第一のデータ点のｙ座標値であり、第二のデータ点のｙ*座標値は後続の第一のデータ点のｙ座標値である。

インテリジェントモジュールは、典型的には、変換データセットにおいて第二のデータ点の複数のクラスタを特定し、クラスタの各々の線形勾配を決定し、各クラスタについてそのクラスタの勾配と隣接するクラスタの勾配との比率を決定し、比率を比較するように構成されている。最大比率または最小比率を有するクラスタの終点は、ＰＣＲ増幅曲線におけるＣｔ値を表す。インテリジェントモジュールは、動的ＰＣＲ分析モジュールに接続されるまたはこれと別個のコンピュータシステムのプロセッサを含むか、動的ＰＣＲ分析モジュールに直接結合されるプロセッサを含むことができる。例えば両方のコンポーネントは動的ＰＣＲサーモサイクラを含むことができる。後者の実施形態においては、動的ＰＣＲ分析モジュールは動的サーモサイクラ装置に内蔵され、インテリジェントモジュールは分析モジュールに通信可能に結合されるプロセッサを含む。他の態様において、インテリジェントモジュールはネットワーク接続または直接接続のうち一つによって分析モジュールに結合されるコンピュータシステムに内蔵されるプロセッサを含む。さらに別の態様において、インテリジェントモジュールはさらに少なくとも関心領域における第一のデータ点を用いて付加的な第一のデータ点を補間するように構成される。特定の実施形態において、インテリジェントモジュールは、さらに、前記データセット及び前記変換データセットのうちの一方または両方をディスプレイ装置において二次元座標系で表示するように構成される。別の実施形態において、インテリジェントモジュールは、さらに、ディスプレイ装置に特定の関心点のｙ’座標値を表示するように構成される。別の態様において、インテリジェントモジュールは、さらに、データセットの線形成長部を決定し、データセットから線形成長部を減算することによってデータセットを標準化するように構成される。

このようなシステムが図１８に例示されている。この図は、ソフトウェアリソースとハードウェアリソースとの間の関係を説明する全体ブロック図を示す。システムは、サーモサイクラ装置内に配置することができる動的ＰＣＲ分析モジュールと、コンピュータシステムの一部であるインテリジェントモジュールとを含む。データセット（ＰＣＲデータセット）は、ネットワーク接続または直接接続を通じて分析モジュールからインテリジェントモジュールへまたはその逆へ転送される。ある実施形態では、データセットは、プロセッサで実行されインテリジェントモジュールの記憶装置に記憶されるコンピュータコードによって図３に示されるような方法に従って処理され、処理後、分析モジュールの記憶装置に送り返されて、ここで、修正済みデータがディスプレイ装置に表示される。他の実施形態では、コンピュータシステムをサーモサイクラ装置上で実現し、これに統合することができる。

一つの態様において、隣接するクラスタは後続のクラスタであり、最小比率を有するクラスタの終点が特定の関心点を表す。別の態様において、隣接するクラスタは先行のクラスタであり、最大比率を有するクラスタの終点が特定の関心点を表す。一つの態様において、複数のクラスタを特定することは、ｋ平均クラスタ化アルゴリズム（ｋ≧３）などクラスタ化アルゴリズムを変換データセットに適用することを含む。別の態様において、３個またはそれ以上のクラスタを特定するために、ＰＡＭアルゴリズムが使用される。

システムのある実施形態において、前記座標のうちの一つに沿って座標間隔当たり約１．０以下の増分でデータ点を生成するように補間が行われる。他の実施形態においては、増分は約０．１である。他の態様において、補間は、線形補間法、三次スプライン法、リーベンベルグ−マルクワルト回帰法または最小二乗適合法のうちの一つを用いて行われる。

システムの他の実施形態において、座標値（ｘ、ｙ）はサイクル数及び増幅ポリヌクレオチドの蓄積を表す。ある態様では、増幅ポリヌクレオチドの蓄積は、蛍光強度値、発光強度値、化学発光強度値、燐光強度値、電荷移動値、生体発光強度値または吸収値のうちの一つによって表わされる。

システムの他の実施形態において、インテリジェントモジュールは、さらに、データセットが一つの傾向を示すかあるいは実質的にノイズデータを表すかを決定するためにＰＣＲデータセットを処理するように構成される。ある実施形態では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定することは、クラスタの各々について相関係数を演算することを含み、相関係数が各クラスタについて約０．１未満であれば、データは実質的にノイズである。他の実施形態では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定することは、各クラスタの終点値を演算し、各終点が次の終点値より大きいか小さいかを決定することを含む。さらに別の実施形態では、データセットが一つの傾向を示すかあるいは実質的なノイズデータを表すかを決定することは、そのデータセットについて相関係数を演算することを含み、相関係数が約０．９９より大きい場合、データは実質的に線形である。

システムの他の実施形態において、インテリジェントモジュールは、さらに、
−最終クラスタの平均値を演算し、
−最初のクラスタの平均値を演算し、
−最終クラスタの平均値を最初のクラスタの平均値で割る、
ことによってデータ曲線の相対的蛍光増加（ＲＦＩ）値を演算するように構成される。

システムのさらに別の実施形態において、インテリジェントモジュールは、さらに、
−最終クラスタの平均値を演算し、
−最初のクラスタの平均値を演算し、
−最終クラスタの平均値から最初のクラスタの平均値を減算する、
ことによってデータ曲線の絶対的蛍光増加（ＡＦＩ）値を演算するように構成される。

システムの他の態様において、終点はクラス他の最終点である。特定の実施形態において、後続の第一のデータ点は連続する一連のデータ点における次のデータ点である。他の特定の実施形態において、後続の第一のデータ点は連続する一連のデータ点における次のデータ点ではない。

本発明の方法は、ＰＣＲ結果データの質を大幅に高めるためにサーモサイクラなどＰＣＲシステムにおいて特に有利である。本発明に従って処理されるデータの例について以下に説明する。

図８は、本発明に従って分析されプロットされたデータセットの一例を示している。この特定のデータセットは既存のアルゴリズムを用いて分析することが困難であった。本発明のクラスタＣｔ分析法を用いて処理した場合、Ｃｔ値は１３．１であると決定された。

図９は、本発明に従って分析されプロットされたデータセットの他の例を示している。このデータセットは、本発明のクラスタＣｔ分析法を用いて処理された場合、Ｃｔ値３５．９を示した。標準化を伴う従来のアプローチではこのデータセットを処理するのが困難であった。

図１０は、サーマルサイクラを通じて処理され本発明に従って分析された１０個の同一のサンプルから得られた蛍光信号のプロットの例を示している。このデータの曲線を重ね合わせたものが図１０に示されている。クラスタ法を用いてこのデータを処理すると、下記の統計データが得られた。
標準偏差＝０．３５６
平均＝３５．８７
変動係数（Ｃｖ）＝０．９９％

この低いＣｖ値はすばらしい値である。

図１１に示されている非常に高いベースライン勾配を持つデータセットについて検討する。クラスタ分析プロセスをこのデータセットに適用すると、返されるＣｔ値はＣｔ＝１６．５である。しかし、この曲線は変わった形状を持つため、この値は適正ではない。曲線をベースライン減算で修正すると（例えば、二重シグモイドリーベンベルグ−マルクワルト法を用いて）、その結果得られる曲線は図１２に示されるようになる。この曲線についてクラスタ分析プロセスによって得られるＣｔ値は、Ｃｔ＝２４．６となり、この値は、このベースライン標準化データセットをよりよく表している。高いベースライン勾配がクラスタ分析によって決定されるＣｔ値に影響を及ぼす理由は、図１２ａに示されている。曲線は理論的に決定されるシグモイド関数に関するものであり、唯一の変化は、初期値０から０．４へ変わるベースライン勾配の値である。これらの曲線のＣｔ値は、図１２ｂに示されているように、２５．１から１９．７へ変化する。

クラスタ分析プロセスを図１３に示されているデータセットに適用するとＣｔ＝２５．１というＣｔ値が得られ、この値は適正である。サイクル数（サイクル番号）２０にスパイクがある場合、データセットは図１４に示されているようになる。このスパイクがあっても、クラスタ分析プロセスによって算出されるＣｔ値はやはりＣｔ＝２５．１である。これはクラスタ分析のロバスト性（エラーに対する強さ）を示している。しかし、スパイクがＣｔ値において生じる場合（サイクル２５に挿入されたスパイク）、その結果のグラフは図１５に示されているようになる。この場合、ＣｔはＣｔ＝２３．４と不正確に算出される。従って、クラスタ分析を適用する前にこのようなスパイクが除去されることが非常に望ましい。図１５に示されているデータセットをリーベンベルグ-マルクワルト異常値法（ＬＭＯＭ）で処理すると、このスパイクが除去され、その結果得られるデータセットは図１３に示されているものと同じとなり、Ｃｔ値は約Ｃｔ＝２５．１と算出される。

データ点間において増分０．１の線形補間を用いてこのデータセット（図１６）について算出されるＣｔ値は、Ｃｔ＝２５．１となる。その代わりに二重シグモイドリーベンベルグ−マルクワルト（ＤＳＬＭ）の関数形態が０．１の増分で使用されると、算出されるＣｔはＣｔ＝２５．０となる。この場合のＣｔ値の差は小さいが、データ点の曲率の点から見てＤＳＬＭ法のほうが線形補間よりずっと良い状況があるであろう。

図１７に示されているデータセットは、ベースライン値を超える蛍光信号の増加が小さくデータが古典的Ｓ字型を持たないので、「緩慢増幅」として分類される。クラスタ分析を用いるとＣｔはＣｔ＝２２．９と算出され、これは正確であるようには見えない。その代わりに可変クラスタ終点法を使用すると、ＣｔはＣｔ＝３７．３と算出され、これは正確である。この場合の勾配比率は、｛２．０５、３．０６５、０．８９５、１．２８｝なので、Ｃｔはクラスタ２の終点に対応する。上述の手順を用いて算出されるＲＦＩ及びＡＦＩ値は、それぞれ、１．２６及び１．４８である。

本発明の方法をＣ、Ｃ++、Ｃ＃、Ｆｏｒｔｒａｎ、ＶｉｓｕａｌＢａｓｉｃなど多様なプログラミング言語並びにデータの視覚化及び分析に役立つプレパッケージのルーチン、機能及び手順を提供するＭａｔｈｅｍａｔｉｃａ（登録商標）と同様のアプリケーションを用いてコード化できることが、当業者には判るはずである。後者の別の例はＭＡＴＬＡＢ（登録商標）である。

本発明について例として特定の実施形態に関して説明したが、本発明は開示される実施形態に限定されるものではないことは了解されよう。逆に、本発明は、当業者には明白な様々な改変及び同様の構成を包括することを意図したものである。例えば、書類全体を通じて、データセットは二次元グラフを参照しながら説明されている。しかしながら、データセットは任意の次元空間に処理して視覚化できることが判るはずである。例えば、三次元系でデータを視覚化またはプロットして（例えば任意の三次元座標を用いて）、その後クラスタ分析変換を２つまたはそれ以上の座標値の任意のセットについて実施することができる。したがって、添付の特許請求の範囲には、これらの全ての改変及び同様の構成を包含するように広義の解釈が与えられなければならない。

蛍光強度対サイクル数でプロットされた典型的なＰＣＲ成長曲線の一例を示している。サイクル（ｎ+１）のときの蛍光強度対サイクル（ｎ）のときの蛍光強度でプロットされた図１の典型的なＰＣＲ成長曲線の一例を示している。一つの実施形態に従ったＰＣＲプロセスのエルボー値を決定するためのプロセスを示している。増幅曲線のデータセットの図を表示している。本発明のクラスタ分析方法に従った対応するパーティションテーブルデータ（分配テーブルデータ）を表示している。データ点を補間した図４ａのデータセットを表示している。本発明のクラスタ分析方法に従った対応するパーティションテーブルデータを表示している。０．１の増分の線形補間をした図１のデータを示しており、従ってサイクル数は１０倍となる。ｘ値がサイクル（ｎ）のときの蛍光を表し且つｙ値がサイクル（ｎ＋１）のときの蛍光を表す図６の補間データの蛍光値を示しており、５個のクラスタは異なる色の四角によって示されている。本発明に従って分析されたプロットされたデータセットの例を示している。本発明に従って分析されたプロットされたデータセットの別の例を示している。サーマルサイクラを通して処理され且つ本発明に従って分析された１０個の同一のサンプルから得られた蛍光信号のプロットの例である。高いベースライン勾配を持つＰＣＲデータ曲線を示している。ベースライン減算により補正された後の図１１の曲線を示している。Ｃｔ決定におけるベースライン勾配の影響を例示するために複数の曲線を示している。図１２ａの曲線に関するＣｔ対ベースライン勾配のグラフを示している。データ曲線を示している。サイクル２０にスパイク部（急激に変化している部分）を含む図１３のデータ曲線を示している。サイクル２５にスパイク部を含む図１３のデータ曲線を示している。線形補間されたデータセットを示している。「緩慢増幅」を表すものとして分類できるデータセットを示している。サーモサイクラ装置及びインテリジェントモジュールを含むコンピュータシステムを含む、本発明に従った例示のシステムを示している。

Claims

データ曲線のある領域における特定の関心点を決定するためのコンピュータで実行される方法であって、
−データ曲線を表すデータセットを受け取るステップであって、前記データセットが各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含み、二次座標系において見ると前記データセットが関心領域を有するようになっているステップと、
−少なくとも前記関心領域を含む前記データセットの部分に変換を加えて、変換データセットを生成するステップであって、前記変換データセットが各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含み、第二のデータ点の前記ｙ’座標値が対応する第一のデータ点の前記ｙ座標値であり、前記第二のデータ点の前記ｙ*座標値が後続の第一のデータ点の前記ｙ座標値となっているステップと、
−前記変換データセットにおいて第二のデータ点の複数のクラスタを特定するステップと、
−前記クラスタの各々の線形勾配を決定するステップと、
−各クラスタについて該クラスタの勾配と隣接するクラスタの勾配との比率を決定するステップと、
−前記比率を比較するステップと、
を含み、最大または最小比率を有するクラスタの終点が前記データ曲線の特定の関心点を表すことを特徴とする方法。
前記変換を加えるステップの前に、少なくとも前記関心領域における前記第一のデータ点を用いて付加的な第一のデータ点を補間するステップをさらに含む、請求項１に記載の方法。
前記補間するステップが、線形補間法、三次スプライン法、リーベンベルグ-マルクワルト回帰法または最小二乗適合法のうちの一つを用いて行われる、請求項２に記載の方法。
前記クラスタを特定するステップが、ｋ平均クラスタ化アルゴリズムを前記変換データセットに適用するステップを含み、ｋが３以上である、請求項１に記載の方法。
前記クラスタを特定するステップが、３個以上のクラスタを特定するためにＰＡＭアルゴリズムを前記変換データセットに適用するステップを含む、請求項１に記載の方法。
動的ポリメラーゼ連鎖反応増幅曲線におけるサイクル値を決定するようにプロセッサを制御するためのコードを含むコンピュータ読み取り可能な媒体であって、前記コードが、
−データ曲線を表すデータセットを受け取るための命令であって、前記データセットが各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含み、二次座標系で見ると前記データセットが関心領域を有するようになっている命令と、
−少なくとも前記関心領域を含むデータセットの部分に変換を加えて、変換データセットを生成するための命令であって、前記変換データセットが各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含み、第二のデータ点の前記ｙ’座標値が対応する第一のデータ点の前記ｙ座標値であり、前記第二のデータ点の前記ｙ*座標値が後続の第一のデータ点の前記ｙ座標値となっている命令と、
−前記変換データセットにおいて第二のデータ点の複数のクラスタを特定するための命令と、
−前記クラスタの各々の線形勾配を決定するための命令と、
−各クラスタについて該クラスタの勾配と隣接するクラスタの勾配との比率を決定するための命令と、
−前記比率を比較するための命令と、
を含み、最大または最小比率を有するクラスタの終点が前記データ曲線の特定の関心点を表すことを特徴とするコンピュータ読み取り可能な媒体。
−動的ＰＣＲ増幅曲線を表すＰＣＲデータセットを生成する動的ＰＣＲ分析モジュールであって、前記ＰＣＲデータセットが各々１対の座標値（ｘ、ｙ）を有する複数の第一のデータ点を含み、前記データセットがサイクル値を含む関心領域においてデータ点を含むようになっている動的ＰＣＲ分析モジュールと、
−前記ＰＣＲデータセットを処理して前記サイクル値を決定するように構成されたインテリジェントモジュールと、
を備え、該インテリジェントモジュールが、
−少なくとも前記関心領域を含む前記ＰＣＲデータセットの部分に変換を加えて、変換データセットを生成するステップであって、前記変換データセットが各々１対の座標値（ｙ’、ｙ*）を有する複数の第二のデータ点を含み、第二のデータ点の前記ｙ’座標値が対応する第一のデータ点の前記ｙ座標値であり、前記第二のデータ点の前記ｙ*座標値が後続の第一のデータ点の前記ｙ座標値となるようになっているステップと、
−前記変換データセットにおいて第二のデータ点の複数のクラスタを特定するステップと、
−前記クラスタの各々の線形勾配を決定するステップと、
−各クラスタについて該クラスタの勾配と隣接するクラスタの勾配との比率を決定するステップと、
−前記比率を比較するステップと、
によってサイクル値を決定し、
最大または最小比率を有するクラスタの終点が前記ＰＣＲ増幅曲線における前記サイクル値を表すことを特徴とする動的ポリメラーゼ連鎖反応システム。
前記クラスタを特定するステップが、ｋ平均クラスタ化アルゴリズムを前記変換データセットに適用するステップを含み、ｋが３以上である、請求項７に記載の動的ポリメラーゼ連鎖反応システム。
前記クラスタを特定するステップが、３個以上のクラスタを特定するためにＰＡＭアルゴリズムを前記変換データセットに適用するステップを含む、請求項７に記載の動的ポリメラーゼ連鎖反応システム。