JP2003500663A

JP2003500663A - 実験データの正規化のための方法

Info

Publication number: JP2003500663A
Application number: JP2000620538A
Authority: JP
Inventors: グレイス，デニス・アール; ダーラム，ジェイソン・ティー
Original assignee: ディジタル・ジーン・テクノロジーズ・インコーポレーテッド
Priority date: 1999-05-25
Filing date: 2000-05-23
Publication date: 2003-01-07
Also published as: EP1238359A2; US20020025170A1; WO2000072218A2; US20020026294A1; CA2371718A1; US20020049570A1; WO2000072218A3; US6334099B1; AU5039600A

Abstract

(57)【要約】実験間の変動を含む実験データの正規化のための方法。実験データは、バイオテクノロジ・データおよび他のデータを含み、実験間の変動が同じ実験の多数の反復実施に用いられる環境によりもたらされる。中心的特性および多数のインデックス付きデータ・セットからのデータ値間に、実験データにおける偏りが測定される。中心的特性は、多数のインデックス付きデータ・セットから決定される順序を付した比較の値である。中心的特性と多数のインデックス付きデータ・セット間の偏りは、中心的特性を多数のインデックス付きデータ・セットからの測定された偏りに比較することにより除去され、これにより多数のインデックス付きデータ・セット間の偏りを低減し、これにより実験間の変動を低減する。

Description

【発明の詳細な説明】

【０００１】発明の分野本発明は、実験データの正規化に関する。特に，本発明は、実験間の変動性を
減じるためバイオテクノロジ・データのような実験データを正規化するための方
法に関する。

【０００２】発明の背景バイオテクノロジ・データは、多くの様々な目的のために収集され分析される
。当技術において周知のように、バイオテクノロジ・データは、典型的に、生物
学的システム、生物学的プロセス、生化学的プロセス、生物物理学的プロセス、
あるいは化学的プロセスから取得されるデータを含む。例えば、多くの異なる種
類の生体からの一連のデオキシリボ核酸（ＤＮＡ）が、しばしば決定付けられマ
ッピングされる。ＤＮＡは、４つのヌクレオチド塩基元素の連続ストリング（ｓ
ｔｒｉｎｇ）を含む二重鎖ポリヌクレオチドである。この４つのヌクレオチド塩
基元素は、デオキシアデノシン（ｄｅｏｘｙａｄｅｎｏｓｉｎｅ）、デオキシシ
チジン（ｄｅｏｘｙｃｙｔｉｄｉｎｅ）、デオキシグアノシン（ｄｅｏｘｙｇｕ
ａｎｏｓｉｎｅ）およびデオキシチミジン（ｄｅｏｘｙｔｈｙｍｉｄｉｎｅ）を
含んでいる。これら４つのヌクレオチド塩基は、通常それぞれ「Ａ」、「Ｃ」、
「Ｇ」および「Ｔ」と省略される。ＤＮＡはリボ核酸（ＲＮＡ）を作るのに用い
られ、このＲＮＡは更にタンパク質を作るのに用いられる。「遺伝子」は、変異
タンパク質を示すＲＮＡへ転写されるＤＮＡの領域を含む。

【０００３】生化学的研究の１つの基本的な目標は、生体における遺伝子から全てのタンパ
ク質分子をマップ化して特徴付けることである。タンパク質分子の存在および濃
度は、典型的に、遺伝子が所与の状況において「表現される」かあるいは「抑制
される」かどうかの決定を助ける。タンパク質の特徴付けは、識別、配列の決定
、表現、特徴付け、濃度および生化学的活性を含む。天然化合物および人為化合
物に対するタンパク質の応答は、疾病の新たな処置の開発、現在ある薬物の改善
、新たな薬物の開発、および他の医学的および科学的な用途の開発のため用いら
れる。

【０００４】バイオテクノロジ・データは、本質的に複雑である。例えば、ＤＮＡ配列は、
分析に適する方法で記憶され検索される必要がある多数のＡ、Ｃ、ＧおよびＴを
含んでいる。当技術において周知の「バイオ情報科学」手法を用いてバイオテク
ノロジ・データの収集、処理、記憶および検索することと関連する多くの問題が
ある。当技術において周知のように、バイオ情報科学とは、実験、モデル化、デ
ータベース探索および計装によって取得されるデータの処理、分析および表示の
ための情報技術およびデータ探索手法の組織的な開発および応用である。バイオ
テクノロジ・データは、一般に２つ以上の変数のグラフィック・プロットとして
提供される。「ピーク値」、すなわち２つ以上の変数のプロットにおける極大値
は、しばしばバイオテクノロジ・データにおける関心特徴である。

【０００５】バイオテクノロジ・データが収集されると、収集プロセスはしばしば実験の実
施に用いられた環境に基く変動を生じる。例えば、ＤＮＡ配列はゲルの電気泳動
を用いて試料を処理することによって決定され得る。ラベル（例えば、ダイ）が
、レーザによって生じる影響による検出のためゲル・プレートに置かれた試料へ
組込まれる。

【０００６】ゲル電気泳動は、分子を試料からゲル・プレート上の測定可能な長さの個々の
バンドへ解離させる。同じゲルの別々のバッチにより生成されるゲル・プレート
は、同じターゲット（例えば、同じポリヌクレオチド試料）を多数回用いて同じ
実験を完了するのに用いられる。実験の全ては、同じ実験において同じターゲッ
トが用いられるので同じ結果を理想的に生じるはずである。しかし、ゲル電気泳
動プロセスは、典型的に、ゲル電気泳動プロセスにおける変動によってバイオテ
クノロジ・データに小さなエラーを生じる。

【０００７】例えば、ゲルは、二人の異なる研究員によって調製されたものであり得、同じ
製品の２つのパッケージからのものであり得、異なる時点に購入されたものであ
り得、あるいは一人の研究員または自動化プロセス（例えば、ロボット）などの
いずれかにより僅かに異なる整合性または厚さでゲル・プレートへ塗布され得る
。これらの因子および他の因子が、典型的に、理想的には正確に同じ結果を生じ
るべき多数回行われる実験に「実験ごとの」変動をもたらす。

【０００８】別の問題は、バイオテクノロジ・データもまたミクロなアレイで収集されるこ
とである。ミクロ・アレイはまた、ゲル電気泳動の代わりに配列情報を提供する
ようにも用いられ得る。ミクロ・アレイはまた、ミクロ・アレイに対する試料の
調製時の変動により同じ実験に変動をもたらすこともある。更に別の問題は、実
験間の変動でデータ収集されるバイオテクノロジ・データのみが典型的に当技術
において周知のバイオ情報科学を用いて視覚的表示に全面的に適することである
。当技術において周知のように、バイオテクノロジにおいて最も一般に用いられ
る方法論の１つが、「比較」である。多くの生物学的オブジェクトは、同じ構造
的あるいは機能的な特徴を共有するファミリと関連付けられる。例えば、似たよ
うな配列を持つ多くのタンパク質は、共通した機能性を持ち得る。既知のタンパ
ク質に類似する配列を持つ１つのタンパク質が見出されると、この見出されたタ
ンパク質は共通した機能性を持ち得、従って１つの環境的条件（例えば、新たな
薬物）に対する共通した応答を呈し得る。

【０００９】バイオテクノロジ・データの視覚的な表示は、典型的に、バイオテクノロジ研
究のため典型的に「必要な」ものとして認識される。視覚的な表示ツールは、大
量の相互に関連するデータの複雑な展望の生成を可能にする。実験データは典型
的に、１つのコンピュータ・ディスプレイ上に多数のウインドウ表示を含み得る
グラフィカル・ユーザ・インターフェース（ＧＵＩ）を用いて表示される。

【００１０】視覚的表示および比較分析は、典型的に、実験データにもたらされる変動によ
って阻害される。例えば、同じターゲットを持つ同じ実験の５回の反復が視覚的
に表示されるならば、出力値は理想的に相互に重なり合うべきである。しかし、
実験間の変動により、５回の実験の反復ごとの出力値は、典型的に僅かに異なる
ことになり、視覚的表示は実験間の変動を「拡大」しがちとなる。このことは、
分析中に混乱を導いて、実験データの収集および表示のため用いられるプロセス
におけるユーザの確信を失わせるおそれがある。

【００１１】更に、多くの場合において、実験間の変動は所望の実験結果と同じ程度の大き
さとなる。実験間の変動を有する実験結果の視覚的表示を用いると、ユーザは結
果における相違が新たなターゲット（例えば、新たなポリヌクレオチド配列）に
よるものであるかどうかを判定することができなくなるおそれがある。

【００１２】このように、実験から得るデータにおける実験間の変動を減じることが望まし
い。このような実験間の変動の低減は、実験データの収集、処理および表示のた
め用いられるプロセスにおける確信の混乱あるいは喪失もなく、視覚的表示およ
び比較分析を完了することを可能にするはずである。

【００１３】発明の概要本発明の望ましい実施の形態によれば、実験データにおける実験間の変動と関
連する諸問題の一部が克服される。実験データの正規化のための方法が提供され
る。本発明の一特質は、実験データの数多くのデータ・セットのデータの正規化
のための方法を含んでいる。多数の実験データ・セットは１つ以上のインデック
スで指標されて、多数の指標されたデータ・セットを生成する。しかし、他のデ
ータ構成方式も用いられ、本発明は多数のデータ・セットのインデックス付けに
限定されることはない。多数のインデックスを付されたデータ・セットからの決
定付けられた中心的な特性とデータの値間の偏りが計測される。本発明の１つの
望ましい実施の形態では、決定付けられた中心的特性は、多数のインデックス付
きデータ・セットから決定される順序付比較のための値である。決定付けられた
中心的特性と多数のインデックスを付されたデータ・セット間の偏りは、決定付
けられた中心的特性を多数のインデックスを付されたデータ・セットからの計測
された偏りに比較することによって除去され、これにより多数のインデックス付
きデータ・セット間の偏りを減じ、かつこれにより実験間の変動を減じる。

【００１４】本発明の別の特質は、多数のインデックス付きデータ・セットからの指標間の
データ情報を用いるため中心的特性の正規化転換を多数のインデックス付きデー
タ・セットからのデータ値に適用することを含む。この正規化転換は、決定付け
られた中心的特性を用いて多数のインデックス付きデータ・セットからの偏りを
除く前に適用される。正規化転換は、限定されるものではないが、例えば零次正
規化転換および低次正規化転換を含む。本発明の更に別の特質は、多数のインデ
ックス付きデータ・セットから零次中心的特性を生成する方法を含む。この零次
中心的特性は、典型的にデータ値に依存する定数である。本発明の更に別の特質
は、多数のインデックス付きデータ・セットから低次中心的特性を生成すること
を含む。この低次中心的特性は、典型的にデータ値依存の平滑拡散スケーリング
関数である。

【００１５】本発明の望ましい実施の形態は、実験間の変動を減じるために用いられる。実
験データは、定常的に収集され、取得される結果が正確でありかつ低減した実験
間の変動を含む比較的高度な整合性で処理されて視覚的に表示される。このよう
に、インデックス付きされた実験ゴールすなわち結果（例えば、新たなポリヌク
レオチド配列の決定）は、実験間の変動の少ないより迅速でコスト効率のよい方
法で達成される。

【００１６】本発明の１つの望ましい実施の形態において、バイオ情報科学に用いることが
できる新規な方法を用いて、バイオテクノロジ・データの実験間の変動を低減す
る。しかし、本発明の望ましい実施の形態は、バイオテクノロジ・データに対し
て実験間の変動の低減に限定されることはない。本発明は、これに限定されない
が電気通信データ、電気的データ、光学的データ、物理的データ、あるいは実験
の実施に用いられる環境による実験間の変動を含む他の実験データを含む、他の
種類の実験データにおける実験間の変動の低減にも用いられる。本発明の望まし
い実施の形態の上記および他の特徴および利点については、以降の詳細な記述か
ら更に容易に明らかになるであろう。詳細な記述は、貼付図面に関して進行する
。

【００１７】望ましい実施の形態の詳細な記述本発明の望ましい実施の形態は、図面に関して記述される。本発明の１つの例示的な望ましい実施の形態においては、表現遺伝子の同時配
列特定識別のためのバイオテクノロジ・データが本文に述べる方法およびシステ
ムにより処理される。しかし、本発明は、バイオテクノロジ・データの処理に限
定されることはなく、他のデータ（例えば、電気通信データ、電気的データ、光
学的データ、物理的データ、その他のデータなど）の処理のため本文に述べる方
法およびシステムを用いることができる。遺伝子のマッピング先に述べたように、デオキシリボ核酸（ＤＮＡ）は、シンボル的に４つのヌク
レオチド塩基元素、デオキシアデノシン（ｄｅｏｘｙａｄｅｎｏｓｉｎｅ）、デ
オキシシチジン（ｄｅｏｘｙｃｙｔｉｄｉｎｅ）、デオキシグアノシン（ｄｅｏ
ｘｙｇｕａｎｏｓｉｎｅ）およびデオキシチミジン（ｄｅｏｘｙｔｈｙｍｉｄｉ
ｎｅ）の連続的なストリングとして想起され得る二重鎖ヘテロポリマーである。
この４つの塩基は通常、それぞれ「Ａ」、「Ｃ」、「Ｇ」および「Ｔ」として省
略され、ＤＮＡの１つの鎖における塩基元素は他の鎖における対応元素と相互作
用する。例えば、「Ａ」は「Ｔ」のみと相互作用し得、「Ｇ」は「Ｃ」のみと相
互作用し得る。このような関係は、「塩基の対合（ｂａｓｅｐａｉｒｉｎｇ）
」と呼ばれる。

【００１８】「遺伝子」はＤＮＡの領域であり、「タンパク質」は遺伝子の産物である。タ
ンパク質は、アミノ酸の基本的な組合わせから作られ、ＤＮＡはアミノ酸のコー
ディング情報を含む。ＤＮＡが複製すなわちコピーされると、それぞれの元の鎖
をテンプレート（鋳型）として用いて新たなＤＮＡ鎖が合成される。

【００１９】ＤＮＡ自体は、タンパク質のデコーディングすなわち合成のための鋳型として
は働かない。ＤＮＡの２つの鎖の一方の相補的コピーは、リボースヌクレオチド
から合成されて「転写」と呼ばれる方法で遺伝子のリボ核酸（ＲＮＡ）コピーを
生成する。遺伝子のＲＮＡは、次に、「翻訳」と呼ばれる方法を用いてタンパク
質合成によりデコードされる。ＲＮＡはタンパク質コードを持つので、これはメ
ッセンジャＲＮＡ（ｍＲＮＡ）と呼ばれる。ｍＲＮＡの転写は非常に正確であり
、常に１つの正確なヌクレオチドで始まり正確に別のヌクレオチドで終る。相補
型ＤＮＡ（ｃＤＮＡ）は、ｍＲＮＡの的確な二重鎖ＤＮＡコピーである。ｃＤＮ
Ａの二重鎖の一方はｍＲＮＡに対し相補的であり、他方は同じである。

【００２０】Ｐ．ＬｉａｎｇおよびＡ．Ｂ．Ｐａｒｄｅｅ著「ポリメラーゼ連鎖反応による
真核メッセンジャＲＮＡの示差的表示（Ｄｉｆｆｅｒｅｎｔｉａｌｄｉａｐｌ
ａｙオリフィスｅｕｋａｒｙｏｔｉｃｍｅｓｓｅｎｇｅｒＲＮＡｂｙ
ｍｅａｎｓｏｆｐｏｌｙｍｅｒａｓｅｃｈａｉｎｒｅａｃｔｉｏｎ）
」（Ｓｃｉｅｎｃｅ、第２５７巻、９６７−９７１ページ、１９９２年）、Ｊ．
Ｗｅｌｓｈ、Ｋ．Ｃｈａｄａ、Ｓ．Ｓ．Ｄａｌａｌ、Ｒ．Ｃｈｅｎｇ、Ｄ．Ｒａ
ｌｐｈおよびＭ．ＭｃＣｅｌｌａｎｄ著「ＲＮＡの任意に感作するＰＣＲフィン
ガプリンティング法（ＡｒｂｉｔｒａｒｉｌｙｐｒｉｍｅｄＰＣＲｆｉｎ
ｇｅｒｐｒｉｎｔｉｎｇｏｆＲＮＡ）」（ＮｕｃｌｅｉｃＡｃｉｄｓＲ
ｅｓｅａｒｃｈ、第２０巻、４９６５−４９７０ページ、１９９２年）、「ｃＤ
ＮＡライブラリを生成する簡単かつ非常に有効な方法（Ａｓｉｍｐｌｅａｎ
ｄｖｅｒｙｅｆｆｉｃｉｅｎｔｍｅｔｈｏｄｆｏｒｇｅｎｅｒａｔｉ
ｎｇｃＤＮＡｌｉｂｒａｒｉｅｓ）」（Ｇｅｎｅ、第２５巻、２６３−２６
９ページ、１９８３年）、Ｋ．Ｓｃｈｉｂｌｅｒ、Ｍ．Ｔｏｓｉ、Ａ．Ｃ．Ｐｉ
ｔｔｅｔ、_L．ＦａｂｉａｎｉａｎｄＰ．Ｋ．Ｗｅｌａｕｅｒ著「マウスの
αアミラーゼ遺伝子の組織固有表現（Ｔｉｓｓｕｅ−ｓｐｅｃｉｆｉｃｅｘｐ
ｒｅｓｓｉｏｎｏｆｍｏｕｓｅ α−ａｍｙｌａｓｅｇｅｎｅｓ）」（Ｊ
ｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、第１４２巻、９３
−１１６ページ、１９９０年）、Ｐ．ＦｒｉｅｄｌａｎｄａｎｄＬ．Ｈ．Ｋ
ｅｄｅｓ著「ＤＮＡの秘密発見（Ｄｉｓｃｏｖｅｒｉｎｇｔｈｅｓｅｃｒｅ
ｔｓｏｆＤＮＡ）」（ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡｓ
ｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｒｙ（ＣＡ
ＣＭ）、第２８巻、第１１号、１１６４−１１８６ページ、１９８５年１１月）
、その他に記載されたものを含むＲＮＡの種を識別するバイオテクノロジ技術に
おける多くの手法が知られている。

【００２１】ｍＲＮＡの同時配列固有の識別法を用いて、ターゲット生体から分離されたＲ
ＮＡ（例えば、新規な薬物が投与された細胞）が分析される。本発明の１つの望
ましい実施の形態においては、ｍＲＮＡの同時配列固有の識別法に、参考のため
本文に援用される米国特許第５，４５９，０３７号および同第５，８０７，６８
０号に記載された完全遺伝子表現分析法（ＴＯＧＡ）がもたらされる。しかし、
ｍＲＮＡの配列固有識別法を提供するのに他の方法もまた用いることもでき、本
発明はｍＲＮＡのＴＯＧＡ配列固有識別法に限定されることはない。

【００２２】本発明の１つの望ましい実施の形態においては、望ましくはＴＯＧＡ法あるい
は他の方法の適用に先立ち、分離されたＲＮＡが当技術で周知の方法により種に
なるポリＡ包含ｍＲＮＡポピュレーションを形成するように濃縮される。このよ
うな望ましい実施の形態においては、ＴＯＧＡ法は更に、４つの５ＰＣＲプライ
マおよび逆の相補的ＲＮＡ（ｃＤＮＡ）のポピュレーションから調製されたｃＤ
ＮＡテンプレートの一方を用いて行われる更なるポリメラーゼ連鎖反応（ＰＣＲ
）ステップを含む。あり得る２５６の５ＰＣＲプライマと共通３ＰＣＲプライマ
の一方を用いる最終ＰＣＲステップが、ＰＣＲ生成物として、種のｍＲＮＡポピ
ュレーションの３領域に対応するｃＤＮＡ部を生じる。

【００２３】レーザにより生じる蛍光によるＰＣＲ生成物の検出を可能にするため、ラベル
（例えば、ダイ）がＰＣＲ生成物に組込まれる。ＰＣＲ生成物からの分子を計測
可能な長さの個々のバンドへ分ける（例えば、図６参照）ために、ゲル電気泳動
法あるいは相当手法が用いられる。生成されたＰＣＲ生成物は、ａ）制限エンド
ヌクレアーゼ認識部位の残部に対し、認識部位の残部のヌクレオチド塩基配列、
あるいはｍＲＮＡから作られるｃＤＮＡの逆転写の３領域を裁断し分離するのに
用いられた制限エンドヌクレアーゼに加えて、望ましくは３つの直後に４つの分
析塩基のヌクレオチド塩基配列を含む最初の５つの配列、あるいは更に望ましく
は、フラグメント全体の配列により、およびｂ）フラグメントの長さによって識
別することができる。

【００２４】ヌクレオチド塩基配列の決定を含むＰＣＲ生成物データの処理は非常に複雑な
作業である。ＴＯＧＡ法が用いられるかどうかに従って、ｍＲＮＡ分子の終端付
近のヌクレオチド配列は各ｍＲＮＡにほとんど一義的なアイデンティティを付す
。更に、ＰＣＲ生成物に対するレーザが生じる蛍光信号の位置および強さに関す
るデータは、ディジタル化されて、対応する種となるｍＲＮＡ種の存在と相対濃
度の決定に用いられる。例えば、ＰＣＲ生成物データは、ディジタル情報を含む
データ・ファイルを生成することによりディジタル化される。このデータ・ファ
イルは、例えば、ｍＲＮＡの識別に用いられた電気泳動パターンまたは他のデー
タの光の明るさのディジタル値（例えば、ｍＲＮＡの分離に用いたチップ上のミ
クロ・アレイからのデータ）を含む。ｍＲＮＡ配列の検出および分析を助けるた
め、実験データを含むデータ・ファイルが処理される。本発明の１つの例示的な
望ましい実施の形態においては、実験データ処理システムが実験データの処理に
用いられる。

【００２５】本発明の１つの望ましい実施の形態においては、実験データは、ＤＮＡ、ｃＤ
ＮＡ、ｃＲＮＡ、ｍＲＮＡ、あるいは他のポリヌクレオチドに対するポリヌクレ
オチド・データを含む。このポリヌクレオチド・データは、限定されないが、ヌ
クレオチド・フラグメントの長さ、ヌクレオチド・フラグメントの塩基組成、ヌ
クレオチド・フラグメントの塩基配列、ヌクレオチド・フラグメントのタグ付け
に用いるダイ・ラベル信号の強さ、あるいは他のヌクレオチド・データを含み得
る。しかし、本発明は、ポリヌクレオチド・データに限定されるものではなく、
他の実験データも用いることができる。実験データ処理システムの事例図１は、本発明の１つの例示的な望ましい実施の形態に対する例示的な実験デ
ータ処理システム１０を示すブロック図である。この実験データ処理システム１
０は、コンピュータ・ディスプレイ１４を有するコンピュータ１２を含んでいる
。コンピュータ・ディスプレイ１４は、ユーザに対するウインドウ型グラフィカ
ル・ユーザ・インターフェース（ＧＵＩ）１６を提供する。データベース１８が
、バイオテクノロジの実験情報あるいは他の実験情報を含んでいる。このデータ
ベース１８は、コンピュータ１２におけるメモリ・システムと一体であるか、あ
るいはハード・ディスク、フロッピ・ディスク、光ディスクその他の不揮発性大
容量記憶装置のような２次記憶装置に含まれる。

【００２６】本発明の望ましい実施の形態におけるデータ処理システム１０に対する動作環
境は、１つ以上の高速中央処理装置（ＣＰＵ）およびメモリを備えた処理システ
ムを含んでいる。ＣＰＵは、電気的なものでも、あるいは生物学的なものでもよ
い。コンピュータ・プログラミング技術の当業者の慣例に従って、本発明につい
ては、他に断りがなければ、処理システムにより行われる行為および動作あるい
は命令の記号表示に関して以下に記述する。このような行為および動作、あるい
は命令は、「コンピュータが実行する」あるいは「ＣＰＵが実行する」ものとし
て表わされる。

【００２７】行為および記号で表わされる動作または命令は、ＣＰＵによる電気信号あるい
は生物学的信号の操作を含むことが理解されよう。電気的システムあるいは生物
学的システムは、電気信号あるいはバイオロジ信号の結果として生じる変換ある
いは実施を生じるデータ・ビットを表わし、これによりメモリ・システムにおけ
る記憶場所におけるデータ・ビットの保持がＣＰＵ動作ならびに信号の他の処理
の再構成その他の変更を行う。データ・ビットが保持される記憶場所は、データ
・ビットに対応する特定の電気的、磁気的、光学的あるいは有機的な特性を有す
る物理的な場所である。

【００２８】データ・ビットはまた、ＣＰＵ可読である磁気ディスク、光ディスク、有機的
メモリ、および他の揮発性（例えば、ランダム・アクセス・メモリ（ＲＡＭ））
あるいは不揮発性（例えば、読出し専用メモリ（ＲＯＭ））大容量記憶システム
を含むコンピュータ可読な媒体上に保持される。コンピュータ可読な媒体は、処
理システムの外部に存在するかあるいは処理システムに対しローカルあるいは遠
隔である多数の相互接続された処理システム間に分配される共働するかあるいは
相互接続されるコンピュータ可読な媒体を含む。分析バイオテクノロジ・データ本発明の１つの例示的な望ましい実施の形態においては、レーザが生じる蛍光
および電気泳動による検出のため、ターゲットのバイオテクノロジ生成物（例え
ば、ポリヌクレオチドＰＣＲ生成物）に組込まれるラベルを用いて、バイオテク
ノロジ・データを取得する。しかし、実験のバイオテクノロジ・データの収集の
ため他の手法（例えば、ミクロ・アレイ）を用いることもできる。

【００２９】バイオテクノロジ生成物の表示された蛍光強さに基く複雑な多項目情報信号が
、結果として生じる実験データ・ファイルにディジタル・データとして含まれる
。このような多項目情報信号は、生の多項目ラベルの蛍光強さを含む。ラベル応
答は、スペクトル的に比較的広帯域であり、典型的にスペクトルの重なりを含む
。第２の蛍光応答として計測されるエネルギは、典型的に第１の蛍光応答の終り
にこれもまた存在し得るエネルギを含み、かつその逆もあり得る。

【００３０】このようなスペクトル的な重なりは、混成エネルギの相対量がターゲット・デ
ータ（例えば、ポリヌクレオチド・データ）を表わすデータの相対的な蛍光応答
として同程度の強さであり得るゆえに、除去される必要がある。例えば、２つの
蛍光応答間のスペクトル重なり領域に生じるならば、バイオテクノロジ生成物に
おける所与のポリヌクレオチド・データ・フラグメントに対する小さな蛍光応答
が「圧倒」されることもあり得る。本発明の例示的な実施の形態においては、ス
ペクトルの重なりが除去され、正規化された基底線がフィルタ処理手法の組合わ
せにより生成される。スペクトルの重なりの除去およびデータの正規化図２は、多項目データ信号のデータ正規化のための方法２０を示すフロー図で
ある。ステップ２２において、多項目データ信号が読出される。この多項目デー
タ信号は、変動する振幅を持つ変動するスペクトル特性の多数の個々のデータ信
号成分を含む。多数の個々のデータ信号成分は、多項目データ信号の各部内で重
なり合う。ステップ２４において、スペクトル・フィルタが多項目データ信号に
適用されて多数の重なりのない個々のデータ信号成分を生じる。ステップ２６に
おいて、多数の重なりのない個々のデータ信号成分における基底値に対するアン
ビギュイティを生じる多項目データ信号における多数の信号アーチファクトに対
し空間フィルタが用いられ、多数の重なりのない個々のデータ信号成分を均一な
基底値に空間的に修正して正規化する。

【００３１】本発明の１つの望ましい実施の形態においては、多項目データ信号の空間的特
性は、限定しないがダイ・ラベルの吸収スペクトル、ダイ・ラベルの放出スペク
トル、放出波長電力および励起レーザのパルス持続時間、あるいは他のスペクト
ル特性を含む物理的な属性および条件を含む。方法２０のステップ２４における
スペクトル・フィルタ処理は、ポリヌクレオチド・データ（例えば、ｍＲＮＡ、
ｃＤＮＡ、あるいはＤＮＡ）のタグ付けに用いられる異なるダイのスペクトル的
特性の重なりにより組合わされる生の蛍光強さの個々の成分の「デマルチプレキ
シング」すなわち分離を含む。ダイがタグ付けされたポリヌクレオチド・データ
あるいは他のデータは、「ダイ・タグ付き」と呼ばれる。しかし、方法２０は、
ポリヌクレオチド・データからの蛍光強さの処理に限定されることがなく、多項
目データ信号を生成する他の種類のデータの処理に用いることができる。

【００３２】本発明の１つの例示的な望ましい実施の形態においては、スペクトルのフィル
タ処理は、種々のダイ・タグ付きの蛍光応答におけるエネルギが重なる相対度を
表わす１組の係数を用いる。このような係数の組の｛ｍ（ｐ，ｑ）｝により表示
し、ｍ（ｐ，ｑ）は、実際にｐ番目のダイ・タグ付きの蛍光応答の中心に対応す
る波長におけるｑ番目のダイ・タグ付きの蛍光応答による前記波長において計測
されるエネルギ量の測定値である。任意のこのような中心波長において計測され
るフィルタ処理されない総蛍光応答は、実際のダイ固有の蛍光応答の加重和であ
ると見なされる。ｐ番目のダイ強さの中心波長におけるフィルタ処理されない計
測蛍光強さはＡ′（ｑ）として表わされ、実際のダイ固有の蛍光強さはＡ（ｑ）
として表わされる。これらの約束に照らして、式７は計測蛍光強さと実際の蛍光
強さとの間の関係を示す。

【００３３】

【数７】

【００３４】スペクトル・フィルタは、係数マトリックスｍ（ｐ，ｑ）の特異値分解を用いて
式７における式の線系を反転することにより、実際の蛍光強さＡ（ｑ）を抽出す
ることを含む。このスペクトル重なり係数ｍ（ｐ，ｑ）およびフィルタ処理され
ない蛍光強さＡ′（ｑ）は、典型的に、蛍光強さの生成および記録のため用いら
れる計装の校正の一部として計測から取得される。しかし、これらの値は他のソ
ースからも得ることができる。このような抽出は、方法２０のステップ２４にお
いて用いられる例示的なスペクトル・フィルタである。しかし、他のスペクトル
・フィルタもまた用いることができ、本発明は式７の逆数により示されるスペク
トル・フィルタに限定されるものではない。

【００３５】前記スペクトル・フィルタには、方法２０のステップ２６におけるスペクトル
・フィルタが後置される。本発明の１つの例示的な望ましい実施の形態において
は、スペクトル・フィルタは、１組の均一な基底値に対する強さを空間的に修正
し正規化する非線形形態グレースケールの「ローリング・ボール」の変態である
。しかし、他の種類の空間的フィルタもまた用いることができ、本発明は本文に
述べた空間フィルタに限定されるものではない。

【００３６】本発明の１つの例示的な望ましい実施の形態においては、蛍光強さを１組の均
一な基底値に空間的に「修正」し「正規化」する非線形形態グレースケール・ロ
ーリング・ボール変態は２つの段階を有する。第１の段階は、空間的限界がある
スケールより小さい局部的変化を排除するトレースのバージョンを生じる。この
スケールは、典型的な標準データのピーク値のトレースに沿って計測される限界
より僅かに大きくなるように選定され、従って結果として得るトレースは、ピー
ク値領域が標準ピーク値の空間スケールにありより小さなピーク値が平滑に低減
する元のトレースに非常に類似する。本発明の望ましい実施の形態においては、
データのピーク値は、最大振幅と幅により特徴付けられる少なくとも２つの次元
を持つエンティティを含む。データ・ピーク値は、最大振幅の半分における幅あ
るいは最大振幅の位置によっても記述される。

【００３７】このような固有の非線形プロセスは、第２の段階においてトレースの原点と平
滑バージョン間の差の形成が後続し、標準ピーク値およびそれ以下の空間的スケ
ールにおけるピーク値のある領域を含む均一な基底線の残部を残す。用語「ロー
リング・ボール」とは、トレースの平滑バージョンがこのようなフィルタ処理の
第１段階においてどのように形成されるかを示す。実際には、関心排除スケール
により設定される半径の「ボール」は、少なくとも１つのトレースとの接触点を
維持しながら最初にトレースの下側に沿って「転動」される。各試料インデック
ス（例えば、走査線）において、その中心が試料インデックス上にあるときボー
ルの最も高い点を取ることにより、新たなトレースが形成される。その後、各試
料インデックスにおいてその中心が試料において上にあるときボールの最下点を
取ることにより最後の新たなトレースが形成されるこのような新たなトレースの
最上部に沿った同じボールの通過が後続する。

【００３８】ｆ（ｎ）が試料インデックスｎにおいて計測されるトレースの蛍光強さであれ
ば、ｆ_minはトレース全体における最小蛍光強さに等しく設定される。標準的な
ピーク値の空間的スケールは、Ｎ個の試料インデックス（例えば、Ｎ本の走査線
）より僅かに小さくなるように設定される。トレースは、式８に示されるように
新たなトレースｆ#（ｎ）を形成することにより最初に「蚕食」される。

【００３９】

【数８】

【００４０】式８から蚕食されたトレースｆ#（ｎ）は、式９において示されるように「膨張
」される。

【００４１】

【数９】

【００４２】試料インデックスｎにおける元のトレースのローリング・ボールフィルタ処理さ
れたバージョンの蛍光強さは、式１０に示されるようにｆ₀（ｎ）である。

【００４３】

【数１０】

【００４４】これは、フィルタの非線形性を考慮する最小値および最大値（例えば、式９およ
び４）を見出すシーケンスである。データ値は、１組の均一な基底値に正規化さ
れる。

【００４５】方法２０を含む本発明は、バイオテクノロジ・データの多項目信号の処理およ
び正規化、あるいは式７−１１によるデータ処理に限定されるものでなく、多項
目信号（例えば、電気通信信号、電気的装置に対する電気信号データ、光信号、
物理的信号あるいは他のデータ信号）からの他のデータに対しても用いることが
できる。

【００４６】本発明の１つの例示的な望ましい実施の形態においては、「制御」あるいは「
標準的」ポリヌクレオチド・データ・フラグメント（すなわち、既知のポリヌク
レオチド・データ・フラグメント）は、レーザ照射時に「赤い」蛍光に応答する
ダイでタグ付けされるが、「ターゲット」ポリヌクレオチド・データ・フラグメ
ント（すなわち、識別されるポリヌクレオチド・データ）は「青」に応答するダ
イでタグ付けされる。しかし、制御およびターゲットに対して用いられるダイも
また取り替えることもできる。赤と青の両方のダイ応答は、赤い蛍光応答として
計測されるエネルギがこれも存在し得る青の蛍光応答の終りにおけるエネルギを
含むか、あるいはその逆である程度に対してスペクトル的に比較的広帯域である
。このようなスペクトルの重なりは、混成エネルギの相対量がターゲットのポリ
ヌクレオチド・データおよび標準的なポリヌクレオチド・データ・フラグメント
の相対的な蛍光強さの度合いとなるゆえに考慮に入れられる。

【００４７】図３Ａは、フィルタ処理されない多項目データ信号３０のブロック図２８であ
る。図３Ａないし図３Ｄは、図２の方法２０の使用を示すために用いられる。本
発明の１つの例示的な望ましい実施の形態においては、ためにデータ信号３０は
、時間的に連続的な点における電気泳動ゲルにおける固定点の垂直軸３２上の蛍
光の信号強さの測定値である。このような蛍光信号強さは、試料インデックスを
表わす水平軸３４（例えば、走査線）上のパラメータに正比例する。しかし、他
の多項目信号データもまた使用でき、本発明はポリヌクレオチド蛍光強さのデー
タに限定されるものではない。所与の走査線における蛍光強さの大きさは、走査
の固定時点におけるタグ付けされた（例えば、赤または青のダイでタグ付けされ
た）ポリヌクレオチド・フラグメント量を表わすように示される。標準的なポリ
ヌクレオチド・フラグメントの蛍光強さのスケールは、約２００個の蛍光装置の
狭いピーク値３６により示され、これは水平軸３４上の試料インデックス２５０
０付近の領域（例えば、２５００本の走査線）において示される。本発明の１つ
の望ましい実施の形態においては、図３Ａは、標準的な組のポリヌクレオチド・
フラグメントに対する多項目データ信号３０を示す。

【００４８】図３Ｂは、図３Ａの標準的な組のポリヌクレオチド・フラグメントに対するフ
ィルタ処理されない多項目データ信号３０をより大きなスケールで示されたフィ
ルタ処理されない多項目データ信号として示すブロック図３８である。図３Ｃは
、ポリヌクレオチドの目標セットに対する多項目データ信号４４のフィルタ処理
されたバージョンを示すブロック図４２である。ポリヌクレオチドの目標セット
（図３Ｃ）に対する多項目データ信号４４のフィルタ処理されたバージョンは、
少なくともポリヌクレオチドの標準的セット（図３Ｂ）に対するフィルタ処理さ
れない多項目データ信号４０より大きな程度の大きさである。

【００４９】スペクトルの重なり度は、図３Ｂのポリヌクレオチドの標準的セットに対する
フィルタ処理されない多項目データ信号４０において、水平軸３２における試料
インデックス２５００（例えば、２５００本の走査線）の領域における広いピー
ク値４６のようなアーチファクトの存在により示される。図３Ｂの広域ピーク値
４６は、図３Ｃの比較的狭いピーク値４８と比較されるとき、このようなレベル
の蛍光強さを生じ得る赤のタグを付した標準ポリヌクレオチド・フラグメントが
ないので、青のタグを付したターゲットポリヌクレオチド・フラグメントからの
青の蛍光強さのスペクトル的な重なりによる。このような領域における曖昧な基
底線（例えば、２５００本の走査線）は、関心の赤のタグを付したポリヌクレオ
チド・フラグメントを劇的に矮化する青のタグを付したポリヌクレオチド・フラ
グメントの「スペクトルのブリード・スルー」を示す。

【００５０】図３Ｄは、図３Ａのポリヌクレオチド・フラグメントの標準的セットに対する
フィルタ処理されない多項目データ信号３０に対する図２の方法２０の適用を示
すブロック図５２である。図３Ａおよび図３Ｄは、同じ信号強さスケールを用い
て直接的な比較を可能にする。方法２０のスペクトル・フィルタおよび空間フィ
ルタを図３Ａの標準的セットのポリヌクレオチド・フラグメントに対するフィル
タ処理されない多項目データ信号３０に対し印加することにより、均一な基底値
に正規化された図３Ｄにおけるクリーン・データのピーク値５４、５６、５８、
６０、６２、６４、６６、６８、７０および７２に注目されたい。図２の方法２
０はまた、図３Ｂのポリヌクレオチドのターゲット・セットに対する多項目デー
タ信号へ適用して、図３Ｄにおけるものと類似するクリーンなピーク値セットを
生じる（これは、図３には示されない）。標準的サイズのデータ検出、エラーの除去およびクラッタの除去図２の方法２０により基底値へフィルタ処理されて正規化される多項目データ
信号は、不正なピーク値クラッタによる不正すなわち誤りのあるデータ・ピーク
値を依然として含み得る。このような誤りのあるすなわち不正なデータ・ピーク
値は、除去されなければ、実験結果を歪め得る。本発明の１つの例示的な望まし
い実施の形態においては、不正なピーク値クラッタの除去によるサイズ基準検出
を用いてバイオテクノロジ・フラグメント・データ（例えば、ポリヌクレオチド
・データ）のフィルタ処理されたセットから妥当なバイオテクノロジ・フラグメ
ントのデータ・セットを識別する。しかし、不正なピーク値クラッタの除去によ
るサイズ基準の検出は、バイオテクノロジ・フラグメント・データ以外のデータ
についても用いることができる。

【００５１】図４は、クラッタ除去の方法７４を示すフロー図である。ステップ７６におい
て、最初の閾値基準を用いて第１のセットのデータ点がフィルタ処理された（例
えば、図２の方法２０を用いてフィルタ処理された）データ点セットから選択さ
れる。ステップ７８において、多数のデータ点の重なりサブセットが第１のセッ
トのデータ点から選択される。ステップ８０において、多数の線形マッピング法
が多数のデータ点の重なりサブセットに対し適用される。ステップ８２において
、多数のエラー値が、データ点の多数の重なりサブセットに対する多数の線形マ
ッピングの適用から決定される。ステップ８４において、最小のエラー値との重
なりデータ点の第１の最終サブセットが第１のデータ点セットから選択される。
重なりデータ点の第１の最終サブセットにおけるデータ点は、不正なデータ点が
除去された標準的範囲内に該当するデータ点を含む。

【００５２】本発明の１つの例示的な望ましい実施の形態においては、候補となるバイオテ
クノロジ・フラグメント・データにおけるピーク値は、中程度の変化に関する「
ミクロスケール」と「中程度の」平均的な蛍光強さレベル間の差の単純な比率に
おける閾値を用いて（例えば、方法２０により）フィルタ処理された蛍光強さの
バイオテクノロジ・データにおけるステップ７６（図４）において見出される。
しかし、他の閾値もまた用いることもできる。

【００５３】方法７４において用いられるよう選定することができる、比較的大きなセット
数のフィルタ処理されたデータ点が典型的に存在する。このように、データ点の
適切なフィルタ処理されたセットの選定は、「組合わせ論」の問題である。先に
述べたように、組合わせ論は、データ点の有限セットに属する離散要素の構成、
それについての操作およびその選定と関連する。しかし、方法７４は、データ選
定の組合わせ数を多数の線形マッピング法を用いて「最良の」可能な解へ減じて
、最良セットのデータ点を非常に多くのフィルタ処理データ点セットから生成す
ることを可能にする。方法７４は、電気泳動ゲル・スケールの代わりにデータの
サブスケールにおけるデータ点の正確な選択を行い、これによりデータ選択の組
合わせ数を現世代の計算システムにおいて使用可能なレベルまで減じる。

【００５４】本発明の１つの例示的な望ましい実施の形態においては、「高さと幅」の比と
組合わされた「信号対雑音」の比がステップ７６において用いられる。しかし、
他の初期閾値もまた用いることができ、本発明はその内に述べた初期閾値に限定
されることはない。この初期閾値は、本発明の１つの例示的な望ましい実施の形
態において初期閾値の概要として用いられ、不正な基準のバイオテクノロジ・フ
ラグメント（例えば、ポリヌクレオチド・フラグメント）のピーク特性の同様な
セットを識別する。初期閾値外のデータは、以下に図５に示されるように除去さ
れる。所与の候補の実際の試料インデックスの規定は、これが一義的であるかあ
るいは特徴間隔の空間的中心であるならば、ピーク特性の極大の候補であると見
なされる。

【００５５】図５は、図２からの方法２０を用いてフィルタ処理され正規化された多項目デ
ータ信号を示すブロック図８６である。ポリヌクレオチド・データ・フラグメン
トに対するサイズ基準の検出における難しさを示すため、図５は人為的に受入れ
得るデータのピーク値の比較的クリーンなセットを示している。しかし、信号対
雑音の基準は満たすがデータのピークの決定のため用いられる高さ対幅の基準は
満たさない試料インデックス１４００および３２５０付近の特徴点８８および９
０がある（図５のアイテム８８、９０は図６のアイテム９８、１００に対応する
）。特徴点８８、９０は、ステップ７６における初期の基準で除去される。しか
し、試料インデックス２７００付近には初期の基準は満たすが当該バイオテクノ
ロジ・データのトレース例に対する妥当な基準ピーク値ではない特徴点９２、９
４もある（図５のアイテム９２、９４は図６のアイテム１０２に対応する）。こ
れらの特徴点９２、９４は、実験が行われるごとに再生可能な結果を可能にする
ため、ステップ７８−８４において方法７４の残部により除去される。妥当な基
準ピーク値セット（例えば、ポリヌクレオチド・データ・フラグメントに対して
）を生成するようにこのような妥当でないピーク値を一貫して除去することが望
ましい。

【００５６】本発明の１つの例示的な望ましい実施の形態においては、ポリヌクレオチド・
データ・フラグメントの記録のため用いられるゲル電気泳動の物理的作用をモデ
ル化は、ドリフトを含むフィックの拡散法を用いて行われる。しかし、他のモデ
ル化手法も用いることができ、本発明はドリフト込みフィックの拡散法に限定さ
れるものではない。当技術において周知のように、フィックの拡散法は、濃度勾
配に正比例するある面の単位面積を横切る拡散流速について記述するフィックの
法則により支配される分子的拡散である。フィックの拡散法の更なる情報につい
ては、共に参考のため本文に援用される、Ｈ．Ｐ．ＭｃＫｅａｎおよびＫ．Ｉｔ
ｏ著「拡散プロセスおよびその試料経路（ＤｉｆｆｕｓｉｏｎＰｒｏｃｅｓｓ
ｅｓａｎｄＴｈｅｉｒＳａｍｐｌｅＰａｔｈｓ）」（Ｓｐｒｉｎｇｅｒ
Ｖｅｒｌａｇ、１９９６年、ｉｓｂｎ−３５４０６０６２９７）、あるいはＪ
．Ｃｒａｎｋ著「拡散の数学（ＭａｔｈｅｍａｔｉｃｓｏｆＤｉｆｆｕｓｉ
ｏｎ）」（ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ、１９７５年、Ｉ
ＳＢＮ−０１９８５３４１１６）を参照されたい。

【００５７】ゲルにおけるフィック拡散法を用いて、拡散のドリフト特性がゲルにおける固
定点におけるその最大濃度の到達時間と関連付けられる。関心となる線形分子に
ついては、このような構成はポリヌクレオチド・データ・フラグメントに対する
少なくとも３つの顕著なモデル予測を導く。第一に、ポリヌクレオチド・データ
・フラグメントは、そのサイズに反比例する速度でドリフトする。第二に、希薄
な混合物の場合、蛍光のピークの高さがポリヌクレオチド・データ・フラグメン
ト・カウントに比例する。最後に、これら両方の比例性はポリヌクレオチド・デ
ータ・フラグメントのサイズとは独立的である。生物分子学的なサイズ分析にお
けるゲル電気泳動値は、これらの予測が条件および分子の非常なバラエティに対
して妥当する計器およびプロトコルを設計することが可能であるという事実によ
る。

【００５８】本発明の１つの例示的な望ましい実施の形態においては、既知のサイズの標準
的なポリヌクレオチド・フラグメント・セットを混成することで、不正なピーク
値のクラッタを排除する手段を提供する。フラグメント・サイズとドリフト速度
間の反比例性がフラグメント・サイズに依存し、かつ標準的なフラグメント・セ
ットが既知かつ順序付けられ、その走査線の場所の関数として標準的なフラグメ
ント・サイズのプロットを通って引かれる直線がクラッタであるこれらデータの
ピーク値を明らかにするはずである。クラッタのピーク値は、１本の線に妥当せ
ずあるいは非常に近づくこともなく、あるいはこれらピーク値が他のデータの大
きな部分を失わせることになる。

【００５９】クラッタ排除に対するこのような試みについては、バイオテクノロジ・データ
に用いることには少なくとも２つの問題が残る。第一に、候補のピーク値から妥
当なピーク値の適切なサブセットをすばやく選定する組合わせ論の可能性は、現
在入手可能な計算システムにおいては計算的に不可能かあるいは禁制的であり得
る。第二に、フラグメントおよびドリフト速度の大きさの反比例性がフラグメン
ト・サイズとはまさに独立的である程度は、ゲル特性がある観察期間にわたり一
貫しかつ均一である程度に依存する。

【００６０】図６は、標準的なポリヌクレオチド・フラグメントで同時にロードされたゲル
における１組のレーンに対する一連の走査のためのフィルタ処理された標準的ポ
リヌクレオチドの蛍光応答を示すブロック図９６である。ゲルの物理的エッジは
このイメージのエッジに対応し、任意の１つのレーンにおける明るいバンドはこ
のレーンにおける候補の標準的フラグメントの走査線の場所を表わしている。例
えば、試料インデックス２０００（図６）付近の３本の走査線は試料インデック
ス２０００（図５）付近の３つのデータのピーク値を表わす。レーン１０、１９
、２５の略々中心における、イメージを横切って伸びるバンドに属しない比較的
小さな明るい特徴点９８、１００、１０２に注目されたい。これらは、問題とな
る「不正なピークのクラッタ」の事例である。例えば、アイテム９８（図６）は
不正ピーク値８８（図５）に対応し、アイテム１００は不正ピーク値９０（図６
）に対応し、アイテム１０２（図６）は不正ピーク値９２、９４（図５）に対応
している。

【００６１】ゲルの特性がある連続走査期間にわたりゲル全体で均一であったとすると、明
るいバンドは厳密に水平（例えば、事例の水平な破線１０４）であることになる
。バンドばかりでなく水平でもないばかりでなく、バンドが湾曲する程度は時間
の関数として増大し、レーザ走査線のインデックスが時間的に遅れて生じる走査
に対応する。ゲルにおいてドリフトするフラグメントは、印加された電界の影響
下で抵抗媒体を通して動く荷電粒子である。このような仮想的な電気泳動ゲルに
おいて結果として生じる特性的な「スマイル（ｓｍｉｌｅ）」（例えば、走査線
１０６対水平線１０４）は、このような時間的な電流によるゲルの異なる発熱に
よるものであり、ゲルのエッジが更に中心方向の領域よりも熱を更に効率的に放
散する。

【００６２】標準的なフラグメント・サイズの直線的に整合されたセット（例えば、マスク
）が小さいほど、妥当なサブセットの選定（例えば、マスクのフリッカーリング
）の結果として生じる組合わせ論が更に扱いやすくなる。各マスクが添付される
ゲルの重なり領域については、関連ゲルの特性が更に均一かつ一貫して特定され
るようになる。

【００６３】本発明の１つの例示的な望ましい実施の形態においては、所与の１組の候補と
なる標準ピーク値走査線の場所が、先に要約した初期の閾値基準によってステッ
プ７６において取得される。このような実施の形態においては、クラッタおよび
不正ピーク値の排除は、ステップ７８において設定される完全に標準的なサイズ
の適正な重なりサブセットの選定によって進行する。

【００６４】ステップ７８において、線形マッピング法がデータ点の多数の重なりサブセッ
トに対し適用される。ピークがそれぞれ走査線｛ｎ_b、ｎ_b、ｎ_c｝において生じ
る標準サイズ｛Ｍ_a、Ｍ_b、Ｍ_c｝の３つの順序付けられた順次のエレメント・セ
ットの場合、線形回帰法が、式１１において示されるようなフラグメント・サイ
ズに対し走査線ｎ_xの予測線形マッピング法をもたらす。しかし、他のセット・
サイズおよび線形マッピング法もまた用いることができ、本発明は式１１におけ
る線形マッピング法に限定されるものではない。

【００６５】

【数１１】

【００６６】係数｛μ^(j) _abc｝は、（サイズ、走査線）ペアの特定セットの関数である。任意
の走査線ｎが２つの隣接する標準ピークの走査線の場所｛ｎ_b、ｎ_c｝の間にある
と、ローカル・サザーン（Ｓｏｕｒｔｈｅｒｎ）線形マッピング法が式１２に示
されるようにフラグメント・サイズを関連付ける。しかし、他の線形マッピング
法も用いることができ、本発明は式１２に示されるローカル・サザーン線形マッ
ピング法に限定されるものではない。

【００６７】

【数１２】

【００６８】セット｛Ｍ_b、Ｍ_c、Ｍ_d｝は、最も左の重なり「ａｂｃ」および順次セット｛Ｍ_a 、Ｍ_b、Ｍ_c｝に対する最も右の重なり「ｂｃｄ」および標準サイズの順次セット
であり、標準サイズのピーク値に対する前者が走査線｛ｎ_b、ｎ_c、ｎ_d｝におい
て生じる。標準的ピーク・サイズ（すなわち、データ点の値）および走査線の場
所（すなわち、データ点）のこのような関連付けにおける個々の誤差は、式１３
により示される差として計算される。

【００６９】

【数１３】

【００７０】ステップ８２において、多数の誤差値（例えば、式１３）が多数の線形マッピ
ング法（例えば、式１２）のデータ点の多数の重なりサブセットへの適用から決
定される。本発明の１つの望ましい実施の形態においては、各局所適合の「適合
度（ｇｏｏｄｎｅｓｓ）」の平均２乗平方根（ＲＭＳ）の誤差評価がそれらのラ
ンク付けを可能にする。しかし、他の誤差評価法も用いることができ、本発明は
ＲＭＳに限定されるものではない。

【００７１】標準的なバイオテクノロジ・フラグメント・サイズのセットに対する１組のピ
ーク走査線の場所が与えられると、線形回帰法を用いて、直線が、３つの隣接フ
ラグメント・サイズのあり得るセットに３つの関連する隣接走査線の場所の関数
として適合する。所与の走査線に関連するフラグメント・サイズに対するこの所
与の走査線の局所線形マッピング法が、これら３つの点の線形適合の２つの最も
関連するものを平均化することによって形成される。

【００７２】第１の関連する適合が、所与の走査線より小さな２つの最も近い標準走査線、
および更に大きな１つの最も近い標準走査線を含む。第２の関連する適合は、所
与の走査線より大きい２つの最も近い標準走査線、およびより小さい１つの最も
近い標準走査線を含む。Ｋ（サイズ、走査線）ペア｛（Ｍ_n(k)、ｎ（ｋ））｝に
わたる総合ＲＭＳ誤差が式１４に示される。

【００７３】

【数１４】

【００７４】任意の１つの標準サイズに対する総合誤差と任意の１つの標準サイズに対する
誤差の両者がある誤差閾値より小さいことを前提として、最も小さい総合ＲＭＳ
誤差を生じる走査線の場所の１組のサブセットがステップ８４において選定され
る。これらの誤差閾値が標準サイズの完全セットに対する走査線の場所の任意の
サブセットにより満たされるならば、標準サイズ・セットのサイズは１だけ減じ
られ、誤差の計算が反復される。標準走査線の場所のあり得るサブセットに対す
る局所線形適合を評価するこのような方法は、減じられたサイズのあり得る標準
サイズ・セットにわたり反復される。ＲＭＳプロセス（例えば、式１４）は、誤
差閾値基準が満たされるまで、あるいは標準サイズ・セットの減じられたサイズ
が小さくなり過ぎるまで、反復される。最終サイズ・セットにおける所与の数の
隣接する空隙より多くを阻止する完全な標準サイズ・セットのサブセットに対す
る選定基準もある。

【００７５】図７は、図４の方法７４からの不正ピーク・クラッタ排除を持つサイズ標準検
出を用いて例示的なバイオテクノロジ・ピーク（例えば、ポリヌクレオチド・ピ
ーク）を示すブロック図１０８である。標準バイオテクノロジ・ピーク（例えば
、既知のポリヌクレオチド・データ・シーケンスに対する試料インデックス）が
破線の垂直線により表示される間に、方法８０（図４）により識別されたバイオ
テクノロジ・フラグメント・ピーク値１１０、１１２、１１４、１１６、１１８
、１２０、１２２、１２４、１２６、１２８を目標とする。例えば、データのピ
ーク１１０を通る破線は、既知のポリヌクレオチドの強さを表わす。信号対雑音
の基準は満たすが高さ対幅の基準は満たさない走査線１４００および３２５０付
近の不正ピーク値８８、９０（図５）は、方法８０のステップ７６において初期
基準により適正に識別され除去される。不正ピーク値９２、９４（図５）は、方
法８０の残りのステップによりクラッタとして適正に識別され除去される。ター
ゲット・データに対するデータ・ピーク値（例えば、１１４、１１８、１２２）
の幾つかは既知のデータに対する破線上に正確に並ばないことに注目されたい。

【００７６】方法７４（図４）はまた、多くの非常に強力かつ便利な品質管理処置の適用を
可能にし得る。第一に、方法７４は、サイズの校正を暗黙にブートストラップす
る。これは、蛍光強さデータの品質を正確な校正に対するその感度から即座に評
定することを可能にする。これは、実験データとその生成時に示唆されるプロセ
スの良好な物理モデルとの間の適合度の有効な手段であり得る。第二に、受入れ
得る誤差のある１組の局所線形マッピングを生じる際に最初のセットから検出す
ることができるサイズ標準フラグメントの総数と分布の両者には限度が与えられ
る。最後に、不正ピークのクラッタは通常、残留スペクトル・ブリードスルーか
、あるいは更に所与のレーンに対して問題となるのは、実際に隣接レーンに属す
る標準フラグメント・セットのいずれかにソースを有するものと仮定される。後
者の現象は、「朗話」として知られる。どれだけ多くの候補となる標準ピーク走
査線の場所が隣接レーンに共存するか、ならびにどれだけ多くの検出された標準
ピークが方法７４の適用後でも隣接レーンに同時に見出されるかを共に追跡する
ことにより、更に別の有効なデータ品質措置を形成することが可能となる。この
措置は、これが実質的にそれ自身の統一性を満たすゆえに、特にクラッタ排除に
関連する。データ・サイズの校正および調整フィルタ処理された不正ピーク・クラッタ除去されたデータ（例えば、ポリヌ
クレオチド・フラグメント出力）の実際のサイズおよび場所は、典型的に、実験
データを更に正確に視覚的に表示させるように調整される。このような調整は、
視覚的表示のための更に正確なデータ値を提供する。例えば、既知のデータ・ピ
ーク値上に正確に並ばない図７に示されるターゲット・データ・ピークが調整さ
れる。

【００７７】図８は、データ・サイズ校正および調整んとあめの方法１３０を示すブロック
図である。ステップ１３２において、最小誤差値を持つ重なりデータ点の第１の
最終サブセットが、第１のデータ点セットからの標準的なデータ点セットとして
選定される。重なりデータ点のこの第１の最終サブセットにおけるデータ点は、
標準的な範囲内に該当する値を持ち、かつ不正データ点が除去された場合のデー
タ点を含む。ステップ１３４において、更に高度のマッピング法が、データ点の
第１の最終サブセットに対し適用されて、重なりデータ点の最終サブセットに対
する最小誤差値を更に減じかつデータ点の第２の最終サブセットを生成する。

【００７８】本発明の１つの望ましい実施の形態においては、重なりデータ点の第１のサブ
セットが方法７４（図４）の適用によりステップ１３２において選定される。し
かし、重なりデータ点の最終サブセットの選定のためには他の方法も用いること
ができ、本発明は方法７４の適用に限定されるものではない。

【００７９】ステップ１３２において、ローカル・サザーン法を含む方法７４（例えば、式
１１および１２）の適用から選定される重なりデータ点の第１の最終サブセット
が、予め決定される精度（例えば、典型的に、ポリヌクレオチド・フラグメント
・データに対する１つまたは２つの塩基対より優れるものではない）を持つデー
タのサイズ校正を行う。データ点が予め決定された品質管理制限以内にステップ
１３２で校正することができるならば、ローカル・サザーン校正法の後に、ステ
ップ１３４において更に高度のマッピング法が後続し、これが校正誤差を更に低
減する。本発明の１つの例示的な望ましい実施の形態においては、校正誤差はゼ
ロまで低減される。本発明の別の例示的な望ましい実施の形態においては、この
校正誤差はゼロに近い非常に小さな値まで減じられるが、ゼロには至らない（す
なわち、ゼロより僅かに大きい）。

【００８０】方法１３０は、回帰法の局所統計的な頑健性（すなわち、外れ値のその自然棄
却による）と、より高度な方法（例えば、更に高次のスプライン関数）により可
能な精度とを組合わせる。本発明の１つの例示的な望ましい実施の形態において
は、正確かつ再現可能な結果を提供するために校正バイオテクノロジ・データに
おける絶対精度が望ましい。しかし、本発明はまた、相対精度のみが求められる
場合にも用いることができる。

【００８１】ステップ１３４において、ローカル・サザーン法、およびこの線形すなわち１
次ローカル・サザーン法の２次生成からの残留誤差で用いられる。本発明の１つ
の例示的な望ましい実施の形態においては、局所象限すなわち２次マップが、ロ
ーカル・サザーン法に対して用いられた（フラグメント・サイズ、走査線の場所
）ペアの同じ３要素セットに対する残留誤差を用いて構成される。しかし、本発
明は、２次マップに限定されるものではなく、更に高次（例えば、３次、４次、
など）のマップもまた用いることができる。

【００８２】２次マッピング法が３つの係数、すなわち３つの「自由度」を持つので、３ペ
アの各セットに対するこの３要素誤差は、主として非常に正確な方法において考
慮することができる。誤差の数字の大きさにおける計算的な縮退は、３つのデー
タ点に２次式を適合させるとき、従来の最小２乗法が生じる式の線系を解くため
単値分解法を用いることにより達成される。

【００８３】特定の走査線の場所と関連するサイズのローカル・サザーン近似法が与えられ
ると、これらの第２の３点２次適合の２つの最も関連したものを平均化すること
により、加法訂正のより高次なマッピングが形成される。所与の走査線より小さ
な２つの最も近い標準走査線と更に大きい１つの最も近い標準走査線に対する第
１の近似法。所与の走査線より大きい２つの最も近い標準走査線および更に小さ
い１つの最も近い標準走査線に対する第２の近似法。各２次適合が関連付ける３
つの標準フラグメント・ピーク値の走査線の場所において局所的に正しいので、
これらのピーク値の場所における任意の２つの適合を平均化もまた正しく、これ
が検出される標準フラグメント・セットに対する絶対的に正確な内挿法をもたら
す結果となる。

【００８４】走査線ｎに対しては、ローカル・サザーン法（例えば、式１１および式１２）
がフラグメント・サイズＭ′_nを標準ピーク値の場所における誤差ε_nと関連させ
る。前述のローカル・サザーン法の論議に対して用いられる同じ表記法および規
約によれば、最小２乗法が、式１５に示されとような標準サイズの最も左の順次
セットに対する任意の１つの標準ピーク値の場所における誤差の正確な２次マッ
ピングを与える。しかし、他の方法も用いることができ、本発明は、最小２乗法
に限定されるものではない。

【００８５】

【数１５】

【００８６】標準サイズの最も右の順次セットに対する任意の１つの標準ピーク値の場所にお
ける誤差の正確な２次マッピング法が式１６に示される。

【００８７】

【数１６】

【００８８】両方の係数セット｛γ^(j) _abc｝および｛γ^(j) _bcd｝は、それら各々の（サイズ、
走査線）ペアの特定セットと誤差ε_nの関数である。２つの隣接する標準ピーク
値走査線の場所｛ｎ_b、ｎ_c｝にある任意の走査線ｎでは、更に高次の残留マッピ
ングが、式１７に示されるようなローカル・サザーン法のサイズ連関に補正係数
δ_nを加算する。

【００８９】

【数１７】

【００９０】本発明の１つの望ましい実施の形態においては、このようなδ_n補正すなわち
高次のマッピング法が、標準ピーク値の特徴点の走査線の場所において正確であ
る正味の連関を与える。しかし、本発明は、このようなδ_n補正の特徴点に限定
されるものではなく、他の補正特徴も用いることができる。

【００９１】図９Ａおよび図９Ｂは、図８からの方法１３０を用いるデータ・サイズ校正を
示すブロック図１３６、１３８である。図９Ａは、方法１３０（図８）の適用前
の（例えば、未知のポリヌクレオチド配列に対する）例示的なデータ・ピーク値
１４０を示している。このデータ・ピーク値１４０は、所望の場所が破線で示さ
れる関連する所望データ・ピーク値の場所１４２（例えば、既知のポリヌクレオ
チド配列に対する）から僅かにずれており、これは所望の実験から得るデータ・
セットに対する誤差がなければ達成されることになる。図９Ｂは、方法１３０（
図８）の適用後の例示的なデータのピーク値１４４を示している。このデータ・
ピーク値は、方法１３０の適用後に所望のデータ・ピーク値の場所１４２上に更
に正確に整合される。

【００９２】図９Ａおよび図９Ｂは、唯一つの例示的なデータ・ピーク値を示す。しかし、
方法１３０は、（例えば、図４の方法７４により生じる）重なり合うデータ点の
最終サブセットにおける全てのデータのピーク値（例えば、図３Ｄの５４、５６
、５８、６０、６２、６４、６６、６８、７０、７２）に対し適用されて、視覚
的に表示される１組のデータ点に対する誤差を更に減じる。方法１３０は、所望
の実験の実行結果として生じ得るデータの誤差を更に減じることにより表示され
分析される１組のデータ点を改善し得る。

【００９３】サイズが決められ調整されたデータのピーク値は、依然としてデータの「スタ
ッタ（ｓｔｕｔｔｅｒ）」を含み得る（図１１Ａ参照）。例えば、図面に示され
るデータ・ピーク値は「平滑な」データ・ピーク値として示される。しかし、実
際のデータ・ピーク値は典型的に、実際のデータの関数である多くの小ピーク値
を含む。この多数の小ピーク値、すなわちデータのスタッタは視覚的表示前に除
去することが望ましい。データの大きさの低減およびデータ平滑化当技術において周知のバイオテクノロジ装置の今日の生成において、ゲル電気
泳動からの走査線は、サイズの校正後にある大きさだけサイズが決められたトレ
ースの過剰解をもたらす結果となる速さで形成される。すなわち、連続的な各基
底値ペア間に約１０本の走査線が生じる。更に、バイオテクノロジ・フラグメン
ト（例えば、ポリヌクレオチド・フラグメント）は典型的に、整数基底値ペアの
幅の明瞭に分離されたピーク値ではなく、最大フラグメント・サイズ付近にまと
めて生じる。このことは、図３Ｃにおけるバイオテクノロジ・フラグメントのト
レース時により広くかつ更に複雑なピーク値の特徴点（例えば、特徴点４４）の
図３Ｄにおける狭くかつ更に簡単な標準フラグメント・ピーク値（例えば、デー
タ点６８）との比較によって判る。

【００９４】ウインドウ型のディスプレイ１６における全分解能でのこれらの複雑なバイオ
テクノロジ・フラグメント・トレースの表示は、現世代のコンピュータ・モニタ
ーおよびグラフィックス表示システムに課された不可避的な諸制限によって更に
複雑になる。その結果、表示するグラフィック・イメージの生成前に、結果とし
て得るフラグメントの「スタッタ」を緩和することによりウインドウ型ディスプ
レイ１６における表示のためのデータ点の視認性を強調する「エンベロープ検出
器」を用いてバイオテクノロジ・データ点が更に減殺されて平滑化される。

【００９５】図１０は、エンベロープ検出のための方法１４６を示すフロー図である。ステ
ップ１４８において、エンベロープ基準が、重なりデータの第１の最終サブセッ
トから生成される重なりデータの第２の最終サブセットのサブサンプリングのた
め確立される。重なりデータ点の第２の最終サブセットは、標準サイズ内に該当
するように調整されている。重なりデータの第２の最終サブセットの著しい特徴
は、エンベロープ基準内に保存される。ステップ１５０において、エンベロープ
基準が用いられて、重なりデータの第２の最終サブセットにおけるデータ値の数
を少なくとも１次の大きさだけ圧縮し、データ・スタッタを低減し、重なりデー
タの第３の最終サブセットを生成する。

【００９６】本発明の１つの例示的な望ましい実施の形態においては、重なりデータの第２
の最終サブセットが、先に述べた方法２０（図２）、方法７４（図４）、および
方法１３０（図８）の適用により生成される。しかし、本発明はこれらの方法に
より生じる重なりデータ・セットに限定されるものではなく、当技術において知
られる他の方法により生成される、ウインドウ型ディスプレイ１６に表示される
他のデータ・セットもまた方法１４６（図９）で用いることもできる。

【００９７】本発明の１つの例示的な望ましい実施の形態においては、ステップ１４８にお
いて確立されるエンベロープ基準は、略々大きさの程度にデータ・サイズの分解
能を圧縮してデータ・スタッタを除去する「非線形ボックス・カー極値」フィル
タに基くものである。しかし、他のエンベロープ基準もまた用いることができ、
本発明は非線形ボックス・カー極値フィルタに限定されるものではない。

【００９８】本発明の１つの望ましい実施の形態においては、ウインドウ型ディスプレイ１
６に対するグラフィック・イメージが、トレースにおける各点が整数の基底値ペ
アのサイズにおいてサンプルされた、略々１つのポリヌクレオチド塩基ペアのサ
イズ分解能を示している。ステップ１５０において、ボックス・カー・エンベロ
ープ検出器が、最初にサイズ校正された全分解能トレース・データをこれら整数
サイズを中心とする連続領域へ区分する。用語「ボックス・カー」とは、これら
の隣接する不連続領域の形をサイズ軸に沿って終端同士で整合されたボックス・
カーを反映している。

【００９９】トレース・エンベロープは、所与のボックス・カーにおけるサイズと関連する
信号強さをそれらの最大値で置換することによって形成される。これは、多数対
１の置換であり、すなわち全分解能データにおける整数基底値ペアと関連する走
査線の平均数に基く「デシメーション」である。望ましくは、このようなデシメ
ーション因子は、約１０対１である。しかし、他のデシメーション因子も用いる
ことができる。

【０１００】本発明の１つの連続的な望ましい実施の形態においては、ステップ１５０にお
いて、エンベロープ基準ｆ^★ _kが式１８において用いられる。

【０１０１】

【数１８】

【０１０２】式１８における表記および規約は、先に述べた式７−１７からの表記を反映して
いる。例えば、ｆ₀は式１０により決定され、Ｍ′_nは式１２により、δ_nは式１
７により決定される、などである。

【０１０３】図１１Ａおよび図１１Ｂは、図１０の方法１４６を用いるエンベロープ検出を
示すブロック図１５２、１５４である。図１１Ａは、ターゲット・データ・ピー
ク１５８付近に生成されるエンベロープ１５６を示す。データの「スタッタ」は
、ターゲット・データ・ピーク１５８の左側（すなわち、試料インデックス２０
００に向って）の２つの小さなピークと、右側（すなわち、試料インデックス２
５００に向って）の１つの小さなピークとにより示される。図１１Ｂは、方法１
４６の適用後の新たなデータ・ピーク１６０を示している。この新たなデータ・
ピーク１６０におけるデータ点の数は、大きさの程度により減じられ、データ・
ピーク１５８の「スタッタ」が除去されている。図１１Ａおよび図１１Ｂは、唯
一つの例示的なデータ・ピークを示している。しかし、方法１５０は、重なりデ
ータの第２の最終サブセットにおけるデータ・ピークに対し用いられる。先に述
べたデータ・ピーク値もまた、典型的にデータの「スタッタ」を含んでいる。し
かし、図１１Ａ以外のデータ・ピーク値は平滑に示され、方法１４６の使用前に
は存在したデータのスタッタは示さず、このようなデータ・ピーク値の図示を簡
素化している。

【０１０４】方法１４６は、フラグメントの「スタッタ」を生じる結果となることを緩和す
ることによってウインドウ型ディスプレイ１６において表示されるデータ点の視
認性を更に強化する。データ点の数もまた表示を容易にするため適正量（例えば
、大きさの程度で）だけ減じられる。一般的多項目信号データの処理本発明あの１つの例示的な望ましい実施の形態においては、一般的多項目デー
タ信号は、ディスプレイ装置１４のウインドウ型ディスプレイ１６上の表示に適
する１つのターゲット実験のための１組のデータ・ピーク値を生じるように処理
することができる。このような実施の形態においては、一般的多項目データ信号
は、一般的な多項目のバイオテクノロジ・データ信号を含む。しかし、本発明は
、一般的多項目バイオテクノロジ信号データの処理に限定されるものではなく、
他の信号（電気通信信号、電気装置の電気信号データ、光学的信号、物理的信号
、あるいは他のデータ信号）のデータも処理することができる。

【０１０５】図１２Ａおよび図１２Ｂは、実験データの処理のための方法１６２を示すフロ
ー図である。図１２Ａのステップ１６４において、多項目データ信号が読出され
る。この多項目データ信号は、色々なスペクトル特性および色々な振幅の多数の
個々のデータ信号成分を含んでいる。この多数の個々のデータ信号成分は、多項
目データ信号の各部内で重なりを有する。ステップ１６６において、多数の重な
らない個々のデータ信号成分を生じるため、多項目データ信号に対してフィルタ
が用いられる。このフィルタはまた、多数の重ならない個々のデータ信号成分に
おける基底値に対しアンビギュイティを生じる多項目データ信号における多くの
信号アーチファクトをフィルタ処理して、多数の重ならない個々のデータ信号成
分を基底値の均一なセットへ修正し正規化する。ステップ１６８において、多数
の重ならない個々のデータ信号成分からのデータ点の多数の重なりサブセットに
用いて、最も小さなエラー値を持つ重なりデータ点の第１の最終サブセットを選
定する。重なりデータ点の第１の最終サブセットにおけるデータ点は、標準範囲
内に該当し不正データ点が除去されたデータ点を含む。

【０１０６】図１２Ｂのステップ１７０において、多数の格子のマッピング法を重なりデー
タ点の第１の最終サブセットに用いて、重なりデータ点の最終サブセットに対す
る最小のエラー値を更に減じてデータ点の第２の最終サブセットを生成する。ス
テップ１７２において、エンベロープ基準を用いて、重なりデータの第２の最終
サブセットにおけるデータ値の数を少なくとも大きさにより圧縮し、データのス
タッタを低減し、重なりデータの第３の最終サブセットを生成する。重なりデー
タの第２の最終サブセットの著しい特徴点は、エンベロープ基準内に保存される
。重なりデータの第３の最終サブセットは、ディスプレイ装置１４におけるウイ
ンドウ型ディスプレイ１６に適している。

【０１０７】方法１６２は、バイオテクノロジ実験および他の技術の実験からの多項目デー
タ信号の処理の自動化を可能にする。多項目データ信号が入力されると、ウイン
ドウ型装置での表示に適する多数のデータ・ピーク値を持つ重なりデータの第３
の最終サブセットが自動的に生成される。これは、典型的に信頼できないすなわ
ち不正な結果を導く実験データ処理における不一致を低減しあるいは除去するこ
とを助ける。

【０１０８】本発明の１つの例示的な望ましい実施の形態においては、多項目データ信号は
、ＤＮＡ、ｃＤＮＡあるいはｍＲＮＡを含むポリヌクレオチド・データに対する
多項目の蛍光強さを含んでいる。しかし、本発明は、ポリヌクレオチド・データ
に対する多項目データ信号あるいは他のバイオテクノロジ・データに限定される
ものではなく、また他の技術からの多項目データ信号（電気通信信号、電気装置
に対する電気信号データ、光学的信号、物理的信号、あるいは他のデータ信号）
も用いることができる。

【０１０９】本発明の更に別の例示的な望ましい実施の形態においては、方法２０（図２）
をステップ１６４、１６６（図１２Ａ）において、方法７４（図４）をステップ
１６８（図１２Ａ）において、方法１３０（図８）をステップ１７０（図１２Ｂ
）において、方法１４２（図１０）をステップ１７２（図１２Ｂ）において用い
ることにより、方法１６２が達成される。しかし、本発明は、これら方法の全て
のステップを用いて方法１６２（図１２Ａおよび図１２Ｂ）を達成することに限
定されるものではない。方法１６２は、これらの方法から選定されるステップを
用いることによって達成することができる。

【０１１０】図１３Ａおよび図１３Ｂは、図１２Ａおよび図１２Ｂの方法１６２を示すブロ
ック図１７４、１７６である。図１３Ａは、関心の多項目データ信号１７８を示
している。図１３Ｂは、方法１６２による処理後に多項目データ信号からの予め
選定される所要のデータ・ピーク値１８０、１８２、１８４、１８６、１８８、
１９０、１９２、１９４、１９６、１９８、２００のセットを示している。多項
目データ信号は、フィルタ処理され、予め定めたサイズに正規化され、不正なピ
ーク値、誤差およびデータのスタッタが除去され、平滑化され、大きさによりデ
ータ値の数が減じられる。処理された所望のデータ・ピーク値は、ディスプレイ
装置１４のウインドウ型ディスプレイ１６上の表示に適するものである。

【０１１１】本発明の１つの例示的な望ましい実施の形態においては、所望のデータ・ピー
ク値１８０、１８２、１８４、１８６、１８８、１９０、１９２、１９４、１９
６、１９８、２００（図１３Ｂ）がポリヌクレオチド・フラグメントのピーク値
（例えば、ＤＮＡ、ｃＤＮＡあるいはｍＲＮＡ）である。しかし、本発明は、ポ
リヌクレオチド・フラグメント・データを含む多項目データ信号に限定されるも
のではなく、他の実験情報を含む他の多項目データ信号（例えば、電気通信信号
、電気装置に対する電気信号データ、光学的信号、物理的信号、あるいは他のデ
ータ信号）も用いることができる。例示的な多項目データ処理システム図１４は、例示的な多項目データ処理システム２０２を示すブロック図である
。この多項目データ処理システムは、データ・サンプルおよび基準校正モジュー
ル２０４と、光学的ブロードバンド信号収集モジュール２０６と、記憶モジュー
ル２０８と、フィルタ処理および基底線モジュール２１０と、基準およびサンプ
ル校正モジュール２１２と、表示モジュール２１４とを含んでいる。

【０１１２】データ・サンプルおよび基準校正モジュール２０４は、既知のターゲットとな
るバイオテクノロジ試料の処理のために用いられる。光学的ブロードバンド信号
収集モジュール２０６は、バイオテクノロジ生成物のレーザを生じる蛍光が用い
られるとき多項目データ信号から実験データを収集するために用いられる。本発
明の別の実施の形態においては、光学的ブロードバンド信号収集モジュール２０
６は、レーザが生じる蛍光の代わりに他の技術（例えば、ミクロ・アレイ）が用
いられるならば、取除くことができる。記憶モジュール２０８は、実験データの
記憶に用いられる。フィルタ処理および基底線モジュール２１０は、レーザが生
じる蛍光が用いられるならば、スペクトルの重なりを除去し実験データを正規化
するために用いられ、あるいは他の技術（例えば、ミクロ・アレイ）が用いられ
るならば、他のフィルタ処理および基底線の実施のために用いられる。

【０１１３】基準およびサンプル校正モジュール２１２は、不正ピーク値およびクラッタが
除去された標準サイズの検出、データ・サイズの校正、エンベディングの検出お
よび実験データのデータ・スタッタの除去のために用いられる。表示モジュール
２１４は、処理された実験データの視覚的表示を行う。しかし、本発明は、これ
らのモジュールに限定されるものではなく、これ以外のモジュールあるいはより
少ないモジュールも用いることができる。更に、先に述べたモジュールの機能は
更に別のモジュールへ組合わせあるいは分割することもできる。

【０１１４】本発明の１つの例示的な望ましい実施の形態においては、実験データ処理シス
テム１０（図１）が、記憶モジュール２０８と、フィルタ処理および基底線モジ
ュール２１０と、基準およびサンプル校正モジュール２１２と、表示モジュール
２１４（図１４）とをハードウエアおよびソフトウエアの一体的な組合わせ（す
なわち、図１４に破線で示される）として含む。このことは、記憶モジュール２
０８に記憶され、コンピュータ１２に常駐するソフトウエアによる本文に述べた
方法を用いて処理されるデータ・ファイルの生成のために、実質的に任意の実験
技術（）を用いることを可能にする。このような実施の形態は、従来のパーソナ
ル・コンピュータ・システムあるいは他の大型コンピュータ・システムにおける
広範囲の用途からの実験データを処理する柔軟性を提供する。

【０１１５】本文に述べた方法およびシステムは、図１３Ｂに示されるように、ディスプレ
イ装置１４のウインドウ型ディスプレイ１６における表示のためデータを処理す
るのに用いられる。しかし、データの最終処理セット（例えば、データの第３の
最終サブセット）は、視覚的表示および比較分析のための更に多くの処理を依然
として必要とする。処理された実験データの表示先に述べたように、多項目データ信号から始まる実験データは、視覚的表示に
適するデータの「処理済み」セットを生じるように１つ以上の方法によって処理
することができる。このような生の実験データの処理と関連する諸問題の一部は
、本願と同じ譲受人に譲渡された係属中の米国特許出願第号において克服
される。

【０１１６】本発明の１つお例示的な望ましい実施の形態においては、生の実験データから
処理済みデータの多数の最終セットを生成するため、図２、図４、図８および図
１０、あるいは図１２Ａおよび図１２Ｂに示された方法が用いられる。処理済み
の実験データの多数のセットは、典型的に視覚的表示、比較分析その他の分析に
全く適するものである。しかし、本発明は、図２、図４、図８、図１０、あるい
は図１２Ａおよび図１２Ｂに示された方法を用いることに限定されるものではな
く、生の実験データから処理済みデータの最終セットを生成するのに他の方法も
用いることができる。

【０１１７】本発明の例示的な望ましい実施の形態においては、処理済みの実験データの多
数の最終セットが１つ以上のサンプル・インデックスで標記されて、視覚的表示
および比較分析に適する多数のインデックス付きデータ・セットを生成する。本
発明の望ましい実施の形態は、視覚的表示あるいは比較分析に全く適した多数の
インデックス付きデータ・セットを更に処理して「実験間の変動」の克服を助け
るのに用いられる。

【０１１８】先に述べたように、バイオテクノロジにおいて最も一般的に用いられる方法論
の１つは、「比較」である。バイオテクノロジ・データの視覚的表示は、典型的
にバイオテクノロジ研究に「必要」とされるものと認識される。実験データが一
貫して収集することができ、結果が正確でありかつ実験間の変動を蒙らないとい
う高い確信をもって処理し表示することができるならば、意図された結果が迅速
かつ更に適切な方法で達成されよう。例えば、ポリヌクレオチドに対する配列は
、結果における高レベルの確信をもって少ない実験で確立されよう。処理済み実験データの正規化処理済み実験データは、典型的に異なる実験環境（例えば、異なる電気泳動ゲ
ル、あるいはミクロ・アレイ）から由来する。所与の実験データ・セットにおい
て示される処理済み実験データを生じるのに用いられる特定のプロセスは、典型
的に実験ごとに異なることになる。このような変動は、関心データと同じ程度の
重要性であり得る。このため、処理済み実験データが同じターゲットで多数回完
了した同じ実験から表示されるとき、実験間の変動が関心データを台なしにする
おそれがある。

【０１１９】異なる表示技術が実験データの分析のため用いられるとき、表示された処理済
み実験データの第１のセットが同じターゲットを持つ同じ実験に対する実験デー
タの第２のセットに類似する特性（例えば、類似するスケールまたは基底線）を
持つことが異なる表示手法において示唆的である。さもなければ、異なる比較に
より顕される何らかの変動の何らかの意味が本質的に曖昧となる。

【０１２０】本発明の１つの例示的な望ましい実施の形態においては、インデックスが付さ
れたデータにおける有意の特徴点の実質的な中心性の総合測定が生成される。例
えば、インデックスを付したデータ・セットにおける有意の特徴点の中心性から
の「モード」値が生成される。当技術において周知のように、モードは１組のデ
ータにおける最大頻度値であるか、あるいは１組のデータ点を規定するため用い
られる関数が最大値を達成する値である。このモード値は、「中心特性」と呼ば
れる。このような中心特性からの任意の所与のインデックスを付したデータ・セ
ットの粗な粒子の出発の慎重に制限された強制変調が実験的に決定されて、実験
間の変動を除去する。

【０１２１】このような正規化の有効性の一部は、中心的特性が識別される効用と精度、な
らびにデータ点のインデックスを付した各セットの密な粒子の出発が保存される
程度に依存する。例えば、ポリヌクレオチドからのバイオテクノロジ・データが
使用されているならば、同じサイズのポリヌクレオチド・フラグメントに対する
蛍光強さのピーク値を比較することが望ましい。ポリヌクレオチド・フラグメン
トの相対数の指標として蛍光のピーク値の相対高さにおける任意のパターンを識
別することもまた望ましい。このように、中心性の測定がサイズ校正された蛍光
のトレースのエンベロープの平滑バージョンのトレース間の比に特定する実験か
らなされる。中心性のこのような測定は、中心的な特性の生成に用いられる。し
かし、本発明は、バイオテクノロジ実験データに限定されず、他の実験データも
また用いることができる。

【０１２２】図１５は、実験データの正規化のための方法２２０を示すフロー図である。処
理済み実験データのセットは、１つ以上のインデックスで標記されて視覚的表示
および比較分析にてきする多数のインデックスを付したデータ・セットを生成す
る。しかし、他のデータ構成方式も用いることもでき、本発明は実験データの多
数のセットに対するインデックスを用いることに限定されるものではない。ステ
ップ２２２において、決定された中心的な特性および多数のインデックスを付し
たデータ・セットからのデータ値からの偏りが測定される。本発明の１つの例示
的な望ましい実施の形態においては、決定された中心的な特性が多数のインデッ
クスを付したデータ・セットから決定される順序付比較の「モード」値である。
しかし、他の種類の中心的特性もまた用いることができ、本発明はモードである
中心的特性に限定されるものではない。

【０１２３】ステップ２２４において、中心的特性および多数のインデックスを付したデー
タ・セット間の偏りが、中心的特性を多数のインデックスを付したデータ・セッ
トからの測定された偏りに比較することによって除去される。多数のインデック
スを付したデータ・セット間の偏りが低減され、これにより実験間の変動が多数
のインデックスを付したデータ・セット間で低減される。

【０１２４】本発明の１つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットがポリヌクレオチド・データを含む。ポリヌクレオチド
・データは、これに限定されないがＤＮＡ、ｃＤＮＡあるいはｍＲＮＡを含む。
しかし、本発明は、ポリヌクレオチド・データを含む多数のインデックスを付し
たデータ・セットに限定されることはないが、実験データの他のインデックスを
付したデータ・セットもまた用いることができる。

【０１２５】方法２２０は、個々の実験の実験の振動により多数のデータ・セットにもたら
される多数のインデックスを付したデータ・セット間の偏りを減じることによっ
て実験間の変動を減じることを助ける。方法２２０は、ディスプレイ装置１４に
おけるウインドウ型ディスプレイ１６上に視覚的に表示される多数のインデック
スを付したデータ・セットを比較分析のため用いることを可能にする。

【０１２６】本発明の１つの例示的な望ましい実施の形態においては、ステップ２２２にお
いて、多数のインデックスを付したデータ・セットからのインデックスにわたる
データ情報を利用するため、正規化変換が多数のインデックスを付したデータ・
セットに用いられる。このような正規化変換は、中心的特性を決定するためにも
用いることができる。正規化変換は、零次変換あるいは低次変換のいずれかを含
む。

【０１２７】本発明の別の例示的な望ましい実施の形態においては、決定された零次中心的
特性が、データ値に依存する定数として多数のインデックスを付したデータ・セ
ットにおけるデータ値にわたり乗じられて、多数ののインデックスを付したデー
タ・セットにおけるデータ点を正規化する。本発明の更に別の例示的な望ましい
実施の形態においては、決定された低次中心的特性がデータ値に依存する平滑に
変化うるスケーリング関数としてインデックスを付したデータ・セットにおける
データ値にわたり乗じられて、多数のインデックスを付したデータ・セットにお
けるデータ点を正規化する。零次中心的特性あるいは低次中心的特性を用いて多
数のインデックスを付したデータ・セットにおけるデータ値を正規化した後、多
数のインデックスを付したデータ・セットからのデータが、先に述べたように方
法２２０により更に正規化される。零次中心的特性および低次中心的特性は、以
下に説明される。しかし、本発明は零次あるいは低次の正規化変換に限定される
ものではなく、他の正規化変換も中心的特性を生成するのにも用いることができ
る。零次データの表示正規化零次のデータ表示正規化法は、零次中心的特性の決定を含む。変換されたデー
タ点は、零次中心的特性からの偏りを決定するため用いられる。この偏りは、前
記の中心的特性が多数のインデックスを付したデータ・セットからのデータ値の
インデックスに依存する「定数」であるゆえに、「零次」であると見なされる。

【０１２８】図１６は、零次中心的特性を生成するための方法２２６を示すフロー図である
。ステップ２２８において、多数のインデックスを付したデータ・セットの外れ
分位数からのデータ点が平滑化ウインドウを用いて除去されて、多数のインデッ
クスを付したデータ・セットに対するデータ点の多数の平滑化セットを生成する
。ステップ２３０において、１組のインデックスを付したデータ・セット比がデ
ータ点の多数の平滑化セットから決定される。インデックスを付したデータ・セ
ット比のセットは、選定されたインデックスを付したデータ・セットからのデー
タ点の選定された平滑化セットを多数のインデックスを付したデータ・セットか
らの他のインデックスを付したデータ・セットからのデータ点の他の平滑化セッ
トに比較することによって決定される。ステップ２３２において、比の外れ分位
数がインデックスを付したデータ・セットのセットから除去されてインデックス
を付したデータ・セット比のサブセットを生成する。ステップ２３４において、
比の平均化セットがインデックスを付したデータ・セット比のサブセットから決
定されて零次中心的特性を生成する。

【０１２９】方法２２６は、実験間の変動を減じるため零次中心的特性を生成するのに用い
られる。本発明の１つの例示的な望ましい実施の形態においては、生成された零
次中心的特性がデータ値に依存しない定数として多数のインデックスを付したデ
ータ・セットにおけるデータ値にわたり乗じられて、零次中心的特性により（例
えば、方法２２０により）偏りを除去する前に、多数のインデックスを付したデ
ータ・セットにおけるデータ点を正規化する。本発明の別の望ましい実施の形態
においては、生成された零次中心的特性が多数のインデックスを付したデータ・
セットにおけるデータ値にわたり乗じられないが、（例えば、方法２２０により
）実験間の変動を減じるために依然として用いられる。

【０１３０】本発明の１つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットがポリヌクレオチド・データを含む。このポリヌクレオ
チド・データは、これに限定されないが、ＤＮＡ、ｃＤＮＡあるいはｍＲＮＡの
データを含んでいる。

【０１３１】本発明の１つの例示的な望ましい実施の形態においては、ステップ２２８にお
いて、多数のインデックスを付したデータ・セットの外れ分位数からのデータ点
が平滑化ウインドウにより除去される。当技術において周知のように、レポート
あるいは比較を容易にするため、分布を少数で要約することができる。１つの方
法は、「分位数」を用いることである。分位数は、分位数より少ない所与の観察
比率となるように分布を分ける値である。例えば、中位数は分位数である。この
中位数は、点の半分が中心値より小さいかあるいはこれと等しく、かつ半分がこ
れより大きいかあるいはこれと等しくなるように、分布の中心値すなわち中心的
特性である。

【０１３２】本発明の１つの例示的な望ましい実施の形態においては、三角形のウインドウ
を用いてデータ点の所与のインデックスを付したセットにおけるサイズ校正され
たデータ点のセットのエンベロープを平滑化する。しかし、トレース・エンベロ
ープの平滑化には他の方法も用いることができ、本発明は三角形の平滑化ウイン
ドウに限定されるものではなく、他の平滑化ウインドウも使用することができる
。

【０１３３】本発明の１つの例示的な望ましい実施の形態においては、式１９に示されるよ
うに、外れ分位数が平滑化ウインドウにより多数のインデックスを付したデータ
・セットから除去される。平滑化ウインドウは幅Ｐを有する。本発明の１つの例
示的な望ましい実施の形態においては、Ｐは３より大きいかこれに等しい奇数の
正の整数である。しかし、本発明は、３より大きいかこれに等しい奇数の正の整
数のウインドウ・サイズを持つ平滑化ウインドウに限定されるものではなく、他
の（例えば、偶数の正の整数の）平滑ウインドウ・サイズも使用することができ
る。

【０１３４】トレース・エンベロープｆ^★★ _kの平滑化バージョンは、式１９に示されるよ
うに平滑化ウインドウにより見出される。しかし、他の平滑化ウインドウも使用
することができる。

【０１３５】

【数１９】

【０１３６】ステップ２３０において、１組のインデックスを付したデータ・セット比が決
定される。ステップ２３２において、比の外れ分位数がインデックスを付したデ
ータ・セット比のセットから除去されて、インデックスを付したデータ・セット
比のサブセットを生成する。インデックスを付したデータの別のセットおよびＤ _s （ｆ^★★）に対する平滑化エンベロープに平滑化トレース・エンベロープの値
のｓ番目の分位数をｇ^★★ _kで一般的に命名して、多数のインデックスを付した
データ・セットに対する比ｒ_k（ｇ,ｆ）が式２０に示されるように形成される。
しかし、本発明は式２０に示される比に限定されるものではなく、他の比も式化
して用いることもできる。

【０１３７】

【数２０】

【０１３８】ステップ２３４において、比の平均化セットが、式２０により決定されるイン
デックスを付したデータ・セットのサブセットからの比から決定される。Ｄ_u（
ｒ（ｇ,ｆ））を平滑化トレース・エンベロープｆ^★★およびｇ^★★の比のｕ番
目の分位数として用いて、式２１により示されるように、トレース・エンベロー
プｆ^★★ _kに対する中心的特性に対するスケール・ファクタλ₀（ｆ）の零次正規
化が内在分位数にわたり、かつ他の個々のインデックスを付したデータ・セット
にわたる平均値である。しかし、中心的特性に対する他の零次正規化スケール・
ファクタもまた用いることができ、本発明は式２１に示される零次正規化スケー
ル・ファクタに限定されるものではない。式２１は、ステップ２３４において、
多数のインデックスを付したデータ・セット比の比率の外れ分位数を除去し、か
つ除去された外れ分位数にない残りのインデックスを付したデータ・セット比を
平均化して比の平均値を生じる。

【０１３９】

【数２１】

【０１４０】ｓおよびｕ、あるいはｔおよびｖは直接関連付けられないが、本発明の１つの例
示的な望ましい実施の形態においては、ｓ＝ｕ＝６およびｔ＝ｖ＝９５を用いて
外れ分位数に対する百分位数が充分に良好に規定されることが実験により決定さ
れた。但し、６および９５はデータ点のインデックスを付したセットにおける６
番目と９５番目の百分位数をそれぞれ表わす。このように、比の最小の６％と最
小の５％は除去される。しかし、ｓとｕおよびｔとｖに対して他の百分位数もま
た用いることもでき、本発明はｓとｕおよびｔとｖに対してこれらの特定値に限
定されるものではない。

【０１４１】図１７は、零次中心的特性を用いて表示データの正規化のための方法２３６を
示すフロー図である。ステップ２３８において、零次中心的特性および多数のイ
ンデックスを付したデータ・セットからの偏りが測定される。零次中心的特性は
、（例えば、図１６の方法２２６により）多数のインデックスを付したデータ・
セットから決定される。ステップ２４０において、零次中心的特性、および零次
中心的特性と多くのインデックスを付したデータ・セット間の比を持ちかつ多数
のインデックスを付したデータ・セットと多数のインデックスを付したデータ・
セット比に対する比率の平均セット間の比率を持つ多数のインデックスを付した
データ・セット間の偏りが除去される。

【０１４２】本発明の１つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットはポリヌクレオチド・データを含む。このポリヌクレオ
チド・データは、これに限定されないがＤＮＡ、ｃＤＮＡあるいはｍＲＮＡのデ
ータを含む。

【０１４３】本発明の１つの例示的な望ましい実施の形態においては、方法２３６（図１７
）のステップ２３８において、例えば式２１からのλ₀（ｆ）を持つ零次中心的
特性を用いて、零次中心的特性からの偏りが決定される。しかし、方法２３６に
は他の零次中心的特性も用いることができる。ステップ２４０において、式２０
に示されるように零次中心的特性に対する多数のインデックス・データ・セット
の比を見出すことにより、中心的特性および多数のインデックスを付したデータ
・セット間の偏りが除去される。式２１により示されるように、多数のインデッ
クスを付したデータ・セットおよび比率の平均セットを用いて偏りが除去される
。

【０１４４】零次中心的特性を含む方法２３６（図１７）は、多数のインデックスを付した
データ・セットのデータ値に依存する零次正規化により生じる中心的特性を用い
て、個々の実験によりインデックスを付したデータ・セットへもたらされる多数
のインデックスを付したデータ・セット間の偏りを減じることにより実験間の変
動を減じることを助ける。低次データ表示の正規化低次の表示の正規化は、図１６に示される零次の方法２２６の般化である。本
発明の１つの例示的な望ましい実施の形態においては、零次中心的特性の代わり
に低次中心的特性が用いられる。低次の正規化は、インデックスを付したデータ
・セットのデータ値（例えば、ポリヌクレオチド・フラグメント・サイズ）に対
する非常に低次の依存度を持つ平滑に変化するスケーリング関数を生じる。この
データ値に依存する低次中心的特性（図１８）は、零次の方法２２６（図１６）
により生じるデータ値に依存する一定のスケール・ファクタと対照され得る。

【０１４５】図１８は、低次中心的特性を決定するための方法２４２を示すフロー図である
。ステップ２４４において、多数のインデックスを付したデータ・セットの外れ
分位数からのデータ点が平滑化ウインドウを用いて除去されて、多数のインデッ
クスを付したデータ・セットに対する多数の平滑化セットを形成する。ステップ
２４６において、１組のインデックスを付したデータ・セット比が、選択された
インデックスを付したデータ・セットからのデータ点の選択された平滑化セット
を多数のインデックスを付したデータ・セットからの他のインデックスを付した
データ・セットからの他の平滑化セットに比較することによって、多数の平滑化
されたデータ点の平滑化セットから決定される。ステップ２４８において、対数
がインデックスを付したデータ・セット比のセットに生成されて１組の対数比を
生成する。ステップ２５０において、１組の対数比がフィルタ処理されて、対数
比のフィルタ処理されたセットを生成する。ステップ２５２において、対数比の
フィルタ処理セットの平均値に対し累乗が行われ、低次中心的特性を生成する。

【０１４６】本発明の１つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットがポリヌクレオチド・データを含む。このポリヌクレオ
チド・データは、これに限定されないが、ＤＮＡ、ｃＤＮＡあるいはｍＲＮＡを
含む。

【０１４７】本発明の１つの例示的な望ましい実施の形態においては、生成された低次中心
的特性が、データ値に依存する平滑に変化するスケーリング関数として多数のイ
ンデックスを付したデータ・セットにおけるデータ値に乗じられる。低次中心的
特性は、（例えば、方法２２０により）低次中心的特性を含む偏りを除去する前
に多数のインデックスを付したデータ・セットにおけるデータ点を変換するのに
用いられる。本発明の別の実施の形態においては、生成された低次中心的特性は
、多数のインデックスを付したセットにおけるデータ値には乗じられないが、依
然として実験間の変動を減じるのに用いられる。

【０１４８】任意の所与のインデックスを付したデータ・セットの場合は、低次のサイズに
依存するスケーリング関数が、ステップ２４２において、平滑化ウインドウ（例
えば、式１９からの）を用いることにより生成されてサイズ校正されたデータ値
のエンベロープを平滑化する。本発明の１つの望ましい実施の形態において、ス
テップ２４４（図１８）は方法２２６（図１６）のステップ２２８と同じである
（例えば、式１９を参照）。しかし、他の平滑化ウインドウも用いることができ
る。ステップ２４６において、１組のインデックスを付したデータ・セット比が
、選択されたインデックス付きデータ・セットからのデータ点の選択された平滑
化セットを多数のインデックスを付したデータ・セットからの他のインデックス
を付したデータ・セットからのデータ点の他の平滑化セットに比較することによ
って決定される。本発明の１つの例示的な望ましい実施の形態においては、これ
は方法２２６のステップ２３０と同じである（例えば、式２０を参照）。しかし
、他の比も用いることができる。

【０１４９】ステップ２４８において、所望の底ｘに対する対数が１組のインデックスを付
したデータ・セット比において形成され、１組の対数比を生成する。当技術にお
いて周知のように、対数（一般に、「ｌｏｇ（ｘ）として表わされる」）は、所
与の底ｘが別の数を生じるために上げられねばならない指数すなわち冪である。
本発明の１つの例示的な望ましい実施の形態においては、底ｅに対する対数が用
いられる（但し、ｅは周知の数学的な無理数２．７１８２８１８２８４５９０４
５…である）。ステップ２５０において、１組の対数比がフィルタ処理されて対
数比のフィルタ処理セットを生成する。本発明の１つの例示的な望ましい実施の
形態においては、このフィルタ処理は「低域通過フィルタ」の使用を含む。しか
し、他のフィルタも用いることができ、本発明は低域通過フィルタに限定される
ものではない。当技術において周知のように、低域通過フィルタω_Lは、周波数
ωが範囲０≦ω≦ω_c以内の範囲に該当するデータを「通し」、周波数がω_cより
大きいデータは除波する。但し、ω_cは遮断周波数である。

【０１５０】本発明の１つの例示的な望ましい実施の形態において、周波数領域においてテ
ーパ状ノッチを用いることによって低域通過フィルタが得られ、これは低次の正
規化により復調される変動を操作するための明確な手段を提供する。例えば、テ
ーパ状ノッチは、周波数領域フィルタ・エッジの中心の相対配置のサイズ・スケ
ールを等しくすることによる制約をもたらす。フィルタ・エッジは、抑制された
変動がディスプレイ装置１４におけるフルサイズ・レンジの大部分より小さくな
いサイズ・スケールによることを確保するように選定される。このようなスケー
リング関数は、非常に平滑であり、かつデータ・サイズ（例えば、ポリヌクレオ
チド・フラグメント・サイズ）に対する良好な挙動を呈する依存性を有する。零
次の方法２２６がデータ・サイズに対し何らかの依存性を呈する全ての変動を除
去するように低域通過フィルタのエッジを設定することによって得られる低次の
方法の特別な場合として生じることに注目されたい。

【０１５１】ステップ２５０において、平滑化エンベロープｆ^★★ _kが１つの特定インデッ
クス付きデータ・セットに対するものであり、ｇ^★★ _kがｆ^★★ _k以外の別のイン
デックス付きデータ・セットに対するものであるとして、対数比のフィルタ処理
されたセットが式２２に示されるように生成される。本発明の１つの例示的な望
ましい実施の形態においては、フィルタは先に述べたように低域通過フィルタで
ある。しかし、他のフィルタ（例えば、高域通過フィルタ、帯域通過フィルタな
ど）も用いることができる。更に、本発明は、式２２に示される対数比のフィル
タ処理設定に限定されるものではなく、他のフィルタ処理比も用いることができ
る。

【０１５２】

【数２２】

【０１５３】本発明の１つの例示的な望ましい実施の形態においては、対数比Ρ_kのフィル
タ処理セットを生成するため離散的フーリエ変換を用いてフィルタχωが周波数
領域において用いられる。このフィルタχωは、そのノッチ・マスクが対数比の
ゼロ・パッド型離散的フーリエ変換へ乗じられる。テーパ状マスクの重要な特徴
は、テーパ度と排他演算エッジの配置である。本発明の１つの例示的な望ましい
実施の形態においては、従来の２パーセントの「チューキー（Ｔｕｋｅｙ）のテ
ーパ」がエッジに適用され、その高さの半分（いわゆる、「３ｄＢ点」）が係数
４だけゼロ・パッドされる離散的変換の９番目のビンにセットされる。チューキ
ーのテーパは、フィルタ処理技術における当業者には公知である。しかし、他の
テーパおよびフィルタもフィルタχωに対し用いることができ、本発明は低域通
過フィルタあるいは低域通過フィルタのチューキーのテーパに限定されるもので
はない。

【０１５４】ステップ２５２において、所望の底ｘに対する累乗が対数比のフィルタ処理セ
ットの平均値に適用されて低次中心的特性λ_k（ｆ）を生成する。当技術におい
て周知のように、累乗は対数の「逆」である。

【０１５５】低次中心的特性λ_k（ｆ）は、平滑化エンベロープｆ^★ _kに対するサイズに依存
する低次の正規化スケーリング関数である。低次中心的特性λ_k（ｆ）は、式２
３の低次中心的特性に示されるように、他の全てのｋ番目のインデックス付きデ
ータ・セットに対するフィルタ処理された対数比のセットの冪化平均値である。
しかし、本発明は式２３に限定されるものではなく、累乗もまた用いることがで
きる。

【０１５６】

【数２３】

【０１５７】本発明の１つの例示的な望ましい実施の形態において、フィルタχωは低次中心
的特性λ_k（ｆ）により、ディスプレイ装置１６における表示サイズ軸のフルレ
ンジの約半分より小さくないものに、復調された変動性のサイズ・スケールを制
限する。テーパ状フィルタ・エッジによるゼロ・パッディングが、更に小さなス
ケールの変動の更に小さなエレメントを含めることにより、結果として得る低次
中心的特性の平滑度を強化する。

【０１５８】図１９は、低次中心的特性を用いる表示データの正規化のための方法２５４を
示すフロー図である。ステップ２５６において、低次中心的特性および多数のイ
ンデックス付きデータ・セットからの偏りが測定される。低次の特性は、（例え
ば、図１８の方法２４２を用いて）多数のインデックス付きデータ・セットから
決定される。ステップ２５８において、低次中心的特性と、低次中心的特性およ
び多数のインデックス付きデータ・セットに対する比のフィルタ処理された対数
間の比を持ち、かつ比の対数のフィルタ処理されたセットの累乗を持つ多数のイ
ンデックス付きデータ・セットとの間の偏りが除去される。

【０１５９】本発明の１つの例示的な望ましい実施の形態において、多数のインデックス付
きデータ・セットはポリヌクレオチド・データを含む。このポリヌクレオチド・
データは、これに限定されないが、ＤＮＡ、ｃＤＮＡあるいはｍＲＮＡを含んで
いる。

【０１６０】低次中心的特性を含む方法２５４（図１９）は、データの多数のインデックス
付きセットのデータ値に依存する低次の正規化により生成される中心的特性を用
いる個々の実験によりインデックス付きデータ・セットへもたらされる多数のイ
ンデックス付きデータ・セット間の偏りを減じることにより、実験間の変動の低
減を助ける。例示的な正規化された実験データの表示出力図２０Ａは、図示された実験に対する制御データのインデックス付きセットに
対する例示的な出力表示２６２の一部（例えば、図１３Ｂのデータ・ピーク値１
８０、１８２、１８４）を示すブロック図である。この出力表示２６２は、正規
化されない。図２０Ｂは、図示された実験に対する第１のターゲットに対するイ
ンデックス付きデータ・セットに対する例示的な出力表示２６４の一部（例えば
、第１のターゲットのポリヌクレオチド配列）を示すブロック図である。出力表
示２６４は、正規化されない。本発明の望ましい実施の形態において、零次中心
的特性あるいは低次中心的特性のいずれも実験結果を正規化するのに用いられる
。

【０１６１】図２０Ｃは、零次の正規化により正規化された図２０Ａからの制御データのイ
ンデックス付きデータ・セットに対する例示的な出力表示２６６の一部（例えば
、図１７の方法２３６）を示すブロック図である。図２０Ｄは、低次の正規化に
より正規化された図２０Ａからのターゲット・データのインデックス付きセット
に対する例示的な出力表示２６８の一部（例えば、図１９の方法２５４）を示す
ブロック図である。

【０１６２】図２０Ｅは、低次の正規化により正規化された図２０Ｂからの第１のターゲッ
トに対するインデックス付きデータ・セットに対する例示的な出力表示２７０の
一部（例えば、図１９の方法２５０）を示すブロック図である。図２０Ｆは、低
次の正規化により正規化された図２０Ｂからの第１のターゲットに対するインデ
ックス付きデータ・セットに対する例示的な出力表示２７２の一部（例えば、図
１９の方法２５０）を示すブロック図である。図２０Ａないし図２０Ｆにおける
データ・ピーク値に対する幅は、図示の目的のため拡大されている。しかし、デ
ータのピーク値に対するディスプレイ装置１４のウインドウ型ディスプレイ１６
における実際の表示出力は、図１３Ｂにおけるものと類似している。

【０１６３】前記の４つの正規化された出力表示２６６、２６８、２７０および２７２は、
第１のターゲットに対する正規化された制御２５８と１つの実験的バリエーショ
ン２６０の正規化に対応するものである。実線および破線によりそれぞれ識別さ
れる正規化された表示２６６、２６８、２７０、２７２のそれぞれにおける出力
は、一般に、（例えば、最初の実施と２回目の実施における）少なくともこれら
が採取された物理的ゲルにおいて異なる試料の独立的な複写を示している。本発
明の例示的な望ましい実施の形態において、ディスプレイ装置１４の実際の正規
化された表示における出力は、典型的に、多数の実験結果の表示を示すため異な
る色を用いる。

【０１６４】図２０Ａに示されるように、２つのカーブが分けられるため、制御データのイ
ンデックス付きデータ・セットにおける実験間の変動が存在する。もし実験間の
変動が存在しなければ、実線と破線により示される２つのカーブは重なり合うこ
とになる。図２０Ｃに示されるように、零次の正規化が制御データの実験間の変
動を低減している。正規化される図２０Ｃにおける２つのカーブは、正規化され
ない図２０Ａの２つのカーブ間より小さな距離だけ離れている。図２０Ｄに示さ
れるように、低次の正規化は、図２０Ａのカーブと比較して、２つのカーブ間の
距離が小さく見えるように実験間の変動を更に低減する。

【０１６５】図２０Ｅおよび図２０Ｆは、第１のターゲットに対して零次の正規化と低次の
正規化をそれぞれ示している。図２０Ｂに示されるように、この第１のターゲッ
トは、垂直軸に最も近い第１のデータ・ピーク値により示されるように第１のタ
イプのデータ（例えば、第１のタイプのポリヌクレオチド配列）を多く含み、次
の２つのデータ・ピーク値により表わされる第２および第３のタイプのデータ（
例えば、第２および第３のタイプのポリヌクレオチド配列）を少なく含んでいる
。このことは、図２０Ａにおける制御データを図２０Ｂにおける第１のターゲッ
トに対して表示されるデータに比較することによって観察されることが判る。図
２０Ｅおよび図２０Ｆに示されるように、正規化はまた、図２０Ｅおよび図２０
Ｆにおける実線と破線により示される２つのデータのカーブ間の狭い間隔により
決定できるように第１のターゲットに対する実験間の変動を低減する。

【０１６６】低次の正規化が典型的に零次の正規化より僅かに優れた結果を提供するから、
零次の正規化あるいは低次の正規化の選択は、表示結果の所望の精度、要求され
る分析の種類、計算時間、計算環境、表示装置の種類、処理されるインデックス
付きデータ・セットのサイズ、および他の要因を含む多くの要因に依存している
。しかし、零次の正規化あるいは低次の正規化のいずれかの選択は、正規化され
ないデータと比較される実験間の変動を著しく低減することを助けるものである
。

【０１６７】本発明の望ましい実施の形態は、選択される実験の多くの回数に対し、ならび
に実験の複数の異なる回数にわたる実験データにおける差異を決定してこれを減
じることを可能にする。例えば、最初の実験に対する図２０Ｃあるいは図２０Ｄ
における正規化された制御データは、（図２０には示されない）２回目の実験に
対する正規化される制御データに比較することができる。２回目の実験は、同じ
ターゲットあるいは最初の実験と異なるターゲットを含み得るが、同じ制御を含
む。本発明の望ましい実施の形態は、最初と２回目の実験間の変動を判定するた
めに用いることができる。

【０１６８】更に、実験間の変動が低減された、最初の実験と２回目の実験における最初の
ターゲットに対する結果を比較するために、最初の実験における図２０Ｅあるい
は図２０Ｆにおける最初のターゲットに対する正規化を異なる２回目の実験にお
ける最初のターゲットに比較することができる。例えば、図２０Ａ、図２０Ｂ、
図２０Ｄおよび図２０Ｆを含む最初の実験の結果はディスプレイ装置１４のウイ
ンドウ型ディスプレイ１６の最初のウインドウに表示され、２回目の実験の結果
はウインドウ型ディスプレイ１６の第２のウインドウに表示される。

【０１６９】図２０Ａないし図２０Ｆは、本発明の望ましい実施の形態に対する例示的な出
力を示している。しかし、本発明の望ましい実施の形態に対する実際の出力表示
は、典型的に正規化されたデータのみを含み、本発明の使用はユーザには「見え
ない」ことになる。すなわち、実験間の変動が低減された最後の出力表示のみが
比較分析のためユーザへ提示される。ユーザは、図２０Ａおよび図２０Ｂに示さ
れるディスプレイ装置１４には正規化されないデータが提示されないことになる
。また、中心的特性、零次あるいは低次の１つの正規化のみが一時に用いられる
。しかし、本発明の別の望ましい実施の形態においては、零次の中心的特性およ
び低次の中心的特性が一緒に用いられて、インデックス付きデータの選択された
異なるセットを同時に正規化する。

【０１７０】本発明の望ましい実施の形態は、「実験間」（すなわち、同じ実験）および「
実験内」（すなわち、異なる実験）の変動を比較分析のために低減することを可
能にする。本発明の望ましい実施の形態はまた、（例えば、先に述べた図２、図
４、図８および図１０、あるいは図１２Ａおよび図１２Ｂに示された方法と組合
わせて）生の実験データの自動化処理を助ける別の方法として用いることもでき
る。

【０１７１】本発明の望ましい実施の形態は、実験間の変動によりもたらされるデータ値と
同じ程度のものである処理された実験データ・セットに存在するデータ値の特徴
点を、比較分析のために正規化して用いることを可能にする。このように、実験
結果の比較を高い確信をもって用いることができ、また所期の結果をより迅速か
つ更に適切な方法で得ることもできる。

【０１７２】例えば、バイオテクノロジの場合、少数の実験により新たなポリヌクレオチド
配列を取得された結果における高レベルの確信をもって判定することもできる。
このような新たなポリヌクレオチド配列は、疾病に対する新たな処置を開発し、
現在ある薬剤を改善し、新たな薬剤をを開発するために用いることができ、ポリ
ヌクレオチド配列を含む生体の更に完全な理解の進展を含む他の医療用途のため
用いるなどが可能である。

【０１７３】本発明の例示的な望ましい実施の形態については、実験的なバイオテクノロジ
・データに関して論述した。しかし、本発明は、実験的なバイオテクノロジ・デ
ータに限定されるものではない。本発明の望ましい実施の形態は、実験の実施の
ため用いられる環境によりもたらされる実験間の変動を含む電気通信データ、電
気的データ、光学的データ、物理的データ、あるいは他の実験データに対する実
験間の変動を低減するために用いられる。

【０１７４】本文に述べたプログラム、プロセス、方法およびシステムが、他に断りのない
限り、特定の形式のコンピュータあるいはネットワーク・システム（ハードウエ
アあるいはソフトウエア）に関連しあるいは限定されるものでないことを理解す
べきである。本文に記載した教示によれば、様々な形式の汎用あるいは特殊目的
のコンピュータ・システムを用いることができあるいは動作を実施することがで
きる。

【０１７５】本発明の原理を適用することができる広範囲の実施の形態に照らして、図示さ
れた望ましい実施の形態が事例に過ぎないものであることを理解すべきであり、
本発明の範囲を限定すると見なすべきではない。例えば、フロー図の各ステップ
は本文に記載した以外の順序で行うこともでき、ブロック図において更に多いか
少ない要素を用いてもよい。望ましい実施の形態の種々の要素についてソフトウ
エアで実現されるものと記載したが、他の実施の形態においては、ハードウエア
の実現を代替的に用いることもでき、あるいはその逆も妥当する。

【０１７６】請求の範囲は、その旨断りのない限り、記述された順序あるいは要素に限定さ
れるものと見なすべきでない。従って、頭書の請求の範囲およびその相等物の範
囲および趣旨に該当する全ての実施の形態は本発明として権利を主張するもので
ある。

【図面の簡単な説明】

【図１】例示的な実験データ処理システムを示すブロック図である。

【図２】多成分データ信号に対するデータ正規化のための方法を示すフロー図である。

【図３】図３Ａは、多成分データ信号に対する例示的なフィルタ処理されない信号強さ
のトレースを示すブロック図である。図３Ｂは、拡大スケールで示されたフィルタ処理されない多成分データ信号と
して図３Ａのフィルタ処理されない多成分データ信号を示すブロック図である。図３Ｃは、図３Ａの多成分データ信号のフィルタ処理バージョンを示すブロッ
ク図である。図３Ｄは、図２からの方法を用いてフィルタ処理され正規化された多成分デー
タ信号を示すブロック図である。

【図４】クラッタ除去法を示すフロー図である。

【図５】図２からの方法を用いてフィルタ処理され正規化された多成分データ信号を示
すブロック図である。

【図６】標準ポリヌクレオチド部分で同時にロードされた電気泳動ゲル内の１組のレー
ンに対する一連の走査のためのフィルタ処理規格を示すブロック図である。

【図７】図４の方法を用いるクラッタ除去によるサイズ基準検出を用いてデータのピー
ク値を示すブロック図である。

【図８】データ・サイズ校正のための方法を示すブロック図である。

【図９】図９Ａおよび図９Ｂは、図８からの方法を用いるデータ・サイズ校正を示すブ
ロック図である。

【図１０】エンベロープ検出法を示すフロー図である。

【図１１】図１１Ａおよび図１１Ｂは、図１０の方法を用いるエンベロープ検出を示すブ
ロック図である。

【図１２】図１２Ａおよび図１２Ｂは、多成分実験データを処理する方法を示すフロー図
である。

【図１３】図１３Ａおよび図１３Ｂは、図１２Ａおよび図１２Ｂの方法を示すブロック図
である。

【図１４】例示的な多成分信号データ処理システムを示すブロック図である。

【図１５】実験データの正規化方法を示すフロー図である。

【図１６】零次中心的特性を生成する方法を示すフロー図である。

【図１７】零次中心的特性を用いる表示データの正規化のための方法を示すフロー図であ
る。

【図１８】低次中心的特性を生成する方法を示すフロー図である。

【図１９】低次中心的特性を用いる表示データの正規化する方法を示すフロー図である。

【図２０】図２０Ａは、例示的な実験のための制御データのインデックス付きセットに対
する例示的な出力表示の一部を示すブロック図である。図２０Ｂは、例示的な実験のための目標データの例示的なインデックス付きセ
ットに対する例示的な出力表示の一部を示すブロック図である。図２０Ｃは、零次正規化により正規化された図２０Ａからの制御データのイン
デックス付きデータ・セットに対する例示的な出力表示の一部を示すブロック図
である。図２０Ｄは、低次正規化により正規化された図２０Ａからの制御データのイン
デックス付きセットに対する例示的な出力表示の一部を示すブロック図である。図２０Ｅは、低次正規化により正規化された図２０Ｂからの目標データのイン
デックス付きデータ・セットに対する例示的な出力表示の一部を示すブロック図
である。図２０Ｆは、低次正規化により正規化された図２０Ｂからの目標データのイン
デックス付きデータ・セットに対する例示的な出力表示の一部を示すブロック図
である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ダーラム，ジェイソン・ティーアメリカ合衆国カリフォルニア州92040，レイクサイド，マウンテン・ヴュー・レイン 10359 Ｆターム(参考） 5B056 BB11 BB51 BB62 BB64 BB81 HH00 5B075 ND20 ND23 NK02 NK13 NK48 PQ02 PR04 UU18

Claims

【特許請求の範囲】

【請求項１】複数のインデクス付データ・セットに対するデータ正規化方
法であって、所定の中央キャラクタからの偏差と複数のインデクス付データ・セットからの
データ値とを測定するステップであって、前記所定の中央キャラクタは前記複数
のインデクス付データ・セットから決定された順序付比較のモードである、ステ
ップと、前記所定の中央キャラクタを前記複数のインデクス付データ・セットから測定
された偏差と比較することにより、前記所定の中央キャラクタと前記複数のイン
デクス付データ・セットとの間の偏差を除去し、それによって、前記複数のイン
デクス付データ・セットの間の偏差を減少させるステップと、を含むことを特徴とする方法。
【請求項２】中央処理装置に請求項１記載の方法を実行させる命令を記憶
していることを特徴とするコンピュータ可読媒体。
【請求項３】請求項１記載の方法において、前記所定の中央キャラクタは
、前記複数のインデクス付データ・セットからのデータ値に変換を適用して前記
複数のインデクス付データ・セットからのインデクス全体のデータ情報を利用す
ることによって決定されることを特徴とする方法。
【請求項４】請求項１記載の方法において、前記所定の中央キャラクタは
、任意の零次の変換又は低次の変換を適用することによって決定されることを特
徴とする方法。
【請求項５】請求項４記載の方法において、前記零次の変換は、定数を前
記複数のインデクス付データ・セットにおける変換データ点に適用することを含
み、前記定数は、前記複数のインデクス付データ・セットにおけるデータ値とは
独立であることを特徴とする方法。
【請求項６】請求項４記載の方法において、前記低次の変換は、滑らかに
変動するスケーリング関数を前記複数のインデクス付データ・セットにおける変
換データ点に適用することを含み、前記変動するスケーリング関数は、前記複数
のインデクス付データ・セットにおけるデータ値に従属することを特徴とする方
法。
【請求項７】請求項１記載の方法において、前記複数のインデクス付デー
タ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データを含
むことを特徴とする方法。
【請求項８】請求項７記載の方法において、前記ポリヌクレオチド・デー
タは、ＤＮＡ、ｃＤＮＡ又はｍＲＮＡのデータ中の任意のものを含むことを特徴
とする方法。
【請求項９】請求項１記載の方法において、前記除去するステップは、前
記複数のインデクス付データ・セットの間の偏差を除去し、実験間の変動可能性
を減少させ、前記複数のインデクス付データ・セットを比較に適したものにする
ステップを含むことを特徴とする方法。
【請求項１０】請求項９記載の方法において、前記比較は、表示装置上で
の視覚的な比較を含むことを特徴とする方法。
【請求項１１】零次の中央キャラクタを作成する方法であって、平滑化ウィンドウを用いて複数のインデクス付データ・セットの外部分位（ou
ter quantiles）からデータ点を除去し、データ点の複数の平滑化された組を作
成するステップと、データ点の前記複数の平滑化された組からインデクス付データ・セット比率の
組を決定するステップであって、インデクス付データ・セット比率の前記組は、
選択されたインデクス付データ・セットからのデータ点の選択され平滑化された
組を、前記複数のインデクス付データ・セットからのそれ以外のインデクス付デ
ータ・セットからのデータ点のそれ以外の平滑化された組と比較することによっ
て決定される、ステップと、比率の外部分位を、インデクス付データ・セット比率の前記組から除去し、イ
ンデクス付データ・セット比率の部分集合を作成するステップと、比率の平均化された組を、インデクス付データ・セット比率の前記部分集合に
おける比率から決定し、零次の中央キャラクタを作成するステップと、を含むことを特徴とする方法。
【請求項１２】中央処理装置に請求項１１記載の方法を実行させる命令を
記憶していることを特徴とするコンピュータ可読媒体。
【請求項１３】請求項１１記載の方法において、データ点を除去する前記
ステップは、ｆ^** _kをデータ点の平滑化された組、Ｐをｋ番目のインデクス付デ
ータ・セットからのデータ点の組ｐに対する平滑化ウィンドウのサイズ、ｆ^*を
ｋ番目のインデクス付データ・セットの外部分位からのデータ点を含まないデー
タ点の組ｐを包囲するデータ・エンベロープとして、【数１】を用いてデータ点を除去するステップを含むことを特徴とする方法。
【請求項１４】請求項１１記載の方法において、インデクス付データ・セ
ット比率の組を決定する前記ステップは、ｆ^** _kを選択されたｋ番目のインデク
ス付データ・セットからのデータ点の選択され平滑化された組、ｇ^** _kをｆ^** _kで
はないデータ点の別の平滑化された組として、（ｇ^** _k／ｆ^** _k）を決定するステ
ップを含むことを特徴とする方法。
【請求項１５】請求項１１記載の方法において、比率の外部分位を除去す
る前記ステップは、ｒｋ（ｇ，ｆ）をｋ番目のインデクス付データ・セットから
のデータ点ｆ^** _kの選択され平滑化された組の間の比率のインデクス付データ・
セット、ｇ^** _kをｆ^** _kではないデータ点の別の平滑化された組、Ｄ_s（ｆ^**）を
データ点の選択され平滑化された組ｆ^** _kにおける値のｓ番目の分位、Ｄ_t（ｆ^** ）をデータ点の別の平滑化された組ｆ^** _kにおける値のｔ番目の分位、Ｄ_s（ｇ^** ）をデータ点の選択され平滑化された組ｇ^** _kにおける値のｓ番目の分位、Ｄ_t（
ｇ^**）をデータ点の別の平滑化された組ｇ^** _kにおける値のｔ番目の分位として
、【数２】を用いて比率の外部分位を除去するステップを含むことを特徴とする方法。
【請求項１６】請求項１１記載の方法において、インデクス付データ・セ
ット比率の前記部分集合における比率から平均化された比率を決定する前記ステ
ップは、λ₀（ｆ）を零次の中央キャラクタ、ａｖｇを平均、ｒ_k（ｇ，ｆ）をデ
ータ点の選択され平滑化された組ｆとｆではないデータ点の別の平滑化された組
ｇとの間のｋ番目のインデクス付データ・セット比率、Ｄ_u（ｒ（ｇ，ｆ））を
比率ｒ（ｇ，ｆ）のｕ番目の分位、Ｄ_v（ｒ（ｇ，ｆ））を比率ｒ（ｇ，ｆ）の
ｖ番目の分位として、【数３】を決定するステップを含むことを特徴とする方法。
【請求項１７】データ正規化方法であって、零次の中央キャラクタからの偏差と複数のインデクス付データ・セットとを測
定するステップであって、前記零次の中央キャラクタは前記複数のインデクス付
データ・セットから決定される、ステップと、前記零次の中央キャラクタと前記複数のインデクス付データ・セットとの間の
偏差を、前記零次の中央キャラクタと前記複数のインデクス付データ・セットと
の間の比率と、前記複数のインデクス付データ・セットと前記複数のインデクス
付データ・セットに対する比率の平均化された組との間の比率とを用いて、除去
するステップと、を含むことを特徴とする方法。
【請求項１８】中央処理装置に請求項１７記載の方法を実行させる命令を
記憶していることを特徴とするコンピュータ可読媒体。
【請求項１９】請求項１７記載の方法において、前記複数のインデクス付
データ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データ
を含むことを特徴とする方法。
【請求項２０】請求項１９記載の方法において、前記ポリヌクレオチド・
データは、ＤＮＡ、ｃＤＮＡ又はｍＲＮＡの中の任意のものを含むことを特徴と
する方法。
【請求項２１】請求項１９記載の方法において、前記除去するステップは
、前記複数のインデクス付データ・セットの間の偏差を零次の中央キャラクタを
用いて除去し、実験間の変動可能性を減少させ、前記複数のインデクス付データ
・セットを比較に適したものにするステップを含むことを特徴とする方法。
【請求項２２】請求項２１記載の方法において、前記比較は、表示装置上
での視覚的な比較を含むことを特徴とする方法。
【請求項２３】低次の中央キャラクタを作成する方法であって、平滑化ウィンドウを用いて複数のインデクス付データ・セットの外部分位から
データ点を除去し、前記複数のインデクス付データ・セットのためのデータ点の
複数の平滑化された組を作成するステップと、データ点の前記複数の平滑化された組からインデクス付データ・セット比率の
組を決定するステップであって、インデクス付データ・セット比率の前記組は、
選択されたインデクス付データ・セットからのデータ点の選択され平滑化された
組を、前記複数のインデクス付データ・セットからのそれ以外のインデクス付デ
ータ・セットからのデータ点のそれ以外の平滑化された組と比較することによっ
て決定される、ステップと、インデクス付データ・セット比率の前記組の対数を作成し、対数比率の組を作
成するステップと、対数比率の前記組をフィルタリングし、対数比率のフィルタリングされた組を
作成するステップと、対数比率の前記フィルタリングされた組の平均に指数化を適用し、低次の中央
キャラクタを作成するステップと、を含むことを特徴とする方法。
【請求項２４】中央処理装置に請求項２３記載の方法を実行させる命令を
記憶していることを特徴とするコンピュータ可読媒体。
【請求項２５】請求項２３記載の方法において、データ点を除去する前記
ステップは、ｆ^** _kをデータ点の平滑化された組、Ｐをｋ番目のインデクス付デ
ータ・セットからのデータ点の組ｐに対する平滑化ウィンドウのサイズ、ｆ^*を
ｋ番目のインデクス付データ・セットの外部分位からのデータ点を含まないデー
タ点の組ｐを包囲するデータ・エンベロープとして、【数４】を用いてデータ点を除去するステップを含むことを特徴とする方法。
【請求項２６】請求項２３記載の方法において、インデクス付データ・セ
ット比率の組を決定する前記ステップは、ｆ^** _kを選択されたｋ番目のインデク
ス付データ・セットからのデータ点の選択され平滑化された組、ｇ^** _kをｆ^** _kで
はないデータ点の別の平滑化された組として、（ｇ^** _k／ｆ^** _k）を決定するステ
ップを含むことを特徴とする方法。
【請求項２７】請求項２３記載の方法において、インデクス付データ・セ
ット比率の前記組の対数を作成し対数比率の組を作成する前記ステップは、ｌｏ
ｇ_xを所望の底ｘに対する対数、ｆ^** _kをデータ点の選択されたｋ番目のインデク
ス付の組からのデータ点の選択され平滑化された組、ｇ^** _kをｆ^** _kではないデー
タ点の別の平滑化された組として、ｌｏｇ_x（ｇ^** _k／ｆ^** _k）を適用するステッ
プを含むことを特徴とする方法。
【請求項２８】請求項２３記載の方法において、対数比率の前記組をフィ
ルタリングし対数比率のフィルタリングされた組を作成する前記ステップは、ρ _k(g,f) を対数比率のフィルタリングされた組、χωをフィルタ、ｌｏｇ_xを所望
の底ｘに対する対数、ｆ^** _kをデータ点の選択されたｋ番目のインデクス付の組
からのデータ点の選択され平滑化された組、ｇ^** _kをｆ^** _kではないデータ点の別
の平滑化された組として、【数５】を適用するステップを含むことを特徴とする方法。
【請求項２９】請求項２８記載の方法において、前記フィルタχωはロー
パス・フィルタであることを特徴とする方法。
【請求項３０】請求項２３記載の方法において、対数比率の前記フィルタ
リングされた組の平均に指数化を適用する前記ステップは、λ_k（ｆ）を低次中
央キャラクタ、ｅｘｐ_xを所望の底ｘに対する指数関数、ａｖｇを平均、｛ρ_k（
ｇ，ｆ）｝をｋ番目のインデクス付データ・セットに対する対数比率のフィルタ
リングされた組として、【数６】を適用するステップを含むことを特徴とする方法。
【請求項３１】データ正規化方法であって、低次の中央キャラクタからの偏差と複数のインデクス付データ・セットとを測
定するステップであって、前記低次の中央キャラクタは前記複数のインデクス付
データ・セットから決定される、ステップと、前記低次の中央キャラクタと前記複数のインデクス付データ・セットとの間の
偏差を、前記低次の中央キャラクタと前記複数のインデクス付データ・セットに
対する比率のフィルタリングされた対数との間の比率と、比率の前記フィルタリ
ングされた対数とを用いて除去するステップと、を含むことを特徴とする方法。
【請求項３２】中央処理装置に請求項３１記載の方法を実行させる命令を
記憶していることを特徴とするコンピュータ可読媒体。
【請求項３３】請求項３１記載の方法において、前記複数のインデクス付
データ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データ
を含むことを特徴とする方法。
【請求項３４】請求項３３記載の方法において、前記ポリヌクレオチド・
データは、ＤＮＡ、ｃＤＮＡ又はｍＲＮＡの中の任意のものを含むことを特徴と
する方法。
【請求項３５】請求項３１記載の方法において、前記除去するステップは
、前記複数のインデクス付データ・セットの間の偏差を低次の中央キャラクタを
用いて除去し、実験間の変動可能性を減少させ、前記複数のインデクス付データ
・セットを比較に適したものにするステップを含むことを特徴とする方法。
【請求項３６】請求項３５記載の方法において、前記比較は、表示装置上
での視覚的な比較を含むことを特徴とする方法。
【請求項３７】データ正規化方法であって、複数のインデクス付データ・セットを読み取るステップであって、前記複数の
インデクス付データ・セットは所望の実験を複数回完了することによって生じ、
前記複数のインデクス付データ・セットは前記所望の実験を複数回完了するのに
用いられた環境条件に起因して結果的に前記所望の実験に対する偏差を含む、ス
テップと、前記複数のインデクス付データ・セットから中央キャラクタを作成するステッ
プと、前記中央キャラクタを前記複数のインデクス付データ・セットからの測定され
た偏差と比較してインデクス付データ・セットの正規化された組を作成すること
により、前記中央キャラクタと前記複数のインデクス付データ・セットとの間の
偏差を除去し、それによって、前記所望の実験に対する前記複数のインデクス付
データ・セットの間での実験間の偏差を減少させるステップと、インデクス付データ・セットの前記正規化された組を比較解析のために表示装
置上に表示するステップと、を含むことを特徴とする方法。
【請求項３８】中央処理装置に請求項３７記載の方法を実行させる命令を
記憶していることを特徴とするコンピュータ可読媒体。
【請求項３９】請求項３７記載の方法において、前記複数のインデクス付
データ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データ
を含むことを特徴とする方法。
【請求項４０】請求項３９記載の方法において、前記ポリヌクレオチド・
データは、ＤＮＡ、ｃＤＮＡ又はｍＲＮＡの中の任意のものを含むことを特徴と
する方法。
【請求項４１】請求項３７記載の方法において、環境条件に起因する前記
偏差は、前記所望の実験を複数回完了するのに用いられた電気泳動ゲル又はマイ
クロアレイにおける任意の偏差に起因することを特徴とする方法。
【請求項４２】請求項３７記載の方法において、前記中央キャラクタは、
任意の零次の中央キャラクタ又は低次の中央キャラクタであることを特徴とする
方法。
【請求項４３】請求項３７記載の方法において、中央キャラクタを作成す
る前記ステップは、前記複数のインデクス付データ・セットからのデータ値に正
規化変換を適用して前記複数のインデクス付データ・セットからのインデクス全
体のデータ情報を利用するステップを含むことを特徴とする方法。
【請求項４４】請求項４３記載の方法において、前記正規化変換は、任意
の零次の変換又は低次の変換を含むことを特徴とする方法。