JP2003500663A - 実験データの正規化のための方法 - Google Patents

実験データの正規化のための方法

Info

Publication number
JP2003500663A
JP2003500663A JP2000620538A JP2000620538A JP2003500663A JP 2003500663 A JP2003500663 A JP 2003500663A JP 2000620538 A JP2000620538 A JP 2000620538A JP 2000620538 A JP2000620538 A JP 2000620538A JP 2003500663 A JP2003500663 A JP 2003500663A
Authority
JP
Japan
Prior art keywords
data
indexed
indexed data
data sets
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000620538A
Other languages
English (en)
Inventor
グレイス,デニス・アール
ダーラム,ジェイソン・ティー
Original Assignee
ディジタル・ジーン・テクノロジーズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディジタル・ジーン・テクノロジーズ・インコーポレーテッド filed Critical ディジタル・ジーン・テクノロジーズ・インコーポレーテッド
Publication of JP2003500663A publication Critical patent/JP2003500663A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 実験間の変動を含む実験データの正規化のための方法。実験データは、バイオテクノロジ・データおよび他のデータを含み、実験間の変動が同じ実験の多数の反復実施に用いられる環境によりもたらされる。中心的特性および多数のインデックス付きデータ・セットからのデータ値間に、実験データにおける偏りが測定される。中心的特性は、多数のインデックス付きデータ・セットから決定される順序を付した比較の値である。中心的特性と多数のインデックス付きデータ・セット間の偏りは、中心的特性を多数のインデックス付きデータ・セットからの測定された偏りに比較することにより除去され、これにより多数のインデックス付きデータ・セット間の偏りを低減し、これにより実験間の変動を低減する。

Description

【発明の詳細な説明】
【0001】 発明の分野 本発明は、実験データの正規化に関する。特に,本発明は、実験間の変動性を
減じるためバイオテクノロジ・データのような実験データを正規化するための方
法に関する。
【0002】 発明の背景 バイオテクノロジ・データは、多くの様々な目的のために収集され分析される
。当技術において周知のように、バイオテクノロジ・データは、典型的に、生物
学的システム、生物学的プロセス、生化学的プロセス、生物物理学的プロセス、
あるいは化学的プロセスから取得されるデータを含む。例えば、多くの異なる種
類の生体からの一連のデオキシリボ核酸(DNA)が、しばしば決定付けられマ
ッピングされる。DNAは、4つのヌクレオチド塩基元素の連続ストリング(s
tring)を含む二重鎖ポリヌクレオチドである。この4つのヌクレオチド塩
基元素は、デオキシアデノシン(deoxyadenosine)、デオキシシ
チジン(deoxycytidine)、デオキシグアノシン(deoxygu
anosine)およびデオキシチミジン(deoxythymidine)を
含んでいる。これら4つのヌクレオチド塩基は、通常それぞれ「A」、「C」、
「G」および「T」と省略される。DNAはリボ核酸(RNA)を作るのに用い
られ、このRNAは更にタンパク質を作るのに用いられる。「遺伝子」は、変異
タンパク質を示すRNAへ転写されるDNAの領域を含む。
【0003】 生化学的研究の1つの基本的な目標は、生体における遺伝子から全てのタンパ
ク質分子をマップ化して特徴付けることである。タンパク質分子の存在および濃
度は、典型的に、遺伝子が所与の状況において「表現される」かあるいは「抑制
される」かどうかの決定を助ける。タンパク質の特徴付けは、識別、配列の決定
、表現、特徴付け、濃度および生化学的活性を含む。天然化合物および人為化合
物に対するタンパク質の応答は、疾病の新たな処置の開発、現在ある薬物の改善
、新たな薬物の開発、および他の医学的および科学的な用途の開発のため用いら
れる。
【0004】 バイオテクノロジ・データは、本質的に複雑である。例えば、DNA配列は、
分析に適する方法で記憶され検索される必要がある多数のA、C、GおよびTを
含んでいる。当技術において周知の「バイオ情報科学」手法を用いてバイオテク
ノロジ・データの収集、処理、記憶および検索することと関連する多くの問題が
ある。当技術において周知のように、バイオ情報科学とは、実験、モデル化、デ
ータベース探索および計装によって取得されるデータの処理、分析および表示の
ための情報技術およびデータ探索手法の組織的な開発および応用である。バイオ
テクノロジ・データは、一般に2つ以上の変数のグラフィック・プロットとして
提供される。「ピーク値」、すなわち2つ以上の変数のプロットにおける極大値
は、しばしばバイオテクノロジ・データにおける関心特徴である。
【0005】 バイオテクノロジ・データが収集されると、収集プロセスはしばしば実験の実
施に用いられた環境に基く変動を生じる。例えば、DNA配列はゲルの電気泳動
を用いて試料を処理することによって決定され得る。ラベル(例えば、ダイ)が
、レーザによって生じる影響による検出のためゲル・プレートに置かれた試料へ
組込まれる。
【0006】 ゲル電気泳動は、分子を試料からゲル・プレート上の測定可能な長さの個々の
バンドへ解離させる。同じゲルの別々のバッチにより生成されるゲル・プレート
は、同じターゲット(例えば、同じポリヌクレオチド試料)を多数回用いて同じ
実験を完了するのに用いられる。実験の全ては、同じ実験において同じターゲッ
トが用いられるので同じ結果を理想的に生じるはずである。しかし、ゲル電気泳
動プロセスは、典型的に、ゲル電気泳動プロセスにおける変動によってバイオテ
クノロジ・データに小さなエラーを生じる。
【0007】 例えば、ゲルは、二人の異なる研究員によって調製されたものであり得、同じ
製品の2つのパッケージからのものであり得、異なる時点に購入されたものであ
り得、あるいは一人の研究員または自動化プロセス(例えば、ロボット)などの
いずれかにより僅かに異なる整合性または厚さでゲル・プレートへ塗布され得る
。これらの因子および他の因子が、典型的に、理想的には正確に同じ結果を生じ
るべき多数回行われる実験に「実験ごとの」変動をもたらす。
【0008】 別の問題は、バイオテクノロジ・データもまたミクロなアレイで収集されるこ
とである。ミクロ・アレイはまた、ゲル電気泳動の代わりに配列情報を提供する
ようにも用いられ得る。ミクロ・アレイはまた、ミクロ・アレイに対する試料の
調製時の変動により同じ実験に変動をもたらすこともある。更に別の問題は、実
験間の変動でデータ収集されるバイオテクノロジ・データのみが典型的に当技術
において周知のバイオ情報科学を用いて視覚的表示に全面的に適することである
。当技術において周知のように、バイオテクノロジにおいて最も一般に用いられ
る方法論の1つが、「比較」である。多くの生物学的オブジェクトは、同じ構造
的あるいは機能的な特徴を共有するファミリと関連付けられる。例えば、似たよ
うな配列を持つ多くのタンパク質は、共通した機能性を持ち得る。既知のタンパ
ク質に類似する配列を持つ1つのタンパク質が見出されると、この見出されたタ
ンパク質は共通した機能性を持ち得、従って1つの環境的条件(例えば、新たな
薬物)に対する共通した応答を呈し得る。
【0009】 バイオテクノロジ・データの視覚的な表示は、典型的に、バイオテクノロジ研
究のため典型的に「必要な」ものとして認識される。視覚的な表示ツールは、大
量の相互に関連するデータの複雑な展望の生成を可能にする。実験データは典型
的に、1つのコンピュータ・ディスプレイ上に多数のウインドウ表示を含み得る
グラフィカル・ユーザ・インターフェース(GUI)を用いて表示される。
【0010】 視覚的表示および比較分析は、典型的に、実験データにもたらされる変動によ
って阻害される。例えば、同じターゲットを持つ同じ実験の5回の反復が視覚的
に表示されるならば、出力値は理想的に相互に重なり合うべきである。しかし、
実験間の変動により、5回の実験の反復ごとの出力値は、典型的に僅かに異なる
ことになり、視覚的表示は実験間の変動を「拡大」しがちとなる。このことは、
分析中に混乱を導いて、実験データの収集および表示のため用いられるプロセス
におけるユーザの確信を失わせるおそれがある。
【0011】 更に、多くの場合において、実験間の変動は所望の実験結果と同じ程度の大き
さとなる。実験間の変動を有する実験結果の視覚的表示を用いると、ユーザは結
果における相違が新たなターゲット(例えば、新たなポリヌクレオチド配列)に
よるものであるかどうかを判定することができなくなるおそれがある。
【0012】 このように、実験から得るデータにおける実験間の変動を減じることが望まし
い。このような実験間の変動の低減は、実験データの収集、処理および表示のた
め用いられるプロセスにおける確信の混乱あるいは喪失もなく、視覚的表示およ
び比較分析を完了することを可能にするはずである。
【0013】 発明の概要 本発明の望ましい実施の形態によれば、実験データにおける実験間の変動と関
連する諸問題の一部が克服される。実験データの正規化のための方法が提供され
る。本発明の一特質は、実験データの数多くのデータ・セットのデータの正規化
のための方法を含んでいる。多数の実験データ・セットは1つ以上のインデック
スで指標されて、多数の指標されたデータ・セットを生成する。しかし、他のデ
ータ構成方式も用いられ、本発明は多数のデータ・セットのインデックス付けに
限定されることはない。多数のインデックスを付されたデータ・セットからの決
定付けられた中心的な特性とデータの値間の偏りが計測される。本発明の1つの
望ましい実施の形態では、決定付けられた中心的特性は、多数のインデックス付
きデータ・セットから決定される順序付比較のための値である。決定付けられた
中心的特性と多数のインデックスを付されたデータ・セット間の偏りは、決定付
けられた中心的特性を多数のインデックスを付されたデータ・セットからの計測
された偏りに比較することによって除去され、これにより多数のインデックス付
きデータ・セット間の偏りを減じ、かつこれにより実験間の変動を減じる。
【0014】 本発明の別の特質は、多数のインデックス付きデータ・セットからの指標間の
データ情報を用いるため中心的特性の正規化転換を多数のインデックス付きデー
タ・セットからのデータ値に適用することを含む。この正規化転換は、決定付け
られた中心的特性を用いて多数のインデックス付きデータ・セットからの偏りを
除く前に適用される。正規化転換は、限定されるものではないが、例えば零次正
規化転換および低次正規化転換を含む。本発明の更に別の特質は、多数のインデ
ックス付きデータ・セットから零次中心的特性を生成する方法を含む。この零次
中心的特性は、典型的にデータ値に依存する定数である。本発明の更に別の特質
は、多数のインデックス付きデータ・セットから低次中心的特性を生成すること
を含む。この低次中心的特性は、典型的にデータ値依存の平滑拡散スケーリング
関数である。
【0015】 本発明の望ましい実施の形態は、実験間の変動を減じるために用いられる。実
験データは、定常的に収集され、取得される結果が正確でありかつ低減した実験
間の変動を含む比較的高度な整合性で処理されて視覚的に表示される。このよう
に、インデックス付きされた実験ゴールすなわち結果(例えば、新たなポリヌク
レオチド配列の決定)は、実験間の変動の少ないより迅速でコスト効率のよい方
法で達成される。
【0016】 本発明の1つの望ましい実施の形態において、バイオ情報科学に用いることが
できる新規な方法を用いて、バイオテクノロジ・データの実験間の変動を低減す
る。しかし、本発明の望ましい実施の形態は、バイオテクノロジ・データに対し
て実験間の変動の低減に限定されることはない。本発明は、これに限定されない
が電気通信データ、電気的データ、光学的データ、物理的データ、あるいは実験
の実施に用いられる環境による実験間の変動を含む他の実験データを含む、他の
種類の実験データにおける実験間の変動の低減にも用いられる。本発明の望まし
い実施の形態の上記および他の特徴および利点については、以降の詳細な記述か
ら更に容易に明らかになるであろう。詳細な記述は、貼付図面に関して進行する
【0017】 望ましい実施の形態の詳細な記述 本発明の望ましい実施の形態は、図面に関して記述される。 本発明の1つの例示的な望ましい実施の形態においては、表現遺伝子の同時配
列特定識別のためのバイオテクノロジ・データが本文に述べる方法およびシステ
ムにより処理される。しかし、本発明は、バイオテクノロジ・データの処理に限
定されることはなく、他のデータ(例えば、電気通信データ、電気的データ、光
学的データ、物理的データ、その他のデータなど)の処理のため本文に述べる方
法およびシステムを用いることができる。 遺伝子のマッピング 先に述べたように、デオキシリボ核酸(DNA)は、シンボル的に4つのヌク
レオチド塩基元素、デオキシアデノシン(deoxyadenosine)、デ
オキシシチジン(deoxycytidine)、デオキシグアノシン(deo
xyguanosine)およびデオキシチミジン(deoxythymidi
ne)の連続的なストリングとして想起され得る二重鎖ヘテロポリマーである。
この4つの塩基は通常、それぞれ「A」、「C」、「G」および「T」として省
略され、DNAの1つの鎖における塩基元素は他の鎖における対応元素と相互作
用する。例えば、「A」は「T」のみと相互作用し得、「G」は「C」のみと相
互作用し得る。このような関係は、「塩基の対合(base pairing)
」と呼ばれる。
【0018】 「遺伝子」はDNAの領域であり、「タンパク質」は遺伝子の産物である。タ
ンパク質は、アミノ酸の基本的な組合わせから作られ、DNAはアミノ酸のコー
ディング情報を含む。DNAが複製すなわちコピーされると、それぞれの元の鎖
をテンプレート(鋳型)として用いて新たなDNA鎖が合成される。
【0019】 DNA自体は、タンパク質のデコーディングすなわち合成のための鋳型として
は働かない。DNAの2つの鎖の一方の相補的コピーは、リボースヌクレオチド
から合成されて「転写」と呼ばれる方法で遺伝子のリボ核酸(RNA)コピーを
生成する。遺伝子のRNAは、次に、「翻訳」と呼ばれる方法を用いてタンパク
質合成によりデコードされる。RNAはタンパク質コードを持つので、これはメ
ッセンジャRNA(mRNA)と呼ばれる。mRNAの転写は非常に正確であり
、常に1つの正確なヌクレオチドで始まり正確に別のヌクレオチドで終る。相補
型DNA(cDNA)は、mRNAの的確な二重鎖DNAコピーである。cDN
Aの二重鎖の一方はmRNAに対し相補的であり、他方は同じである。
【0020】 P.LiangおよびA.B.Pardee著「ポリメラーゼ連鎖反応による
真核メッセンジャRNAの示差的表示(Differential diapl
ay オリフィス eukaryotic messenger RNA by
means of polymerase chain reaction)
」(Science、第257巻、967−971ページ、1992年)、J.
Welsh、K.Chada、S.S.Dalal、R.Cheng、D.Ra
lphおよびM.McCelland著「RNAの任意に感作するPCRフィン
ガプリンティング法(Arbitrarily primed PCR fin
gerprinting of RNA)」(Nucleic Acids R
esearch、第20巻、4965−4970ページ、1992年)、「cD
NAライブラリを生成する簡単かつ非常に有効な方法(A simple an
d very efficient method for generati
ng cDNA libraries)」(Gene、第25巻、263−26
9ページ、1983年)、K.Schibler、M.Tosi、A.C.Pi
ttet、L.Fabiani and P.K.Welauer著「マウスの
αアミラーゼ遺伝子の組織固有表現(Tissue−specific exp
ression of mouse α−amylase genes)」(J
ournal of Molecular Biology、第142巻、93
−116ページ、1990年)、P.Friedland and L.H.K
edes著「DNAの秘密発見(Discovering the secre
ts of DNA)」(Communications of the As
sociation for Computing Machinery(CA
CM)、第28巻、第11号、1164−1186ページ、1985年11月)
、その他に記載されたものを含むRNAの種を識別するバイオテクノロジ技術に
おける多くの手法が知られている。
【0021】 mRNAの同時配列固有の識別法を用いて、ターゲット生体から分離されたR
NA(例えば、新規な薬物が投与された細胞)が分析される。本発明の1つの望
ましい実施の形態においては、mRNAの同時配列固有の識別法に、参考のため
本文に援用される米国特許第5,459,037号および同第5,807,68
0号に記載された完全遺伝子表現分析法(TOGA)がもたらされる。しかし、
mRNAの配列固有識別法を提供するのに他の方法もまた用いることもでき、本
発明はmRNAのTOGA配列固有識別法に限定されることはない。
【0022】 本発明の1つの望ましい実施の形態においては、望ましくはTOGA法あるい
は他の方法の適用に先立ち、分離されたRNAが当技術で周知の方法により種に
なるポリA包含mRNAポピュレーションを形成するように濃縮される。このよ
うな望ましい実施の形態においては、TOGA法は更に、4つの5PCRプライ
マおよび逆の相補的RNA(cDNA)のポピュレーションから調製されたcD
NAテンプレートの一方を用いて行われる更なるポリメラーゼ連鎖反応(PCR
)ステップを含む。あり得る256の5PCRプライマと共通3PCRプライマ
の一方を用いる最終PCRステップが、PCR生成物として、種のmRNAポピ
ュレーションの3領域に対応するcDNA部を生じる。
【0023】 レーザにより生じる蛍光によるPCR生成物の検出を可能にするため、ラベル
(例えば、ダイ)がPCR生成物に組込まれる。PCR生成物からの分子を計測
可能な長さの個々のバンドへ分ける(例えば、図6参照)ために、ゲル電気泳動
法あるいは相当手法が用いられる。生成されたPCR生成物は、a)制限エンド
ヌクレアーゼ認識部位の残部に対し、認識部位の残部のヌクレオチド塩基配列、
あるいはmRNAから作られるcDNAの逆転写の3領域を裁断し分離するのに
用いられた制限エンドヌクレアーゼに加えて、望ましくは3つの直後に4つの分
析塩基のヌクレオチド塩基配列を含む最初の5つの配列、あるいは更に望ましく
は、フラグメント全体の配列により、およびb)フラグメントの長さによって識
別することができる。
【0024】 ヌクレオチド塩基配列の決定を含むPCR生成物データの処理は非常に複雑な
作業である。TOGA法が用いられるかどうかに従って、mRNA分子の終端付
近のヌクレオチド配列は各mRNAにほとんど一義的なアイデンティティを付す
。更に、PCR生成物に対するレーザが生じる蛍光信号の位置および強さに関す
るデータは、ディジタル化されて、対応する種となるmRNA種の存在と相対濃
度の決定に用いられる。例えば、PCR生成物データは、ディジタル情報を含む
データ・ファイルを生成することによりディジタル化される。このデータ・ファ
イルは、例えば、mRNAの識別に用いられた電気泳動パターンまたは他のデー
タの光の明るさのディジタル値(例えば、mRNAの分離に用いたチップ上のミ
クロ・アレイからのデータ)を含む。mRNA配列の検出および分析を助けるた
め、実験データを含むデータ・ファイルが処理される。本発明の1つの例示的な
望ましい実施の形態においては、実験データ処理システムが実験データの処理に
用いられる。
【0025】 本発明の1つの望ましい実施の形態においては、実験データは、DNA、cD
NA、cRNA、mRNA、あるいは他のポリヌクレオチドに対するポリヌクレ
オチド・データを含む。このポリヌクレオチド・データは、限定されないが、ヌ
クレオチド・フラグメントの長さ、ヌクレオチド・フラグメントの塩基組成、ヌ
クレオチド・フラグメントの塩基配列、ヌクレオチド・フラグメントのタグ付け
に用いるダイ・ラベル信号の強さ、あるいは他のヌクレオチド・データを含み得
る。しかし、本発明は、ポリヌクレオチド・データに限定されるものではなく、
他の実験データも用いることができる。 実験データ処理システムの事例 図1は、本発明の1つの例示的な望ましい実施の形態に対する例示的な実験デ
ータ処理システム10を示すブロック図である。この実験データ処理システム1
0は、コンピュータ・ディスプレイ14を有するコンピュータ12を含んでいる
。コンピュータ・ディスプレイ14は、ユーザに対するウインドウ型グラフィカ
ル・ユーザ・インターフェース(GUI)16を提供する。データベース18が
、バイオテクノロジの実験情報あるいは他の実験情報を含んでいる。このデータ
ベース18は、コンピュータ12におけるメモリ・システムと一体であるか、あ
るいはハード・ディスク、フロッピ・ディスク、光ディスクその他の不揮発性大
容量記憶装置のような2次記憶装置に含まれる。
【0026】 本発明の望ましい実施の形態におけるデータ処理システム10に対する動作環
境は、1つ以上の高速中央処理装置(CPU)およびメモリを備えた処理システ
ムを含んでいる。CPUは、電気的なものでも、あるいは生物学的なものでもよ
い。コンピュータ・プログラミング技術の当業者の慣例に従って、本発明につい
ては、他に断りがなければ、処理システムにより行われる行為および動作あるい
は命令の記号表示に関して以下に記述する。このような行為および動作、あるい
は命令は、「コンピュータが実行する」あるいは「CPUが実行する」ものとし
て表わされる。
【0027】 行為および記号で表わされる動作または命令は、CPUによる電気信号あるい
は生物学的信号の操作を含むことが理解されよう。電気的システムあるいは生物
学的システムは、電気信号あるいはバイオロジ信号の結果として生じる変換ある
いは実施を生じるデータ・ビットを表わし、これによりメモリ・システムにおけ
る記憶場所におけるデータ・ビットの保持がCPU動作ならびに信号の他の処理
の再構成その他の変更を行う。データ・ビットが保持される記憶場所は、データ
・ビットに対応する特定の電気的、磁気的、光学的あるいは有機的な特性を有す
る物理的な場所である。
【0028】 データ・ビットはまた、CPU可読である磁気ディスク、光ディスク、有機的
メモリ、および他の揮発性(例えば、ランダム・アクセス・メモリ(RAM))
あるいは不揮発性(例えば、読出し専用メモリ(ROM))大容量記憶システム
を含むコンピュータ可読な媒体上に保持される。コンピュータ可読な媒体は、処
理システムの外部に存在するかあるいは処理システムに対しローカルあるいは遠
隔である多数の相互接続された処理システム間に分配される共働するかあるいは
相互接続されるコンピュータ可読な媒体を含む。 分析バイオテクノロジ・データ 本発明の1つの例示的な望ましい実施の形態においては、レーザが生じる蛍光
および電気泳動による検出のため、ターゲットのバイオテクノロジ生成物(例え
ば、ポリヌクレオチドPCR生成物)に組込まれるラベルを用いて、バイオテク
ノロジ・データを取得する。しかし、実験のバイオテクノロジ・データの収集の
ため他の手法(例えば、ミクロ・アレイ)を用いることもできる。
【0029】 バイオテクノロジ生成物の表示された蛍光強さに基く複雑な多項目情報信号が
、結果として生じる実験データ・ファイルにディジタル・データとして含まれる
。このような多項目情報信号は、生の多項目ラベルの蛍光強さを含む。ラベル応
答は、スペクトル的に比較的広帯域であり、典型的にスペクトルの重なりを含む
。第2の蛍光応答として計測されるエネルギは、典型的に第1の蛍光応答の終り
にこれもまた存在し得るエネルギを含み、かつその逆もあり得る。
【0030】 このようなスペクトル的な重なりは、混成エネルギの相対量がターゲット・デ
ータ(例えば、ポリヌクレオチド・データ)を表わすデータの相対的な蛍光応答
として同程度の強さであり得るゆえに、除去される必要がある。例えば、2つの
蛍光応答間のスペクトル重なり領域に生じるならば、バイオテクノロジ生成物に
おける所与のポリヌクレオチド・データ・フラグメントに対する小さな蛍光応答
が「圧倒」されることもあり得る。本発明の例示的な実施の形態においては、ス
ペクトルの重なりが除去され、正規化された基底線がフィルタ処理手法の組合わ
せにより生成される。 スペクトルの重なりの除去およびデータの正規化 図2は、多項目データ信号のデータ正規化のための方法20を示すフロー図で
ある。ステップ22において、多項目データ信号が読出される。この多項目デー
タ信号は、変動する振幅を持つ変動するスペクトル特性の多数の個々のデータ信
号成分を含む。多数の個々のデータ信号成分は、多項目データ信号の各部内で重
なり合う。ステップ24において、スペクトル・フィルタが多項目データ信号に
適用されて多数の重なりのない個々のデータ信号成分を生じる。ステップ26に
おいて、多数の重なりのない個々のデータ信号成分における基底値に対するアン
ビギュイティを生じる多項目データ信号における多数の信号アーチファクトに対
し空間フィルタが用いられ、多数の重なりのない個々のデータ信号成分を均一な
基底値に空間的に修正して正規化する。
【0031】 本発明の1つの望ましい実施の形態においては、多項目データ信号の空間的特
性は、限定しないがダイ・ラベルの吸収スペクトル、ダイ・ラベルの放出スペク
トル、放出波長電力および励起レーザのパルス持続時間、あるいは他のスペクト
ル特性を含む物理的な属性および条件を含む。方法20のステップ24における
スペクトル・フィルタ処理は、ポリヌクレオチド・データ(例えば、mRNA、
cDNA、あるいはDNA)のタグ付けに用いられる異なるダイのスペクトル的
特性の重なりにより組合わされる生の蛍光強さの個々の成分の「デマルチプレキ
シング」すなわち分離を含む。ダイがタグ付けされたポリヌクレオチド・データ
あるいは他のデータは、「ダイ・タグ付き」と呼ばれる。しかし、方法20は、
ポリヌクレオチド・データからの蛍光強さの処理に限定されることがなく、多項
目データ信号を生成する他の種類のデータの処理に用いることができる。
【0032】 本発明の1つの例示的な望ましい実施の形態においては、スペクトルのフィル
タ処理は、種々のダイ・タグ付きの蛍光応答におけるエネルギが重なる相対度を
表わす1組の係数を用いる。このような係数の組の{m(p,q)}により表示
し、m(p,q)は、実際にp番目のダイ・タグ付きの蛍光応答の中心に対応す
る波長におけるq番目のダイ・タグ付きの蛍光応答による前記波長において計測
されるエネルギ量の測定値である。任意のこのような中心波長において計測され
るフィルタ処理されない総蛍光応答は、実際のダイ固有の蛍光応答の加重和であ
ると見なされる。p番目のダイ強さの中心波長におけるフィルタ処理されない計
測蛍光強さはA′(q)として表わされ、実際のダイ固有の蛍光強さはA(q)
として表わされる。これらの約束に照らして、式7は計測蛍光強さと実際の蛍光
強さとの間の関係を示す。
【0033】
【数7】
【0034】 スペクトル・フィルタは、係数マトリックスm(p,q)の特異値分解を用いて
式7における式の線系を反転することにより、実際の蛍光強さA(q)を抽出す
ることを含む。このスペクトル重なり係数m(p,q)およびフィルタ処理され
ない蛍光強さA′(q)は、典型的に、蛍光強さの生成および記録のため用いら
れる計装の校正の一部として計測から取得される。しかし、これらの値は他のソ
ースからも得ることができる。このような抽出は、方法20のステップ24にお
いて用いられる例示的なスペクトル・フィルタである。しかし、他のスペクトル
・フィルタもまた用いることができ、本発明は式7の逆数により示されるスペク
トル・フィルタに限定されるものではない。
【0035】 前記スペクトル・フィルタには、方法20のステップ26におけるスペクトル
・フィルタが後置される。本発明の1つの例示的な望ましい実施の形態において
は、スペクトル・フィルタは、1組の均一な基底値に対する強さを空間的に修正
し正規化する非線形形態グレースケールの「ローリング・ボール」の変態である
。しかし、他の種類の空間的フィルタもまた用いることができ、本発明は本文に
述べた空間フィルタに限定されるものではない。
【0036】 本発明の1つの例示的な望ましい実施の形態においては、蛍光強さを1組の均
一な基底値に空間的に「修正」し「正規化」する非線形形態グレースケール・ロ
ーリング・ボール変態は2つの段階を有する。第1の段階は、空間的限界がある
スケールより小さい局部的変化を排除するトレースのバージョンを生じる。この
スケールは、典型的な標準データのピーク値のトレースに沿って計測される限界
より僅かに大きくなるように選定され、従って結果として得るトレースは、ピー
ク値領域が標準ピーク値の空間スケールにありより小さなピーク値が平滑に低減
する元のトレースに非常に類似する。本発明の望ましい実施の形態においては、
データのピーク値は、最大振幅と幅により特徴付けられる少なくとも2つの次元
を持つエンティティを含む。データ・ピーク値は、最大振幅の半分における幅あ
るいは最大振幅の位置によっても記述される。
【0037】 このような固有の非線形プロセスは、第2の段階においてトレースの原点と平
滑バージョン間の差の形成が後続し、標準ピーク値およびそれ以下の空間的スケ
ールにおけるピーク値のある領域を含む均一な基底線の残部を残す。用語「ロー
リング・ボール」とは、トレースの平滑バージョンがこのようなフィルタ処理の
第1段階においてどのように形成されるかを示す。実際には、関心排除スケール
により設定される半径の「ボール」は、少なくとも1つのトレースとの接触点を
維持しながら最初にトレースの下側に沿って「転動」される。各試料インデック
ス(例えば、走査線)において、その中心が試料インデックス上にあるときボー
ルの最も高い点を取ることにより、新たなトレースが形成される。その後、各試
料インデックスにおいてその中心が試料において上にあるときボールの最下点を
取ることにより最後の新たなトレースが形成されるこのような新たなトレースの
最上部に沿った同じボールの通過が後続する。
【0038】 f(n)が試料インデックスnにおいて計測されるトレースの蛍光強さであれ
ば、fminはトレース全体における最小蛍光強さに等しく設定される。標準的な
ピーク値の空間的スケールは、N個の試料インデックス(例えば、N本の走査線
)より僅かに小さくなるように設定される。トレースは、式8に示されるように
新たなトレースf#(n)を形成することにより最初に「蚕食」される。
【0039】
【数8】
【0040】 式8から蚕食されたトレースf#(n)は、式9において示されるように「膨張
」される。
【0041】
【数9】
【0042】 試料インデックスnにおける元のトレースのローリング・ボールフィルタ処理さ
れたバージョンの蛍光強さは、式10に示されるようにf0(n)である。
【0043】
【数10】
【0044】 これは、フィルタの非線形性を考慮する最小値および最大値(例えば、式9およ
び4)を見出すシーケンスである。データ値は、1組の均一な基底値に正規化さ
れる。
【0045】 方法20を含む本発明は、バイオテクノロジ・データの多項目信号の処理およ
び正規化、あるいは式7−11によるデータ処理に限定されるものでなく、多項
目信号(例えば、電気通信信号、電気的装置に対する電気信号データ、光信号、
物理的信号あるいは他のデータ信号)からの他のデータに対しても用いることが
できる。
【0046】 本発明の1つの例示的な望ましい実施の形態においては、「制御」あるいは「
標準的」ポリヌクレオチド・データ・フラグメント(すなわち、既知のポリヌク
レオチド・データ・フラグメント)は、レーザ照射時に「赤い」蛍光に応答する
ダイでタグ付けされるが、「ターゲット」ポリヌクレオチド・データ・フラグメ
ント(すなわち、識別されるポリヌクレオチド・データ)は「青」に応答するダ
イでタグ付けされる。しかし、制御およびターゲットに対して用いられるダイも
また取り替えることもできる。赤と青の両方のダイ応答は、赤い蛍光応答として
計測されるエネルギがこれも存在し得る青の蛍光応答の終りにおけるエネルギを
含むか、あるいはその逆である程度に対してスペクトル的に比較的広帯域である
。このようなスペクトルの重なりは、混成エネルギの相対量がターゲットのポリ
ヌクレオチド・データおよび標準的なポリヌクレオチド・データ・フラグメント
の相対的な蛍光強さの度合いとなるゆえに考慮に入れられる。
【0047】 図3Aは、フィルタ処理されない多項目データ信号30のブロック図28であ
る。図3Aないし図3Dは、図2の方法20の使用を示すために用いられる。本
発明の1つの例示的な望ましい実施の形態においては、ためにデータ信号30は
、時間的に連続的な点における電気泳動ゲルにおける固定点の垂直軸32上の蛍
光の信号強さの測定値である。このような蛍光信号強さは、試料インデックスを
表わす水平軸34(例えば、走査線)上のパラメータに正比例する。しかし、他
の多項目信号データもまた使用でき、本発明はポリヌクレオチド蛍光強さのデー
タに限定されるものではない。所与の走査線における蛍光強さの大きさは、走査
の固定時点におけるタグ付けされた(例えば、赤または青のダイでタグ付けされ
た)ポリヌクレオチド・フラグメント量を表わすように示される。標準的なポリ
ヌクレオチド・フラグメントの蛍光強さのスケールは、約200個の蛍光装置の
狭いピーク値36により示され、これは水平軸34上の試料インデックス250
0付近の領域(例えば、2500本の走査線)において示される。本発明の1つ
の望ましい実施の形態においては、図3Aは、標準的な組のポリヌクレオチド・
フラグメントに対する多項目データ信号30を示す。
【0048】 図3Bは、図3Aの標準的な組のポリヌクレオチド・フラグメントに対するフ
ィルタ処理されない多項目データ信号30をより大きなスケールで示されたフィ
ルタ処理されない多項目データ信号として示すブロック図38である。図3Cは
、ポリヌクレオチドの目標セットに対する多項目データ信号44のフィルタ処理
されたバージョンを示すブロック図42である。ポリヌクレオチドの目標セット
(図3C)に対する多項目データ信号44のフィルタ処理されたバージョンは、
少なくともポリヌクレオチドの標準的セット(図3B)に対するフィルタ処理さ
れない多項目データ信号40より大きな程度の大きさである。
【0049】 スペクトルの重なり度は、図3Bのポリヌクレオチドの標準的セットに対する
フィルタ処理されない多項目データ信号40において、水平軸32における試料
インデックス2500(例えば、2500本の走査線)の領域における広いピー
ク値46のようなアーチファクトの存在により示される。図3Bの広域ピーク値
46は、図3Cの比較的狭いピーク値48と比較されるとき、このようなレベル
の蛍光強さを生じ得る赤のタグを付した標準ポリヌクレオチド・フラグメントが
ないので、青のタグを付したターゲットポリヌクレオチド・フラグメントからの
青の蛍光強さのスペクトル的な重なりによる。このような領域における曖昧な基
底線(例えば、2500本の走査線)は、関心の赤のタグを付したポリヌクレオ
チド・フラグメントを劇的に矮化する青のタグを付したポリヌクレオチド・フラ
グメントの「スペクトルのブリード・スルー」を示す。
【0050】 図3Dは、図3Aのポリヌクレオチド・フラグメントの標準的セットに対する
フィルタ処理されない多項目データ信号30に対する図2の方法20の適用を示
すブロック図52である。図3Aおよび図3Dは、同じ信号強さスケールを用い
て直接的な比較を可能にする。方法20のスペクトル・フィルタおよび空間フィ
ルタを図3Aの標準的セットのポリヌクレオチド・フラグメントに対するフィル
タ処理されない多項目データ信号30に対し印加することにより、均一な基底値
に正規化された図3Dにおけるクリーン・データのピーク値54、56、58、
60、62、64、66、68、70および72に注目されたい。図2の方法2
0はまた、図3Bのポリヌクレオチドのターゲット・セットに対する多項目デー
タ信号へ適用して、図3Dにおけるものと類似するクリーンなピーク値セットを
生じる(これは、図3には示されない)。 標準的サイズのデータ検出、エラーの除去およびクラッタの除去 図2の方法20により基底値へフィルタ処理されて正規化される多項目データ
信号は、不正なピーク値クラッタによる不正すなわち誤りのあるデータ・ピーク
値を依然として含み得る。このような誤りのあるすなわち不正なデータ・ピーク
値は、除去されなければ、実験結果を歪め得る。本発明の1つの例示的な望まし
い実施の形態においては、不正なピーク値クラッタの除去によるサイズ基準検出
を用いてバイオテクノロジ・フラグメント・データ(例えば、ポリヌクレオチド
・データ)のフィルタ処理されたセットから妥当なバイオテクノロジ・フラグメ
ントのデータ・セットを識別する。しかし、不正なピーク値クラッタの除去によ
るサイズ基準の検出は、バイオテクノロジ・フラグメント・データ以外のデータ
についても用いることができる。
【0051】 図4は、クラッタ除去の方法74を示すフロー図である。ステップ76におい
て、最初の閾値基準を用いて第1のセットのデータ点がフィルタ処理された(例
えば、図2の方法20を用いてフィルタ処理された)データ点セットから選択さ
れる。ステップ78において、多数のデータ点の重なりサブセットが第1のセッ
トのデータ点から選択される。ステップ80において、多数の線形マッピング法
が多数のデータ点の重なりサブセットに対し適用される。ステップ82において
、多数のエラー値が、データ点の多数の重なりサブセットに対する多数の線形マ
ッピングの適用から決定される。ステップ84において、最小のエラー値との重
なりデータ点の第1の最終サブセットが第1のデータ点セットから選択される。
重なりデータ点の第1の最終サブセットにおけるデータ点は、不正なデータ点が
除去された標準的範囲内に該当するデータ点を含む。
【0052】 本発明の1つの例示的な望ましい実施の形態においては、候補となるバイオテ
クノロジ・フラグメント・データにおけるピーク値は、中程度の変化に関する「
ミクロスケール」と「中程度の」平均的な蛍光強さレベル間の差の単純な比率に
おける閾値を用いて(例えば、方法20により)フィルタ処理された蛍光強さの
バイオテクノロジ・データにおけるステップ76(図4)において見出される。
しかし、他の閾値もまた用いることもできる。
【0053】 方法74において用いられるよう選定することができる、比較的大きなセット
数のフィルタ処理されたデータ点が典型的に存在する。このように、データ点の
適切なフィルタ処理されたセットの選定は、「組合わせ論」の問題である。先に
述べたように、組合わせ論は、データ点の有限セットに属する離散要素の構成、
それについての操作およびその選定と関連する。しかし、方法74は、データ選
定の組合わせ数を多数の線形マッピング法を用いて「最良の」可能な解へ減じて
、最良セットのデータ点を非常に多くのフィルタ処理データ点セットから生成す
ることを可能にする。方法74は、電気泳動ゲル・スケールの代わりにデータの
サブスケールにおけるデータ点の正確な選択を行い、これによりデータ選択の組
合わせ数を現世代の計算システムにおいて使用可能なレベルまで減じる。
【0054】 本発明の1つの例示的な望ましい実施の形態においては、「高さと幅」の比と
組合わされた「信号対雑音」の比がステップ76において用いられる。しかし、
他の初期閾値もまた用いることができ、本発明はその内に述べた初期閾値に限定
されることはない。この初期閾値は、本発明の1つの例示的な望ましい実施の形
態において初期閾値の概要として用いられ、不正な基準のバイオテクノロジ・フ
ラグメント(例えば、ポリヌクレオチド・フラグメント)のピーク特性の同様な
セットを識別する。初期閾値外のデータは、以下に図5に示されるように除去さ
れる。所与の候補の実際の試料インデックスの規定は、これが一義的であるかあ
るいは特徴間隔の空間的中心であるならば、ピーク特性の極大の候補であると見
なされる。
【0055】 図5は、図2からの方法20を用いてフィルタ処理され正規化された多項目デ
ータ信号を示すブロック図86である。ポリヌクレオチド・データ・フラグメン
トに対するサイズ基準の検出における難しさを示すため、図5は人為的に受入れ
得るデータのピーク値の比較的クリーンなセットを示している。しかし、信号対
雑音の基準は満たすがデータのピークの決定のため用いられる高さ対幅の基準は
満たさない試料インデックス1400および3250付近の特徴点88および9
0がある(図5のアイテム88、90は図6のアイテム98、100に対応する
)。特徴点88、90は、ステップ76における初期の基準で除去される。しか
し、試料インデックス2700付近には初期の基準は満たすが当該バイオテクノ
ロジ・データのトレース例に対する妥当な基準ピーク値ではない特徴点92、9
4もある(図5のアイテム92、94は図6のアイテム102に対応する)。こ
れらの特徴点92、94は、実験が行われるごとに再生可能な結果を可能にする
ため、ステップ78−84において方法74の残部により除去される。妥当な基
準ピーク値セット(例えば、ポリヌクレオチド・データ・フラグメントに対して
)を生成するようにこのような妥当でないピーク値を一貫して除去することが望
ましい。
【0056】 本発明の1つの例示的な望ましい実施の形態においては、ポリヌクレオチド・
データ・フラグメントの記録のため用いられるゲル電気泳動の物理的作用をモデ
ル化は、ドリフトを含むフィックの拡散法を用いて行われる。しかし、他のモデ
ル化手法も用いることができ、本発明はドリフト込みフィックの拡散法に限定さ
れるものではない。当技術において周知のように、フィックの拡散法は、濃度勾
配に正比例するある面の単位面積を横切る拡散流速について記述するフィックの
法則により支配される分子的拡散である。フィックの拡散法の更なる情報につい
ては、共に参考のため本文に援用される、H.P.McKeanおよびK.It
o著「拡散プロセスおよびその試料経路(Diffusion Process
es and Their Sample Paths)」(Springer
Verlag、1996年、isbn−3540606297)、あるいはJ
.Crank著「拡散の数学(Mathematics of Diffusi
on)」(Oxford University Press、1975年、I
SBN−0198534116)を参照されたい。
【0057】 ゲルにおけるフィック拡散法を用いて、拡散のドリフト特性がゲルにおける固
定点におけるその最大濃度の到達時間と関連付けられる。関心となる線形分子に
ついては、このような構成はポリヌクレオチド・データ・フラグメントに対する
少なくとも3つの顕著なモデル予測を導く。第一に、ポリヌクレオチド・データ
・フラグメントは、そのサイズに反比例する速度でドリフトする。第二に、希薄
な混合物の場合、蛍光のピークの高さがポリヌクレオチド・データ・フラグメン
ト・カウントに比例する。最後に、これら両方の比例性はポリヌクレオチド・デ
ータ・フラグメントのサイズとは独立的である。生物分子学的なサイズ分析にお
けるゲル電気泳動値は、これらの予測が条件および分子の非常なバラエティに対
して妥当する計器およびプロトコルを設計することが可能であるという事実によ
る。
【0058】 本発明の1つの例示的な望ましい実施の形態においては、既知のサイズの標準
的なポリヌクレオチド・フラグメント・セットを混成することで、不正なピーク
値のクラッタを排除する手段を提供する。フラグメント・サイズとドリフト速度
間の反比例性がフラグメント・サイズに依存し、かつ標準的なフラグメント・セ
ットが既知かつ順序付けられ、その走査線の場所の関数として標準的なフラグメ
ント・サイズのプロットを通って引かれる直線がクラッタであるこれらデータの
ピーク値を明らかにするはずである。クラッタのピーク値は、1本の線に妥当せ
ずあるいは非常に近づくこともなく、あるいはこれらピーク値が他のデータの大
きな部分を失わせることになる。
【0059】 クラッタ排除に対するこのような試みについては、バイオテクノロジ・データ
に用いることには少なくとも2つの問題が残る。第一に、候補のピーク値から妥
当なピーク値の適切なサブセットをすばやく選定する組合わせ論の可能性は、現
在入手可能な計算システムにおいては計算的に不可能かあるいは禁制的であり得
る。第二に、フラグメントおよびドリフト速度の大きさの反比例性がフラグメン
ト・サイズとはまさに独立的である程度は、ゲル特性がある観察期間にわたり一
貫しかつ均一である程度に依存する。
【0060】 図6は、標準的なポリヌクレオチド・フラグメントで同時にロードされたゲル
における1組のレーンに対する一連の走査のためのフィルタ処理された標準的ポ
リヌクレオチドの蛍光応答を示すブロック図96である。ゲルの物理的エッジは
このイメージのエッジに対応し、任意の1つのレーンにおける明るいバンドはこ
のレーンにおける候補の標準的フラグメントの走査線の場所を表わしている。例
えば、試料インデックス2000(図6)付近の3本の走査線は試料インデック
ス2000(図5)付近の3つのデータのピーク値を表わす。レーン10、19
、25の略々中心における、イメージを横切って伸びるバンドに属しない比較的
小さな明るい特徴点98、100、102に注目されたい。これらは、問題とな
る「不正なピークのクラッタ」の事例である。例えば、アイテム98(図6)は
不正ピーク値88(図5)に対応し、アイテム100は不正ピーク値90(図6
)に対応し、アイテム102(図6)は不正ピーク値92、94(図5)に対応
している。
【0061】 ゲルの特性がある連続走査期間にわたりゲル全体で均一であったとすると、明
るいバンドは厳密に水平(例えば、事例の水平な破線104)であることになる
。バンドばかりでなく水平でもないばかりでなく、バンドが湾曲する程度は時間
の関数として増大し、レーザ走査線のインデックスが時間的に遅れて生じる走査
に対応する。ゲルにおいてドリフトするフラグメントは、印加された電界の影響
下で抵抗媒体を通して動く荷電粒子である。このような仮想的な電気泳動ゲルに
おいて結果として生じる特性的な「スマイル(smile)」(例えば、走査線
106対水平線104)は、このような時間的な電流によるゲルの異なる発熱に
よるものであり、ゲルのエッジが更に中心方向の領域よりも熱を更に効率的に放
散する。
【0062】 標準的なフラグメント・サイズの直線的に整合されたセット(例えば、マスク
)が小さいほど、妥当なサブセットの選定(例えば、マスクのフリッカーリング
)の結果として生じる組合わせ論が更に扱いやすくなる。各マスクが添付される
ゲルの重なり領域については、関連ゲルの特性が更に均一かつ一貫して特定され
るようになる。
【0063】 本発明の1つの例示的な望ましい実施の形態においては、所与の1組の候補と
なる標準ピーク値走査線の場所が、先に要約した初期の閾値基準によってステッ
プ76において取得される。このような実施の形態においては、クラッタおよび
不正ピーク値の排除は、ステップ78において設定される完全に標準的なサイズ
の適正な重なりサブセットの選定によって進行する。
【0064】 ステップ78において、線形マッピング法がデータ点の多数の重なりサブセッ
トに対し適用される。ピークがそれぞれ走査線{nb、nb、nc}において生じ
る標準サイズ{Ma、Mb、Mc}の3つの順序付けられた順次のエレメント・セ
ットの場合、線形回帰法が、式11において示されるようなフラグメント・サイ
ズに対し走査線nxの予測線形マッピング法をもたらす。しかし、他のセット・
サイズおよび線形マッピング法もまた用いることができ、本発明は式11におけ
る線形マッピング法に限定されるものではない。
【0065】
【数11】
【0066】 係数{μ(j) abc}は、(サイズ、走査線)ペアの特定セットの関数である。任意
の走査線nが2つの隣接する標準ピークの走査線の場所{nb、nc}の間にある
と、ローカル・サザーン(Sourthern)線形マッピング法が式12に示
されるようにフラグメント・サイズを関連付ける。しかし、他の線形マッピング
法も用いることができ、本発明は式12に示されるローカル・サザーン線形マッ
ピング法に限定されるものではない。
【0067】
【数12】
【0068】 セット{Mb、Mc、Md}は、最も左の重なり「abc」および順次セット{Ma 、Mb、Mc}に対する最も右の重なり「bcd」および標準サイズの順次セット
であり、標準サイズのピーク値に対する前者が走査線{nb、nc、nd}におい
て生じる。標準的ピーク・サイズ(すなわち、データ点の値)および走査線の場
所(すなわち、データ点)のこのような関連付けにおける個々の誤差は、式13
により示される差として計算される。
【0069】
【数13】
【0070】 ステップ82において、多数の誤差値(例えば、式13)が多数の線形マッピ
ング法(例えば、式12)のデータ点の多数の重なりサブセットへの適用から決
定される。本発明の1つの望ましい実施の形態においては、各局所適合の「適合
度(goodness)」の平均2乗平方根(RMS)の誤差評価がそれらのラ
ンク付けを可能にする。しかし、他の誤差評価法も用いることができ、本発明は
RMSに限定されるものではない。
【0071】 標準的なバイオテクノロジ・フラグメント・サイズのセットに対する1組のピ
ーク走査線の場所が与えられると、線形回帰法を用いて、直線が、3つの隣接フ
ラグメント・サイズのあり得るセットに3つの関連する隣接走査線の場所の関数
として適合する。所与の走査線に関連するフラグメント・サイズに対するこの所
与の走査線の局所線形マッピング法が、これら3つの点の線形適合の2つの最も
関連するものを平均化することによって形成される。
【0072】 第1の関連する適合が、所与の走査線より小さな2つの最も近い標準走査線、
および更に大きな1つの最も近い標準走査線を含む。第2の関連する適合は、所
与の走査線より大きい2つの最も近い標準走査線、およびより小さい1つの最も
近い標準走査線を含む。K(サイズ、走査線)ペア{(Mn(k)、n(k))}に
わたる総合RMS誤差が式14に示される。
【0073】
【数14】
【0074】 任意の1つの標準サイズに対する総合誤差と任意の1つの標準サイズに対する
誤差の両者がある誤差閾値より小さいことを前提として、最も小さい総合RMS
誤差を生じる走査線の場所の1組のサブセットがステップ84において選定され
る。これらの誤差閾値が標準サイズの完全セットに対する走査線の場所の任意の
サブセットにより満たされるならば、標準サイズ・セットのサイズは1だけ減じ
られ、誤差の計算が反復される。標準走査線の場所のあり得るサブセットに対す
る局所線形適合を評価するこのような方法は、減じられたサイズのあり得る標準
サイズ・セットにわたり反復される。RMSプロセス(例えば、式14)は、誤
差閾値基準が満たされるまで、あるいは標準サイズ・セットの減じられたサイズ
が小さくなり過ぎるまで、反復される。最終サイズ・セットにおける所与の数の
隣接する空隙より多くを阻止する完全な標準サイズ・セットのサブセットに対す
る選定基準もある。
【0075】 図7は、図4の方法74からの不正ピーク・クラッタ排除を持つサイズ標準検
出を用いて例示的なバイオテクノロジ・ピーク(例えば、ポリヌクレオチド・ピ
ーク)を示すブロック図108である。標準バイオテクノロジ・ピーク(例えば
、既知のポリヌクレオチド・データ・シーケンスに対する試料インデックス)が
破線の垂直線により表示される間に、方法80(図4)により識別されたバイオ
テクノロジ・フラグメント・ピーク値110、112、114、116、118
、120、122、124、126、128を目標とする。例えば、データのピ
ーク110を通る破線は、既知のポリヌクレオチドの強さを表わす。信号対雑音
の基準は満たすが高さ対幅の基準は満たさない走査線1400および3250付
近の不正ピーク値88、90(図5)は、方法80のステップ76において初期
基準により適正に識別され除去される。不正ピーク値92、94(図5)は、方
法80の残りのステップによりクラッタとして適正に識別され除去される。ター
ゲット・データに対するデータ・ピーク値(例えば、114、118、122)
の幾つかは既知のデータに対する破線上に正確に並ばないことに注目されたい。
【0076】 方法74(図4)はまた、多くの非常に強力かつ便利な品質管理処置の適用を
可能にし得る。第一に、方法74は、サイズの校正を暗黙にブートストラップす
る。これは、蛍光強さデータの品質を正確な校正に対するその感度から即座に評
定することを可能にする。これは、実験データとその生成時に示唆されるプロセ
スの良好な物理モデルとの間の適合度の有効な手段であり得る。第二に、受入れ
得る誤差のある1組の局所線形マッピングを生じる際に最初のセットから検出す
ることができるサイズ標準フラグメントの総数と分布の両者には限度が与えられ
る。最後に、不正ピークのクラッタは通常、残留スペクトル・ブリードスルーか
、あるいは更に所与のレーンに対して問題となるのは、実際に隣接レーンに属す
る標準フラグメント・セットのいずれかにソースを有するものと仮定される。後
者の現象は、「朗話」として知られる。どれだけ多くの候補となる標準ピーク走
査線の場所が隣接レーンに共存するか、ならびにどれだけ多くの検出された標準
ピークが方法74の適用後でも隣接レーンに同時に見出されるかを共に追跡する
ことにより、更に別の有効なデータ品質措置を形成することが可能となる。この
措置は、これが実質的にそれ自身の統一性を満たすゆえに、特にクラッタ排除に
関連する。 データ・サイズの校正および調整 フィルタ処理された不正ピーク・クラッタ除去されたデータ(例えば、ポリヌ
クレオチド・フラグメント出力)の実際のサイズおよび場所は、典型的に、実験
データを更に正確に視覚的に表示させるように調整される。このような調整は、
視覚的表示のための更に正確なデータ値を提供する。例えば、既知のデータ・ピ
ーク値上に正確に並ばない図7に示されるターゲット・データ・ピークが調整さ
れる。
【0077】 図8は、データ・サイズ校正および調整んとあめの方法130を示すブロック
図である。ステップ132において、最小誤差値を持つ重なりデータ点の第1の
最終サブセットが、第1のデータ点セットからの標準的なデータ点セットとして
選定される。重なりデータ点のこの第1の最終サブセットにおけるデータ点は、
標準的な範囲内に該当する値を持ち、かつ不正データ点が除去された場合のデー
タ点を含む。ステップ134において、更に高度のマッピング法が、データ点の
第1の最終サブセットに対し適用されて、重なりデータ点の最終サブセットに対
する最小誤差値を更に減じかつデータ点の第2の最終サブセットを生成する。
【0078】 本発明の1つの望ましい実施の形態においては、重なりデータ点の第1のサブ
セットが方法74(図4)の適用によりステップ132において選定される。し
かし、重なりデータ点の最終サブセットの選定のためには他の方法も用いること
ができ、本発明は方法74の適用に限定されるものではない。
【0079】 ステップ132において、ローカル・サザーン法を含む方法74(例えば、式
11および12)の適用から選定される重なりデータ点の第1の最終サブセット
が、予め決定される精度(例えば、典型的に、ポリヌクレオチド・フラグメント
・データに対する1つまたは2つの塩基対より優れるものではない)を持つデー
タのサイズ校正を行う。データ点が予め決定された品質管理制限以内にステップ
132で校正することができるならば、ローカル・サザーン校正法の後に、ステ
ップ134において更に高度のマッピング法が後続し、これが校正誤差を更に低
減する。本発明の1つの例示的な望ましい実施の形態においては、校正誤差はゼ
ロまで低減される。本発明の別の例示的な望ましい実施の形態においては、この
校正誤差はゼロに近い非常に小さな値まで減じられるが、ゼロには至らない(す
なわち、ゼロより僅かに大きい)。
【0080】 方法130は、回帰法の局所統計的な頑健性(すなわち、外れ値のその自然棄
却による)と、より高度な方法(例えば、更に高次のスプライン関数)により可
能な精度とを組合わせる。本発明の1つの例示的な望ましい実施の形態において
は、正確かつ再現可能な結果を提供するために校正バイオテクノロジ・データに
おける絶対精度が望ましい。しかし、本発明はまた、相対精度のみが求められる
場合にも用いることができる。
【0081】 ステップ134において、ローカル・サザーン法、およびこの線形すなわち1
次ローカル・サザーン法の2次生成からの残留誤差で用いられる。本発明の1つ
の例示的な望ましい実施の形態においては、局所象限すなわち2次マップが、ロ
ーカル・サザーン法に対して用いられた(フラグメント・サイズ、走査線の場所
)ペアの同じ3要素セットに対する残留誤差を用いて構成される。しかし、本発
明は、2次マップに限定されるものではなく、更に高次(例えば、3次、4次、
など)のマップもまた用いることができる。
【0082】 2次マッピング法が3つの係数、すなわち3つの「自由度」を持つので、3ペ
アの各セットに対するこの3要素誤差は、主として非常に正確な方法において考
慮することができる。誤差の数字の大きさにおける計算的な縮退は、3つのデー
タ点に2次式を適合させるとき、従来の最小2乗法が生じる式の線系を解くため
単値分解法を用いることにより達成される。
【0083】 特定の走査線の場所と関連するサイズのローカル・サザーン近似法が与えられ
ると、これらの第2の3点2次適合の2つの最も関連したものを平均化すること
により、加法訂正のより高次なマッピングが形成される。所与の走査線より小さ
な2つの最も近い標準走査線と更に大きい1つの最も近い標準走査線に対する第
1の近似法。所与の走査線より大きい2つの最も近い標準走査線および更に小さ
い1つの最も近い標準走査線に対する第2の近似法。各2次適合が関連付ける3
つの標準フラグメント・ピーク値の走査線の場所において局所的に正しいので、
これらのピーク値の場所における任意の2つの適合を平均化もまた正しく、これ
が検出される標準フラグメント・セットに対する絶対的に正確な内挿法をもたら
す結果となる。
【0084】 走査線nに対しては、ローカル・サザーン法(例えば、式11および式12)
がフラグメント・サイズM′nを標準ピーク値の場所における誤差εnと関連させ
る。前述のローカル・サザーン法の論議に対して用いられる同じ表記法および規
約によれば、最小2乗法が、式15に示されとような標準サイズの最も左の順次
セットに対する任意の1つの標準ピーク値の場所における誤差の正確な2次マッ
ピングを与える。しかし、他の方法も用いることができ、本発明は、最小2乗法
に限定されるものではない。
【0085】
【数15】
【0086】 標準サイズの最も右の順次セットに対する任意の1つの標準ピーク値の場所にお
ける誤差の正確な2次マッピング法が式16に示される。
【0087】
【数16】
【0088】 両方の係数セット{γ(j) abc}および{γ(j) bcd}は、それら各々の(サイズ、
走査線)ペアの特定セットと誤差εnの関数である。2つの隣接する標準ピーク
値走査線の場所{nb、nc}にある任意の走査線nでは、更に高次の残留マッピ
ングが、式17に示されるようなローカル・サザーン法のサイズ連関に補正係数
δnを加算する。
【0089】
【数17】
【0090】 本発明の1つの望ましい実施の形態においては、このようなδn補正すなわち
高次のマッピング法が、標準ピーク値の特徴点の走査線の場所において正確であ
る正味の連関を与える。しかし、本発明は、このようなδn補正の特徴点に限定
されるものではなく、他の補正特徴も用いることができる。
【0091】 図9Aおよび図9Bは、図8からの方法130を用いるデータ・サイズ校正を
示すブロック図136、138である。図9Aは、方法130(図8)の適用前
の(例えば、未知のポリヌクレオチド配列に対する)例示的なデータ・ピーク値
140を示している。このデータ・ピーク値140は、所望の場所が破線で示さ
れる関連する所望データ・ピーク値の場所142(例えば、既知のポリヌクレオ
チド配列に対する)から僅かにずれており、これは所望の実験から得るデータ・
セットに対する誤差がなければ達成されることになる。図9Bは、方法130(
図8)の適用後の例示的なデータのピーク値144を示している。このデータ・
ピーク値は、方法130の適用後に所望のデータ・ピーク値の場所142上に更
に正確に整合される。
【0092】 図9Aおよび図9Bは、唯一つの例示的なデータ・ピーク値を示す。しかし、
方法130は、(例えば、図4の方法74により生じる)重なり合うデータ点の
最終サブセットにおける全てのデータのピーク値(例えば、図3Dの54、56
、58、60、62、64、66、68、70、72)に対し適用されて、視覚
的に表示される1組のデータ点に対する誤差を更に減じる。方法130は、所望
の実験の実行結果として生じ得るデータの誤差を更に減じることにより表示され
分析される1組のデータ点を改善し得る。
【0093】 サイズが決められ調整されたデータのピーク値は、依然としてデータの「スタ
ッタ(stutter)」を含み得る(図11A参照)。例えば、図面に示され
るデータ・ピーク値は「平滑な」データ・ピーク値として示される。しかし、実
際のデータ・ピーク値は典型的に、実際のデータの関数である多くの小ピーク値
を含む。この多数の小ピーク値、すなわちデータのスタッタは視覚的表示前に除
去することが望ましい。 データの大きさの低減およびデータ平滑化 当技術において周知のバイオテクノロジ装置の今日の生成において、ゲル電気
泳動からの走査線は、サイズの校正後にある大きさだけサイズが決められたトレ
ースの過剰解をもたらす結果となる速さで形成される。すなわち、連続的な各基
底値ペア間に約10本の走査線が生じる。更に、バイオテクノロジ・フラグメン
ト(例えば、ポリヌクレオチド・フラグメント)は典型的に、整数基底値ペアの
幅の明瞭に分離されたピーク値ではなく、最大フラグメント・サイズ付近にまと
めて生じる。このことは、図3Cにおけるバイオテクノロジ・フラグメントのト
レース時により広くかつ更に複雑なピーク値の特徴点(例えば、特徴点44)の
図3Dにおける狭くかつ更に簡単な標準フラグメント・ピーク値(例えば、デー
タ点68)との比較によって判る。
【0094】 ウインドウ型のディスプレイ16における全分解能でのこれらの複雑なバイオ
テクノロジ・フラグメント・トレースの表示は、現世代のコンピュータ・モニタ
ーおよびグラフィックス表示システムに課された不可避的な諸制限によって更に
複雑になる。その結果、表示するグラフィック・イメージの生成前に、結果とし
て得るフラグメントの「スタッタ」を緩和することによりウインドウ型ディスプ
レイ16における表示のためのデータ点の視認性を強調する「エンベロープ検出
器」を用いてバイオテクノロジ・データ点が更に減殺されて平滑化される。
【0095】 図10は、エンベロープ検出のための方法146を示すフロー図である。ステ
ップ148において、エンベロープ基準が、重なりデータの第1の最終サブセッ
トから生成される重なりデータの第2の最終サブセットのサブサンプリングのた
め確立される。重なりデータ点の第2の最終サブセットは、標準サイズ内に該当
するように調整されている。重なりデータの第2の最終サブセットの著しい特徴
は、エンベロープ基準内に保存される。ステップ150において、エンベロープ
基準が用いられて、重なりデータの第2の最終サブセットにおけるデータ値の数
を少なくとも1次の大きさだけ圧縮し、データ・スタッタを低減し、重なりデー
タの第3の最終サブセットを生成する。
【0096】 本発明の1つの例示的な望ましい実施の形態においては、重なりデータの第2
の最終サブセットが、先に述べた方法20(図2)、方法74(図4)、および
方法130(図8)の適用により生成される。しかし、本発明はこれらの方法に
より生じる重なりデータ・セットに限定されるものではなく、当技術において知
られる他の方法により生成される、ウインドウ型ディスプレイ16に表示される
他のデータ・セットもまた方法146(図9)で用いることもできる。
【0097】 本発明の1つの例示的な望ましい実施の形態においては、ステップ148にお
いて確立されるエンベロープ基準は、略々大きさの程度にデータ・サイズの分解
能を圧縮してデータ・スタッタを除去する「非線形ボックス・カー極値」フィル
タに基くものである。しかし、他のエンベロープ基準もまた用いることができ、
本発明は非線形ボックス・カー極値フィルタに限定されるものではない。
【0098】 本発明の1つの望ましい実施の形態においては、ウインドウ型ディスプレイ1
6に対するグラフィック・イメージが、トレースにおける各点が整数の基底値ペ
アのサイズにおいてサンプルされた、略々1つのポリヌクレオチド塩基ペアのサ
イズ分解能を示している。ステップ150において、ボックス・カー・エンベロ
ープ検出器が、最初にサイズ校正された全分解能トレース・データをこれら整数
サイズを中心とする連続領域へ区分する。用語「ボックス・カー」とは、これら
の隣接する不連続領域の形をサイズ軸に沿って終端同士で整合されたボックス・
カーを反映している。
【0099】 トレース・エンベロープは、所与のボックス・カーにおけるサイズと関連する
信号強さをそれらの最大値で置換することによって形成される。これは、多数対
1の置換であり、すなわち全分解能データにおける整数基底値ペアと関連する走
査線の平均数に基く「デシメーション」である。望ましくは、このようなデシメ
ーション因子は、約10対1である。しかし、他のデシメーション因子も用いる
ことができる。
【0100】 本発明の1つの連続的な望ましい実施の形態においては、ステップ150にお
いて、エンベロープ基準f kが式18において用いられる。
【0101】
【数18】
【0102】 式18における表記および規約は、先に述べた式7−17からの表記を反映して
いる。例えば、f0は式10により決定され、M′nは式12により、δnは式1
7により決定される、などである。
【0103】 図11Aおよび図11Bは、図10の方法146を用いるエンベロープ検出を
示すブロック図152、154である。図11Aは、ターゲット・データ・ピー
ク158付近に生成されるエンベロープ156を示す。データの「スタッタ」は
、ターゲット・データ・ピーク158の左側(すなわち、試料インデックス20
00に向って)の2つの小さなピークと、右側(すなわち、試料インデックス2
500に向って)の1つの小さなピークとにより示される。図11Bは、方法1
46の適用後の新たなデータ・ピーク160を示している。この新たなデータ・
ピーク160におけるデータ点の数は、大きさの程度により減じられ、データ・
ピーク158の「スタッタ」が除去されている。図11Aおよび図11Bは、唯
一つの例示的なデータ・ピークを示している。しかし、方法150は、重なりデ
ータの第2の最終サブセットにおけるデータ・ピークに対し用いられる。先に述
べたデータ・ピーク値もまた、典型的にデータの「スタッタ」を含んでいる。し
かし、図11A以外のデータ・ピーク値は平滑に示され、方法146の使用前に
は存在したデータのスタッタは示さず、このようなデータ・ピーク値の図示を簡
素化している。
【0104】 方法146は、フラグメントの「スタッタ」を生じる結果となることを緩和す
ることによってウインドウ型ディスプレイ16において表示されるデータ点の視
認性を更に強化する。データ点の数もまた表示を容易にするため適正量(例えば
、大きさの程度で)だけ減じられる。 一般的多項目信号データの処理 本発明あの1つの例示的な望ましい実施の形態においては、一般的多項目デー
タ信号は、ディスプレイ装置14のウインドウ型ディスプレイ16上の表示に適
する1つのターゲット実験のための1組のデータ・ピーク値を生じるように処理
することができる。このような実施の形態においては、一般的多項目データ信号
は、一般的な多項目のバイオテクノロジ・データ信号を含む。しかし、本発明は
、一般的多項目バイオテクノロジ信号データの処理に限定されるものではなく、
他の信号(電気通信信号、電気装置の電気信号データ、光学的信号、物理的信号
、あるいは他のデータ信号)のデータも処理することができる。
【0105】 図12Aおよび図12Bは、実験データの処理のための方法162を示すフロ
ー図である。図12Aのステップ164において、多項目データ信号が読出され
る。この多項目データ信号は、色々なスペクトル特性および色々な振幅の多数の
個々のデータ信号成分を含んでいる。この多数の個々のデータ信号成分は、多項
目データ信号の各部内で重なりを有する。ステップ166において、多数の重な
らない個々のデータ信号成分を生じるため、多項目データ信号に対してフィルタ
が用いられる。このフィルタはまた、多数の重ならない個々のデータ信号成分に
おける基底値に対しアンビギュイティを生じる多項目データ信号における多くの
信号アーチファクトをフィルタ処理して、多数の重ならない個々のデータ信号成
分を基底値の均一なセットへ修正し正規化する。ステップ168において、多数
の重ならない個々のデータ信号成分からのデータ点の多数の重なりサブセットに
用いて、最も小さなエラー値を持つ重なりデータ点の第1の最終サブセットを選
定する。重なりデータ点の第1の最終サブセットにおけるデータ点は、標準範囲
内に該当し不正データ点が除去されたデータ点を含む。
【0106】 図12Bのステップ170において、多数の格子のマッピング法を重なりデー
タ点の第1の最終サブセットに用いて、重なりデータ点の最終サブセットに対す
る最小のエラー値を更に減じてデータ点の第2の最終サブセットを生成する。ス
テップ172において、エンベロープ基準を用いて、重なりデータの第2の最終
サブセットにおけるデータ値の数を少なくとも大きさにより圧縮し、データのス
タッタを低減し、重なりデータの第3の最終サブセットを生成する。重なりデー
タの第2の最終サブセットの著しい特徴点は、エンベロープ基準内に保存される
。重なりデータの第3の最終サブセットは、ディスプレイ装置14におけるウイ
ンドウ型ディスプレイ16に適している。
【0107】 方法162は、バイオテクノロジ実験および他の技術の実験からの多項目デー
タ信号の処理の自動化を可能にする。多項目データ信号が入力されると、ウイン
ドウ型装置での表示に適する多数のデータ・ピーク値を持つ重なりデータの第3
の最終サブセットが自動的に生成される。これは、典型的に信頼できないすなわ
ち不正な結果を導く実験データ処理における不一致を低減しあるいは除去するこ
とを助ける。
【0108】 本発明の1つの例示的な望ましい実施の形態においては、多項目データ信号は
、DNA、cDNAあるいはmRNAを含むポリヌクレオチド・データに対する
多項目の蛍光強さを含んでいる。しかし、本発明は、ポリヌクレオチド・データ
に対する多項目データ信号あるいは他のバイオテクノロジ・データに限定される
ものではなく、また他の技術からの多項目データ信号(電気通信信号、電気装置
に対する電気信号データ、光学的信号、物理的信号、あるいは他のデータ信号)
も用いることができる。
【0109】 本発明の更に別の例示的な望ましい実施の形態においては、方法20(図2)
をステップ164、166(図12A)において、方法74(図4)をステップ
168(図12A)において、方法130(図8)をステップ170(図12B
)において、方法142(図10)をステップ172(図12B)において用い
ることにより、方法162が達成される。しかし、本発明は、これら方法の全て
のステップを用いて方法162(図12Aおよび図12B)を達成することに限
定されるものではない。方法162は、これらの方法から選定されるステップを
用いることによって達成することができる。
【0110】 図13Aおよび図13Bは、図12Aおよび図12Bの方法162を示すブロ
ック図174、176である。図13Aは、関心の多項目データ信号178を示
している。図13Bは、方法162による処理後に多項目データ信号からの予め
選定される所要のデータ・ピーク値180、182、184、186、188、
190、192、194、196、198、200のセットを示している。多項
目データ信号は、フィルタ処理され、予め定めたサイズに正規化され、不正なピ
ーク値、誤差およびデータのスタッタが除去され、平滑化され、大きさによりデ
ータ値の数が減じられる。処理された所望のデータ・ピーク値は、ディスプレイ
装置14のウインドウ型ディスプレイ16上の表示に適するものである。
【0111】 本発明の1つの例示的な望ましい実施の形態においては、所望のデータ・ピー
ク値180、182、184、186、188、190、192、194、19
6、198、200(図13B)がポリヌクレオチド・フラグメントのピーク値
(例えば、DNA、cDNAあるいはmRNA)である。しかし、本発明は、ポ
リヌクレオチド・フラグメント・データを含む多項目データ信号に限定されるも
のではなく、他の実験情報を含む他の多項目データ信号(例えば、電気通信信号
、電気装置に対する電気信号データ、光学的信号、物理的信号、あるいは他のデ
ータ信号)も用いることができる。 例示的な多項目データ処理システム 図14は、例示的な多項目データ処理システム202を示すブロック図である
。この多項目データ処理システムは、データ・サンプルおよび基準校正モジュー
ル204と、光学的ブロードバンド信号収集モジュール206と、記憶モジュー
ル208と、フィルタ処理および基底線モジュール210と、基準およびサンプ
ル校正モジュール212と、表示モジュール214とを含んでいる。
【0112】 データ・サンプルおよび基準校正モジュール204は、既知のターゲットとな
るバイオテクノロジ試料の処理のために用いられる。光学的ブロードバンド信号
収集モジュール206は、バイオテクノロジ生成物のレーザを生じる蛍光が用い
られるとき多項目データ信号から実験データを収集するために用いられる。本発
明の別の実施の形態においては、光学的ブロードバンド信号収集モジュール20
6は、レーザが生じる蛍光の代わりに他の技術(例えば、ミクロ・アレイ)が用
いられるならば、取除くことができる。記憶モジュール208は、実験データの
記憶に用いられる。フィルタ処理および基底線モジュール210は、レーザが生
じる蛍光が用いられるならば、スペクトルの重なりを除去し実験データを正規化
するために用いられ、あるいは他の技術(例えば、ミクロ・アレイ)が用いられ
るならば、他のフィルタ処理および基底線の実施のために用いられる。
【0113】 基準およびサンプル校正モジュール212は、不正ピーク値およびクラッタが
除去された標準サイズの検出、データ・サイズの校正、エンベディングの検出お
よび実験データのデータ・スタッタの除去のために用いられる。表示モジュール
214は、処理された実験データの視覚的表示を行う。しかし、本発明は、これ
らのモジュールに限定されるものではなく、これ以外のモジュールあるいはより
少ないモジュールも用いることができる。更に、先に述べたモジュールの機能は
更に別のモジュールへ組合わせあるいは分割することもできる。
【0114】 本発明の1つの例示的な望ましい実施の形態においては、実験データ処理シス
テム10(図1)が、記憶モジュール208と、フィルタ処理および基底線モジ
ュール210と、基準およびサンプル校正モジュール212と、表示モジュール
214(図14)とをハードウエアおよびソフトウエアの一体的な組合わせ(す
なわち、図14に破線で示される)として含む。このことは、記憶モジュール2
08に記憶され、コンピュータ12に常駐するソフトウエアによる本文に述べた
方法を用いて処理されるデータ・ファイルの生成のために、実質的に任意の実験
技術()を用いることを可能にする。このような実施の形態は、従来のパーソナ
ル・コンピュータ・システムあるいは他の大型コンピュータ・システムにおける
広範囲の用途からの実験データを処理する柔軟性を提供する。
【0115】 本文に述べた方法およびシステムは、図13Bに示されるように、ディスプレ
イ装置14のウインドウ型ディスプレイ16における表示のためデータを処理す
るのに用いられる。しかし、データの最終処理セット(例えば、データの第3の
最終サブセット)は、視覚的表示および比較分析のための更に多くの処理を依然
として必要とする。 処理された実験データの表示 先に述べたように、多項目データ信号から始まる実験データは、視覚的表示に
適するデータの「処理済み」セットを生じるように1つ以上の方法によって処理
することができる。このような生の実験データの処理と関連する諸問題の一部は
、本願と同じ譲受人に譲渡された係属中の米国特許出願第 号において克服
される。
【0116】 本発明の1つお例示的な望ましい実施の形態においては、生の実験データから
処理済みデータの多数の最終セットを生成するため、図2、図4、図8および図
10、あるいは図12Aおよび図12Bに示された方法が用いられる。処理済み
の実験データの多数のセットは、典型的に視覚的表示、比較分析その他の分析に
全く適するものである。しかし、本発明は、図2、図4、図8、図10、あるい
は図12Aおよび図12Bに示された方法を用いることに限定されるものではな
く、生の実験データから処理済みデータの最終セットを生成するのに他の方法も
用いることができる。
【0117】 本発明の例示的な望ましい実施の形態においては、処理済みの実験データの多
数の最終セットが1つ以上のサンプル・インデックスで標記されて、視覚的表示
および比較分析に適する多数のインデックス付きデータ・セットを生成する。本
発明の望ましい実施の形態は、視覚的表示あるいは比較分析に全く適した多数の
インデックス付きデータ・セットを更に処理して「実験間の変動」の克服を助け
るのに用いられる。
【0118】 先に述べたように、バイオテクノロジにおいて最も一般的に用いられる方法論
の1つは、「比較」である。バイオテクノロジ・データの視覚的表示は、典型的
にバイオテクノロジ研究に「必要」とされるものと認識される。実験データが一
貫して収集することができ、結果が正確でありかつ実験間の変動を蒙らないとい
う高い確信をもって処理し表示することができるならば、意図された結果が迅速
かつ更に適切な方法で達成されよう。例えば、ポリヌクレオチドに対する配列は
、結果における高レベルの確信をもって少ない実験で確立されよう。 処理済み実験データの正規化 処理済み実験データは、典型的に異なる実験環境(例えば、異なる電気泳動ゲ
ル、あるいはミクロ・アレイ)から由来する。所与の実験データ・セットにおい
て示される処理済み実験データを生じるのに用いられる特定のプロセスは、典型
的に実験ごとに異なることになる。このような変動は、関心データと同じ程度の
重要性であり得る。このため、処理済み実験データが同じターゲットで多数回完
了した同じ実験から表示されるとき、実験間の変動が関心データを台なしにする
おそれがある。
【0119】 異なる表示技術が実験データの分析のため用いられるとき、表示された処理済
み実験データの第1のセットが同じターゲットを持つ同じ実験に対する実験デー
タの第2のセットに類似する特性(例えば、類似するスケールまたは基底線)を
持つことが異なる表示手法において示唆的である。さもなければ、異なる比較に
より顕される何らかの変動の何らかの意味が本質的に曖昧となる。
【0120】 本発明の1つの例示的な望ましい実施の形態においては、インデックスが付さ
れたデータにおける有意の特徴点の実質的な中心性の総合測定が生成される。例
えば、インデックスを付したデータ・セットにおける有意の特徴点の中心性から
の「モード」値が生成される。当技術において周知のように、モードは1組のデ
ータにおける最大頻度値であるか、あるいは1組のデータ点を規定するため用い
られる関数が最大値を達成する値である。このモード値は、「中心特性」と呼ば
れる。このような中心特性からの任意の所与のインデックスを付したデータ・セ
ットの粗な粒子の出発の慎重に制限された強制変調が実験的に決定されて、実験
間の変動を除去する。
【0121】 このような正規化の有効性の一部は、中心的特性が識別される効用と精度、な
らびにデータ点のインデックスを付した各セットの密な粒子の出発が保存される
程度に依存する。例えば、ポリヌクレオチドからのバイオテクノロジ・データが
使用されているならば、同じサイズのポリヌクレオチド・フラグメントに対する
蛍光強さのピーク値を比較することが望ましい。ポリヌクレオチド・フラグメン
トの相対数の指標として蛍光のピーク値の相対高さにおける任意のパターンを識
別することもまた望ましい。このように、中心性の測定がサイズ校正された蛍光
のトレースのエンベロープの平滑バージョンのトレース間の比に特定する実験か
らなされる。中心性のこのような測定は、中心的な特性の生成に用いられる。し
かし、本発明は、バイオテクノロジ実験データに限定されず、他の実験データも
また用いることができる。
【0122】 図15は、実験データの正規化のための方法220を示すフロー図である。処
理済み実験データのセットは、1つ以上のインデックスで標記されて視覚的表示
および比較分析にてきする多数のインデックスを付したデータ・セットを生成す
る。しかし、他のデータ構成方式も用いることもでき、本発明は実験データの多
数のセットに対するインデックスを用いることに限定されるものではない。ステ
ップ222において、決定された中心的な特性および多数のインデックスを付し
たデータ・セットからのデータ値からの偏りが測定される。本発明の1つの例示
的な望ましい実施の形態においては、決定された中心的な特性が多数のインデッ
クスを付したデータ・セットから決定される順序付比較の「モード」値である。
しかし、他の種類の中心的特性もまた用いることができ、本発明はモードである
中心的特性に限定されるものではない。
【0123】 ステップ224において、中心的特性および多数のインデックスを付したデー
タ・セット間の偏りが、中心的特性を多数のインデックスを付したデータ・セッ
トからの測定された偏りに比較することによって除去される。多数のインデック
スを付したデータ・セット間の偏りが低減され、これにより実験間の変動が多数
のインデックスを付したデータ・セット間で低減される。
【0124】 本発明の1つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットがポリヌクレオチド・データを含む。ポリヌクレオチド
・データは、これに限定されないがDNA、cDNAあるいはmRNAを含む。
しかし、本発明は、ポリヌクレオチド・データを含む多数のインデックスを付し
たデータ・セットに限定されることはないが、実験データの他のインデックスを
付したデータ・セットもまた用いることができる。
【0125】 方法220は、個々の実験の実験の振動により多数のデータ・セットにもたら
される多数のインデックスを付したデータ・セット間の偏りを減じることによっ
て実験間の変動を減じることを助ける。方法220は、ディスプレイ装置14に
おけるウインドウ型ディスプレイ16上に視覚的に表示される多数のインデック
スを付したデータ・セットを比較分析のため用いることを可能にする。
【0126】 本発明の1つの例示的な望ましい実施の形態においては、ステップ222にお
いて、多数のインデックスを付したデータ・セットからのインデックスにわたる
データ情報を利用するため、正規化変換が多数のインデックスを付したデータ・
セットに用いられる。このような正規化変換は、中心的特性を決定するためにも
用いることができる。正規化変換は、零次変換あるいは低次変換のいずれかを含
む。
【0127】 本発明の別の例示的な望ましい実施の形態においては、決定された零次中心的
特性が、データ値に依存する定数として多数のインデックスを付したデータ・セ
ットにおけるデータ値にわたり乗じられて、多数ののインデックスを付したデー
タ・セットにおけるデータ点を正規化する。本発明の更に別の例示的な望ましい
実施の形態においては、決定された低次中心的特性がデータ値に依存する平滑に
変化うるスケーリング関数としてインデックスを付したデータ・セットにおける
データ値にわたり乗じられて、多数のインデックスを付したデータ・セットにお
けるデータ点を正規化する。零次中心的特性あるいは低次中心的特性を用いて多
数のインデックスを付したデータ・セットにおけるデータ値を正規化した後、多
数のインデックスを付したデータ・セットからのデータが、先に述べたように方
法220により更に正規化される。零次中心的特性および低次中心的特性は、以
下に説明される。しかし、本発明は零次あるいは低次の正規化変換に限定される
ものではなく、他の正規化変換も中心的特性を生成するのにも用いることができ
る。 零次データの表示正規化 零次のデータ表示正規化法は、零次中心的特性の決定を含む。変換されたデー
タ点は、零次中心的特性からの偏りを決定するため用いられる。この偏りは、前
記の中心的特性が多数のインデックスを付したデータ・セットからのデータ値の
インデックスに依存する「定数」であるゆえに、「零次」であると見なされる。
【0128】 図16は、零次中心的特性を生成するための方法226を示すフロー図である
。ステップ228において、多数のインデックスを付したデータ・セットの外れ
分位数からのデータ点が平滑化ウインドウを用いて除去されて、多数のインデッ
クスを付したデータ・セットに対するデータ点の多数の平滑化セットを生成する
。ステップ230において、1組のインデックスを付したデータ・セット比がデ
ータ点の多数の平滑化セットから決定される。インデックスを付したデータ・セ
ット比のセットは、選定されたインデックスを付したデータ・セットからのデー
タ点の選定された平滑化セットを多数のインデックスを付したデータ・セットか
らの他のインデックスを付したデータ・セットからのデータ点の他の平滑化セッ
トに比較することによって決定される。ステップ232において、比の外れ分位
数がインデックスを付したデータ・セットのセットから除去されてインデックス
を付したデータ・セット比のサブセットを生成する。ステップ234において、
比の平均化セットがインデックスを付したデータ・セット比のサブセットから決
定されて零次中心的特性を生成する。
【0129】 方法226は、実験間の変動を減じるため零次中心的特性を生成するのに用い
られる。本発明の1つの例示的な望ましい実施の形態においては、生成された零
次中心的特性がデータ値に依存しない定数として多数のインデックスを付したデ
ータ・セットにおけるデータ値にわたり乗じられて、零次中心的特性により(例
えば、方法220により)偏りを除去する前に、多数のインデックスを付したデ
ータ・セットにおけるデータ点を正規化する。本発明の別の望ましい実施の形態
においては、生成された零次中心的特性が多数のインデックスを付したデータ・
セットにおけるデータ値にわたり乗じられないが、(例えば、方法220により
)実験間の変動を減じるために依然として用いられる。
【0130】 本発明の1つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットがポリヌクレオチド・データを含む。このポリヌクレオ
チド・データは、これに限定されないが、DNA、cDNAあるいはmRNAの
データを含んでいる。
【0131】 本発明の1つの例示的な望ましい実施の形態においては、ステップ228にお
いて、多数のインデックスを付したデータ・セットの外れ分位数からのデータ点
が平滑化ウインドウにより除去される。当技術において周知のように、レポート
あるいは比較を容易にするため、分布を少数で要約することができる。1つの方
法は、「分位数」を用いることである。分位数は、分位数より少ない所与の観察
比率となるように分布を分ける値である。例えば、中位数は分位数である。この
中位数は、点の半分が中心値より小さいかあるいはこれと等しく、かつ半分がこ
れより大きいかあるいはこれと等しくなるように、分布の中心値すなわち中心的
特性である。
【0132】 本発明の1つの例示的な望ましい実施の形態においては、三角形のウインドウ
を用いてデータ点の所与のインデックスを付したセットにおけるサイズ校正され
たデータ点のセットのエンベロープを平滑化する。しかし、トレース・エンベロ
ープの平滑化には他の方法も用いることができ、本発明は三角形の平滑化ウイン
ドウに限定されるものではなく、他の平滑化ウインドウも使用することができる
【0133】 本発明の1つの例示的な望ましい実施の形態においては、式19に示されるよ
うに、外れ分位数が平滑化ウインドウにより多数のインデックスを付したデータ
・セットから除去される。平滑化ウインドウは幅Pを有する。本発明の1つの例
示的な望ましい実施の形態においては、Pは3より大きいかこれに等しい奇数の
正の整数である。しかし、本発明は、3より大きいかこれに等しい奇数の正の整
数のウインドウ・サイズを持つ平滑化ウインドウに限定されるものではなく、他
の(例えば、偶数の正の整数の)平滑ウインドウ・サイズも使用することができ
る。
【0134】 トレース・エンベロープf★★ kの平滑化バージョンは、式19に示されるよ
うに平滑化ウインドウにより見出される。しかし、他の平滑化ウインドウも使用
することができる。
【0135】
【数19】
【0136】 ステップ230において、1組のインデックスを付したデータ・セット比が決
定される。ステップ232において、比の外れ分位数がインデックスを付したデ
ータ・セット比のセットから除去されて、インデックスを付したデータ・セット
比のサブセットを生成する。インデックスを付したデータの別のセットおよびD s (f★★)に対する平滑化エンベロープに平滑化トレース・エンベロープの値
のs番目の分位数をg★★ kで一般的に命名して、多数のインデックスを付した
データ・セットに対する比rk(g,f)が式20に示されるように形成される。
しかし、本発明は式20に示される比に限定されるものではなく、他の比も式化
して用いることもできる。
【0137】
【数20】
【0138】 ステップ234において、比の平均化セットが、式20により決定されるイン
デックスを付したデータ・セットのサブセットからの比から決定される。Du
r(g,f))を平滑化トレース・エンベロープf★★およびg★★の比のu番
目の分位数として用いて、式21により示されるように、トレース・エンベロー
プf★★ kに対する中心的特性に対するスケール・ファクタλ0(f)の零次正規
化が内在分位数にわたり、かつ他の個々のインデックスを付したデータ・セット
にわたる平均値である。しかし、中心的特性に対する他の零次正規化スケール・
ファクタもまた用いることができ、本発明は式21に示される零次正規化スケー
ル・ファクタに限定されるものではない。式21は、ステップ234において、
多数のインデックスを付したデータ・セット比の比率の外れ分位数を除去し、か
つ除去された外れ分位数にない残りのインデックスを付したデータ・セット比を
平均化して比の平均値を生じる。
【0139】
【数21】
【0140】 sおよびu、あるいはtおよびvは直接関連付けられないが、本発明の1つの例
示的な望ましい実施の形態においては、s=u=6およびt=v=95を用いて
外れ分位数に対する百分位数が充分に良好に規定されることが実験により決定さ
れた。但し、6および95はデータ点のインデックスを付したセットにおける6
番目と95番目の百分位数をそれぞれ表わす。このように、比の最小の6%と最
小の5%は除去される。しかし、sとuおよびtとvに対して他の百分位数もま
た用いることもでき、本発明はsとuおよびtとvに対してこれらの特定値に限
定されるものではない。
【0141】 図17は、零次中心的特性を用いて表示データの正規化のための方法236を
示すフロー図である。ステップ238において、零次中心的特性および多数のイ
ンデックスを付したデータ・セットからの偏りが測定される。零次中心的特性は
、(例えば、図16の方法226により)多数のインデックスを付したデータ・
セットから決定される。ステップ240において、零次中心的特性、および零次
中心的特性と多くのインデックスを付したデータ・セット間の比を持ちかつ多数
のインデックスを付したデータ・セットと多数のインデックスを付したデータ・
セット比に対する比率の平均セット間の比率を持つ多数のインデックスを付した
データ・セット間の偏りが除去される。
【0142】 本発明の1つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットはポリヌクレオチド・データを含む。このポリヌクレオ
チド・データは、これに限定されないがDNA、cDNAあるいはmRNAのデ
ータを含む。
【0143】 本発明の1つの例示的な望ましい実施の形態においては、方法236(図17
)のステップ238において、例えば式21からのλ0(f)を持つ零次中心的
特性を用いて、零次中心的特性からの偏りが決定される。しかし、方法236に
は他の零次中心的特性も用いることができる。ステップ240において、式20
に示されるように零次中心的特性に対する多数のインデックス・データ・セット
の比を見出すことにより、中心的特性および多数のインデックスを付したデータ
・セット間の偏りが除去される。式21により示されるように、多数のインデッ
クスを付したデータ・セットおよび比率の平均セットを用いて偏りが除去される
【0144】 零次中心的特性を含む方法236(図17)は、多数のインデックスを付した
データ・セットのデータ値に依存する零次正規化により生じる中心的特性を用い
て、個々の実験によりインデックスを付したデータ・セットへもたらされる多数
のインデックスを付したデータ・セット間の偏りを減じることにより実験間の変
動を減じることを助ける。 低次データ表示の正規化 低次の表示の正規化は、図16に示される零次の方法226の般化である。本
発明の1つの例示的な望ましい実施の形態においては、零次中心的特性の代わり
に低次中心的特性が用いられる。低次の正規化は、インデックスを付したデータ
・セットのデータ値(例えば、ポリヌクレオチド・フラグメント・サイズ)に対
する非常に低次の依存度を持つ平滑に変化するスケーリング関数を生じる。この
データ値に依存する低次中心的特性(図18)は、零次の方法226(図16)
により生じるデータ値に依存する一定のスケール・ファクタと対照され得る。
【0145】 図18は、低次中心的特性を決定するための方法242を示すフロー図である
。ステップ244において、多数のインデックスを付したデータ・セットの外れ
分位数からのデータ点が平滑化ウインドウを用いて除去されて、多数のインデッ
クスを付したデータ・セットに対する多数の平滑化セットを形成する。ステップ
246において、1組のインデックスを付したデータ・セット比が、選択された
インデックスを付したデータ・セットからのデータ点の選択された平滑化セット
を多数のインデックスを付したデータ・セットからの他のインデックスを付した
データ・セットからの他の平滑化セットに比較することによって、多数の平滑化
されたデータ点の平滑化セットから決定される。ステップ248において、対数
がインデックスを付したデータ・セット比のセットに生成されて1組の対数比を
生成する。ステップ250において、1組の対数比がフィルタ処理されて、対数
比のフィルタ処理されたセットを生成する。ステップ252において、対数比の
フィルタ処理セットの平均値に対し累乗が行われ、低次中心的特性を生成する。
【0146】 本発明の1つの例示的な望ましい実施の形態においては、多数のインデックス
を付したデータ・セットがポリヌクレオチド・データを含む。このポリヌクレオ
チド・データは、これに限定されないが、DNA、cDNAあるいはmRNAを
含む。
【0147】 本発明の1つの例示的な望ましい実施の形態においては、生成された低次中心
的特性が、データ値に依存する平滑に変化するスケーリング関数として多数のイ
ンデックスを付したデータ・セットにおけるデータ値に乗じられる。低次中心的
特性は、(例えば、方法220により)低次中心的特性を含む偏りを除去する前
に多数のインデックスを付したデータ・セットにおけるデータ点を変換するのに
用いられる。本発明の別の実施の形態においては、生成された低次中心的特性は
、多数のインデックスを付したセットにおけるデータ値には乗じられないが、依
然として実験間の変動を減じるのに用いられる。
【0148】 任意の所与のインデックスを付したデータ・セットの場合は、低次のサイズに
依存するスケーリング関数が、ステップ242において、平滑化ウインドウ(例
えば、式19からの)を用いることにより生成されてサイズ校正されたデータ値
のエンベロープを平滑化する。本発明の1つの望ましい実施の形態において、ス
テップ244(図18)は方法226(図16)のステップ228と同じである
(例えば、式19を参照)。しかし、他の平滑化ウインドウも用いることができ
る。ステップ246において、1組のインデックスを付したデータ・セット比が
、選択されたインデックス付きデータ・セットからのデータ点の選択された平滑
化セットを多数のインデックスを付したデータ・セットからの他のインデックス
を付したデータ・セットからのデータ点の他の平滑化セットに比較することによ
って決定される。本発明の1つの例示的な望ましい実施の形態においては、これ
は方法226のステップ230と同じである(例えば、式20を参照)。しかし
、他の比も用いることができる。
【0149】 ステップ248において、所望の底xに対する対数が1組のインデックスを付
したデータ・セット比において形成され、1組の対数比を生成する。当技術にお
いて周知のように、対数(一般に、「log(x)として表わされる」)は、所
与の底xが別の数を生じるために上げられねばならない指数すなわち冪である。
本発明の1つの例示的な望ましい実施の形態においては、底eに対する対数が用
いられる(但し、eは周知の数学的な無理数2.71828182845904
5…である)。ステップ250において、1組の対数比がフィルタ処理されて対
数比のフィルタ処理セットを生成する。本発明の1つの例示的な望ましい実施の
形態においては、このフィルタ処理は「低域通過フィルタ」の使用を含む。しか
し、他のフィルタも用いることができ、本発明は低域通過フィルタに限定される
ものではない。当技術において周知のように、低域通過フィルタωLは、周波数
ωが範囲0≦ω≦ωc以内の範囲に該当するデータを「通し」、周波数がωcより
大きいデータは除波する。但し、ωcは遮断周波数である。
【0150】 本発明の1つの例示的な望ましい実施の形態において、周波数領域においてテ
ーパ状ノッチを用いることによって低域通過フィルタが得られ、これは低次の正
規化により復調される変動を操作するための明確な手段を提供する。例えば、テ
ーパ状ノッチは、周波数領域フィルタ・エッジの中心の相対配置のサイズ・スケ
ールを等しくすることによる制約をもたらす。フィルタ・エッジは、抑制された
変動がディスプレイ装置14におけるフルサイズ・レンジの大部分より小さくな
いサイズ・スケールによることを確保するように選定される。このようなスケー
リング関数は、非常に平滑であり、かつデータ・サイズ(例えば、ポリヌクレオ
チド・フラグメント・サイズ)に対する良好な挙動を呈する依存性を有する。零
次の方法226がデータ・サイズに対し何らかの依存性を呈する全ての変動を除
去するように低域通過フィルタのエッジを設定することによって得られる低次の
方法の特別な場合として生じることに注目されたい。
【0151】 ステップ250において、平滑化エンベロープf★★ kが1つの特定インデッ
クス付きデータ・セットに対するものであり、g★★ kがf★★ k以外の別のイン
デックス付きデータ・セットに対するものであるとして、対数比のフィルタ処理
されたセットが式22に示されるように生成される。本発明の1つの例示的な望
ましい実施の形態においては、フィルタは先に述べたように低域通過フィルタで
ある。しかし、他のフィルタ(例えば、高域通過フィルタ、帯域通過フィルタな
ど)も用いることができる。更に、本発明は、式22に示される対数比のフィル
タ処理設定に限定されるものではなく、他のフィルタ処理比も用いることができ
る。
【0152】
【数22】
【0153】 本発明の1つの例示的な望ましい実施の形態においては、対数比Ρkのフィル
タ処理セットを生成するため離散的フーリエ変換を用いてフィルタχωが周波数
領域において用いられる。このフィルタχωは、そのノッチ・マスクが対数比の
ゼロ・パッド型離散的フーリエ変換へ乗じられる。テーパ状マスクの重要な特徴
は、テーパ度と排他演算エッジの配置である。本発明の1つの例示的な望ましい
実施の形態においては、従来の2パーセントの「チューキー(Tukey)のテ
ーパ」がエッジに適用され、その高さの半分(いわゆる、「3dB点」)が係数
4だけゼロ・パッドされる離散的変換の9番目のビンにセットされる。チューキ
ーのテーパは、フィルタ処理技術における当業者には公知である。しかし、他の
テーパおよびフィルタもフィルタχωに対し用いることができ、本発明は低域通
過フィルタあるいは低域通過フィルタのチューキーのテーパに限定されるもので
はない。
【0154】 ステップ252において、所望の底xに対する累乗が対数比のフィルタ処理セ
ットの平均値に適用されて低次中心的特性λk(f)を生成する。当技術におい
て周知のように、累乗は対数の「逆」である。
【0155】 低次中心的特性λk(f)は、平滑化エンベロープf kに対するサイズに依存
する低次の正規化スケーリング関数である。低次中心的特性λk(f)は、式2
3の低次中心的特性に示されるように、他の全てのk番目のインデックス付きデ
ータ・セットに対するフィルタ処理された対数比のセットの冪化平均値である。
しかし、本発明は式23に限定されるものではなく、累乗もまた用いることがで
きる。
【0156】
【数23】
【0157】 本発明の1つの例示的な望ましい実施の形態において、フィルタχωは低次中心
的特性λk(f)により、ディスプレイ装置16における表示サイズ軸のフルレ
ンジの約半分より小さくないものに、復調された変動性のサイズ・スケールを制
限する。テーパ状フィルタ・エッジによるゼロ・パッディングが、更に小さなス
ケールの変動の更に小さなエレメントを含めることにより、結果として得る低次
中心的特性の平滑度を強化する。
【0158】 図19は、低次中心的特性を用いる表示データの正規化のための方法254を
示すフロー図である。ステップ256において、低次中心的特性および多数のイ
ンデックス付きデータ・セットからの偏りが測定される。低次の特性は、(例え
ば、図18の方法242を用いて)多数のインデックス付きデータ・セットから
決定される。ステップ258において、低次中心的特性と、低次中心的特性およ
び多数のインデックス付きデータ・セットに対する比のフィルタ処理された対数
間の比を持ち、かつ比の対数のフィルタ処理されたセットの累乗を持つ多数のイ
ンデックス付きデータ・セットとの間の偏りが除去される。
【0159】 本発明の1つの例示的な望ましい実施の形態において、多数のインデックス付
きデータ・セットはポリヌクレオチド・データを含む。このポリヌクレオチド・
データは、これに限定されないが、DNA、cDNAあるいはmRNAを含んで
いる。
【0160】 低次中心的特性を含む方法254(図19)は、データの多数のインデックス
付きセットのデータ値に依存する低次の正規化により生成される中心的特性を用
いる個々の実験によりインデックス付きデータ・セットへもたらされる多数のイ
ンデックス付きデータ・セット間の偏りを減じることにより、実験間の変動の低
減を助ける。 例示的な正規化された実験データの表示出力 図20Aは、図示された実験に対する制御データのインデックス付きセットに
対する例示的な出力表示262の一部(例えば、図13Bのデータ・ピーク値1
80、182、184)を示すブロック図である。この出力表示262は、正規
化されない。図20Bは、図示された実験に対する第1のターゲットに対するイ
ンデックス付きデータ・セットに対する例示的な出力表示264の一部(例えば
、第1のターゲットのポリヌクレオチド配列)を示すブロック図である。出力表
示264は、正規化されない。本発明の望ましい実施の形態において、零次中心
的特性あるいは低次中心的特性のいずれも実験結果を正規化するのに用いられる
【0161】 図20Cは、零次の正規化により正規化された図20Aからの制御データのイ
ンデックス付きデータ・セットに対する例示的な出力表示266の一部(例えば
、図17の方法236)を示すブロック図である。図20Dは、低次の正規化に
より正規化された図20Aからのターゲット・データのインデックス付きセット
に対する例示的な出力表示268の一部(例えば、図19の方法254)を示す
ブロック図である。
【0162】 図20Eは、低次の正規化により正規化された図20Bからの第1のターゲッ
トに対するインデックス付きデータ・セットに対する例示的な出力表示270の
一部(例えば、図19の方法250)を示すブロック図である。図20Fは、低
次の正規化により正規化された図20Bからの第1のターゲットに対するインデ
ックス付きデータ・セットに対する例示的な出力表示272の一部(例えば、図
19の方法250)を示すブロック図である。図20Aないし図20Fにおける
データ・ピーク値に対する幅は、図示の目的のため拡大されている。しかし、デ
ータのピーク値に対するディスプレイ装置14のウインドウ型ディスプレイ16
における実際の表示出力は、図13Bにおけるものと類似している。
【0163】 前記の4つの正規化された出力表示266、268、270および272は、
第1のターゲットに対する正規化された制御258と1つの実験的バリエーショ
ン260の正規化に対応するものである。実線および破線によりそれぞれ識別さ
れる正規化された表示266、268、270、272のそれぞれにおける出力
は、一般に、(例えば、最初の実施と2回目の実施における)少なくともこれら
が採取された物理的ゲルにおいて異なる試料の独立的な複写を示している。本発
明の例示的な望ましい実施の形態において、ディスプレイ装置14の実際の正規
化された表示における出力は、典型的に、多数の実験結果の表示を示すため異な
る色を用いる。
【0164】 図20Aに示されるように、2つのカーブが分けられるため、制御データのイ
ンデックス付きデータ・セットにおける実験間の変動が存在する。もし実験間の
変動が存在しなければ、実線と破線により示される2つのカーブは重なり合うこ
とになる。図20Cに示されるように、零次の正規化が制御データの実験間の変
動を低減している。正規化される図20Cにおける2つのカーブは、正規化され
ない図20Aの2つのカーブ間より小さな距離だけ離れている。図20Dに示さ
れるように、低次の正規化は、図20Aのカーブと比較して、2つのカーブ間の
距離が小さく見えるように実験間の変動を更に低減する。
【0165】 図20Eおよび図20Fは、第1のターゲットに対して零次の正規化と低次の
正規化をそれぞれ示している。図20Bに示されるように、この第1のターゲッ
トは、垂直軸に最も近い第1のデータ・ピーク値により示されるように第1のタ
イプのデータ(例えば、第1のタイプのポリヌクレオチド配列)を多く含み、次
の2つのデータ・ピーク値により表わされる第2および第3のタイプのデータ(
例えば、第2および第3のタイプのポリヌクレオチド配列)を少なく含んでいる
。このことは、図20Aにおける制御データを図20Bにおける第1のターゲッ
トに対して表示されるデータに比較することによって観察されることが判る。図
20Eおよび図20Fに示されるように、正規化はまた、図20Eおよび図20
Fにおける実線と破線により示される2つのデータのカーブ間の狭い間隔により
決定できるように第1のターゲットに対する実験間の変動を低減する。
【0166】 低次の正規化が典型的に零次の正規化より僅かに優れた結果を提供するから、
零次の正規化あるいは低次の正規化の選択は、表示結果の所望の精度、要求され
る分析の種類、計算時間、計算環境、表示装置の種類、処理されるインデックス
付きデータ・セットのサイズ、および他の要因を含む多くの要因に依存している
。しかし、零次の正規化あるいは低次の正規化のいずれかの選択は、正規化され
ないデータと比較される実験間の変動を著しく低減することを助けるものである
【0167】 本発明の望ましい実施の形態は、選択される実験の多くの回数に対し、ならび
に実験の複数の異なる回数にわたる実験データにおける差異を決定してこれを減
じることを可能にする。例えば、最初の実験に対する図20Cあるいは図20D
における正規化された制御データは、(図20には示されない)2回目の実験に
対する正規化される制御データに比較することができる。2回目の実験は、同じ
ターゲットあるいは最初の実験と異なるターゲットを含み得るが、同じ制御を含
む。本発明の望ましい実施の形態は、最初と2回目の実験間の変動を判定するた
めに用いることができる。
【0168】 更に、実験間の変動が低減された、最初の実験と2回目の実験における最初の
ターゲットに対する結果を比較するために、最初の実験における図20Eあるい
は図20Fにおける最初のターゲットに対する正規化を異なる2回目の実験にお
ける最初のターゲットに比較することができる。例えば、図20A、図20B、
図20Dおよび図20Fを含む最初の実験の結果はディスプレイ装置14のウイ
ンドウ型ディスプレイ16の最初のウインドウに表示され、2回目の実験の結果
はウインドウ型ディスプレイ16の第2のウインドウに表示される。
【0169】 図20Aないし図20Fは、本発明の望ましい実施の形態に対する例示的な出
力を示している。しかし、本発明の望ましい実施の形態に対する実際の出力表示
は、典型的に正規化されたデータのみを含み、本発明の使用はユーザには「見え
ない」ことになる。すなわち、実験間の変動が低減された最後の出力表示のみが
比較分析のためユーザへ提示される。ユーザは、図20Aおよび図20Bに示さ
れるディスプレイ装置14には正規化されないデータが提示されないことになる
。また、中心的特性、零次あるいは低次の1つの正規化のみが一時に用いられる
。しかし、本発明の別の望ましい実施の形態においては、零次の中心的特性およ
び低次の中心的特性が一緒に用いられて、インデックス付きデータの選択された
異なるセットを同時に正規化する。
【0170】 本発明の望ましい実施の形態は、「実験間」(すなわち、同じ実験)および「
実験内」(すなわち、異なる実験)の変動を比較分析のために低減することを可
能にする。本発明の望ましい実施の形態はまた、(例えば、先に述べた図2、図
4、図8および図10、あるいは図12Aおよび図12Bに示された方法と組合
わせて)生の実験データの自動化処理を助ける別の方法として用いることもでき
る。
【0171】 本発明の望ましい実施の形態は、実験間の変動によりもたらされるデータ値と
同じ程度のものである処理された実験データ・セットに存在するデータ値の特徴
点を、比較分析のために正規化して用いることを可能にする。このように、実験
結果の比較を高い確信をもって用いることができ、また所期の結果をより迅速か
つ更に適切な方法で得ることもできる。
【0172】 例えば、バイオテクノロジの場合、少数の実験により新たなポリヌクレオチド
配列を取得された結果における高レベルの確信をもって判定することもできる。
このような新たなポリヌクレオチド配列は、疾病に対する新たな処置を開発し、
現在ある薬剤を改善し、新たな薬剤をを開発するために用いることができ、ポリ
ヌクレオチド配列を含む生体の更に完全な理解の進展を含む他の医療用途のため
用いるなどが可能である。
【0173】 本発明の例示的な望ましい実施の形態については、実験的なバイオテクノロジ
・データに関して論述した。しかし、本発明は、実験的なバイオテクノロジ・デ
ータに限定されるものではない。本発明の望ましい実施の形態は、実験の実施の
ため用いられる環境によりもたらされる実験間の変動を含む電気通信データ、電
気的データ、光学的データ、物理的データ、あるいは他の実験データに対する実
験間の変動を低減するために用いられる。
【0174】 本文に述べたプログラム、プロセス、方法およびシステムが、他に断りのない
限り、特定の形式のコンピュータあるいはネットワーク・システム(ハードウエ
アあるいはソフトウエア)に関連しあるいは限定されるものでないことを理解す
べきである。本文に記載した教示によれば、様々な形式の汎用あるいは特殊目的
のコンピュータ・システムを用いることができあるいは動作を実施することがで
きる。
【0175】 本発明の原理を適用することができる広範囲の実施の形態に照らして、図示さ
れた望ましい実施の形態が事例に過ぎないものであることを理解すべきであり、
本発明の範囲を限定すると見なすべきではない。例えば、フロー図の各ステップ
は本文に記載した以外の順序で行うこともでき、ブロック図において更に多いか
少ない要素を用いてもよい。望ましい実施の形態の種々の要素についてソフトウ
エアで実現されるものと記載したが、他の実施の形態においては、ハードウエア
の実現を代替的に用いることもでき、あるいはその逆も妥当する。
【0176】 請求の範囲は、その旨断りのない限り、記述された順序あるいは要素に限定さ
れるものと見なすべきでない。従って、頭書の請求の範囲およびその相等物の範
囲および趣旨に該当する全ての実施の形態は本発明として権利を主張するもので
ある。
【図面の簡単な説明】
【図1】 例示的な実験データ処理システムを示すブロック図である。
【図2】 多成分データ信号に対するデータ正規化のための方法を示すフロー図である。
【図3】 図3Aは、多成分データ信号に対する例示的なフィルタ処理されない信号強さ
のトレースを示すブロック図である。 図3Bは、拡大スケールで示されたフィルタ処理されない多成分データ信号と
して図3Aのフィルタ処理されない多成分データ信号を示すブロック図である。 図3Cは、図3Aの多成分データ信号のフィルタ処理バージョンを示すブロッ
ク図である。 図3Dは、図2からの方法を用いてフィルタ処理され正規化された多成分デー
タ信号を示すブロック図である。
【図4】 クラッタ除去法を示すフロー図である。
【図5】 図2からの方法を用いてフィルタ処理され正規化された多成分データ信号を示
すブロック図である。
【図6】 標準ポリヌクレオチド部分で同時にロードされた電気泳動ゲル内の1組のレー
ンに対する一連の走査のためのフィルタ処理規格を示すブロック図である。
【図7】 図4の方法を用いるクラッタ除去によるサイズ基準検出を用いてデータのピー
ク値を示すブロック図である。
【図8】 データ・サイズ校正のための方法を示すブロック図である。
【図9】 図9Aおよび図9Bは、図8からの方法を用いるデータ・サイズ校正を示すブ
ロック図である。
【図10】 エンベロープ検出法を示すフロー図である。
【図11】 図11Aおよび図11Bは、図10の方法を用いるエンベロープ検出を示すブ
ロック図である。
【図12】 図12Aおよび図12Bは、多成分実験データを処理する方法を示すフロー図
である。
【図13】 図13Aおよび図13Bは、図12Aおよび図12Bの方法を示すブロック図
である。
【図14】 例示的な多成分信号データ処理システムを示すブロック図である。
【図15】 実験データの正規化方法を示すフロー図である。
【図16】 零次中心的特性を生成する方法を示すフロー図である。
【図17】 零次中心的特性を用いる表示データの正規化のための方法を示すフロー図であ
る。
【図18】 低次中心的特性を生成する方法を示すフロー図である。
【図19】 低次中心的特性を用いる表示データの正規化する方法を示すフロー図である。
【図20】 図20Aは、例示的な実験のための制御データのインデックス付きセットに対
する例示的な出力表示の一部を示すブロック図である。 図20Bは、例示的な実験のための目標データの例示的なインデックス付きセ
ットに対する例示的な出力表示の一部を示すブロック図である。 図20Cは、零次正規化により正規化された図20Aからの制御データのイン
デックス付きデータ・セットに対する例示的な出力表示の一部を示すブロック図
である。 図20Dは、低次正規化により正規化された図20Aからの制御データのイン
デックス付きセットに対する例示的な出力表示の一部を示すブロック図である。 図20Eは、低次正規化により正規化された図20Bからの目標データのイン
デックス付きデータ・セットに対する例示的な出力表示の一部を示すブロック図
である。 図20Fは、低次正規化により正規化された図20Bからの目標データのイン
デックス付きデータ・セットに対する例示的な出力表示の一部を示すブロック図
である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AL,AM,AT,AU, AZ,BA,BB,BG,BR,BY,CA,CH,C N,CR,CU,CZ,DE,DK,DM,EE,ES ,FI,GB,GD,GE,GH,GM,HR,HU, ID,IL,IN,IS,JP,KE,KG,KP,K R,KZ,LC,LK,LR,LS,LT,LU,LV ,MA,MD,MG,MK,MN,MW,MX,NO, NZ,PL,PT,RO,RU,SD,SE,SG,S I,SK,SL,TJ,TM,TR,TT,TZ,UA ,UG,US,UZ,VN,YU,ZA,ZW (72)発明者 ダーラム,ジェイソン・ティー アメリカ合衆国カリフォルニア州92040, レイクサイド,マウンテン・ヴュー・レイ ン 10359 Fターム(参考) 5B056 BB11 BB51 BB62 BB64 BB81 HH00 5B075 ND20 ND23 NK02 NK13 NK48 PQ02 PR04 UU18

Claims (44)

    【特許請求の範囲】
  1. 【請求項1】 複数のインデクス付データ・セットに対するデータ正規化方
    法であって、 所定の中央キャラクタからの偏差と複数のインデクス付データ・セットからの
    データ値とを測定するステップであって、前記所定の中央キャラクタは前記複数
    のインデクス付データ・セットから決定された順序付比較のモードである、ステ
    ップと、 前記所定の中央キャラクタを前記複数のインデクス付データ・セットから測定
    された偏差と比較することにより、前記所定の中央キャラクタと前記複数のイン
    デクス付データ・セットとの間の偏差を除去し、それによって、前記複数のイン
    デクス付データ・セットの間の偏差を減少させるステップと、 を含むことを特徴とする方法。
  2. 【請求項2】 中央処理装置に請求項1記載の方法を実行させる命令を記憶
    していることを特徴とするコンピュータ可読媒体。
  3. 【請求項3】 請求項1記載の方法において、前記所定の中央キャラクタは
    、前記複数のインデクス付データ・セットからのデータ値に変換を適用して前記
    複数のインデクス付データ・セットからのインデクス全体のデータ情報を利用す
    ることによって決定されることを特徴とする方法。
  4. 【請求項4】 請求項1記載の方法において、前記所定の中央キャラクタは
    、任意の零次の変換又は低次の変換を適用することによって決定されることを特
    徴とする方法。
  5. 【請求項5】 請求項4記載の方法において、前記零次の変換は、定数を前
    記複数のインデクス付データ・セットにおける変換データ点に適用することを含
    み、前記定数は、前記複数のインデクス付データ・セットにおけるデータ値とは
    独立であることを特徴とする方法。
  6. 【請求項6】 請求項4記載の方法において、前記低次の変換は、滑らかに
    変動するスケーリング関数を前記複数のインデクス付データ・セットにおける変
    換データ点に適用することを含み、前記変動するスケーリング関数は、前記複数
    のインデクス付データ・セットにおけるデータ値に従属することを特徴とする方
    法。
  7. 【請求項7】 請求項1記載の方法において、前記複数のインデクス付デー
    タ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データを含
    むことを特徴とする方法。
  8. 【請求項8】 請求項7記載の方法において、前記ポリヌクレオチド・デー
    タは、DNA、cDNA又はmRNAのデータ中の任意のものを含むことを特徴
    とする方法。
  9. 【請求項9】 請求項1記載の方法において、前記除去するステップは、前
    記複数のインデクス付データ・セットの間の偏差を除去し、実験間の変動可能性
    を減少させ、前記複数のインデクス付データ・セットを比較に適したものにする
    ステップを含むことを特徴とする方法。
  10. 【請求項10】 請求項9記載の方法において、前記比較は、表示装置上で
    の視覚的な比較を含むことを特徴とする方法。
  11. 【請求項11】 零次の中央キャラクタを作成する方法であって、 平滑化ウィンドウを用いて複数のインデクス付データ・セットの外部分位(ou
    ter quantiles)からデータ点を除去し、データ点の複数の平滑化された組を作
    成するステップと、 データ点の前記複数の平滑化された組からインデクス付データ・セット比率の
    組を決定するステップであって、インデクス付データ・セット比率の前記組は、
    選択されたインデクス付データ・セットからのデータ点の選択され平滑化された
    組を、前記複数のインデクス付データ・セットからのそれ以外のインデクス付デ
    ータ・セットからのデータ点のそれ以外の平滑化された組と比較することによっ
    て決定される、ステップと、 比率の外部分位を、インデクス付データ・セット比率の前記組から除去し、イ
    ンデクス付データ・セット比率の部分集合を作成するステップと、 比率の平均化された組を、インデクス付データ・セット比率の前記部分集合に
    おける比率から決定し、零次の中央キャラクタを作成するステップと、 を含むことを特徴とする方法。
  12. 【請求項12】 中央処理装置に請求項11記載の方法を実行させる命令を
    記憶していることを特徴とするコンピュータ可読媒体。
  13. 【請求項13】 請求項11記載の方法において、データ点を除去する前記
    ステップは、f** kをデータ点の平滑化された組、Pをk番目のインデクス付デ
    ータ・セットからのデータ点の組pに対する平滑化ウィンドウのサイズ、f*
    k番目のインデクス付データ・セットの外部分位からのデータ点を含まないデー
    タ点の組pを包囲するデータ・エンベロープとして、 【数1】 を用いてデータ点を除去するステップを含むことを特徴とする方法。
  14. 【請求項14】 請求項11記載の方法において、インデクス付データ・セ
    ット比率の組を決定する前記ステップは、f** kを選択されたk番目のインデク
    ス付データ・セットからのデータ点の選択され平滑化された組、g** kをf** k
    はないデータ点の別の平滑化された組として、(g** k/f** k)を決定するステ
    ップを含むことを特徴とする方法。
  15. 【請求項15】 請求項11記載の方法において、比率の外部分位を除去す
    る前記ステップは、rk(g,f)をk番目のインデクス付データ・セットから
    のデータ点f** kの選択され平滑化された組の間の比率のインデクス付データ・
    セット、g** kをf** kではないデータ点の別の平滑化された組、Ds(f**)を
    データ点の選択され平滑化された組f** kにおける値のs番目の分位、Dt(f** )をデータ点の別の平滑化された組f** kにおける値のt番目の分位、Ds(g** )をデータ点の選択され平滑化された組g** kにおける値のs番目の分位、Dt
    **)をデータ点の別の平滑化された組g** kにおける値のt番目の分位として
    、 【数2】 を用いて比率の外部分位を除去するステップを含むことを特徴とする方法。
  16. 【請求項16】 請求項11記載の方法において、インデクス付データ・セ
    ット比率の前記部分集合における比率から平均化された比率を決定する前記ステ
    ップは、λ0(f)を零次の中央キャラクタ、avgを平均、rk(g,f)をデ
    ータ点の選択され平滑化された組fとfではないデータ点の別の平滑化された組
    gとの間のk番目のインデクス付データ・セット比率、Du(r(g,f))を
    比率r(g,f)のu番目の分位、Dv(r(g,f))を比率r(g,f)の
    v番目の分位として、 【数3】 を決定するステップを含むことを特徴とする方法。
  17. 【請求項17】 データ正規化方法であって、 零次の中央キャラクタからの偏差と複数のインデクス付データ・セットとを測
    定するステップであって、前記零次の中央キャラクタは前記複数のインデクス付
    データ・セットから決定される、ステップと、 前記零次の中央キャラクタと前記複数のインデクス付データ・セットとの間の
    偏差を、前記零次の中央キャラクタと前記複数のインデクス付データ・セットと
    の間の比率と、前記複数のインデクス付データ・セットと前記複数のインデクス
    付データ・セットに対する比率の平均化された組との間の比率とを用いて、除去
    するステップと、 を含むことを特徴とする方法。
  18. 【請求項18】 中央処理装置に請求項17記載の方法を実行させる命令を
    記憶していることを特徴とするコンピュータ可読媒体。
  19. 【請求項19】 請求項17記載の方法において、前記複数のインデクス付
    データ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データ
    を含むことを特徴とする方法。
  20. 【請求項20】 請求項19記載の方法において、前記ポリヌクレオチド・
    データは、DNA、cDNA又はmRNAの中の任意のものを含むことを特徴と
    する方法。
  21. 【請求項21】 請求項19記載の方法において、前記除去するステップは
    、前記複数のインデクス付データ・セットの間の偏差を零次の中央キャラクタを
    用いて除去し、実験間の変動可能性を減少させ、前記複数のインデクス付データ
    ・セットを比較に適したものにするステップを含むことを特徴とする方法。
  22. 【請求項22】 請求項21記載の方法において、前記比較は、表示装置上
    での視覚的な比較を含むことを特徴とする方法。
  23. 【請求項23】 低次の中央キャラクタを作成する方法であって、 平滑化ウィンドウを用いて複数のインデクス付データ・セットの外部分位から
    データ点を除去し、前記複数のインデクス付データ・セットのためのデータ点の
    複数の平滑化された組を作成するステップと、 データ点の前記複数の平滑化された組からインデクス付データ・セット比率の
    組を決定するステップであって、インデクス付データ・セット比率の前記組は、
    選択されたインデクス付データ・セットからのデータ点の選択され平滑化された
    組を、前記複数のインデクス付データ・セットからのそれ以外のインデクス付デ
    ータ・セットからのデータ点のそれ以外の平滑化された組と比較することによっ
    て決定される、ステップと、 インデクス付データ・セット比率の前記組の対数を作成し、対数比率の組を作
    成するステップと、 対数比率の前記組をフィルタリングし、対数比率のフィルタリングされた組を
    作成するステップと、 対数比率の前記フィルタリングされた組の平均に指数化を適用し、低次の中央
    キャラクタを作成するステップと、 を含むことを特徴とする方法。
  24. 【請求項24】 中央処理装置に請求項23記載の方法を実行させる命令を
    記憶していることを特徴とするコンピュータ可読媒体。
  25. 【請求項25】 請求項23記載の方法において、データ点を除去する前記
    ステップは、f** kをデータ点の平滑化された組、Pをk番目のインデクス付デ
    ータ・セットからのデータ点の組pに対する平滑化ウィンドウのサイズ、f*
    k番目のインデクス付データ・セットの外部分位からのデータ点を含まないデー
    タ点の組pを包囲するデータ・エンベロープとして、 【数4】 を用いてデータ点を除去するステップを含むことを特徴とする方法。
  26. 【請求項26】 請求項23記載の方法において、インデクス付データ・セ
    ット比率の組を決定する前記ステップは、f** kを選択されたk番目のインデク
    ス付データ・セットからのデータ点の選択され平滑化された組、g** kをf** k
    はないデータ点の別の平滑化された組として、(g** k/f** k)を決定するステ
    ップを含むことを特徴とする方法。
  27. 【請求項27】 請求項23記載の方法において、インデクス付データ・セ
    ット比率の前記組の対数を作成し対数比率の組を作成する前記ステップは、lo
    xを所望の底xに対する対数、f** kをデータ点の選択されたk番目のインデク
    ス付の組からのデータ点の選択され平滑化された組、g** kをf** kではないデー
    タ点の別の平滑化された組として、logx(g** k/f** k)を適用するステッ
    プを含むことを特徴とする方法。
  28. 【請求項28】 請求項23記載の方法において、対数比率の前記組をフィ
    ルタリングし対数比率のフィルタリングされた組を作成する前記ステップは、ρ k(g,f) を対数比率のフィルタリングされた組、χωをフィルタ、logxを所望
    の底xに対する対数、f** kをデータ点の選択されたk番目のインデクス付の組
    からのデータ点の選択され平滑化された組、g** kをf** kではないデータ点の別
    の平滑化された組として、 【数5】 を適用するステップを含むことを特徴とする方法。
  29. 【請求項29】 請求項28記載の方法において、前記フィルタχωはロー
    パス・フィルタであることを特徴とする方法。
  30. 【請求項30】 請求項23記載の方法において、対数比率の前記フィルタ
    リングされた組の平均に指数化を適用する前記ステップは、λk(f)を低次中
    央キャラクタ、expxを所望の底xに対する指数関数、avgを平均、{ρk
    g,f)}をk番目のインデクス付データ・セットに対する対数比率のフィルタ
    リングされた組として、 【数6】 を適用するステップを含むことを特徴とする方法。
  31. 【請求項31】 データ正規化方法であって、 低次の中央キャラクタからの偏差と複数のインデクス付データ・セットとを測
    定するステップであって、前記低次の中央キャラクタは前記複数のインデクス付
    データ・セットから決定される、ステップと、 前記低次の中央キャラクタと前記複数のインデクス付データ・セットとの間の
    偏差を、前記低次の中央キャラクタと前記複数のインデクス付データ・セットに
    対する比率のフィルタリングされた対数との間の比率と、比率の前記フィルタリ
    ングされた対数とを用いて除去するステップと、 を含むことを特徴とする方法。
  32. 【請求項32】 中央処理装置に請求項31記載の方法を実行させる命令を
    記憶していることを特徴とするコンピュータ可読媒体。
  33. 【請求項33】 請求項31記載の方法において、前記複数のインデクス付
    データ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データ
    を含むことを特徴とする方法。
  34. 【請求項34】 請求項33記載の方法において、前記ポリヌクレオチド・
    データは、DNA、cDNA又はmRNAの中の任意のものを含むことを特徴と
    する方法。
  35. 【請求項35】 請求項31記載の方法において、前記除去するステップは
    、前記複数のインデクス付データ・セットの間の偏差を低次の中央キャラクタを
    用いて除去し、実験間の変動可能性を減少させ、前記複数のインデクス付データ
    ・セットを比較に適したものにするステップを含むことを特徴とする方法。
  36. 【請求項36】 請求項35記載の方法において、前記比較は、表示装置上
    での視覚的な比較を含むことを特徴とする方法。
  37. 【請求項37】 データ正規化方法であって、 複数のインデクス付データ・セットを読み取るステップであって、前記複数の
    インデクス付データ・セットは所望の実験を複数回完了することによって生じ、
    前記複数のインデクス付データ・セットは前記所望の実験を複数回完了するのに
    用いられた環境条件に起因して結果的に前記所望の実験に対する偏差を含む、ス
    テップと、 前記複数のインデクス付データ・セットから中央キャラクタを作成するステッ
    プと、 前記中央キャラクタを前記複数のインデクス付データ・セットからの測定され
    た偏差と比較してインデクス付データ・セットの正規化された組を作成すること
    により、前記中央キャラクタと前記複数のインデクス付データ・セットとの間の
    偏差を除去し、それによって、前記所望の実験に対する前記複数のインデクス付
    データ・セットの間での実験間の偏差を減少させるステップと、 インデクス付データ・セットの前記正規化された組を比較解析のために表示装
    置上に表示するステップと、 を含むことを特徴とする方法。
  38. 【請求項38】 中央処理装置に請求項37記載の方法を実行させる命令を
    記憶していることを特徴とするコンピュータ可読媒体。
  39. 【請求項39】 請求項37記載の方法において、前記複数のインデクス付
    データ・セットは、視覚的な表示に適した処理済みのポリヌクレオチド・データ
    を含むことを特徴とする方法。
  40. 【請求項40】 請求項39記載の方法において、前記ポリヌクレオチド・
    データは、DNA、cDNA又はmRNAの中の任意のものを含むことを特徴と
    する方法。
  41. 【請求項41】 請求項37記載の方法において、環境条件に起因する前記
    偏差は、前記所望の実験を複数回完了するのに用いられた電気泳動ゲル又はマイ
    クロアレイにおける任意の偏差に起因することを特徴とする方法。
  42. 【請求項42】 請求項37記載の方法において、前記中央キャラクタは、
    任意の零次の中央キャラクタ又は低次の中央キャラクタであることを特徴とする
    方法。
  43. 【請求項43】 請求項37記載の方法において、中央キャラクタを作成す
    る前記ステップは、前記複数のインデクス付データ・セットからのデータ値に正
    規化変換を適用して前記複数のインデクス付データ・セットからのインデクス全
    体のデータ情報を利用するステップを含むことを特徴とする方法。
  44. 【請求項44】 請求項43記載の方法において、前記正規化変換は、任意
    の零次の変換又は低次の変換を含むことを特徴とする方法。
JP2000620538A 1999-05-25 2000-05-23 実験データの正規化のための方法 Pending JP2003500663A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/318,679 US6334099B1 (en) 1999-05-25 1999-05-25 Methods for normalization of experimental data
US09/318,679 1999-05-25
PCT/US2000/014123 WO2000072218A2 (en) 1999-05-25 2000-05-23 Methods for normalization of experimental data

Publications (1)

Publication Number Publication Date
JP2003500663A true JP2003500663A (ja) 2003-01-07

Family

ID=23239160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000620538A Pending JP2003500663A (ja) 1999-05-25 2000-05-23 実験データの正規化のための方法

Country Status (6)

Country Link
US (4) US6334099B1 (ja)
EP (1) EP1238359A2 (ja)
JP (1) JP2003500663A (ja)
AU (1) AU5039600A (ja)
CA (1) CA2371718A1 (ja)
WO (1) WO2000072218A2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937330B2 (en) 1999-04-23 2005-08-30 Ppd Biomarker Discovery Sciences, Llc Disposable optical cuvette cartridge with low fluorescence material
US6687395B1 (en) 1999-07-21 2004-02-03 Surromed, Inc. System for microvolume laser scanning cytometry
US7010448B1 (en) * 2000-03-06 2006-03-07 Bio-Rad Laboratories, Inc. Method and structure for mitigating instrumentation differences
EP1276906A2 (en) * 2000-04-17 2003-01-22 Glaxo Group Limited Medicine response assay in respiratory disease
US7016822B2 (en) * 2000-06-30 2006-03-21 Qwest Communications International, Inc. Method and system for modeling near end crosstalk in a binder group
US7395250B1 (en) * 2000-10-11 2008-07-01 International Business Machines Corporation Methods and apparatus for outlier detection for high dimensional data sets
US6787761B2 (en) 2000-11-27 2004-09-07 Surromed, Inc. Median filter for liquid chromatography-mass spectrometry data
US20030143554A1 (en) * 2001-03-31 2003-07-31 Berres Mark E. Method of genotyping by determination of allele copy number
AU2002326361A1 (en) * 2001-07-16 2003-03-03 Gene Logic, Inc. Nucleic acid detection assay control genes
US6873915B2 (en) * 2001-08-24 2005-03-29 Surromed, Inc. Peak selection in multidimensional data
EP1481356A1 (en) * 2001-11-21 2004-12-01 Paradigm Genetics Inc. Methods and systems for analyzing complex biological systems
CA2484625A1 (en) 2002-05-09 2003-11-20 Surromed, Inc. Methods for time-alignment of liquid chromatography-mass spectrometry data
WO2004043444A1 (en) * 2002-11-06 2004-05-27 Mount Sinai School Of Medicine Treatment of amyotrophic lateral sclerosis with nimesulide
DE10315581B4 (de) * 2003-04-05 2007-06-28 Agilent Technologies, Inc. (n.d.Ges.d.Staates Delaware), Palo Alto Verfahren zur Qualitätsbestimmung von RNA-Proben
US7249125B1 (en) * 2003-10-09 2007-07-24 Computer Associates Think, Inc. System and method for automatically determining modal value of non-numeric data
US7248360B2 (en) * 2004-04-02 2007-07-24 Ppd Biomarker Discovery Sciences, Llc Polychronic laser scanning system and method of use
US7805703B2 (en) * 2004-12-22 2010-09-28 New York University System and method for representing the interactions between multiple inputs and at least one output
US20060291706A1 (en) * 2005-06-23 2006-12-28 Applera Corporation Method of extracting intensity data from digitized image
US7492372B2 (en) * 2006-02-21 2009-02-17 Bio-Rad Laboratories, Inc. Overlap density (OD) heatmaps and consensus data displays
US10032613B2 (en) 2012-11-29 2018-07-24 Regents Of The University Of Minnesota Non-parametric methods for mass spectromic relative quantification and analyte differential abundance detection
KR20170028322A (ko) 2014-05-28 2017-03-13 비토 엔브이 상이한 생물학적 샘플의 혼합물에 포함된 화학적 화합물의 상대적인 정량화 방법
CN110955865B (zh) * 2019-10-18 2023-12-29 浙江工业大学 一种基于粒子滤波的数据包络分析dea方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2056998A1 (de) 1970-11-20 1972-05-25 Bodenseewerk Perkin Elmer Co Peakintegrator
US4811218A (en) 1986-06-02 1989-03-07 Applied Biosystems, Inc. Real time scanning electrophoresis apparatus for DNA sequencing
IL81580A (en) 1987-02-16 1990-07-26 Elscint Ltd Spatial separation of spectral components
US5002867A (en) * 1988-04-25 1991-03-26 Macevicz Stephen C Nucleic acid sequence determination by multiple mixed oligonucleotide probes
US5119316A (en) * 1990-06-29 1992-06-02 E. I. Du Pont De Nemours And Company Method for determining dna sequences
US5419825A (en) 1991-07-29 1995-05-30 Shimadzu Corporation Base sequencing apparatus
US5365455A (en) * 1991-09-20 1994-11-15 Vanderbilt University Method and apparatus for automatic nucleic acid sequence determination
US5766875A (en) * 1993-07-30 1998-06-16 Molecular Devices Corporation Metabolic monitoring of cells in a microplate reader
US5459037A (en) 1993-11-12 1995-10-17 The Scripps Research Institute Method for simultaneous identification of differentially expressed mRNAs and measurement of relative concentrations
US5853979A (en) * 1995-06-30 1998-12-29 Visible Genetics Inc. Method and system for DNA sequence determination and mutation detection with reference to a standard
US5606512A (en) * 1994-07-27 1997-02-25 The Dow Chemical Company Determining the biodegradability of iminodiacetic acid derivatives
US5846719A (en) * 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5786142A (en) 1995-05-30 1998-07-28 Visible Genetics Inc. Electrophoresis and fluorescence detection method
US6199017B1 (en) * 1995-03-17 2001-03-06 Kureha Kagaku Kogyo Kabushiki Kaisha Biochemical information processing apparatus, biochemical information processing method, and biochemical information recording medium
US5916747A (en) 1995-06-30 1999-06-29 Visible Genetics Inc. Method and apparatus for alignment of signals for use in DNA based-calling
US5777888A (en) 1995-08-09 1998-07-07 Regents Of The University Of California Systems for generating and analyzing stimulus-response output signal matrices
US5683881A (en) * 1995-10-20 1997-11-04 Biota Corp. Method of identifying sequence in a nucleic acid target using interactive sequencing by hybridization
US6027941A (en) * 1996-05-15 2000-02-22 Curagen Corporation Method for distance measurements with solid-state NMR
EP0974111B1 (en) * 1997-04-11 2003-01-08 California Institute Of Technology Apparatus and method for automated protein design
JP2001515234A (ja) 1997-07-25 2001-09-18 アフィメトリックス インコーポレイテッド 多型性データベースを提供するためのシステム
CA2328881A1 (en) * 1998-04-16 1999-10-21 Northeastern University Expert system for analysis of dna sequencing electropherograms
US6489096B1 (en) 1998-10-15 2002-12-03 Princeton University Quantitative analysis of hybridization patterns and intensities in oligonucleotide arrays
US6253162B1 (en) * 1999-04-07 2001-06-26 Battelle Memorial Institute Method of identifying features in indexed data

Also Published As

Publication number Publication date
EP1238359A2 (en) 2002-09-11
US20020025170A1 (en) 2002-02-28
WO2000072218A2 (en) 2000-11-30
US20020026294A1 (en) 2002-02-28
CA2371718A1 (en) 2000-11-30
US20020049570A1 (en) 2002-04-25
WO2000072218A3 (en) 2001-04-05
US6334099B1 (en) 2001-12-25
AU5039600A (en) 2000-12-12

Similar Documents

Publication Publication Date Title
JP2003500663A (ja) 実験データの正規化のための方法
US10347365B2 (en) Systems and methods for visualizing a pattern in a dataset
US11574706B2 (en) Systems and methods for visualization of single-cell resolution characteristics
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
US6950755B2 (en) Genotype pattern recognition and classification
Forster et al. Experiments using microarray technology: limitations and standard operating procedures
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
US10453557B2 (en) Methods and systems for visualizing and evaluating data
WO2014024142A2 (en) Population classification of genetic data set using tree based spatial data structure
Haoudi et al. Bioinformatics and data mining in proteomics
US20130304783A1 (en) Computer-implemented method for analyzing multivariate data
US20210287801A1 (en) Method for predicting disease state, therapeutic response, and outcomes by spatial biomarkers
Avşar et al. A comparative performance evaluation of imputation methods in spatially resolved transcriptomics data
JPWO2021113749A5 (ja)
CN111094591A (zh) 用于对生物分子进行测序的方法
Islam et al. Mining gene expression profile with missing values: An integration of kernel PCA and robust singular values decomposition
WO2017009718A1 (en) Automatic processing selection based on tagged genomic sequences
AU5156200A (en) Methods and system for amplitude normalization and selection of data peaks
Kalocsai et al. Use of bioinformatics in arrays
US20240354607A1 (en) Systems and methods for visualizing a pattern in a dataset
Punitha Extraction of Co-Expressed Degs From Parkinson Disease Microarray Dataset Using Partition Based Clustering Techniques
Kreutz Statistical Approaches for Molecular and Systems Biology
Zhang et al. Dna sequence feature selection for intrinsic nucleosome positioning signals using adaboost
Zubair et al. Jointly leveraging spatial transcriptomics and deep learning models for pathology image annotation improves cell type identification over either approach alone
Zheng et al. Differential Expression Analysis Based on Expression Data of Multiple Platforms