JP5297207B2 - スペクトル分析を介したdnaパターンの同定方法及びシステム - Google Patents

スペクトル分析を介したdnaパターンの同定方法及びシステム Download PDF

Info

Publication number
JP5297207B2
JP5297207B2 JP2008557880A JP2008557880A JP5297207B2 JP 5297207 B2 JP5297207 B2 JP 5297207B2 JP 2008557880 A JP2008557880 A JP 2008557880A JP 2008557880 A JP2008557880 A JP 2008557880A JP 5297207 B2 JP5297207 B2 JP 5297207B2
Authority
JP
Japan
Prior art keywords
dna
spectral
dna sequence
cluster
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008557880A
Other languages
English (en)
Other versions
JP2009529723A (ja
Inventor
デミトローヴァ,ネヴェンカ
ヒン チャン,イー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009529723A publication Critical patent/JP2009529723A/ja
Application granted granted Critical
Publication of JP5297207B2 publication Critical patent/JP5297207B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Image Analysis (AREA)

Description

本開示は、DNAスペクトル分析を促進するシステム及び方法に向けられ、特に、DNA配列データの処理を全体的に又は部分的に自動化及び/又は促進するために画像処理技術及び/又は信号処理方法を使用するシステム並びに方法に向けられている。本開示の例証的な実施形態によると、システム及び方法は、以下のDNAスペクトル分析技術のうち1つ又は複数に寄与するよう提供されている:(i)比較ヒストグラム法;(ii)サポートベクトルマシン及び遺伝的アルゴリズムを用いた選択/分類;並びに(iii)DNA配列データからのスペクトログラムの抽出に基づくスペクトルビデオ法。
バイオインフォマティクスは、おびただしい量の生物学上のデータを、有用な知識を得るために使用することができる理解可能な情報に組織化するよう求めている。バイオインフォマティクスの分野では、DNA配列におけるスペクトル分析のための技術が開発されてきている。スペクトル分析技術は、一般的に、重要なライフプロセスに関連した生物学的マーカーとして役立つDNAパターンの同定を意図する、手動のDNAパターン分析技術に加えた改善を表している。伝統的には、4つのヌクレオチド塩基を表しているA、T、C、及びGという4文字で構成されるDNA配列の文字列に対して、自動分析が直接行われている。しかし、おびただしい長さのDNA配列(例えば、最短のヒト染色体の長さは、46.9Mbである)、限られた文字のセットに付随する広範囲のパターンの全長、及び、統計的性質の問題のため、そのような直観的/手動の方法は、たとえ不可能でなかったとしても、所望の目的を達成するためには能率が悪い。
DNAスペクトル分析は、DNA配列データから有用な情報を得るという問題に系統的に取り組む方法を提供している。一般的に、DNAスペクトル分析は、DNA配列内の各ヌクレオチド塩基の存在を個々のデジタル信号として同定して、4つのヌクレオチド信号のそれぞれを周波数領域に変換する。次に、周波数要素の振幅を使用して、どの位強くヌクレオチド塩基パターンがその周波数で繰り返されるかを明らかにすることができる。より大きな振幅/値は、通常、反復の強力な存在を示している。結果の可読性を改善するために、従来技術は、各ヌクレオチド塩基が色により表され、さらに、4つの塩基の周波数スペクトルが組み合わされて色のスペクトログラムとして示されるシステムを開示している。これらの技術は、D.Anastassiou,“Frequency−Domain Analysis of Biomolecular Sequences,” Bioinformatics,Vol.16,No.12,December 2000,pp.1073−1081、及び、D.Sussillo,A.Kundaje and D.Anastassiou,“Spectrogram Analysis of Genomes,”EURASIP Journal on Applied Signal Processing,Special Issue on Genomic Signal Processing,Vol.2004,No.1,January 2004,pp.29−42により記載されている。
視覚画像、すなわちスペクトログラムへのヌクレオチド塩基における振幅/値の転換は、DNA分析のための強力な可視化手段である。結果として生じるピクセル色は、特定周波数での4つの塩基の相対強度を示しており、色彩画像としてのDNA配列の表示は、目視検査によってパターンがより容易に同定されるのを可能にしている。一般に、スペクトログラム領域における色相は、そのヌクレオチド要素全体を反映しており、スペクトログラムにおける明るい線及びパッチは、特別な反復パターンの存在を明らかにしている。
DNAスペクトログラムを生じるためのアルゴリズム又は技術は、以下のように5つのステップに要約することができる。
(i)4つのヌクレオチド塩基のバイナリインジケータ配列(BIS)u〔n〕、u〔n〕、u〔n〕、及びu〔n〕の形成。特定塩基のためのBISは、その塩基が存在する位置で「1」という値を取り、さもなければ「0」という値を取る。従って、「AACTGGCATCCGGGAATAAGGTCT」というヌクレオチド配列を有する例証的なDNA配列では、BISは以下のように転換される:
Figure 0005297207
前述の例証的なBISパターンは、本明細書の図1に複写されている。前述のDNA配列に基づき、BIS値は以下のようにプロットすることができる(図2に複写されている):
Figure 0005297207
(ii)BISに対する離散フーリエ変換(DFT)。次に、各塩基の周波数スペクトルを、方程式(1)を用いてその対応するBISのDFTをコンピュータで計算することにより得る。
Figure 0005297207
配列U〔k〕は、周波数kでの周波数成分の程度を与えており、N/k試料の基底をなす期間(underlying period)に等しい(図3に複写されている)。
Figure 0005297207
(iii)RGB色へのDTF値のマッピング。4つのDFT配列は、方程式(2)として集合的に示されている以下の一次方程式のセットにより、RGB空間において3つの配列に減少する:
Figure 0005297207
式中、(a,a,a)、(t,t,t)、(c,c,c)、及び(g,g,g)は、それぞれヌクレオチド塩基A、T、C、及びGのカラーマッピングベクトルである。従って、結果として生じるピクセル色(X〔k〕, X〔k〕, X〔k〕)は、下記のようにそれぞれのヌクレオチド塩基の周波数成分における振幅により加重されたカラーマッピングベクトルの重ね合わせであり、本明細書の図4に複写されている。
Figure 0005297207
図5及び6は、本開示の例証的な実施形態による、色へのDFT値のマッピングをさらに示している。従って、図5を参考にすると、色ベクトルはそれぞれのヌクレオチド塩基A、T、C、及びGのためにそれぞれ選択される。色ベクトルの選択では、DNAの特徴である色対比を改善及び/又は高めることが一般的に望ましい。例証的な色ベクトルに基づき、DFT値は、図6に示されているように色空間において組み合わされる。例えば、DFT値をHue Saturation Value(HSV空間)、YCrCb空間等にマップできる等、別のマッピング技術及び/又は手順を使用することができる。
(iv)ピクセル値の正規化。色のスペクトログラムを与える前に、各ピクセルのRGB値は、一般的に0から1に下がるように正規化される。正規化機能を実行するための方法は多数ある。最も単純な方法は、グローバル最大値で全ての値を割ることである。しかし、そのようなワンステップ法は、画像の色対比全体を低下させてしまう恐れがある。より良い方法は、2つのレベルで正規化を行うことである:最初の操作の後、大部分のピクセルが0から1のRGB値を有するように、第一のレベルでは、全てのピクセル値は、例えば、全体の平均値と標準偏差に等しいもの等の統計上の最大値で割られる;次に、第2のレベルにて、1を超えるRGB値のうちどれかを有する残りのピクセルには、そのようなピクセル値のそれぞれをそのローカル最大値max(x,x,x)で割ることによって、第2レベルの正規化が個々に行われる。この2つのレベルによる方法は、より極端なピクセル値によって画像の全体的な輝度が過度に減少するのを防ぎ、結果として、スペクトログラム画像の色対比をよりきれいに維持することができる。図7は、図6の組み合わされたDFT値における例証的な正規化されたプロットを示している。
(v)短時間フーリエ変換(STFT)。これまで、1つのみの離散フーリエ変換(DFT)窓が考慮されてきた。しかし、長いDNA配列においては、配列に沿って変化するDFT窓のために、ステップ(i)から(iv)まで繰り返す必要があり得る。これは、色ピクセルの連続的な断片を生じ、その断片のそれぞれが局所的なDNAセグメントの周波数スペクトルを示している。次に、DNAスペクトログラムが、これらの断片の連結により形成される。下記の画像は、本明細書の図8及び9に複写されている。
Figure 0005297207
D.アナスタシュウ(Anastassiou)による刊行物(“Frequency−Domain Analysis of Biomolecular Sequences,” Bioinformatics,Vol.16,No.12,December 2000,pp.1073−1081)における方程式(8)として示された方程式のセットにより、ステップ(ii)と(iii)の順は可逆的であり、すなわち、第一に、4つのバイナリインジケータ配列を3つの数的な配列(x,x,x)に減少させ、次に、離散フーリエ変換(DFT)を行うことが可能であると示唆されていることが判る。しかし、これは、バイナリインジケータ配列が独立関数系ではないため、さらなる証明が必要である。
スペクトログラムの出現は、短時間フーリエ変換(STFT)窓のサイズ、隣接する窓間の重複する配列の長さ、及び、カラーマッピングベクトルにおける選択により非常に影響される。基本的に、窓のサイズは、スペクトログラムにおける効果的な範囲のピクセル値を決定する。より大きな窓は、より長い局所的なDNAセグメントから集められた統計を明らかにするスペクトログラムを生じ、より広いパターンを同定するのに有用であり得る。一般に、窓のサイズは、関心のある反復パターンの長さよりも数倍大きく、及び、そのパターンを含有する領域のサイズよりも小さく設定されるべきである。窓の重複部分は、2つの隣接するSTFT窓に共通のDNAセグメントの長さを決定する。従って、重複部分が大きければ大きいほど、1つのSTFT窓から次の窓への周波数スペクトルの移行はより緩やかになる。より小さな窓間隔はより高い分解能をもたらし、それによって、画像処理又は目視検査によって特徴を抽出することをより容易にしている。しかし、より小さい間隔は、一般的に、より多くの計算リソ―スも要求している。
ニューウェル(Newell)による米国特許第6,287,773号を参考にすると、例えば性質不明のEST等の試験用核酸配列における機能的に並べられた蛋白質配列の既知のブロックを検知する方法が開示されている。ニューウェルによる‘773法は:(a)コドン使用表を用いて、蛋白質配列のセットを機能的に並べられた核酸配列へ逆翻訳し、機能的に並べられた核酸配列のセットからプロフィールを作成するステップ;(b)プロフィールのために第1のインジケータ関数(アデニン)を構築するステップ;(c)試験用核酸配列のために第2のインジケータ関数(アデニン)を構築するステップ;(d)インジケータ関数のそれぞれにおけるフーリエ変換を計算するステップ;(e)第2のインジケータ関数のフーリエ変換を複素共役するステップ;(f)第1のインジケータ関数のフーリエ変換と第2のインジケータ関数の複素共益されたフーリエ変換を掛けて、アデニン塩基の対の数のフーリエ変換を得るステップ;(g)グアニン、チミン、及びシトシンのためにステップ(b)〜(f)を繰り返すステップ;(h)各塩基の対の数のフーリエ変換をそれぞれ合計して、全フーリエ変換を得るステップ;(i)全フーリエ変換の逆フーリエ変換を計算して、複素級数を得るステップ;及び(j)その級数のうち実数部分をとり、試験用配列に相対するプロフィールにおける種々の可能なずれのために塩基対の総数を決定するステップ;を含む。第1のインジケータ関数は、特定位置でアデニンが存在する割合の関数として、所与の位置での値が0から1の間で連続するのを可能にしている。次にその方法は、種々の可能なずれのための塩基対の総数に基づいて(すなわち、配列の適合を促進するために)、試験用核酸配列における機能的に並べられた蛋白質配列のうち既知のブロックの存在を検出することができる。
今日までの努力にもかかわらず、ゲノム情報の迅速な可視化を促進するシステム及び方法が依然として必要とされている。さらに、例えば、CpGアイランド、Alu反復、非コードRNA、タンデム反復、及び、種々のサテライト反復等の反復DNAパターンの同定を促進するシステム及び方法が依然として必要とされている。類似のスペクトル特性を示す類似のパターンを構造的又は成分的に同定することができる手段が依然として必要とされている。そのような手段は、線形順序又はヌクレオチド出現で配列を並べるよう求める配列アライメント手段と対照をなすことになる。さらに、監督された及び/又は無監督の機械学習技術を用いたスペクトル画像の迅速で全面的な分析を促進するシステム及び方法が依然として必要とされている。その上、例えば、所望の分解能でのゲノム全体の迅速な可視化を可能にするために、スペクトル画像配列の分解能を上げるシステム及び方法が依然として必要とされている。これらの及び他の必要性が、本明細書に開示されているシステム及び方法によって満たされている。
本開示は、DNAスペクトル分析を促進する有利なシステム及び方法を提供し、特に、DNA配列データの処理を全体的に又は部分的に自動化及び/又は促進するために画像処理技術及び/又は信号処理方法を使用するシステム並びに方法を提供している。本明細書においてより詳細に記述されているように、本開示の例証的なシステム及び方法は、以下のDNAスペクトル分析技術のうち1つ又は複数に寄与している:(i)比較ヒストグラム法;(ii)サポートベクトルマシン及び遺伝的アルゴリズムを用いた選択/分類;(iii)構造的に新規のDNAセグメントにおける無監督の分類及び発見;並びに(iv)DNA配列データからのスペクトログラムの抽出に基づくスペクトルビデオ法。開示されたシステム及び方法は、(i)ゲノム情報の可視化を促進するステップ、(ii)例えば、CpGアイランド、Alu反復、タンデム反復、及び、サテライト反復等の反復DNAパターンを同定するステップ、(iii)監督された及び/又は無監督の機械学習技術を用いたスペクトル画像の迅速で全面的な分析、並びに(iv)例えば、変更される及び所望の分解能でのゲノム全体の迅速な可視化を可能にするために、スペクトル画像配列の分解能を上げるステップを含めた多数の利点を提供している。
本開示の第一の態様によると、フーリエ変換を適用して、A、T、C、Gという文字からなる記号によるDNA配列をDNAパターンの共起の周期性を強調する可視表現に転換することにより、DNAスペクトログラムは生じる。開示されたシステム及び方法は、画像処理オペレータを使用して、DNAスペクトログラムの垂直方向及び水平方向において顕著な特徴を見つけることにより、反復DNAパターンの同定及び/又は位置決定を促進する。得られたスペクトル画像の迅速で全面的な分析が、監督された及び無監督の機械学習法を用いて行われる。監督された様式において、本開示による反復DNAパターンを検出及び分類するための2つの例証的な方法は、(a)比較ヒストグラム法、並びに(b)サポートベクトルマシン及び遺伝的アルゴリズムを用いた特徴の選択及び分類を含む技術、を含んでいる。
開示された画像処理オペレータは、CpGアイランド、Alu反復、非コードRNA(例えばマイクロRNA及び小さな核小体RNA)、タンデム反復、及び、種々のサテライト反復等のDNAパターンを同定及び/又は位置決定するのに効果的である。画像処理オペレータを使用して、例えば、染色体内、ゲノム内、又は多様な種のゲノムにわたる種々の生物学的なシステムにおける反復要素を同定及び/又は位置決定することができる。開示されたシステム及び方法は、DNA配列又はゲノムが莫大な数のスペクトログラム画像を生じるよう処理されるが、そのような画像は反復パターンの位置決めを生じる若しくは解明することに失敗する、及び/又は、そのような反復パターンに生物学的若しくは臨床的な意味を結びつけることに失敗する、という現存する方法の制限を能率的及び信頼できる方法で克服している。
本開示の第2の態様によると、DNA配列をバイナリインジケータ配列に転換し、次に、短時間フーリエ変換を適用して、その出力を可視化するために色空間にマップすることによって、DNAスペクトログラムは生じる。DNAスペクトログラムは、ビデオ画像を作成するためにDNA配列に沿って進む。ビデオ画像−「スペクトルビデオ」と呼ばれる−は、その可視化を促進するために、例えば、染色体又はゲノム全体といった長いDNA配列等、非常に長いDNA配列から生じ得る。同じ配列における従来のDNAスペクトログラムとは対照的に、開示されたスペクトルビデオは高められた分解能を提供している。さらに、開示されたスペクトルビデオは、短時間での、及び、所望の分解能での、ゲノムの可視化を促進している。スペクトルビデオ分析を利用して、完全なゲノム分析を提供若しくは促進する、及び/又は、完全な長さのDNAパターン(若しくは、その中の所望の部分)における変化を検知することができる。
シーンチェンジ検出法をスペクトルビデオに関して使用し、直線的な視覚特徴において急な変化を見つけることができる。さらに、スペクトルビデオの各シーンで、統計学上の特徴をスペクトル領域から抽出することができる。さらに、完全な(又は実質的に完全な)スペクトルビデオからの個々のシーンを、無監督のクラスタリング法を用いてクラスタ化することができる。実際に、本開示による無監督のビデオ特徴検出法を使用して、スペクトルDNAレベルでのゲノムワイドな類似点を同定及び/又は明らかにすることができる。従って、そのような分析技術を、例えば、遺伝子ネットワーク、重要なモチーフ、反復DNA要素、及び他の顕著なDNAパターンを見つけるための自動DNA分析に使用することができる。
開示されたシステム並びに方法における追加の有利な特徴及び機能は、以下に続く詳細な説明から、特に、付随の図と共に読まれた場合に明らかになるであろう。
本開示のシステム及び方法は、DNAスペクトル分析を促進している。本明細書に記述されているように、例証的なシステム及び方法は、以下のDNAスペクトル分析技術のうち1つ又は複数に寄与している、及び/又は、それ(ら)を利用している:(i)比較ヒストグラム法;(ii)サポートベクトルマシン及び遺伝的アルゴリズムを用いた選択/分類;並びに(iii)DNA配列データからのスペクトログラムの抽出に基づくスペクトルビデオ法。本開示による、例えば、(i)強化されたゲノム情報の可視化、(ii)例えば、CpGアイランド、Alu反復、非コードRNA、タンデム反復、及び、サテライト反復等の反復DNAパターンの同定、(iii)構造的に新規のDNAセグメントにおける無監督の分類及び発見、(iv)監督された及び/又は無監督の機械学習技術を用いたスペクトル画像の迅速で全面的な分析、並びに(v)例えば、所望の分解能でのゲノム全体の迅速な可視化を可能にするために上げられたスペクトル画像配列の分解能、等の多くの利益を認識することができる。
開示されたシステム及び方法によると、図1〜9を参考にして本明細書においてより詳細に記載されているように、DNAスペクトログラムは従来の方法で生じる。例えば、以下の5つのステップを必要とするDNAスペクトログラム生成のための従来のアルゴリズム又は技術を使用できる:
(i)4つのヌクレオチド塩基のバイナリインジケータ配列(BIS)u〔n〕、u〔n〕、u〔n〕、及びu〔n〕の形成。上記のように、例証的なBISパターンが、本明細書の図1に複写されており、BIS値のプロットが図2に示されている。
(ii)BISに対する離散フーリエ変換(DFT)。各塩基の周波数スペクトルを、方程式(3)(以下に複写されている)を用いてその対応するBISのDFTをコンピュータで計算することにより得る:
Figure 0005297207
図3に示されているように、配列U〔k〕は、周波数kでの周波数成分の程度を与えており、N/k試料の基底をなす期間に等しい。
(iii)RGB色へのDTF値のマッピング。4つのDFT配列は、以下に複写されている一次方程式のセットにより、RGB空間において3つの配列に減少する:
Figure 0005297207
式中、(a,a,a)、(t,t,t)、(c,c,c)、及び(g,g,g)は、それぞれヌクレオチド塩基A、T、C、及びGのカラーマッピングベクトルである。従って、結果として生じるピクセル色(X〔k〕, X〔k〕, X〔k〕)は、それぞれのヌクレオチド塩基の周波数成分における振幅により加重されたカラーマッピングベクトルの重ね合わせである(図4を参照)。色へのDFT値のマッピングは、図5及び6に示されている。
(iv)ピクセル値の正規化。色のスペクトログラムを与える前に、各ピクセルのRGB値は、一般的に0から1に下がるように正規化される。図7は、図6の組み合わされたDFT値における例証的な正規化されたプロットを示している。
(v)短時間フーリエ変換(STFT)。DNAスペクトログラムが、個々のDNA配列断片の連結により形成され、各断片は、一般的に、局所的なDNAセグメントの周波数スペクトルを示している(図8及び9を参照)。
本開示によると、本明細書により生成されたDNAスペクトル画像から、CpGアイランドを好都合に抽出することができる。CpGアイランドは、そのゲノムに5−メチルシトシンを含有する生物における遺伝子のプロモーター領域に対する重要な生物学的マーカーであり、さらにCpGアイランドは、脊椎動物における細胞分化において、及び、遺伝子発現の調節において重要な役割を果たす。CpGアイランドは、少なくとも200塩基対(bp)、50%を超えるC+G含有量、及び、0.6よりも大きな観察/予想されたCpG比を有する領域として、ガーディナーガーデン(Gardiner−Garden)とフロマー(Frommer)により定義されてきている。CpGアイランドは、また、500bpよりも長く、少なくとも55%のC+G含有量、及び、0.65という観察/予想されたCpG比を有する領域として、タカイ(Takai)とジョーンズ(Jones)によっても定義されてきている。タカイとジョーンズの定義は、おそらく遺伝子の5’領域と付随するようCpGアイランドを戻すこと、及び、最も多いAlu反復要素を排除することに向けられていることが判る。どちらの定義においても、観察された/予想されたCpG比は、(Cの数×Gの数/セグメントの長さ)により与えられている。
図10を参考にすると、中心にCpGアイランドを示した2つの例証的なスペクトログラムが提供されている。STFT窓のサイズは120塩基対(bp)で、隣接する窓間で重複する部分が119bpであるよう選択される。スペクトル画像からのCpGの抽出において、TからA、及び、GからCを区別することは一般的に必要ではないと判る。従って、4つのヌクレオチド塩基それぞれに4つの色ベクトルを使用する代わりに、例えば、A及びTには赤(1,0,0)、並びに、C及びGには緑(0,1,0)にする等、2つの色ベクトルを使用することができる。対応するスペクトログラムが図11に示され、どちらの画像においても、CpGアイランドは背景をよく対比させている。この色ベクトルの選択は、青の成分を無視することができ、赤及び緑色の成分のみを使用するという考慮も可能にしている。従って、開示された色選択技術により、特徴がより識別できる画像の生成が可能及び/又は促進され、すなわち、最適な配色を採用することによって、高められた抽出性能が達成される。
一般的に、画像特徴検出法は3つのステップを含むことができる:(i)画像ノイズ除去、(ii)分類における特徴の抽出、及び(iii)前記分類における特徴を評価することによる意志決定。一般的に、適切なノイズ除去ステップを含むことにより、結果を高めることができるけれども、開示されたシステム及び方法では、スペクトル画像のノイズ除去は必要ではない。
〔画像ノイズ除去〕
生のスペクトログラム画像はノイズを含んでおり、その除去により、検出の信頼度、効率、及び/又は性能を改善又は高めることができる。スペクトログラム画像のノイズ除去は、1又は複数のモルフォロジカルオペレーションを用いて達成することができる。例えば、モルフォロジカルオープニングに続いてモルフォロジカルクロージングを行うことにより、弱ピクセルの小さな領域を除去することができる。その後、互いに近い距離にある強ピクセルを含んだ領域は併合することができる。ノイズ除去は、一般的に、緑及び赤色の空間において別々に行われる。有用な詳細がスペクトログラムに保持されつつノイズが取り除かれるように、モルフォロジカルオペレーションでは、構造的要素の形及びサイズは慎重に選ばれる。1ピクセルの高さ及び50ピクセルの長さを有する長方形を構成する要素が、CpGアイランドの検出に関して、ノイズ除去操作のための効果的なパラメータを提供すると見いだされている。例証的なノイズ除去されたスペクトログラムが本明細書の図12に示されており、左側の画像は緑及び赤のチャネル画像のみを含み、対応する右側の画像は、モルフォロジカル「クローズ」に続く「オープン」フィルタ後の画像である。
〔分類における特徴の抽出〕
CpGアイランドにおいて、緑色の輝度(C及びGの存在)が、一般的に、赤色(A及びTの存在)よりも高いことが目視検査を介して判ってきている。さらに、1又は複数の明るい箇所のかたまりから明らかなように、緑の空間において輝度に大きな変動があるけれども、赤色の輝度は、一般的にその領域において均等に低い−すなわち、実質的に均一である−。均一性/不均一性という前述の問題に取り組むために、本開示のシステム及び方法は、強化された分類における特徴の抽出を好都合に促進している。従って、本開示の例証的な実施形態によると、「ソーベル」エッジ検出が、緑及び赤空間におけるノイズ除去されたスペクトログラムに対してそれぞれ行われる。当業界では一般的に既知であるように、ソーベルオペレータは、画像輝度の関数における勾配ベクトルの近似値を計算する離散微分オペレータである。画像の各ポイントで、ソーベルオペレータの結果は、対応する勾配ベクトル又はそのベクトルのノルムである。例えばキャニーエッジ検出器等、別のエッジ検出技術を、本開示の真意又は範囲から逸脱することなく使用することができる。
ノイズ除去されたスペクトログラムに対するソーベルエッジ検出の適用により、隣接するピクセルに比べて大きな輝度差を有するピクセルに対応するエッジのバイナリ画像が生じる。赤の空間よりも緑の空間において、CpGアイランドのエッジピクセルがより多くあることが一般的に判ってきている。エッジ検出を介して生じるバイナリ画像は、x軸(STFT窓位置)及びy軸(スペクトル周波数)に沿ってそれぞれエッジピクセルの数を数えることによりさらに処理される。4つのヒストグラムが結果として得られる:緑並びに赤の空間に対するx及びyのヒストグラム。最終的に、前述のヒストグラムは、それぞれ移動平均を計算することによりなめらかにされる。
緑及び赤ベースのスペクトログラムにおけるエッジの読み取りを反映する例証的なスペクトル画像が、図13に明記されている。図13の左側の列は本来の画像を示し、右側の列は正方形2x2のマスクでソーベルエッジ検出を適用した後の対応する画像を示している。右側の画像は、水平及び垂直のエッジヒストグラムを示している。
従って、分類における特徴の抽出は、本開示のシステム及び方法に従い取り組むことができる一連のパラメータにより影響される。分類における特徴の抽出に影響する、及び、本開示により制御されるパラメータの中には、(i)エッジ検出の方法、(ii)エッジ検出のしきい値、及び(iii)移動平均窓のサイズがある。
〔分類における特徴の評価を介する意志決定〕
スペクトル画像の分類における特徴が同定されると、CpGアイランドの分類器を提供することができると開示されたシステム/方法に従い熟慮される。分類器を生じるための2つの例証的な方法は、(i)固定しきい値法、及び(ii)遺伝的アルゴリズム/サポートベクトルマシン(GA−SVM)法である。
開示された固定しきい値法において、CpGアイランドは以下の方法で好都合に抽出される:
(i)(x_ヒストグラム_緑−x_ヒストグラム_赤)>しきい値(この例においては=2)
(ii)長さ<200bpの(1)を満たす領域は拒絶される。
(iii)100bp未満により分けられた(1)も(2)も満たす領域は併合される。
図14を参考にすると、塩基「A」、「T」を赤色に、及び、「C」、「G」を緑色にマップする色のスペクトログラムからエッジが抽出されている。赤及び緑に表示することができるエッジピクセルが、対応する色空間から個々に抽出されている。例えば黄色等のさらなる色を使用して、赤と緑のエッジの共存に付随する結果を表示することができる。例証的な図13から明らかなように、CpGアイランドのヒストグラムにおけるx軸に沿った緑のピクセルの数は、赤のピクセルの数を明らかに超えている。上記のCpGアイランド同定基準に基づき、CpGアイランドは、DNAセグメントのうち1102から1322ヌクレオチドに位置するとして同定される。比較の目的で、ガーディナー及びタカイのCpG定義に基づくCpGアイランド、すなわち、ガーディナー(855,1524)及びタカイ(744,1243)も図14に示されている。留意すべきは、本明細書において規定されたCpGアイランド同定基準は、少なくとも図14に示された例証的なスペクトログラムの目的においては、ガーディナー及びタカイの定義/基準と比較するとより説得力があるということである。当業者には容易に明らかになるように、CpGアイランド同定基準は、適用できるパラメータ値の変化を介して調節可能である。
従って、より広い意味において、本開示による例証的なヒストグラムの比較に基づいたシステム及び方法は以下のステップを含み、そのフローチャートが図15に示されている。本明細書においてステップが示されている順序は、開示されたシステム/方法の典型を示しているけれども、開示されたシステム及び方法は本明細書に示された順序に限定されないことを理解されたい。さらに、本明細書に提供されている詳細な説明から容易に明らかなように、開示されたシステム及び方法は、同定処理をさらに高める若しくは促進することができる1又は複数の追加のステップの導入を除外しない、又は、開示されたシステム及び方法は、本明細書に開示された各ステップ及び全ステップを伴う実施に対する範囲において制限されない。
〔例証的な比較ヒストグラム/固定しきい値処理システム及び方法〕
1. 開示されたシステム/方法に長さMのDNA配列を入力するステップ:
パラメータ:N−STFT窓サイズ
q−重複
p−目視分解能(M>>p>N)
2. サイズNの入力されたDNA配列をバイナリインジケータ配列に転換するステッ
プ;
3. 短時間フーリエ変換(STFT)を前記バイナリインジケータ配列に適用し、周
波数領域ベクトルを生成するステップ;
4. A、T、C、及びGに対する前記周波数領域ベクトルを、例えばRGB(赤−緑
−青)又はHSV(色相−彩度−明度)色空間等の色空間にマップするステップ;
5. 従来のエッジ検出法(例えば、ソーベル又はキャニーエッジ検出器)を用いて、
DNAスペクトル画像にエッジ検出を適用するステップ;
6. エッジ投影(edge projection)を用いることにより、RGBか
ら赤、緑、青成分(又は、HSV色空間が使用された場合はHSV成分)における
水平及び垂直のヒストグラムを別々に計算するステップ。ヒストグラムは、組み合
わされた色も表すことができる。例えば、CとGを組み合わせて緑成分により表す
ことができ、AとTを組み合わせて赤成分を表すことができる;
7. ヒストグラムデータを評価するステップ。例えば、CpGアイランドには、以下の抽出基準を使用することができる:
(1)(x_ヒストグラム_緑−x_ヒストグラム_赤)>しきい値(例えば、2に等しい)
(2)長さ<200bpの(1)を満たす領域は拒絶される。
(3)100bp未満により分けられた(1)も(2)も満たす領域は併合される。
8. 評価基準を満たしたDNAセグメントは反復要素として標識され、開始及び終了位置が注目/記録される(例えば、CpGアイランド)。
ゲノム全体及び/又はゲノムにわたっての構造レベルで反復特徴を示すことができる他の種類のDNA配列がある。近年、重要な機能上の役割が、非コードRNAにより行われ得る、及び/又は、非コードRNAと付随し得ることが理解されてきている。ヘアピン構造を生じるDNA配列は、そのような非コードRNAの種類を表している。例えば、マイクロRNA(miRNA)は、遺伝子発現を転写後に調節する小さなRNAである。マサチューセッツ工科大学のWhitehead Instituteで生物学の教授をしているデイビッド バーテル(David Bartel)は、miRNAは全ヒト遺伝子の三分の一を調節することができると予測している(Cell,Cell Press,January 14,2005)。
開示された処理技術は、適切な処理装置で作動する/操作される適切なソフトウエア/プログラミングを介して一般的に実行される。処理システムは、例えばパーソナルコンピュータ等の独立型であり得るか、又は、ネットワーク(インターネット間で通信し合う分散型ネットワーク、イントラネット、エクストラネット等)と付随し得る。処理装置/システムは、一般的に、適切なメモリ/記憶装置に通じており、それは、例えば、ソフトウエア/プログラミング、パラメータを含有するデータベース、及び、開示されたシステム/方法に付随する値にアクセスするという目的のため、並びに、開示されたシステム/方法を介して生じた値/データ/画像の(短期間及び長期間両方の)記憶装置のためである。開示された処理装置/システムは、本開示により生じた値/データ/画像を表示及び/又は記録するために、例えば、プリンタ及びモニタ等の1又は複数の出力システムにも一般的に通じている。従って、要するに、開示されたシステム及び方法は、当業者には既知であるように、コンピュータ及び/又はプロセッサベースの実行を許している。
本開示による例証的なGA−SVM方法/技術に話を変えると、遺伝的アルゴリズムを有するサポートベクトルマシンを利用して、例えば、画像ベースの特徴のセット等、特徴のセットの質を評価及び位置づけることができる。例証的な実施形態において、開示された評価/位置づけの機能性は、例えばCpGアイランドを同定するのに効果的である。さらに、繰り返しの特徴を除去する方法(recursive feature elimination method)及び/又は主成分分析を使用して、顕著な特徴を見つけることができる。留意すべきは、当業者には容易に明らかになるように、別の定義を適応することができるけれども、現存するCpGアイランドの定義は、ガーディナー及びタカイによる定義のように、開示されたシステム及び方法の実行を導くということである。開示されたGA−SVM方法/技術の典型的な目的は、CpGアイランドの分類に有用な特徴を見つけることである。
開示されたGA−SVM方法/技術は、例えば、CpGアイランドを同定するための、特徴のセットの質を評価及び位置づけするために、遺伝的アルゴリズムを有するサポートベクトルマシンの使用を一般的に含んでいる。従って、例えば、開示されたGA−SVM方法/技術を使用して、例えば長さが200塩基であるDNAセグメント等、所与の長さを有するDNAセグメントそれぞれから、例えば127個の特徴等、所定の数の特徴を抽出することができる。本開示の例証的な実施形態によると、特徴セットの構成物は、以下の通りである(全特徴=127):
● 緑のピクセルの数(1)
● 赤のピクセルの数(1)
● 緑のエッジピクセルの数(1)
● 赤のエッジピクセルの数(1)
● 緑のエッジピクセルの数引く赤のエッジピクセルの数(1)
● 周波数軸に沿った赤のエッジヒストグラムの数値(61)
● 周波数軸に沿った緑のエッジヒストグラムの数値(61)
例えば、ガーディナー及び/又はタカイのCpGアイランド定義等、種々のCpGアイランドの定義を使用することができる。選択された定義に基づき、例えば、各スペクトログラム画像に対して127個の特徴等、多数の特徴が、開示されたGA−SVM方法/技術に従い一般的に生じる。本開示の例証的な実施形態に従い、合計で3206のDNAセグメントを使用し、それらのセグメントをスペクトログラムに転換した。CpGの種類又は非CpGの種類を表す特徴セットがスペクトログラムから抽出される。
本開示によると、所定の割合の出力データが、サポートベクトルマシンを「訓練する」ために使用され、例えば、出力データのうち三分の二がSVMを訓練するために使用できる(下記の表を参照)。残りのデータ(例えば、全データのうち三分の一)は、開示されたGA−SVM方法/技術による目的を試験するために使用される。予備結果により、上記の127個の特徴のうち、最適な特徴セットは57個の要素からなり、さらに、67%という最適な精度が達成されたことが示されている。
本開示による例証的なGA−SVM方法/技術は、以下の操作可能なパラメータを含んだ:
● 配列の総数:
Figure 0005297207
● 試行数:100,000
本明細書に記述されているように、例証的な実行は、塩基「A」と「T」及び「C」と「G」を赤及び緑色にそれぞれグループ化するカラーマッピングスキームに基づいている。そのような実行では、CpGアイランドの同定のための抽出アルゴリズムにおいて赤及び緑色の成分を考慮することだけが必要である。しかし、他のカラーマッピングスキームを本開示に従い使用することができ、その場合、R、G、及びBという色(又はHSV)の全3層を考慮する必要があり得る。本明細書に提供された詳細な説明に基づき当業者には明らかになるように、別のカラーマッピングスキームに取り組むために、必要に応じて、特徴のセット及び選択基準を調節することができる。図16及び17を参考にすると、CpGアイランドの検出結果が示されており、カラーマッピングを用いて得られたスペクトログラムにおいてエッジヒストグラムが使用されている。
〔特徴の選択及び分類のための例証的なGA−SVMシステム及び方法〕
1. 前記開示されたシステム/方法に長さMのDNA配列を入力するステップ:
パラメータ:N−STFT窓サイズ
q−重複
p−目視分解能(M>>p>N)
2. サイズNの入力されたDNA配列をバイナリインジケータ配列に転換するステップ;
3. 短時間フーリエ変換(STFT)を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ;
4. A、T、C、及びGに対する前記周波数領域ベクトルを、例えばRGB又はHSV等の色空間にマップするステップ;
5. 従来のエッジ検出法(例えば、ソーベル又はキャニーエッジ検出器)を用いて、DNAスペクトル画像にエッジ検出を適用するステップ;
6. エッジ投影を用いることにより、赤、緑、青成分(又は、HSV成分)における水平及び垂直のヒストグラムを別々に計算するステップ。ヒストグラムは、組み合わされた色も表すことができる。例えば、CとGを組み合わせて緑成分により表すことができ、AとTを組み合わせて赤成分を表すことができる;
7. 遺伝的アルゴリズムを有するサポートベクトルマシンを用いた特徴選択法を利用して、顕著なスペクトル特徴のセットを評価及び位置づけるステップ。あるいは、繰り返しの特徴を除去する方法及び/又は主成分分析を使用して、顕著な特徴を見つけることができる。例えば、以下の特徴を使用することができる:127個の特徴(N塩基長であるDNAセグメントから抽出され、Nは変更できる;例証的な実施形態において、Nは200bp長である)
● 緑のピクセルの数(1)
● 赤のピクセルの数(1)
● 緑のエッジピクセルの数(1)
● 赤のエッジピクセルの数(1)
● 緑のエッジピクセルの数引く赤のエッジピクセルの数(1)
● 周波数軸に沿った赤のエッジヒストグラムの数値(61)
● 周波数軸に沿った緑のエッジヒストグラムの数値(61)
8. 前述のステップから上位に位置づけられた特徴のサブセットを用いて分類器を設計/実行するステップ。本開示の例証的な実施形態では、サポートベクトルマシン分類器が使用される;しかし、例えば、神経回路網、自己組織化マップ(SOM)技術/システム、及び、機械学習文献において既知の他の分類器を使用できる等、別の分類器を、本開示の真意又は範囲から逸脱することなく、使用することができる。分類器は、未知の入力されたDNA配列を検出し、反復DNA構造(例えばCpGアイランド)を有するセグメントの一部に分類する;
9. 評価基準を満たしたDNAセグメントは反復要素として標識され、開始及び終了位置が注目/記録される(例えば、CpGアイランド)。
本明細書において上記されているような、特徴選択及び分類のための例証的なGA−SVMシステム/方法のフローチャートが、図18に示されている。上記の比較ヒストグラム/固定しきい値処理システム及び方法のように、開示されたGA−SVMシステム/方法は、適切な処理装置で作動する/操作される適切なソフトウエア/プログラミングを介して一般的に実行される。処理システムは、例えばパーソナルコンピュータ等の独立型であり得るか、又は、ネットワーク(インターネット間で通信し合う分散型ネットワーク、イントラネット、エクストラネット等)と付随し得る。処理装置/システムは、一般的に、適切なメモリ/記憶装置に通じており、それは、例えば、ソフトウエア/プログラミング、パラメータを含有するデータベース、及び、開示されたシステム/方法に付随する値にアクセスするという目的のため、並びに、開示されたシステム/方法を介して生じた値/データ/画像の(短期間及び長期間両方の)記憶装置のためである。開示された処理装置/システムは、本開示により生じた値/データ/画像を表示及び/又は記録するために、例えば、プリンタ及びモニタ等の1又は複数の出力システムにも一般的に通じている。従って、開示されたシステム及び方法は、当業者には既知であるように、コンピュータ及び/又はプロセッサベースの実行を許している。
開示された比較ヒストグラム/固定しきい値及びGA−SVMシステム/方法は、広範囲にわたる適用性及び有用性を有している。例えば、反復DNAスペクトル分析を、迅速なゲノム全体の分析のために、及び、長いDNA配列において重要なパターンを同定/見つけるために使用することができる。実際、そのようなパターンの同定を、癌、老化、及び発達障害を研究並びに診断するのに重要並びに/又は有用な、DNA配列のエピゲノミクス分析に使用することができる。
監督された分類も無監督の分類も、FFTの結果を色空間にマッピングすることなく行うことができると注目することが重要である。特徴は、4つの変換されたバイナリインジケータ配列から直接抽出することができる。この場合、RGBスペクトログラム画像の代わりに、入力されるのは、FFT変換バイナリインジケータ配列である。正規化は、任意のステップであり得る。残りの分析は、完全なベクトルを表すよう組み合わされた4つの変換されたインジケータ配列からなる特徴ベクトル上で行われ、その完全なベクトルは各DNAセグメントを表している。
〔スペクトログラムからスペクトルビデオを作成するシステム/方法〕
本開示のさらなる態様によると、DNA配列に付随するスペクトログラムからスペクトルビデオを作成するシステム及び方法が開示されている。非常に長いDNA配列(例えば、1億5000万塩基長であり得る染色体)の周波数スペクトルは、いかなる所望の分解能でも1つのスペクトログラム枠に適合することはできない。個々の画像を見る代わりに、本開示の例証的なシステム及び方法は、スペクトログラムからの連続するビデオの作成を促進する。開示されたスペクトルビデオは、ゲノム又は他の関心のあるDNA配列にわたる「パニング」に本質的に相当する。スペクトルビデオで、短時間での、及び、所望の分解能でのゲノムの可視化が可能になる。さらに、スペクトルビデオの分析により、完全なゲノム分析が提供され、さらに、完全な長さのDNAパターンにおける変化の検知が可能になる。同じ配列のスペクトログラムとは対照的に、開示されたスペクトルビデオにより、同じ配列においてより多くの分解能が提供される。
本明細書に開示されているように、スペクトルビデオの作成及び使用により:
● 個々のスペクトログラムの保存及び表示に対立するものとした、ゲノム全体の連続 目視;
● 時間の節約:スペクトログラムを1つずつ目視することは非常に時間がかかるけれ ども、スペクトルビデオは、DNAスペクトログラムを共に縫い合わせることにより作 成される;
● 連続する直線的なゲノムパターンの分析:低分解能では、これらのパターンは1つ のスペクトログラムを超えて及ぶ可能性がある;
● 所望の分解能、及び、優れたディテールでの長い配列の可視化;
● スペクトルビデオの目視が進むに従い、分解能を変える能力:例えば、興味深いパ ターンが現れた場合に、開示されたシステム/方法は、特定のサブ配列のさらなる細部 への即座の「飛び込み」を促進する;
を含めた多数の利点及び/又は機能性が提供される。
スペクトログラムをスペクトルビデオに変換するための開示されたシステム/方法は、ソフトウエア/コンピュータプログラミングを介して実行することができる。本開示の例証的な実施形態によると、ソフトウエア/プログラミングは、処理装置/コンピュータ上での操作のために提供され、そのようなソフトウエアは、例えば、5’末端から3’末端までDNA配列にわたりスペクトログラム窓を徐々にパニングすることにより、DNA配列全体(又は、その中でも所望された部分)の周波数スペクトルを表示するようなされている。開示されたスペクトルビデオを実現するための例証的なプログラム/アルゴリズムは、本明細書に記述されている。本明細書の図19に明記されたフローチャートも参照されたい。
〔スペクトルビデオを作成するための例証的なアルゴリズム/プログラム〕
(1)開示されたシステム/方法に長さMのDNA配列を入力するステップ:
パラメータ:N−STFT窓サイズ
q−窓間隔(N−窓の重複)
p−目視分解能(ビデオ画像の幅)、及び
v−目視の速度、すなわち、1つのビデオフレームあたりにシフトされるスペクトル画像列の数(M>>p>N)
(2)初期化するステップ:s=1、r=1
(3)pという長さのセグメント、又は、完全なDNA配列のサブ配列に対して位置sで開始するステップ;
(4)位置rで開始し、サイズNという入力されたDNA配列を、バイナリインジケータ配列に転換するステップ;
(5)短時間フーリエ変換をバイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ;
(6)A、T、C、及びGに対する前記周波数領域ベクトルを、例えばRGB又はHSV色空間等の色空間にマップするステップ;
(7)(r−s+1)<pの場合、結果を可視化し、qヌクレオチド分前方へ移動するステップ:r=r+q ステップ4へ進む。
(8)DNAスペクトル画像が前もって示されていない場合、スペクトル画像を表示するステップ:r=r+q ステップ4へ進む。
(9)(r−s+1)<p+vqの場合、1列目をスペクトル画像から除去し、最後に生成された列を末端部に付け加えるステップ;r=r+q ステップ4へ進む。
(10)(r−s+1)>=p+vqの場合、スペクトル画像を表示するステップ;s=s+vq r=r+q
(11)(r+N−1)<=Mの場合、ステップ4へ進むステップ。
(12)使用者の要求に従って、目視の速度vを調節するステップ;通常速度は、1つのビデオフレームあたり1列のシフトである。
図20を参考にすると、スペクトルビデオからの例証的な画像が明記されている。(よどみを被っている−動く画像ではない)図20の画像から容易に明らかなように、開示されたスペクトルビデオ関連のシステム及び方法は、例えば、既知及び未知両方の生物マーカー検出のためのDNA配列の検査及び分析に重大な利点を提供する。さらに、シーンチェンジ検出法をスペクトルビデオに関して使用し、直線的な視覚特徴における急な変化を見つけることができる。スペクトルビデオの各シーンで、統計学上の特徴をスペクトル領域から抽出することができる。さらに、完全な(又は実質的に完全な)スペクトルビデオからの個々のシーンを、無監督のクラスタリング法を用いてクラスタ化することができる。実際に、無監督のビデオ特徴検出法は、以下でより詳細に説明されているように、スペクトルDNAレベルでのゲノムワイドな類似点を同定及び/又は明らかにするために使用することができる。従って、そのような分析技術を、例えば、遺伝子ネットワーク、重要なモチーフ、反復DNA要素をスペクトル及び構造的に、並びに、他の顕著なDNAパターンを見つけるための自動DNA分析に使用することができる。
〔無監督のスペクトログラム及びスペクトルビデオの分析〕
本開示の例証的な実施形態によると、遺伝子制御要素及びネットワークにおける無監督の調査に、スペクトログラムを使用することができる。実際に、重要な制御要素を見つけるための大規模なスペクトログラム分析が、本開示に従い熟慮されている。階層的なクラスタリング等の無監督の方法を、最も優勢なパターンの群を決定するために使用することができる。
ゲノムを通じて最も頻繁に起こるパターンは、ヌクレオチド発生における一次従属性に依拠することなく(すなわち、簡単な統計的測定で)、一般的に同定/位置決めすることができる。バイオインフォマティクスにおける伝統的な方法は、極端に保存されたセグメントを見つけるために、多重配列アライメントを使用している。しかし、スペクトル分析では、本開示のシステム及び方法を使用して、ゲノムにおいて起こってきた、進化的に及び/又はゆっくり変わっていく変化、並びに、極端ではないが大部分が保存された要素を同定することができる。
大規模なスペクトログラム分析技術を使用して、本開示のシステム及び方法は、発生するパターンの類似の頻度という観点から、ゲノムの走査を促進し、スペクトル保存された配列に集中する。直線的なヌクレオチドの順序を見るのではなく、開示されたシステム/方法は、配列アライメントではほとんど識別可能ではなく、スペクトル表示からのみ明らかになり得る構造的特徴を好都合に検査する。開示された技術/方法の利点は、例えば、染色体全体及びゲノム全体にわたって、1つの染色体内の各反復スペクトルパターンの分布を可視化できることである。実際に、開示された分析技術をゲノムにわたり適用して、既知のパターンも新規のパターンも同定することができる。例えば、Alu、短いヘアピン構造体(例えばマイクロRNA)、SINE、LINE、及び、CpGアイランド等の数百塩基対から数十万塩基対の長い反復要素を、この方法で効果的に特徴づけることができる。さらに、異なる分解能でのパターンを、200bpの窓内及び100Kbpの長い窓内で示すことができる。これにより、新たな種類の反復要素の検出が促進される。適用可能なアルゴリズムを適用する前に、例えばその使用者には興味のない要素等、特定の繰り返し要素をマスクすることができる。
例証的な方法/アルゴリズムが、本明細書において以下に記述される:
〔ステップ1〕入力されたDNA配列(例えば染色体)のために、STFT窓がW(W<L)、及び、窓の重複がV(V<W)で、長さL(Lはヌクレオチドの数)のスペクトログラムS1を生じるステップ。
〔ステップ2〕DNA配列の終わりに達するまで、Rヌクレオチド右へ移動し、スペクトログラムSを生じるステップ。
〔ステップ3〕ステップ1及び2で生じたスペクトログラム全てを用いて、無監督の画像ベースのクラスタリング(例えば、k平均クラスタリング、階層的なクラスタリング等)を行うステップ。開示された方法/アルゴリズムに従い使用するための例証的な類似度測定は、例えば、Cクラスタを生じるL1測定等、いかなる画像ベースの類似度測定も含む。クラスタリングのための特徴は、色、きめ〔テクスチャ〕、並びに、線、正方形、及び斜線等の画像に現れる特定の物〔オブジェクト〕を含むことができる。
〔ステップ4〕最も大きなクラスタを見つけ、そのクラスタの中心をとり、さらに、このクラスタのうちクラスラベルの要素を見るために、既知のゲノム源と対比して検索を行うステップ。これにより、特定の染色体上の最も反復する要素を明らかにすることができる。
〔ステップ5〕(a)又は(b)のうち1つを選択するステップ:
(a)クラスタの中心から最も遠いPスペクトログラムを無作為に選び、クラスラベルの検索を行うステップ。Pスペクトログラムも同じクラスに属していることを検証するステップ。
(b)スペクトログラム、及び、スペクトログラムのセットにおける全てのクラスラベルの要素の種類を使用者のために可視化するステップ。次に、スペクトログラムがクラスタ内にあり、その中心は既知であるが、そのクラスタの中心からさらに離れた前記スペクトログラムが未知である場合、新規の要素をクラスタの中心のクラスラベルとして名付け、さらに、その差を可視化するステップ。
〔ステップ6〕2番目に大きいクラスタで続け、ステップ(5)及び(6)を行う/繰り返すステップ。クラスタの中心−クラスラベルが未知になるまで、次に大きいクラスタで続けるステップ。Kクラスタは既知のラベルを有し、Uクラスタは未知のラベルを有していることを示すステップ。
〔ステップ7〕未知のラベルを有するUクラスタ全てのために、かなりのクラスタサイズ(一般的に、最大のクラスタにおける要素の最大数の少なくとも半分)で、パターンの普及率、同じ染色体内の統計的分布を見つけるステップ。染色体にわたる統計的分布を見つけるステップ。
〔ステップ8〕VがWの半分に達するまで、Vを上げ、所与のステップサイズ(例えば、ステップサイズ=1)でステップ(1)に進み、その後ステップ(9)に進む。
〔ステップ9〕WがLの半分に達するまで、Wを上げ、所与のステップサイズでステップ(1)に進み、その後ステップ(10)に進む。
〔ステップ10〕Lを上げ、ステップ(1)に進む。
〔ステップ11〕V、W、及びLの各レベルで結果を要約するステップ。
当業者には容易に明らかなように、開示された方法/アルゴリズムは、コンピュータベースで操作/実行されるよう順応し、それによりその自動化された操作を促進することができる。実際に、開示された方法/アルゴリズムを無監督の方法で好都合に行い、それにより、使用者の監督及び/又は干渉なしで、DNA配列のV、W、及びLの値を生じることができる。
本開示によると、結合による新規の要素はステップ5を用いて同定することができ、すなわち、開示された方法/アルゴリズムは、以前に認識されていない、及び/又は、価値を認められていない潜在的で重大な類似点を有する配列の同定を促進している。実際に、第1の種由来の配列を、異なる種由来の配列決定されたゲノムと能率的及び効果的に対比し、そのような種のDNA配列内にある潜在的に新規の要素を決定及び/又は同定することができる。さらに、前述の方法/アルゴリズムのステップ7において特定された技術によって、新規のクラスの要素をDNA配列から同定することができる。これらのクラスを、本開示に従い他のゲノムと対比して能率的及び効果的に調査することができる。開示された方法/アルゴリズムのさらなる適用は:
● ゲノム内比較:大規模な分析のためのアルゴリズムを、研究されるゲノムの各染色
体に適用することができる。次に、全体のクラスタリングを行ってそのゲノムの(染
色体にわたる)機能的に重要な要素を見るために、クラスタの中心全てを使用するこ
とができる。
● 比較ゲノミクス:大規模な分析のためのアルゴリズムを、既知の200以上の配列
決定されたゲノムの各ゲノムに適用することができる。次に、全体のクラスタリング
を行って進化中機能的に保存された要素を見るために、クラスタの中心全てを使用す
ることができる。
を含む。
〔ゲノムワイドなパターンを見つけるためのスペクトルビデオ分析〕
本開示のさらなる例証的な実施形態及び実行において、上記の技術に従い生じたスペクトルビデオにシーンチェンジ検出法を適用し、重要な直線的な視覚特徴における急な変化を見つけることができる。各シーンで、スペクトル領域からの統計学上の特徴を抽出することができる。さらに、完全なスペクトルビデオの個々のシーンを、無監督のクラスタリング法を用いてクラスタ化することができる。次に、無監督のビデオ特徴検出法を使用して、スペクトルDNAレベルでのゲノムワイドな類似点を明らかにすることができる。従って、そのような無監督の検出法の結果を、遺伝子ネットワーク、重要なモチーフ、反復DNA要素、及び他の顕著なDNAパターンを見つけるための自動DNA分析に使用することができる。そのような無監督の検出を行うための例証的な方法/アルゴリズムは、本明細書において以下に記述される:
〔ステップ1〕所与のDNA配列(例えば、完全な染色体又はその一部)のスペクトルビデオを生じるステップ。
〔ステップ2〕例えば、所与の窓、色、エッジの長さ、特定の列上の同じ色の数等に対する水平及び垂直のエッジヒストグラム等の特徴を抽出するステップ。
〔ステップ3〕例えば、抽出された特徴を用いて連続するパターンを見つける等、スペクトルカットを見つけるステップ。この技術は、フィルムにおいて「カット」を見つけることに類似している。
〔ステップ4〕例えば、各スペクトルカットのための特徴を記憶する等、シーンをクラスタ化するステップ。実際に、シーンをビデオにクラスタ化するように、これらの特徴を用いてスペクトルカットをクラスタ化することができる。
〔ステップ5〕例えば、順番を並び換え、さらに、特定の長さを有する「シーン」を可視化する等、最も長い要素を有するクラスタを見つけるステップ。
〔ステップ6〕例えば、1つのシーンに属するもの等、同じ長さのスペクトル要素をクエリするステップ。スペクトルカットに対応する各セグメントを、既知のゲノム源(例えば、NCBI)と対比して好都合に調べ、いかなる既知の機能上の重要性も決定することができる。
このように、本明細書において開示されたシステム、方法、及び技術は、DNA配列の反復パターンを評価、決定、及び/又は同定することにおいて、並びに、そのようなパターンに生物学的及び/又は臨床的な意味を結びつけるために、一連の価値ある手段を提供する。システム、方法、及び技術が、その例証的な実施形態を参考にして記述されてきたけれども、本開示はそのような例証的な実施形態に限定されないことを理解されたい。正しくは、当業者には容易に明らかになるように、開示されたシステム、方法、並びに技術は、本開示の真意若しくは範囲から逸脱することなく、広範囲な変更、修正、及び/又は増強を許す。本開示は、そのような変更、修正、及び/又は増強を本明細書の範囲内に明確に包含する。
開示されたシステム及び方法の作成並びに使用において当業者に寄与するために、付随する図が参照される。
本開示に従い使用されたスペクトル画像技術による、DNA配列の例証的なバイナリインジケータ配列(BIS)を明記している。 図1に明記された例証的なBISのプロットを明記している。 図1及び2の例証的なBISにおける離散フーリエ変換(DFT)を明記している。 図3の例証的なDFT値の色空間へのマッピングを例示している。 実例となる色ベクトルに基づいた図3の例証的なDFT値の色空間へのマッピングを例示している。 本開示による色空間におけるDFT値の総和を明記している。 色空間におけるDFT総和値の正規化されたプロットを明記している。 DNA配列の例証的な色のスペクトルである(グレースケールで複写されている)。 本開示による例証的なDNAセグメントにおける複数の色のスペクトル断片の例証的な連結である。 例証的なCpGアイランドのスペクトログラム画像である。 赤色及び緑色に制限された、図10のCpGアイランドのスペクトログラム画像である。 本開示による一連のノイズ除去されたスペクトログラムを明記している。 本開示による緑及び赤ベースのスペクトログラムに対するスペクトル画像及びエッジ測定値である。 例証的なRGBベースのスペクトログラムから抽出されたエッジ、及び、そこに付随する関連するCpGアイランドの分類を明記している。 本開示による例証的な比較ヒストグラム法/技術のフローチャートを明記している。 カラーマッピングを用いて得られたスペクトログラム上のエッジヒストグラムを使用してCpGアイランドの検出を示した例証的なプロットである。 カラーマッピングを用いて得られたスペクトログラム上のエッジヒストグラムを使用してCpGアイランドの検出を示した例証的なプロットである。 本開示による例証的な遺伝的アルゴリズム−サポートベクトルマシン(GA−SVM)法/技術のフローチャートを明記している。 本開示によるスペクトルビデオを生じるための例証的な方法/技術のフローチャートを明記している。 本開示による例証的なスペクトルビデオ由来の画像である。

Claims (12)

  1. DNA配列内の注目すべき領域の存在を評価するための、コンピュータによって実行される方法であって:
    (a)DNA配列をインターフェースを介して受領するステップ;
    (b)前記DNA配列に基づき複数のスペクトログラムを作成手段によって作成するステップ;
    (c)前記複数のスペクトログラムに関して以下のステップ:
    (i)スペクトルビデオを作成して表示するステップであって、前記スペクトルビデオにおいてはビデオフレームあたり所定数のスペクトル画像列がシフトされる、ステップ、
    (ii)比較ヒストグラム分析を実行するステップであって、エッジ検出を使うことによって生成される水平方向および垂直方向のヒストグラムデータを評価することによって注目すべき領域の存在が評価される、ステップ、
    (iii)特徴選択及び分類を実行するステップであって、前記スペクトログラムの色および/またはエッジに関係した前記DNAスペクトル画像のスペクトル特徴を抽出してランク付けし、反復的なDNA構造をもつDNAセグメントを反復要素として分類および標識付けすることを含むステップ、並びに、
    (iv)前記DNA配列中の構造的に新規のDNA要素の無監督の分類及び発見を実行するステップであって、色、テクスチャおよび前記スペクトログラムに現れる特定のオブジェクトという特徴の少なくとも一つを使って、無監督の画像ベースのクラスタリングを実行し、複数のクラスタを生成し、それらのクラスタを最も大きなクラスタから順に既知のゲノム源と照合することを含むステップ、
    のうち少なくとも1つを実行手段によって実行するステップ;
    前記少なくとも一つの機能の分析結果によって前記DNA配列中の前記注目すべき一つまたは複数のDNAパターンを識別するステップ;
    前記少なくとも一つの機能の分析結果によって前記DNA配列中の前記注目すべき一つまたは複数のDNAパターンの位置を識別するステップ;
    を含む方法。
  2. 前記DNA配列が、ゲノム、染色体、又はその一部を表す、請求項1に記載の方法。
  3. 前記複数のスペクトログラムを作成するステップが:
    (i)前記DNA配列を入力するステップ、
    (ii)前記DNA配列をバイナリインジケータ配列に転換するステップ、
    (iii)前記バイナリインジケータ配列に短時間フーリエ変換を適用し、周波数領域ベクトルを生じるステップ、
    (iv)前記周波数領域ベクトルを色空間にマップしてDNAスペクトル画像を生成するステップ、
    (v)前記DNAスペクトル画像にエッジ検出を適用するステップ、並びに、
    (vi)前記エッジ検出の結果に基づいて前記DNAスペクトル画像の水平及び垂直のヒストグラムを計算するステップ、
    を含む、請求項1または2に記載の方法。
  4. 前記スペクトルビデオの作成が、処理装置で作動するよう適応されたアルゴリズムを含む、請求項1ないし3のうちいずれか1項に記載の方法。
  5. 前記アルゴリズムが:
    (a)長さMのDNA配列;STFT窓サイズを示すN、N個の窓重複を含む窓重複を示すq、目視分解能を示すp、及び、1つのビデオフレームあたりにシフトされるスペクトル画像列の数を含む目視の速度を示すv、ここでM>>p>N、を含むパラメータを含む入力を使うステップ;
    (b)s=1、r=1と設定することを含む、変数を初期化するステップ;
    (c)pという長さのセグメント、又は、完全なDNA配列のサブ配列に対して位置sで開始するステップ;
    (d)位置rで開始し、サイズNの入力された前記DNA配列の一部を、バイナリインジケータ配列に転換するステップ;
    (e)短時間フーリエ変換を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ;
    (f)A、T、C、及びGに対する前記周波数領域ベクトルを前記色空間にマップして前記DNAスペクトル画像を生成するステップ;
    (g)(r−s+1)<pの場合、結果を可視化し、qヌクレオチド分前方へ移動し、r=r+qと設定し、ステップ(d)へ進むステップ;
    (h)DNAスペクトル画像が前もって示されていない場合、前記DNAスペクトル画像を表示して、r=r+qと設定し、ステップ(d)へ進むステップ;
    (i)(r−s+1)<p+vqの場合、前記スペクトル画像から1列目を除去し、最後に生成された列を末端部に付け加えて、r=r+qと設定し、ステップ(d)へ進むステップ;
    (j)(r−s+1)>=p+vqの場合、前記DNAスペクトル画像を表示して、s=s+vq r=r+qと設定するステップ;
    (k)(r+N−1)<=Mの場合、ステップ(d)へ進むステップ;
    (l)通常速度は1つのビデオフレームあたり1列のシフトであり、使用者の要求に従って、目視の速度vを調節するステップ;
    を含む、請求項4に記載の方法。
  6. 前記比較ヒストグラム分析を実行するステップが:
    (a)長さMの前記DNA配列;STFT窓サイズを示すN、窓重複を示すq、目視分解能を示すp、ここで、M>>p>N、を含むパラメータを入力するステップ;
    (b)サイズNの入力された前記DNA配列の一部をバイナリインジケータ配列に転換するステップ;
    (c)短時間フーリエ変換(STFT)を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ;
    (d)A、T、C、及びGに対する前記周波数領域ベクトルを色空間にマップしてDNAスペクトル画像を生成するステップ;
    (e)エッジ検出法を用いて、前記DNAスペクトル画像にエッジ検出を適用するステップ;
    (f)エッジ投影を用いることにより、前記DNAスペクトル画像の赤、緑及び青成分についての水平及び垂直のヒストグラムデータを別々に計算するステップ;
    (g)特徴抽出基準に従って前記ヒストグラムデータを評価するステップ;
    (h)前記特徴抽出基準を満たしたDNAセグメントを反復要素として標識付けし、標識付けされた各DNAセグメントの開始及び終了位置を記録するステップ;
    を含む、請求項1ないし5のうちいずれか1項に記載の方法。
  7. 前記特徴選択及び分類を実行するステップが:
    (a)長さMの前記DNA配列;STFT窓サイズを示すN、窓重複を示すq、目視分解能を示すp、ここで、M>>p>N、を含むパラメータを入力するステップ;
    (b)サイズNの入力された前記DNA配列の一部をバイナリインジケータ配列に転換するステップ;
    (c)短時間フーリエ変換(STFT)を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ;
    (d)A、T、C、及びGに対する前記周波数領域ベクトルを色空間にマップしてDNAスペクトル画像を生成するステップ;
    (e)エッジ検出法を用いて、DNAスペクトル画像にエッジ検出を適用するステップ;
    (f)エッジ投影を用いることにより、前記DNAスペクトル画像の赤、緑及び青成分についての水平及び垂直のヒストグラムデータを別々に計算するステップ;
    (g)前記ヒストグラムデータと、遺伝的アルゴリズムを有するサポートベクトルマシン、繰り返しの特徴を除去する方法及び主成分分析のうちの少なくとも一つを使用する特徴選択法とを使って、前記DNAスペクトル画像のスペクトル特徴のセットを評価及びランク付けするステップ;
    (h)前述のステップから上位にランク付けされた特徴のサブセットを用いて、反復DNA構造を有する前記DNAセグメントを分類する分類器を形成するステップ;
    (i)評価基準を満たしたDNAセグメントを前記反復要素として標識付けし、前記反復要素の開始及び終了位置を記録するステップ;
    を含む、請求項1ないし6のうちいずれか1項に記載の方法。
  8. 前記DNA配列中の構造的に新規のDNA要素の前記無監督の分類および発見が、以下のステップ、すなわち:
    (1)入力されたDNA配列について、STFT窓W(W<L)、及び、窓の重複がV(V<W)で、Lはヌクレオチドの数であるとして、長さLのスペクトログラムS1を生じるステップ;
    (2)Rヌクレオチド右へ移動し、スペクトログラムSを生じ、前記DNA配列の終わりに達するまで繰り返すステップ;
    (3)ステップ(1)及び(2)で生じたスペクトログラム全てを用いて、色、テクスチャ及び前記画像に現れる特定のオブジェクトという特徴の少なくとも一つを使って、無監督の画像ベースのクラスタリングを行うステップ;
    (4)最も大きなクラスタを見つけて選択し、選択されたクラスタの中心を見きわめるステップ;
    (5)選択されたクラスタの要素のラベルクラスを見きわるために、既知のゲノム源と対比して選択されたクラスタの検索を行うステップであって、これを
    (a)選択されたクラスタの中心から最も遠いP個のスペクトログラムを無作為に選び、クラスラベルを行うサブステップ、または
    (b)前記スペクトログラム、及び、前記スペクトログラムにおける全ての要素のクラスラベルの種類の可視化を操作者に提供し、スペクトログラムがクラスタ内にあり、その中心は既知であるが、前記クラスタの中心からさらに離れた前記スペクトログラムが未知である場合、新規の要素をクラスタの中心のクラスラベルとして名付け、さらに、その差の可視化を操作者に提供するサブステップ、
    の一方ことによって行うステップ;
    (6)次に大きいクラスタを選択し、前記クラスタ中心および前記クラスラベルが未知になるまでステップ(5)及び(6)を行う/繰り返し、K個のクラスタは既知のラベルを有し、U個のクラスタは未知のラベルを有していることを示す、ステップ;
    (7)かなりのクラスタサイズをもつ未知のラベルを有するU個のクラスタ全てについて、パターンの普及率、同じ染色体内の統計的分布及び複数の染色体にわたる統計的分布を見つけるステップであって、前記かなりのクラスタサイズは、最大クラスタ中の要素の最大数の少なくとも半分である、ステップ;
    (8)VがWの半分に達するまで、所与のステップサイズでVを増加させてステップ(1)に進み、その後ステップ(9)に進むステップ;
    (9)WがLの半分に達するまで、所与のステップサイズでWを増加させてステップ(1)に進み、その後ステップ(10)に進むステップ;
    (10)Lを増加させ、ステップ(1)に進むステップ;
    (11)V、W、及びLの各レベルで結果を要約するステップ;
    を実行することを含む、請求項1記載の方法。
  9. 1又は複数のDNAパターンが同定される、請求項1ないし8のうちいずれか1項に記載の方法。
  10. 前記1又は複数のDNAパターンが、CpGアイランド、1又は複数のAlu反復、1又は複数の非コードRNA、1又は複数のタンデム反復、及び、1又は複数のサテライト反復のうち少なくとも1つを含む、請求項9に記載の方法。
  11. 請求項1ないし10のうちいずれか一項記載の方法を動作させる及び/又は実行するように構成されたシステム。
  12. 少なくとも一つのプロセッサと、前記プロセッサに請求項1ないし10のうちいずれか一項記載の法を実行させるコンピュータ・プログラムを含、システム。
JP2008557880A 2006-03-10 2007-03-07 スペクトル分析を介したdnaパターンの同定方法及びシステム Expired - Fee Related JP5297207B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US78156806P 2006-03-10 2006-03-10
US60/781,568 2006-03-10
PCT/IB2007/050762 WO2007105150A2 (en) 2006-03-10 2007-03-07 Methods and systems for identification of dna patterns through spectral analysis

Publications (2)

Publication Number Publication Date
JP2009529723A JP2009529723A (ja) 2009-08-20
JP5297207B2 true JP5297207B2 (ja) 2013-09-25

Family

ID=38509861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008557880A Expired - Fee Related JP5297207B2 (ja) 2006-03-10 2007-03-07 スペクトル分析を介したdnaパターンの同定方法及びシステム

Country Status (7)

Country Link
US (1) US8189892B2 (ja)
EP (1) EP1999663A2 (ja)
JP (1) JP5297207B2 (ja)
CN (1) CN101401101B (ja)
RU (1) RU2466458C2 (ja)
TW (1) TW200741192A (ja)
WO (1) WO2007105150A2 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1999663A2 (en) * 2006-03-10 2008-12-10 Koninklijke Philips Electronics N.V. Methods and systems for identification of dna patterns through spectral analysis
US8925771B2 (en) 2010-05-27 2015-01-06 Che-Wen Lin Cover-type containing structure for flexible enclosures
EP2187328A1 (en) * 2008-11-18 2010-05-19 Koninklijke Philips Electronics N.V. Method and device for efficient searching of DNA sequence based on energy bands of DNA spectrogram
EP2228742A1 (en) 2009-03-10 2010-09-15 Koninklijke Philips Electronics N.V. Efficient distribution method for frequency sorting in spectral video analysis of DNA sequences
AU2010242073C1 (en) 2009-04-30 2015-12-24 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
TWI399661B (zh) * 2009-08-21 2013-06-21 從微陣列資料中分析及篩選疾病相關基因的系統
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
US20120191356A1 (en) * 2011-01-21 2012-07-26 International Business Machines Corporation Assembly Error Detection
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2768983A4 (en) 2011-10-17 2015-06-03 Good Start Genetics Inc METHODS OF IDENTIFYING MUTATIONS ASSOCIATED WITH DISEASES
WO2013109981A1 (en) 2012-01-20 2013-07-25 Sequenom, Inc. Diagnostic processes that factor experimental conditions
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
US10227635B2 (en) 2012-04-16 2019-03-12 Molecular Loop Biosolutions, Llc Capture reactions
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US8787626B2 (en) * 2012-05-21 2014-07-22 Roger G. Marshall OMNIGENE software system
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130324417A1 (en) * 2012-06-04 2013-12-05 Good Start Genetics, Inc. Determining the clinical significance of variant sequences
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
RU2015121702A (ru) * 2012-11-07 2016-12-27 Лайф Текнолоджиз Корпорейшн Средства визуализации данных цифровой пцр
RU2538138C2 (ru) * 2012-11-09 2015-01-10 Елена Андреевна Чирясова Способ изучения флуоресцентных свойств и спектральных характеристик нуклеотидных последовательностей днк с помощью квантово-связанного спектра излучения красителей со свободыми флуорофорными группами
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2971159B1 (en) 2013-03-14 2019-05-08 Molecular Loop Biosolutions, LLC Methods for analyzing nucleic acids
HUE061261T2 (hu) 2013-04-03 2023-05-28 Sequenom Inc Eljárások és folyamatok genetikai variánsok nem invazív értékelésére
EP3004383B1 (en) 2013-05-24 2019-04-24 Sequenom, Inc. Methods for non-invasive assessment of genetic variations using area-under-curve (auc) analysis
US8847799B1 (en) 2013-06-03 2014-09-30 Good Start Genetics, Inc. Methods and systems for storing sequence read data
BR112015032031B1 (pt) 2013-06-21 2023-05-16 Sequenom, Inc Métodos e processos para avaliação não invasiva das variações genéticas
AU2014329493B2 (en) 2013-10-04 2020-09-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3495496B1 (en) 2013-10-07 2020-11-25 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
EP3058096A1 (en) 2013-10-18 2016-08-24 Good Start Genetics, Inc. Methods for assessing a genomic region of a subject
US10851414B2 (en) 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
JP6340438B2 (ja) * 2014-02-13 2018-06-06 イルミナ インコーポレイテッド 統合消費者ゲノムサービス
US11053548B2 (en) 2014-05-12 2021-07-06 Good Start Genetics, Inc. Methods for detecting aneuploidy
US20160034640A1 (en) 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11408024B2 (en) 2014-09-10 2022-08-09 Molecular Loop Biosciences, Inc. Methods for selectively suppressing non-target sequences
EP3224595A4 (en) 2014-09-24 2018-06-13 Good Start Genetics, Inc. Process control for increased robustness of genetic assays
EP3023884A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
WO2016112073A1 (en) 2015-01-06 2016-07-14 Good Start Genetics, Inc. Screening for structural variants
WO2016193075A1 (en) * 2015-06-02 2016-12-08 Koninklijke Philips N.V. Methods, systems and apparatus for subpopulation detection from biological data
WO2017066785A1 (en) * 2015-10-16 2017-04-20 The Regents Of The University Of California, A California Corporation Repetitive element (re)-based genome analysis and dynamic genetics surveillance systems
EP3491560A1 (en) 2016-07-27 2019-06-05 Sequenom, Inc. Genetic copy number alteration classifications
EP3497233B1 (en) 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
US9943505B2 (en) 2016-09-09 2018-04-17 Corcept Therapeutics, Inc. Glucocorticoid receptor modulators to treat pancreatic cancer
US10216899B2 (en) 2016-10-20 2019-02-26 Hewlett Packard Enterprise Development Lp Sentence construction for DNA classification
CA3207879A1 (en) 2017-01-24 2018-08-02 Sequenom, Inc. Methods and processes for assessment of genetic variations
JP6240804B1 (ja) * 2017-04-13 2017-11-29 大▲連▼大学 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN107437001B (zh) * 2017-07-03 2020-03-27 微梦创科网络科技(中国)有限公司 信息序列转换为向量化数据的方法及系统
CN108009402A (zh) * 2017-07-25 2018-05-08 北京工商大学 一种基于动态卷积网络的微生物基因序列分类模型的方法
US20190114388A1 (en) * 2017-10-16 2019-04-18 Genomic Vision Sa Detection, measurement, and analysis of dna replication signals
US11656174B2 (en) 2018-01-26 2023-05-23 Viavi Solutions Inc. Outlier detection for spectroscopic classification
US10810408B2 (en) 2018-01-26 2020-10-20 Viavi Solutions Inc. Reduced false positive identification for spectroscopic classification
US11009452B2 (en) * 2018-01-26 2021-05-18 Viavi Solutions Inc. Reduced false positive identification for spectroscopic quantification
CN108363905B (zh) * 2018-02-07 2019-03-08 南京晓庄学院 一种用于植物外源基因改造的CodonPlant系统及其改造方法
US11380422B2 (en) * 2018-03-26 2022-07-05 Uchicago Argonne, Llc Identification and assignment of rotational spectra using artificial neural networks
CN112288783B (zh) * 2018-08-22 2021-06-29 深圳市真迈生物科技有限公司 基于图像构建测序模板的方法、碱基识别方法和装置
EP3843033B1 (en) * 2018-08-22 2024-05-22 GeneMind Biosciences Company Limited Method for constructing sequencing template based on image, and base recognition method and device
CN109800337B (zh) * 2018-12-06 2023-07-11 成都网安科技发展有限公司 一种适用于大字母表的多模式正则匹配算法
CN109818623B (zh) * 2019-01-16 2022-12-13 上海上塔软件开发有限公司 一种基于特征模板的生活电器功率曲线在线压缩算法
CA3212158A1 (en) * 2021-03-03 2022-09-09 Mitsubishi Electric Corporation Signal processing device, control circuit, storage medium, and signal processing method
JP2023016243A (ja) * 2021-07-21 2023-02-02 パナソニックIpマネジメント株式会社 学習装置、学習方法、および非破壊検査システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5580728A (en) * 1994-06-17 1996-12-03 Perlin; Mark W. Method and system for genotyping
US6142681A (en) * 1999-02-22 2000-11-07 Vialogy Corporation Method and apparatus for interpreting hybridized bioelectronic DNA microarray patterns using self-scaling convergent reverberant dynamics
US6136541A (en) * 1999-02-22 2000-10-24 Vialogy Corporation Method and apparatus for analyzing hybridized biochip patterns using resonance interactions employing quantum expressor functions
US6287773B1 (en) * 1999-05-19 2001-09-11 Hoeschst-Ariad Genomics Center Profile searching in nucleic acid sequences using the fast fourier transformation
US6728642B2 (en) * 2001-03-29 2004-04-27 E. I. Du Pont De Nemours And Company Method of non-linear analysis of biological sequence data
US6950755B2 (en) * 2001-07-02 2005-09-27 City Of Hope Genotype pattern recognition and classification
US20040101873A1 (en) * 2002-02-06 2004-05-27 Went Gregory T. Method and apparatus for validating DNA sequences without sequencing
WO2004007016A2 (en) 2002-07-11 2004-01-22 The Research Foundation Of State University Of New York A method of using g-matrix fourier transformation nuclear magnetic resonance (gft nmr) spectroscopy for rapid chemical shift assignment and secondary structure determination of proteins
EP1999663A2 (en) * 2006-03-10 2008-12-10 Koninklijke Philips Electronics N.V. Methods and systems for identification of dna patterns through spectral analysis

Also Published As

Publication number Publication date
JP2009529723A (ja) 2009-08-20
RU2466458C2 (ru) 2012-11-10
TW200741192A (en) 2007-11-01
EP1999663A2 (en) 2008-12-10
RU2008140168A (ru) 2010-04-20
WO2007105150A2 (en) 2007-09-20
CN101401101A (zh) 2009-04-01
CN101401101B (zh) 2014-06-04
WO2007105150A3 (en) 2008-04-24
US20090129647A1 (en) 2009-05-21
US8189892B2 (en) 2012-05-29

Similar Documents

Publication Publication Date Title
JP5297207B2 (ja) スペクトル分析を介したdnaパターンの同定方法及びシステム
EP3090381B1 (en) Systems and methods for spectral unmixing of microscopic images using pixel grouping
EP2478356A1 (en) High-throughput biomarker segmentation utilizing hierarchical normalized cuts
CN107944228A (zh) 一种基因测序变异位点的可视化方法
JP2003500663A (ja) 実験データの正規化のための方法
Qin et al. Spot detection and image segmentation in DNA microarray data
Wang et al. MSB: a mean-shift-based approach for the analysis of structural variation in the genome
Helmy et al. Regular gridding and segmentation for microarray images
US8374798B2 (en) Apparatus, method, and computer program product for determining gene function and functional groups using chromosomal distribution patterns
Nagesh et al. An improved iterative watershed and morphological transformation techniques for segmentation of microarray images
Bryan et al. Optimization-based decoding of Imaging Spatial Transcriptomics data
Dimitrova et al. Analysis and visualization of DNA spectrograms: open possibilities for the genome research
US7689365B2 (en) Apparatus, method, and computer program product for determining gene function and functional groups using chromosomal distribution patterns
Maji Recent advances in multimodal big data analysis for cancer diagnosis
EP2310968B1 (en) A method for spectral dna analysis
Zhang et al. CNV-PCC: An efficient method for detecting copy number variations from next-generation sequencing data
WO2008129458A1 (en) A method for data mining dna frequency based spectra
Blazadonakis et al. The linear neuron as marker selector and clinical predictor in cancer gene analysis
WO2008129459A2 (en) A method for visualizing a dna sequence
Cvek et al. 16 Multidimensional
Bucur et al. Frequency sorting method for spectral analysis of DNA sequences
Nagesh et al. Evaluating the performance of watershed and morphology on microarray spot segmentation
Symons Analysis and visualization of gene expression data
Nakao et al. The development of a novel method for the classification of the aCGH profiles based on genomic alterations
Ruusuvuori et al. Learning-based method for spot addressing in microarray images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130614

R150 Certificate of patent or registration of utility model

Ref document number: 5297207

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees