JP5297207B2

JP5297207B2 - スペクトル分析を介したｄｎａパターンの同定方法及びシステム

Info

Publication number: JP5297207B2
Application number: JP2008557880A
Authority: JP
Inventors: デミトローヴァ，ネヴェンカ; ヒンチャン，イー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-03-10
Filing date: 2007-03-07
Publication date: 2013-09-25
Anticipated expiration: 2027-03-07
Also published as: JP2009529723A; RU2466458C2; TW200741192A; EP1999663A2; RU2008140168A; WO2007105150A2; CN101401101A; CN101401101B; WO2007105150A3; US20090129647A1; US8189892B2

Description

本開示は、ＤＮＡスペクトル分析を促進するシステム及び方法に向けられ、特に、ＤＮＡ配列データの処理を全体的に又は部分的に自動化及び／又は促進するために画像処理技術及び／又は信号処理方法を使用するシステム並びに方法に向けられている。本開示の例証的な実施形態によると、システム及び方法は、以下のＤＮＡスペクトル分析技術のうち１つ又は複数に寄与するよう提供されている：（ｉ）比較ヒストグラム法；（ｉｉ）サポートベクトルマシン及び遺伝的アルゴリズムを用いた選択／分類；並びに（ｉｉｉ）ＤＮＡ配列データからのスペクトログラムの抽出に基づくスペクトルビデオ法。

バイオインフォマティクスは、おびただしい量の生物学上のデータを、有用な知識を得るために使用することができる理解可能な情報に組織化するよう求めている。バイオインフォマティクスの分野では、ＤＮＡ配列におけるスペクトル分析のための技術が開発されてきている。スペクトル分析技術は、一般的に、重要なライフプロセスに関連した生物学的マーカーとして役立つＤＮＡパターンの同定を意図する、手動のＤＮＡパターン分析技術に加えた改善を表している。伝統的には、４つのヌクレオチド塩基を表しているＡ、Ｔ、Ｃ、及びＧという４文字で構成されるＤＮＡ配列の文字列に対して、自動分析が直接行われている。しかし、おびただしい長さのＤＮＡ配列（例えば、最短のヒト染色体の長さは、４６．９Ｍｂである）、限られた文字のセットに付随する広範囲のパターンの全長、及び、統計的性質の問題のため、そのような直観的／手動の方法は、たとえ不可能でなかったとしても、所望の目的を達成するためには能率が悪い。

ＤＮＡスペクトル分析は、ＤＮＡ配列データから有用な情報を得るという問題に系統的に取り組む方法を提供している。一般的に、ＤＮＡスペクトル分析は、ＤＮＡ配列内の各ヌクレオチド塩基の存在を個々のデジタル信号として同定して、４つのヌクレオチド信号のそれぞれを周波数領域に変換する。次に、周波数要素の振幅を使用して、どの位強くヌクレオチド塩基パターンがその周波数で繰り返されるかを明らかにすることができる。より大きな振幅／値は、通常、反復の強力な存在を示している。結果の可読性を改善するために、従来技術は、各ヌクレオチド塩基が色により表され、さらに、４つの塩基の周波数スペクトルが組み合わされて色のスペクトログラムとして示されるシステムを開示している。これらの技術は、Ｄ．Ａｎａｓｔａｓｓｉｏｕ，“Ｆｒｅｑｕｅｎｃｙ−ＤｏｍａｉｎＡｎａｌｙｓｉｓｏｆＢｉｏｍｏｌｅｃｕｌａｒＳｅｑｕｅｎｃｅｓ，” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．１６，Ｎｏ．１２，Ｄｅｃｅｍｂｅｒ２０００，ｐｐ．１０７３−１０８１、及び、Ｄ．Ｓｕｓｓｉｌｌｏ，Ａ．ＫｕｎｄａｊｅａｎｄＤ．Ａｎａｓｔａｓｓｉｏｕ，“ＳｐｅｃｔｒｏｇｒａｍＡｎａｌｙｓｉｓｏｆＧｅｎｏｍｅｓ，”ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｐｐｌｉｅｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＳｐｅｃｉａｌＩｓｓｕｅｏｎＧｅｎｏｍｉｃＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．２００４，Ｎｏ．１，Ｊａｎｕａｒｙ２００４，ｐｐ．２９−４２により記載されている。

視覚画像、すなわちスペクトログラムへのヌクレオチド塩基における振幅／値の転換は、ＤＮＡ分析のための強力な可視化手段である。結果として生じるピクセル色は、特定周波数での４つの塩基の相対強度を示しており、色彩画像としてのＤＮＡ配列の表示は、目視検査によってパターンがより容易に同定されるのを可能にしている。一般に、スペクトログラム領域における色相は、そのヌクレオチド要素全体を反映しており、スペクトログラムにおける明るい線及びパッチは、特別な反復パターンの存在を明らかにしている。

ＤＮＡスペクトログラムを生じるためのアルゴリズム又は技術は、以下のように５つのステップに要約することができる。
（ｉ）４つのヌクレオチド塩基のバイナリインジケータ配列（ＢＩＳ）ｕ_Ａ〔ｎ〕、ｕ_Ｔ〔ｎ〕、ｕ_Ｃ〔ｎ〕、及びｕ_Ｇ〔ｎ〕の形成。特定塩基のためのＢＩＳは、その塩基が存在する位置で「１」という値を取り、さもなければ「０」という値を取る。従って、「ＡＡＣＴＧＧＣＡＴＣＣＧＧＧＡＡＴＡＡＧＧＴＣＴ」というヌクレオチド配列を有する例証的なＤＮＡ配列では、ＢＩＳは以下のように転換される：

前述の例証的なＢＩＳパターンは、本明細書の図１に複写されている。前述のＤＮＡ配列に基づき、ＢＩＳ値は以下のようにプロットすることができる（図２に複写されている）：

（ｉｉ）ＢＩＳに対する離散フーリエ変換（ＤＦＴ）。次に、各塩基の周波数スペクトルを、方程式（１）を用いてその対応するＢＩＳのＤＦＴをコンピュータで計算することにより得る。

配列Ｕ〔ｋ〕は、周波数ｋでの周波数成分の程度を与えており、Ｎ／ｋ試料の基底をなす期間（ｕｎｄｅｒｌｙｉｎｇｐｅｒｉｏｄ）に等しい（図３に複写されている）。

（ｉｉｉ）ＲＧＢ色へのＤＴＦ値のマッピング。４つのＤＦＴ配列は、方程式（２）として集合的に示されている以下の一次方程式のセットにより、ＲＧＢ空間において３つの配列に減少する：

式中、（ａ_ｒ，ａ_ｇ，ａ_ｂ）、（ｔ_ｒ，ｔ_ｇ，ｔ_ｂ）、（ｃ_ｒ，ｃ_ｇ，ｃ_ｂ）、及び（ｇ_ｒ，ｇ_ｇ，ｇ_ｂ）は、それぞれヌクレオチド塩基Ａ、Ｔ、Ｃ、及びＧのカラーマッピングベクトルである。従って、結果として生じるピクセル色（Ｘ_ｒ〔ｋ〕, Ｘ_ｇ〔ｋ〕, Ｘ_ｂ〔ｋ〕）は、下記のようにそれぞれのヌクレオチド塩基の周波数成分における振幅により加重されたカラーマッピングベクトルの重ね合わせであり、本明細書の図４に複写されている。

図５及び６は、本開示の例証的な実施形態による、色へのＤＦＴ値のマッピングをさらに示している。従って、図５を参考にすると、色ベクトルはそれぞれのヌクレオチド塩基Ａ、Ｔ、Ｃ、及びＧのためにそれぞれ選択される。色ベクトルの選択では、ＤＮＡの特徴である色対比を改善及び／又は高めることが一般的に望ましい。例証的な色ベクトルに基づき、ＤＦＴ値は、図６に示されているように色空間において組み合わされる。例えば、ＤＦＴ値をＨｕｅＳａｔｕｒａｔｉｏｎＶａｌｕｅ（ＨＳＶ空間）、ＹＣｒＣｂ空間等にマップできる等、別のマッピング技術及び／又は手順を使用することができる。
（ｉｖ）ピクセル値の正規化。色のスペクトログラムを与える前に、各ピクセルのＲＧＢ値は、一般的に０から１に下がるように正規化される。正規化機能を実行するための方法は多数ある。最も単純な方法は、グローバル最大値で全ての値を割ることである。しかし、そのようなワンステップ法は、画像の色対比全体を低下させてしまう恐れがある。より良い方法は、２つのレベルで正規化を行うことである：最初の操作の後、大部分のピクセルが０から１のＲＧＢ値を有するように、第一のレベルでは、全てのピクセル値は、例えば、全体の平均値と標準偏差に等しいもの等の統計上の最大値で割られる；次に、第２のレベルにて、１を超えるＲＧＢ値のうちどれかを有する残りのピクセルには、そのようなピクセル値のそれぞれをそのローカル最大値ｍａｘ（ｘ_ｒ，ｘ_ｇ，ｘ_ｂ)で割ることによって、第２レベルの正規化が個々に行われる。この２つのレベルによる方法は、より極端なピクセル値によって画像の全体的な輝度が過度に減少するのを防ぎ、結果として、スペクトログラム画像の色対比をよりきれいに維持することができる。図７は、図６の組み合わされたＤＦＴ値における例証的な正規化されたプロットを示している。
（ｖ）短時間フーリエ変換（ＳＴＦＴ）。これまで、１つのみの離散フーリエ変換（ＤＦＴ）窓が考慮されてきた。しかし、長いＤＮＡ配列においては、配列に沿って変化するＤＦＴ窓のために、ステップ（ｉ）から（ｉｖ）まで繰り返す必要があり得る。これは、色ピクセルの連続的な断片を生じ、その断片のそれぞれが局所的なＤＮＡセグメントの周波数スペクトルを示している。次に、ＤＮＡスペクトログラムが、これらの断片の連結により形成される。下記の画像は、本明細書の図８及び９に複写されている。

Ｄ．アナスタシュウ（Ａｎａｓｔａｓｓｉｏｕ）による刊行物（“Ｆｒｅｑｕｅｎｃｙ−ＤｏｍａｉｎＡｎａｌｙｓｉｓｏｆＢｉｏｍｏｌｅｃｕｌａｒＳｅｑｕｅｎｃｅｓ，” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．１６，Ｎｏ．１２，Ｄｅｃｅｍｂｅｒ２０００，ｐｐ．１０７３−１０８１）における方程式（８）として示された方程式のセットにより、ステップ（ｉｉ）と（ｉｉｉ）の順は可逆的であり、すなわち、第一に、４つのバイナリインジケータ配列を３つの数的な配列（ｘ_ｒ，ｘ_ｇ，ｘ_ｂ）に減少させ、次に、離散フーリエ変換（ＤＦＴ）を行うことが可能であると示唆されていることが判る。しかし、これは、バイナリインジケータ配列が独立関数系ではないため、さらなる証明が必要である。

スペクトログラムの出現は、短時間フーリエ変換（ＳＴＦＴ）窓のサイズ、隣接する窓間の重複する配列の長さ、及び、カラーマッピングベクトルにおける選択により非常に影響される。基本的に、窓のサイズは、スペクトログラムにおける効果的な範囲のピクセル値を決定する。より大きな窓は、より長い局所的なＤＮＡセグメントから集められた統計を明らかにするスペクトログラムを生じ、より広いパターンを同定するのに有用であり得る。一般に、窓のサイズは、関心のある反復パターンの長さよりも数倍大きく、及び、そのパターンを含有する領域のサイズよりも小さく設定されるべきである。窓の重複部分は、２つの隣接するＳＴＦＴ窓に共通のＤＮＡセグメントの長さを決定する。従って、重複部分が大きければ大きいほど、１つのＳＴＦＴ窓から次の窓への周波数スペクトルの移行はより緩やかになる。より小さな窓間隔はより高い分解能をもたらし、それによって、画像処理又は目視検査によって特徴を抽出することをより容易にしている。しかし、より小さい間隔は、一般的に、より多くの計算リソ―スも要求している。

ニューウェル（Ｎｅｗｅｌｌ）による米国特許第６，２８７，７７３号を参考にすると、例えば性質不明のＥＳＴ等の試験用核酸配列における機能的に並べられた蛋白質配列の既知のブロックを検知する方法が開示されている。ニューウェルによる‘７７３法は：（ａ）コドン使用表を用いて、蛋白質配列のセットを機能的に並べられた核酸配列へ逆翻訳し、機能的に並べられた核酸配列のセットからプロフィールを作成するステップ；（ｂ）プロフィールのために第１のインジケータ関数（アデニン）を構築するステップ；（ｃ）試験用核酸配列のために第２のインジケータ関数（アデニン）を構築するステップ；（ｄ）インジケータ関数のそれぞれにおけるフーリエ変換を計算するステップ；（ｅ）第２のインジケータ関数のフーリエ変換を複素共役するステップ；（ｆ）第１のインジケータ関数のフーリエ変換と第２のインジケータ関数の複素共益されたフーリエ変換を掛けて、アデニン塩基の対の数のフーリエ変換を得るステップ；（ｇ）グアニン、チミン、及びシトシンのためにステップ（ｂ）〜（ｆ）を繰り返すステップ；（ｈ）各塩基の対の数のフーリエ変換をそれぞれ合計して、全フーリエ変換を得るステップ；（ｉ）全フーリエ変換の逆フーリエ変換を計算して、複素級数を得るステップ；及び（ｊ）その級数のうち実数部分をとり、試験用配列に相対するプロフィールにおける種々の可能なずれのために塩基対の総数を決定するステップ；を含む。第１のインジケータ関数は、特定位置でアデニンが存在する割合の関数として、所与の位置での値が０から１の間で連続するのを可能にしている。次にその方法は、種々の可能なずれのための塩基対の総数に基づいて（すなわち、配列の適合を促進するために）、試験用核酸配列における機能的に並べられた蛋白質配列のうち既知のブロックの存在を検出することができる。

今日までの努力にもかかわらず、ゲノム情報の迅速な可視化を促進するシステム及び方法が依然として必要とされている。さらに、例えば、ＣｐＧアイランド、Ａｌｕ反復、非コードＲＮＡ、タンデム反復、及び、種々のサテライト反復等の反復ＤＮＡパターンの同定を促進するシステム及び方法が依然として必要とされている。類似のスペクトル特性を示す類似のパターンを構造的又は成分的に同定することができる手段が依然として必要とされている。そのような手段は、線形順序又はヌクレオチド出現で配列を並べるよう求める配列アライメント手段と対照をなすことになる。さらに、監督された及び／又は無監督の機械学習技術を用いたスペクトル画像の迅速で全面的な分析を促進するシステム及び方法が依然として必要とされている。その上、例えば、所望の分解能でのゲノム全体の迅速な可視化を可能にするために、スペクトル画像配列の分解能を上げるシステム及び方法が依然として必要とされている。これらの及び他の必要性が、本明細書に開示されているシステム及び方法によって満たされている。

本開示は、ＤＮＡスペクトル分析を促進する有利なシステム及び方法を提供し、特に、ＤＮＡ配列データの処理を全体的に又は部分的に自動化及び／又は促進するために画像処理技術及び／又は信号処理方法を使用するシステム並びに方法を提供している。本明細書においてより詳細に記述されているように、本開示の例証的なシステム及び方法は、以下のＤＮＡスペクトル分析技術のうち１つ又は複数に寄与している：（ｉ）比較ヒストグラム法；（ｉｉ）サポートベクトルマシン及び遺伝的アルゴリズムを用いた選択／分類；（ｉｉｉ）構造的に新規のＤＮＡセグメントにおける無監督の分類及び発見；並びに（ｉｖ）ＤＮＡ配列データからのスペクトログラムの抽出に基づくスペクトルビデオ法。開示されたシステム及び方法は、（ｉ）ゲノム情報の可視化を促進するステップ、（ｉｉ）例えば、ＣｐＧアイランド、Ａｌｕ反復、タンデム反復、及び、サテライト反復等の反復ＤＮＡパターンを同定するステップ、（ｉｉｉ）監督された及び／又は無監督の機械学習技術を用いたスペクトル画像の迅速で全面的な分析、並びに（ｉｖ）例えば、変更される及び所望の分解能でのゲノム全体の迅速な可視化を可能にするために、スペクトル画像配列の分解能を上げるステップを含めた多数の利点を提供している。

本開示の第一の態様によると、フーリエ変換を適用して、Ａ、Ｔ、Ｃ、Ｇという文字からなる記号によるＤＮＡ配列をＤＮＡパターンの共起の周期性を強調する可視表現に転換することにより、ＤＮＡスペクトログラムは生じる。開示されたシステム及び方法は、画像処理オペレータを使用して、ＤＮＡスペクトログラムの垂直方向及び水平方向において顕著な特徴を見つけることにより、反復ＤＮＡパターンの同定及び／又は位置決定を促進する。得られたスペクトル画像の迅速で全面的な分析が、監督された及び無監督の機械学習法を用いて行われる。監督された様式において、本開示による反復ＤＮＡパターンを検出及び分類するための２つの例証的な方法は、（ａ）比較ヒストグラム法、並びに（ｂ）サポートベクトルマシン及び遺伝的アルゴリズムを用いた特徴の選択及び分類を含む技術、を含んでいる。

開示された画像処理オペレータは、ＣｐＧアイランド、Ａｌｕ反復、非コードＲＮＡ（例えばマイクロＲＮＡ及び小さな核小体ＲＮＡ）、タンデム反復、及び、種々のサテライト反復等のＤＮＡパターンを同定及び／又は位置決定するのに効果的である。画像処理オペレータを使用して、例えば、染色体内、ゲノム内、又は多様な種のゲノムにわたる種々の生物学的なシステムにおける反復要素を同定及び／又は位置決定することができる。開示されたシステム及び方法は、ＤＮＡ配列又はゲノムが莫大な数のスペクトログラム画像を生じるよう処理されるが、そのような画像は反復パターンの位置決めを生じる若しくは解明することに失敗する、及び／又は、そのような反復パターンに生物学的若しくは臨床的な意味を結びつけることに失敗する、という現存する方法の制限を能率的及び信頼できる方法で克服している。

本開示の第２の態様によると、ＤＮＡ配列をバイナリインジケータ配列に転換し、次に、短時間フーリエ変換を適用して、その出力を可視化するために色空間にマップすることによって、ＤＮＡスペクトログラムは生じる。ＤＮＡスペクトログラムは、ビデオ画像を作成するためにＤＮＡ配列に沿って進む。ビデオ画像−「スペクトルビデオ」と呼ばれる−は、その可視化を促進するために、例えば、染色体又はゲノム全体といった長いＤＮＡ配列等、非常に長いＤＮＡ配列から生じ得る。同じ配列における従来のＤＮＡスペクトログラムとは対照的に、開示されたスペクトルビデオは高められた分解能を提供している。さらに、開示されたスペクトルビデオは、短時間での、及び、所望の分解能での、ゲノムの可視化を促進している。スペクトルビデオ分析を利用して、完全なゲノム分析を提供若しくは促進する、及び／又は、完全な長さのＤＮＡパターン（若しくは、その中の所望の部分）における変化を検知することができる。

シーンチェンジ検出法をスペクトルビデオに関して使用し、直線的な視覚特徴において急な変化を見つけることができる。さらに、スペクトルビデオの各シーンで、統計学上の特徴をスペクトル領域から抽出することができる。さらに、完全な（又は実質的に完全な）スペクトルビデオからの個々のシーンを、無監督のクラスタリング法を用いてクラスタ化することができる。実際に、本開示による無監督のビデオ特徴検出法を使用して、スペクトルＤＮＡレベルでのゲノムワイドな類似点を同定及び／又は明らかにすることができる。従って、そのような分析技術を、例えば、遺伝子ネットワーク、重要なモチーフ、反復ＤＮＡ要素、及び他の顕著なＤＮＡパターンを見つけるための自動ＤＮＡ分析に使用することができる。

開示されたシステム並びに方法における追加の有利な特徴及び機能は、以下に続く詳細な説明から、特に、付随の図と共に読まれた場合に明らかになるであろう。

本開示のシステム及び方法は、ＤＮＡスペクトル分析を促進している。本明細書に記述されているように、例証的なシステム及び方法は、以下のＤＮＡスペクトル分析技術のうち１つ又は複数に寄与している、及び／又は、それ（ら）を利用している：（ｉ）比較ヒストグラム法；（ｉｉ）サポートベクトルマシン及び遺伝的アルゴリズムを用いた選択／分類；並びに（ｉｉｉ）ＤＮＡ配列データからのスペクトログラムの抽出に基づくスペクトルビデオ法。本開示による、例えば、（ｉ）強化されたゲノム情報の可視化、（ｉｉ）例えば、ＣｐＧアイランド、Ａｌｕ反復、非コードＲＮＡ、タンデム反復、及び、サテライト反復等の反復ＤＮＡパターンの同定、（ｉｉｉ）構造的に新規のＤＮＡセグメントにおける無監督の分類及び発見、（ｉｖ）監督された及び／又は無監督の機械学習技術を用いたスペクトル画像の迅速で全面的な分析、並びに（ｖ）例えば、所望の分解能でのゲノム全体の迅速な可視化を可能にするために上げられたスペクトル画像配列の分解能、等の多くの利益を認識することができる。

開示されたシステム及び方法によると、図１〜９を参考にして本明細書においてより詳細に記載されているように、ＤＮＡスペクトログラムは従来の方法で生じる。例えば、以下の５つのステップを必要とするＤＮＡスペクトログラム生成のための従来のアルゴリズム又は技術を使用できる：
（ｉ）４つのヌクレオチド塩基のバイナリインジケータ配列（ＢＩＳ）ｕ_Ａ〔ｎ〕、ｕ_Ｔ〔ｎ〕、ｕ_Ｃ〔ｎ〕、及びｕ_Ｇ〔ｎ〕の形成。上記のように、例証的なＢＩＳパターンが、本明細書の図１に複写されており、ＢＩＳ値のプロットが図２に示されている。
（ｉｉ）ＢＩＳに対する離散フーリエ変換（ＤＦＴ）。各塩基の周波数スペクトルを、方程式（３）（以下に複写されている）を用いてその対応するＢＩＳのＤＦＴをコンピュータで計算することにより得る：

図３に示されているように、配列Ｕ〔ｋ〕は、周波数ｋでの周波数成分の程度を与えており、Ｎ／ｋ試料の基底をなす期間に等しい。
（ｉｉｉ）ＲＧＢ色へのＤＴＦ値のマッピング。４つのＤＦＴ配列は、以下に複写されている一次方程式のセットにより、ＲＧＢ空間において３つの配列に減少する：

式中、（ａ_ｒ，ａ_ｇ，ａ_ｂ）、（ｔ_ｒ，ｔ_ｇ，ｔ_ｂ）、（ｃ_ｒ，ｃ_ｇ，ｃ_ｂ）、及び（ｇ_ｒ，ｇ_ｇ，ｇ_ｂ）は、それぞれヌクレオチド塩基Ａ、Ｔ、Ｃ、及びＧのカラーマッピングベクトルである。従って、結果として生じるピクセル色（Ｘ_ｒ〔ｋ〕, Ｘ_ｇ〔ｋ〕, Ｘ_ｂ〔ｋ〕）は、それぞれのヌクレオチド塩基の周波数成分における振幅により加重されたカラーマッピングベクトルの重ね合わせである（図４を参照）。色へのＤＦＴ値のマッピングは、図５及び６に示されている。
（ｉｖ）ピクセル値の正規化。色のスペクトログラムを与える前に、各ピクセルのＲＧＢ値は、一般的に０から１に下がるように正規化される。図７は、図６の組み合わされたＤＦＴ値における例証的な正規化されたプロットを示している。
（ｖ）短時間フーリエ変換（ＳＴＦＴ）。ＤＮＡスペクトログラムが、個々のＤＮＡ配列断片の連結により形成され、各断片は、一般的に、局所的なＤＮＡセグメントの周波数スペクトルを示している（図８及び９を参照）。

本開示によると、本明細書により生成されたＤＮＡスペクトル画像から、ＣｐＧアイランドを好都合に抽出することができる。ＣｐＧアイランドは、そのゲノムに５−メチルシトシンを含有する生物における遺伝子のプロモーター領域に対する重要な生物学的マーカーであり、さらにＣｐＧアイランドは、脊椎動物における細胞分化において、及び、遺伝子発現の調節において重要な役割を果たす。ＣｐＧアイランドは、少なくとも２００塩基対（ｂｐ）、５０％を超えるＣ＋Ｇ含有量、及び、０．６よりも大きな観察／予想されたＣｐＧ比を有する領域として、ガーディナーガーデン（Ｇａｒｄｉｎｅｒ−Ｇａｒｄｅｎ）とフロマー（Ｆｒｏｍｍｅｒ）により定義されてきている。ＣｐＧアイランドは、また、５００ｂｐよりも長く、少なくとも５５％のＣ＋Ｇ含有量、及び、０．６５という観察／予想されたＣｐＧ比を有する領域として、タカイ（Ｔａｋａｉ）とジョーンズ（Ｊｏｎｅｓ）によっても定義されてきている。タカイとジョーンズの定義は、おそらく遺伝子の５’領域と付随するようＣｐＧアイランドを戻すこと、及び、最も多いＡｌｕ反復要素を排除することに向けられていることが判る。どちらの定義においても、観察された／予想されたＣｐＧ比は、（Ｃの数×Ｇの数／セグメントの長さ）により与えられている。

図１０を参考にすると、中心にＣｐＧアイランドを示した２つの例証的なスペクトログラムが提供されている。ＳＴＦＴ窓のサイズは１２０塩基対（ｂｐ）で、隣接する窓間で重複する部分が１１９ｂｐであるよう選択される。スペクトル画像からのＣｐＧの抽出において、ＴからＡ、及び、ＧからＣを区別することは一般的に必要ではないと判る。従って、４つのヌクレオチド塩基それぞれに４つの色ベクトルを使用する代わりに、例えば、Ａ及びＴには赤（１，０，０）、並びに、Ｃ及びＧには緑（０，１，０）にする等、２つの色ベクトルを使用することができる。対応するスペクトログラムが図１１に示され、どちらの画像においても、ＣｐＧアイランドは背景をよく対比させている。この色ベクトルの選択は、青の成分を無視することができ、赤及び緑色の成分のみを使用するという考慮も可能にしている。従って、開示された色選択技術により、特徴がより識別できる画像の生成が可能及び／又は促進され、すなわち、最適な配色を採用することによって、高められた抽出性能が達成される。

一般的に、画像特徴検出法は３つのステップを含むことができる：（ｉ）画像ノイズ除去、（ｉｉ）分類における特徴の抽出、及び（ｉｉｉ）前記分類における特徴を評価することによる意志決定。一般的に、適切なノイズ除去ステップを含むことにより、結果を高めることができるけれども、開示されたシステム及び方法では、スペクトル画像のノイズ除去は必要ではない。
〔画像ノイズ除去〕
生のスペクトログラム画像はノイズを含んでおり、その除去により、検出の信頼度、効率、及び／又は性能を改善又は高めることができる。スペクトログラム画像のノイズ除去は、１又は複数のモルフォロジカルオペレーションを用いて達成することができる。例えば、モルフォロジカルオープニングに続いてモルフォロジカルクロージングを行うことにより、弱ピクセルの小さな領域を除去することができる。その後、互いに近い距離にある強ピクセルを含んだ領域は併合することができる。ノイズ除去は、一般的に、緑及び赤色の空間において別々に行われる。有用な詳細がスペクトログラムに保持されつつノイズが取り除かれるように、モルフォロジカルオペレーションでは、構造的要素の形及びサイズは慎重に選ばれる。１ピクセルの高さ及び５０ピクセルの長さを有する長方形を構成する要素が、ＣｐＧアイランドの検出に関して、ノイズ除去操作のための効果的なパラメータを提供すると見いだされている。例証的なノイズ除去されたスペクトログラムが本明細書の図１２に示されており、左側の画像は緑及び赤のチャネル画像のみを含み、対応する右側の画像は、モルフォロジカル「クローズ」に続く「オープン」フィルタ後の画像である。
〔分類における特徴の抽出〕
ＣｐＧアイランドにおいて、緑色の輝度（Ｃ及びＧの存在）が、一般的に、赤色（Ａ及びＴの存在）よりも高いことが目視検査を介して判ってきている。さらに、１又は複数の明るい箇所のかたまりから明らかなように、緑の空間において輝度に大きな変動があるけれども、赤色の輝度は、一般的にその領域において均等に低い−すなわち、実質的に均一である−。均一性／不均一性という前述の問題に取り組むために、本開示のシステム及び方法は、強化された分類における特徴の抽出を好都合に促進している。従って、本開示の例証的な実施形態によると、「ソーベル」エッジ検出が、緑及び赤空間におけるノイズ除去されたスペクトログラムに対してそれぞれ行われる。当業界では一般的に既知であるように、ソーベルオペレータは、画像輝度の関数における勾配ベクトルの近似値を計算する離散微分オペレータである。画像の各ポイントで、ソーベルオペレータの結果は、対応する勾配ベクトル又はそのベクトルのノルムである。例えばキャニーエッジ検出器等、別のエッジ検出技術を、本開示の真意又は範囲から逸脱することなく使用することができる。

ノイズ除去されたスペクトログラムに対するソーベルエッジ検出の適用により、隣接するピクセルに比べて大きな輝度差を有するピクセルに対応するエッジのバイナリ画像が生じる。赤の空間よりも緑の空間において、ＣｐＧアイランドのエッジピクセルがより多くあることが一般的に判ってきている。エッジ検出を介して生じるバイナリ画像は、ｘ軸（ＳＴＦＴ窓位置）及びｙ軸（スペクトル周波数）に沿ってそれぞれエッジピクセルの数を数えることによりさらに処理される。４つのヒストグラムが結果として得られる：緑並びに赤の空間に対するｘ及びｙのヒストグラム。最終的に、前述のヒストグラムは、それぞれ移動平均を計算することによりなめらかにされる。

緑及び赤ベースのスペクトログラムにおけるエッジの読み取りを反映する例証的なスペクトル画像が、図１３に明記されている。図１３の左側の列は本来の画像を示し、右側の列は正方形２ｘ２のマスクでソーベルエッジ検出を適用した後の対応する画像を示している。右側の画像は、水平及び垂直のエッジヒストグラムを示している。

従って、分類における特徴の抽出は、本開示のシステム及び方法に従い取り組むことができる一連のパラメータにより影響される。分類における特徴の抽出に影響する、及び、本開示により制御されるパラメータの中には、（ｉ）エッジ検出の方法、（ｉｉ）エッジ検出のしきい値、及び（ｉｉｉ）移動平均窓のサイズがある。
〔分類における特徴の評価を介する意志決定〕
スペクトル画像の分類における特徴が同定されると、ＣｐＧアイランドの分類器を提供することができると開示されたシステム／方法に従い熟慮される。分類器を生じるための２つの例証的な方法は、（ｉ）固定しきい値法、及び（ｉｉ）遺伝的アルゴリズム／サポートベクトルマシン（ＧＡ−ＳＶＭ）法である。

開示された固定しきい値法において、ＣｐＧアイランドは以下の方法で好都合に抽出される：
（ｉ）（ｘ＿ヒストグラム＿緑−ｘ＿ヒストグラム＿赤）＞しきい値（この例においては＝２）
（ｉｉ）長さ＜２００ｂｐの（１）を満たす領域は拒絶される。
（ｉｉｉ）１００ｂｐ未満により分けられた（１）も（２）も満たす領域は併合される。

図１４を参考にすると、塩基「Ａ」、「Ｔ」を赤色に、及び、「Ｃ」、「Ｇ」を緑色にマップする色のスペクトログラムからエッジが抽出されている。赤及び緑に表示することができるエッジピクセルが、対応する色空間から個々に抽出されている。例えば黄色等のさらなる色を使用して、赤と緑のエッジの共存に付随する結果を表示することができる。例証的な図１３から明らかなように、ＣｐＧアイランドのヒストグラムにおけるｘ軸に沿った緑のピクセルの数は、赤のピクセルの数を明らかに超えている。上記のＣｐＧアイランド同定基準に基づき、ＣｐＧアイランドは、ＤＮＡセグメントのうち１１０２から１３２２ヌクレオチドに位置するとして同定される。比較の目的で、ガーディナー及びタカイのＣｐＧ定義に基づくＣｐＧアイランド、すなわち、ガーディナー（８５５，１５２４）及びタカイ（７４４，１２４３）も図１４に示されている。留意すべきは、本明細書において規定されたＣｐＧアイランド同定基準は、少なくとも図１４に示された例証的なスペクトログラムの目的においては、ガーディナー及びタカイの定義／基準と比較するとより説得力があるということである。当業者には容易に明らかになるように、ＣｐＧアイランド同定基準は、適用できるパラメータ値の変化を介して調節可能である。

従って、より広い意味において、本開示による例証的なヒストグラムの比較に基づいたシステム及び方法は以下のステップを含み、そのフローチャートが図１５に示されている。本明細書においてステップが示されている順序は、開示されたシステム／方法の典型を示しているけれども、開示されたシステム及び方法は本明細書に示された順序に限定されないことを理解されたい。さらに、本明細書に提供されている詳細な説明から容易に明らかなように、開示されたシステム及び方法は、同定処理をさらに高める若しくは促進することができる１又は複数の追加のステップの導入を除外しない、又は、開示されたシステム及び方法は、本明細書に開示された各ステップ及び全ステップを伴う実施に対する範囲において制限されない。
〔例証的な比較ヒストグラム／固定しきい値処理システム及び方法〕
１．開示されたシステム／方法に長さＭのＤＮＡ配列を入力するステップ：
パラメータ：Ｎ−ＳＴＦＴ窓サイズ
ｑ−重複
ｐ−目視分解能（Ｍ＞＞ｐ＞Ｎ）
２．サイズＮの入力されたＤＮＡ配列をバイナリインジケータ配列に転換するステッ
プ；
３．短時間フーリエ変換（ＳＴＦＴ）を前記バイナリインジケータ配列に適用し、周
波数領域ベクトルを生成するステップ；
４．Ａ、Ｔ、Ｃ、及びＧに対する前記周波数領域ベクトルを、例えばＲＧＢ（赤−緑
−青）又はＨＳＶ（色相−彩度−明度）色空間等の色空間にマップするステップ；
５．従来のエッジ検出法（例えば、ソーベル又はキャニーエッジ検出器）を用いて、
ＤＮＡスペクトル画像にエッジ検出を適用するステップ；
６．エッジ投影（ｅｄｇｅｐｒｏｊｅｃｔｉｏｎ）を用いることにより、ＲＧＢか
ら赤、緑、青成分（又は、ＨＳＶ色空間が使用された場合はＨＳＶ成分）における
水平及び垂直のヒストグラムを別々に計算するステップ。ヒストグラムは、組み合
わされた色も表すことができる。例えば、ＣとＧを組み合わせて緑成分により表す
ことができ、ＡとＴを組み合わせて赤成分を表すことができる；
７．ヒストグラムデータを評価するステップ。例えば、ＣｐＧアイランドには、以下の抽出基準を使用することができる：
（１）（ｘ＿ヒストグラム＿緑−ｘ＿ヒストグラム＿赤）＞しきい値（例えば、２に等しい）
（２）長さ＜２００ｂｐの（１）を満たす領域は拒絶される。
（３）１００ｂｐ未満により分けられた（１）も（２）も満たす領域は併合される。
８．評価基準を満たしたＤＮＡセグメントは反復要素として標識され、開始及び終了位置が注目／記録される（例えば、ＣｐＧアイランド）。

ゲノム全体及び／又はゲノムにわたっての構造レベルで反復特徴を示すことができる他の種類のＤＮＡ配列がある。近年、重要な機能上の役割が、非コードＲＮＡにより行われ得る、及び／又は、非コードＲＮＡと付随し得ることが理解されてきている。ヘアピン構造を生じるＤＮＡ配列は、そのような非コードＲＮＡの種類を表している。例えば、マイクロＲＮＡ（ｍｉＲＮＡ）は、遺伝子発現を転写後に調節する小さなＲＮＡである。マサチューセッツ工科大学のＷｈｉｔｅｈｅａｄＩｎｓｔｉｔｕｔｅで生物学の教授をしているデイビッドバーテル（ＤａｖｉｄＢａｒｔｅｌ）は、ｍｉＲＮＡは全ヒト遺伝子の三分の一を調節することができると予測している（Ｃｅｌｌ，ＣｅｌｌＰｒｅｓｓ，Ｊａｎｕａｒｙ１４，２００５）。

開示された処理技術は、適切な処理装置で作動する／操作される適切なソフトウエア／プログラミングを介して一般的に実行される。処理システムは、例えばパーソナルコンピュータ等の独立型であり得るか、又は、ネットワーク（インターネット間で通信し合う分散型ネットワーク、イントラネット、エクストラネット等）と付随し得る。処理装置／システムは、一般的に、適切なメモリ／記憶装置に通じており、それは、例えば、ソフトウエア／プログラミング、パラメータを含有するデータベース、及び、開示されたシステム／方法に付随する値にアクセスするという目的のため、並びに、開示されたシステム／方法を介して生じた値／データ／画像の（短期間及び長期間両方の）記憶装置のためである。開示された処理装置／システムは、本開示により生じた値／データ／画像を表示及び／又は記録するために、例えば、プリンタ及びモニタ等の１又は複数の出力システムにも一般的に通じている。従って、要するに、開示されたシステム及び方法は、当業者には既知であるように、コンピュータ及び／又はプロセッサベースの実行を許している。

本開示による例証的なＧＡ−ＳＶＭ方法／技術に話を変えると、遺伝的アルゴリズムを有するサポートベクトルマシンを利用して、例えば、画像ベースの特徴のセット等、特徴のセットの質を評価及び位置づけることができる。例証的な実施形態において、開示された評価／位置づけの機能性は、例えばＣｐＧアイランドを同定するのに効果的である。さらに、繰り返しの特徴を除去する方法（ｒｅｃｕｒｓｉｖｅｆｅａｔｕｒｅｅｌｉｍｉｎａｔｉｏｎｍｅｔｈｏｄ）及び／又は主成分分析を使用して、顕著な特徴を見つけることができる。留意すべきは、当業者には容易に明らかになるように、別の定義を適応することができるけれども、現存するＣｐＧアイランドの定義は、ガーディナー及びタカイによる定義のように、開示されたシステム及び方法の実行を導くということである。開示されたＧＡ−ＳＶＭ方法／技術の典型的な目的は、ＣｐＧアイランドの分類に有用な特徴を見つけることである。

開示されたＧＡ−ＳＶＭ方法／技術は、例えば、ＣｐＧアイランドを同定するための、特徴のセットの質を評価及び位置づけするために、遺伝的アルゴリズムを有するサポートベクトルマシンの使用を一般的に含んでいる。従って、例えば、開示されたＧＡ−ＳＶＭ方法／技術を使用して、例えば長さが２００塩基であるＤＮＡセグメント等、所与の長さを有するＤＮＡセグメントそれぞれから、例えば１２７個の特徴等、所定の数の特徴を抽出することができる。本開示の例証的な実施形態によると、特徴セットの構成物は、以下の通りである（全特徴＝１２７）：
● 緑のピクセルの数（１）
● 赤のピクセルの数（１）
● 緑のエッジピクセルの数（１）
● 赤のエッジピクセルの数（１）
● 緑のエッジピクセルの数引く赤のエッジピクセルの数（１）
● 周波数軸に沿った赤のエッジヒストグラムの数値（６１）
● 周波数軸に沿った緑のエッジヒストグラムの数値（６１）
例えば、ガーディナー及び／又はタカイのＣｐＧアイランド定義等、種々のＣｐＧアイランドの定義を使用することができる。選択された定義に基づき、例えば、各スペクトログラム画像に対して１２７個の特徴等、多数の特徴が、開示されたＧＡ−ＳＶＭ方法／技術に従い一般的に生じる。本開示の例証的な実施形態に従い、合計で３２０６のＤＮＡセグメントを使用し、それらのセグメントをスペクトログラムに転換した。ＣｐＧの種類又は非ＣｐＧの種類を表す特徴セットがスペクトログラムから抽出される。

本開示によると、所定の割合の出力データが、サポートベクトルマシンを「訓練する」ために使用され、例えば、出力データのうち三分の二がＳＶＭを訓練するために使用できる（下記の表を参照）。残りのデータ（例えば、全データのうち三分の一）は、開示されたＧＡ−ＳＶＭ方法／技術による目的を試験するために使用される。予備結果により、上記の１２７個の特徴のうち、最適な特徴セットは５７個の要素からなり、さらに、６７％という最適な精度が達成されたことが示されている。

本開示による例証的なＧＡ−ＳＶＭ方法／技術は、以下の操作可能なパラメータを含んだ：
● 配列の総数：

● 試行数：１００，０００
本明細書に記述されているように、例証的な実行は、塩基「Ａ」と「Ｔ」及び「Ｃ」と「Ｇ」を赤及び緑色にそれぞれグループ化するカラーマッピングスキームに基づいている。そのような実行では、ＣｐＧアイランドの同定のための抽出アルゴリズムにおいて赤及び緑色の成分を考慮することだけが必要である。しかし、他のカラーマッピングスキームを本開示に従い使用することができ、その場合、Ｒ、Ｇ、及びＢという色（又はＨＳＶ）の全３層を考慮する必要があり得る。本明細書に提供された詳細な説明に基づき当業者には明らかになるように、別のカラーマッピングスキームに取り組むために、必要に応じて、特徴のセット及び選択基準を調節することができる。図１６及び１７を参考にすると、ＣｐＧアイランドの検出結果が示されており、カラーマッピングを用いて得られたスペクトログラムにおいてエッジヒストグラムが使用されている。
〔特徴の選択及び分類のための例証的なＧＡ−ＳＶＭシステム及び方法〕
１．前記開示されたシステム／方法に長さＭのＤＮＡ配列を入力するステップ：
パラメータ：Ｎ−ＳＴＦＴ窓サイズ
ｑ−重複
ｐ−目視分解能（Ｍ＞＞ｐ＞Ｎ）
２．サイズＮの入力されたＤＮＡ配列をバイナリインジケータ配列に転換するステップ；
３．短時間フーリエ変換（ＳＴＦＴ）を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ；
４．Ａ、Ｔ、Ｃ、及びＧに対する前記周波数領域ベクトルを、例えばＲＧＢ又はＨＳＶ等の色空間にマップするステップ；
５．従来のエッジ検出法（例えば、ソーベル又はキャニーエッジ検出器）を用いて、ＤＮＡスペクトル画像にエッジ検出を適用するステップ；
６．エッジ投影を用いることにより、赤、緑、青成分（又は、ＨＳＶ成分）における水平及び垂直のヒストグラムを別々に計算するステップ。ヒストグラムは、組み合わされた色も表すことができる。例えば、ＣとＧを組み合わせて緑成分により表すことができ、ＡとＴを組み合わせて赤成分を表すことができる；
７．遺伝的アルゴリズムを有するサポートベクトルマシンを用いた特徴選択法を利用して、顕著なスペクトル特徴のセットを評価及び位置づけるステップ。あるいは、繰り返しの特徴を除去する方法及び／又は主成分分析を使用して、顕著な特徴を見つけることができる。例えば、以下の特徴を使用することができる：１２７個の特徴（Ｎ塩基長であるＤＮＡセグメントから抽出され、Ｎは変更できる；例証的な実施形態において、Ｎは２００ｂｐ長である）
● 緑のピクセルの数（１）
● 赤のピクセルの数（１）
● 緑のエッジピクセルの数（１）
● 赤のエッジピクセルの数（１）
● 緑のエッジピクセルの数引く赤のエッジピクセルの数（１）
● 周波数軸に沿った赤のエッジヒストグラムの数値（６１）
● 周波数軸に沿った緑のエッジヒストグラムの数値（６１）
８．前述のステップから上位に位置づけられた特徴のサブセットを用いて分類器を設計／実行するステップ。本開示の例証的な実施形態では、サポートベクトルマシン分類器が使用される；しかし、例えば、神経回路網、自己組織化マップ（ＳＯＭ）技術／システム、及び、機械学習文献において既知の他の分類器を使用できる等、別の分類器を、本開示の真意又は範囲から逸脱することなく、使用することができる。分類器は、未知の入力されたＤＮＡ配列を検出し、反復ＤＮＡ構造（例えばＣｐＧアイランド）を有するセグメントの一部に分類する；
９．評価基準を満たしたＤＮＡセグメントは反復要素として標識され、開始及び終了位置が注目／記録される（例えば、ＣｐＧアイランド）。

本明細書において上記されているような、特徴選択及び分類のための例証的なＧＡ−ＳＶＭシステム／方法のフローチャートが、図１８に示されている。上記の比較ヒストグラム／固定しきい値処理システム及び方法のように、開示されたＧＡ−ＳＶＭシステム／方法は、適切な処理装置で作動する／操作される適切なソフトウエア／プログラミングを介して一般的に実行される。処理システムは、例えばパーソナルコンピュータ等の独立型であり得るか、又は、ネットワーク（インターネット間で通信し合う分散型ネットワーク、イントラネット、エクストラネット等）と付随し得る。処理装置／システムは、一般的に、適切なメモリ／記憶装置に通じており、それは、例えば、ソフトウエア／プログラミング、パラメータを含有するデータベース、及び、開示されたシステム／方法に付随する値にアクセスするという目的のため、並びに、開示されたシステム／方法を介して生じた値／データ／画像の（短期間及び長期間両方の）記憶装置のためである。開示された処理装置／システムは、本開示により生じた値／データ／画像を表示及び／又は記録するために、例えば、プリンタ及びモニタ等の１又は複数の出力システムにも一般的に通じている。従って、開示されたシステム及び方法は、当業者には既知であるように、コンピュータ及び／又はプロセッサベースの実行を許している。

開示された比較ヒストグラム／固定しきい値及びＧＡ−ＳＶＭシステム／方法は、広範囲にわたる適用性及び有用性を有している。例えば、反復ＤＮＡスペクトル分析を、迅速なゲノム全体の分析のために、及び、長いＤＮＡ配列において重要なパターンを同定／見つけるために使用することができる。実際、そのようなパターンの同定を、癌、老化、及び発達障害を研究並びに診断するのに重要並びに／又は有用な、ＤＮＡ配列のエピゲノミクス分析に使用することができる。

監督された分類も無監督の分類も、ＦＦＴの結果を色空間にマッピングすることなく行うことができると注目することが重要である。特徴は、４つの変換されたバイナリインジケータ配列から直接抽出することができる。この場合、ＲＧＢスペクトログラム画像の代わりに、入力されるのは、ＦＦＴ変換バイナリインジケータ配列である。正規化は、任意のステップであり得る。残りの分析は、完全なベクトルを表すよう組み合わされた４つの変換されたインジケータ配列からなる特徴ベクトル上で行われ、その完全なベクトルは各ＤＮＡセグメントを表している。
〔スペクトログラムからスペクトルビデオを作成するシステム／方法〕
本開示のさらなる態様によると、ＤＮＡ配列に付随するスペクトログラムからスペクトルビデオを作成するシステム及び方法が開示されている。非常に長いＤＮＡ配列（例えば、１億５０００万塩基長であり得る染色体）の周波数スペクトルは、いかなる所望の分解能でも１つのスペクトログラム枠に適合することはできない。個々の画像を見る代わりに、本開示の例証的なシステム及び方法は、スペクトログラムからの連続するビデオの作成を促進する。開示されたスペクトルビデオは、ゲノム又は他の関心のあるＤＮＡ配列にわたる「パニング」に本質的に相当する。スペクトルビデオで、短時間での、及び、所望の分解能でのゲノムの可視化が可能になる。さらに、スペクトルビデオの分析により、完全なゲノム分析が提供され、さらに、完全な長さのＤＮＡパターンにおける変化の検知が可能になる。同じ配列のスペクトログラムとは対照的に、開示されたスペクトルビデオにより、同じ配列においてより多くの分解能が提供される。

本明細書に開示されているように、スペクトルビデオの作成及び使用により：
● 個々のスペクトログラムの保存及び表示に対立するものとした、ゲノム全体の連続目視；
● 時間の節約：スペクトログラムを１つずつ目視することは非常に時間がかかるけれども、スペクトルビデオは、ＤＮＡスペクトログラムを共に縫い合わせることにより作成される；
● 連続する直線的なゲノムパターンの分析：低分解能では、これらのパターンは１つのスペクトログラムを超えて及ぶ可能性がある；
● 所望の分解能、及び、優れたディテールでの長い配列の可視化；
● スペクトルビデオの目視が進むに従い、分解能を変える能力：例えば、興味深いパターンが現れた場合に、開示されたシステム／方法は、特定のサブ配列のさらなる細部への即座の「飛び込み」を促進する；
を含めた多数の利点及び／又は機能性が提供される。

スペクトログラムをスペクトルビデオに変換するための開示されたシステム／方法は、ソフトウエア／コンピュータプログラミングを介して実行することができる。本開示の例証的な実施形態によると、ソフトウエア／プログラミングは、処理装置／コンピュータ上での操作のために提供され、そのようなソフトウエアは、例えば、５’末端から３’末端までＤＮＡ配列にわたりスペクトログラム窓を徐々にパニングすることにより、ＤＮＡ配列全体（又は、その中でも所望された部分）の周波数スペクトルを表示するようなされている。開示されたスペクトルビデオを実現するための例証的なプログラム／アルゴリズムは、本明細書に記述されている。本明細書の図１９に明記されたフローチャートも参照されたい。
〔スペクトルビデオを作成するための例証的なアルゴリズム／プログラム〕
（１）開示されたシステム／方法に長さＭのＤＮＡ配列を入力するステップ：
パラメータ：Ｎ−ＳＴＦＴ窓サイズ
ｑ−窓間隔（Ｎ−窓の重複）
ｐ−目視分解能（ビデオ画像の幅）、及び
ｖ−目視の速度、すなわち、１つのビデオフレームあたりにシフトされるスペクトル画像列の数（Ｍ＞＞ｐ＞Ｎ）
（２）初期化するステップ：ｓ＝１、ｒ＝１
（３）ｐという長さのセグメント、又は、完全なＤＮＡ配列のサブ配列に対して位置ｓで開始するステップ；
（４）位置ｒで開始し、サイズＮという入力されたＤＮＡ配列を、バイナリインジケータ配列に転換するステップ；
（５）短時間フーリエ変換をバイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ；
（６）Ａ、Ｔ、Ｃ、及びＧに対する前記周波数領域ベクトルを、例えばＲＧＢ又はＨＳＶ色空間等の色空間にマップするステップ；
（７）（ｒ−ｓ＋１）＜ｐの場合、結果を可視化し、ｑヌクレオチド分前方へ移動するステップ：ｒ＝ｒ＋ｑステップ４へ進む。
（８）ＤＮＡスペクトル画像が前もって示されていない場合、スペクトル画像を表示するステップ：ｒ＝ｒ＋ｑステップ４へ進む。
（９）（ｒ−ｓ＋１）＜ｐ＋ｖｑの場合、１列目をスペクトル画像から除去し、最後に生成された列を末端部に付け加えるステップ；ｒ＝ｒ＋ｑステップ４へ進む。
（１０）（ｒ−ｓ＋１）＞＝ｐ＋ｖｑの場合、スペクトル画像を表示するステップ；ｓ＝ｓ＋ｖｑｒ＝ｒ＋ｑ
（１１）（ｒ＋Ｎ−１）＜＝Ｍの場合、ステップ４へ進むステップ。
（１２）使用者の要求に従って、目視の速度ｖを調節するステップ；通常速度は、１つのビデオフレームあたり１列のシフトである。

図２０を参考にすると、スペクトルビデオからの例証的な画像が明記されている。（よどみを被っている−動く画像ではない）図２０の画像から容易に明らかなように、開示されたスペクトルビデオ関連のシステム及び方法は、例えば、既知及び未知両方の生物マーカー検出のためのＤＮＡ配列の検査及び分析に重大な利点を提供する。さらに、シーンチェンジ検出法をスペクトルビデオに関して使用し、直線的な視覚特徴における急な変化を見つけることができる。スペクトルビデオの各シーンで、統計学上の特徴をスペクトル領域から抽出することができる。さらに、完全な（又は実質的に完全な）スペクトルビデオからの個々のシーンを、無監督のクラスタリング法を用いてクラスタ化することができる。実際に、無監督のビデオ特徴検出法は、以下でより詳細に説明されているように、スペクトルＤＮＡレベルでのゲノムワイドな類似点を同定及び／又は明らかにするために使用することができる。従って、そのような分析技術を、例えば、遺伝子ネットワーク、重要なモチーフ、反復ＤＮＡ要素をスペクトル及び構造的に、並びに、他の顕著なＤＮＡパターンを見つけるための自動ＤＮＡ分析に使用することができる。
〔無監督のスペクトログラム及びスペクトルビデオの分析〕
本開示の例証的な実施形態によると、遺伝子制御要素及びネットワークにおける無監督の調査に、スペクトログラムを使用することができる。実際に、重要な制御要素を見つけるための大規模なスペクトログラム分析が、本開示に従い熟慮されている。階層的なクラスタリング等の無監督の方法を、最も優勢なパターンの群を決定するために使用することができる。

ゲノムを通じて最も頻繁に起こるパターンは、ヌクレオチド発生における一次従属性に依拠することなく（すなわち、簡単な統計的測定で）、一般的に同定／位置決めすることができる。バイオインフォマティクスにおける伝統的な方法は、極端に保存されたセグメントを見つけるために、多重配列アライメントを使用している。しかし、スペクトル分析では、本開示のシステム及び方法を使用して、ゲノムにおいて起こってきた、進化的に及び／又はゆっくり変わっていく変化、並びに、極端ではないが大部分が保存された要素を同定することができる。

大規模なスペクトログラム分析技術を使用して、本開示のシステム及び方法は、発生するパターンの類似の頻度という観点から、ゲノムの走査を促進し、スペクトル保存された配列に集中する。直線的なヌクレオチドの順序を見るのではなく、開示されたシステム／方法は、配列アライメントではほとんど識別可能ではなく、スペクトル表示からのみ明らかになり得る構造的特徴を好都合に検査する。開示された技術／方法の利点は、例えば、染色体全体及びゲノム全体にわたって、１つの染色体内の各反復スペクトルパターンの分布を可視化できることである。実際に、開示された分析技術をゲノムにわたり適用して、既知のパターンも新規のパターンも同定することができる。例えば、Ａｌｕ、短いヘアピン構造体（例えばマイクロＲＮＡ）、ＳＩＮＥ、ＬＩＮＥ、及び、ＣｐＧアイランド等の数百塩基対から数十万塩基対の長い反復要素を、この方法で効果的に特徴づけることができる。さらに、異なる分解能でのパターンを、２００ｂｐの窓内及び１００Ｋｂｐの長い窓内で示すことができる。これにより、新たな種類の反復要素の検出が促進される。適用可能なアルゴリズムを適用する前に、例えばその使用者には興味のない要素等、特定の繰り返し要素をマスクすることができる。

例証的な方法／アルゴリズムが、本明細書において以下に記述される：
〔ステップ１〕入力されたＤＮＡ配列（例えば染色体）のために、ＳＴＦＴ窓がＷ（Ｗ＜Ｌ）、及び、窓の重複がＶ（Ｖ＜Ｗ）で、長さＬ（Ｌはヌクレオチドの数）のスペクトログラムＳ１を生じるステップ。
〔ステップ２〕ＤＮＡ配列の終わりに達するまで、Ｒヌクレオチド右へ移動し、スペクトログラムＳ_ｉを生じるステップ。
〔ステップ３〕ステップ１及び２で生じたスペクトログラム全てを用いて、無監督の画像ベースのクラスタリング（例えば、ｋ平均クラスタリング、階層的なクラスタリング等）を行うステップ。開示された方法／アルゴリズムに従い使用するための例証的な類似度測定は、例えば、Ｃクラスタを生じるＬ１測定等、いかなる画像ベースの類似度測定も含む。クラスタリングのための特徴は、色、きめ〔テクスチャ〕、並びに、線、正方形、及び斜線等の画像に現れる特定の物〔オブジェクト〕を含むことができる。
〔ステップ４〕最も大きなクラスタを見つけ、そのクラスタの中心をとり、さらに、このクラスタのうちクラスラベルの要素を見るために、既知のゲノム源と対比して検索を行うステップ。これにより、特定の染色体上の最も反復する要素を明らかにすることができる。
〔ステップ５〕（ａ）又は（ｂ）のうち１つを選択するステップ：
（ａ）クラスタの中心から最も遠いＰスペクトログラムを無作為に選び、クラスラベルの検索を行うステップ。Ｐスペクトログラムも同じクラスに属していることを検証するステップ。
（ｂ）スペクトログラム、及び、スペクトログラムのセットにおける全てのクラスラベルの要素の種類を使用者のために可視化するステップ。次に、スペクトログラムがクラスタ内にあり、その中心は既知であるが、そのクラスタの中心からさらに離れた前記スペクトログラムが未知である場合、新規の要素をクラスタの中心のクラスラベルとして名付け、さらに、その差を可視化するステップ。
〔ステップ６〕２番目に大きいクラスタで続け、ステップ（５）及び（６）を行う／繰り返すステップ。クラスタの中心−クラスラベルが未知になるまで、次に大きいクラスタで続けるステップ。Ｋクラスタは既知のラベルを有し、Ｕクラスタは未知のラベルを有していることを示すステップ。
〔ステップ７〕未知のラベルを有するＵクラスタ全てのために、かなりのクラスタサイズ（一般的に、最大のクラスタにおける要素の最大数の少なくとも半分）で、パターンの普及率、同じ染色体内の統計的分布を見つけるステップ。染色体にわたる統計的分布を見つけるステップ。
〔ステップ８〕ＶがＷの半分に達するまで、Ｖを上げ、所与のステップサイズ（例えば、ステップサイズ＝１）でステップ（１）に進み、その後ステップ（９）に進む。
〔ステップ９〕ＷがＬの半分に達するまで、Ｗを上げ、所与のステップサイズでステップ（１）に進み、その後ステップ（１０）に進む。
〔ステップ１０〕Ｌを上げ、ステップ（１）に進む。
〔ステップ１１〕Ｖ、Ｗ、及びＬの各レベルで結果を要約するステップ。

当業者には容易に明らかなように、開示された方法／アルゴリズムは、コンピュータベースで操作／実行されるよう順応し、それによりその自動化された操作を促進することができる。実際に、開示された方法／アルゴリズムを無監督の方法で好都合に行い、それにより、使用者の監督及び／又は干渉なしで、ＤＮＡ配列のＶ、Ｗ、及びＬの値を生じることができる。

本開示によると、結合による新規の要素はステップ５を用いて同定することができ、すなわち、開示された方法／アルゴリズムは、以前に認識されていない、及び／又は、価値を認められていない潜在的で重大な類似点を有する配列の同定を促進している。実際に、第１の種由来の配列を、異なる種由来の配列決定されたゲノムと能率的及び効果的に対比し、そのような種のＤＮＡ配列内にある潜在的に新規の要素を決定及び／又は同定することができる。さらに、前述の方法／アルゴリズムのステップ７において特定された技術によって、新規のクラスの要素をＤＮＡ配列から同定することができる。これらのクラスを、本開示に従い他のゲノムと対比して能率的及び効果的に調査することができる。開示された方法／アルゴリズムのさらなる適用は：
● ゲノム内比較：大規模な分析のためのアルゴリズムを、研究されるゲノムの各染色
体に適用することができる。次に、全体のクラスタリングを行ってそのゲノムの（染
色体にわたる）機能的に重要な要素を見るために、クラスタの中心全てを使用するこ
とができる。
● 比較ゲノミクス：大規模な分析のためのアルゴリズムを、既知の２００以上の配列
決定されたゲノムの各ゲノムに適用することができる。次に、全体のクラスタリング
を行って進化中機能的に保存された要素を見るために、クラスタの中心全てを使用す
ることができる。
を含む。
〔ゲノムワイドなパターンを見つけるためのスペクトルビデオ分析〕
本開示のさらなる例証的な実施形態及び実行において、上記の技術に従い生じたスペクトルビデオにシーンチェンジ検出法を適用し、重要な直線的な視覚特徴における急な変化を見つけることができる。各シーンで、スペクトル領域からの統計学上の特徴を抽出することができる。さらに、完全なスペクトルビデオの個々のシーンを、無監督のクラスタリング法を用いてクラスタ化することができる。次に、無監督のビデオ特徴検出法を使用して、スペクトルＤＮＡレベルでのゲノムワイドな類似点を明らかにすることができる。従って、そのような無監督の検出法の結果を、遺伝子ネットワーク、重要なモチーフ、反復ＤＮＡ要素、及び他の顕著なＤＮＡパターンを見つけるための自動ＤＮＡ分析に使用することができる。そのような無監督の検出を行うための例証的な方法／アルゴリズムは、本明細書において以下に記述される：
〔ステップ１〕所与のＤＮＡ配列（例えば、完全な染色体又はその一部）のスペクトルビデオを生じるステップ。
〔ステップ２〕例えば、所与の窓、色、エッジの長さ、特定の列上の同じ色の数等に対する水平及び垂直のエッジヒストグラム等の特徴を抽出するステップ。
〔ステップ３〕例えば、抽出された特徴を用いて連続するパターンを見つける等、スペクトルカットを見つけるステップ。この技術は、フィルムにおいて「カット」を見つけることに類似している。
〔ステップ４〕例えば、各スペクトルカットのための特徴を記憶する等、シーンをクラスタ化するステップ。実際に、シーンをビデオにクラスタ化するように、これらの特徴を用いてスペクトルカットをクラスタ化することができる。
〔ステップ５〕例えば、順番を並び換え、さらに、特定の長さを有する「シーン」を可視化する等、最も長い要素を有するクラスタを見つけるステップ。
〔ステップ６〕例えば、１つのシーンに属するもの等、同じ長さのスペクトル要素をクエリするステップ。スペクトルカットに対応する各セグメントを、既知のゲノム源（例えば、ＮＣＢＩ）と対比して好都合に調べ、いかなる既知の機能上の重要性も決定することができる。

このように、本明細書において開示されたシステム、方法、及び技術は、ＤＮＡ配列の反復パターンを評価、決定、及び／又は同定することにおいて、並びに、そのようなパターンに生物学的及び／又は臨床的な意味を結びつけるために、一連の価値ある手段を提供する。システム、方法、及び技術が、その例証的な実施形態を参考にして記述されてきたけれども、本開示はそのような例証的な実施形態に限定されないことを理解されたい。正しくは、当業者には容易に明らかになるように、開示されたシステム、方法、並びに技術は、本開示の真意若しくは範囲から逸脱することなく、広範囲な変更、修正、及び／又は増強を許す。本開示は、そのような変更、修正、及び／又は増強を本明細書の範囲内に明確に包含する。

開示されたシステム及び方法の作成並びに使用において当業者に寄与するために、付随する図が参照される。

本開示に従い使用されたスペクトル画像技術による、ＤＮＡ配列の例証的なバイナリインジケータ配列（ＢＩＳ）を明記している。図１に明記された例証的なＢＩＳのプロットを明記している。図１及び２の例証的なＢＩＳにおける離散フーリエ変換（ＤＦＴ）を明記している。図３の例証的なＤＦＴ値の色空間へのマッピングを例示している。実例となる色ベクトルに基づいた図３の例証的なＤＦＴ値の色空間へのマッピングを例示している。本開示による色空間におけるＤＦＴ値の総和を明記している。色空間におけるＤＦＴ総和値の正規化されたプロットを明記している。ＤＮＡ配列の例証的な色のスペクトルである（グレースケールで複写されている）。本開示による例証的なＤＮＡセグメントにおける複数の色のスペクトル断片の例証的な連結である。例証的なＣｐＧアイランドのスペクトログラム画像である。赤色及び緑色に制限された、図１０のＣｐＧアイランドのスペクトログラム画像である。本開示による一連のノイズ除去されたスペクトログラムを明記している。本開示による緑及び赤ベースのスペクトログラムに対するスペクトル画像及びエッジ測定値である。例証的なＲＧＢベースのスペクトログラムから抽出されたエッジ、及び、そこに付随する関連するＣｐＧアイランドの分類を明記している。本開示による例証的な比較ヒストグラム法／技術のフローチャートを明記している。カラーマッピングを用いて得られたスペクトログラム上のエッジヒストグラムを使用してＣｐＧアイランドの検出を示した例証的なプロットである。カラーマッピングを用いて得られたスペクトログラム上のエッジヒストグラムを使用してＣｐＧアイランドの検出を示した例証的なプロットである。本開示による例証的な遺伝的アルゴリズム−サポートベクトルマシン（ＧＡ−ＳＶＭ）法／技術のフローチャートを明記している。本開示によるスペクトルビデオを生じるための例証的な方法／技術のフローチャートを明記している。本開示による例証的なスペクトルビデオ由来の画像である。

Claims

ＤＮＡ配列内の注目すべき領域の存在を評価するための、コンピュータによって実行される方法であって：
（ａ）ＤＮＡ配列をインターフェースを介して受領するステップ；
（ｂ）前記ＤＮＡ配列に基づき複数のスペクトログラムを作成手段によって作成するステップ；
（ｃ）前記複数のスペクトログラムに関して以下のステップ：
（ｉ）スペクトルビデオを作成して表示するステップであって、前記スペクトルビデオにおいてはビデオフレームあたり所定数のスペクトル画像列がシフトされる、ステップ、
（ｉｉ）比較ヒストグラム分析を実行するステップであって、エッジ検出を使うことによって生成される水平方向および垂直方向のヒストグラムデータを評価することによって注目すべき領域の存在が評価される、ステップ、
（ｉｉｉ）特徴選択及び分類を実行するステップであって、前記スペクトログラムの色および／またはエッジに関係した前記ＤＮＡスペクトル画像のスペクトル特徴を抽出してランク付けし、反復的なＤＮＡ構造をもつＤＮＡセグメントを反復要素として分類および標識付けすることを含むステップ、並びに、
（ｉｖ）前記ＤＮＡ配列中の構造的に新規のＤＮＡ要素の無監督の分類及び発見を実行するステップであって、色、テクスチャおよび前記スペクトログラムに現れる特定のオブジェクトという特徴の少なくとも一つを使って、無監督の画像ベースのクラスタリングを実行し、複数のクラスタを生成し、それらのクラスタを最も大きなクラスタから順に既知のゲノム源と照合することを含むステップ、
のうち少なくとも１つを実行手段によって実行するステップ；
前記少なくとも一つの機能の分析結果によって前記ＤＮＡ配列中の前記注目すべき一つまたは複数のＤＮＡパターンを識別するステップ；
前記少なくとも一つの機能の分析結果によって前記ＤＮＡ配列中の前記注目すべき一つまたは複数のＤＮＡパターンの位置を識別するステップ；
を含む方法。
前記ＤＮＡ配列が、ゲノム、染色体、又はその一部を表す、請求項１に記載の方法。
前記複数のスペクトログラムを作成するステップが：
（ｉ）前記ＤＮＡ配列を入力するステップ、
（ｉｉ）前記ＤＮＡ配列をバイナリインジケータ配列に転換するステップ、
（ｉｉｉ）前記バイナリインジケータ配列に短時間フーリエ変換を適用し、周波数領域ベクトルを生じるステップ、
（ｉｖ）前記周波数領域ベクトルを色空間にマップしてＤＮＡスペクトル画像を生成するステップ、
（ｖ）前記ＤＮＡスペクトル画像にエッジ検出を適用するステップ、並びに、
（ｖｉ）前記エッジ検出の結果に基づいて前記ＤＮＡスペクトル画像の水平及び垂直のヒストグラムを計算するステップ、
を含む、請求項１または２に記載の方法。
前記スペクトルビデオの作成が、処理装置で作動するよう適応されたアルゴリズムを含む、請求項１ないし３のうちいずれか１項に記載の方法。
前記アルゴリズムが：
（ａ）長さＭのＤＮＡ配列；ＳＴＦＴ窓サイズを示すＮ、Ｎ個の窓重複を含む窓重複を示すｑ、目視分解能を示すｐ、及び、１つのビデオフレームあたりにシフトされるスペクトル画像列の数を含む目視の速度を示すｖ、ここでＭ＞＞ｐ＞Ｎ、を含むパラメータを含む入力を使うステップ；
（ｂ）ｓ＝１、ｒ＝１と設定することを含む、変数を初期化するステップ；
（ｃ）ｐという長さのセグメント、又は、完全なＤＮＡ配列のサブ配列に対して位置ｓで開始するステップ；
（ｄ）位置ｒで開始し、サイズＮの入力された前記ＤＮＡ配列の一部を、バイナリインジケータ配列に転換するステップ；
（ｅ）短時間フーリエ変換を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ；
（ｆ）Ａ、Ｔ、Ｃ、及びＧに対する前記周波数領域ベクトルを前記色空間にマップして前記ＤＮＡスペクトル画像を生成するステップ；
（ｇ）（ｒ−ｓ＋１）＜ｐの場合、結果を可視化し、ｑヌクレオチド分前方へ移動し、ｒ＝ｒ＋ｑと設定し、ステップ（ｄ）へ進むステップ；
（ｈ）ＤＮＡスペクトル画像が前もって示されていない場合、前記ＤＮＡスペクトル画像を表示して、ｒ＝ｒ＋ｑと設定し、ステップ（ｄ）へ進むステップ；
（ｉ）（ｒ−ｓ＋１）＜ｐ＋ｖｑの場合、前記スペクトル画像から１列目を除去し、最後に生成された列を末端部に付け加えて、ｒ＝ｒ＋ｑと設定し、ステップ（ｄ）へ進むステップ；
（ｊ）（ｒ−ｓ＋１）＞＝ｐ＋ｖｑの場合、前記ＤＮＡスペクトル画像を表示して、ｓ＝ｓ＋ｖｑｒ＝ｒ＋ｑと設定するステップ；
（ｋ）（ｒ＋Ｎ−１）＜＝Ｍの場合、ステップ（ｄ）へ進むステップ；
（ｌ）通常速度は１つのビデオフレームあたり１列のシフトであり、使用者の要求に従って、目視の速度ｖを調節するステップ；
を含む、請求項４に記載の方法。
前記比較ヒストグラム分析を実行するステップが：
（ａ）長さＭの前記ＤＮＡ配列；ＳＴＦＴ窓サイズを示すＮ、窓重複を示すｑ、目視分解能を示すｐ、ここで、Ｍ＞＞ｐ＞Ｎ、を含むパラメータを入力するステップ；
（ｂ）サイズＮの入力された前記ＤＮＡ配列の一部をバイナリインジケータ配列に転換するステップ；
（ｃ）短時間フーリエ変換（ＳＴＦＴ）を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ；
（ｄ）Ａ、Ｔ、Ｃ、及びＧに対する前記周波数領域ベクトルを色空間にマップしてＤＮＡスペクトル画像を生成するステップ；
（ｅ）エッジ検出法を用いて、前記ＤＮＡスペクトル画像にエッジ検出を適用するステップ；
（ｆ）エッジ投影を用いることにより、前記ＤＮＡスペクトル画像の赤、緑及び青成分についての水平及び垂直のヒストグラムデータを別々に計算するステップ；
（ｇ）特徴抽出基準に従って前記ヒストグラムデータを評価するステップ；
（ｈ）前記特徴抽出基準を満たしたＤＮＡセグメントを反復要素として標識付けし、標識付けされた各ＤＮＡセグメントの開始及び終了位置を記録するステップ；
を含む、請求項１ないし５のうちいずれか１項に記載の方法。
前記特徴選択及び分類を実行するステップが：
（ａ）長さＭの前記ＤＮＡ配列；ＳＴＦＴ窓サイズを示すＮ、窓重複を示すｑ、目視分解能を示すｐ、ここで、Ｍ＞＞ｐ＞Ｎ、を含むパラメータを入力するステップ；
（ｂ）サイズＮの入力された前記ＤＮＡ配列の一部をバイナリインジケータ配列に転換するステップ；
（ｃ）短時間フーリエ変換（ＳＴＦＴ）を前記バイナリインジケータ配列に適用し、周波数領域ベクトルを生成するステップ；
（ｄ）Ａ、Ｔ、Ｃ、及びＧに対する前記周波数領域ベクトルを色空間にマップしてＤＮＡスペクトル画像を生成するステップ；
（ｅ）エッジ検出法を用いて、ＤＮＡスペクトル画像にエッジ検出を適用するステップ；
（ｆ）エッジ投影を用いることにより、前記ＤＮＡスペクトル画像の赤、緑及び青成分についての水平及び垂直のヒストグラムデータを別々に計算するステップ；
（ｇ）前記ヒストグラムデータと、遺伝的アルゴリズムを有するサポートベクトルマシン、繰り返しの特徴を除去する方法及び主成分分析のうちの少なくとも一つを使用する特徴選択法とを使って、前記ＤＮＡスペクトル画像のスペクトル特徴のセットを評価及びランク付けするステップ；
（ｈ）前述のステップから上位にランク付けされた特徴のサブセットを用いて、反復ＤＮＡ構造を有する前記ＤＮＡセグメントを分類する分類器を形成するステップ；
（ｉ）評価基準を満たしたＤＮＡセグメントを前記反復要素として標識付けし、前記反復要素の開始及び終了位置を記録するステップ；
を含む、請求項１ないし６のうちいずれか１項に記載の方法。
前記ＤＮＡ配列中の構造的に新規のＤＮＡ要素の前記無監督の分類および発見が、以下のステップ、すなわち：
（１）入力されたＤＮＡ配列について、ＳＴＦＴ窓Ｗ（Ｗ＜Ｌ）、及び、窓の重複がＶ（Ｖ＜Ｗ）で、Ｌはヌクレオチドの数であるとして、長さＬのスペクトログラムＳ１を生じるステップ；
（２）Ｒヌクレオチド右へ移動し、スペクトログラムＳ_ｉを生じ、前記ＤＮＡ配列の終わりに達するまで繰り返すステップ；
（３）ステップ（１）及び（２）で生じたスペクトログラム全てを用いて、色、テクスチャ及び前記画像に現れる特定のオブジェクトという特徴の少なくとも一つを使って、無監督の画像ベースのクラスタリングを行うステップ；
（４）最も大きなクラスタを見つけて選択し、選択されたクラスタの中心を見きわめるステップ；
（５）選択されたクラスタの要素のラベルクラスを見きわるために、既知のゲノム源と対比して選択されたクラスタの検索を行うステップであって、これを
（ａ）選択されたクラスタの中心から最も遠いＰ個のスペクトログラムを無作為に選び、クラスラベルを行うサブステップ、または
（ｂ）前記スペクトログラム、及び、前記スペクトログラムにおける全ての要素のクラスラベルの種類の可視化を操作者に提供し、スペクトログラムがクラスタ内にあり、その中心は既知であるが、前記クラスタの中心からさらに離れた前記スペクトログラムが未知である場合、新規の要素をクラスタの中心のクラスラベルとして名付け、さらに、その差の可視化を操作者に提供するサブステップ、
の一方ことによって行うステップ；
（６）次に大きいクラスタを選択し、前記クラスタ中心および前記クラスラベルが未知になるまでステップ（５）及び（６）を行う／繰り返し、Ｋ個のクラスタは既知のラベルを有し、Ｕ個のクラスタは未知のラベルを有していることを示す、ステップ；
（７）かなりのクラスタサイズをもつ未知のラベルを有するＵ個のクラスタ全てについて、パターンの普及率、同じ染色体内の統計的分布及び複数の染色体にわたる統計的分布を見つけるステップであって、前記かなりのクラスタサイズは、最大クラスタ中の要素の最大数の少なくとも半分である、ステップ；
（８）ＶがＷの半分に達するまで、所与のステップサイズでＶを増加させてステップ（１）に進み、その後ステップ（９）に進むステップ；
（９）ＷがＬの半分に達するまで、所与のステップサイズでＷを増加させてステップ（１）に進み、その後ステップ（１０）に進むステップ；
（１０）Ｌを増加させ、ステップ（１）に進むステップ；
（１１）Ｖ、Ｗ、及びＬの各レベルで結果を要約するステップ；
を実行することを含む、請求項１記載の方法。
１又は複数のＤＮＡパターンが同定される、請求項１ないし８のうちいずれか１項に記載の方法。
前記１又は複数のＤＮＡパターンが、ＣｐＧアイランド、１又は複数のＡｌｕ反復、１又は複数の非コードＲＮＡ、１又は複数のタンデム反復、及び、１又は複数のサテライト反復のうち少なくとも１つを含む、請求項９に記載の方法。
請求項１ないし１０のうちいずれか一項記載の方法を動作させる及び／又は実行するように構成されたシステム。
少なくとも一つのプロセッサと、前記プロセッサに請求項１ないし１０のうちいずれか一項記載の方法を実行させるコンピュータ・プログラムを含む、システム。