JP7122006B2

JP7122006B2 - 挿入・欠失・逆位・転座・置換検出法

Info

Publication number: JP7122006B2
Application number: JP2019532604A
Authority: JP
Inventors: 安藝雄宮尾
Original assignee: National Agriculture and Food Research Organization
Current assignee: National Agriculture and Food Research Organization
Priority date: 2017-07-24
Filing date: 2018-07-23
Publication date: 2022-08-19
Anticipated expiration: 2038-07-23
Also published as: JPWO2019022019A1; TW201921277A; WO2019022019A1

Description

本発明は、配列情報、とりわけ、ゲノム等の生体分子の配列情報の情報処理の分野に関する。

次世代シーケンサーの出現により、生物の全ゲノム配列情報が得られるようになった。次世代シーケンサーの配列情報から多型情報を得て、表現型との関連を調べることにより、その表現型の原因となる遺伝子の特定につながる。正確な多型情報の取得は、作物育種のみならず、ヒトの遺伝病の診断、生物種・品種等の特定等、幅広い分野で必要とされる基盤技術であり、これまでにない精度で多型情報が得られれば、そのインパクトは大きい。

次世代シーケンサーからの塩基配列データを用いた多型の検出は、まず最初に配列データをｂｗａ、またはｂｏｗｔｉｅのようなマッピングプログラムを用いてリファレンス配列上の位置情報とミスマッチの情報を得て、次に、ＳａｍｔｏｏｌｓやＧＡＴＫ等の多型抽出プログラムでＳＮＰやｉｎｄｅｌ等の多型情報を抽出するのが一般的である。

これらの方法では、多型の可能性のある部分は可能な限り出力するため、多くのノイズを含みこれらの技術のみでは、正確な多型解析が困難である。マイクロアレイやＤＮＡチップ等の別の技術を併用して用いられているというのが現状である。

本発明において、２つ以上の配列の間における多型を検出する方法が提供される。本発明の方法は、配列データ中の個々の配列（例えば、次世代シーケンサーからのショートリード）を連結してより長い配列とすること（例えば、アセンブリ）を必要とせずに、多型を検出することができることを１つの特徴とする。１つの実施形態において、本発明の方法は、１つの配列（例えば、リファレンスゲノム）にマッチした対象配列上の部分配列から、対象配列とリファレンスとの比較を進めミスマッチが起こる部分まで伸長することを特徴とし、これにより変異のジャンクションを決定する。

挿入・欠失・逆位・転座変異検出に関して、従来法では検出が難しかった大きな欠失や逆位・転座を検出できること、検出結果自体がアラインメントとして目視で確認できることが本発明の有利な特徴の一部である。

例えば、本発明の実施形態では、以下が提供される。
（項目１）対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、方法。
（項目２）前記コントロール配列データが、リファレンス配列データである、前記項目に記載の方法。
（項目３）前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
（項目４）前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
（項目５）前記多型が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
（項目６）目的とする多型があると判定する前記工程が、
前記部分配列が、前記コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、かつ、向きが前記対象配列データ上のものと異なっている場合、逆位が存在すると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より短い場合、欠失が存在すると判定すること、および／または
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より長い場合、挿入が存在すると判定すること
を含む、前記項目のいずれかに記載の方法。
（項目７）前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することを含む、前記項目のいずれかに記載の方法。
（項目８）前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定することを含む、前記項目のいずれかに記載の方法。
（項目９）前記対象配列データにおける前記部分配列部位間の文字を、対応する前記コントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する前記工程が、
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索することと、
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することとを含む、前記項目のいずれかに記載の方法。
（項目１０）前記一致する文字を探索することが、１文字ずつの探索である、前記項目のいずれかに記載の方法。
（項目１１）一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含む、前記項目のいずれかに記載の方法。
（項目１２）一致しない文字の先の文字が一致するか探索した際に、
その先の２～１０文字において４０％以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、
それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続する、前記項目のいずれかに記載の方法。
（項目１３）一致しない文字の先５文字の間に２文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定する、前記項目のいずれかに記載の方法。
（項目１４）対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
ａ）対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
ｂ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、プログラム。
（項目１４Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載のプログラム。
（項目１５）対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
ａ）対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
ｂ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、記録媒体。
（項目１５Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の記録媒体。
（項目１６）対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備える、システム。
（項目１６Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載のシステム。
（項目１７）対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
（１）ａ）該対象配列データの長さｋの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
ｂ）該コントロール配列データの長さｋの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
ｃ）対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、ＳＴＲＰ、挿入、欠失、逆位または転座を検出するプロセスと、
（２）ａ）該対象配列データの配列中の少なくとも２ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法。
（項目１７Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目１８）対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のｋ長の部分配列セットを作成する工程を含み、さらに、
（Ａ１）該対象配列データの長さｋの部分配列のサブセットを生成し、ユニークな長さｋの部分配列の出現頻度を提供する工程と、
（Ａ２）該リファレンス配列のｋ長の部分配列セットの、ユニークな長さｋの部分配列の出現頻度を提供する工程と、
（Ａ３）該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、ＳＴＲＰ、逆位または転座を検出する工程とを包含するプロセスと
（Ｂ１）該対象配列データの配列中の少なくとも２ヶ所のｋ長の部分配列をクエリとして、該リファレンス配列のｋ長の部分配列セットに対して検索を行い、該少なくとも２ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
（Ｂ２）該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
（Ｂ３）該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
（Ｂ４）該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法。
（項目１８Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目Ａ１）対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、該対象配列データとコントロール配列を整列させる工程であって、
対象配列データと、第１の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、第２の部分配列の位置が一致するようにコントロール配列を整列させる、工程と
を包含する、方法。
（項目Ａ１Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目Ａ２）前記コントロール配列データが、リファレンス配列データである、前記項目のいずれかに記載の方法。
（項目Ａ３）前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
（項目Ａ４）前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
（項目Ａ５）前記多型が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
（項目Ａ６）前記整列させる工程が、整列の結果を表示することを含む、前記項目のいずれかに記載の方法。
（項目Ａ７）対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
（項目Ｂ１）対象配列のコントロール配列上の位置を決定する方法であって、
ａ）コントロール配列中の複数のｋ長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、
ｂ）対象配列中の複数のｋ長の部分配列について、配列および対象配列中の位置を出力する工程と、
ｃ）ａ）およびｂ）で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程と
を含み、ここで、ｋは、対象配列の長さを超えない長さである、方法。
（項目Ｂ１Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目Ｂ２）前記コントロール配列データが、リファレンス配列データである、前記項目のいずれかに記載の方法。
（項目Ｂ３）前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
（項目Ｂ４）前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
（項目Ｂ５）前記対象配列データと前記コントロール配列を整列させる工程であって、
対象配列データと、対象配列の第１の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、対象配列の第２の部分配列の位置が一致するようにコントロール配列を整列させる、工程をさらに包含する、前記項目のいずれかに記載の方法。
（項目Ｂ６）前記整列させる工程が、整列の結果を表示することを含む、前記項目のいずれかに記載の方法。
（項目Ｂ７）対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
（項目Ｂ６）前記整列に基づき、前記対象配列データにおける前記コントロール配列データに対する多型を検出する工程をさらに包含する、前記項目のいずれかに記載の方法。
（項目Ｃ１）コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法であって、
ａ）対象配列のＬ長の部分配列データのセットと、コントロール配列のＬ’長の部分配列データのセットを提供する工程と、
ｂ）リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および／または転座に関する情報と、対象配列のＬ長、または、コントロール配列のＬ’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、ＬとＬ’が異なる場合、複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとが提供される、工程と、
ｃ）リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および／または転座に関する情報と、対象配列のＬ長、または、コントロール配列のＬ’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、ＬとＬ’が異なる場合、複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとが提供される、工程と、
ｄ）ｂ）およびｃ）で得られた複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとを辞書順にソートする工程と、
ｅ）対象配列のＬ長の部分配列データのセットと、該辞書順にソートしたＬ長の部分配列とを比較し、対象配列のＬ長の部分配列データのセット中に存在する辞書順にソートしたＬ長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
ｆ）コントロール配列のＬ’長の部分配列データのセットと、該辞書順にソートしたＬ’長の部分配列とを比較し、対象配列のＬ’長の部分配列データのセット中に存在する辞書順にソートしたＬ’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
を含み、
ここで、Ｌは、該対象配列の全長以下の整数であり、Ｌ’は、該コントロール配列の全長以下の整数である、方法。
（項目Ｃ１Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目Ｃ２）前記対象配列および前記コントロール配列が塩基配列である、前記項目のいずれかに記載の方法。
（項目Ｃ３）前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
（項目Ｃ４）前記コントロール配列が、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
（項目Ｃ５）前記コントロール配列が、リファレンス配列であり、前記Ｌ’長の部分配列データのセットが、リファレンス配列のＬ’長の部分配列の集合である、前記項目のいずれかに記載の方法。
（項目Ｃ６）前記変異が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
（項目Ｄ１）コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも２ヶ所の部分配列と同一の少なくとも２ヶ所の部分配列を含み、
コントロール配列を、第１の部分配列の位置が一致するように対象配列と整列させることと、
コントロール配列を、第２の部分配列の位置が一致するように対象配列と整列させることと
を含む、方法。
（項目Ｄ１Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目Ｄ２）前記整列させることは、他の整列に対して逆方向である１つ以上の整列を含む、前記項目のいずれかに記載の方法。
（項目Ｄ３）前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型が表現される、前記項目のいずれかに記載の方法。
（項目Ｄ４）対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
（項目Ｄ５）前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型部位と多型でない部位の境界が表現される、前記項目のいずれかに記載の方法。
（項目Ｅ１）コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも２ヶ所の部分配列と同一の少なくとも２ヶ所の部分配列を含み、
対象配列中の多型に対し、
コントロール配列を第１の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、
コントロール配列を第２の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と
を識別子として割り当てることを含む、方法。
（項目Ｅ１Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目Ｆ１）コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中のＮヶ所の部分配列と同一のＮヶ所の部分配列を含み、ここで、Ｎは２以上の整数であり、
１≦ｎ≦Ｎである整数ｎのそれぞれについて、コントロール配列を、第ｎの部分配列の位置が一致するように対象配列と整列させることを含む、方法。
（項目Ｆ１Ａ）前記項目のいずれか１つまたは複数に記載される特徴を有する、前記項目に記載の方法。
（項目Ｆ２）前記整列させることは、他の整列に対して逆方向である１つ以上の整列を含む、前記項目のいずれかに記載の方法。

本発明において、上記１または複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供され得ることが意図される。本発明のなおさらなる実施形態および利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。

本発明により、２つ以上の配列の間で正確に多型、特に欠失、挿入、逆位および／または転座を検出することができる。

図１は、本発明の方法の実施形態の１つの具体的な例を示すフロー図である。図２は、イネリファレンス配列（IRGSP1.0）に対して変異を導入したデータにおいて検出された多型の結果を示す。Ｃｈｒは染色体番号、Ｔｏｐはトップストランド（塩基配列の５’→３’の配列）、Ｂｏｔｔｏｍはボトムストランド（相補鎖）の挿入・欠失のジャンクション、Ｓｉｚｅは挿入・欠失のサイズ（欠失はマイナス表記）、Ｒｅａｄｓは同様の位置、サイズで検出された次世代シーケンサーのリード（を模倣した配列）の数である。図３は、本願明細書の実施例３において多型を検出した結果を示す図である。図２に示される結果と比較して、第４染色体における－６２８５８７５の誤検出が生じなかったことを除き同様に多型が検出されたことが理解される。図４Ａは、本発明の方法の１つの実施形態を模式的に示した図である。図４Ｂは、本発明の方法の１つの実施形態を模式的に示した図である。図４Ｃは、本発明の方法の１つの実施形態を模式的に示した図である。図５Ａは、本発明のシステムの実施形態を模式的に示した図である。図５Ｂは、本発明のシステムのさらなる実施形態を模式的に示した図である。図６は、ｋ－ｍｅｒ配列の頻度を用いる多型検出フローと、部分配列の位置関係を用いる多型検出フローとを組み合わせて行う場合の一実施形態を示すフロー図である。図７は、イネリファレンス配列（IRGSP1.0）に対して変異を導入したデータにおける本発明の方法と、Ｓａｍｔｏｏｌｓを用いた方法との検出結果をまとめたものである。図８は、イネリファレンス配列（IRGSP1.0）に対して変異を導入したデータにおけるＳａｍｔｏｏｌｓを用いた方法での検出結果をまとめたものである。

以下、本発明を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞（例えば、英語の場合は「ａ」、「ａｎ」、「ｔｈｅ」など）は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語および科学技術用語は、本発明の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書（定義を含めて）が優先する。

（定義）
以下に本明細書において特に使用される用語の定義および／または基本的技術内容を適宜説明する。

本明細書において、「配列」とは、各々が何らかの値を取る複数の変数であって、それら複数の変数の順序の情報をさらに含むものをいう。代表的には文字列で表示される。

本明細書において、「対象配列」とは、多型を検出しようとする任意の配列をいい、本明細書においては、「ターゲット」、「ターゲット配列」、「ｔａｒｇｅｔ」とも表記する場合がある。

本明細書において、「コントロール配列」とは、その配列との差異を多型として検出するための基準として用いられる任意の配列をいい、本明細書においては、「コントロール」、「参照配列」、「比較配列」、「ｃｏｎｔｒｏｌ」とも表記する場合がある。

本明細書において、「多型（ｐｏｌｙｍｏｒｐｈｉｓｍ）」とは、対象配列中においてコントロール配列と異なっている任意の部分を指す。本明細書において、「変異」も同様の意味で使用することができる。

本明細書において、「リファレンス（ｒｅｆｅｒｅｎｃｅ）配列」とは、対象配列および／またはコントロール配列の全長の配列として扱うことができる配列を指す。いかなる配列を全長配列とするかは、対象配列および／またはコントロール配列として用いる配列に応じて適宜決定されるものであり、例示されるものに限定されないが、例えば、ウェブ上のデータベース等に存在する、全ゲノム配列、染色体全長配列、遺伝子全長配列、プラスミド全長配列、エクソン全長配列、タンパク質全長配列などをリファレンス配列として用いることができる。

本明細書において、「配列データ」とは、ある配列についての情報を与えるデータをいう。代表的には、配列そのものも配列データということができ、また、配列の一部について情報を与えるデータ（例えば、ゲノム配列に対するシーケンシングによる解析データ）も配列データとして包含される。

本明細書において、ある配列の「部分配列」とは、その配列に含まれる任意の配列をいう。

本明細書において、「サブセット」とは、配列の集合と、それらの配列の部分配列の集合とを合わせた集合の任意の部分集合をいう。

本明細書において、「次世代シーケンシング」とは、配列決定プロセスを並列化し、一度のランで数千万から数億の配列データを生成するシーケンシング技法である。「次世代シーケンサー」とは、次世代シーケンシングを行うための機器を指す。

「偶然同一を排除する」とは、ある配列と、偶然に同一の配列が出現する期待値を１未満にすることをいう。

本明細書において、「カバレッジ」とは、配列データの量が、配列全長の何倍に相当しているかを指す。「カバー率」、「～倍の読み」などと称される場合もある。

本明細書において、「配列構造体」とは、配列中における、物理的に分離された一連の配列をいう。例えば、ゲノム配列の文脈では、染色体のそれぞれは配列構造体ということができる。

本明細書において、「転座」とは、複数の配列構造体を有する配列中で、ある配列構造体上の部分配列が、他の配列構造体上に移動している多型をいう。

本明細書において、「ジャンクション」とは、一部が同一である２つの配列について、同一である部分と同一でない部分の境界を指す。

本明細書において、「識別子」とは、ある多型を他の多型と区別するために付される名称を指す。一般的には、多型の開始位置と型で記載されることが多いが、本明細書において記載される識別子を用いることができる。

本明細書において、「エッジ」とは、配列において多型を含む部分の末端をさす。

（好ましい実施形態）
以下に本発明の好ましい実施形態を説明する。以下に提供される実施形態は、本発明のよりよい理解のために提供されるものであり、本発明の範囲は以下の記載に限定されるべきでないことが理解される。従って、当業者は、本明細書中の記載を参酌して、本発明の範囲内で適宜改変を行うことができることは明らかである。また、本発明の以下の実施形態は単独でも使用されあるいはそれらを組み合わせて使用することができることが理解される。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（多型の検出）
１つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法が提供される。この方法は、対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程を包含し得る。この方法は、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とを比較する工程を包含し得る。ここで、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することができる。位置関係が異なっている場合、目的とする多型があると判定することができる。多型があると判定する場合には、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出する工程が包含され得る。かかる工程を有することで、本発明の方法は従来技術より向上した多型の検出力を発揮する。本発明の方法の実施形態の一例は、図４Ａ～Ｃに例示されている。

また、位置関係が異ならない場合にも、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を比較して不一致となる部位を検出する工程を包含することができ、不一致となる部分が検出された場合に多型が存在すると判定し、不一致となる部分が検出されなかった場合に多型が存在しないと判定することができる（図４Ｃ）。この場合は、必ずしも部分配列より比較を開始する必要はなく、対象データの配列（例えば、ショートリード配列）全長で比較することができる。かかる工程を包含せず、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定するか（図４Ｂ）、または処理を終了する（図４Ａ）ような場合は計算時間を短縮することができる。

本発明の１つの好ましい実施形態は、対象配列（例えば、シーケンサーからのリード）の両末端付近の配列の、コントロール配列（例えば、ゲノム配列）上の位置を決めて、内側に向かって両方向からアラインすること（双方向アラインメント）を含む方法であり、このような方法を「双方向アライン法」とも称する。対象配列の両末端付近の配列をアラインすることは必ずしも必要というわけではないが、両末端付近の配列は比較的容易にアラインすることができ、また、網羅的に欠失や付加を識別することができるため有利でありうる。より内側からアラインを開始するほど多型を検出できる範囲が狭くなるので、両末端に近いほど多型の検出効率が高くなると考えられる。塩基配列の場合、３’末端付近でシーケンサーの読み取り精度が落ち、位置を決められない場合があり得、そのような場合、末端から、数塩基（例えば、０、５、１０、１５塩基など）のマージンをとって地図上での位置を決めてもよい。「双方向アライン法」は、多型のエッジを検出する方法として見ることもできる。両末端のアラインした位置の距離と、リファレンス配列上にマップされた位置の距離が異なる場合は、対象配列中に挿入・欠失が存在していることになる。両末端が異なる染色体にマッチした場合は転座、同一染色体で向きが逆な場合は、逆位が検出できる。距離が同じ場合は、ミスマッチを探してＳＮＰを検出することができる。双方向アライン法は、非常に高速で１台のコンピュータで現実的な時間で解析できる。双方向アライン法は、同じコンピュータで、ｂｗａに続き、ＳａｍｔｏｏｌｓとＧＡＴＫで解析した場合と比較し、はるかに短い所要時間で実行可能である。また、双方向アライン法は、比較的小さなメモリ環境（例えば、４Ｇバイト程度）でも動作可能である。

１つの実施形態では、コントロール配列データが、リファレンス配列データである。１つの実施形態では、対象配列データおよび／またはコントロール配列データは、塩基配列データである。対象配列データは、次世代シーケンシングによって得られた配列データであり得る。

本発明により検出され得る多型としては、限定されるものではないが、置換、挿入、欠失、逆位、または転座などが挙げられる。目的とする多型があると判定する際には、以下：
部分配列が、コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、かつ、向きが対象配列データ上のものと異なっている場合、逆位が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より短い場合、欠失が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より長い場合、挿入が存在すると判定すること
のうちの１つ以上を行うことができる。加えて、またはこれらに換えて、位置関係が異ならない場合に、対象配列データにおける部分配列部位間の文字と対応するコントロール配列上の文字とが不一致となる部位が検出された場合に置換が存在すると判定することができる。

本発明の方法は、ＳＳＲ（ｓｉｍｐｌｅｓｅｑｕｅｎｃｅｒｅｐｅａｔ）の変化を鋭敏に検出できる。１種類の文字の連続（例えば、ポリＡ、ポリＣ、ポリＧ、ポリＧなど）、２種類の文字の繰り返し（例えば、ＣＡリピートなど）、３種類の文字の繰り返し、４種類の文字の繰り返し（例えば、ＡＧＡＴの繰り返し）、５種類の文字の繰り返し（例えば、ＡＡＴＧＧの繰り返し）などにおける繰り返し数の変化は、従来の検出法では検出が困難であったが、本発明の方法は感度よく検出することが可能である。また、非常に大きな欠失や、転座、逆位も検出できる。

１つの実施形態では、本発明の方法は、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出することを特徴とする。この検出の工程においては、例えば、
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索すること、および／または
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索すること
が包含され得る。一致する文字の探索は、一定の文字数ずつ探索を行ってよく、例えば、１～３文字ずつの探索を行うことができ、好ましくは１文字ずつの探索である。

一致しない文字が検出された場合にそこで探索を終了してもよい。あるいは、本発明の方法は、一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含んでもよい。一致しない文字の先の文字が一致するか探索した際に、一定範囲において一定以上の割合の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。例えば、一致しない文字の先の約２～１０文字において約２０、３０、４０、５０、６０、７０、８０または９０％以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。好ましい１つの例としては、一致しない文字の先５文字の間に２文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定することができる。

本発明の１つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法は、対象配列データにおける部分配列間の位置関係と、コントロール配列上の当該部分配列間の位置関係とが異なっている場合、対象配列データとコントロール配列を整列させる工程であって、対象配列データと、第１の部分配列の位置が一致するようにコントロール配列を整列させ、かつ対象配列データと、第２の部分配列の位置が一致するようにコントロール配列を整列させる、工程を包含し得る。方法における整列させる工程は、整列の結果を表示することを含み得る。表示としては、対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示されるもの（または、その反対）が挙げられる。このような表示は、画像として、あるいはテキストデータとして保存され得、多型のデータベース等における多型の表現方法として利用可能である。多型に関する情報伝達において、かかる表示は有用である。

上記の方法は、本明細書の他の箇所に記載される特徴を備え得る。方法は、ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程、および／またはｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程を含み得る。

コントロール配列が、対象配列中の少なくとも２ヶ所の部分配列と同一の少なくとも２ヶ所の部分配列を含む場合に、コントロール配列を、第１の部分配列の位置が一致するように対象配列と整列させることと、コントロール配列を、第２の部分配列の位置が一致するように対象配列と整列させることとによって、配列を比較し得る。方法は、第１の配列（例えば、対象配列）を、第２の配列（例えば、コントロール配列）と、２以上の位置（数は特段限定されないが、例えば、２ヶ所、３ヶ所、４ヶ所、５ヶ所、６ヶ所、７ヶ所、８ヶ所またはそれ超）が一致する位置で整列させた複数のアラインメントを同時に行うことを含み得る。かかるアラインメントによって、第１の配列における第２の配列との多型部位について、位置・種類・範囲などを同時に表示することが可能である。比較により、対象配列データにおけるコントロール配列データに対する多型部位と多型でない部位の境界を表現することができる。

３以上の位置でコントロール配列と整列させることは、特に部分配列がリピート配列の場合、位置を特定することができずに１ペアのみでのアラインができない場合があり、そのような場合に有効である。１ペアでアラインできなかったものが、少し部分配列の位置をずらすとユニークな場所が特定できる場合もある。例えば、両末端のみの整列では、末端部分がリピート領域の配列にヒットして位置決めができず結果が得られない場合があるので、末端から、一定（例えば、０、５、１０、または１５文字など）のマージンをとり、その内側のｋ－ｍｅｒを用いてリファレンスゲノム上の位置が特定してアラインメントを進めることができる。

対象配列に対するコントロール配列の整列を、それぞれの配列の一致する部分配列を特定して行う場合、一致する部分に隣接するコントロール配列中の配列が取得され、対象配列と整列されるが、一致部分から見た取得される配列の方向が、本明細書において、「整列の方向」として言及される。複数の整列を行う場合、この「整列の方向」が同一である場合、「順方向」であり、「整列の方向」が異なる場合、「逆方向」である。「整列の方向」は相対的なものであるが、配列が方向を有するものである場合（例えば、核酸配列には５’→３’方向の方向が存在し、アミノ酸配列にはＮ→Ｃ方向の方向が存在する）、配列自体の方向に対して「整列の方向」が言及される場合がある。

２ヶ所以上の整列を行う場合、１つ以上の整列が、他の整列とは逆方向の整列を含むことが好ましい。順方向と逆方向の両方からのアラインメントを取ることによって、コントロール配列と対象配列の２以上の一致部分の間に存在する多型部分のジャンクションに関する情報を取得することが可能であるためである。なお、両方向の配列を取得する場合も、逆方向の配列の取得が含まれるため、同様に機能すると考えられる。

表示の一例は、対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示される（またはその反対）、表示である。多型の境界について、両方の境界位置（ジャンクション）を多型の識別子として利用することが可能である。本発明の１つの実施形態において、コントロール配列と対象配列との比較方法であって、コントロール配列は、対象配列中の少なくとも２ヶ所の部分配列と同一の少なくとも２ヶ所の部分配列を含み、対象配列中の多型に対し、コントロール配列を第１の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、コントロール配列を第２の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置とを識別子として割り当てることを含む、方法が提供される。

１つの局面において、本発明は、本発明の多型を検出する方法をコンピュータに実施させるための方法を実装するプログラム、該プログラムを記録した記録媒体、およびこれを実現するためのシステムを提供する。ここで採用され得る任意の特徴は本明細書の多型を検出する方法の説明に記載される任意の特徴またはその組み合わせを採用することができる。

（部分配列の位置関係の検出）
１つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法が提供される。検出される多型としては、限定されるものではないが、挿入、欠失、逆位、または転座などが挙げられる。１つの実施形態では、方法は、対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程を包含し得る。

対象配列データの配列中の部分配列の長さは、一定長（ｋ－ｍｅｒ）とすることができる。ｋの値としては限定されるものではないが、配列データの各配列（例えば、次世代シーケンサーの各々のショートリード）の長さを上限とした任意の値を挙げることができ、例えば、５００、４００、３００，２００、１００、５０、４０、３０、２５、２０、１５等を挙げることができる。

コントロール配列上の位置の特定は、対象配列データ中の部分配列をクエリとして、コントロール配列に対して検索を行うことによって行うことができる。検索は、線形検索、二分検索、内挿検索、ハッシュ検索法等であってよい。検索を、本明細書（例えば、実施例Ｂ１）に記載される方法によって行ってもよい。

本明細書において、ｕｎｉｘのｊｏｉｎコマンドによって対象配列データ中の部分配列の、コントロール配列における位置および向きを出力する方法が実証されている（実施例Ｂ１）。本明細書において、ｕｎｉｘのｊｏｉｎコマンドまたはそれと同等の処理を行うことを包含する位置決定方法について、「Ｊｏｉｎ法」、「Ｍａｐｐｉｎｇｂｙｊｏｉｎ（法）」、「ＭＢＪ（法）」などと言及される場合がある。なお、本明細書に記載される検索用データは、二分検索でも、Ｊｏｉｎ法でも使用可能である。二分検索は好ましい検索であるが、Ｊｏｉｎ法は本明細書に記載されるようにさらに高速でのマッピングを行うことができ、より好ましい。

部分配列をｋ長で一定としている場合、コントロール配列（例えば、リファレンス配列）から作成したｋ長の部分配列セットを検索用データとして好適に検索（例えば、Ｊｏｉｎ法または二分検索）を行うことができる。コントロール配列から作成するｋ長の部分配列セットは、部分配列の配列に加えて、当該部分配列が属する配列構造体の識別子（例えば、染色体番号）、当該部分配列の位置（例えば、先頭文字の位置）、向き等を関連付けて作成することができる。これにより、探索（例えば、Ｊｏｉｎ法または二分検索）によって、対象配列データの配列中の部分配列のコントロール配列上の位置が好適に特定され得る。対象配列データの配列中の部分配列のコントロール配列上の位置には向きも含まれ、同一の位置に先頭文字を有する検索用データ中のｋ長の部分配列と一致したものであっても、当該検索用データ中のｋ長の部分配列が異なる向きを有する場合には、向きの差異を位置の差異として検出することが可能である。

例えば、リファレンス配列としてゲノム配列データを用いる場合には、図１に示されるようなフローで行うことができ、以下のように検索用リファレンスゲノムデータを作成することができる：
１．各染色体の塩基配列データの末端より１塩基ずつずらしながらｋ－ｍｅｒを取得する
２．ｋ－ｍｅｒ、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力する
３．ｋ－ｍｅｒの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力する
４．出力された順鎖、相補鎖の全データをｋ－ｍｅｒ配列で辞書順にソートする。
このように作成した検索用リファレンスゲノムデータに対して、対象配列データ、例えば、シーケンサー由来のショートリード上のｋ－ｍｅｒ部分配列をクエリとして検索を行うことで、各ショートリード上の部分配列がリファレンスゲノム上のどの位置に対応するのかを特定することが可能である。

対象配列データの配列における部分配列として、複数個所の部分配列を用いることが可能である。少なくとも２ヶ所の部分配列の位置を特定することで、対象配列データの同一配列上の部分配列の位置関係と、コントロール配列上の各部分配列の位置関係との比較が可能になる。本発明の方法は、２ヶ所、３ヶ所、４ヶ所、５ヶ所、６ヶ所、７ヶ所、または８ヶ所の部分配列のコントロール配列上の位置の特定を含み得る。位置関係の比較のためには２ヶ所の位置の特定で十分であり、好ましくは、対象配列データの配列中の２ヶ所の部分配列の、コントロール配列上の位置を特定する。

対象配列データの配列中の部分配列の、コントロール配列における位置（または存在）の検索は、１つの配列に対して複数回繰り返し、コントロール配列上のヒット位置を特定してもよい。

対象配列データの配列における部分配列の位置は、限定されるものではない。したがって、対象配列データの配列から部分配列を取得し、コントロール配列データに対して検索を行い、ヒット（例えば、ユニークな位置へのヒット）がなければ、同一の配列の異なる箇所から部分配列を取得して検索を行うことが可能である。例えば、部分配列は、配列の一方の端もしくは両端から、５文字、１０文字、１５文字内側の位置から取得したものであってよい。さらに、これらの部分配列を逐次的にクエリとして用いることができる。

例えば、検索用リファレンスゲノムデータを用いて、次世代シーケンサー由来のショートリード配列上の部分配列の位置を特定する場合、図１に示されるようなフローで行うことができ、以下のように行うことができる：
１．ショートリード配列の両末端より５塩基内側塩基よりｋ－ｍｅｒを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
２．両側または片側のｋ－ｍｅｒがユニークな位置にヒットしなかった場合、１０塩基内側の塩基からのｋ－ｍｅｒで二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
３．両側または片側のｋ－ｍｅｒがユニークな位置にヒットしなかった場合、１５塩基内側の塩基からのｋ－ｍｅｒで二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
４．両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のｋ－ｍｅｒの位置情報から対応するリファレンスの配列を取得する。

１つの実施形態において、本発明の方法は、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とを比較する工程を包含する。位置関係としては、２つ以上の部分配列それぞれの間の距離、２つ以上の部分配列それぞれが属する配列構造体、２つ以上の部分配列それぞれの向き等が挙げられる。対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することができる。なお、対象配列データ中のある配列における部分配列の各々は、同一の配列構造体上に存在していると考えることが可能である。また、位置関係が異ならない場合にも、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を比較して不一致となる部位を検出する工程を包含することができ、不一致となる部分が検出された場合に多型が存在すると判定し、不一致となる部分が検出されなかった場合に多型が存在しないと判定することができる。この場合は、必ずしも部分配列より比較を開始する必要はなく、対象データの配列（例えば、ショートリード配列）全長で比較することができる。

対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異なっている場合、目的とする多型があると判定することができる。検出される多型としては、限定されるものではないが、挿入、欠失、逆位、または転座などが挙げられる。目的とする多型があると判定する際には、以下：
部分配列が、コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、かつ、向きが対象配列データ上のものと異なっている場合、逆位が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より短い場合、欠失が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より長い場合、挿入が存在すると判定すること
のうちの１つ以上を行うことができる。加えて、またはこれらに換えて、位置関係が異ならない場合に、対象配列データにおける部分配列部位間の文字と対応するコントロール配列上の文字とが不一致となる部位が検出された場合に置換が存在すると判定することができる。

本発明の１つの実施形態において、対象配列のコントロール配列上の位置を決定する方法であって、ａ）コントロール配列中の複数のｋ長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、ｂ）対象配列中の複数のｋ長の部分配列について、配列および対象配列中の位置を出力する工程と、ｃ）ａ）およびｂ）で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程とを含み、ここで、ｋは、対象配列の長さを超えない長さである、方法が提供される。かかる方法は、本明細書に記載される多型検出法において利用してもよい。当該マッピング方法は、本願明細書の実施例Ｂ１において実証されるように高速に行うことが可能であり、コントロール配列のデータが大きい場合（例えば、リファレンスゲノム配列）に有用である。

ここで、ｋの値としては、対象配列（例えば、次世代シーケンサーのショートリード）の長さを上限とした任意の値を挙げることができ、例えば、約５００、約４００、約３００、約２００、約１００、約５０、約４０、約３０、約２５、約２０、約１５等を挙げることができる。ｋが増加することにより、ｋ－ｍｅｒ配列のデータは指数的に増加する（例えば、塩基配列の場合、ｋが１塩基増えるごとに塩基の組み合わせは４倍になる）ため、例えば、塩基配列の場合、ｋ＝５～３０程度が好ましく、ｋ＝１５～２２程度がより好ましいが、理論上は、例えば、ｋ＝５００等でも用いることが可能であり、制限されるものではない。ヒトの場合であると、ｋ＝１７以下だと偶然一致が生じる確率が高くなるが、ゲノムサイズが小さな生物であれば、例えば、ｋ＝１５などより小さなｋ値を用いることも可能である。１つの実施形態ではｋ＝２０を用いる。

上記方法で対象配列のコントロール配列上の位置を決定し、対象配列データとコントロール配列を整列させてもよい。整列においては、対象配列データと、対象配列の第１の部分配列の位置が一致するようにコントロール配列を整列させ、かつ対象配列データと、対象配列の第２の部分配列の位置が一致するようにコントロール配列を整列させることができる。整列の結果を表示してもよく、一例として、対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示され得る。整列に基づき、対象配列データにおけるコントロール配列データに対する多型を検出することが可能である。

本発明の多型検出・配列比較方法は、対象配列（例えば、リード）の部分配列（例えば、両端）のマッピングが可能である範囲を広げることで解析範囲を広げることができる。一方の部分配列がリピート領域の場合アラインメントを作成することができないため、リードの両端の位置が特定されることが好ましい。３’末端領域はエラーになる確率が高くなり、使用可能ではあるもののマッピング効率が落ちる。これに対しては、例えば、リードの５塩基、１０塩基、１５塩基内側の位置というように、複数個所ずらしてマッピングすることで、検出効率を向上させることができる。ｂｗａでは、リピート領域にもリードをある程度マッピングしているが、上記マッピング方法においてはｋ－ｍｅｒの位置データを作成する時点でユニークな位置のｋ－ｍｅｒを選ぶことができ、それにより、少なくともｋ－ｍｅｒの範囲でユニークでない部分はマッピングから除外される。このためｂｗａに比較して偽陽性を検出する可能性を低くすることができる。

（不一致文字の探索）
１つの実施形態において、本発明の方法は、目的とする多型があると判定される場合に、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と比較する工程を包含することを１つの特徴とする。この比較する工程は、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出する工程であり得る。

１つの実施形態では、本発明の方法は、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出することを特徴とする。かかる工程においては、例えば、対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索すること、および／または対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することが包含され得る。好ましくは、上流および下流の両方から一致する文字を探索することが包含される。一致する文字の探索は、一定の文字数ずつ探索を行ってよく、例えば、１～３文字ずつの探索を行うことができ、好ましくは１文字ずつの探索である。

一致しない文字が検出された場合にそこで探索を終了してもよい。あるいは、本発明の方法は、一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含んでもよい。一致しない文字の先の文字が一致するか探索した際に、一定範囲において一定以上の割合の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。例えば、一致しない文字の先の約２～１０文字において約２０、３０、４０、５０、６０、７０、８０または９０％以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。好ましい１つの例としては、一致しない文字の先５文字の間に２文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定することができる。一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含むことにより、多型検出の正確性をさらに向上させることが可能である。

さらに、異なる配列構造体上に偶然部分配列（例えばｋ長）と一致する箇所が存在する場合、部分配列に隣接する文字が不一致となり得るが、これを多型と検出すると誤検出が生じる場合があり得る。そのため、対象配列の部分配列との一致部分から一定の文字数（例えば、１、２、３、４、５、６、７、８、９または１０文字等）が一致しており、その先で不一致部分が検出された場合にのみ多型の境界が検出されたとすることが可能である。これにより、対象配列上の部分配列がコントロール配列上で一致した部分に隣接する文字が不一致である場合等が検出されなくなる。

例えば、本明細書の実施例または図１に示されるフローから理解されるように、リファレンス配列を、上流側で部分配列と一致したリファレンス配列の対応する部分の配列を、対象配列の配列の上に、下流側で部分配列と一致したリファレンス配列の対応する部分の配列を、下にｋ－ｍｅｒの部分が一致するように配置して、比較の起点とすることができる。リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探すことができる。ここでは、上記のように、一致しなくなった文字として、一致しない文字の先の文字が一致するか探索した際に、一定範囲において一定以上の割合の文字が不一致である場合に、検出された一致しない前記文字を用いることができる。そして、一致しなくなった文字を挿入・欠失配列の境界文字として配列構造体の識別子と位置を出力することができる。

本発明の１つの実施形態において、コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法が提供される。本明細書に記載される多型検出方法において、当該方法を利用し多型（変異）を確認してもよい。変異を確認する方法は、置換、挿入、欠失、逆位および／または転座の存在の確認に利用可能である。

リファレンス配列から対象配列のＬ長で変異部位を含むようにして部分配列を切り出し、変異に置換したセットと、置換しないセットを作り、位置関係、変異の有無等の記載と一緒にソートして出力する。このデータとソートした対象配列を、ｕｎｉｘコマンドのｊｏｉｎで処理（または適切な等価な処理）して、対象配列中に含まれる、野生型と変異型の配列を選び、配列数を変異部位ごとに調べる。選んだ配列を、ｓｏｒｔした後、ｕｎｉｑ－ｃのコマンドで配列数を数えることができる。同様の操作を、コントロール配列（Ｌ’長）に対しても行う。対象個体に対するコントロール個体がある場合は、この個体から得られたリード配列をコントロール配列として用いることができる。コントロール個体がない場合は、リファレンス配列から、Ｌ長で切り出して作った配列をコントロール配列として使うことが可能である。対象配列およびコントロール配列で長さが違う場合は、それぞれの長さに対応する変異型と野生型のデータセットを作り、対応する個数を調べることができる。

方法は、ａ）対象配列のＬ長の部分配列データのセットと、コントロール配列のＬ’長の部分配列データのセットを提供する工程と、ｂ）リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および／または転座に関する情報と、対象配列のＬ長、または、コントロール配列のＬ’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、ＬとＬ’が異なる場合、複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとが提供される、工程と、ｃ）リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および／または転座に関する情報と、対象配列のＬ長、または、コントロール配列のＬ’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、ＬとＬ’が異なる場合、複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとが提供される、工程と、ｄ）ｂ）およびｃ）で得られた複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとを辞書順にソートする工程と、ｅ）対象配列のＬ長の部分配列データのセットと、該辞書順にソートしたＬ長の部分配列とを比較し、対象配列のＬ長の部分配列データのセット中に存在する辞書順にソートしたＬ長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程とｆ）コントロール配列のＬ’長の部分配列データのセットと、該辞書順にソートしたＬ’長の部分配列とを比較し、対象配列のＬ’長の部分配列データのセット中に存在する辞書順にソートしたＬ’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程とを含み得る。ここで、Ｌは、対象配列の全長以下の整数である。Ｌ’は、コントロール配列の全長以下の整数である。Ｌ≠Ｌ’である場合、例えば、コントロール配列がコントロール個体由来のショートリードである場合、対象配列の長さ（Ｌ）、およびコントロールのショートリードの長さ（Ｌ’）の部分配列データセットをそれぞれ作製し、それぞれ別々に一致数を計測することができる。Ｌ＝Ｌ’である場合、ｂ）およびｃ）においてＬ長の部分配列を含むセットを提供するのみで足りるので簡便である。

コントロール配列のＬ’長の部分配列データのセットは、「コントロール個体」からのシーケンシングデータ（Ｌ’長）を用いることができ、または、リファレンス配列から切り出して作成したＬ’長の部分配列（この場合は、自由に設定できるが、対象配列と同じＬ長にするのが好ましい）データを用いることができる。

本方法は、実施例Ｃ１に示されるように高速で行うことができ、検出された多型の信頼度の向上に有用である。ＬまたはＬ’は、限定されるものではないが、例えば、対象配列の長さと同一であってよく、例えば、次世代シーケンサーのショートリード長（例えば、約５００、約４００、約３００、約２００、約１００、約５０、約４０、約３０、約２５、約２０、または約１５等）であってよい。ＬまたはＬ’は、好ましくは約５０～約２００であり、１つの例では、約１００である。

（配列）
本発明の対象配列、コントロール配列および／またはリファレンス配列としては、多型が生じ得る任意の配列を用いることができる。なお、コントロール配列として、リファレンス配列を用いることが可能である。代表的な実施形態では、対象配列、コントロール配列および／またはリファレンス配列は、生物学的配列であり、例えば、塩基配列（ＤＮＡ、ＲＮＡ、およびそれらのアナログ等の配列が包含される）、アミノ酸配列、または糖鎖配列等である。生物学的配列の例としては、例えば、ゲノム配列、染色体配列、遺伝子配列、プラスミド配列、エクソン配列、タンパク質配列等が挙げられる。

対象配列データおよびコントロール配列データは、限定されるものではないが、多型を検出する上では、一定の共通性を持つ配列についての配列データであることが望ましい。しかしながら、配列の取得方法については各々同一でも異なっていてもよく、シーケンシングによって得られたデータ間での比較を行うことも、データベース等から得られたデータ間での比較を行うことも、シーケンシングによって得られたデータとデータベース等から得られたデータとの間での比較を行うことも可能である。

１つの実施形態では、対象配列データが、個体から得られた配列データであり、コントロール配列データが、該個体と同種の別の個体、またはデータベースから得られた配列データである。１つの実施形態では、対象配列データが、個体の組織試料から得られた配列データであり、コントロール配列データが、該個体の別の組織、またはデータベースから得られた配列データである。１つの実施形態では、対象配列データが、細胞試料から得られた配列データであり、コントロール配列データが、別の細胞、またはデータベースから得られた配列データである。

１つの実施形態では、本発明の方法で用いる対象配列データおよび／またはコントロール配列データは、シーケンシングによって得られた塩基配列データである。シーケンシングの手法としては、サンガー法、マクサム・ギルバード法、単一分子リアルタイムシーケンシング（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ、ＭｅｎｌｏＰａｒｋ、Ｃａｌｉｆｏｒｎｉａ）、イオン半導体シーケンシング（例えば、ＩｏｎＴｏｒｒｅｎｔ、ＳｏｕｔｈＳａｎＦｒａｎｃｉｓｃｏ、Ｃａｌｉｆｏｒｎｉａ）、パイロシーケンシング（例えば、４５４、Ｂｒａｎｆｏｒｄ、Ｃｏｎｎｅｃｔｉｃｕｔ）、ライゲーションによるシーケンシング（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｃａｒｌｓｂａｄ、ＣａｌｉｆｏｒｎｉａのＳＯＬｉＤシーケンシング）、合成および可逆性ターミネーターによるシーケンシング（例えば、Ｉｌｌｕｍｉｎａ、ＳａｎＤｉｅｇｏ、Ｃａｌｉｆｏｒｎｉａ）、透過型電子顕微鏡法などの核酸イメージング技術、ナノポアシーケンシングなどがある。

１つの実施形態では、本発明の方法で用いる対象配列データおよび／またはコントロール配列データは、次世代シーケンシングによって得られた配列データであり得る。次世代シーケンシングとしては、シーケンシングバイシンセシス、パイロシーケンシング、ライゲーションによるシーケンシング、イオン半導体シーケンシング、ナノポアシーケンシングが挙げられる。次世代シーケンシングデータからの多型の検出においては、リファレンスへのマッピングやアセンブリによって精度が制限されていたため、本発明の方法を用いた場合に大きな利益が得られると考えられる。

１つの実施形態では、本発明の方法で用いる対象配列データおよび／またはコントロール配列データは、ジニトロフェニル化法、ヒドラジン分解法、カルボキシペプチダーゼ法、エドマン法もしくはそれらの方法を自動化する装置（ペプチドシーケンサーあるいはプロテインシーケンサー）を用いる方法、質量分析（例えば、タンデム質量分析計（ＭＳ／ＭＳ））を用いた方法（例えば、シーケンスタグ法）等から得られたアミノ酸配列データである。

本発明の対象配列データおよび／またはコントロール配列データの由来となる生物種としては、生物学的配列を有するものである以上は何ら制限されない。一部を例示すると、動物としては、ヒトもしくは非ヒト哺乳動物（例えば、マウス、ラット、ウサギ、ヒツジ、ブタ、ウシ、ウマ、ネコ、イヌ、サル、チンパンジー）、鳥類、爬虫類、両生類、魚類等の脊椎動物、無脊椎動物、例えば、昆虫、線形動物などを挙げることができる。植物としては、イネ、コムギ、トウモロコシ、ジャガイモ、オオムギ、サツマイモ、ソバ、シロイヌナズナ、ミヤコグサ、トマト、キュウリ、キャベツ、白菜、ナス、サトウキビ、ソルガム、リンゴ、ミカン、バナナ、桃、ポプラ、松、杉、被子植物、裸子植物、シダ、コケ、藻類などを挙げることができる。その他、真菌、細菌、ウイルス等でもよい。

さらに、これらの生物の一部分、例えば、組織、細胞等に由来する対象配列データおよび／またはコントロール配列データを解析し、多型を検出することも可能である。

（プログラム、記録媒体およびシステム）
１つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
ａ）対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
ｂ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、プログラムが提供される。プログラムはどのような言語で記述されてもよい。

別の実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
ａ）対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
ｂ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定し、該位置関係が異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、記録媒体が提供される。プログラムはどのような言語で記述されてもよい。１つの実施形態では、記録媒体は、内部に格納され得るＲＯＭやＨＤＤ、磁気ディスク、ＵＳＢメモリ等のフラッシュメモリなどの外部記憶装置でありうる。

別の実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定し、該位置関係が異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備える、システムが提供される。

次に、図５Ａの機能ブロック図を参照して、本発明のシステム１の構成を説明する。なお、本図においては、単一のシステムで実現した場合を示しているが、複数のシステムで実現される場合も本発明の範囲に包含されることが理解される。

本発明のシステム１０００は、コンピュータシステムに内蔵されたＣＰＵ１００１にシステムバス１０２０を介してＲＡＭ１００３、ＲＯＭやＨＤＤ、磁気ディスク、ＵＳＢメモリ等のフラッシュメモリなどの外部記憶装置１００５及び入出力インターフェース（Ｉ／Ｆ）１０２５が接続されて構成される。入出力Ｉ／Ｆ１０２５には、キーボードやマウスなどの入力装置１００９、ディスプレイなどの出力装置１００７、及びモデムなどの通信デバイス１０１１がそれぞれ接続されている。外部記憶装置１００５は、情報データベース格納部１０３０とプログラム格納部１０４０とを備えている。何れも、外部記憶装置１００５内に確保された一定の記憶領域である。

このようなハードウェア構成において、入力装置１００９を介して各種の指令（コマンド）が入力されることで、又は通信Ｉ／Ｆや通信デバイス１０１１等を介してコマンドを受信することで、この記憶装置１００５にインストールされたソフトウェアプログラムがＣＰＵ１００１によってＲＡＭ１００３上に呼び出されて展開され実行されることで、ＯＳ（オペレーションシステム）と協働して本発明の対象配列データにおいてコントロール配列データに対する多型を検出する方法の機能を奏するようになっている。もちろん、このような協働する場合以外の仕組みでも本発明を実装することは可能である。

本発明の実装において、対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程を行う際に、対象配列データ、対象配列データ配列中の少なくとも２ヶ所の部分配列のデータ、および／またはコントロール配列のデータは、入力装置１００９を介して入力され、あるいは、通信Ｉ／Ｆや通信デバイス１０１１等を介して入力されるか、あるいは、データベース格納部１０３０に格納されたものであってもよい。特定された位置データは、出力装置１００７を通じて出力されるかまたは情報データベース格納部１０３０等の外部記憶装置１００５に格納されてもよい。次に、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とを比較する工程は、プログラム格納部１０４０に格納されたプログラム、または、入力装置１００９を介して各種の指令（コマンド）が入力されることで、又は通信Ｉ／Ｆや通信デバイス１０１１等を介してコマンドを受信することで、この外部記憶装置１００５にインストールされたソフトウェアプログラムによって実行することができる。比較結果は、出力装置１００７を通じて出力されるかまたは情報データベース格納部１０３０等の外部記憶装置１００５に格納されてもよい。

データベース格納部１０３０には、これらのデータや計算結果、もしくは通信デバイス１０１１等を介して取得した情報が随時書き込まれ、更新される。各入力配列セット中の各々の配列、参照データベースの各遺伝子情報ＩＤ等の情報を各マスタテーブルで管理することにより、蓄積対象となるサンプルに帰属する情報を、各マスタテーブルにおいて定義されたＩＤにより管理することが可能となる。

データベース格納部１０３０には、上記計算結果は、配列に関する情報、例えば、生物学的情報、生化学的情報、医学的情報、例えば疾患、障害、生体情報等の既知の情報と関連付けて格納されてもよい。このような関連付けは、ネットワーク（インターネット、イントラネット等）を通じて入手可能なデータをそのまままたはネットワークのリンクとしてなされてもよい。

また、プログラム格納部１０４０に格納されるコンピュータプログラムは、コンピュータを、上記した処理システム、例えば、配列データの提供、部分配列サブセットの提供、位置データの算出、位置データの比較、多型の検出、多型の確認などの処理を実施するシステムとして構成するものである。これらの各機能は、それぞれが独立したコンピュータプログラムやそのモジュール、ルーチンなどであり、上記ＣＰＵ１００１によって実行されることでコンピュータを各システムや装置として構成させるものである。なお、本発明の例示においては、それぞれのシステムにおける各機能が協働してそれぞれのシステムを構成しているものとするが、この処理のためのプログラムもまた、それぞれ外部記憶装置または通信デバイスまたは入力装置を介して提供されうる。

本発明がシステムとして構成される場合は、対象配列データおよび／またはコントロール配列データ、それらの長さｋのサブセットのデータ、ならびに／あるいはそれらの位置データの提供は、まとめて配列データ提供部としてもよい。また、位置関係の比較および多型の検出は、配列データ計算部としてまとめてもよい。

また、図５Ｂに示されるように、クラスター構造を有する計算システムによって本発明の方法を実装してもよい。１つの実施形態では、システムはクラスター構成であり、ヘッドとノードからなる。ノードは検索の高速化を図るため、主記憶装置にＳＳＤを用いることができる。１つの実施形態では、ヘッド１台に対して複数のノード（例えば１２台）で運用することができる。１つの実施形態では、計算システムはクラスター構造を持ち、主コンピュータ（クラスターヘッド）に大容量記憶装置（ＨＤＤ）を搭載して解析データおよび結果を保存する。クラスターヘッドより、分割したデータを各ノードに送り計算を実行し、結果をクラスターヘッドに集約する。クラスターヘッド、ノード共に、中央制御素子（ＣＰＵ）、メモリ（ＲＡＭ）を搭載し、通信インターフェース（ＮＩＣ）を介してデータの通信を行い得る。ノードには高速での検索処理をするため、ソリッドステートドライブ（ＳＳＤ）を主記憶装置とすることができる。各ノードに搭載されるＣＰＵ、ＲＡＭ、ＳＳＤ等は、他のノードと共有されてもよく、物理的に分離していてもよい。

（組み合わせ）
本明細書において、上述のとおり置換、挿入、欠失、逆位または転座を検出するのに有用な方法を記載しているが、かかるプロセスは、置換、コピー数多型、ＳＴＲＰ、挿入、欠失、逆位または転座を検出するのに有用な以下に記載するプロセスと組み合わせて行うことができる。例えば、組み合わせた方法は、図６に示されるようなフローに従って実行することが可能である。

このようにプロセスを組み合わせることで、配列に存在し得る多くの種類の多型を網羅的に高い検出力で検出することが可能である。このようなプロセスの組み合わせは、例えば、複数のプロセスを同時に、並行して、または逐次的に行うことによって達成することが可能である。例えば、図５Ｂに示されるようなクラスター構造を有する計算システムによって、異なるノードを用いてそれぞれのプロセスを行うことにより、組み合わせの方法を実装することができる。

置換、コピー数多型、ＳＴＲＰ、挿入、欠失、逆位または転座を検出するのに有用なプロセスとしては、対象配列データの長さｋの部分配列のサブセットの各々の部分配列の出現頻度を提供し、コントロール配列データの長さｋの部分配列のサブセットの各々の部分配列の出現頻度を提供し（ｋは対象配列および該コントロール配列のいずれか短いほうの全長以下の整数である）、出現頻度の分布の比較に基づいて、多型を検出する工程を含むプロセスが挙げられる。このような工程によって、全長配列における位置を考慮せず、また、配列を連結することなく配列データを比較し、多型を検出することができる。プロセスは、部分配列中の長さｋ－ｘ（ｘはｋ未満の正の整数である）の配列部分が共通する配列ごとに、長さｘの部分について出現頻度の分布を算出し、出現頻度の分布の比較として、部分配列中の長さｋ－ｘの配列部分が共通する配列における、長さｘの部分の出現頻度の分布の差異の比較を含み得る。

一部の実施形態において、本発明の方法は、前記部分配列中の長さｋ－ｘの配列部分を、ユニークな配列ごとにグルーピングする工程を含む。これには、例えば、前記長さｋ－ｘの配列部分をソートする工程（例えば、前記長さｋ－ｘの配列部分を文字列としてソートする工程）が含まれ得る。一部の実施形態において、ｋの値は、前記対象配列データ等における偶然同一を排除する長さである。長さｘは、限定されるものではないが、好ましくは１～３であり、さらに好ましくは１～２であり、より好ましくは１である。１つの実施形態では、前記長さｘの部分が、前記部分配列の末端に存在する。

出現頻度の分布の差異の比較により、例えば、以下のような多型の検出が可能である。１つの実施形態では、前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さｘの部分の配列の出現頻度が異なる場合、該長さｘの部分の配列を、対象配列データにおけるコントロール配列データに対する多型として検出する。１つの実施形態では、前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さｘの部分の配列で最も高頻度のものが異なっている長さｋ－ｘの配列部分が存在する場合、該長さｘの部分の配列を、対象配列データにおける多型として検出する。

プロセスは、検出した多型について確認する工程をさらに含むことができる。確認は、例えば、検出された多型の部位について、リファレンス配列またはコントロール配列から作成したクエリ配列セットを用いて、対象配列データおよび／またはコントロール配列データとの比較を行うことによって行うことができる。クエリ配列セットは、リファレンス配列またはコントロール配列において前記多型に該当する部位の文字を異なる文字に置換した変異型クエリ配列セット、および／またはリファレンス配列またはコントロール配列において前記多型に該当する部位の文字を置換していない野生型クエリ配列セットを含み得る。プロセスは、対象配列データおよびコントロール配列データが塩基配列データである場合、検出された多型の部位について、対象配列データおよび／またはコントロール配列データの相補鎖の配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含むことができる。本発明の方法は、対象配列データおよびコントロール配列データが塩基配列データである場合、検出された多型の部位について、対象配列データおよび／またはコントロール配列データの対立遺伝子の配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含むことができる。

例えば、このようなプロセスを組み合わせた場合、本発明の１つの実施形態では、
対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
（１）ａ）該対象配列データの長さｋの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
ｂ）該コントロール配列データの長さｋの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
ｃ）対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、ＳＴＲＰ、挿入、欠失、逆位または転座を検出するプロセスと、
（２）ａ）該対象配列データの配列中の少なくとも２ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法が提供される。

本発明のさらなる実施形態では、例えば、
対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のｋ長の部分配列セットを作成する工程を含み、さらに、
（Ａ１）該対象配列データの長さｋの部分配列のサブセットを生成し、ユニークな長さｋの部分配列の出現頻度を提供する工程と、
（Ａ２）該リファレンス配列のｋ長の部分配列セットの、ユニークな長さｋの部分配列の出現頻度を提供する工程と、
（Ａ３）該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、ＳＴＲＰ、逆位または転座を検出する工程とを包含するプロセスと
（Ｂ１）該対象配列データの配列中の少なくとも２ヶ所のｋ長の部分配列をクエリとして、該リファレンス配列のｋ長の部分配列セットに対して検索を行い、該少なくとも２ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
（Ｂ２）該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
（Ｂ３）該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
（Ｂ４）該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法が提供される。

マイクロサテライトの検出は、従来のアライン法では、うまく検出できない場合があったが、本発明の双方向アライン法では正確に検出できるため、本発明の多型検出をマイクロサテライトの検出に用いることができる。本発明の方法は、ゲノム編集（例えば、ＣＲＩＳＰＲ／Ｃａｓ９、ＺＦＮ、ＴＡＬＥＮなど）における遺伝子破壊の検出や、オフターゲット改変（例えば、ＳＳＲのバリエーション）などの検出においても用いることができる。ｉＰＳ細胞などの培養細胞や、癌細胞などにおける体細胞変異の検出においても本発明の方法を利用することができ、操作および／または過剰細胞増殖による変異のモニタリングに有用であると考えられる。

（一般技術）
本明細書において用いられる分子生物学的手法、生化学的手法、微生物学的手法、バイオインフォマティクスは、当該分野において公知であり、周知でありまたは慣用される任意のものが使用され得る。

本明細書において「または」は、文章中に列挙されている事項の「少なくとも１つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「２つの値」の「範囲内」と明記した場合、その範囲には２つの値自体も含む。

本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。

以上、本発明の理解を容易にするために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本発明を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本発明を限定する目的で提供したのではない。従って、本発明の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。

（実施例１：イネリファレンスゲノムに対する多型の検出）
（材料および方法）
［解析用データ］
イネ品種日本晴の種子１粒をN1個体とし、発芽させて育て、N1個体に実った種子をN1S1とした。さらにその種子１粒を発芽させて育て、N1S1個体に実った種子をN1S2とし、同様にして、N1S6まで作成した。本実施例では、解析用のデータとして、N1S6と同じ世代の種子を３ヶ月培養して再分化した個体3M1の葉より採取したＤＮＡの塩基配列を用いた。リファレンス配列として、イネリファレンスゲノム（IRGSP1.0）を用いた。
なお、本明細書において、サンプルの表記は、大文字で表記しても小文字で表記しても同じものを指すことに留意されたい。

［データ解析の手順］
データ解析の手順は以下のとおりであった。

１．検索用リファレンスゲノムデータの作成
イネリファレンスゲノム（IRGSP1.0）の各染色体の塩基配列データの末端より１塩基ずつずらしながらｋ－ｍｅｒを取得した（本実施例では、ｋ＝２０）。ｋ－ｍｅｒ、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力した。ｋ－ｍｅｒの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力した。出力された順鎖、相補鎖の全データをｋ－ｍｅｒ配列で辞書順にソートした。このソートしたデータを、検索用リファレンスゲノムデータとした。

２．多型の検出
3M1のｆａｓｔｑデータからの配列データに対してsort_uniq処理を行った各ショートリード配列の両末端より５塩基内側塩基よりｋ－ｍｅｒを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、１０塩基内側の塩基からのｋ－ｍｅｒで二分探索をさらに行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、１５塩基内側の塩基からのｋ－ｍｅｒで二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。ここで両側とも、あるいは、片側がユニークな位置にヒットしなかった場合は、対象のショートリード配列の解析をあきらめ、次のショートリード配列について同様の検索を行った。なお、二分検索に代えて、実施例Ｂ１に記載されるJoin法でも同じ結果が得られることが確認されている。

両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のｋ－ｍｅｒの位置情報から対応するリファレンスの配列を取得し、上流側はショートリード配列の上に、下流側は下にｋ－ｍｅｒの部分が一致するように配置して、比較の起点とした。リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探した。

一致しなくなった塩基を挿入・欠失配列の境界塩基として染色体番号と位置を出力した。

（結果）
3M1において検出された多型の一部の例を以下に示す。

（上から配列番号１～４）

図の＃で始まる１行目は、＃に続いて上流側からマッチングした場合の染色体番号と境界部位（ジャンクション）の位置、下流側からマッチングした場合の染色体番号とジャンクションの位置、最後が挿入・欠失のサイズである。２行目は、左から、上流側のマッチングに起点に用いた部分配列（プライマー）、下流側の部分配列（プライマー）、最後が次世代シーケンサーの塩基配列の末端からプライマーまでの距離を示している。

プライマー配列をもとにリファレンス配列を上下に配置し、マッチしなくなる部分（矢印の終点）を探した。終点の位置がジャンクションである。挿入・欠失部位が繰り返し配列の場合は、上流側および下流側のジャンクションは互いにオーバラップする。この例では、ＡＴの２塩基の繰り返し配列が４回（８塩基分）欠失を起こしていることが検出されている。

（上から配列番号５～８）

この例では、第８染色体の２３３８８７３２から２３６６８８３８の部位にわたる２８０ｋｂの欠失が検出された。下線で示した２０塩基の配列のゲノム上の位置は、リファレンスゲノムを末端から１塩基ずつずらしながら２０塩基の配列を切り出し、配列と切り出した染色体番号と位置と向きを一列に記載したデータを、辞書順に２０塩基の配列でソートしたデータセットを用いて二分探索アルゴリズムにより染色体番号と位置および向きを取得することによって決定したものである。

（上から配列番号９～１２）

この例では、逆位が生じていることが検出された。

（上から配列番号１３～１６）

この例では、転座が生じていることが検出された。

（考察）
本発明の方法により、次世代シーケンシングのデータにおいて、アセンブリ等の工程を必要とせずにリファレンスゲノムに対する挿入、欠失、逆位、転座を検出することができることが実証された。

（実施例２：多型検出性能の評価）
（概要）
本発明の方法による多型検出性能を評価するため、イネリファレンス配列（IRGSP1.0）に対して変異を導入することによって次世代シーケンサー由来のデータを模倣したイネゲノムの配列データを対象配列データとして多型の検出を行った。

（材料および方法）
［解析用データ］
対象配列としては、イネの１２本の染色体にそれぞれ、上流側から３Ｍｂｐの位置に１塩基の欠失、上流側から６Ｍｂｐの位置に１塩基の挿入、上流側から９Ｍｂｐの部分に１００ｋｂの欠失を導入したリファレンス配列を用いた。加えて、各染色体の上流側から１０Ｍｂごとに１塩基の置換変異も導入した。

対象配列データとして、変異を導入したイネリファレンス配列から、１００塩基長の配列をゲノム上の位置で１塩基飛ばしに配列セットを取得し（５０倍ゲノム相当）、次世代シーケンサー由来の配列データを模倣した。この際に、シーケンサーのエラーを模倣するため、０．１％の確率で置換変異のノイズを導入した。

１．検索用リファレンスゲノムデータの作成
各染色体の塩基配列データの末端より１塩基ずつずらしながらｋ－ｍｅｒを取得した（本実施例では、ｋ＝２０）。ｋ－ｍｅｒ、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力した。ｋ－ｍｅｒの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力した。出力された順鎖、相補鎖の全データをｋ－ｍｅｒ配列で辞書順にソートした。このソートしたデータを、検索用リファレンスゲノムデータとした。

２．多型の検出
変異を導入したイネリファレンス配列から取得した１００塩基長の配列のセットを、ショートリード配列のセットとした。

sort_uniq処理を行った各ショートリード配列の両末端より５塩基内側塩基よりｋ－ｍｅｒを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、両末端より１０塩基内側の塩基からのｋ－ｍｅｒで二分探索をさらに行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、両末端より１５塩基内側の塩基からのｋ－ｍｅｒで二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。ここで両側とも、あるいは、片側がユニークな位置にヒットしなかった場合は、対象のショートリード配列の解析をあきらめ、次のショートリード配列について同様の検索を行った。

一致しなくなった塩基の次の塩基から５塩基の間に別の不一致があるかをさらに調べた。２塩基以上の別の不一致がある場合には、一致しなくなった塩基を挿入・欠失・逆位・転座配列の境界塩基として染色体番号と位置を出力し、別の不一致がない場合、再び比較を順に行い一致しなくなる塩基を探した。

（結果）
本発明の方法による多型検出の結果を、図２に示す。Ｃｈｒは染色体番号、Ｔｏｐはトップストランド（塩基配列の５’→３’の配列）、Ｂｏｔｔｏｍはボトムストランド（相補鎖）の挿入・欠失のジャンクション、Ｓｉｚｅは挿入・欠失のサイズ（欠失はマイナス表記）、Ｒｅａｄｓは同様の位置、サイズで検出された次世代シーケンサーのリードの数である。

図２に示されるように、リピート領域で単一の位置として決めることができなかった部分を除く２３ヶ所の挿入・欠失変異を検出できた。なお、５番染色体の９０００００１での２つの検出は同じ変異を示しているため、図２には２４の行が記載されている。

（実施例３：さらなるアルゴリズムの検討、従来法との比較）
（概要）
本発明の方法におけるアルゴリズムをさらに検討するため、実施例２で用いた手順に改変を加えて同様の解析を行った。

（材料および方法）
［解析用データ］
解析用のデータは、実施例２に記載のものと同一のものを使用した。

［データ解析の手順］
多型の検出において、リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探す際に、ｋ－ｍｅｒの部分から内側に５塩基は一致していて、その先に不一致が検出されたもののみ、正しいジャンクションとすることとした。それ以外の手順は実施例２と同様であった。

［従来法］
この分野で一般的に広く用いられている、Ｓａｍｔｏｏｌｓを用いて同じデータを処理した。

従来法による解析は、以下の工程によって行った。工程０は準備で１回のみ実施し、工程１から５はサンプル毎に実施した。
０．準備：リファレンス配列にインデックス付加
１．ショートリードデータのマッピング
２．ＳＡＭ形式をＢＡＭに変換（マッピング位置でソートも）
３．Ｓａｍｔｏｏｌｓで多型部位の検出

（結果）
検出の結果を図３に示す。実施例２と比較して、第４染色体における－６２８５８７５の誤検出が生じなかったことを除き、同様に多型が検出された。なお、５番染色体の９０００００１での２つの検出は同じ変異を示しているため、図３には２３の行が記載されている。

リファレンスゲノムに導入した変異について、Ｓａｍｔｏｏｌｓでは１９ヶ所検出された。今回考案した方法では２２ヶ所検出された。Ｓａｍｔｏｏｌｓと今回考案した方法での検出結果の比較を図７に示した。Ｓａｍｔｏｏｌｓでの結果は図８に示される。

ｋ－ｍｅｒに対応する位置がゲノム上に複数存在して位置が特定できない場合は、検出できていないが、両側のｋ－ｍｅｒで位置が特定できた場合は、検出することが可能であった。挿入・欠失部分が例えば、Ａが１０回連続している場合は、どのＡが欠失・挿入されたかまではわからないので、配列が連続した繰り返し塩基の場合はその繰り返しが終わった場所を検出することができている。

実施例２における第４染色体の誤検出が生じなくなったのは、実施例２ではｋ－ｍｅｒが一致したすぐ次の塩基がミスマッチでも検出していたところ、本実施例では、ｋ－ｍｅｒのヒットポジションより５塩基進んだところまでは完全一致したもののみを拾うようにしたためであると考えられる。

この結果から、本実施例において検討したアルゴリズムの改変は、多型検出の正確性をさらに向上させることが可能であることが示された。

本発明の方法と、Ｓａｍｔｏｏｌｓを用いた方法との検出結果をまとめた比較表を図７に示す。Ｓａｍｔｏｏｌｓでは、各染色体の位置９００００１における変異、すなわち１００ｋｂの欠失を全く検出することができていない。リード長を超える欠失について、ｂｗａ、ｓａｍｔｏｏｌｓの従来法では原理的に検出が不可能となってしまうためであると考えられる。

本実施例の結果から、本発明の方法を用いた場合、従来法では全く検出できなかった大きな欠失等の多型を検出することが可能であることが示された。このことから、本発明の方法は非常に利用価値が高いと考えられる。

（実施例４：ヒトゲノムにおける挿入、欠失、逆位、転座の検出）
（概要）
本発明の方法により挿入、欠失、逆位、転座の検出ができることを実証するため、ヒト配列データを用いて多型の検出を行った。

（材料および方法）
［解析用データ］
コントロール配列データとして、ヒトゲノムリファレンスhg38を用いた。配列は、ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/よりchr1～chr22とchrX、chrY、chrMの染色体データをダウンロードして用いた。alt、v1等のファイル名にコメントが付いているデータは除外した。

対象配列データとしては、ヒトゲノムの次世代シーケンス配列データNA18507をダウンロードして用いた。この配列データは、Ｉｌｌｕｍｉｎａ社の次世代シーケンサーで解析が行われたものであり、ＮＣＢＩに登録・公開されており、当該データをダウンロードして用いた。塩基配列セットの実験ＩＤのＵＲＬは、https://www.ncbi.nlm.nih.gov/sra/SRX016231であり、配列のアクセッション番号は、SRR034939～SRR034975の範囲であった。

［データ解析の手順］
データ解析の手順として、NA18507のｆａｓｔｑ配列より作成したsort_uniq配列を対象配列として、実施例３と同じ手順で解析した。

（結果）
結果として、NA18507のヒト配列データでは、１０リード以上カバーされた挿入、欠失、逆位、転座のリード数は、それぞれ、２５０２６、２９２０３、２３、１２であった。

（考察）
以前のNature BiotechnologyのNA18507を解析した論文では、NA18507における挿入、欠失、逆位、複合（Ｃｏｍｐｌｅｘ、挿入と欠失が同時に起こっているものや転座が含まれると考えられる）を、それぞれ、８７４５７、５６０７４、２３、５１６と報告している（http://www.nature.com/nbt/journal/v29/n8/fig_tab/nbt.1904_T1.html）。本報告は、NA18507の配列に対して全ゲノムｄｅｎｏｖｏアセンブリを行って得られたスキャホールドを用いて、ヒトリファレンスゲノムに対して多型を検出したものである。

本発明の方法を用いて検出された多型の数は、逆位に関して一致した。挿入・欠失は上記論文の方が多いが、これは、閾値を小さく設定されているためと思われる。論文の変異位置との比較を試みたが、論文の補足データでの位置の比較は論文のデータが不十分（逆位と転座の記載がない）で詳しい検証ができなかった。

逆位、転座に関しては、このような頻度で起こっていては生存できないと考えられるため、サンプル調製時のアーティファクトである可能性が考えられる。ただし、このＤＮＡサンプルは培養細胞から得られたもののようであるため、長期間の培養の間に実際に起こっている可能性も考えられる。

本発明の方法により、次世代シーケンシングのデータにおいて、アセンブリ等の工程を必要とせずにリファレンスゲノムに対する挿入、欠失、逆位、転座を検出することができることが実証された。

（実施例５：同一個体の組織間での多型の検出）
（概要）
本発明の方法により、同一個体の組織間での多型の検出が可能であることを実証する。

（材料および方法）
［解析用データ］
ＮＣＢＩのＳＲＡよりfastq-dumpを用いて配列データを取得し、組織間の多型の検出に用いた。本データは、Texas Cancer Research Biobank Open Access Data Sharing: Genome Projectが登録したデータであり、詳細データについて、以下のＵＲＬ：https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP060654において提供されている（Becnel, L. et al. NCBI Sequence Read Archive PRJNA284598 (2015).）。

配列データの起源のサンプルは２種類で、配列データ名とサンプルの内容は以下の通りであった。
SRR2096532 コントロール血液（Ｎｏｒｍａｌ）
SRR2096535 濾胞性リンパ腫（９６９０／３：Ｆｏｌｌｉｃｕｌａｒｌｙｍｐｈｏｍａ）
リード数（配列長１０１塩基）
SRR2096532 1300353764
SRR2096535 1339310760
sort_uniqの配列数
SRR2096532 2056683322
SRR2096535 2181081390

SRR2096532（正常組織）およびSRR2096535（腫瘍組織）を対象配列データとして用いて解析を行った。なお、コントロール配列データとして、ヒトゲノムリファレンスｈｇ３８を用いた。配列は、ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/よりchr1～chr22とchrX、chrY、chrMの染色体データをダウンロードして用いた。alt、v1等のファイル名にコメントが付いているデータは除外した。

［データ解析の手順］
データ解析の手順として、上記ｆａｓｔｑ配列より作成したsort_uniq配列を対象配列として、実施例３と同じ手順で解析した。

［従来法］
実施例２に記載される手順と同様に、この分野で一般的に広く用いられている、ｂｗａ＋Ｓａｍｔｏｏｌｓを用いて同じデータを処理した。ｂｗａ＋Ｓａｍｔｏｏｌｓでは、置換変異と挿入・欠失変異が同時に出力される。

（結果）
上記SRR2096532（正常組織）およびSRR2096535（腫瘍組織）において各方法において検出された多型については以下の表にまとめられる。なお、ＰＥＤ（ＰｏｌｙｍｏｒｐｈｉｃＥｄｇｅＤｅｔｅｃｔｉｏｎ）は本発明の方法を指す。

フィルターをかける前の総数では、ＰＥＤの方が多く検出されている。これは、１リードのみに検出される多型もカウントしているためで、多くがシーケンサーのリードエラーと考えられる。２リード以上での件数はｂｗａ＋Ｓａｍｔｏｏｌｓを下回り５リード以上では１／３の件数となっている。従来法では、変異があると検出されているものの実際には変異が起こっていない場合が多くあり、マイクロアレイ法等別の方法での確認が必要であるがＰＥＤ法では、すべてのアラインメントを出力してから数えているので、このノイズ部分が十分に除去されていると考えられる。

ＰＥＤで癌組織のみに検出された変異のうち、５リード以上のものは８４３８部位検出された。これらの変異は、組織中のかなりの部分で入っていると考えられる。内訳は欠失が最も多く４５０７部位、続いて挿入の３７５９部位、転座、逆位はそれぞれ１４１部位、３１部位検出された。８４３４部位のうち、３３５５部位はｂｗａ＋Ｓａｍｔｏｏｌｓで検出できない変異であった。特に長い欠失は従来法では検出ができなかったが、本法で２８８部位の１ｋｂ以上の欠失が検出された。なお、ＰＥＤの検出部位数に関しては、同じ位置で挿入あるいは欠失と、転座あるいは逆位が検出された場合は、挿入あるいは欠失を優先してカウントした。これは、挿入あるいは欠失の結果、ゲノムのまったく別の部位で同一の塩基配列が出現する場合があるためである。

検出されたリード数は幅広く分布していたため、変異部位ごとに組織に占める割合が異なることがわかる。これは、癌細胞が増殖する過程で常に新たな変異が導入されていることを示している。本発明の方法によって、大きな挿入・欠失を含め、転座、逆位等の構造的な多型の検出を行った結果、癌組織では、想像以上にＤＮＡの切断が起こり、修復の過程で多くの挿入・欠失・逆位・転座変異が起こっていることがわかった。

以下に本発明の方法により検出された癌特異的な転座の一例を示す。異なる複数のリードでゲノム上の同一部位での転座が検出されている。

（上から配列番号１７～２４）

本発明の方法は、挿入・欠失・逆位・転座変異検出に関して従来法では検出が難しかった大きな欠失や逆位・転座が検出できることに加えて、検出結果自体をアラインメントとして目視で確認できることが１つの特徴となっている。

（実施例Ａ１：多型検出のための表示方法）
（概要）
本発明の方法を使用して、対象配列データの両末端あるいはその近傍部分と一致するコントロール配列を、それぞれ対象配列データの上下に配置し、対象配列とコントロール配列が、それぞれ不一致になる部分を表示することができることを実証する。また、このような表示が、多型の検出において有用であることを示す。

（材料および方法）
［解析用データ］
コントロール配列データとしてヒトリファレンスゲノム配列（ｈｇ３８）を用いた。

対象配列データとして、データベース上に存在する次世代シーケンシングデータであるＣＥＰＨ１４６３Ｆａｍｉｌｙの母親の配列（ＥＲＲ１９４１４７）を用いた。

［データ解析の手順］
検索用リファレンスゲノムデータを、実施例２と同様に作成した。

変異を導入したイネリファレンス配列から取得した１００塩基長の配列のセットを、ショートリード配列のセットとした。

実施例２と同様にsort_uniq処理を行った各ショートリード配列の両末端より５塩基内側塩基よりｋ－ｍｅｒを取得しリファレンスゲノムデータに対してマッピング（マッピングの詳細は、実施例Ｂ１を参照のこと）を行い、両側ともユニークな位置にヒットしたかを判定した。

両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のｋ－ｍｅｒの位置情報を取得した。ショートリード上のｋ－ｍｅｒ配列間の距離と、リファレンスゲノム上のｋ－ｍｅｒ配列間の距離が異なる場合、該当部分の配列を取得し、当該ショートリード配列と整列させ、表示した。

対象配列データの上側に、ショートリード配列上の５’側のｋ－ｍｅｒの位置が一致するようにリファレンスゲノムの配列が表示され、対象配列データの下側に、ショートリード配列上の３’側のｋ－ｍｅｒの位置が一致するようにリファレンスゲノムの配列が表示される。

（結果）
これにより、プログラムからは、一例として、

（上からそれぞれ配列番号２５～２９）
のように出力される。

この画像中の

（上からそれぞれ配列番号２７～２９）
の部分から、通常の変異検出では検出しにくい反復配列であるＧＴの繰り返し中で１つの反復（２塩基）が欠失していることを検出することができる。

他の部分の例としては、

（上からそれぞれ配列番号３０～３９）
という表示が出力される。この例では、変異の検出しにくいポリＡ領域において、一塩基の挿入および欠失をそれぞれ検出することができる。

（結果）
上記の表示方法を採用することによって、通常検出しにくい変異を視覚的にも検出することができる。従来法では、例えばポリＡの一番最後のＡが欠失しているといった表記がされるが、実際には多数のＡのうちどれが欠失したかはわからない。上記のように表現すれば、どのＡかはわからないものの、ジャンクションに挟まれた部分のどれかで欠失が起こったということを表現することができる。このように順鎖、相補鎖双方のアラインしたジャンクションの位置を示すことによる変異の表現は、変異の表現方法自体として新規であり、有用なものであると言える。また、必ずしもアラインメントを示さなくとも、ジャンクションの位置を示すことによる表示（上記例における＃で始まる行の表記）も有用である。

（実施例Ｂ１：マッピング方法）
（概要）
本実施例では、対象配列の両末端あるいはその近傍部分のゲノム上の位置を高速で決定する方法（マッピング方法）について実証する。

（材料および方法）
［手順］
１．リファレンス配列を末端より１塩基ずつ起点を進めながら起点から始まる２０塩基の部分配列を得て、その配列、染色体番号、起点の位置、向きを１行として出力する。向きはリファレンス配列と同じ向きの場合にはｆ、逆向きの場合はｒと表記して出力した。また、配列の相補鎖に関しても同様に出力する。切り出した配列中にＡＣＧＴ以外の文字、例えば、Ｎ等が含まれている配列は出力しない。

２．出力された部分配列と位置情報を含む配列データを辞書順に整列する。同じ部分配列が複数行に現れた場合は、その配列はリファレンス配列上に複数存在することになり、単一の位置として決定するための配列にはならないので廃棄し、ユニークな配列のみからなるリファレンス部分配列の位置情報データを作成する。一例としては、以下のように整列される：

辞書順に整列されたリファレンスゲノム部分配列データ(一部)（上からそれぞれ配列番号４０～５０）

３．対象配列およびその相補鎖配列データから任意の２０塩基を得て、得られた２０塩基、対象配列、２０塩基の対象配列中の起点の順に並べて一行に出力する。

４．出力された対象配列データを辞書順に整列する。

５．リファレンス部分配列位置情報データと整列された対象配列データを読み出し、双方の２０塩基の部分配列が一致した場合、双方のデータを合わせて一行に出力する。

６．双方のデータの最後まで達した時、結果的に対象配列のリファレンス配列上の位置を知ることができる。対象配列のゲノム上の位置は、リファレンス配列のゲノム上の位置と対象配列から得られた２０塩基の対象配列上の開始位置から割り出すことができる。

７．リファレンス部分配列位置情報データファイルをｒｅｆｅｒｅｎｃｅ、対象配列データファイルをｔａｒｇｅｔとし、ｕｎｉｘのコマンドの
ｊｏｉｎｒｅｆｅｒｅｎｃｅｔａｒｇｅｔ
を実行し結果を得る。

８．対象データの５’末端側、３’末端側の２ヶ所のゲノム上の位置を決め、実施例Ａ１に記載される手順により、配列を整列して表示する。表示により、挿入・欠失・転座・逆位および置換変異を検出する。

［配列データ］
リファレンス配列として、ヒトリファレンスゲノム配列（ｈｇ３８）を用いた。

対象配列データとして、データベース上に存在する次世代シーケンシングデータであるＥＲＲ１９４１４７の配列を用いた。

（結果）
手順の７．において、ヒトリファレンスゲノム配列（ｈｇ３８）とＥＲＲ１９４１４７の配列をｊｏｉｎコマンドでマップした結果の一部を以下に示す。

（上からそれぞれ配列番号５１～６６）

ｔａｒｇｅｔのファイルに関しては、次世代シーケンサーの配列データ（２カラム目）の６塩基目からの２０塩基を１カラム目に配置し、６塩基目から切り出したことを３カラム目に表記している。ｊｏｉｎコマンドを実行すると、４カラム目以降に染色番号、位置、向きが対応づけられ、この場合は、配列データの６塩基目の位置がわかる。

対象配列の１１番目の塩基を起点とした２０塩基でマッピングした後、再び７２番目の塩基を起点とした２０塩基でマッピングした結果の一部を以下に示す。

（上からそれぞれ配列番号６７～８０）

この結果を用いてそれぞれの位置よりリファレンスゲノムと比較して不一致の部分を検出することにより、挿入・欠失・転座・逆位・置換変異が検出できる。

上記配列のマッピングにかかった時間あるいはかかると推定された時間は以下のとおりであった。

当該ベンチマークに用いたハードウェアは、ＩｎｔｅｌＣｅｌｅｒｏｎＣＰＵＧ１８４０＠２．８０ＧＨｚ、８ＧＢＲＡＭおよび作業ディレクトリに１ＴＢＳＳＤを有していた。本法について、一次ディレクトリのために追加のＨＤＤを用いた。本法については、ＥＲＲ１９４１４７のｓｏｒｔ＿ｕｎｉｑデータ全て（２，４４９，６３０，７７６リード）をマッピングした時間を示した。線形探索および二分探索については、１０リードおよび１０，０００，０００リードを分析し、全体の時間をそれぞれ推定した。ｂｗａについては、ペアドｆａｓｔｑファイルからの最初の１０，０００，０００リードを使用し、全体の時間を推定した。

（考察）
これまでの方法では、対象配列の部分配列をリファレンスゲノム配列に対して検索を行っていた。検索のアルゴリズムとして、線形探索、二分探索、ハッシュ法などがあり、また、最近ではＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒ変換（ブロックソート）を用いたマッピング手法が開発されているが、今回考案した方法は、リファレンスゲノム配列上を探索・走査する必要はなくリファレンスと対象のファイルを順に読み比較するだけで位置情報が得られるので、圧倒的に高速に処理できる。

本実施例の方法でマッピングを行い、対象配列データのリファレンス上の位置を特定することで、実施例Ａ１の表示方法によって変異を確認することが可能である。

（実施例Ｂ２：マッピング方法の変法の例）
（概要）
本実施例では、対象配列の両末端あるいはその近傍部分のゲノム上の位置を高速で決定する方法（マッピング方法）の変法の例について実証する。

（材料および方法）
［配列データ］
リファレンス配列として、ヒトリファレンスゲノム配列（ｈｇ３８）を用いた。

対象配列データとして、ＥＲＲ１９４１４７のリードデータを用いた。

［手順］
ゲノム参照配列の各部位から１９塩基長の配列を切り出し、１９塩基長配列、染色体番号、位置、向きの順に１行に出力してアルファベット順にソートしたファイルｒｅｆをマッピングに用いる。

（上からそれぞれ配列番号８１～９０）

対象配列として、それぞれ１００塩基のリードデータの各部位から２０塩基長の配列を切り出し、２０塩基の配列を対象の塩基配列の３’末端に到達するまで繰り返し出力（k-mer_file）した。出力された２０塩基の配列を辞書順にソートし、同一配列は一つにまとめて、出現回数を配列と共に表記したファイルを作成した。

さらに、配列の５’末端より１９塩基の配列を得て、３’末端の塩基すなわちｋ番目の塩基をＡ、Ｃ、Ｇ、Ｔの出現回数として表記したデータに変換した。「１９塩基長の配列Ａの回数Ｃの回数Ｇの回数Ｔの回数」という形式で出力した。

実施例Ｂ１と同様にして、リファレンス配列の１９塩基長のデータと、対象配列の１９塩基長の配列のデータから、対象配列の各１９塩基長配列のリファレンス配列上の位置を導出した。

（結果）
参照配列と対象配列の２０番目の塩基の頻度データをjoinコマンドで1行に出力したsnpデータファイル(snp)とreferenceファイルをjoinコマンドで1行に出力すると結果的に、各１９塩基の配列のリファレンス配列上の開始位置が特定できた。

（上からそれぞれ配列番号９１～９７）

このようにjoin reference snpを実行すると配列の後ろに染色体番号、位置、向きに続いて参照配列と対象配列の２０番目の塩基頻度が出力された。これにより、例えばAAAGCAAATTTATTTGTTTは第2染色体の144844205から始まるので、最終塩基のGの位置は144844224で、対象配列ではGおよびTのヘテロ型の多型となっていることがわかった。

（上からそれぞれ配列番号９１～９７）

（実施例Ｃ１：変異の確認方法）
（概要）
本実施例では、本明細書の他の箇所に記載される方法によって検出された変異の存在を確認する方法の例を実証する。

対象配列データとして、ＥＲＲ１９４１４７を用いた。

なお、双方向アライン法（実施例Ａ１）によって、第１染色体の９１６０１０の部位のＧからＴへの変異が検出されている。

［手順］
１．リファレンスゲノム配列との不一致が置換変異である場合は、対象配列と同じ長さで置換塩基を含むすべての組み合わせの配列セットと、同様の野生型塩基を含む配列セットをつくり、配列、変異部位の染色体番号、位置、対象配列・参照配列の表記、変異型・野生型の表記の順に出力する。

２．作成されたファイルを辞書順に整列する。

３．対象配列とその相補鎖配列データを辞書順に整列して、同一行は一行のみ出力して、ソートされた単一行となったデータファイル（ｓｏｒｔ＿ｕｎｉｑファイル）と、ソートされた変異型、及び、野生型のマップ用データファイルを順に比較して、対象配列が存在するデータのみ出力する。
ｕｎｉｘのコマンドでは、
ｊｏｉｎ対象データマップ用データ
で実現できる。

４．対象配列に対する参照配列データ、参照配列データが存在しない場合は、リファレンスゲノム配列データを対象配列と同じ長さで切り出したデータを参照配列データとして上記１～３の工程を実行する。

５．それぞれ、参照配列、対象配列に対して野生型と変異型のデータがそれぞれの位置で何個検出されたかをまとめる。基本的には、参照配列では野生型が大多数、ホモ型変異の場合は対象配列で変異型が大多数になる。またヘテロ型の場合は対象配列で野生型と変異型が半数ずつの分布になる。

挿入・欠失・転座・逆位変異の場合は、実施例Ａ１の表記法での上流側、下流側のジャンクションの間の配列を含む対象配列と同じ長さのリファレンスゲノム配列セットを作り、１．～３．のマッピング操作を行うことで、同様の確認ができる。

（結果）
１．の工程における出力の一部を以下に示す。

下線の塩基が対象の塩基で、対象塩基配列（ターゲット）と同じ長さにリファレンスから切り出した配列、染色体番号、位置、野生型塩基、変異型塩基に続き、野生型はｔｗ、変異型はｔｍと出力する。変異型では切り出した配列の対象の塩基を変異型としている。

（第１染色体の９１６０１０の部位のＧからＴへの変異の確認用データセットの一部）（上からそれぞれ配列番号９８～１０９）

３．の工程の出力として、ｊｏｉｎｔａｒｇｅｔｍａｐｄａｔａを実行した結果の一部を以下に示す。ｔａｒｇｅｔに存在するデータのみが出力された。

（上からそれぞれ配列番号１１０～１１８）

５．の工程の出力として、前工程で出力されたデータから染色体番号、位置、野生型塩基、変異型塩基、ｔｗ（野生型）、ｔｍ（変異型）の値を抽出してその出現回数（左端）を調べた。出現回数は、データをソート後に、Ｕｎｉｘコマンドｕｎｉｑ－ｃを実行することによって得た。

最終的に、染色体番号、位置、リファレンス塩基、変異型塩基、検索時の検出回数、参照配列（リファレンス）に対する野生型検出数、変異型検出数、対象配列に対する野生型検出数、変異型検出数。参照配列に対しては、大部分野生型で、対象配列で野生型と変異型が半々の場合はヘテロ型（Ｈ）、変異型が大部分の場合はホモ型（Ｍ）を右端に表示している。

当該結果の出力について、ＥＲＲ１９４１４７でＳＮＰの可能性があると予想された部位４４，４５７，１５４ヶ所をすべて調べた場合、本実施例に記載される方法では１１６時間４６分５８秒かかった。なお、ＩｎｔｅｌＣｅｌｅｒｏｎＣＰＵＧ１８４０＠２．８０ＧＨｚ、８ＧＢＲＡＭおよび作業ディレクトリに１ＴＢＳＳＤを有するコンピュータ環境での計算結果である。ディスクアクセスの高速化のために１ＴＢのＳＳＤを搭載しているが、ＣＰＵおよびメモリ等は、いわゆるＬｏｗＥｎｄ（入門機）で用いられる器材であり、限定的な性能のコンピュータでも本実施例に記載される方法における計算を行うことが可能であることを示している。

なお、二分探索法で確認した場合には、上記データの最初の１０万件を計算するのに、１６，８３２秒かかった。すべて調べた場合には８６日１４時間３７分８秒かかると推定される。本法の適用により、二分検索法に比べておよそ１７．８倍の高速化がされた。

なお、本実施例では、ＧからＴへの置換の確認を説明したが、本方法によって、置換以外にも、挿入、欠失、逆位および転座の存在の確認を行うことができた。

（考察）
本明細書に記載される方法における確認工程において、本実施例の方法を用いることで、二分探索法を用いた場合と比較して、格段に高速で解析して結果を得ることができる。二分探索法では、毎回の探索でディスクに対するランダムアクセスが発生するため、ＳＳＤを用いた場合格段に効率が上がる。理論に拘束されることを望むものではないが、これに対して、本実施例に記載されるＪｏｉｎ法は、ファイルの最初からデータを順に読んで（シーケンシャルリード）比較するため、ＳＳＤを用いず通常のＨＤＤで計算しても、さほど効率は低下しないという利点もある。

（関連出願）
本出願は、２０１７年７月２４日に出願された特願２０１７－１４２７８２号の優先権の利益を主張し、当該出願は、全ての目的において、その開示全体が本明細書において参考として援用される。さらに、本明細書において、本出願人により本出願と同日に出願された「多型検出法」との名称の出願（整理番号ＮＧ０１１ＰＣＴ／Ｆ５－１８ＰＣＴ０７４）およびその基礎出願である２０１７年７月２４日に出願された特願２０１７－１４２７８１号（整理番号Ｊ１－１７３６９１２９）は、全ての目的において、その開示全体が本明細書において参考として援用される。

塩基配列解析で多型を検出するすべての分野で利用が可能で、ＤＮＡ育種利用の他、臨床検査、ｉＰＳ細胞の検査、メタゲノム解析、発現解析等、幅広い分野で利用することができる。

配列番号１～１６：実施例１で用いられたイネ塩基配列
配列番号１７～２４：実施例５で用いられたヒト塩基配列
配列番号２５～３９：実施例Ａ１で用いられたヒト塩基配列
配列番号４０～８０：実施例Ｂ１で用いられたヒト塩基配列
配列番号８１～９７：実施例Ｂ２で用いられたヒト塩基配列
配列番号９８～１１８：実施例Ｃ１で用いられたヒト塩基配列

Claims

対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、方法。
前記コントロール配列データが、リファレンス配列データである、請求項１に記載の方法。
前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項１または２に記載の方法。
前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項１～３のいずれか１項に記載の方法。
前記多型が、挿入、欠失、逆位、転座、または置換である、請求項１～４のいずれか１項に記載の方法。
目的とする多型があると判定する前記工程が、
前記部分配列が、前記コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、かつ、向きが前記対象配列データ上のものと異なっている場合、逆位が存在すると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より短い場合、欠失が存在すると判定すること、および／または
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より長い場合、挿入が存在すると判定すること
を含む、請求項５に記載の方法。
前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することを含む、請求項１～６のいずれか１項に記載の方法。
前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定することを含む、請求項１～６のいずれか１項に記載の方法。
前記対象配列データにおける前記部分配列部位間の文字を、対応する前記コントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する前記工程が、
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索することと、
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することとを含む、請求項１～８のいずれか１項に記載の方法。
前記一致する文字を探索することが、１文字ずつの探索である、請求項９に記載の方法。
一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含む、請求項９または１０に記載の方法。
一致しない文字の先の文字が一致するか探索した際に、
その先の２～１０文字において４０％以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、
それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続する、請求項１１に記載の方法。
一致しない文字の先５文字の間に２文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定する、請求項１２に記載の方法。
対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
ａ）対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
ｂ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、プログラム。
対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
ａ）対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
ｂ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、記録媒体。
対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｄ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備え、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、システム。
対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
ａ）対象配列データの配列中の少なくとも２ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
ｂ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
ｃ）対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、該対象配列データとコントロール配列を整列させる工程であって、
対象配列データと、第１の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、第２の部分配列の位置が一致するようにコントロール配列を整列させる、工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、方法。
前記コントロール配列データが、リファレンス配列データである、請求項１７に記載の方法。
前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項１７または１８に記載の方法。
前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項１７～１９のいずれか１項に記載の方法。
前記多型が、挿入、欠失、逆位、転座、または置換である、請求項１７～２０のいずれか１項に記載の方法。
前記整列させる工程が、整列の結果を表示することを含む、請求項１７～２１のいずれか１項に記載の方法。
対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示される、請求項２２に記載の方法。
対象配列のコントロール配列上の位置を決定する方法であって、
ａ）コントロール配列中の複数のｋ長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、
ｂ）対象配列中の複数のｋ長の部分配列について、配列および対象配列中の位置を出力する工程と、
ｃ）ａ）およびｂ）で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程と
を含み、ここで、ｋは、対象配列の長さを超えない長さであり、該対応付ける工程は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
前記コントロール配列データが、リファレンス配列データである、請求項２４に記載の方法。
前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項２４または２５に記載の方法。
前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項２４～２６のいずれか１項に記載の方法。
前記対象配列データと前記コントロール配列を整列させる工程であって、
対象配列データと、対象配列の第１の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、対象配列の第２の部分配列の位置が一致するようにコントロール配列を整列させる、工程をさらに包含する、請求項２４～２７のいずれか１項に記載の方法。
前記整列させる工程が、整列の結果を表示することを含む、請求項２４～２８のいずれか１項に記載の方法。
対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示される、請求項２９に記載の方法。
前記整列に基づき、前記対象配列データにおける前記コントロール配列データに対する多型を検出する工程をさらに包含する、請求項２８～３０のいずれか１項に記載の方法。
コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法であって、
ａ）対象配列のＬ長の部分配列データのセットと、コントロール配列のＬ’長の部分配列データのセットを提供する工程と、
ｂ）リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および／または転座に関する情報と、対象配列のＬ長、または、コントロール配列のＬ’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、ＬとＬ’が異なる場合、複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとが提供される、工程と、
ｃ）リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および／または転座に関する情報と、対象配列のＬ長、または、コントロール配列のＬ’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、ＬとＬ’が異なる場合、複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとが提供される、工程と、
ｄ）ｂ）およびｃ）で得られた複数のＬ長の部分配列を含むセットと、複数のＬ’長の部分配列を含むセットとを辞書順にソートする工程と、
ｅ）対象配列のＬ長の部分配列データのセットと、該辞書順にソートしたＬ長の部分配列とを比較し、対象配列のＬ長の部分配列データのセット中に存在する辞書順にソートしたＬ長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
ｆ）コントロール配列のＬ’長の部分配列データのセットと、該辞書順にソートしたＬ’長の部分配列とを比較し、対象配列のＬ’長の部分配列データのセット中に存在する辞書順にソートしたＬ’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
を含み、
ここで、Ｌは、該対象配列の全長以下の整数であり、Ｌ’は、該コントロール配列の全長以下の整数である、方法。
前記対象配列および前記コントロール配列が塩基配列である、請求項３２に記載の方法。
前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項３２または３３に記載の方法。
前記コントロール配列が、次世代シーケンシングによって得られた配列データである、請求項３２～３４のいずれか１項に記載の方法。
前記コントロール配列が、リファレンス配列であり、前記Ｌ’長の部分配列データのセットが、リファレンス配列のＬ’長の部分配列の集合である、請求項３２～３５のいずれか１項に記載の方法。
前記変異が、挿入、欠失、逆位、転座、または置換である、請求項３２～３６のいずれか１項に記載の方法。
コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも２ヶ所の部分配列と同一の少なくとも２ヶ所の部分配列を含み、
コントロール配列を、第１の部分配列の位置が一致するように対象配列と整列させることと、
コントロール配列を、第２の部分配列の位置が一致するように対象配列と整列させることと
を含み、前記整列させることは、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型が表現される、請求項３８に記載の方法。
対象配列データの上側に、対象配列の第１の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第２の部分配列の位置が一致するようにコントロール配列が表示される、請求項３８または３９に記載の方法。
前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型部位と多型でない部位の境界が表現される、請求項３８～４０のいずれか１項に記載の方法。
コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも２ヶ所の部分配列と同一の少なくとも２ヶ所の部分配列を含み、
対象配列中の多型に対し、
コントロール配列を第１の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、
コントロール配列を第２の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と
を識別子として割り当てることを含み、該対象配列と該コントロール配列との整列は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中のＮヶ所の部分配列と同一のＮヶ所の部分配列を含み、ここで、Ｎは２以上の整数であり、
１≦ｎ≦Ｎである整数ｎのそれぞれについて、コントロール配列を、第ｎの部分配列の位置が一致するように対象配列と整列させることを含み、該対象配列と該コントロール配列との整列は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。